HPC Sıkça Sorulan Sorular (SSS)
HPC altyapısı, kiralama, bakım ve kurulum hakkında en çok sorulan soruların cevapları.
Yüksek Başarımlı Hesaplama (HPC) sistemlerine ilgi giderek artıyor; ancak bu alanda ilk adımı atmak isteyenler için karmaşık terimler ve teknik detaylar kafa karıştırıcı olabiliyor. Bu yazıda müşterilerimizin ve potansiyel kullanıcıların bize en sık sorduğu soruları derleyerek kapsamlı ve pratik yanıtlar verdik.
HPC Nedir ve Normal Sunuculardan Farkı Nedir?
Temel Tanım
HPC (High Performance Computing — Yüksek Başarımlı Hesaplama), birden fazla işlemcinin veya sunucunun birlikte çalışarak tek bir iş yükünü son derece hızlı tamamlamasını sağlayan hesaplama altyapısıdır. Bilimsel simülasyonlar, derin öğrenme eğitimi, finansal modelleme, mühendislik analizleri ve genomik araştırmalar gibi hesaplama yoğunluğu çok yüksek işler için tasarlanmıştır.
Standart bir kurumsal sunucu, ofis uygulamaları ve web servisleri gibi birbirinden bağımsız küçük iş yüklerini karşılar. HPC sistemleri ise bunun aksine, tek bir hesaplama problemini binlerce çekirdeğe bölerek paralel olarak çalıştırır ve sonuçları birleştirir. Bu yaklaşım, günler sürebilecek hesaplamaları saatlere, hatta dakikalara indirebilir.
Donanım Farkları
| Özellik | Kurumsal Sunucu | HPC Kümesi |
|---|---|---|
| İşlemci (CPU) | 2–4 soket, genel amaçlı | 2–8 soket, yüksek çekirdek sayılı (64–128 çekirdek/node) |
| Bellek | 64 GB – 1 TB DDR4/DDR5 | 256 GB – 6 TB, ECC zorunlu |
| Ağ | 1–25 GbE | InfiniBand HDR (200 Gb/s) veya OmniPath |
| Depolama | SAS/SATA RAID | Paralel dosya sistemi (Lustre, GPFS/BeeGFS) |
| GPU | Opsiyonel, ofis tipi | NVIDIA A100/H100, AMD MI300X serisi |
| İş zamanlayıcı | Yok | SLURM, PBS Pro, LSF |
HPC Sistemini Satın mı Almalıyım, Kiralamalı mıyım?
Bu soru, kurum büyüklüğüne ve iş yükünün sürekliliğine göre değişir.
Satın alma uzun vadede daha ekonomik olabilir; ancak yüksek başlangıç yatırımı (tipik olarak birkaç milyon TL ile onlarca milyon TL arasında), veri merkezi alanı, soğutma altyapısı, elektrik maliyeti ve sürekli bakım ekibi gerektirir. Donanım 4–6 yılda eskidiğinden teknoloji borcuyla da mücadele etmek gerekir.
Kiralama ve yönetilen HPC hizmetleri ise sermaye harcaması yerine işletme gideri modeli sunar. Başlangıç maliyeti düşüktür; ölçek büyütme veya küçültme esnekliği sağlar; bakım, güncelleme ve izleme hizmet sağlayıcısına aittir.
Genel kural olarak: iş yükünüz yılın yalnızca belirli dönemlerinde yoğunlaşıyorsa ya da pilot aşamada keşif yapıyorsanız kiralama, sürekli ve öngörülebilir bir iş yükünüz varsa satın alma daha mantıklıdır.
SLURM Nedir? Neden Kullanılır?
SLURM (Simple Linux Utility for Resource Management), HPC kümelerinde iş zamanlayıcı olarak kullanılan açık kaynaklı bir yazılımdır. Kullanıcıların hesaplama kaynaklarını (CPU, GPU, bellek, ağ bant genişliği) adil biçimde paylaşmasını sağlar; işleri sıraya alır ve uygun node’lara dağıtır.
Aşağıda temel bir SLURM iş betiği örneği verilmiştir:
#!/bin/bash
#SBATCH --job-name=simulasyon_01
#SBATCH --nodes=4
#SBATCH --ntasks-per-node=32
#SBATCH --mem=128G
#SBATCH --time=08:00:00
#SBATCH --partition=gpu
#SBATCH --gres=gpu:a100:2
#SBATCH --output=cikti_%j.log
#SBATCH --error=hata_%j.log
# Ortam değişkenlerini yükle
module load openmpi/4.1.5 cuda/12.2
# MPI ile paralel uygulama başlat
srun --mpi=pmix ./simulasyon_programi input.dat output.dat
Bu betik, 4 node üzerinde toplam 128 çekirdek ve her node’da 2 adet NVIDIA A100 GPU kullanarak 8 saatlik bir iş tanımlar. sbatch komutuyla kuyruğa gönderilir ve SLURM, kaynaklar uygun olduğunda işi otomatik olarak başlatır.
HPC Kümesinde Hangi Ağ Teknolojileri Kullanılır?
Ağ, HPC performansının en kritik unsurlarından biridir. Node’lar arası iletişim yavaşsa paralel hesaplamanın faydası büyük ölçüde yok olur.
InfiniBand
Günümüzde en yaygın kullanılan HPC ağ teknolojisidir. HDR (High Data Rate) versiyonu 200 Gb/s bant genişliği sunarken gecikme süresi 100 nanosaniyenin altına iner. RDMA (Remote Direct Memory Access) desteği sayesinde CPU’yu devre dışı bırakarak doğrudan bellek erişimi sağlar; bu özellik MPI iletişimini önemli ölçüde hızlandırır.
Ethernet (RoCE)
100 GbE veya 400 GbE altyapısı üzerinde çalışan RoCE (RDMA over Converged Ethernet), InfiniBand’e yakın performans sunarken mevcut Ethernet ekipmanlarıyla uyumludur. Yeni kurulumlarda giderek daha popüler hale gelmektedir.
Yönetim Ağı
Hesaplama ağından bağımsız olarak her kümede ayrı bir yönetim ağı (out-of-band network) bulunur. IPMI/BMC erişimi, node’ların uzaktan açılıp kapatılabilmesini ve işletim sistemi bağımsız yönetimini sağlar.
HPC İçin Depolama Nasıl Tasarlanmalıdır?
HPC depolama mimarisi, geleneksel NAS/SAN sistemlerinden köklü biçimde ayrışır. Yüzlerce node’un eş zamanlı olarak aynı veri setine erişebildiği senaryo, paralel dosya sistemi gerektirir.
Lustre ve BeeGFS bu alanda en yaygın kullanılan açık kaynak çözümlerdir. Her iki sistem de dosyaları birden fazla depolama hedefine (OST — Object Storage Target) dağıtarak binlerce node’un eş zamanlı okuma/yazma yapmasına olanak tanır. Doğru yapılandırılmış bir Lustre kurulumu, tek bir istemci üzerinden 100 GB/s’nin üzerinde okuma hızına ulaşabilir.
Katmanlı depolama mimarisi tipik olarak şöyle şekillenilir:
- Hızlı katman (scratch): NVMe SSD tabanlı, geçici hesaplama verileri için, yüksek IOPS ve bant genişliği
- Çalışma katmanı: SSD veya SAS HDD karma, aktif proje dosyaları
- Arşiv katmanı: Yüksek kapasiteli SATA HDD veya nesne depolama (Ceph, MinIO), uzun vadeli veri saklama
HPC Sistemlerinde Güvenlik Nasıl Sağlanır?
HPC ortamları, genellikle hassas araştırma verilerini ve ticari sırları barındırdığından güvenlik son derece önemlidir.
Ağ Segmentasyonu
Hesaplama node’ları dış ağdan izole edilmelidir. Kullanıcılar sisteme yalnızca bir login node (giriş düğümü) üzerinden erişir; bu düğüm güvenlik duvarı ve VPN ile korunur.
Kimlik Doğrulama
SSH anahtar tabanlı kimlik doğrulama zorunlu tutulmalı, parola girişi kapatılmalıdır. Büyük kurulumlarda LDAP veya Active Directory entegrasyonu ile merkezi kullanıcı yönetimi tercih edilir. Çok faktörlü kimlik doğrulama (MFA) login node’larında uygulanabilir.
Yazılım Güvenliği
- İşletim sistemi ve MPI kütüphaneleri düzenli olarak güncellenmeli
- Kullanıcı ortamları konteyner teknolojileriyle (Singularity/Apptainer, Podman) izole edilebilir
- Kaynak kullanım logları merkezi bir SIEM sistemine aktarılmalı
HPC Kümesi Kurulumunda Hangi Adımlar İzlenir?
Sıfırdan bir HPC kümesi kurulumu aşağıdaki aşamalardan oluşur:
- Gereksinim analizi: İş yükü profili, kullanıcı sayısı, veri hacmi ve büyüme projeksiyonlarının belirlenmesi
- Donanım seçimi: Node sayısı, CPU/GPU modeli, bellek kapasitesi, ağ topolojisi ve depolama boyutlandırması
- Fiziksel altyapı: Raf düzeni, güç dağıtımı (PDU), soğutma (sıcak/soğuk koridor veya sıvı soğutma), kablo yönetimi
- İşletim sistemi kurulumu: Genellikle Rocky Linux, RHEL veya Ubuntu LTS; PXE boot ile otomatik dağıtım (Warewulf, xCAT)
- Yazılım yığını: SLURM, MPI kütüphaneleri, paralel dosya sistemi, izleme araçları (Prometheus, Grafana, Ganglia)
- Kabul testleri: HPL (LINPACK) benchmark ile tepe performans ölçümü, ağ gecikme ve bant genişliği testleri, depolama I/O testleri
- Kullanıcı eğitimi ve devreye alma: Sistem yöneticisi ve son kullanıcı eğitimleri, dokümantasyon, ilk iş yükü testleri
HPC Sistemlerinde Bakım Ne Zaman ve Nasıl Yapılır?
Planlı bakım, HPC sistemlerinin sağlıklı çalışması için kaçınılmazdır. Tipik bir bakım takvimi şöyle şekillenir:
- Haftalık: Log analizi, disk kullanım kontrolü, başarısız node’ların tespiti ve yeniden devreye alınması
- Aylık: Yazılım ve güvenlik güncellemeleri, IPMI/firmware güncellemeleri, kablo ve soğutma kontrolleri
- Yıllık: Kapsamlı donanım sağlık taraması, batarya ve UPS testleri, tam sistem performans benchmarkı
Bakım penceresi genellikle düşük kullanım saatlerinde (gece veya hafta sonu) planlanır. Kritik sistemlerde rolling update yaklaşımı benimsenerek tüm küme aynı anda kapatılmaz; node’lar gruplar halinde güncellenir.
HPC ve Bulut Arasında Nasıl Seçim Yapmalıyım?
Bulut sağlayıcılar (AWS, Azure, Google Cloud) HPC özellikli sanal makine aileleri sunmaktadır; ancak bu çözümler her senaryo için ideal değildir.
Bulut HPC, sporadik ve öngörülemeyen iş yükleri, hızlı prototipleme ve pilot projeler ile küçük-orta ölçekli hesaplama gereksinimleri için uygundur.
Yerinde (on-premise) HPC ise sürekli ve yüksek hacimli iş yükleri, veri gizliliği veya veri egemenliği gereksinimleri, çok düşük gecikme ve yüksek bant genişliği ihtiyacı ile uzun vadeli maliyet optimizasyonu hedefleri için daha avantajlıdır.
Hibrit yaklaşım — yerel kümeyi temel kapasite olarak kullanıp ani yük artışlarında buluta taşma (cloud bursting) — giderek daha yaygın bir strateji haline gelmektedir.
Mevasis olarak HPC altyapısı planlama, kurulum, bakım ve optimizasyon konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun; ihtiyaçlarınızı birlikte değerlendirelim.