/ Blog

HPC Cluster Kurulumu: Donanımdan Yazılım Stack'e Adım Adım Rehber

HPC cluster kurulumu için donanım seçimi, ağ tasarımı, depolama sistemi, işletim sistemi ve yazılım stack yapılandırması. Başlangıç kılavuzu.

HPC cluster kurmak, doğru planlama yapıldığında son kullanıcıya yıllarca yüksek performans sunan bir altyapı yatırımıdır. Yanlış mimari kararlar ise sonradan giderimi çok maliyetli sorunlara yol açar. Bu rehberde, küçük-orta ölçekli bir HPC cluster’ı (8–128 node) sıfırdan kurmak için izlenmesi gereken adımları aktarıyoruz.

Önce: İş Yükü Analizi

Donanım seçmeden önce cevaplanması gereken kritik sorular:

  • Hangi uygulamalar çalışacak? MPI tabanlı simülasyon mu, GPU makine öğrenmesi mi, yüksek bellek gerektiren genomik mi?
  • Ortalama ve pik kullanım nasıl? Sürekli yüksek kullanım mu, dönemsel burst mu?
  • Kaç kullanıcı ve grup eşzamanlı çalışacak?
  • Veri boyutu ve I/O örüntüsü nedir? Checkpoint sıklığı, dosya boyutları, okuma/yazma oranı?
  • Güvenlik ve uyumluluk gereksinimleri? İzole ağ, şifreleme, denetim kaydı?

Bu soruların yanıtları donanım seçimi, ağ mimarisi ve depolama tasarımını doğrudan belirler.

Katman 1: Donanım Seçimi

Hesaplama Node’ları

CPU node seçimi için temel kriterler:

KriterÖneri
Çekirdek sayısıAMD EPYC 9004 (Genoa): 96–128 çekirdek/soket; Intel Xeon Sapphire Rapids: 60 çekirdek/soket
Bellek kapasitesiÇekirdek başına min. 4 GB; genomik/hesaplamalı kimya için 8–16 GB
Bellek kanallarıEPYC: 12 kanal DDR5; Xeon: 8 kanal
PCIe şerit sayısıGPU eklenecekse PCIe 5.0 × 128+ şerit

GPU node seçimi:

  • NVIDIA HGX H100 (8× H100 SXM5, NVLink): Büyük ölçekli AI/ML veya hesaplama için
  • NVIDIA HGX A100 (8× A100): Mevcut Ampere kurulumu, daha düşük maliyet
  • NVIDIA L40S (PCIe, 48 GB): Çıkarım ve orta ölçekli eğitim için daha uygun fiyat

Bellek konfigürasyonu:

ECC (Error Correcting Code) bellek mutlaka tercih edilmeli. Bit hatalarının tespit edilmeden hesaplama sonuçlarını etkilemesi, bilimsel doğruluk açısından kabul edilemez.

Yönetim Node’ları

En az iki adet yönetim (head/login) node yüksek erişilebilirlik için gereklidir:

  • Login node: Kullanıcı oturumları, iş gönderme, veri aktarımı
  • Management node: slurmctld, DNS, LDAP/AD, monitoring
  • Storage node (ayrı veya entegre): NFS veya paralel dosya sistemi

Tüm yönetim node’larında OOB (Out-of-Band) yönetim kartı (IPMI/iDRAC/iLO) zorunlu; fiziksel erişim olmadan uzaktan yönetim imkânı sağlar.

Katman 2: Ağ Mimarisi

HPC ağı genellikle iki ayrı ağdan oluşur:

Yönetim Ağı (1GbE veya 10GbE Ethernet)

  • OS kurulumu, IPMI erişimi, NFS, monitoring
  • Tüm node’lar dahil; güvenlik gerekçesiyle compute ağından izole

Yüksek Hızlı Compute Ağı

MPI ve paralel iş yükleri için:

  • ≤ 32 node, bütçe kısıtlı: 25GbE veya RoCE 100GbE
  • 32–256 node, orta bütçe: InfiniBand HDR200
  • 256+ node veya düşük gecikme kritik: InfiniBand NDR400 veya HDR200 + fat-tree topoloji

Spine-Leaf mimarisi (ağ tasarımı örneği):

[NDR Switch – Core]
   ↙         ↘
[HDR Leaf-1]  [HDR Leaf-2]
  |    |         |    |
N1–N16         N17–N32

Katman 3: Depolama Sistemi

Depolama HPC’nin en sık gözden kaçan bileşenidir; yetersiz depolama performansı hesaplama kaynaklarını atıl bırakır.

Depolama Katmanları

KatmanTeknolojiAmaç
Scratch (geçici)NVMe SSD tabanlı BeeGFS/LustreAktif hesaplama verisi
HomeNFS üzeri NASKullanıcı betikleri, küçük dosyalar
ArşivYüksek kapasiteli HDD veya nesne depolamaTamamlanmış proje verileri

Paralel Dosya Sistemi Seçimi

Lustre:

  • Büyük kurulumlar için endüstri standardı
  • TOP500 sistemlerinin %70’i kullanır
  • Yüksek yapılandırma karmaşıklığı; uzman yönetim gerektirir
  • MDT (Metadata Target) + OST (Object Storage Target) mimarisi

BeeGFS:

  • Daha kolay kurulum ve yönetim
  • Orta ölçekli kurulumlar (8–256 node) için ideal
  • Yerleşik çoğaltma (replication) desteği
  • Açık kaynak (topluluk sürümü) + ticari destek seçeneği

Genel Performans Hedefi:

Scratch depolama için minimum:

  • Okuma: 10 GB/s (4.000 çekirdekli cluster)
  • Yazma: 5 GB/s
  • Metadata: 50.000+ IOPS

Katman 4: Yazılım Stack

İşletim Sistemi

Rocky Linux 9 veya AlmaLinux 9 yeni kurulumlar için önerilir (CentOS 7 EOL). RHEL tabanlı bu dağıtımlar kurumsal destek seçeneğiyle birlikte gelir.

# Temel gereksinimler
dnf install -y epel-release
dnf install -y kernel-devel gcc gcc-gfortran make cmake

Cluster Yönetim Yazılımı

Warewulf 4 veya xCAT:

Node provisioning, PXE boot, imaj yönetimi için cluster management framework kurulur.

# Warewulf 4 örneği
wwctl node add compute[01-32] --netdev eth0 --hwaddr AA:BB:CC:DD:EE:FF
wwctl node set compute[01-32] --container rocky-9-hpc

Job Scheduler: SLURM

# SLURM kurulumu (yönetim node)
dnf install slurm slurm-slurmctld slurm-slurmdbd

# /etc/slurm/slurm.conf temel yapılandırma
ClusterName=mycluster
SlurmctldHost=mgmt01
AuthType=auth/munge
MpiDefault=pmix

# Partition tanımları
PartitionName=compute Nodes=compute[01-32] Default=YES MaxTime=72:00:00
PartitionName=gpu     Nodes=gpu[01-08]     Default=NO  MaxTime=48:00:00
PartitionName=debug   Nodes=compute[01-02] Default=NO  MaxTime=01:00:00

Modül Sistemi: Lmod veya Environment Modules

Farklı uygulama versiyonlarını paralel yönetmek için modül sistemi zorunludur:

# Kullanıcı deneyimi
module load gcc/12.3 openmpi/4.1.5
module load python/3.11 cuda/12.3

module list    # Yüklü modüller
module avail   # Mevcut tüm modüller

MPI Kütüphaneleri

  • OpenMPI 5.x: Genel amaçlı, iyi dokümantasyon, UCX/PMIx entegrasyonu
  • MVAPICH2: InfiniBand için optimize, özellikle MPI-GPU senaryolarında
  • Intel MPI: Intel Xeon için iyi performans, ücretsiz (onecAPI)

Temel Uygulama Yazılımları

Kurulum sonrası sağlanması gereken standart yazılımlar:

# Derleyiciler
gcc, gfortran, icc/icx (Intel), nvcc (NVIDIA CUDA)

# Bilimsel kütüphaneler
BLAS/LAPACK (OpenBLAS, Intel MKL), FFTW, HDF5, NetCDF

# Yaygın HPC uygulamaları
GROMACS, LAMMPS, OpenFOAM, NAMD, Quantum ESPRESSO

Katman 5: Güvenlik

Ağ Segmentasyonu

Internet
    ↓
[Firewall]
    ↓
[Login/DMZ Zone] — Kullanıcı SSH erişimi
    ↓
[Management Network] — Yönetim trafiği (izole)
    ↓
[Compute Network] — HPC iş yükleri (izole)

Kimlik Doğrulama

  • Merkezi kullanıcı yönetimi: LDAP/Active Directory entegrasyonu
  • SSH anahtar tabanlı kimlik doğrulama; parola girişi devre dışı
  • MFA (Multi-Factor Authentication) login node’ları için önerilir

İzleme ve Uyarı

Minimum monitoring stack:

  • Prometheus + Grafana: Node ve cluster metrikleri
  • DCGM Exporter: GPU sağlık ve performans metrikleri
  • node_exporter: CPU, bellek, disk, ağ
  • Slurm exporter: İş kuyruğu ve kaynak kullanımı

Tipik Kurulum Zaman Çizelgesi

AşamaSüreAçıklama
Tedarik6–14 haftaSunucu, switch, kablo tedarik süresi
Fiziksel kurulum1–2 haftaRack, kablo, güç bağlantısı
OS ve provisioning1 haftaWarewulf, PXE boot, imaj yapılandırması
Ağ yapılandırması1 haftaSwitch, InfiniBand subnet manager
SLURM ve yazılım1–2 haftaScheduler, modüller, uygulama yazılımı
Test ve kabul1–2 haftaBenchmark, stres testi, kullanıcı kabul
Toplam11–23 hafta

Mevasis HPC Kurulum Hizmetleri

Mevasis olarak anahtar teslim HPC cluster kurulum hizmetleri sunuyoruz: ihtiyaç analizi, donanım tedariki, fiziksel kurulum, yazılım yapılandırması ve canlıya geçiş desteği. Kurulum sonrası teknik destek ve bakım hizmetlerimiz de mevcuttur.


Sıkça Sorulan Sorular

Kaç node’luk bir cluster “küçük” sayılır? Genel kabul: 1–32 node küçük, 32–256 node orta, 256+ node büyük ölçek. Küçük kurulumlar bile paralel dosya sistemi ve yüksek hızlı ağdan faydalanır.

Ticari cluster yönetim yazılımı mı, açık kaynak mı? Warewulf (açık kaynak) ve Bright Cluster Manager (ticari) en yaygın seçenekler. Küçük-orta kurulumlar için Warewulf yeterli; büyük kurulumlar ve yetersiz iç kapasite için Bright’ın GUI ve destek avantajı değerlendirilebilir.

HPC cluster için hangi rack yapısı gerekli? Standart 42U rack’ler yaygın tercih. GPU node yoğun kurulumlar için 52U veya özel yüksek yoğunluklu kabinler gerekebilir; soğutma ve güç dağıtımı buna göre planlanmalı.

Yazılım stack’i kim yönetmelidir? Üretim ortamı için tam zamanlı bir HPC sistem yöneticisi (sysadmin) gereklidir. Alternatif olarak Mevasis gibi uzman firmalardan yönetilen servis alınabilir.