HPC Cluster Kurulumu: Donanımdan Yazılım Stack'e Adım Adım Rehber — Mevasis — HPC Çözümleri

HPC cluster kurmak, doğru planlama yapıldığında son kullanıcıya yıllarca yüksek performans sunan bir altyapı yatırımıdır. Yanlış mimari kararlar ise sonradan giderimi çok maliyetli sorunlara yol açar. Bu rehberde, küçük-orta ölçekli bir HPC cluster’ı (8–128 node) sıfırdan kurmak için izlenmesi gereken adımları aktarıyoruz.

Önce: İş Yükü Analizi

Donanım seçmeden önce cevaplanması gereken kritik sorular:

Hangi uygulamalar çalışacak? MPI tabanlı simülasyon mu, GPU makine öğrenmesi mi, yüksek bellek gerektiren genomik mi?
Ortalama ve pik kullanım nasıl? Sürekli yüksek kullanım mu, dönemsel burst mu?
Kaç kullanıcı ve grup eşzamanlı çalışacak?
Veri boyutu ve I/O örüntüsü nedir? Checkpoint sıklığı, dosya boyutları, okuma/yazma oranı?
Güvenlik ve uyumluluk gereksinimleri? İzole ağ, şifreleme, denetim kaydı?

Bu soruların yanıtları donanım seçimi, ağ mimarisi ve depolama tasarımını doğrudan belirler.

Katman 1: Donanım Seçimi

Hesaplama Node’ları

CPU node seçimi için temel kriterler:

Kriter	Öneri
Çekirdek sayısı	AMD EPYC 9004 (Genoa): 96–128 çekirdek/soket; Intel Xeon Sapphire Rapids: 60 çekirdek/soket
Bellek kapasitesi	Çekirdek başına min. 4 GB; genomik/hesaplamalı kimya için 8–16 GB
Bellek kanalları	EPYC: 12 kanal DDR5; Xeon: 8 kanal
PCIe şerit sayısı	GPU eklenecekse PCIe 5.0 × 128+ şerit

GPU node seçimi:

NVIDIA HGX H100 (8× H100 SXM5, NVLink): Büyük ölçekli AI/ML veya hesaplama için
NVIDIA HGX A100 (8× A100): Mevcut Ampere kurulumu, daha düşük maliyet
NVIDIA L40S (PCIe, 48 GB): Çıkarım ve orta ölçekli eğitim için daha uygun fiyat

Bellek konfigürasyonu:

ECC (Error Correcting Code) bellek mutlaka tercih edilmeli. Bit hatalarının tespit edilmeden hesaplama sonuçlarını etkilemesi, bilimsel doğruluk açısından kabul edilemez.

Yönetim Node’ları

En az iki adet yönetim (head/login) node yüksek erişilebilirlik için gereklidir:

Login node: Kullanıcı oturumları, iş gönderme, veri aktarımı
Management node: slurmctld, DNS, LDAP/AD, monitoring
Storage node (ayrı veya entegre): NFS veya paralel dosya sistemi

Tüm yönetim node’larında OOB (Out-of-Band) yönetim kartı (IPMI/iDRAC/iLO) zorunlu; fiziksel erişim olmadan uzaktan yönetim imkânı sağlar.

Katman 2: Ağ Mimarisi

HPC ağı genellikle iki ayrı ağdan oluşur:

Yönetim Ağı (1GbE veya 10GbE Ethernet)

OS kurulumu, IPMI erişimi, NFS, monitoring
Tüm node’lar dahil; güvenlik gerekçesiyle compute ağından izole

Yüksek Hızlı Compute Ağı

MPI ve paralel iş yükleri için:

≤ 32 node, bütçe kısıtlı: 25GbE veya RoCE 100GbE
32–256 node, orta bütçe: InfiniBand HDR200
256+ node veya düşük gecikme kritik: InfiniBand NDR400 veya HDR200 + fat-tree topoloji

Spine-Leaf mimarisi (ağ tasarımı örneği):

[NDR Switch – Core]
   ↙         ↘
[HDR Leaf-1]  [HDR Leaf-2]
  |    |         |    |
N1–N16         N17–N32

Katman 3: Depolama Sistemi

Depolama HPC’nin en sık gözden kaçan bileşenidir; yetersiz depolama performansı hesaplama kaynaklarını atıl bırakır.

Depolama Katmanları

Katman	Teknoloji	Amaç
Scratch (geçici)	NVMe SSD tabanlı BeeGFS/Lustre	Aktif hesaplama verisi
Home	NFS üzeri NAS	Kullanıcı betikleri, küçük dosyalar
Arşiv	Yüksek kapasiteli HDD veya nesne depolama	Tamamlanmış proje verileri

Paralel Dosya Sistemi Seçimi

Lustre:

Büyük kurulumlar için endüstri standardı
TOP500 sistemlerinin %70’i kullanır
Yüksek yapılandırma karmaşıklığı; uzman yönetim gerektirir
MDT (Metadata Target) + OST (Object Storage Target) mimarisi

BeeGFS:

Daha kolay kurulum ve yönetim
Orta ölçekli kurulumlar (8–256 node) için ideal
Yerleşik çoğaltma (replication) desteği
Açık kaynak (topluluk sürümü) + ticari destek seçeneği

Genel Performans Hedefi:

Scratch depolama için minimum:

Okuma: 10 GB/s (4.000 çekirdekli cluster)
Yazma: 5 GB/s
Metadata: 50.000+ IOPS

Katman 4: Yazılım Stack

İşletim Sistemi

Rocky Linux 9 veya AlmaLinux 9 yeni kurulumlar için önerilir (CentOS 7 EOL). RHEL tabanlı bu dağıtımlar kurumsal destek seçeneğiyle birlikte gelir.

# Temel gereksinimler
dnf install -y epel-release
dnf install -y kernel-devel gcc gcc-gfortran make cmake

Cluster Yönetim Yazılımı

Warewulf 4 veya xCAT:

Node provisioning, PXE boot, imaj yönetimi için cluster management framework kurulur.

# Warewulf 4 örneği
wwctl node add compute[01-32] --netdev eth0 --hwaddr AA:BB:CC:DD:EE:FF
wwctl node set compute[01-32] --container rocky-9-hpc

Job Scheduler: SLURM

# SLURM kurulumu (yönetim node)
dnf install slurm slurm-slurmctld slurm-slurmdbd

# /etc/slurm/slurm.conf temel yapılandırma
ClusterName=mycluster
SlurmctldHost=mgmt01
AuthType=auth/munge
MpiDefault=pmix

# Partition tanımları
PartitionName=compute Nodes=compute[01-32] Default=YES MaxTime=72:00:00
PartitionName=gpu     Nodes=gpu[01-08]     Default=NO  MaxTime=48:00:00
PartitionName=debug   Nodes=compute[01-02] Default=NO  MaxTime=01:00:00

Modül Sistemi: Lmod veya Environment Modules

Farklı uygulama versiyonlarını paralel yönetmek için modül sistemi zorunludur:

# Kullanıcı deneyimi
module load gcc/12.3 openmpi/4.1.5
module load python/3.11 cuda/12.3

module list    # Yüklü modüller
module avail   # Mevcut tüm modüller

MPI Kütüphaneleri

OpenMPI 5.x: Genel amaçlı, iyi dokümantasyon, UCX/PMIx entegrasyonu
MVAPICH2: InfiniBand için optimize, özellikle MPI-GPU senaryolarında
Intel MPI: Intel Xeon için iyi performans, ücretsiz (onecAPI)

Temel Uygulama Yazılımları

Kurulum sonrası sağlanması gereken standart yazılımlar:

# Derleyiciler
gcc, gfortran, icc/icx (Intel), nvcc (NVIDIA CUDA)

# Bilimsel kütüphaneler
BLAS/LAPACK (OpenBLAS, Intel MKL), FFTW, HDF5, NetCDF

# Yaygın HPC uygulamaları
GROMACS, LAMMPS, OpenFOAM, NAMD, Quantum ESPRESSO

Katman 5: Güvenlik

Ağ Segmentasyonu

Internet
    ↓
[Firewall]
    ↓
[Login/DMZ Zone] — Kullanıcı SSH erişimi
    ↓
[Management Network] — Yönetim trafiği (izole)
    ↓
[Compute Network] — HPC iş yükleri (izole)

Kimlik Doğrulama

Merkezi kullanıcı yönetimi: LDAP/Active Directory entegrasyonu
SSH anahtar tabanlı kimlik doğrulama; parola girişi devre dışı
MFA (Multi-Factor Authentication) login node’ları için önerilir

İzleme ve Uyarı

Minimum monitoring stack:

Prometheus + Grafana: Node ve cluster metrikleri
DCGM Exporter: GPU sağlık ve performans metrikleri
node_exporter: CPU, bellek, disk, ağ
Slurm exporter: İş kuyruğu ve kaynak kullanımı

Tipik Kurulum Zaman Çizelgesi

Aşama	Süre	Açıklama
Tedarik	6–14 hafta	Sunucu, switch, kablo tedarik süresi
Fiziksel kurulum	1–2 hafta	Rack, kablo, güç bağlantısı
OS ve provisioning	1 hafta	Warewulf, PXE boot, imaj yapılandırması
Ağ yapılandırması	1 hafta	Switch, InfiniBand subnet manager
SLURM ve yazılım	1–2 hafta	Scheduler, modüller, uygulama yazılımı
Test ve kabul	1–2 hafta	Benchmark, stres testi, kullanıcı kabul
Toplam	11–23 hafta

Mevasis HPC Kurulum Hizmetleri

Mevasis olarak anahtar teslim HPC cluster kurulum hizmetleri sunuyoruz: ihtiyaç analizi, donanım tedariki, fiziksel kurulum, yazılım yapılandırması ve canlıya geçiş desteği. Kurulum sonrası teknik destek ve bakım hizmetlerimiz de mevcuttur.

Sıkça Sorulan Sorular

Kaç node’luk bir cluster “küçük” sayılır? Genel kabul: 1–32 node küçük, 32–256 node orta, 256+ node büyük ölçek. Küçük kurulumlar bile paralel dosya sistemi ve yüksek hızlı ağdan faydalanır.

Ticari cluster yönetim yazılımı mı, açık kaynak mı? Warewulf (açık kaynak) ve Bright Cluster Manager (ticari) en yaygın seçenekler. Küçük-orta kurulumlar için Warewulf yeterli; büyük kurulumlar ve yetersiz iç kapasite için Bright’ın GUI ve destek avantajı değerlendirilebilir.

HPC cluster için hangi rack yapısı gerekli? Standart 42U rack’ler yaygın tercih. GPU node yoğun kurulumlar için 52U veya özel yüksek yoğunluklu kabinler gerekebilir; soğutma ve güç dağıtımı buna göre planlanmalı.

Yazılım stack’i kim yönetmelidir? Üretim ortamı için tam zamanlı bir HPC sistem yöneticisi (sysadmin) gereklidir. Alternatif olarak Mevasis gibi uzman firmalardan yönetilen servis alınabilir.