HPC Kurulum ve Operasyon Kontrol Listesi

Yüksek başarımlı hesaplama (HPC) cluster’ları kurmak ve işletmek, titiz bir planlama ve sistematik bir yaklaşım gerektirir. Tek bir gözden kaçırılan adım, performans kayıplarına, güvenlik açıklarına ya da üretim ortamında beklenmedik kesintilere yol açabilir. Bu yazıda, kurulum öncesinden başlayarak operasyonel olgunluğa ulaşana kadar izlemeniz gereken kapsamlı bir kontrol listesini ele alıyoruz.

1. Kurulum Öncesi Planlama

Donanım siparişi vermeden ya da veri merkezinde yer rezerve etmeden önce şu soruların yanıtlanmış olması gerekir.

İş Yükü Analizi

İş yükü karakteristiği netleştirildi mi? (MPI tabanlı paralel hesaplama, GPU ivmelendirmeli ML, bellek yoğun simülasyon vb.)
Beklenen çekirdek sayısı, bellek gereksinimi ve depolama kapasitesi tahmin edildi mi?
Tek seferlik büyük işler mi yoksa sürekli kısa işler mi çalıştırılacak? (İş kuyruğu politikasını doğrudan etkiler.)
Lisanslı yazılımların (ANSYS, MATLAB, Gaussian vb.) eşzamanlı kullanıcı sınırlamaları değerlendirildi mi?

Ağ ve Veri Merkezi

Hesaplama düğümleri için InfiniBand (HDR/NDR) mi yoksa yüksek hızlı Ethernet mi tercih edileceği belirlendi mi?
Raf alan gereksinimi, ağırlık taşıma kapasitesi ve güç yoğunluğu (kW/rack) hesaplandı mı?
Soğutma sistemi yeterliliği doğrulandı mı? (Sıcak koridor/soğuk koridor düzeni veya sıvı soğutma)
UPS kapasitesi ve jeneratör devreye alma süresi değerlendirildi mi?

Yazılım Ekosistemi

İşletim sistemi seçimi yapıldı mı? (RHEL/Rocky Linux, Ubuntu, SLES)
İş zamanlayıcısı belirlendi mi? (SLURM, PBS Pro, LSF)
Modül yönetim sistemi netleştirildi mi? (Lmod, Environment Modules)
Paralel dosya sistemi ihtiyacı değerlendirildi mi? (Lustre, GPFS/Spectrum Scale, BeeGFS)

2. Donanım Kurulumu ve Kabul Testleri

Donanım raf içine alındıktan sonra üretim ortamına geçmeden önce kapsamlı kabul testleri yapılmalıdır.

Fiziksel Kurulum Kontrolleri

Tüm düğümlerde kablo bağlantıları (veri, güç, yönetim) gözle incelendi
BMC/IPMI/iDRAC adresleri atandı ve yönetim ağından erişim doğrulandı
Firmware sürümleri güncel ve tüm düğümlerde tutarlı
POST hataları yok; bellek testi (Memtest86+) tamamlandı
InfiniBand HCA/kablo bağlantıları ibstat ile doğrulandı

Ağ Performans Testleri

InfiniBand bant genişliği ve gecikme testleri:

# Sunucu tarafı (düğüm A):
ib_send_bw -d mlx5_0 -i 1

# İstemci tarafı (düğüm B):
ib_send_bw -d mlx5_0 -i 1 <dugum_a_ip>

# Gecikme testi:
ib_send_lat -d mlx5_0 -i 1 <dugum_a_ip>

Beklenen değerler: HDR InfiniBand için ~200 Gb/s bant genişliği, ~1 µs gecikme. Ölçüm değerleri teorik değerlerin %85’inin altındaysa kablo veya switch yapılandırması gözden geçirilmelidir.

CPU ve Bellek Performans Testleri

STREAM benchmark ile bellek bant genişliği ölçüldü ve referans değerlerle karşılaştırıldı
LINPACK (HPL) ile hesaplama performansı doğrulandı
Termal testler yapıldı; tüm çekirdekler tam yükte çalışırken sıcaklık eşikleri aşılmıyor

3. Yazılım Yapılandırması

İşletim Sistemi Sertleştirme

SELinux veya AppArmor yapılandırması gözden geçirildi
Gereksiz servisler devre dışı bırakıldı
SSH anahtar tabanlı kimlik doğrulama etkinleştirildi; parola girişi kapatıldı
Güvenlik duvarı kuralları tanımlandı (hesaplama düğümleri dış dünyaya kapalı, yalnızca yönetim ağından erişim açık)
NTP/Chrony ile zaman senkronizasyonu tüm düğümlerde doğrulandı

Zaman senkronizasyonu kritik öneme sahiptir. MPI uygulamalarında ve log analizinde düğümler arası saat sapması sorunlara yol açar:

# Tüm düğümlerde chronyc ile durumu kontrol et:
chronyc tracking | grep "System time"
# Kabul edilebilir sapma: < 1 ms

SLURM İş Zamanlayıcı Yapılandırması

Parametre	Açıklama	Örnek Değer
`SelectType`	Kaynak seçim eklentisi	`cons_tres`
`TaskPlugin`	Görev yönetim eklentisi	`task/affinity,task/cgroup`
`ProctrackType`	Süreç takip yöntemi	`proctrack/cgroup`
`AccountingStorageType`	Muhasebe kaydı	`accounting_storage/slurmdbd`
`JobAcctGatherType`	İş metrik toplama	`jobacct_gather/cgroup`
`SchedulerType`	Zamanlayıcı tipi	`sched/backfill`
`PreemptType`	Önceliklendirme yöntemi	`preempt/qos`

slurmd servisi tüm hesaplama düğümlerinde aktif ve sağlıklı
slurmctld ve slurmdbd yüksek erişilebilirlik modunda yapılandırıldı
Partition ve QOS tanımları iş yükü gereksinimlerine göre ayarlandı
Kaynak limitleri (CPU, bellek, GPU, çalışma süresi) kullanıcı ve grup bazında tanımlandı

Modül Sistemi ve Yazılım Ortamı

Lmod veya Environment Modules kuruldu ve tüm düğümlerde erişilebilir
Temel araç zinciri modülleri derlendi: GCC, Intel OneAPI veya AOCC, OpenMPI/MPICH
MPI uygulamaları hesap düğümleri arası çalıştırılarak test edildi

4. Depolama Sistemi Doğrulaması

Paralel Dosya Sistemi

/scratch bölümü için Lustre veya BeeGFS monte edildi ve tüm düğümlerde görünür
IOR benchmark ile paralel okuma/yazma hızı ölçüldü
Dosya sistemi kotaları kullanıcı ve grup bazında tanımlandı
lfs hsm veya eşdeğeri ile arşivleme entegrasyonu test edildi (varsa)

Yedekleme ve Veri Yönetimi

Ana ev dizini (/home) yedekleme planı aktif
Scratch alanı temizleme politikası tanımlandı ve kullanıcılara duyuruldu
Kritik yazılım ve konfigürasyon dosyaları sürüm kontrolünde (Git)

5. Güvenlik ve Erişim Yönetimi

Kimlik ve Erişim

LDAP veya Active Directory entegrasyonu tüm düğümlerde doğrulandı
Kullanıcı UID/GID tutarlılığı tüm düğümlerde sağlandı
Sudo yetkileri en az ayrıcalık prensibiyle tanımlandı
PAM yapılandırması gözden geçirildi; hesap kilitleme politikaları aktif

Ağ Güvenliği

Hesaplama düğümleri doğrudan internet erişimine kapalı
Yönetim ağı (BMC/IPMI) üretim ağından izole edildi
SSH için Bastion Host (sıçrama sunucusu) yapılandırıldı
Intrusion Detection System (IDS) günlükleri merkezi log sunucusuna iletiliyor

6. İzleme ve Uyarı Sistemi

Üretim cluster’ı işletirken görünürlük hayati önem taşır.

Metrik Toplama

Prometheus + Node Exporter ile donanım metrikleri toplanıyor (CPU, bellek, disk, ağ)
DCGM Exporter ile GPU metrikleri (varsa) toplanıyor
IPMI Exporter ile çevre sensör verileri (sıcaklık, fan, güç) toplanıyor
Grafana dashboard’ları kuruldu; cluster geneli özet ve düğüm bazlı detay ekranları hazır

Uyarı Kuralları

Temel uyarılar tanımlanmalı ve ilgili ekiplere iletilmelidir:

Düğüm erişilemez duruma geçtiğinde
CPU sıcaklığı eşik değerini (örn. 85°C) aştığında
Disk doluluk oranı %80’i geçtiğinde
InfiniBand port hata sayısı artışa geçtiğinde
slurmd servisi çöktüğünde

SLURM İş İzleme

slurmrestd API etkinleştirildi ve raporlama araçlarıyla entegre edildi
Bekleme süresi, iş tamamlanma oranı ve kaynak kullanımı düzenli raporlanıyor
Uzun süre kuyrukta kalan işler için otomatik bildirim mekanizması kuruldu

7. Operasyonel Hazırlık

Teknik kurulum tamamlandıktan sonra operasyonel olgunluk için şunlar da sağlanmalıdır.

Dokümantasyon

Sistem mimarisi diyagramı (ağ, depolama, yönetim katmanları) güncel
Düğüm envanteri ve donanım konfigürasyon tablosu mevcut
Kullanıcı kılavuzu hazırlandı: iş gönderme örnekleri, kota bilgisi, servis politikaları
Acil müdahale prosedürleri (runbook) yazıldı: düğüm çöktüğünde, depolama dolduğunda, zamanlayıcı yanıt vermediğinde ne yapılır

Test İş Yükleri

Kullanıcılara açılmadan önce temsili iş yükleri çalıştırılmalı:

Küçük ölçekli MPI testi (2-4 düğüm, mpi_hello_world)
Paralel I/O testi (IOR ile 4 düğümden eşzamanlı yazma)
GPU işi (varsa CUDA/ROCm örnek kodu)
Uzun süreli iş testi (checkpoint/restart mekanizması doğrulama)

Kapasite Planlaması

İlk 6 ay için kaynak kullanımı beklentisi belgelendi
Genişleme yol haritası (ek düğüm, depolama büyütme) planlandı
Lisans yenileme tarihleri takip sistemine eklendi

Özet Tablo

Aşama	Kritik Kalemler	Tamamlanma
Planlama	İş yükü analizi, ağ seçimi, yazılım ekosistemi	☐
Donanım kurulumu	Firmware, kabul testleri, ağ doğrulama	☐
Yazılım yapılandırması	OS sertleştirme, SLURM, modül sistemi	☐
Depolama	Paralel FS, yedekleme, kota	☐
Güvenlik	LDAP, ağ izolasyonu, SSH politikaları	☐
İzleme	Prometheus, Grafana, uyarı kuralları	☐
Operasyonel hazırlık	Dokümantasyon, test işleri, kapasite planı	☐

Bu kontrol listesi her ortam için eksiksiz bir referans olmayabilir; cluster boyutu, kullanıcı profili ve iş yükü türüne göre ek maddeler eklemek gerekebilir. Önemli olan, her adımı sistematik biçimde kayıt altına almak ve operasyonel değişiklikleri bu belgeye yansıtmaktır. İyi belgelenmiş bir kurulum, hem günlük operasyonu kolaylaştırır hem de yeni ekip üyelerinin sisteme adapte olma süresini önemli ölçüde kısaltır.

Mevasis olarak HPC cluster kurulumu ve operasyonu konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.