/ Blog

HPC Kurulum ve Operasyon Kontrol Listesi

HPC cluster kurulumu öncesi, sırası ve sonrası için kapsamlı kontrol listesi.

Yüksek başarımlı hesaplama (HPC) cluster’ları kurmak ve işletmek, titiz bir planlama ve sistematik bir yaklaşım gerektirir. Tek bir gözden kaçırılan adım, performans kayıplarına, güvenlik açıklarına ya da üretim ortamında beklenmedik kesintilere yol açabilir. Bu yazıda, kurulum öncesinden başlayarak operasyonel olgunluğa ulaşana kadar izlemeniz gereken kapsamlı bir kontrol listesini ele alıyoruz.


1. Kurulum Öncesi Planlama

Donanım siparişi vermeden ya da veri merkezinde yer rezerve etmeden önce şu soruların yanıtlanmış olması gerekir.

İş Yükü Analizi

  • İş yükü karakteristiği netleştirildi mi? (MPI tabanlı paralel hesaplama, GPU ivmelendirmeli ML, bellek yoğun simülasyon vb.)
  • Beklenen çekirdek sayısı, bellek gereksinimi ve depolama kapasitesi tahmin edildi mi?
  • Tek seferlik büyük işler mi yoksa sürekli kısa işler mi çalıştırılacak? (İş kuyruğu politikasını doğrudan etkiler.)
  • Lisanslı yazılımların (ANSYS, MATLAB, Gaussian vb.) eşzamanlı kullanıcı sınırlamaları değerlendirildi mi?

Ağ ve Veri Merkezi

  • Hesaplama düğümleri için InfiniBand (HDR/NDR) mi yoksa yüksek hızlı Ethernet mi tercih edileceği belirlendi mi?
  • Raf alan gereksinimi, ağırlık taşıma kapasitesi ve güç yoğunluğu (kW/rack) hesaplandı mı?
  • Soğutma sistemi yeterliliği doğrulandı mı? (Sıcak koridor/soğuk koridor düzeni veya sıvı soğutma)
  • UPS kapasitesi ve jeneratör devreye alma süresi değerlendirildi mi?

Yazılım Ekosistemi

  • İşletim sistemi seçimi yapıldı mı? (RHEL/Rocky Linux, Ubuntu, SLES)
  • İş zamanlayıcısı belirlendi mi? (SLURM, PBS Pro, LSF)
  • Modül yönetim sistemi netleştirildi mi? (Lmod, Environment Modules)
  • Paralel dosya sistemi ihtiyacı değerlendirildi mi? (Lustre, GPFS/Spectrum Scale, BeeGFS)

2. Donanım Kurulumu ve Kabul Testleri

Donanım raf içine alındıktan sonra üretim ortamına geçmeden önce kapsamlı kabul testleri yapılmalıdır.

Fiziksel Kurulum Kontrolleri

  • Tüm düğümlerde kablo bağlantıları (veri, güç, yönetim) gözle incelendi
  • BMC/IPMI/iDRAC adresleri atandı ve yönetim ağından erişim doğrulandı
  • Firmware sürümleri güncel ve tüm düğümlerde tutarlı
  • POST hataları yok; bellek testi (Memtest86+) tamamlandı
  • InfiniBand HCA/kablo bağlantıları ibstat ile doğrulandı

Ağ Performans Testleri

InfiniBand bant genişliği ve gecikme testleri:

# Sunucu tarafı (düğüm A):
ib_send_bw -d mlx5_0 -i 1

# İstemci tarafı (düğüm B):
ib_send_bw -d mlx5_0 -i 1 <dugum_a_ip>

# Gecikme testi:
ib_send_lat -d mlx5_0 -i 1 <dugum_a_ip>

Beklenen değerler: HDR InfiniBand için ~200 Gb/s bant genişliği, ~1 µs gecikme. Ölçüm değerleri teorik değerlerin %85’inin altındaysa kablo veya switch yapılandırması gözden geçirilmelidir.

CPU ve Bellek Performans Testleri

  • STREAM benchmark ile bellek bant genişliği ölçüldü ve referans değerlerle karşılaştırıldı
  • LINPACK (HPL) ile hesaplama performansı doğrulandı
  • Termal testler yapıldı; tüm çekirdekler tam yükte çalışırken sıcaklık eşikleri aşılmıyor

3. Yazılım Yapılandırması

İşletim Sistemi Sertleştirme

  • SELinux veya AppArmor yapılandırması gözden geçirildi
  • Gereksiz servisler devre dışı bırakıldı
  • SSH anahtar tabanlı kimlik doğrulama etkinleştirildi; parola girişi kapatıldı
  • Güvenlik duvarı kuralları tanımlandı (hesaplama düğümleri dış dünyaya kapalı, yalnızca yönetim ağından erişim açık)
  • NTP/Chrony ile zaman senkronizasyonu tüm düğümlerde doğrulandı

Zaman senkronizasyonu kritik öneme sahiptir. MPI uygulamalarında ve log analizinde düğümler arası saat sapması sorunlara yol açar:

# Tüm düğümlerde chronyc ile durumu kontrol et:
chronyc tracking | grep "System time"
# Kabul edilebilir sapma: < 1 ms

SLURM İş Zamanlayıcı Yapılandırması

ParametreAçıklamaÖrnek Değer
SelectTypeKaynak seçim eklentisicons_tres
TaskPluginGörev yönetim eklentisitask/affinity,task/cgroup
ProctrackTypeSüreç takip yöntemiproctrack/cgroup
AccountingStorageTypeMuhasebe kaydıaccounting_storage/slurmdbd
JobAcctGatherTypeİş metrik toplamajobacct_gather/cgroup
SchedulerTypeZamanlayıcı tipisched/backfill
PreemptTypeÖnceliklendirme yöntemipreempt/qos
  • slurmd servisi tüm hesaplama düğümlerinde aktif ve sağlıklı
  • slurmctld ve slurmdbd yüksek erişilebilirlik modunda yapılandırıldı
  • Partition ve QOS tanımları iş yükü gereksinimlerine göre ayarlandı
  • Kaynak limitleri (CPU, bellek, GPU, çalışma süresi) kullanıcı ve grup bazında tanımlandı

Modül Sistemi ve Yazılım Ortamı

  • Lmod veya Environment Modules kuruldu ve tüm düğümlerde erişilebilir
  • Temel araç zinciri modülleri derlendi: GCC, Intel OneAPI veya AOCC, OpenMPI/MPICH
  • MPI uygulamaları hesap düğümleri arası çalıştırılarak test edildi

4. Depolama Sistemi Doğrulaması

Paralel Dosya Sistemi

  • /scratch bölümü için Lustre veya BeeGFS monte edildi ve tüm düğümlerde görünür
  • IOR benchmark ile paralel okuma/yazma hızı ölçüldü
  • Dosya sistemi kotaları kullanıcı ve grup bazında tanımlandı
  • lfs hsm veya eşdeğeri ile arşivleme entegrasyonu test edildi (varsa)

Yedekleme ve Veri Yönetimi

  • Ana ev dizini (/home) yedekleme planı aktif
  • Scratch alanı temizleme politikası tanımlandı ve kullanıcılara duyuruldu
  • Kritik yazılım ve konfigürasyon dosyaları sürüm kontrolünde (Git)

5. Güvenlik ve Erişim Yönetimi

Kimlik ve Erişim

  • LDAP veya Active Directory entegrasyonu tüm düğümlerde doğrulandı
  • Kullanıcı UID/GID tutarlılığı tüm düğümlerde sağlandı
  • Sudo yetkileri en az ayrıcalık prensibiyle tanımlandı
  • PAM yapılandırması gözden geçirildi; hesap kilitleme politikaları aktif

Ağ Güvenliği

  • Hesaplama düğümleri doğrudan internet erişimine kapalı
  • Yönetim ağı (BMC/IPMI) üretim ağından izole edildi
  • SSH için Bastion Host (sıçrama sunucusu) yapılandırıldı
  • Intrusion Detection System (IDS) günlükleri merkezi log sunucusuna iletiliyor

6. İzleme ve Uyarı Sistemi

Üretim cluster’ı işletirken görünürlük hayati önem taşır.

Metrik Toplama

  • Prometheus + Node Exporter ile donanım metrikleri toplanıyor (CPU, bellek, disk, ağ)
  • DCGM Exporter ile GPU metrikleri (varsa) toplanıyor
  • IPMI Exporter ile çevre sensör verileri (sıcaklık, fan, güç) toplanıyor
  • Grafana dashboard’ları kuruldu; cluster geneli özet ve düğüm bazlı detay ekranları hazır

Uyarı Kuralları

Temel uyarılar tanımlanmalı ve ilgili ekiplere iletilmelidir:

  • Düğüm erişilemez duruma geçtiğinde
  • CPU sıcaklığı eşik değerini (örn. 85°C) aştığında
  • Disk doluluk oranı %80’i geçtiğinde
  • InfiniBand port hata sayısı artışa geçtiğinde
  • slurmd servisi çöktüğünde

SLURM İş İzleme

  • slurmrestd API etkinleştirildi ve raporlama araçlarıyla entegre edildi
  • Bekleme süresi, iş tamamlanma oranı ve kaynak kullanımı düzenli raporlanıyor
  • Uzun süre kuyrukta kalan işler için otomatik bildirim mekanizması kuruldu

7. Operasyonel Hazırlık

Teknik kurulum tamamlandıktan sonra operasyonel olgunluk için şunlar da sağlanmalıdır.

Dokümantasyon

  • Sistem mimarisi diyagramı (ağ, depolama, yönetim katmanları) güncel
  • Düğüm envanteri ve donanım konfigürasyon tablosu mevcut
  • Kullanıcı kılavuzu hazırlandı: iş gönderme örnekleri, kota bilgisi, servis politikaları
  • Acil müdahale prosedürleri (runbook) yazıldı: düğüm çöktüğünde, depolama dolduğunda, zamanlayıcı yanıt vermediğinde ne yapılır

Test İş Yükleri

Kullanıcılara açılmadan önce temsili iş yükleri çalıştırılmalı:

  • Küçük ölçekli MPI testi (2-4 düğüm, mpi_hello_world)
  • Paralel I/O testi (IOR ile 4 düğümden eşzamanlı yazma)
  • GPU işi (varsa CUDA/ROCm örnek kodu)
  • Uzun süreli iş testi (checkpoint/restart mekanizması doğrulama)

Kapasite Planlaması

  • İlk 6 ay için kaynak kullanımı beklentisi belgelendi
  • Genişleme yol haritası (ek düğüm, depolama büyütme) planlandı
  • Lisans yenileme tarihleri takip sistemine eklendi

Özet Tablo

AşamaKritik KalemlerTamamlanma
Planlamaİş yükü analizi, ağ seçimi, yazılım ekosistemi
Donanım kurulumuFirmware, kabul testleri, ağ doğrulama
Yazılım yapılandırmasıOS sertleştirme, SLURM, modül sistemi
DepolamaParalel FS, yedekleme, kota
GüvenlikLDAP, ağ izolasyonu, SSH politikaları
İzlemePrometheus, Grafana, uyarı kuralları
Operasyonel hazırlıkDokümantasyon, test işleri, kapasite planı

Bu kontrol listesi her ortam için eksiksiz bir referans olmayabilir; cluster boyutu, kullanıcı profili ve iş yükü türüne göre ek maddeler eklemek gerekebilir. Önemli olan, her adımı sistematik biçimde kayıt altına almak ve operasyonel değişiklikleri bu belgeye yansıtmaktır. İyi belgelenmiş bir kurulum, hem günlük operasyonu kolaylaştırır hem de yeni ekip üyelerinin sisteme adapte olma süresini önemli ölçüde kısaltır.

Mevasis olarak HPC cluster kurulumu ve operasyonu konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.