HPC Kurulum ve Operasyon Kontrol Listesi
HPC cluster kurulumu öncesi, sırası ve sonrası için kapsamlı kontrol listesi.
Yüksek başarımlı hesaplama (HPC) cluster’ları kurmak ve işletmek, titiz bir planlama ve sistematik bir yaklaşım gerektirir. Tek bir gözden kaçırılan adım, performans kayıplarına, güvenlik açıklarına ya da üretim ortamında beklenmedik kesintilere yol açabilir. Bu yazıda, kurulum öncesinden başlayarak operasyonel olgunluğa ulaşana kadar izlemeniz gereken kapsamlı bir kontrol listesini ele alıyoruz.
1. Kurulum Öncesi Planlama
Donanım siparişi vermeden ya da veri merkezinde yer rezerve etmeden önce şu soruların yanıtlanmış olması gerekir.
İş Yükü Analizi
- İş yükü karakteristiği netleştirildi mi? (MPI tabanlı paralel hesaplama, GPU ivmelendirmeli ML, bellek yoğun simülasyon vb.)
- Beklenen çekirdek sayısı, bellek gereksinimi ve depolama kapasitesi tahmin edildi mi?
- Tek seferlik büyük işler mi yoksa sürekli kısa işler mi çalıştırılacak? (İş kuyruğu politikasını doğrudan etkiler.)
- Lisanslı yazılımların (ANSYS, MATLAB, Gaussian vb.) eşzamanlı kullanıcı sınırlamaları değerlendirildi mi?
Ağ ve Veri Merkezi
- Hesaplama düğümleri için InfiniBand (HDR/NDR) mi yoksa yüksek hızlı Ethernet mi tercih edileceği belirlendi mi?
- Raf alan gereksinimi, ağırlık taşıma kapasitesi ve güç yoğunluğu (kW/rack) hesaplandı mı?
- Soğutma sistemi yeterliliği doğrulandı mı? (Sıcak koridor/soğuk koridor düzeni veya sıvı soğutma)
- UPS kapasitesi ve jeneratör devreye alma süresi değerlendirildi mi?
Yazılım Ekosistemi
- İşletim sistemi seçimi yapıldı mı? (RHEL/Rocky Linux, Ubuntu, SLES)
- İş zamanlayıcısı belirlendi mi? (SLURM, PBS Pro, LSF)
- Modül yönetim sistemi netleştirildi mi? (Lmod, Environment Modules)
- Paralel dosya sistemi ihtiyacı değerlendirildi mi? (Lustre, GPFS/Spectrum Scale, BeeGFS)
2. Donanım Kurulumu ve Kabul Testleri
Donanım raf içine alındıktan sonra üretim ortamına geçmeden önce kapsamlı kabul testleri yapılmalıdır.
Fiziksel Kurulum Kontrolleri
- Tüm düğümlerde kablo bağlantıları (veri, güç, yönetim) gözle incelendi
- BMC/IPMI/iDRAC adresleri atandı ve yönetim ağından erişim doğrulandı
- Firmware sürümleri güncel ve tüm düğümlerde tutarlı
- POST hataları yok; bellek testi (Memtest86+) tamamlandı
- InfiniBand HCA/kablo bağlantıları
ibstatile doğrulandı
Ağ Performans Testleri
InfiniBand bant genişliği ve gecikme testleri:
# Sunucu tarafı (düğüm A):
ib_send_bw -d mlx5_0 -i 1
# İstemci tarafı (düğüm B):
ib_send_bw -d mlx5_0 -i 1 <dugum_a_ip>
# Gecikme testi:
ib_send_lat -d mlx5_0 -i 1 <dugum_a_ip>
Beklenen değerler: HDR InfiniBand için ~200 Gb/s bant genişliği, ~1 µs gecikme. Ölçüm değerleri teorik değerlerin %85’inin altındaysa kablo veya switch yapılandırması gözden geçirilmelidir.
CPU ve Bellek Performans Testleri
- STREAM benchmark ile bellek bant genişliği ölçüldü ve referans değerlerle karşılaştırıldı
- LINPACK (HPL) ile hesaplama performansı doğrulandı
- Termal testler yapıldı; tüm çekirdekler tam yükte çalışırken sıcaklık eşikleri aşılmıyor
3. Yazılım Yapılandırması
İşletim Sistemi Sertleştirme
- SELinux veya AppArmor yapılandırması gözden geçirildi
- Gereksiz servisler devre dışı bırakıldı
- SSH anahtar tabanlı kimlik doğrulama etkinleştirildi; parola girişi kapatıldı
- Güvenlik duvarı kuralları tanımlandı (hesaplama düğümleri dış dünyaya kapalı, yalnızca yönetim ağından erişim açık)
- NTP/Chrony ile zaman senkronizasyonu tüm düğümlerde doğrulandı
Zaman senkronizasyonu kritik öneme sahiptir. MPI uygulamalarında ve log analizinde düğümler arası saat sapması sorunlara yol açar:
# Tüm düğümlerde chronyc ile durumu kontrol et:
chronyc tracking | grep "System time"
# Kabul edilebilir sapma: < 1 ms
SLURM İş Zamanlayıcı Yapılandırması
| Parametre | Açıklama | Örnek Değer |
|---|---|---|
SelectType | Kaynak seçim eklentisi | cons_tres |
TaskPlugin | Görev yönetim eklentisi | task/affinity,task/cgroup |
ProctrackType | Süreç takip yöntemi | proctrack/cgroup |
AccountingStorageType | Muhasebe kaydı | accounting_storage/slurmdbd |
JobAcctGatherType | İş metrik toplama | jobacct_gather/cgroup |
SchedulerType | Zamanlayıcı tipi | sched/backfill |
PreemptType | Önceliklendirme yöntemi | preempt/qos |
-
slurmdservisi tüm hesaplama düğümlerinde aktif ve sağlıklı -
slurmctldveslurmdbdyüksek erişilebilirlik modunda yapılandırıldı - Partition ve QOS tanımları iş yükü gereksinimlerine göre ayarlandı
- Kaynak limitleri (CPU, bellek, GPU, çalışma süresi) kullanıcı ve grup bazında tanımlandı
Modül Sistemi ve Yazılım Ortamı
- Lmod veya Environment Modules kuruldu ve tüm düğümlerde erişilebilir
- Temel araç zinciri modülleri derlendi: GCC, Intel OneAPI veya AOCC, OpenMPI/MPICH
- MPI uygulamaları hesap düğümleri arası çalıştırılarak test edildi
4. Depolama Sistemi Doğrulaması
Paralel Dosya Sistemi
-
/scratchbölümü için Lustre veya BeeGFS monte edildi ve tüm düğümlerde görünür - IOR benchmark ile paralel okuma/yazma hızı ölçüldü
- Dosya sistemi kotaları kullanıcı ve grup bazında tanımlandı
-
lfs hsmveya eşdeğeri ile arşivleme entegrasyonu test edildi (varsa)
Yedekleme ve Veri Yönetimi
- Ana ev dizini (
/home) yedekleme planı aktif - Scratch alanı temizleme politikası tanımlandı ve kullanıcılara duyuruldu
- Kritik yazılım ve konfigürasyon dosyaları sürüm kontrolünde (Git)
5. Güvenlik ve Erişim Yönetimi
Kimlik ve Erişim
- LDAP veya Active Directory entegrasyonu tüm düğümlerde doğrulandı
- Kullanıcı UID/GID tutarlılığı tüm düğümlerde sağlandı
- Sudo yetkileri en az ayrıcalık prensibiyle tanımlandı
- PAM yapılandırması gözden geçirildi; hesap kilitleme politikaları aktif
Ağ Güvenliği
- Hesaplama düğümleri doğrudan internet erişimine kapalı
- Yönetim ağı (BMC/IPMI) üretim ağından izole edildi
- SSH için Bastion Host (sıçrama sunucusu) yapılandırıldı
- Intrusion Detection System (IDS) günlükleri merkezi log sunucusuna iletiliyor
6. İzleme ve Uyarı Sistemi
Üretim cluster’ı işletirken görünürlük hayati önem taşır.
Metrik Toplama
- Prometheus + Node Exporter ile donanım metrikleri toplanıyor (CPU, bellek, disk, ağ)
- DCGM Exporter ile GPU metrikleri (varsa) toplanıyor
- IPMI Exporter ile çevre sensör verileri (sıcaklık, fan, güç) toplanıyor
- Grafana dashboard’ları kuruldu; cluster geneli özet ve düğüm bazlı detay ekranları hazır
Uyarı Kuralları
Temel uyarılar tanımlanmalı ve ilgili ekiplere iletilmelidir:
- Düğüm erişilemez duruma geçtiğinde
- CPU sıcaklığı eşik değerini (örn. 85°C) aştığında
- Disk doluluk oranı %80’i geçtiğinde
- InfiniBand port hata sayısı artışa geçtiğinde
slurmdservisi çöktüğünde
SLURM İş İzleme
-
slurmrestdAPI etkinleştirildi ve raporlama araçlarıyla entegre edildi - Bekleme süresi, iş tamamlanma oranı ve kaynak kullanımı düzenli raporlanıyor
- Uzun süre kuyrukta kalan işler için otomatik bildirim mekanizması kuruldu
7. Operasyonel Hazırlık
Teknik kurulum tamamlandıktan sonra operasyonel olgunluk için şunlar da sağlanmalıdır.
Dokümantasyon
- Sistem mimarisi diyagramı (ağ, depolama, yönetim katmanları) güncel
- Düğüm envanteri ve donanım konfigürasyon tablosu mevcut
- Kullanıcı kılavuzu hazırlandı: iş gönderme örnekleri, kota bilgisi, servis politikaları
- Acil müdahale prosedürleri (runbook) yazıldı: düğüm çöktüğünde, depolama dolduğunda, zamanlayıcı yanıt vermediğinde ne yapılır
Test İş Yükleri
Kullanıcılara açılmadan önce temsili iş yükleri çalıştırılmalı:
- Küçük ölçekli MPI testi (2-4 düğüm,
mpi_hello_world) - Paralel I/O testi (IOR ile 4 düğümden eşzamanlı yazma)
- GPU işi (varsa CUDA/ROCm örnek kodu)
- Uzun süreli iş testi (checkpoint/restart mekanizması doğrulama)
Kapasite Planlaması
- İlk 6 ay için kaynak kullanımı beklentisi belgelendi
- Genişleme yol haritası (ek düğüm, depolama büyütme) planlandı
- Lisans yenileme tarihleri takip sistemine eklendi
Özet Tablo
| Aşama | Kritik Kalemler | Tamamlanma |
|---|---|---|
| Planlama | İş yükü analizi, ağ seçimi, yazılım ekosistemi | ☐ |
| Donanım kurulumu | Firmware, kabul testleri, ağ doğrulama | ☐ |
| Yazılım yapılandırması | OS sertleştirme, SLURM, modül sistemi | ☐ |
| Depolama | Paralel FS, yedekleme, kota | ☐ |
| Güvenlik | LDAP, ağ izolasyonu, SSH politikaları | ☐ |
| İzleme | Prometheus, Grafana, uyarı kuralları | ☐ |
| Operasyonel hazırlık | Dokümantasyon, test işleri, kapasite planı | ☐ |
Bu kontrol listesi her ortam için eksiksiz bir referans olmayabilir; cluster boyutu, kullanıcı profili ve iş yükü türüne göre ek maddeler eklemek gerekebilir. Önemli olan, her adımı sistematik biçimde kayıt altına almak ve operasyonel değişiklikleri bu belgeye yansıtmaktır. İyi belgelenmiş bir kurulum, hem günlük operasyonu kolaylaştırır hem de yeni ekip üyelerinin sisteme adapte olma süresini önemli ölçüde kısaltır.
Mevasis olarak HPC cluster kurulumu ve operasyonu konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.