HPC Kapasite Planlama: Cluster Boyutlandırma Rehberi
HPC cluster boyutlandırma nasıl yapılır? Çekirdek sayısı, bellek, depolama ve ağ kapasitesi hesaplama.
Bir HPC cluster kurmak ya da mevcut altyapıyı genişletmek, yalnızca donanım satın almaktan ibaret değildir. Yanlış boyutlandırılmış bir cluster, hem bütçe israfına hem de darboğazlara yol açar: çok küçük olursa işler kuyruğa yığılır, çok büyük olursa boşta bekleyen kaynaklar kurumun bütçesini eritir. Bu rehberde HPC kapasite planlamasının temel bileşenlerini, ölçüm yöntemlerini ve boyutlandırma hesaplamalarını adım adım ele alıyoruz.
Kapasite Planlamasına Nereden Başlanır?
Kapasite planlaması, teknik bir alıştırmadan önce bir iş analizi sorusudur: Cluster hangi iş yüklerini, ne sıklıkla ve ne kadar sürede çalıştıracak?
Bu soruyu yanıtlamak için ihtiyaç duyulan üç temel girdi şunlardır:
- İş yükü profili — Hangi uygulama türleri çalışacak? (MPI tabanlı simülasyonlar, GPU hızlandırmalı derin öğrenme, yüksek geçişli genomik boru hatları vb.)
- Kullanım tahminleri — Kaç kullanıcı, kaç eşzamanlı iş, ortalama iş süresi nedir?
- Büyüme beklentisi — 3–5 yıllık periyotta iş yükü ve kullanıcı sayısı nasıl değişecek?
Bu girdiler olmadan yapılan boyutlandırma, tahmine dayalı bir tahmin olmaktan öteye geçemez.
Çekirdek (Core) Kapasitesi Hesaplama
Hesaplama kapasitesinin temel birimi, işlemci çekirdeğidir. Gereken toplam çekirdek sayısını belirlemek için aşağıdaki formülden yararlanılabilir:
Toplam Çekirdek = (Eşzamanlı İş Sayısı × Ortalama İş Başına Çekirdek)
/ Hedef Cluster Kullanım Oranı
Örnek hesaplama:
| Parametre | Değer |
|---|---|
| Eşzamanlı iş sayısı | 50 |
| Ortalama iş başına çekirdek | 32 |
| Hedef kullanım oranı | %80 |
| Gereken toplam çekirdek | 2.000 |
Kullanım oranını %100 olarak planlamak ciddi bir hata olur. Bakım pencereleri, donanım arızaları ve iş kuyruğu balonlanmaları için %15–25 arasında bir tampon bırakmak, üretim ortamlarında standart bir uygulamadır.
İşlemci Mimarisi Seçimi
Çekirdek sayısını hesapladıktan sonra hangi işlemci mimarisini kullanacağınıza karar vermeniz gerekir. Mevcut sunucu sınıfı işlemciler için tipik karşılaştırma:
| Mimari | Çekirdek / Soket | Bellek Bantgenişliği | Güç Tüketimi |
|---|---|---|---|
| Intel Xeon (Sapphire Rapids) | 60 çekirdeğe kadar | ~300 GB/s | 350 W TDP |
| AMD EPYC (Genoa) | 96 çekirdeğe kadar | ~460 GB/s | 360 W TDP |
| ARM (Ampere Altra) | 128 çekirdeğe kadar | ~200 GB/s | 250 W TDP |
Yoğun kayan nokta işlemleri için bellek bantgenişliği kritik bir seçim kriteridir; bu nedenle sayısal simülasyon iş yükleri genellikle AMD EPYC ailesinden avantaj sağlar.
Bellek Kapasitesi
Bellek yetersizliği, HPC iş yüklerinde en sık karşılaşılan darboğaz nedenlerinden biridir. İş başı gereken bellek miktarı uygulamadan uygulamaya büyük farklılık gösterir:
- CFD/FEM simülasyonları: Problem başına 4–16 GB bellek yaygındır.
- Genomik boru hatları: Referans genome bağlı olarak iş başına 32–128 GB talep edilebilir.
- Derin öğrenme eğitimi: GPU belleği belirleyicidir; ancak veri ön işleme CPU belleği tüketir.
- Moleküler dinamik: Atom sayısıyla doğrusal ölçeklenen bellek gereksinimleri ortaya çıkar.
Düğüm başı bellek kapasitesi planlanırken şu kural parmak izi olarak kullanılabilir:
Düğüm Belleği = Düğümdeki Çekirdek Sayısı × Çekirdek Başı Ortalama Bellek
+ %20 İşletim Sistemi / Arka Plan Servisleri Payı
Örneğin 64 çekirdekli bir düğümde, iş yükü başına çekirdek başı 4 GB bellek kullanılıyorsa:
Düğüm Belleği = (64 × 4) + %20 = 256 GB + 51 GB ≈ 307 GB → 320 GB (standart modül kapasitesine yuvarlanır)
NUMA Topolojisine Dikkat
Modern çok soketli sunucularda NUMA (Non-Uniform Memory Access) yapısı, bellek erişim gecikmelerini doğrudan etkiler. MPI sıralaması ve iş parçacığı bağlaması yapılırken NUMA düğümleri gözetilmezse gerçek dünya performansı teorik pik değerin %40–60’ına kadar düşebilir. Kapasite planlamasında bu kayıp marjı mutlaka hesaba katılmalıdır.
Depolama Kapasitesi ve Performansı
HPC depolama planlaması, kapasiteyi (TB cinsinden) ve performansı (IOPS ve MB/s cinsinden) birlikte ele almayı gerektirir.
Depolama Katmanları
Çoğu kurumsal HPC ortamı, üç katmanlı bir depolama mimarisinden faydalanır:
| Katman | Teknoloji | Kullanım Amacı | Tipik Performans |
|---|---|---|---|
| Sıcak (Hot) | NVMe tabanlı paralel dosya sistemi | Aktif iş verileri | 100 GB/s üzeri okuma |
| Ilık (Warm) | SAS SSD / HDD tabanlı Lustre veya GPFS | Proje depolama | 10–50 GB/s |
| Soğuk (Cold) | Nesne depolama / bant | Arşiv | Saniyeler–dakikalar |
Kapasiteyi Tahmin Etme
Pratik bir başlangıç noktası olarak şu oran kullanılabilir:
Sıcak Depolama = Eşzamanlı İş Sayısı × Ortalama İş Çıktı Boyutu × 3
(aktif iş + geçici dosyalar + bir sonraki batch için alan)
Örneğin 50 eşzamanlı iş, her biri ortalama 200 GB çıktı üretiyorsa:
Sıcak Depolama = 50 × 200 GB × 3 = 30 TB
Ilık depolama ise genellikle sıcak depolamanın 10–20 katı olarak planlanır.
Ağ (Interconnect) Tasarımı
Hesaplama ve bellek kapasitesi yeterli olsa bile ağ bant genişliği yanlış planlandığında MPI tabanlı paralel uygulamalar beklenen ölçeklemeyi göstermez.
Teknoloji Seçimi
| Teknoloji | Bant Genişliği | Gecikme | Tipik Kullanım |
|---|---|---|---|
| 25 GbE | 25 Gb/s | ~5 µs | Tek düğümlü veya gevşek bağlı iş yükleri |
| 100 GbE | 100 Gb/s | ~2 µs | Orta ölçekli MPI |
| HDR InfiniBand | 200 Gb/s | ~0.6 µs | Sıkı bağlı paralel simülasyonlar |
| NDR InfiniBand | 400 Gb/s | ~0.5 µs | Büyük ölçekli simülasyon ve AI eğitimi |
Ağ seçimi iş yükü tipine göre yapılmalıdır. CFD ya da kuantum kimyası gibi düğümler arası yoğun iletişim gerektiren iş yükleri için InfiniBand, her şeyin aksini doğrulayacak net bir bütçe kısıtı yoksa tercih edilmesi gereken mimaridir.
Fat-Tree Topolojisi ve Blokaj Oranı
Büyük kümelerde anahtarlama yapısı, ağ performansını doğrudan belirler. Blokaj oranı (oversubscription ratio) 1:1 olduğunda her düğüm tam bantgenişliğine erişirken 4:1 oranında dört düğüm aynı bant genişliğini paylaşır. Bütçe kısıtı varsa sıkı bağlı iş parçacıklarını aynı raf içinde gruplayarak raf içi iletişimi tam bantgenişliğinde tutmak ve yalnızca raflar arası trafiği blokajlı bırakmak akılcı bir yaklaşımdır.
GPU Kapasitesi Planlaması
GPU hızlandırmalı iş yükleri (derin öğrenme, moleküler dinamik, CFD hızlandırma) için kapasite planlaması birkaç ek boyut gerektirir:
- GPU belleği: Model/problem boyutu GPU belleğine sığmalıdır. LLM ince ayarı için 80 GB HBM sunan kartlar yaygınlaşırken, mühendislik simülasyonları için 48 GB kartlar çoğunlukla yeterlidir.
- GPU-CPU dengesi: Veri yükleme ve ön işleme CPU’da gerçekleştiği için GPU başı en az 8–16 CPU çekirdeği ayrılması önerilir.
- NVLink / NVSwitch: Çoklu GPU iletişimi gerektiren iş yüklerinde GPU-GPU bant genişliği, PCIe sınırlarını aşmak için NVLink gerektirer.
İş Kuyruğu Analizi
Kapasite planlamasının sıkça göz ardı edilen boyutu, iş kuyruğu davranışıdır. Kaynak boyutlandırması doğru olsa bile yanlış yapılandırılmış bir iş zamanlayıcı (SLURM, PBS Pro vb.) kuyruğa yığılmaya yol açabilir.
Ortalama bekleme süresi, Little’s Yasası ile tahmin edilebilir:
Ortalama Bekleme Süresi = Kuyruktaki Ortalama İş Sayısı / İş Tamamlanma Hızı
Bu hesabı gerçek veriye dayandırmak için mevcut sisteminizde şu SLURM komutunu çalıştırabilirsiniz:
# Son 30 günün iş istatistiklerini özetle
sacct --starttime=$(date -d "30 days ago" +%Y-%m-%d) \
--endtime=now \
--format=JobID,Elapsed,ReqCPUS,ReqMem,State \
--state=COMPLETED \
| awk 'NR>2 {print $2, $3, $4}' \
| sort | uniq -c | sort -rn | head -20
Bu çıktı, tipik iş süresi ve kaynak profili dağılımını gözlemlemenizi sağlar; boyutlandırma kararlarınızı gerçek veriye oturtmanın en hızlı yoludur.
Büyüme Planlaması ve Aşamalı Genişleme
Kapasite planlaması bir anlık hesaplama değil, bir süreçtir. Altyapının başlangıçta ihtiyacın %120–130’una göre boyutlandırılması ve ekleme kabiliyetinin (node ekleme, depolama genişletme) baştan tasarıma dahil edilmesi uzun vadede çok daha düşük toplam sahip olma maliyeti (TCO) sağlar.
Tipik bir aşamalı yaklaşım:
- Faz 1 (0–12 ay): Temel hesaplama ve depolama altyapısını devreye alın, gerçek kullanım verisi toplayın.
- Faz 2 (12–24 ay): Kullanım raporlarına ve kuyruğu bekleme süresi metriklerine göre darboğazı tespit edin, hedefli genişleme yapın.
- Faz 3 (24–36 ay): Teknoloji yenilemesi veya mimari revizyon için strateji geliştirin.
HPC kapasite planlaması, hesaplama, bellek, depolama ve ağ bileşenlerini bir arada değerlendirmeyi gerektiren çok boyutlu bir mühendislik disiplinidir. Yukarıdaki formüller ve tablolar, başlangıç tahminleri için güçlü bir çerçeve sunmaktadır; ancak her kurumun iş yükü profili farklıdır ve gerçek boyutlandırma kararları bu özgün profil üzerine inşa edilmelidir.
Mevasis olarak HPC kapasite planlama ve cluster boyutlandırma konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.