HPC Kapasite Planlama: Cluster Boyutlandırma Rehberi

Bir HPC cluster kurmak ya da mevcut altyapıyı genişletmek, yalnızca donanım satın almaktan ibaret değildir. Yanlış boyutlandırılmış bir cluster, hem bütçe israfına hem de darboğazlara yol açar: çok küçük olursa işler kuyruğa yığılır, çok büyük olursa boşta bekleyen kaynaklar kurumun bütçesini eritir. Bu rehberde HPC kapasite planlamasının temel bileşenlerini, ölçüm yöntemlerini ve boyutlandırma hesaplamalarını adım adım ele alıyoruz.

Kapasite Planlamasına Nereden Başlanır?

Kapasite planlaması, teknik bir alıştırmadan önce bir iş analizi sorusudur: Cluster hangi iş yüklerini, ne sıklıkla ve ne kadar sürede çalıştıracak?

Bu soruyu yanıtlamak için ihtiyaç duyulan üç temel girdi şunlardır:

İş yükü profili — Hangi uygulama türleri çalışacak? (MPI tabanlı simülasyonlar, GPU hızlandırmalı derin öğrenme, yüksek geçişli genomik boru hatları vb.)
Kullanım tahminleri — Kaç kullanıcı, kaç eşzamanlı iş, ortalama iş süresi nedir?
Büyüme beklentisi — 3–5 yıllık periyotta iş yükü ve kullanıcı sayısı nasıl değişecek?

Bu girdiler olmadan yapılan boyutlandırma, tahmine dayalı bir tahmin olmaktan öteye geçemez.

Çekirdek (Core) Kapasitesi Hesaplama

Hesaplama kapasitesinin temel birimi, işlemci çekirdeğidir. Gereken toplam çekirdek sayısını belirlemek için aşağıdaki formülden yararlanılabilir:

Toplam Çekirdek = (Eşzamanlı İş Sayısı × Ortalama İş Başına Çekirdek)
                  / Hedef Cluster Kullanım Oranı

Örnek hesaplama:

Parametre	Değer
Eşzamanlı iş sayısı	50
Ortalama iş başına çekirdek	32
Hedef kullanım oranı	%80
Gereken toplam çekirdek	2.000

Kullanım oranını %100 olarak planlamak ciddi bir hata olur. Bakım pencereleri, donanım arızaları ve iş kuyruğu balonlanmaları için %15–25 arasında bir tampon bırakmak, üretim ortamlarında standart bir uygulamadır.

İşlemci Mimarisi Seçimi

Çekirdek sayısını hesapladıktan sonra hangi işlemci mimarisini kullanacağınıza karar vermeniz gerekir. Mevcut sunucu sınıfı işlemciler için tipik karşılaştırma:

Mimari	Çekirdek / Soket	Bellek Bantgenişliği	Güç Tüketimi
Intel Xeon (Sapphire Rapids)	60 çekirdeğe kadar	~300 GB/s	350 W TDP
AMD EPYC (Genoa)	96 çekirdeğe kadar	~460 GB/s	360 W TDP
ARM (Ampere Altra)	128 çekirdeğe kadar	~200 GB/s	250 W TDP

Yoğun kayan nokta işlemleri için bellek bantgenişliği kritik bir seçim kriteridir; bu nedenle sayısal simülasyon iş yükleri genellikle AMD EPYC ailesinden avantaj sağlar.

Bellek Kapasitesi

Bellek yetersizliği, HPC iş yüklerinde en sık karşılaşılan darboğaz nedenlerinden biridir. İş başı gereken bellek miktarı uygulamadan uygulamaya büyük farklılık gösterir:

CFD/FEM simülasyonları: Problem başına 4–16 GB bellek yaygındır.
Genomik boru hatları: Referans genome bağlı olarak iş başına 32–128 GB talep edilebilir.
Derin öğrenme eğitimi: GPU belleği belirleyicidir; ancak veri ön işleme CPU belleği tüketir.
Moleküler dinamik: Atom sayısıyla doğrusal ölçeklenen bellek gereksinimleri ortaya çıkar.

Düğüm başı bellek kapasitesi planlanırken şu kural parmak izi olarak kullanılabilir:

Düğüm Belleği = Düğümdeki Çekirdek Sayısı × Çekirdek Başı Ortalama Bellek
               + %20 İşletim Sistemi / Arka Plan Servisleri Payı

Örneğin 64 çekirdekli bir düğümde, iş yükü başına çekirdek başı 4 GB bellek kullanılıyorsa:

Düğüm Belleği = (64 × 4) + %20 = 256 GB + 51 GB ≈ 307 GB → 320 GB (standart modül kapasitesine yuvarlanır)

NUMA Topolojisine Dikkat

Modern çok soketli sunucularda NUMA (Non-Uniform Memory Access) yapısı, bellek erişim gecikmelerini doğrudan etkiler. MPI sıralaması ve iş parçacığı bağlaması yapılırken NUMA düğümleri gözetilmezse gerçek dünya performansı teorik pik değerin %40–60’ına kadar düşebilir. Kapasite planlamasında bu kayıp marjı mutlaka hesaba katılmalıdır.

Depolama Kapasitesi ve Performansı

HPC depolama planlaması, kapasiteyi (TB cinsinden) ve performansı (IOPS ve MB/s cinsinden) birlikte ele almayı gerektirir.

Depolama Katmanları

Çoğu kurumsal HPC ortamı, üç katmanlı bir depolama mimarisinden faydalanır:

Katman	Teknoloji	Kullanım Amacı	Tipik Performans
Sıcak (Hot)	NVMe tabanlı paralel dosya sistemi	Aktif iş verileri	100 GB/s üzeri okuma
Ilık (Warm)	SAS SSD / HDD tabanlı Lustre veya GPFS	Proje depolama	10–50 GB/s
Soğuk (Cold)	Nesne depolama / bant	Arşiv	Saniyeler–dakikalar

Kapasiteyi Tahmin Etme

Pratik bir başlangıç noktası olarak şu oran kullanılabilir:

Sıcak Depolama = Eşzamanlı İş Sayısı × Ortalama İş Çıktı Boyutu × 3
                 (aktif iş + geçici dosyalar + bir sonraki batch için alan)

Örneğin 50 eşzamanlı iş, her biri ortalama 200 GB çıktı üretiyorsa:

Sıcak Depolama = 50 × 200 GB × 3 = 30 TB

Ilık depolama ise genellikle sıcak depolamanın 10–20 katı olarak planlanır.

Ağ (Interconnect) Tasarımı

Hesaplama ve bellek kapasitesi yeterli olsa bile ağ bant genişliği yanlış planlandığında MPI tabanlı paralel uygulamalar beklenen ölçeklemeyi göstermez.

Teknoloji Seçimi

Teknoloji	Bant Genişliği	Gecikme	Tipik Kullanım
25 GbE	25 Gb/s	~5 µs	Tek düğümlü veya gevşek bağlı iş yükleri
100 GbE	100 Gb/s	~2 µs	Orta ölçekli MPI
HDR InfiniBand	200 Gb/s	~0.6 µs	Sıkı bağlı paralel simülasyonlar
NDR InfiniBand	400 Gb/s	~0.5 µs	Büyük ölçekli simülasyon ve AI eğitimi

Ağ seçimi iş yükü tipine göre yapılmalıdır. CFD ya da kuantum kimyası gibi düğümler arası yoğun iletişim gerektiren iş yükleri için InfiniBand, her şeyin aksini doğrulayacak net bir bütçe kısıtı yoksa tercih edilmesi gereken mimaridir.

Fat-Tree Topolojisi ve Blokaj Oranı

Büyük kümelerde anahtarlama yapısı, ağ performansını doğrudan belirler. Blokaj oranı (oversubscription ratio) 1:1 olduğunda her düğüm tam bantgenişliğine erişirken 4:1 oranında dört düğüm aynı bant genişliğini paylaşır. Bütçe kısıtı varsa sıkı bağlı iş parçacıklarını aynı raf içinde gruplayarak raf içi iletişimi tam bantgenişliğinde tutmak ve yalnızca raflar arası trafiği blokajlı bırakmak akılcı bir yaklaşımdır.

GPU Kapasitesi Planlaması

GPU hızlandırmalı iş yükleri (derin öğrenme, moleküler dinamik, CFD hızlandırma) için kapasite planlaması birkaç ek boyut gerektirir:

GPU belleği: Model/problem boyutu GPU belleğine sığmalıdır. LLM ince ayarı için 80 GB HBM sunan kartlar yaygınlaşırken, mühendislik simülasyonları için 48 GB kartlar çoğunlukla yeterlidir.
GPU-CPU dengesi: Veri yükleme ve ön işleme CPU’da gerçekleştiği için GPU başı en az 8–16 CPU çekirdeği ayrılması önerilir.
NVLink / NVSwitch: Çoklu GPU iletişimi gerektiren iş yüklerinde GPU-GPU bant genişliği, PCIe sınırlarını aşmak için NVLink gerektirer.

İş Kuyruğu Analizi

Kapasite planlamasının sıkça göz ardı edilen boyutu, iş kuyruğu davranışıdır. Kaynak boyutlandırması doğru olsa bile yanlış yapılandırılmış bir iş zamanlayıcı (SLURM, PBS Pro vb.) kuyruğa yığılmaya yol açabilir.

Ortalama bekleme süresi, Little’s Yasası ile tahmin edilebilir:

Ortalama Bekleme Süresi = Kuyruktaki Ortalama İş Sayısı / İş Tamamlanma Hızı

Bu hesabı gerçek veriye dayandırmak için mevcut sisteminizde şu SLURM komutunu çalıştırabilirsiniz:

# Son 30 günün iş istatistiklerini özetle
sacct --starttime=$(date -d "30 days ago" +%Y-%m-%d) \
      --endtime=now \
      --format=JobID,Elapsed,ReqCPUS,ReqMem,State \
      --state=COMPLETED \
  | awk 'NR>2 {print $2, $3, $4}' \
  | sort | uniq -c | sort -rn | head -20

Bu çıktı, tipik iş süresi ve kaynak profili dağılımını gözlemlemenizi sağlar; boyutlandırma kararlarınızı gerçek veriye oturtmanın en hızlı yoludur.

Büyüme Planlaması ve Aşamalı Genişleme

Kapasite planlaması bir anlık hesaplama değil, bir süreçtir. Altyapının başlangıçta ihtiyacın %120–130’una göre boyutlandırılması ve ekleme kabiliyetinin (node ekleme, depolama genişletme) baştan tasarıma dahil edilmesi uzun vadede çok daha düşük toplam sahip olma maliyeti (TCO) sağlar.

Tipik bir aşamalı yaklaşım:

Faz 1 (0–12 ay): Temel hesaplama ve depolama altyapısını devreye alın, gerçek kullanım verisi toplayın.
Faz 2 (12–24 ay): Kullanım raporlarına ve kuyruğu bekleme süresi metriklerine göre darboğazı tespit edin, hedefli genişleme yapın.
Faz 3 (24–36 ay): Teknoloji yenilemesi veya mimari revizyon için strateji geliştirin.

HPC kapasite planlaması, hesaplama, bellek, depolama ve ağ bileşenlerini bir arada değerlendirmeyi gerektiren çok boyutlu bir mühendislik disiplinidir. Yukarıdaki formüller ve tablolar, başlangıç tahminleri için güçlü bir çerçeve sunmaktadır; ancak her kurumun iş yükü profili farklıdır ve gerçek boyutlandırma kararları bu özgün profil üzerine inşa edilmelidir.

Mevasis olarak HPC kapasite planlama ve cluster boyutlandırma konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.