/ HPC Yaşam Döngüsü · Aşama 04

HPC Kapasite Genişletme

Mevcut HPC sisteminize node, GPU ve depolama eklerken üretimi durdurmadan büyütme. AI altyapı dönüşümü, cluster genişletme ve HPC modernizasyonu için Mevasis.

Bir HPC sistemi sahaya alındığı gün başarılı, iki yıl sonra yetersiz kalmış olabilir. İş yükleri büyür, GPU ihtiyacı patlar, AI/ML projeleri yeni mimariler talep eder. HPC kapasite genişletme hizmetimiz sistemi büyütürken üretimi durdurmadan, yatırımınızı boşa atmadan ve teknoloji borcunu birikmeden ilerletir.

“Genişletme” tek bir şey değil

Müşteri ihtiyacına göre dört farklı yöntemden birini — veya kombinasyonunu — uyguluyoruz:

Yatay genişletme (scale-out)

Mevcut kümeye yeni hesaplama node’ları ekleme. Çoğu zaman en hızlı ve ekonomik yol.

  • Mevcut ağ topolojisinin yeni node’ları kaldırıp kaldıramayacağı analizi
  • Sıfır-kesintili node ekleme — SLURM kuyruklarına aktif iş varken bile devreye alma
  • Image konsistensi: yeni node’lar mevcutla bit-bit aynı yazılım stack’ine sahip
  • Performans homojenliği doğrulaması (yeni node’lar mevcutle aynı performansta)

Dikey genişletme (scale-up)

Mevcut node’ları daha güçlü bileşenlerle güncelleme.

  • Bellek genişletme (özellikle simülasyon iş yükleri için)
  • NVMe scratch katmanı eklemek
  • CPU upgrade (uyumluluk denetimiyle)
  • Daha hızlı interconnect kartlarına geçiş

GPU ve hızlandırıcı eklemesi

AI / ML / generative AI iş yüklerinin patlamasıyla en sık talep edilen senaryo.

  • NVIDIA A100, H100, H200, B100/B200 ailelerinden iş yükünüze uygun model seçimi
  • Mevcut sunucuda GPU genişletilebilirliği (slot, güç, soğutma) denetimi
  • Yeni GPU node’ları için NVLink, InfiniBand topolojisi planlaması
  • AI framework’leri (PyTorch, TensorFlow, JAX) ile uyumlu yazılım yığını
  • LLM eğitimi ve inference için özelleşmiş referans mimariler

Depolama katmanı genişletme

İş yükü büyüdükçe darboğaz çoğu zaman hesaplamada değil I/O’dadır.

  • Paralel dosya sistemi (BeeGFS / Lustre / Spectrum Scale) genişletme
  • Hızlı NVMe scratch + kapasiteli object store iki katmanlı mimari
  • Veri yaşam döngüsü politikaları: hot / warm / cold tier
  • Backup ve disaster recovery stratejisi

Modernizasyon ve teknoloji tazelemesi

Bazen genişletme yerine kısmi modernizasyon doğru cevaptır:

  • 5+ yıllık node’ların verimsizliği nedeniyle aslında yeni 1 node’un eski 3 node’tan tasarruflu olduğu durumlar
  • Eski Ethernet ağdan InfiniBand HDR/NDR geçişi
  • Eski paralel dosya sisteminden modern alternatife migrasyon
  • HPC’den AI altyapısına dönüşüm — geleneksel CPU kümesinden GPU-merkezli mimariye geçiş

Bu kararlar yatırımı koruyarak performans ikiye katlamayı mümkün kılar; danışmanlık ekibimiz hangi yolun en yüksek geri dönüşü vereceğini bağımsız olarak değerlendirir.

Kapsama dahil olanlar

  • Kapasite analizi raporu — mevcut iş yükü trendine göre büyüme öngörüsü
  • Mimari yenileme önerileri (yatay / dikey / GPU / depolama)
  • BOM ve TCO modelleme
  • Tedarik koordinasyonu (Mevasis tedarik gerekirse)
  • Üretim ortamında sıfır kesintiyle veya planlı bakım penceresinde devreye alma
  • Yeni bileşenlerin kabul testleri ve mevcut sistemle homojenlik doğrulaması
  • Kullanıcılara yeni kapasiteyi nasıl kullanacaklarını anlatan eğitim
  • Genişletme sonrası bakım sözleşmesinin güncellenmesi

Müşterilerimizin elde ettiği sonuç

  • Yatırımın ikiye katlanması yerine kademeli büyüme — bütçeye uygun
  • Tipik genişletmelerde 0–4 saat üretim kesintisi (büyük çoğunluğu sıfır)
  • Performans homojenliği — eski + yeni node’lar aynı kuyrukta sorunsuz çalışır
  • AI iş yüklerine geçişte 3–6 ay zaman kazancı (sıfırdan yeni sistem yerine)

Sıkça gelen kısa sorular

GPU eklemek istiyoruz ama mevcut sunucularımızın güç ve soğutma kapasitesi yeterli mi?

İlk adımımız mevcut altyapının enerji/soğutma denetimi: rack başına W, oda kapasitesi, PDU yeterliliği. Çoğu durumda yeterli; yetersiz çıkarsa “GPU node şasisi” + ayrı bir mini-rack çözümünü öneriyoruz. H100/H200 sınıfı için saha hazırlığı yeniden ele alınmalı.

Sistemimiz 7 yaşında, genişletmek mi modernize etmek mi mantıklı?

Net cevap için iş yükünüzün performans-saat başı maliyetini ölçeriz. Eski donanım çoğu zaman elektrik faturasında yüksek bir gizli maliyet barındırır — yeni nesil bir node’un toplam üretkenliği eski 3 node’u geride bırakabilir. Karar danışmanlık raporundan çıkar.

Üretim duramaz. Genişletmeyi nasıl yapıyorsunuz?

Hesaplama node’u ekleme tipik olarak sıfır kesintili: yeni node’lar SLURM’a “drain” durumunda eklenir, image yüklenir, doğrulanır, sonra kuyruğa alınır. Ağ veya depolama katmanı dokunması gerekiyorsa planlı bir bakım penceresi (genelde hafta sonu, 4–8 saat) yeterli olur.

AI/ML projeleri için sıfırdan ayrı bir küme mi kurmalıyım?

Mutlaka değil. Mevcut HPC kümesini AI iş yükleriyle paylaşımlı çalıştıran müşterilerimiz var; ayrı GPU partition + uygun zamanlayıcı politikalarıyla. Ancak iş yükü kritikleri çok farklıysa (latency-hassas inference, sürekli eğitim) ayrı bir mimari önerebiliriz — danışmanlık aşamasında değerlendirilir.

Yaşam döngüsü tamamlanır

Kapasite genişletmesi aslında bir döngünün son adımı değil, bir sonraki stratejik düşünme turunun başlangıcıdır. Yeni iş yükleri yeni sorular getirir; danışmanlığa geri dönülür ve döngü tekrar başlar. Mevasis bu sürekliliğin uzun vadeli teknik ortağıdır.