HPC Network Tasarımı
Yüksek başarımlı hesaplama altyapısı için ağ tasarımı: fat-tree topoloji, VLAN segmentasyonu, yönetim ve compute ağı ayrımı.
Yüksek başarımlı hesaplama (HPC) kümelerinde ağ altyapısı, çoğu zaman göz ardı edilen ancak sistemin tamamını belirleyen bileşendir. Yüzlerce çekirdek, on’larca GPU ve petabaytlarca veri bir arada çalışırken düğümler arasındaki iletişim hızı ve güvenilirliği, uygulama başarımını doğrudan etkiler. Doğru tasarlanmamış bir ağ; gecikme artışı, paket kaybı ve darboğaz sorunlarıyla birlikte hesaplama yatırımını boşa çıkarır.
Mevasis, HPC network tasarımını ayrı bir mühendislik disiplini olarak ele alır: topoloji seçiminden VLAN segmentasyonuna, yönetim ağının izolasyonundan yüksek hızlı birbirbağlantı çözümlerine kadar altyapının tüm ağ katmanlarını bütüncül bir yaklaşımla planlar ve uygular.
HPC Ağında Temel Gereksinimler
Genel amaçlı kurumsal ağlardan farklı olarak HPC ağları üç temel parametreye göre optimize edilir:
- Düşük gecikme (low latency): MPI gibi mesaj geçirme protokolleri mikrosaniye düzeyinde iletişim ister. Gecikme artışı doğrudan ölçeklenebilirlik kaybına dönüşür.
- Yüksek bant genişliği: Model paralel eğitim ya da büyük ölçekli simülasyon iş yüklerinde düğümler arası veri transferi GB/s mertebesindedir.
- Non-blocking mimari: Küme genelinde herhangi iki düğümün birbirini beklemeksizin tam hızda iletişim kurabilmesi gerekir.
Bu üç gereksinim, ağ topolojisi, switch seçimi ve kablolama planını birlikte şekillendirir.
Topoloji Seçimi: Fat-Tree Mimarisi
HPC kümelerinde en yaygın ve ölçeklenebilir topoloji fat-tree (şişman ağaç) yapısıdır. Geleneksel ağaç topolojilerinin üst katmanlarda yaşadığı bant genişliği daralmasını, yukarı bağlantı sayısını artırarak ortadan kaldırır.
Katmanlı Fat-Tree Yapısı
[Core Switch]
/ | \
[Aggr-1] [Aggr-2] [Aggr-3]
/ \ / \ / \
[ToR-1][ToR-2][ToR-3][ToR-4][ToR-5][ToR-6]
| \ | \ | \ | \ | \ | \
Node'lar...
ToR (Top-of-Rack) katmanı: Her rack’in tepesinde yer alan erişim anahtarları. Compute node’lara 25GbE veya 100GbE bağlantı sağlar.
Aggregation katmanı: ToR switch’leri birbirine bağlar. Oversubscription oranı burada belirlenir; non-blocking yapı için 1:1 oranı hedeflenir.
Core katmanı: Kümenin tamamını birbirine bağlayan omurga switch’leri. Yüksek port kapasiteli, düşük gecikmeli cihazlar bu katmanda konumlanır.
Topoloji Karşılaştırması
| Topoloji | Bant Genişliği | Gecikme | Ölçeklenebilirlik | Maliyet |
|---|---|---|---|---|
| Fat-Tree | Çok Yüksek | Çok Düşük | Yüksek | Orta-Yüksek |
| Dragonfly | Yüksek | Düşük | Çok Yüksek | Yüksek |
| Torus | Orta | Düşük | Orta | Orta |
| Leaf-Spine | Yüksek | Düşük | Orta | Orta |
Küçük ve orta ölçekli kümeler için fat-tree maliyet/başarım dengesiyle tercih edilen topolojidir. Binlerce düğüme ulaşan büyük sistemlerde dragonfly topolojisi değerlendirmeye alınır.
VLAN Segmentasyonu ve Ağ Ayrımı
HPC kümelerinde tek bir fiziksel ağ üzerinde mantıksal ayrım yapmak hem güvenliği hem yönetilebilirliği artırır. Mevasis, standart tasarımlarında dört temel ağı ayrı VLAN’lar üzerinde yapılandırır:
Ağ Katmanları
1. Yönetim Ağı (Management Network) IPMI/BMC erişimi, işletim sistemi kurulumu ve izleme trafiği bu ağ üzerinden akar. Compute trafiğinden tamamen izole edilir; böylece bir compute node’unun ağ sorununa rağmen yöneticiler sisteme uzaktan erişimini korur.
2. Compute/MPI Ağı (Interconnect Network) Düğümler arası MPI iletişimi ve paralel uygulama trafiği için ayrılmış yüksek hızlı ağdır. InfiniBand veya yüksek hızlı Ethernet bu katmanda devreye girer. Yönlendirici geçişi olmaksızın, düz (flat) bir L2 yapısıyla gecikme minimize edilir.
3. Depolama Ağı (Storage Network) BeeGFS, Lustre veya NFS tabanlı paylaşımlı depolama sistemleriyle iletişim için ayrı bir ağ segmenti kullanılır. Bu sayede depolama trafiği MPI trafiğiyle rekabet etmez.
4. Dış Erişim Ağı (External/Login Network) Kullanıcıların login node’larına eriştiği ağdır. Güvenlik duvarı ve VPN arkasında konumlandırılır; doğrudan compute ve yönetim ağlarına erişim yoktur.
Örnek VLAN Planı
vlans:
management:
id: 100
subnet: 10.0.100.0/24
gateway: 10.0.100.1
access: "BMC, switch yönetimi, Ansible"
compute:
id: 200
subnet: 10.0.200.0/22 # /22 -> 1022 node
gateway: null # L2 flat, yönlendirme yok
mtu: 9000 # Jumbo frame aktif
storage:
id: 300
subnet: 10.0.300.0/24
gateway: 10.0.300.1
mtu: 9000
login:
id: 400
subnet: 10.0.400.0/28
gateway: 10.0.400.1
access: "SSH, VPN çıkışı"
Yüksek Hızlı Birbirbağlantı: InfiniBand ve RoCE
Compute ağı için iki ana teknoloji değerlendirmeye girer:
InfiniBand (IB): HDR (200 Gb/s) veya NDR (400 Gb/s) ile sektörün en düşük gecikme değerlerini sunar. RDMA native desteği, MPI ve AI framework’lerinin (NCCL, OpenMPI) tamamıyla uyumludur. Ayrı bir ağ fabric’i gerektirdiğinden maliyet öne çıksa da yoğun iletişimli iş yüklerinde geri dönüşü hızlıdır.
RoCE v2 (RDMA over Converged Ethernet): 25GbE/100GbE altyapısı üzerinde RDMA yeteneklerini etkinleştirir. Mevcut Ethernet yatırımlarını korurken InfiniBand’e yakın gecikme değerleri elde edilir. PFC (Priority Flow Control) ve ECN (Explicit Congestion Notification) yapılandırması dikkatli yönetilmelidir.
Mevasis, iş yükü profili ve bütçe kısıtlarına göre bu iki teknolojiyi kıyaslamalı analiz ederek önerir; hangi konfigürasyonun seçildiğinden bağımsız olarak devreye alma ve ince ayar sürecini ekibiyle yürütür.
Mevasis’in Uygulama Yöntemi
Mevasis, HPC network tasarımını şu aşamalarla hayata geçirir:
1. Keşif ve Kapasite Analizi
Mevcut ya da planlanan iş yüklerinin iletişim örüntüsü incelenir. MPI yoğun iş yükleri ile AI eğitimi farklı trafik profilleri oluşturur; topoloji ve port kapasiteleri buna göre boyutlandırılır.
2. Mimari Tasarım
Topoloji, VLAN planı, IP adres şeması ve yönlendirme politikaları belgelenmiş bir tasarım dokümanına dökülür. Tek noktadan arıza (SPOF) riskleri tespit edilir; yedeklilik seçenekleri değerlendirilir.
3. Yapılandırma ve Devreye Alma
Switch yapılandırmaları (Mellanox/NVIDIA Onyx, Arista EOS, Cumulus Linux vb.) Infrastructure as Code prensibiyle yönetilir. Ansible playbook’ları ile tutarlı, tekrarlanabilir bir kurulum sağlanır.
4. Doğrulama ve Performans Testi
ib_write_bw, ib_read_lat, iperf3 ve nuttcp araçlarıyla bant genişliği ve gecikme testleri yapılır. Sonuçlar tasarım hedefleriyle karşılaştırılır; iyileştirme gerektiren noktalar giderilir.
5. İzleme Entegrasyonu
Grafana + Prometheus + SNMP Exporter kombinasyonuyla switch portlarının trafik, hata ve kullanım verileri anlık izlenir. Kritik eşikler için uyarılar yapılandırılır.
Sonuç
HPC kümesinin gücü, yalnızca işlemci ve bellekle ölçülmez; düğümlerin ne kadar hızlı ve güvenilir biçimde birbirleriyle iletişim kurduğuyla da belirlenir. Doğru tasarlanmış bir HPC ağı, uygulamaların teorik ölçek verimliliğine ulaşmasını sağlar ve uzun vadede altyapı yönetim yükünü düşürür.
Mevasis ekibiyle ağ tasarımı, topoloji seçimi veya mevcut altyapınızın değerlendirilmesi için iletişime geçin. Gereksinimlerinizi dinleyerek ihtiyacınıza özel bir çözüm sunarız.
Sıkça Sorulan Sorular
Bu çözüm ne zaman tercih edilmeli?
HPC network tasarımı; on'lardan yüzlerce hesaplama düğümüne ölçeklenen küme altyapıları kurulurken, mevcut ağın darboğaz oluşturduğu ya da düğümler arası gecikmenin uygulama performansını düşürdüğü durumlarda tercih edilmelidir. Özellikle paralel simülasyon, derin öğrenme eğitimi, genomik analiz veya CFD iş yükleri çalıştıran ortamlarda doğru topoloji ve segmentasyon olmadan ağ, sistemin zayıf halkasına dönüşür.
Mevasis bu çözümü nasıl sağlıyor?
Mevasis, HPC altyapısı tasarımında end-to-end bir yaklaşım benimser: iş yükü analizi ve bant genişliği hesaplamasından topoloji seçimine, switch yapılandırmasından VLAN segmentasyonuna, InfiniBand veya yüksek hızlı Ethernet entegrasyonundan izleme altyapısına kadar tüm katmanları kendi mühendisleriyle uygular. Referans mimariler ve sahada kanıtlanmış yapılandırma şablonları sayesinde devreye alma süreleri önemli ölçüde kısalır.
Fiyatlandırma nasıl?
HPC network tasarımı projenin ölçeğine, donanım tercihlerine ve entegrasyon gereksinimlerine göre farklılık gösterir. Doğru bir maliyet tahmini alabilmek için teklif formumuzu doldurmanızı öneririz. Ekibimiz sizinle en kısa sürede iletişime geçerek ihtiyaçlarınıza özel bir fiyat teklifi hazırlar.