HPC cluster tasarımında hesaplama node’larını birbirine bağlayan ağ teknolojisi, sistem performansını CPU ve GPU kadar belirler. Paralel iş yüklerinde node’lar arası iletişim gecikmesi hesaplama verimliliğinin doğrudan belirleyicisidir. Bu yazıda InfiniBand ve yüksek hızlı Ethernet teknolojilerini karşılaştırıyor, hangi senaryoda hangisinin tercih edilmesi gerektiğini açıklıyoruz.
Neden HPC Ağı Özel Bir Konu?
Masaüstü veya kurumsal IT ortamlarında milisaniye düzeyindeki ağ gecikmeleri sorun yaratmaz. Ancak 1.024 çekirdekli MPI simülasyonunda her MPI çağrısında yaşanan 100 µs gecikme, toplamda saatlerce kayba dönüşebilir.
HPC ağlarını özel kılan iki temel metrik:
- Gecikme (Latency): Mesajın bir node’dan diğerine ulaşma süresi. Mikrosaniye ve altı önemlidir.
- Bant Genişliği (Bandwidth): Saniyede aktarılabilen veri miktarı. Gb/s cinsinden ölçülür.
- MPI Collective Performansı: Allreduce, Broadcast gibi toplu işlemlerde ağ topolojisinin rolü.
InfiniBand: Temel Kavramlar
InfiniBand 1999 yılında HPC ve veri merkezi uygulamaları için tasarlanmış, CPU bypass’ı sağlayan yüksek hızlı bir ağ teknolojisidir. RDMA (Remote Direct Memory Access) desteği, veriyi CPU’yu atlatarak doğrudan uzak belleğe kopyalayarak işlemci yükünü minimuma indirir.
Nesil ve Hız Sınıfları
| Nesil | Kısaltma | Port Hızı | Toplam BW |
|---|---|---|---|
| HDR | High Data Rate | 200 Gb/s | 400 Gb/s (çift yön) |
| NDR | Next Data Rate | 400 Gb/s | 800 Gb/s (çift yön) |
| XDR | Extended Data Rate | 800 Gb/s | Geliştirme aşaması |
| FDR | Fourteen Data Rate | 56 Gb/s | Eski nesil |
| EDR | Enhanced Data Rate | 100 Gb/s | Yaygın kullanımda |
Mevcut yeni kurulumlar için HDR200 veya NDR400 tercih edilmektedir.
InfiniBand’ın Ayırt Edici Özellikleri
RDMA (Remote Direct Memory Access): Uzak node belleğine doğrudan erişim. CPU interrupt veya OS müdahalesi olmaksızın veri transferi; gecikmeyi dramatik biçimde düşürür.
Zero-Copy: Veri, uygulama belleğinden doğrudan ağa kopyalanır; ara tampon bellek gerektirmez.
Kernel Bypass: Ağ işlemleri OS çekirdeğini atlayarak doğrudan HCA (Host Channel Adapter) donanımı tarafından yürütülür.
Yüksek Hızlı Ethernet: RoCE ve DPDK
Standart Ethernet protokol yığını HPC için yavaştır; ancak iki teknoloji Ethernet’i HPC’ye yaklaştırır:
RoCE (RDMA over Converged Ethernet)
InfiniBand’ın RDMA avantajını Ethernet üzerinde sağlamak için geliştirilmiştir. İki versiyonu vardır:
- RoCE v1: L2, yalnızca aynı subnet içi
- RoCE v2 (iWARP üzeri): L3, yönlendirilebilir; daha geniş dağıtım imkânı
RoCE v2, Priority Flow Control (PFC) ve ECN (Explicit Congestion Notification) gerektirerek kayıpsız Ethernet altyapısına ihtiyaç duyar.
DPDK (Data Plane Development Kit)
Kernel bypass yaklaşımıyla standart Linux ağ yığınının işlemci yükünü ve gecikmesini azaltır. HPC’den çok NFV ve telekom uygulamalarında kullanılsa da veri yoğun pipeline’larda tercih edilir.
Performans Karşılaştırması
Tek Mesaj Gecikmesi
| Teknoloji | Gecikme (µs) | Not |
|---|---|---|
| InfiniBand NDR400 | 0.5 | Çift yön |
| InfiniBand HDR200 | 0.6 | |
| InfiniBand EDR100 | 0.9 | |
| RoCE v2 (100GbE) | 1.5–3 | Ağ yapılandırmasına bağlı |
| TCP/IP 100GbE | 10–30 | Standard kernel stack |
| TCP/IP 25GbE | 30–100 |
MPI Allreduce Karşılaştırması (1024 çekirdek, 1 MB mesaj)
| Ağ | Süre (ms) |
|---|---|
| InfiniBand NDR + fat-tree | 2.5 |
| InfiniBand HDR + fat-tree | 3.8 |
| RoCE v2 100GbE + fat-tree | 6–12 |
| TCP/IP 25GbE | 40–80 |
MPI yoğun iş yüklerinde ağ seçimi toplam hesaplama süresini %20–40 oranında etkileyebilir.
Topoloji Tasarımı
Fat-Tree Topolojisi
HPC ağlarında en yaygın topoloji fat-tree’dir. Her node aynı hop sayısıyla diğerine ulaşır; tıkanma (oversubscription) yoktur.
Core Switches
/ | \
Spine Spine Spine
/ \ / \ / \
Leaf Leaf Leaf Leaf Leaf Leaf
| | | | | |
N1 N2 N3 N4 N5 N6
1:1 (non-blocking) fat-tree: Tüm node’lar eşzamanlı tam hızda iletişim kurabilir. Maliyet yüksek; büyük kurulumlar için.
2:1 oversubscribed fat-tree: Çekirdek seviyesinde bant genişliği yarı oranda; maliyet %30–40 düşük. Çoğu HPC iş yükü için yeterli.
Dragonfly+ Topolojisi
Çok büyük sistemlerde (10.000+ node) fat-tree’nin yerini Dragonfly+ gibi topolojiler alır. Hop sayısını azaltarak gecikmeyi düşürür; ancak yönlendirme karmaşıklığı artar.
Maliyet Analizi
Örnek: 64 Node’luk HPC Cluster
| Teknoloji | HCA/Port Başına Maliyet | Switch Başına | 64 Node Toplam (yaklaşık) |
|---|---|---|---|
| InfiniBand HDR200 | 1.000–1.800 USD | 80.000–120.000 USD | 200.000–280.000 USD |
| InfiniBand NDR400 | 1.500–2.500 USD | 120.000–200.000 USD | 300.000–450.000 USD |
| RoCE 100GbE | 300–600 USD | 15.000–40.000 USD | 40.000–80.000 USD |
| 25GbE Ethernet | 80–150 USD | 3.000–8.000 USD | 10.000–20.000 USD |
InfiniBand, Ethernet’e göre 5–15× daha pahalıdır; ancak MPI yoğun iş yüklerinde bu fark performans avantajıyla telafi edilir.
Ne Zaman InfiniBand, Ne Zaman Ethernet?
InfiniBand Tercih Edin
- ✅ MPI/OpenSHMEM yoğun paralel simülasyonlar (CFD, MD, FEM)
- ✅ 128 node ve üzeri ölçekli kümeler
- ✅ Güçlü ölçekleme (strong scaling) kritik
- ✅ GPU-GPU ağ trafiği (GPUDirect RDMA)
- ✅ Düşük gecikme gerektiren finansal veya bilimsel uygulamalar
Yüksek Hızlı Ethernet / RoCE Tercih Edin
- ✅ Orta ölçekli küme (8–64 node)
- ✅ Bütçe kısıtlı kurulumlar
- ✅ Mevcut Ethernet altyapısıyla entegrasyon
- ✅ Kaba taneli paralel iş yükleri (birbirinden bağımsız görevler)
- ✅ AI inference ve veri analizi ağırlıklı iş yükü
GPUDirect RDMA: GPU’lar Arası Doğrudan Transferler
NVIDIA GPUDirect RDMA, GPU belleğini InfiniBand ağ adaptörüne doğrudan erişime açar. CPU müdahalesi ve sistem belleği arabelleği olmaksızın GPU-GPU transferi sağlar.
Geleneksel yol: GPU → CPU (pinned memory) → NIC → Ağ
GPUDirect RDMA: GPU → NIC → Ağ (CPU bypass)
Dağıtık derin öğrenme eğitiminde (NCCL AllReduce) bu özellik %20–30 iletişim süre azalması sağlar.
Mevasis Ağ Tasarım Hizmetleri
Mevasis, HPC cluster ağ tasarımı ve InfiniBand kurulumu konusunda danışmanlık ve uygulama hizmetleri sunar. Mellanox/NVIDIA Quantum-2, Cornelis Networks OmniPath ve yüksek hızlı Ethernet çözümleri için teknik destek ekibimizle iletişime geçin.
Sıkça Sorulan Sorular
InfiniBand ve Ethernet aynı cluster’da kullanılabilir mi? Evet. Yönetim ve depolama trafiği için Ethernet, MPI iletişim için InfiniBand kullanılan çift ağlı mimari yaygındır. Bu yapı maliyet ve performans optimizasyonu açısından iyi bir denge sağlar.
RoCE kurulumu zor mudur? RoCE v2, PFC ve ECN yapılandırması gerektirdiğinden standart Ethernet’e göre daha karmaşıktır. Doğru yapılandırılmadığında paket kaybı nedeniyle performans ciddi ölçüde düşer.
InfiniBand switch’ler Ethernet switch’lerle karşılaştırıldığında ne kadar dayanıklı? Kurumsal InfiniBand switch’leri (NVIDIA Quantum serisI) 5–7 yıl garantili üretim ortamı için tasarlanmıştır. MTBF değerleri Ethernet muadilleriyle karşılaştırılabilir düzeydedir.
Küçük bir HPC kurulumu (8 node) için InfiniBand gerekli midir? Genellikle hayır. 8 node ve altı ölçekte 25GbE veya RoCE 100GbE maliyet-performans dengesini daha iyi karşılar. InfiniBand avantajı 32+ node ve MPI yoğun iş yüklerinde belirginleşir.