/ Blog

InfiniBand vs Ethernet: HPC Ağ Teknolojileri Karşılaştırması

InfiniBand HDR/NDR ile Ethernet'in gecikme, bant genişliği ve maliyet karşılaştırması. HPC cluster ağ tasarımında doğru teknoloji seçimi.

HPC cluster tasarımında hesaplama node’larını birbirine bağlayan ağ teknolojisi, sistem performansını CPU ve GPU kadar belirler. Paralel iş yüklerinde node’lar arası iletişim gecikmesi hesaplama verimliliğinin doğrudan belirleyicisidir. Bu yazıda InfiniBand ve yüksek hızlı Ethernet teknolojilerini karşılaştırıyor, hangi senaryoda hangisinin tercih edilmesi gerektiğini açıklıyoruz.

Neden HPC Ağı Özel Bir Konu?

Masaüstü veya kurumsal IT ortamlarında milisaniye düzeyindeki ağ gecikmeleri sorun yaratmaz. Ancak 1.024 çekirdekli MPI simülasyonunda her MPI çağrısında yaşanan 100 µs gecikme, toplamda saatlerce kayba dönüşebilir.

HPC ağlarını özel kılan iki temel metrik:

  • Gecikme (Latency): Mesajın bir node’dan diğerine ulaşma süresi. Mikrosaniye ve altı önemlidir.
  • Bant Genişliği (Bandwidth): Saniyede aktarılabilen veri miktarı. Gb/s cinsinden ölçülür.
  • MPI Collective Performansı: Allreduce, Broadcast gibi toplu işlemlerde ağ topolojisinin rolü.

InfiniBand: Temel Kavramlar

InfiniBand 1999 yılında HPC ve veri merkezi uygulamaları için tasarlanmış, CPU bypass’ı sağlayan yüksek hızlı bir ağ teknolojisidir. RDMA (Remote Direct Memory Access) desteği, veriyi CPU’yu atlatarak doğrudan uzak belleğe kopyalayarak işlemci yükünü minimuma indirir.

Nesil ve Hız Sınıfları

NesilKısaltmaPort HızıToplam BW
HDRHigh Data Rate200 Gb/s400 Gb/s (çift yön)
NDRNext Data Rate400 Gb/s800 Gb/s (çift yön)
XDRExtended Data Rate800 Gb/sGeliştirme aşaması
FDRFourteen Data Rate56 Gb/sEski nesil
EDREnhanced Data Rate100 Gb/sYaygın kullanımda

Mevcut yeni kurulumlar için HDR200 veya NDR400 tercih edilmektedir.

InfiniBand’ın Ayırt Edici Özellikleri

RDMA (Remote Direct Memory Access): Uzak node belleğine doğrudan erişim. CPU interrupt veya OS müdahalesi olmaksızın veri transferi; gecikmeyi dramatik biçimde düşürür.

Zero-Copy: Veri, uygulama belleğinden doğrudan ağa kopyalanır; ara tampon bellek gerektirmez.

Kernel Bypass: Ağ işlemleri OS çekirdeğini atlayarak doğrudan HCA (Host Channel Adapter) donanımı tarafından yürütülür.

Yüksek Hızlı Ethernet: RoCE ve DPDK

Standart Ethernet protokol yığını HPC için yavaştır; ancak iki teknoloji Ethernet’i HPC’ye yaklaştırır:

RoCE (RDMA over Converged Ethernet)

InfiniBand’ın RDMA avantajını Ethernet üzerinde sağlamak için geliştirilmiştir. İki versiyonu vardır:

  • RoCE v1: L2, yalnızca aynı subnet içi
  • RoCE v2 (iWARP üzeri): L3, yönlendirilebilir; daha geniş dağıtım imkânı

RoCE v2, Priority Flow Control (PFC) ve ECN (Explicit Congestion Notification) gerektirerek kayıpsız Ethernet altyapısına ihtiyaç duyar.

DPDK (Data Plane Development Kit)

Kernel bypass yaklaşımıyla standart Linux ağ yığınının işlemci yükünü ve gecikmesini azaltır. HPC’den çok NFV ve telekom uygulamalarında kullanılsa da veri yoğun pipeline’larda tercih edilir.

Performans Karşılaştırması

Tek Mesaj Gecikmesi

TeknolojiGecikme (µs)Not
InfiniBand NDR4000.5Çift yön
InfiniBand HDR2000.6
InfiniBand EDR1000.9
RoCE v2 (100GbE)1.5–3Ağ yapılandırmasına bağlı
TCP/IP 100GbE10–30Standard kernel stack
TCP/IP 25GbE30–100

MPI Allreduce Karşılaştırması (1024 çekirdek, 1 MB mesaj)

Süre (ms)
InfiniBand NDR + fat-tree2.5
InfiniBand HDR + fat-tree3.8
RoCE v2 100GbE + fat-tree6–12
TCP/IP 25GbE40–80

MPI yoğun iş yüklerinde ağ seçimi toplam hesaplama süresini %20–40 oranında etkileyebilir.

Topoloji Tasarımı

Fat-Tree Topolojisi

HPC ağlarında en yaygın topoloji fat-tree’dir. Her node aynı hop sayısıyla diğerine ulaşır; tıkanma (oversubscription) yoktur.

         Core Switches
        /      |       \
    Spine    Spine    Spine
   /    \   /    \   /    \
 Leaf  Leaf Leaf  Leaf Leaf Leaf
  |     |    |    |    |    |
 N1    N2   N3   N4   N5   N6

1:1 (non-blocking) fat-tree: Tüm node’lar eşzamanlı tam hızda iletişim kurabilir. Maliyet yüksek; büyük kurulumlar için.

2:1 oversubscribed fat-tree: Çekirdek seviyesinde bant genişliği yarı oranda; maliyet %30–40 düşük. Çoğu HPC iş yükü için yeterli.

Dragonfly+ Topolojisi

Çok büyük sistemlerde (10.000+ node) fat-tree’nin yerini Dragonfly+ gibi topolojiler alır. Hop sayısını azaltarak gecikmeyi düşürür; ancak yönlendirme karmaşıklığı artar.

Maliyet Analizi

Örnek: 64 Node’luk HPC Cluster

TeknolojiHCA/Port Başına MaliyetSwitch Başına64 Node Toplam (yaklaşık)
InfiniBand HDR2001.000–1.800 USD80.000–120.000 USD200.000–280.000 USD
InfiniBand NDR4001.500–2.500 USD120.000–200.000 USD300.000–450.000 USD
RoCE 100GbE300–600 USD15.000–40.000 USD40.000–80.000 USD
25GbE Ethernet80–150 USD3.000–8.000 USD10.000–20.000 USD

InfiniBand, Ethernet’e göre 5–15× daha pahalıdır; ancak MPI yoğun iş yüklerinde bu fark performans avantajıyla telafi edilir.

Ne Zaman InfiniBand, Ne Zaman Ethernet?

InfiniBand Tercih Edin

  • ✅ MPI/OpenSHMEM yoğun paralel simülasyonlar (CFD, MD, FEM)
  • ✅ 128 node ve üzeri ölçekli kümeler
  • ✅ Güçlü ölçekleme (strong scaling) kritik
  • ✅ GPU-GPU ağ trafiği (GPUDirect RDMA)
  • ✅ Düşük gecikme gerektiren finansal veya bilimsel uygulamalar

Yüksek Hızlı Ethernet / RoCE Tercih Edin

  • ✅ Orta ölçekli küme (8–64 node)
  • ✅ Bütçe kısıtlı kurulumlar
  • ✅ Mevcut Ethernet altyapısıyla entegrasyon
  • ✅ Kaba taneli paralel iş yükleri (birbirinden bağımsız görevler)
  • ✅ AI inference ve veri analizi ağırlıklı iş yükü

GPUDirect RDMA: GPU’lar Arası Doğrudan Transferler

NVIDIA GPUDirect RDMA, GPU belleğini InfiniBand ağ adaptörüne doğrudan erişime açar. CPU müdahalesi ve sistem belleği arabelleği olmaksızın GPU-GPU transferi sağlar.

Geleneksel yol: GPU → CPU (pinned memory) → NIC → Ağ
GPUDirect RDMA: GPU → NIC → Ağ  (CPU bypass)

Dağıtık derin öğrenme eğitiminde (NCCL AllReduce) bu özellik %20–30 iletişim süre azalması sağlar.

Mevasis Ağ Tasarım Hizmetleri

Mevasis, HPC cluster ağ tasarımı ve InfiniBand kurulumu konusunda danışmanlık ve uygulama hizmetleri sunar. Mellanox/NVIDIA Quantum-2, Cornelis Networks OmniPath ve yüksek hızlı Ethernet çözümleri için teknik destek ekibimizle iletişime geçin.


Sıkça Sorulan Sorular

InfiniBand ve Ethernet aynı cluster’da kullanılabilir mi? Evet. Yönetim ve depolama trafiği için Ethernet, MPI iletişim için InfiniBand kullanılan çift ağlı mimari yaygındır. Bu yapı maliyet ve performans optimizasyonu açısından iyi bir denge sağlar.

RoCE kurulumu zor mudur? RoCE v2, PFC ve ECN yapılandırması gerektirdiğinden standart Ethernet’e göre daha karmaşıktır. Doğru yapılandırılmadığında paket kaybı nedeniyle performans ciddi ölçüde düşer.

InfiniBand switch’ler Ethernet switch’lerle karşılaştırıldığında ne kadar dayanıklı? Kurumsal InfiniBand switch’leri (NVIDIA Quantum serisI) 5–7 yıl garantili üretim ortamı için tasarlanmıştır. MTBF değerleri Ethernet muadilleriyle karşılaştırılabilir düzeydedir.

Küçük bir HPC kurulumu (8 node) için InfiniBand gerekli midir? Genellikle hayır. 8 node ve altı ölçekte 25GbE veya RoCE 100GbE maliyet-performans dengesini daha iyi karşılar. InfiniBand avantajı 32+ node ve MPI yoğun iş yüklerinde belirginleşir.