InfiniBand vs Ethernet: HPC Ağ Teknolojileri Karşılaştırması — Mevasis — HPC Çözümleri

HPC cluster tasarımında hesaplama node’larını birbirine bağlayan ağ teknolojisi, sistem performansını CPU ve GPU kadar belirler. Paralel iş yüklerinde node’lar arası iletişim gecikmesi hesaplama verimliliğinin doğrudan belirleyicisidir. Bu yazıda InfiniBand ve yüksek hızlı Ethernet teknolojilerini karşılaştırıyor, hangi senaryoda hangisinin tercih edilmesi gerektiğini açıklıyoruz.

Neden HPC Ağı Özel Bir Konu?

Masaüstü veya kurumsal IT ortamlarında milisaniye düzeyindeki ağ gecikmeleri sorun yaratmaz. Ancak 1.024 çekirdekli MPI simülasyonunda her MPI çağrısında yaşanan 100 µs gecikme, toplamda saatlerce kayba dönüşebilir.

HPC ağlarını özel kılan iki temel metrik:

Gecikme (Latency): Mesajın bir node’dan diğerine ulaşma süresi. Mikrosaniye ve altı önemlidir.
Bant Genişliği (Bandwidth): Saniyede aktarılabilen veri miktarı. Gb/s cinsinden ölçülür.
MPI Collective Performansı: Allreduce, Broadcast gibi toplu işlemlerde ağ topolojisinin rolü.

InfiniBand: Temel Kavramlar

InfiniBand 1999 yılında HPC ve veri merkezi uygulamaları için tasarlanmış, CPU bypass’ı sağlayan yüksek hızlı bir ağ teknolojisidir. RDMA (Remote Direct Memory Access) desteği, veriyi CPU’yu atlatarak doğrudan uzak belleğe kopyalayarak işlemci yükünü minimuma indirir.

Nesil ve Hız Sınıfları

Nesil	Kısaltma	Port Hızı	Toplam BW
HDR	High Data Rate	200 Gb/s	400 Gb/s (çift yön)
NDR	Next Data Rate	400 Gb/s	800 Gb/s (çift yön)
XDR	Extended Data Rate	800 Gb/s	Geliştirme aşaması
FDR	Fourteen Data Rate	56 Gb/s	Eski nesil
EDR	Enhanced Data Rate	100 Gb/s	Yaygın kullanımda

Mevcut yeni kurulumlar için HDR200 veya NDR400 tercih edilmektedir.

InfiniBand’ın Ayırt Edici Özellikleri

RDMA (Remote Direct Memory Access): Uzak node belleğine doğrudan erişim. CPU interrupt veya OS müdahalesi olmaksızın veri transferi; gecikmeyi dramatik biçimde düşürür.

Zero-Copy: Veri, uygulama belleğinden doğrudan ağa kopyalanır; ara tampon bellek gerektirmez.

Kernel Bypass: Ağ işlemleri OS çekirdeğini atlayarak doğrudan HCA (Host Channel Adapter) donanımı tarafından yürütülür.

Yüksek Hızlı Ethernet: RoCE ve DPDK

Standart Ethernet protokol yığını HPC için yavaştır; ancak iki teknoloji Ethernet’i HPC’ye yaklaştırır:

RoCE (RDMA over Converged Ethernet)

InfiniBand’ın RDMA avantajını Ethernet üzerinde sağlamak için geliştirilmiştir. İki versiyonu vardır:

RoCE v1: L2, yalnızca aynı subnet içi
RoCE v2 (iWARP üzeri): L3, yönlendirilebilir; daha geniş dağıtım imkânı

RoCE v2, Priority Flow Control (PFC) ve ECN (Explicit Congestion Notification) gerektirerek kayıpsız Ethernet altyapısına ihtiyaç duyar.

DPDK (Data Plane Development Kit)

Kernel bypass yaklaşımıyla standart Linux ağ yığınının işlemci yükünü ve gecikmesini azaltır. HPC’den çok NFV ve telekom uygulamalarında kullanılsa da veri yoğun pipeline’larda tercih edilir.

Performans Karşılaştırması

Tek Mesaj Gecikmesi

Teknoloji	Gecikme (µs)	Not
InfiniBand NDR400	0.5	Çift yön
InfiniBand HDR200	0.6
InfiniBand EDR100	0.9
RoCE v2 (100GbE)	1.5–3	Ağ yapılandırmasına bağlı
TCP/IP 100GbE	10–30	Standard kernel stack
TCP/IP 25GbE	30–100

MPI Allreduce Karşılaştırması (1024 çekirdek, 1 MB mesaj)

Ağ	Süre (ms)
InfiniBand NDR + fat-tree	2.5
InfiniBand HDR + fat-tree	3.8
RoCE v2 100GbE + fat-tree	6–12
TCP/IP 25GbE	40–80

MPI yoğun iş yüklerinde ağ seçimi toplam hesaplama süresini %20–40 oranında etkileyebilir.

Topoloji Tasarımı

Fat-Tree Topolojisi

HPC ağlarında en yaygın topoloji fat-tree’dir. Her node aynı hop sayısıyla diğerine ulaşır; tıkanma (oversubscription) yoktur.

         Core Switches
        /      |       \
    Spine    Spine    Spine
   /    \   /    \   /    \
 Leaf  Leaf Leaf  Leaf Leaf Leaf
  |     |    |    |    |    |
 N1    N2   N3   N4   N5   N6

1:1 (non-blocking) fat-tree: Tüm node’lar eşzamanlı tam hızda iletişim kurabilir. Maliyet yüksek; büyük kurulumlar için.

2:1 oversubscribed fat-tree: Çekirdek seviyesinde bant genişliği yarı oranda; maliyet %30–40 düşük. Çoğu HPC iş yükü için yeterli.

Dragonfly+ Topolojisi

Çok büyük sistemlerde (10.000+ node) fat-tree’nin yerini Dragonfly+ gibi topolojiler alır. Hop sayısını azaltarak gecikmeyi düşürür; ancak yönlendirme karmaşıklığı artar.

Maliyet Analizi

Örnek: 64 Node’luk HPC Cluster

Teknoloji	HCA/Port Başına Maliyet	Switch Başına	64 Node Toplam (yaklaşık)
InfiniBand HDR200	1.000–1.800 USD	80.000–120.000 USD	200.000–280.000 USD
InfiniBand NDR400	1.500–2.500 USD	120.000–200.000 USD	300.000–450.000 USD
RoCE 100GbE	300–600 USD	15.000–40.000 USD	40.000–80.000 USD
25GbE Ethernet	80–150 USD	3.000–8.000 USD	10.000–20.000 USD

InfiniBand, Ethernet’e göre 5–15× daha pahalıdır; ancak MPI yoğun iş yüklerinde bu fark performans avantajıyla telafi edilir.

Ne Zaman InfiniBand, Ne Zaman Ethernet?

InfiniBand Tercih Edin

✅ MPI/OpenSHMEM yoğun paralel simülasyonlar (CFD, MD, FEM)
✅ 128 node ve üzeri ölçekli kümeler
✅ Güçlü ölçekleme (strong scaling) kritik
✅ GPU-GPU ağ trafiği (GPUDirect RDMA)
✅ Düşük gecikme gerektiren finansal veya bilimsel uygulamalar

Yüksek Hızlı Ethernet / RoCE Tercih Edin

✅ Orta ölçekli küme (8–64 node)
✅ Bütçe kısıtlı kurulumlar
✅ Mevcut Ethernet altyapısıyla entegrasyon
✅ Kaba taneli paralel iş yükleri (birbirinden bağımsız görevler)
✅ AI inference ve veri analizi ağırlıklı iş yükü

GPUDirect RDMA: GPU’lar Arası Doğrudan Transferler

NVIDIA GPUDirect RDMA, GPU belleğini InfiniBand ağ adaptörüne doğrudan erişime açar. CPU müdahalesi ve sistem belleği arabelleği olmaksızın GPU-GPU transferi sağlar.

Geleneksel yol: GPU → CPU (pinned memory) → NIC → Ağ
GPUDirect RDMA: GPU → NIC → Ağ  (CPU bypass)

Dağıtık derin öğrenme eğitiminde (NCCL AllReduce) bu özellik %20–30 iletişim süre azalması sağlar.

Mevasis Ağ Tasarım Hizmetleri

Mevasis, HPC cluster ağ tasarımı ve InfiniBand kurulumu konusunda danışmanlık ve uygulama hizmetleri sunar. Mellanox/NVIDIA Quantum-2, Cornelis Networks OmniPath ve yüksek hızlı Ethernet çözümleri için teknik destek ekibimizle iletişime geçin.

Sıkça Sorulan Sorular

InfiniBand ve Ethernet aynı cluster’da kullanılabilir mi? Evet. Yönetim ve depolama trafiği için Ethernet, MPI iletişim için InfiniBand kullanılan çift ağlı mimari yaygındır. Bu yapı maliyet ve performans optimizasyonu açısından iyi bir denge sağlar.

RoCE kurulumu zor mudur? RoCE v2, PFC ve ECN yapılandırması gerektirdiğinden standart Ethernet’e göre daha karmaşıktır. Doğru yapılandırılmadığında paket kaybı nedeniyle performans ciddi ölçüde düşer.

InfiniBand switch’ler Ethernet switch’lerle karşılaştırıldığında ne kadar dayanıklı? Kurumsal InfiniBand switch’leri (NVIDIA Quantum serisI) 5–7 yıl garantili üretim ortamı için tasarlanmıştır. MTBF değerleri Ethernet muadilleriyle karşılaştırılabilir düzeydedir.

Küçük bir HPC kurulumu (8 node) için InfiniBand gerekli midir? Genellikle hayır. 8 node ve altı ölçekte 25GbE veya RoCE 100GbE maliyet-performans dengesini daha iyi karşılar. InfiniBand avantajı 32+ node ve MPI yoğun iş yüklerinde belirginleşir.