/ Blog

HPC Network Tasarımı: Fat-Tree, VLAN ve InfiniBand Teknik Rehberi

HPC kümelerinde fat-tree topoloji, VLAN segmentasyonu ve InfiniBand/RoCE v2 seçimi için teknik rehber. Mevasis mühendislik ekibinin sahada uyguladığı adım adım yöntem.

Yüksek başarımlı hesaplama (HPC) altyapılarında işlemci ve GPU kapasitesi ne kadar güçlü olursa olsun, düğümler arası ağ iletişimi yeterince hızlı ve güvenilir değilse sistemin gerçek potansiyeli hiçbir zaman ortaya çıkmaz. Bu teknik rehberde fat-tree topolojisinin mantığını, VLAN segmentasyonu tasarım kararlarını, InfiniBand ile RoCE v2 arasındaki seçim kriterlerini ve Mevasis’in sahada uyguladığı devreye alma yöntemini ele alıyoruz.

Neden HPC Ağı Ayrı Bir Disiplindir?

Genel amaçlı kurumsal ağlar gecikmeye değil erişilebilirliğe ve maliyet verimliliğine göre tasarlanır. HPC ağları ise üç temel parametreyi aynı anda optimize etmek zorundadır: düşük gecikme (MPI iletişimi mikrosaniye düzeyinde çalışır), yüksek bant genişliği (model paralel AI eğitiminde düğümler arası veri akışı GB/s mertebesine ulaşır) ve non-blocking mimari (herhangi iki düğüm birbirini beklemeksizin tam hızda konuşabilmelidir).

Bu üç gereksinim birlikte ele alındığında topoloji seçimi, switch donanımı ve kablolama planı birbirinden ayrılamaz kararlar haline gelir.

Fat-Tree: Neden Bu Topoloji?

Fat-tree, HPC kümelerinde standart topoloji konumuna gelmiştir. Klasik ağaç yapılarında üst katmanlara çıkıldıkça bant genişliği daralır; fat-tree bu sorunu yukarı bağlantı sayısını aşağı bağlantı sayısına eşitleyerek çözer.

Üç katmanlı bir fat-tree’de yapı şöyle işler: ToR (Top-of-Rack) anahtarları her rack içindeki compute node’larını toplar ve 25GbE ya da 100GbE bağlantı sağlar. Aggregation katmanı ToR switch’lerini birbirine bağlar; buradaki oversubscription oranı kritik bir tasarım kararıdır ve non-blocking hedef için 1:1 oranı seçilir. Core katmanı ise tüm kümeyi birbirine bağlayan omurga switch’lerinden oluşur; yüksek port kapasitesi ve düşük gecikme bu katmanın önceliğidir.

Dragonfly ve Torus gibi alternatif topolojiler binlerce düğüm ölçeğinde avantaj sağlasa da on’lardan birkaç yüz düğüme kadar uzanan küme boyutları için fat-tree en iyi maliyet/başarım dengesini sunar.

VLAN Segmentasyonu: Dört Ağ Katmanı

HPC kümesinde tek bir fiziksel fabric üzerinde dört mantıksal ağın ayrıştırılması hem güvenlik hem operasyonel yönetilebilirlik açısından zorunludur.

Yönetim ağı IPMI/BMC erişimini, işletim sistemi kurulumunu ve izleme trafiğini taşır. Compute trafiğinden tamamen izole edilmesi, bir node’un ağ sorununa rağmen yöneticilerin sisteme uzaktan erişimini koruması açısından kritiktir.

Compute/MPI ağı düğümler arası paralel uygulama trafiğini taşır. Yönlendirici geçişi olmaksızın düz (flat) L2 yapısında tutulur; gecikmeyi artıracak her hop burada bir kayıptır. Jumbo frame (MTU 9000) bu ağda zorunlu olarak etkinleştirilir.

Depolama ağı BeeGFS, Lustre veya NFS tabanlı paylaşımlı depolama sistemleriyle iletişim için ayrılır. Depolama trafiğinin MPI trafiğiyle yarışmaması, özellikle checkpoint yazan iş yüklerinde belirleyici bir performans farkı yaratır.

Login/dış erişim ağı kullanıcıların kümeye bağlandığı güvenlik duvarı ve VPN arkasındaki erişim noktasıdır. Bu ağdan compute veya yönetim ağlarına doğrudan erişim kapalı tutulur.

InfiniBand mi, RoCE v2 mi?

Compute ağı için teknoloji seçimi projenin en önemli kararlarından biridir.

InfiniBand HDR (200 Gb/s) veya NDR (400 Gb/s) sektörün en düşük gecikme değerlerini sunar. RDMA native desteği sayesinde MPI ve NCCL gibi AI framework’leri doğrudan uyumlu çalışır. Ayrı bir ağ fabric’i gerektirmesi başlangıç maliyetini artırsa da yoğun iletişimli iş yüklerinde bu yatırımın geri dönüşü hızlıdır.

RoCE v2 ise mevcut 25GbE veya 100GbE Ethernet yatırımını koruyarak RDMA yeteneklerini etkinleştirir. Maliyet avantajı öne çıksa da doğru çalışması için PFC (Priority Flow Control) ve ECN (Explicit Congestion Notification) yapılandırmasının dikkatli yönetilmesi gerekir; yanlış yapılandırılmış bir RoCE ortamı InfiniBand’in çok gerisinde kalabilir.

Karar kriteri genellikle şu şekilde özetlenebilir: yeni kurulum ve iletişim yoğun iş yükleri (MPI ağırlıklı simülasyon, büyük ölçekli AI eğitimi) için InfiniBand; mevcut Ethernet altyapısı olan ortamlarda bütçe kısıtı varsa RoCE v2.

Mevasis Uygulama Metodolojisi

Mevasis, HPC network projelerini beş aşamalı bir süreçle yürütür.

İlk aşamada mevcut veya planlanan iş yüklerinin iletişim profili çıkarılır: MPI ağırlıklı iş yükleri ile AI eğitim görevleri farklı trafik örüntüleri oluşturur ve bu fark topoloji ile port kapasitesi boyutlandırmasını doğrudan etkiler.

İkinci aşamada topoloji, VLAN planı, IP adres şeması ve yönlendirme politikaları belgelenmiş bir tasarım dokümanına dönüştürülür. Tek noktadan arıza (SPOF) riskleri bu aşamada tespit edilir ve yedeklilik seçenekleri maliyet dengesiyle değerlendirilir.

Üçüncü aşamada switch yapılandırmaları Infrastructure as Code prensibiyle ele alınır. Mellanox/NVIDIA Onyx, Arista EOS veya Cumulus Linux fark etmeksizin Ansible playbook’ları ile tutarlı ve tekrarlanabilir bir kurulum gerçekleştirilir.

Dördüncü aşamada ib_write_bw, ib_read_lat, iperf3 ve nuttcp araçlarıyla bant genişliği ve gecikme ölçümleri alınır; sonuçlar tasarım hedefleriyle karşılaştırılır ve sapma noktaları giderilir.

Son aşamada Grafana, Prometheus ve SNMP Exporter kombinasyonuyla switch portlarının trafik, hata ve kullanım verileri anlık izlenir; kritik eşikler için uyarılar yapılandırılır ve operasyon ekibi devreye alınır.

Sık Karşılaşılan Sorunlar

Oversubscription oranının göz ardı edilmesi, aggregation katmanında beklenmedik darboğazlara yol açar. MTU uyumsuzluğu, jumbo frame etkin olmayan bir ara cihaz nedeniyle compute ağında sessiz performans kayıplarına neden olabilir. RoCE ortamlarında PFC storm riski, akış kontrolünün yanlış yapılandırılmasıyla tüm fabric’i olumsuz etkileyebilir. Bu sorunların tamamı devreye alma öncesi doğrulama aşamasında tespit edilir.

Sonuç

HPC network tasarımı, hesaplama yatırımının gerçek karşılığını alabilmesi için ayrı bir mühendislik disiplini olarak ele alınmalıdır. Fat-tree topolojisi, doğru VLAN segmentasyonu ve iş yüküne uygun birbirbağlantı teknolojisi bir arada uygulandığında uygulama başarımındaki artış çoğu zaman ek donanım yatırımını gereksiz kılar.

HPC ağ tasarımı ve topoloji seçimi hakkında daha fazla bilgi almak için HPC Network Çözümleri sayfamızı inceleyebilir ya da iletişim formu aracılığıyla Mevasis mühendislik ekibiyle doğrudan görüşme talep edebilirsiniz.