Hibrit HPC Teknik Rehberi — Cloud Bursting ve SLURM

Yüksek başarımlı hesaplama (HPC) ihtiyaçları her kurumda aynı ritimde gelmiyor. Kimi dönem aylarca küçük ölçekli işler yürütülürken, bir araştırma kampanyası ya da proje dönemiyle birlikte talep aniden zirveye çıkıyor. Bu senaryoya yanıt veren mimari yaklaşım olan Hibrit HPC, yerinde kümenin kontrolünü bulutun elastikliğiyle tek platformda birleştiriyor. Bu yazıda hibrit HPC’nin teknik bileşenlerini, uygulama adımlarını ve sık karşılaşılan sorunları ele alıyoruz.

Temel Mimari Bileşenler

Hibrit HPC’nin dört ana katmanı vardır:

Yerinde küme (on-premise): Temel ve sürekli iş yüklerini karşılayan, düşük gecikme gerektiren fiziksel hesaplama düğümleri. Sıkı bağlantılı MPI işleri için InfiniBand gibi yüksek hızlı ağ gerektirir.

Bulut genişleme katmanı (cloud burst): Talep eşiği aşıldığında otomatik olarak ayağa kalkan sanal hesaplama düğümleri. İş tamamlandığında kapatılır; maliyet yalnızca çalışma süresiyle orantılıdır.

Birleşik depolama: Her iki ortamın aynı veri üzerinde çalışabilmesi için paylaşılan dosya sistemi ya da nesne depolama katmanı. BeeGFS veya Lustre ile NFS re-export, S3 uyumlu nesne depolama veya katmanlı (tiered) depolama politikaları bu amaçla kullanılır.

Merkezi orkestrasyon: SLURM iş zamanlayıcısı, yerinde ve bulut düğümlerini tek noktadan yönetir. Kullanıcılar hangi işin nerede çalıştığını fark etmeden aynı arayüzle çalışmaya devam eder.

SLURM Cloud Bursting Yapılandırması

SLURM’un ResumeProgram ve SuspendProgram kancaları, hibrit HPC’nin merkezinde yer alır. Yerinde düğümler statik olarak tanımlanırken, bulut düğümleri bu kancalar aracılığıyla dinamik olarak oluşturulup silinir.

# /etc/slurm/slurm.conf — cloud bursting yapılandırması (örnek)

PartitionName=onprem Nodes=cn[01-16] Default=YES MaxTime=INFINITE
PartitionName=cloud Nodes=cloud[01-64] MaxTime=04:00:00 State=UP OverSubscribe=NO

ResumeProgram=/usr/local/sbin/slurm-node-resume.sh
SuspendProgram=/usr/local/sbin/slurm-node-suspend.sh
ResumeTimeout=300
SuspendTime=120

slurm-node-resume.sh betiği, bulut sağlayıcısının API’sini çağırarak belirtilen düğüm görüntüsünden yeni sanal makine başlatır. İş tamamlandıktan sonra SuspendTime saniye geçerse düğüm otomatik olarak kapatılır.

Depolama Stratejisi Seçimi

Depolama seçimi hibrit mimarinin başarısını doğrudan etkiler. Üç temel yaklaşım vardır:

BeeGFS/Lustre ile NFS re-export: Yerindeki paralel dosya sistemi, VPN ya da özel hat üzerinden bulut düğümlerine mount edilir. Küçük ve orta ölçekli veri setleri için düşük gecikmeyle yüksek verim sağlar; ancak WAN bant genişliğine bağımlıdır.

S3 uyumlu nesne depolama: Büyük ve seyrek erişilen veri setleri nesne depolamaya taşınır. Bulut düğümleri doğrudan buradan okur, sonuçlar geri yazılır. Petabayt düzeyindeki veri hacimleri için ölçeklenebilir bir çözümdür.

Katmanlı depolama (Tiered Storage): Sıcak veri yerelde NVMe’de, soğuk veri bulut nesne depolamada tutulur. Otomatik politikalarla yönetilen geçişler, hem maliyet hem de erişim hızını optimize eder.

Ağ ve Gecikme Yönetimi

Cloud bursting’de gecikme ve bant genişliği, iş yükü verimliliğini doğrudan belirleyen kritik parametrelerdir. Üç temel strateji uygulanır:

Dedicated interconnect veya VPN: AWS Direct Connect, Azure ExpressRoute veya IPsec VPN tüneli ile sabit ve ölçülebilir gecikme sağlanır.
Veri lokalitesi analizi: Hangi iş yüklerinin buluta burst etmeye uygun olduğu, ağ transfer maliyeti ile hesaplama maliyeti karşılaştırılarak belirlenir.
MPI iş yükü ayrımı: Sıkı bağlantılı paralel işler (tight-coupled MPI) yerinde InfiniBand üzerinde çalışır; bağımsız (loosely-coupled) iş yükleri buluta yönlendirilir.

Uygulama Adımları

1. İş Yükü Analizi: Mevcut ve planlanan iş yükleri profillenir. Bant genişliği gereksinimleri, veri hacimleri ve gecikme toleransları ölçülür. Bu adım, hangi işlerin yerinde kalacağını, hangilerinin burst edebileceğini netleştirir.

2. Yerinde Küme Optimizasyonu: Mevcut fiziksel altyapı hibrit mimariye hazırlanır. SLURM yapılandırması güncellenir; ağ ve depolama katmanları bulut bağlantısı için optimize edilir.

3. Bulut Entegrasyonu ve Otomasyon: Hedef bulut sağlayıcısında (AWS, Azure, GCP veya yerel bulut) şablonlara dayalı düğüm görüntüleri hazırlanır. Otomatik başlatma/durdurma betikleri, izleme alarm eşikleri ve maliyet sınırı politikaları devreye alınır.

4. Test, Doğrulama ve İzleme: Gerçek iş yükleriyle burst testi yapılır. Prometheus ve Grafana entegrasyonuyla hem performans hem de maliyet görünürlüğü sağlanır; SLURM muhasebe veritabanı raporlama altyapısına bağlanır.

Sık Karşılaşılan Sorunlar ve Çözümleri

Düğüm başlatma gecikmesi: Bulut düğümlerinin ayağa kalkması ResumeTimeout parametresini aşabilir. Önceden hazırlanmış (pre-baked) VM görüntüleri ve spot instance havuzları bu süreyi önemli ölçüde kısaltır.

Depolama senkronizasyon hataları: WAN bağlantısı koptuğunda paylaşılan dosya sistemi mount’u askıda kalabilir. NFS mount seçeneklerinde soft ve intr parametrelerini kullanmak, iş yüklerinin kilitlenmesini önler.

Kontrolsüz bulut harcaması: Maliyet sınırı politikası tanımlanmadan açık bırakılan cloud partition, beklentinin çok üzerinde fatura oluşturabilir. SLURM’da GrpTRESMins sınırları ve bulut sağlayıcısının bütçe alarmları birlikte yapılandırılmalıdır.

MPI bant genişliği yetersizliği: Sıkı bağlantılı işler WAN üzerinden çalıştırıldığında dramatik performans kaybı yaşanır. Bu iş yüklerini her zaman yerinde bölüme yönlendirin; burst kurallarını yalnızca bağımsız iş yüklerine uygulayın.

En İyi Uygulamalar

Burst kuyruğuna maksimum çalışma süresi (MaxTime) koyun; sonsuz süre çalışacak işlerin buluta gitmesini engelleyin.
Bulut düğüm görüntülerini yerinde küme yazılımıyla birebir eşleştirin; sürüm farklılıkları iş yükü hatalarına yol açar.
Maliyet ve performans verilerini aynı Grafana panosunda görselleştirin; anomali tespiti çok daha hızlı olur.
Ağ transferini minimize etmek için büyük girdileri işten önce bulut nesne depolamaya yükleyin, sonuçları işten sonra indirin.

Sonuç

Hibrit HPC, doğru tasarlandığında sabit donanım yatırımının öngörülebilirliğini bulutun esnekliğiyle bir araya getirir. Mimarinin başarısı; iş yükü profillemesinde, depolama seçiminde ve ağ gecikme yönetiminde alınan kararlara bağlıdır.

Hibrit HPC çözümlerimiz ve uygulama metodolojimiz hakkında ayrıntılı bilgi almak için Hibrit HPC Çözümü sayfasını inceleyebilir ya da doğrudan iletişim formumuzdan uzmanlarımıza ulaşabilirsiniz.

Hibrit HPC Mimarisi: Teknik Rehber ve Uygulama Adımları