/ Blog

Cloud Bursting: HPC'yi Bulutla Genişletme

Cloud bursting nedir? On-premises HPC cluster'ı AWS, Azure veya Google Cloud ile genişletme mimarisi ve kullanım senaryoları.

Bir ilaç firmasının klinik deneme verileri aniden işlem kuyruğunu tıkamış olabilir. Bir otomotiv şirketinin CFD (hesaplamalı akışkanlar dinamiği) simülasyonları çeyrek sonu raporundan önce bitmesi gerekiyor olabilir. Ya da bir finans kuruluşu gece yarısı risk modelini güncellemek istiyor olabilir. Bu gibi pik yük senaryolarında on-premises HPC cluster’ı yetersiz kalıyor; ancak bu durum için tam anlamıyla yeni bir veri merkezi kurmak da ekonomik değil.

İşte bu noktada devreye giren mimari model cloud bursting olarak adlandırılıyor: mevcut şirket içi hesaplama altyapısını, talep aştığında otomatik biçimde genel bulut kaynaklarıyla genişletmek.

Cloud Bursting Nedir?

Cloud bursting, hibrit bulut mimarisinin özel bir kullanım biçimidir. Temel fikir basittir: normal iş yükleri on-premises cluster üzerinde çalışır; kapasite eşiği aşıldığında fazla işler otomatik olarak AWS, Azure veya Google Cloud gibi genel bulut ortamlarına taşınır. Pik sona erdiğinde bulut kaynakları serbest bırakılır, maliyet durur.

Bu modelin on-premises HPC’ye ya da tamamen buluta göre önemli avantajları vardır:

  • Taban yükü için düşük birim maliyet (öz donanım)
  • Pik dönemlerde sınırsız ölçeklenebilirlik
  • Sadece kullanılan süre için ödeme
  • Hassas verilerin şirket içinde kalması (veri yerleşimi uyumu)

Temel Bileşenler ve Mimari

Sağlıklı bir cloud bursting altyapısı birkaç katmandan oluşur.

İş Zamanlayıcısı (Scheduler)

Merkezde bir iş zamanlayıcısı yer alır. Slurm, PBS Pro veya IBM Spectrum LSF gibi popüler HPC zamanlayıcılarının tamamı artık bulut eklentileri sunuyor. Zamanlayıcı, kuyruk derinliğini ve bekleme sürelerini izler; belirlenen eşikler aşıldığında bulut düğümlerini otomatik olarak devreye alır.

# Slurm ile AWS için basit bir burst partisyon tanımı
# /etc/slurm/slurm.conf

PartitionName=onprem Nodes=compute[01-32] Default=YES MaxTime=INFINITE State=UP

PartitionName=cloud Nodes=cloud[01-256] Default=NO MaxTime=24:00:00 State=UP
  PowerSavePlug=/usr/local/sbin/aws_start_node
  PowerDownPlug=/usr/local/sbin/aws_stop_node

# Otomatik ölçeklendirme için SuspendTime ve ResumeProgram
SuspendTime=600
SuspendProgram=/usr/local/sbin/slurm_suspend
ResumeProgram=/usr/local/sbin/slurm_resume
ResumeTimeout=300

Bu yapılandırmada cloud partisyonu, Slurm’ün gücü yönetme eklentisi aracılığıyla AWS EC2 örneklerini başlatıp durdurur. Kullanıcı hangi partisyonda çalıştığını fark etmez; zamanlayıcı uygun düğümü otomatik seçer.

Ağ Bağlantısı

Cloud bursting mimarisinin en kritik bileşeni ağdır. İki seçenek öne çıkar:

VPN tabanlı bağlantı: Düşük veri hacimli, gecikmeye duyarlı olmayan iş yükleri için yeterlidir. Kurulumu kolaydır; ancak bant genişliği kısıtlı olduğundan büyük veri kümelerinin transferinde darboğaz oluşabilir.

Dedicated/Express bağlantı: AWS Direct Connect, Azure ExpressRoute veya Google Cloud Interconnect gibi özel hat çözümleri, öngörülebilir gecikme ve yüksek bant genişliği sunar. Büyük simülasyon verilerini (onlarca terabayt) buluta ya da buluttan şirket içine aktarmanız gerekiyorsa bu yöntem kaçınılmazdır.

Ortak Kimlik Doğrulama ve Dosya Sistemi

Kullanıcıların şeffaf bir deneyim yaşaması için bulut düğümleri şirket içi dizin hizmetiyle (LDAP/Active Directory) entegre edilmelidir. Aynı şekilde, hesaplama düğümleri veriye erişebilmek için ortak bir dosya sistemine ihtiyaç duyar.

Yaygın tercihler:

ÇözümTürKullanım Senaryosu
AWS FSx for LustreYönetilen paralel dosya sistemiYüksek verimli, geçici iş yükleri
Azure HPC CacheNFS/SMB önbellekleme katmanıMevcut NAS altyapısını genişletme
Google Cloud FilestoreNFSOrta ölçekli, karışık iş yükleri
BeeGFS on cloud VMsYazılım tabanlı paralel FSÖzelleştirilmiş, düşük gecikme gerektiren işler

Hangi İş Yükleri Cloud Bursting İçin Uygundur?

Her HPC iş yükü cloud bursting’e uygun değildir. Seçim yaparken iki temel kriteri gözetmek gerekir.

Uygun İş Yükleri

Gevşek bağlı (loosely coupled) paralel işler, cloud bursting’in ideal adaylarıdır. Her görev bağımsız çalışır; işler arası anlık iletişim gerekmez. Monte Carlo simülasyonları, parametrik tarama (parametric sweep) çalışmaları, render farm işleri, makine öğrenimi hiperparametre optimizasyonu bu kategoriye girer.

Yüksek veri yerelliği olmayan iş yükleri de kolayca burst edilebilir. Girdi verisi çalışma başlamadan buluta kopyalanabiliyor ve çıktı iş bittikten sonra geri getirilebiliyorsa gecikme etkisi minimumdur.

Dikkatli Olunması Gereken İş Yükleri

Sıkı bağlı (tightly coupled) MPI işleri, yüksek hızlı ağ (InfiniBand gibi) gerektirir. Genel buluttaki sanal ağlar bu iletişim gecikmesini karşılayamayabilir. Ancak AWS hpc7g veya Azure HPC serisi gibi InfiniBand destekli özel bulut örnekleri bu engeli bir ölçüde ortadan kaldırıyor.

Büyük veri kümesine dayanan iş yükleri transfer maliyeti ve süresinden olumsuz etkilenebilir. Terabayt düzeyinde girdi verisini her burst döngüsünde taşımak hem maliyetli hem de zaman kaybettirici olabilir.

Maliyet Optimizasyonu: Spot/Preemptible Örnekler

Cloud bursting’in finansal cazibesini artıran en önemli araç, büyük bulut sağlayıcılarının sunduğu kesintiye uğratılabilir örneklerdir:

  • AWS Spot Instances: On-demand fiyatına göre %60–90 indirim
  • Azure Spot VMs: Benzer indirim oranları
  • Google Cloud Preemptible/Spot VMs: Standart fiyatın %60–91 altında

Bu örnekler herhangi bir anda sonlandırılabilir; bu nedenle iş yüklerinin kesintiye dayanıklı (fault-tolerant) olması ya da checkpoint mekanizması kullanması gerekir. Gevşek bağlı parametrik tarama işleri için bu yaklaşım mükemmel uyum sağlar; bir görev sonlanırsa zamanlayıcı aynı görevi başka bir örnekte yeniden başlatır.

Pratik Uygulama Adımları

Cloud bursting projesine başlarken izlenecek yol haritası şöyle özetlenebilir:

  1. İş yükü analizi: Mevcut cluster’da hangi işler kuyrukta bekliyor? Hangileri gevşek bağlı? Gecikme bütçesi ne kadar? Bu soruların yanıtları hangi işlerin burst edileceğini belirler.

  2. Ağ altyapısı: VPN yeterli mi, yoksa dedicated bağlantı mı gerekiyor? Bant genişliği ve gecikme gereksinimleri hesaplanmalıdır.

  3. Zamanlayıcı entegrasyonu: Slurm, PBS veya LSF’nin bulut eklentisi kurulur ve test edilir. Küçük bir test iş yüküyle tam döngü doğrulanır.

  4. Kimlik ve güvenlik: Bulut ortamına erişim politikaları (IAM rolleri, güvenlik grupları) tanımlanır. Şirket içi dizin entegrasyonu yapılır.

  5. Maliyet izleme: Bulut harcamaları gerçek zamanlı izlenmelidir. Beklenmedik ölçeklenmeler fatura sürprizlerine yol açabilir; bütçe alarmları ve harcama limitleri mutlaka ayarlanmalıdır.

Yaygın Araçlar ve Platformlar

Yerleşik cloud bursting çözümleri ekibin operasyonel yükünü önemli ölçüde azaltır:

AWS ParallelCluster: Slurm veya AWS Batch üzerine kurulu, tam yönetilen bir HPC cluster ortamı sağlar. Otomatik ölçeklendirme kutudan çıkar; FSx for Lustre entegrasyonu dahildir.

Azure CycleCloud: Microsoft’un HPC iş yükü yönetim platformu. Slurm, PBS, LSF ve SGE dahil birden fazla zamanlayıcıyı destekler; mevcut on-premises altyapısıyla entegrasyon açısından özellikle güçlüdür.

Google Cloud HPC Toolkit: Terraform tabanlı, tekrarlanabilir HPC ortamı dağıtımı sunar. Slurm desteği ve özelleştirilmiş ağ topolojileri içerir.

Altair Grid Engine / IBM Spectrum LSF: Kurumsal HPC ortamlarında yaygın olan bu zamanlayıcılar, her üç büyük bulut sağlayıcısıyla entegrasyon seçenekleri sunar.

Güvenlik ve Veri Yerleşimi

Özellikle sağlık, savunma ve finans sektörlerinde çalışan kuruluşlar için hangi verinin buluta çıkacağı kritik bir konudur. Cloud bursting mimarisinde bu soruna yönelik iki temel yaklaşım uygulanır:

Veri sınıflandırması: Hassas verileri işleyen işler yalnızca on-premises partisyona yönlendirilir. Anonim ya da düşük gizlilik sınıfındaki iş yükleri burst edilir. Zamanlayıcı politikaları iş etiketleriyle bu ayrımı otomatik olarak uygulayabilir.

Şifreleme: Buluta gönderilen veriler aktarım sırasında (TLS) ve depolamada (SSE veya müşteri yönetimli anahtarlar) şifrelenir. Bulut sağlayıcılarının sunduğu anahtar yönetim hizmetleri (AWS KMS, Azure Key Vault, GCP Cloud KMS) bu süreçte kullanılır.

Sonuç: Hibrit Mimari ile Rekabet Gücü

Cloud bursting, on-premises HPC’nin düşük çalışma maliyeti ile genel bulutun sonsuz ölçeklenebilirliğini tek bir mimaride birleştiriyor. Doğru yapılandırıldığında kullanıcı deneyiminde hiçbir fark hissedilmez; iş zamanlamayı hangi düğümün üstlendiğini zamanlayıcı arka planda çözer.

Bu modelin gerçek değeri, pik talebin öngörülemeyen ya da dönemsel olduğu ortamlarda ortaya çıkar. Sabit büyüklükte bir cluster kurarak %80 zamanında boşta bekleyen kapasite satın almak yerine, taban yükü için öz donanım, pik için bulut kullanmak hem CapEx’i hem de OpEx’i optimize eder.

Mevasis olarak cloud bursting mimarisinin tasarımı, zamanlayıcı entegrasyonu ve bulut bağlantısı konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.