OpenStack HPC Teknik Rehberi: Kurulum, Entegrasyon ve En İyi Uygulamalar
OpenStack ile HPC altyapısı kurma rehberi: kolla-ansible deployment, SLURM entegrasyonu, Ironic bare-metal sağlama ve BeeGFS depolama yapılandırması.
OpenStack, açık kaynak bileşenlerini tek bir IaaS platformu altında birleştirerek kurumsal HPC altyapılarına çok kiracılı kaynak yönetimi ve bulut benzeri esneklik kazandırır. Bu rehberde OpenStack HPC mimarisinin temel kavramlarını, kurulum sürecini, yaygın sorunları ve en iyi uygulamaları ele alıyoruz.
Temel Bileşenler ve HPC’deki Rolleri
OpenStack HPC kurulumu birkaç kritik servisin koordineli çalışmasına dayanır. Nova compute orkestrasyon katmanıdır ve hem VM hem de bare-metal iş yüklerini zamanlar. Ironic fiziksel HPC node’larını OpenStack ekosistemiyle buluşturan bare-metal sağlama servisidir; InfiniBand gerektiren büyük ölçekli simülasyonlar için tercih edilen yaklaşımdır. Neutron ağ sanallaştırma katmanında her proje için yalıtılmış VLAN veya VXLAN segmentleri oluşturur; SR-IOV destekli NIC’lerle birlikte kullanıldığında yazılım tabanlı switch gecikmesi ortadan kalkar. Keystone ise LDAP veya Active Directory federasyonu aracılığıyla kurumsal kimlik altyapısını platforma bağlar.
Depolama tarafında BeeGFS paralel dosya sistemi scratch ve çalışma dizinleri için POSIX katmanı olarak kurulurken Cinder NVMe hacimleri VM boot ve veritabanı iş yükleri için ayrılır. Bu ayrım, paralel I/O gerektiren HPC işlerinin depolama darboğazıyla karşılaşmamasını sağlar.
kolla-ansible ile Kurulum
Mevasis’in benimsediği container-native deployment yaklaşımı her OpenStack servisini ayrı bir container’da çalıştırır. Bu mimari platform güncellemelerini, yatay ölçeklemeyi ve arıza tespitini önemli ölçüde kolaylaştırır.
Kuruluma başlamadan önce globals.yml dosyasında HPC odaklı profil tanımlanmalıdır. Ironic ve Heat mutlaka etkinleştirilmeli, Nova scheduler’a NumaTopologyFilter ve PciPassthroughFilter eklenmeli, Swift yerine BeeGFS kullanılacaksa nesne depolama devre dışı bırakılmalıdır. Nova scheduler filtrelerinin doğru sıralanması kritik önem taşır: yanlış filtre sırası GPU veya InfiniBand kartı olan node’ların beklenmedik iş yüklerine açılmasına neden olabilir.
Ironic node kaydı sırasında dikkat edilmesi gereken nokta, IPMI kimlik bilgileri ve MAC adresleri doğru girilmeden PXE önyüklemenin tamamlanamayacağıdır. Ayrıca Ironic’in kullandığı deployment ağı ile HPC veri ağının birbirinden ayrılması gerekir; aksi takdirde PXE trafiği MPI iletişimini olumsuz etkiler.
SLURM ile Hibrit Zamanlama
OpenStack HPC’nin en güçlü özelliklerinden biri SLURM ile birlikte çalışabilirliğidir. Bu entegrasyonda SLURM sabit kapasiteli partition’ları yönetirken, iş kuyruğu dolduğunda bekleme durumundaki işler (PD state) OpenStack API’si aracılığıyla dinamik olarak sağlanan yeni node’lara yönlendirilir. İş tamamlandığında node’lar otomatik silinerek kaynak israfı önlenir.
Bu yapıyı sağlıklı işletmek için SLURM prolog ve epilog betiklerinin OpenStack oturum token’larını yönetmesi gerekir. Token süre aşımı, uzun süre bekleyen işlerin node sağlama sırasında hata vermesine yol açar. Keystone token ömrünü, olası en uzun iş süresiyle uyumlu şekilde yapılandırmak bu sorunu önler.
Yaygın Sorunlar ve Çözümleri
NUMA Uyumsuzluğu: VM’ler NUMA sınırları gözetilmeden yerleştirildiğinde bellek bant genişliği ciddi biçimde düşer. NumaTopologyFilter‘ın etkin olduğundan ve flavor’ların hw:numa_nodes özelliğiyle tanımlandığından emin olun.
Ironic Node Temizleme Zaman Aşımı: Büyük NVMe diskler için varsayılan disk silme süresi yetmeyebilir. [conductor] clean_step_priority_override ayarıyla temizleme adımı zaman aşımı uzatılmalıdır.
Neutron MTU Uyumsuzluğu: HPC veri ağında jumbo frame (MTU 9000) kullanılıyorsa Neutron ağ tanımları, compute node’larının fiziksel NIC MTU değerleriyle eşleşmelidir. Uyumsuzluk MPI iletişiminde paket kaybına neden olur.
Heat Stack Güncelleme Çakışması: Büyük cluster şablonları güncellenirken Nova scheduler’ın aynı anda çok fazla sağlama isteği alması kaynak çakışmasına yol açabilir. Şablon güncellemelerini rolling update stratejisiyle küçük gruplar halinde uygulamak bu riski azaltır.
En İyi Uygulamalar
Üretim ortamında OpenStack control plane üç fiziksel controller node üzerinde yüksek erişilebilirlik (HA) modunda çalıştırılmalıdır; tek node arızası hiçbir zaman platform kesintisine dönüşmemelidir. Keystone federasyonu için LDAP yerine SAML veya Kerberos tercih edin; bu sayede kullanıcı parolalarının OpenStack veritabanında tutulmasından kaçınılır.
BeeGFS ve Cinder depolama katmanlarını ayrı fiziksel ağ kartları üzerinden taşıyın. Tek NIC üzerinden hem paralel dosya sistemi trafiği hem de Cinder replikasyonu akması her iki performansı da düşürür. GPU’lu node’lar için flavor tasarımında pci_passthrough:alias kullanın; bu sayede GPU kaynak havuzu proje bazında doğru denetlenir.
Kapasite planlamasında controller node’larının compute node sayısıyla doğrusal olarak ölçeklenmediğini unutmayın: 100’den fazla compute node’u olan ortamlarda Galera cluster ve RabbitMQ boyutlandırması özellikle kritik hale gelir.
OpenStack HPC mimarisi, çok kiracılı araştırma ortamları ve hibrit AI/HPC iş yükleri için güçlü bir temel sunar. Kurumunuza özel mimari değerlendirme ve anahtar teslim kurulum hizmetleri için OpenStack HPC çözüm sayfamızı inceleyin veya doğrudan iletişime geçin.