HPC Gözlemlenebilirlik (Observability)
HPC cluster gözlemlenebilirlik stack: Prometheus, Grafana, DCGM Exporter, SLURM Exporter ve Alertmanager kurulumu ve yapılandırması.
HPC Gözlemlenebilirlik Nedir?
HPC gözlemlenebilirliği, bir yüksek performanslı hesaplama altyapısının anlık ve tarihsel durumunu bütünüyle görebilme kapasitesidir. Metrikler (CPU/GPU kullanımı, bellek, ağ, sıcaklık), loglar (iş zamanlayıcısı çıktıları, hata mesajları) ve izler (iş yükü yürütme akışları) olmak üzere üç temel veri türü, tek bir gözlemlenebilirlik platformunda bir araya getirilir.
Klasik sistem izleme “bir şey bozuldu mu?” sorusunu yanıtlarken, gözlemlenebilirlik “neden bozuldu ve bu durum sistemi nasıl etkiliyor?” sorularına da cevap verir. Yüzlerce node, binlerce işin eş zamanlı çalıştığı HPC ortamlarında bu ayrım kritik önem taşır: Bir düğümün GPU kullanımının beklenmedik biçimde düştüğünü yalnızca izleyen değil, bunun hangi işi etkilediğini, hangi sürücü veya ağ hatasının tetiklediğini de anlayan bir sisteme ihtiyaç vardır.
Neden HPC Ortamlarında Gözlemlenebilirlik Gereklidir?
Kaynak Verimliliği ve Maliyet Kontrolü
GPU ve CPU node’ları yüksek yatırım maliyeti taşır. Boş kalan ya da düşük verimde çalışan kaynak, doğrudan gelir kaybıdır. Gözlemlenebilirlik altyapısı, hangi kullanıcının veya projenin ne kadar kaynak tükettiğini, hangi node’ların neden atıl kaldığını ve potansiyel darboğazların nerede oluştuğunu görünür kılar.
Proaktif Arıza Yönetimi
Saatler ya da günler süren HPC işleri, çalışma ortasında yaşanan bir donanım arızasına son derece duyarlıdır. Sıcaklık eşiği aşımları, ECC bellek hataları veya ağ paket kayıpları önceden tespit edilip uyarı üretildiğinde, iş yükleri farklı node’lara zamanında taşınabilir; daha uzun kesintilerin önüne geçilir.
SLA ve Kapasite Planlaması
Araştırma kurumları ve ticari HPC hizmet sağlayıcıları, kullanıcılarına belirli kaynak garantileri taahhüt eder. Tarihsel metrikler, iş tamamlanma süreleri ve kaynak kullanım raporları hem SLA uyumluluğunu kanıtlamak hem de önümüzdeki dönem için kapasite planlaması yapmak açısından vazgeçilmezdir.
Gözlemlenebilirlik Yığını: Bileşenler ve Roller
Mevasis’in HPC observability çözümü, endüstri standardı açık kaynak bileşenlerinden oluşur ve şu mimariyi izler:
┌─────────────────────────────────────────────────────────────┐
│ Veri Toplama Katmanı │
│ │
│ [DCGM Exporter] [SLURM Exporter] [Node Exporter] │
│ GPU metrikleri İş istatistikleri Sistem metrikleri │
│ │ │ │ │
└────────┼──────────────────┼──────────────────┼─────────────┘
│ │ │
└──────────────────┼──────────────────┘
▼
[Prometheus]
(Metrik depolama
ve sorgulama)
│
┌─────────────┴──────────────┐
▼ ▼
[Grafana] [Alertmanager]
(Dashboard ve (Uyarı yönlendirme:
görselleştirme) e-posta, Slack,
PagerDuty vb.)
Aşağıdaki tablo her bileşenin rolünü ve tipik yapılandırma parametrelerini özetler:
| Bileşen | Rol | Tipik Scrape Aralığı |
|---|---|---|
| DCGM Exporter | GPU kullanımı, bellek, sıcaklık, güç, ECC hataları | 10 saniye |
| SLURM Exporter | Kuyruk derinliği, iş durumu, node durumu, kaynak tahsisi | 30 saniye |
| Node Exporter | CPU, RAM, disk, ağ, sistem çağrıları | 15 saniye |
| Prometheus | Tüm exporter’lardan metrik toplama ve zaman serisi depolama | — |
| Grafana | Etkileşimli dashboard, uyarı görselleştirme | — |
| Alertmanager | Uyarı birleştirme, susturma, yönlendirme | — |
Örnek Prometheus Yapılandırması
# prometheus.yml — temel HPC scrape yapılandırması
global:
scrape_interval: 15s
evaluation_interval: 15s
alerting:
alertmanagers:
- static_configs:
- targets: ["alertmanager:9093"]
rule_files:
- "rules/gpu_alerts.yml"
- "rules/slurm_alerts.yml"
- "rules/node_alerts.yml"
scrape_configs:
- job_name: "dcgm"
static_configs:
- targets:
- "gpu-node-01:9400"
- "gpu-node-02:9400"
- "gpu-node-03:9400"
- job_name: "slurm"
static_configs:
- targets: ["slurm-master:8080"]
- job_name: "node"
static_configs:
- targets:
- "gpu-node-01:9100"
- "gpu-node-02:9100"
- "login-node:9100"
Kritik Uyarı Kuralları
Etkili bir gözlemlenebilirlik sistemi yalnızca metrik toplamaz; anlamlı eşikler aşıldığında ilgili kişiyi zamanında uyarır. Mevasis kurulumlarında aşağıdaki uyarı kategorileri standart olarak yapılandırılır:
GPU Sağlık Uyarıları
# rules/gpu_alerts.yml
groups:
- name: gpu_health
rules:
- alert: GPUSicaklikYuksek
expr: DCGM_FI_DEV_GPU_TEMP > 85
for: 5m
labels:
severity: warning
annotations:
summary: "GPU sıcaklığı kritik eşiği aştı ({{ $value }}°C)"
- alert: GPUBellekDolmakUzere
expr: DCGM_FI_DEV_FB_USED / DCGM_FI_DEV_FB_TOTAL > 0.95
for: 2m
labels:
severity: critical
annotations:
summary: "GPU belleği %95 doluluk oranını aştı"
- alert: ECCHatasıAlgılandi
expr: increase(DCGM_FI_DEV_ECC_DBE_VOL_TOTAL[10m]) > 0
for: 0m
labels:
severity: critical
annotations:
summary: "Düzeltilemez ECC bellek hatası tespit edildi"
SLURM Kuyruk Uyarıları
- alert: KuyrukDerinligiYuksek
expr: slurm_queue_pending > 50
for: 15m
labels:
severity: warning
annotations:
summary: "SLURM kuyruğunda {{ $value }} iş bekliyor"
- alert: NodeUzunSureBoşta
expr: slurm_node_state{state="idle"} == 1
and on(node) slurm_node_state offset 2h{state="idle"} == 1
for: 0m
labels:
severity: info
annotations:
summary: "Node 2 saatten fazladır boşta"
Grafana Dashboard Yapısı
Mevasis, her kurulumda dört temel dashboard grubu oluşturur:
Cluster Genel Bakış: Tüm node’ların GPU/CPU kullanım ısı haritası, toplam kaynak tahsis oranı, etkin iş sayısı ve anlık güç tüketimi. Yöneticilerin günlük operasyonel durumu saniyeler içinde kavramasını sağlar.
GPU Detay Dashboard: Node başına GPU metrikleri; sıcaklık trendi, bellek bant genişliği kullanımı, NVLink/PCIe trafik oranları ve ECC hata geçmişi. Performans sorunlarını node ve GPU çipine kadar daraltır.
SLURM İş Analizi: Kullanıcı ve proje bazında kaynak tüketim raporları, iş tamamlanma süreleri dağılımı, bekleyen kuyruk analizi ve verimsiz iş tahsislerinin tespiti.
Ağ ve Depolama: InfiniBand veya Ethernet ağ bant genişliği kullanımı, paralel dosya sistemi (BeeGFS/Lustre) okuma-yazma performansı ve gecikme trendi.
Mevasis’in Uygulama Yöntemi
1. Mevcut Altyapı Analizi
Proje başlangıcında cluster bileşenleri, işletim sistemi sürümleri, SLURM kurulumu ve mevcut izleme araçları detaylı biçimde incelenir. Bu analiz, hangi exporter’ların kurulacağını, Prometheus retention süresini ve Grafana dashboard önceliklerini belirler.
2. Exporter Kurulum ve Yapılandırması
DCGM Exporter, NVIDIA sürücü sürümüyle uyumlu biçimde her GPU node’una dağıtılır. SLURM Exporter, zamanlayıcı ana düğümüne kurularak iş durumu verilerini düzenli aralıklarla toplar. Node Exporter ise tüm node’lara standart otomasyon araçlarıyla (Ansible veya benzeri) dağıtılır.
3. Prometheus ve Alertmanager Yapılandırması
Scrape aralıkları, node sayısına ve disk kapasitesine göre optimize edilir. Retention süresi ve depolama boyutu hesaplanır. Kuruma özgü uyarı eşikleri belirlenerek Alertmanager, mevcut bildirim kanallarıyla (e-posta, Slack, PagerDuty) entegre edilir.
4. Özel Dashboard Geliştirme
Standart Grafana şablonları, kuruluşun ihtiyaçlarına göre özelleştirilir. Yöneticiler için operasyonel özet, kullanıcılar için kendi iş istatistikleri, yöneticiler için kapasite planlama görünümü ayrı ayrı oluşturulur.
5. Devir, Eğitim ve Destek
Sistem devredilmeden önce ekibe yönelik hands-on eğitim verilir: Dashboard okuma, uyarı yorumlama, exporter durumu kontrol etme ve basit sorun giderme adımları aktarılır. İsteğe bağlı olarak Mevasis, bakım anlaşması kapsamında sistem güncellemeleri ve yeni bileşen entegrasyonları için destek sunar.
Kimler İçin Uygundur?
HPC gözlemlenebilirlik çözümü özellikle şu ortamlar için uygundur:
- Birden fazla araştırma grubuna paylaşımlı GPU/CPU kaynağı sunan üniversiteler ve araştırma merkezleri
- AI eğitim altyapısını iç ekiplere tahsis eden teknoloji şirketleri
- Müşterilerine SLA garantisi taahhüt eden HPC hizmet sağlayıcıları
- Kaynak kullanımını optimize ederek işletme maliyetini düşürmeyi hedefleyen her ölçekten kuruluş
Sonraki Adım
HPC cluster altyapınıza kapsamlı gözlemlenebilirlik kazandırmak ve ekibinizin her sorunu kök nedenine kadar izleyebildiği bir izleme platformu kurmak için iletişim sayfamızı ziyaret edin. Mevcut altyapınızı paylaşın; size özel observability mimarisi ve fiyatlandırma önerisiyle en kısa sürede dönelim.
Sıkça Sorulan Sorular
Bu çözüm ne zaman tercih edilmeli?
HPC gözlemlenebilirlik çözümü; GPU veya CPU cluster altyapısı üzerinde birden fazla kullanıcı ya da ekibin iş yükü çalıştırdığı, kaynak kullanımının izlenmesi ve kapasitel planlamasının kritik önem taşıdığı ortamlarda tercih edilmelidir. Yavaşlayan işlerin kök nedenini bulmakta güçlük çekiyorsanız, GPU veya bellek tükenmesinden kaynaklanan kesintiler yaşıyorsanız ya da SLA taahhütlerini kanıtlamanız gerekiyorsa bu çözüm sizin için doğru seçimdir.
Mevasis bu çözümü nasıl sağlıyor?
Mevasis, DCGM Exporter, SLURM Exporter, Node Exporter ve Prometheus'tan oluşan veri toplama katmanını; Grafana ile görselleştirme katmanını; Alertmanager ile bildirim katmanını bir bütün olarak tasarlar, kurar ve yapılandırır. Deneyimli mühendislerimiz mevcut cluster altyapınızı analiz ederek özelleştirilmiş dashboard ve uyarı kuralları oluşturur, ekibinize sistemin etkin kullanımı konusunda eğitim verir.
Fiyatlandırma nasıl?
Gözlemlenebilirlik çözümlerinin kapsamı cluster büyüklüğüne, izlenecek bileşen sayısına, özel dashboard gereksinimlerine ve destek süresine göre değiştiğinden fiyatlandırma projeye özeldir. Doğru teklifi alabilmek için teklif formumuzu doldurmanızı öneririz; ekibimiz gereksinimlerinizi değerlendirerek en kısa sürede size ulaşır.