/ HPC Çözümleri

HPC Monitoring Hizmeti — Altyapı İzleme ve Uyarı Sistemi

Kurumsal HPC cluster izleme hizmeti. Prometheus + Grafana, DCGM GPU monitoring, SLURM metrikleri ve proaktif uyarı sistemi.

7/24 Monitoring
GPU Sağlık Takibi
Proaktif Uyarı
Özelleştirilebilir Dashboard

Kurumsal HPC altyapısı sorunsuz çalıştığında fark edilmez; ancak arıza anında her dakika kritik önem taşır. Proaktif monitoring sistemi, sorunları kullanıcılar etkilenmeden önce tespit eder.

Monitoring Stack Bileşenleri

Prometheus — Metrik Toplama

Prometheus, zamana bağlı veri toplama ve sorgulama sistemidir. HPC cluster’ında birden fazla exporter kullanılır:

# Prometheus scrape yapılandırması
scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['compute[01-32]:9100']  # node_exporter

  - job_name: 'slurm'
    static_configs:
      - targets: ['mgmt01:9341']          # slurm_exporter

  - job_name: 'dcgm'
    static_configs:
      - targets: ['gpu[01-04]:9400']      # DCGM exporter

node_exporter — Donanım Metrikleri

Her hesaplama node’unda çalışır:

  • CPU kullanım oranı (çekirdek bazlı)
  • Bellek ve swap kullanımı
  • Disk I/O (okuma/yazma MB/s, IOPS)
  • Ağ trafiği (InfiniBand ve Ethernet)
  • Sistem yükü (load average)
  • Donanım sensörleri (CPU sıcaklığı, fan hızı)

DCGM Exporter — GPU Sağlık Monitoring

NVIDIA Data Center GPU Manager, GPU metriklerini Prometheus formatına dönüştürür:

  • GPU kullanım oranı (%)
  • GPU bellek kullanımı ve bant genişliği
  • GPU güç tüketimi (Watt)
  • GPU sıcaklığı ve termal kısıtlama durumu
  • PCIe ve NVLink hata sayacı
  • Bellek ECC hata sayısı (düzeltilebilir / düzeltilemez)

SLURM Exporter — İş Kuyruğu Metrikleri

  • Çalışan / bekleyen / askıya alınan iş sayısı
  • Partition doluluk oranı
  • Kullanıcı ve proje bazlı kaynak kullanımı
  • Ortalama kuyruk bekleme süresi

Grafana — Görselleştirme

Önceden yapılandırılmış HPC dashboard’ları:

  1. Cluster Genel Bakış: Tüm node’ların durumu tek ekranda
  2. GPU Health: 4 panel GPU sıcaklık, kullanım, güç haritası
  3. Storage Performance: I/O throughput ve gecikme
  4. Job Accounting: Proje/kullanıcı bazlı CPU ve GPU saati

Alertmanager — Akıllı Uyarı

# Kritik uyarı örneği
- alert: GPUHighTemp
  expr: dcgm_gpu_temp > 85
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "GPU sıcaklığı kritik eşiği aştı"

Uyarılar e-posta, SMS veya Slack kanalına iletilir.

Monitoring altyapınızı kurmak veya mevcut sisteminizi iyileştirmek için bizimle iletişime geçin.

Sıkça Sorulan Sorular

Monitoring stack'i mevcut altyapıma entegre edebilir misiniz?

Evet. Prometheus ve Grafana, mevcut herhangi bir Linux tabanlı HPC cluster'a entegre edilebilir. Mevcut monitoring araçlarıyla (Zabbix, Nagios) entegrasyon da desteklenir.

GPU monitoring için özel gereksinim var mı?

DCGM (Data Center GPU Manager) kurulumu gereklidir. Mevasis bu kurulum ve yapılandırmayı üstlenir.