HPC Bakım & Operasyon

Bir HPC sistemi için en pahalı an, kullanıcılarınızın iş zamanında kuyruğa girememesi veya sistemin başarısız bir hesaplamayla saatlerce dönmesidir. HPC bakım ve operasyon hizmetimiz — diğer adıyla yönetilen HPC hizmeti — sistemin günlük ritmini bizim üzerimize alır; ekibiniz bilim ve mühendislik problemleriyle ilgilenir, sistem yöneticiliği değil.

“Yönetilen” gerçekten ne anlama geliyor

Yalnızca arıza geldiğinde müdahale eden klasik bir bakım sözleşmesi değil. Sistemi proaktif ve kanıt-tabanlı yönetiriz:

7/24 metrik izleme — kullanıcı şikayet etmeden sorunu yakalamak
Düzenli sağlık kontrolleri ve trend analizleri — küçük bozulmaları büyük arızalara dönüşmeden çözmek
Tahmin edilebilir SLA çerçevesi — yanıt süresi sözel değil, sözleşmeyle bağlı
Aylık kapasite ve verimlilik raporları — yönetime gösterilebilir somut çıktılar

Hizmet kapsamımız

7/24 izleme ve uyarı yönetimi

Donanım: GPU sıcaklığı, fan/PSU sağlığı, NVMe aşınma, ECC hata oranları
Ağ: InfiniBand link kalitesi, paket kaybı, switch bellek/CPU yükü
Depolama: paralel dosya sistemi sağlığı, metadata server yükü, kapasite uyarıları
Zamanlayıcı: kuyruk birikimi, başarısız iş oranı, fairshare anomalileri
Mevasis NOC ekibi kritik uyarılarda 15 dakika içinde triaj yapar

Düzenli bakım

Aylık bakım pencereleri: yamalar, firmware güncellemeleri, disk sağlığı
Çeyreklik fiziksel ziyaretler: toz temizliği, kablo kontrolü, fan/PSU değişimi
Yıllık kapasite ve performans denetimi — sistem ilk günkü gibi mi çalışıyor?
Güvenlik yamaları: CVE bazlı önceliklendirilmiş yama yönetimi

Olay yönetimi (incident response)

Tier-1 / Tier-2 / Tier-3 destek katmanları, sözleşme seviyenize göre eskalasyon
Donanım arızasında yedek parça stoğumuzdan saatler içinde teslim
Üretici garantilerinin yönetimi — RMA süreçlerini biz yürütürüz
Olay sonrası kök neden analizi (RCA) raporu

Yazılım ve lisans yönetimi

Bright Cluster Manager / xCAT / Warewulf güncellemeleri
SLURM kuyruk politikaları ve fairshare ayarlarının düzenlenmesi
BeeGFS / Lustre konfigürasyon optimizasyonu
Lisans takibi (commercial + open-source); süresi dolan lisansların proaktif yenilenmesi
Kullanıcı / quota yönetimi (talep formuna bağlı süreç)

Performans optimizasyonu

İş yüküne özel ayar (compiler flag’leri, MPI parametreleri, NUMA topolojisi)
I/O dar boğazlarının tespiti ve giderilmesi
GPU kullanım verimliliği analizleri (kullanıcı eğitimine geri besleme)
Aylık verimlilik raporu: kullanım oranları, kuyruk istatistikleri, top kullanıcılar

SLA seviyeleri

Seviye	Yanıt süresi	Kapsam	Uygun olduğu durum
Standart	8 saat	İş günleri, uzaktan destek	Araştırma laboratuvarları, küçük ekipler
İş Kritik	4 saat	7/24, uzaktan + saha	Üretim sistemleri, üniversite merkezleri
Misyon Kritik	1 saat	7/24, dedike mühendis	Endüstriyel HPC, simülasyon-bağımlı süreçler

Müşteri kazanımı

HPC için iç sistem yöneticisi maliyetinden tasarruf (özellikle 24×7 nöbet)
Kullanıcı şikayet sayısında ölçülebilir azalma (düzenli müşterilerimizde tipik %70+ düşüş)
Donanım garantisi sona erdikten sonra bile uzun ömürlü, güvenilir operasyon
Yönetim için: aylık raporlanabilir uptime ve kullanım metrikleri

Sıkça gelen kısa sorular

Sistemi başka bir entegratör kurdu, bakımı sizden alabilir miyim?

Evet. İlk adımımız bağımsız bir devralma denetimi: dokümantasyon, monitoring stack ve mevcut konfigürasyon kontrolden geçer. Eksik veya riskli noktalar raporlanır, gerekirse düzeltilir; ardından SLA başlar.

İç ekibimiz var, bütünüyle dış kaynak değil sadece nöbet/eskalasyon istiyoruz. Mümkün mü?

Evet. Hibrit operasyon modelimizde günlük iş iç ekibinizdedir; sadece mesai dışı izleme, kritik olay yönetimi ve uzman eskalasyonu Mevasis’tedir. Bu birçok üniversite merkezi için optimal modeldir.

Acil durumda saha mühendisi ne kadar sürede gelir?

İstanbul, Ankara, İzmir bölgelerinde misyon kritik SLA’da 4 saat içinde sahadayız. Diğer iller için 8–24 saat aralığı; tüm Türkiye’de yedek parça stoğumuzla çalışıyoruz.

Sistem bizim, ama operasyonel kontrol panelinizi kullanmamız gerekecek mi?

Hayır — sizin altyapınızı sizin tarafınızda yönetiriz. Monitoring stack tipik olarak Prometheus + Grafana + Alertmanager (open-source) — sahibi sizsiniz, biz sadece operatörüz. Vendor lock-in oluşturmuyoruz.

Bir sonraki aşama

Sistem stabil çalışırken bile büyüme bir noktada gerekli olur. HPC Kapasite Genişletme → sayfasında üretimi durdurmadan nasıl büyüttüğümüzü anlatıyoruz.