HPC Bakım & Operasyon
7/24 izleme, proaktif bakım ve incident response ile yönetilen HPC hizmeti. Süper bilgisayarınız üretimde kalsın, ekibiniz bilime odaklansın — Mevasis HPC bakım sözleşmesi.
Bir HPC sistemi için en pahalı an, kullanıcılarınızın iş zamanında kuyruğa girememesi veya sistemin başarısız bir hesaplamayla saatlerce dönmesidir. HPC bakım ve operasyon hizmetimiz — diğer adıyla yönetilen HPC hizmeti — sistemin günlük ritmini bizim üzerimize alır; ekibiniz bilim ve mühendislik problemleriyle ilgilenir, sistem yöneticiliği değil.
“Yönetilen” gerçekten ne anlama geliyor
Yalnızca arıza geldiğinde müdahale eden klasik bir bakım sözleşmesi değil. Sistemi proaktif ve kanıt-tabanlı yönetiriz:
- 7/24 metrik izleme — kullanıcı şikayet etmeden sorunu yakalamak
- Düzenli sağlık kontrolleri ve trend analizleri — küçük bozulmaları büyük arızalara dönüşmeden çözmek
- Tahmin edilebilir SLA çerçevesi — yanıt süresi sözel değil, sözleşmeyle bağlı
- Aylık kapasite ve verimlilik raporları — yönetime gösterilebilir somut çıktılar
Hizmet kapsamımız
7/24 izleme ve uyarı yönetimi
- Donanım: GPU sıcaklığı, fan/PSU sağlığı, NVMe aşınma, ECC hata oranları
- Ağ: InfiniBand link kalitesi, paket kaybı, switch bellek/CPU yükü
- Depolama: paralel dosya sistemi sağlığı, metadata server yükü, kapasite uyarıları
- Zamanlayıcı: kuyruk birikimi, başarısız iş oranı, fairshare anomalileri
- Mevasis NOC ekibi kritik uyarılarda 15 dakika içinde triaj yapar
Düzenli bakım
- Aylık bakım pencereleri: yamalar, firmware güncellemeleri, disk sağlığı
- Çeyreklik fiziksel ziyaretler: toz temizliği, kablo kontrolü, fan/PSU değişimi
- Yıllık kapasite ve performans denetimi — sistem ilk günkü gibi mi çalışıyor?
- Güvenlik yamaları: CVE bazlı önceliklendirilmiş yama yönetimi
Olay yönetimi (incident response)
- Tier-1 / Tier-2 / Tier-3 destek katmanları, sözleşme seviyenize göre eskalasyon
- Donanım arızasında yedek parça stoğumuzdan saatler içinde teslim
- Üretici garantilerinin yönetimi — RMA süreçlerini biz yürütürüz
- Olay sonrası kök neden analizi (RCA) raporu
Yazılım ve lisans yönetimi
- Bright Cluster Manager / xCAT / Warewulf güncellemeleri
- SLURM kuyruk politikaları ve fairshare ayarlarının düzenlenmesi
- BeeGFS / Lustre konfigürasyon optimizasyonu
- Lisans takibi (commercial + open-source); süresi dolan lisansların proaktif yenilenmesi
- Kullanıcı / quota yönetimi (talep formuna bağlı süreç)
Performans optimizasyonu
- İş yüküne özel ayar (compiler flag’leri, MPI parametreleri, NUMA topolojisi)
- I/O dar boğazlarının tespiti ve giderilmesi
- GPU kullanım verimliliği analizleri (kullanıcı eğitimine geri besleme)
- Aylık verimlilik raporu: kullanım oranları, kuyruk istatistikleri, top kullanıcılar
SLA seviyeleri
| Seviye | Yanıt süresi | Kapsam | Uygun olduğu durum |
|---|---|---|---|
| Standart | 8 saat | İş günleri, uzaktan destek | Araştırma laboratuvarları, küçük ekipler |
| İş Kritik | 4 saat | 7/24, uzaktan + saha | Üretim sistemleri, üniversite merkezleri |
| Misyon Kritik | 1 saat | 7/24, dedike mühendis | Endüstriyel HPC, simülasyon-bağımlı süreçler |
Müşteri kazanımı
- HPC için iç sistem yöneticisi maliyetinden tasarruf (özellikle 24×7 nöbet)
- Kullanıcı şikayet sayısında ölçülebilir azalma (düzenli müşterilerimizde tipik %70+ düşüş)
- Donanım garantisi sona erdikten sonra bile uzun ömürlü, güvenilir operasyon
- Yönetim için: aylık raporlanabilir uptime ve kullanım metrikleri
Sıkça gelen kısa sorular
Sistemi başka bir entegratör kurdu, bakımı sizden alabilir miyim?
İç ekibimiz var, bütünüyle dış kaynak değil sadece nöbet/eskalasyon istiyoruz. Mümkün mü?
Acil durumda saha mühendisi ne kadar sürede gelir?
Sistem bizim, ama operasyonel kontrol panelinizi kullanmamız gerekecek mi?
Bir sonraki aşama
Sistem stabil çalışırken bile büyüme bir noktada gerekli olur. HPC Kapasite Genişletme → sayfasında üretimi durdurmadan nasıl büyüttüğümüzü anlatıyoruz.