Bir HPC sistemi için en pahalı an, kullanıcılarınızın iş zamanında kuyruğa girememesi veya sistemin başarısız bir hesaplamayla saatlerce dönmesidir. HPC bakım ve operasyon hizmetimiz — diğer adıyla yönetilen HPC hizmeti — sistemin günlük ritmini bizim üzerimize alır; ekibiniz bilim ve mühendislik problemleriyle ilgilenir, sistem yöneticiliği değil.
“Yönetilen” gerçekten ne anlama geliyor
Yalnızca arıza geldiğinde müdahale eden klasik bir bakım sözleşmesi değil. Sistemi proaktif ve kanıt-tabanlı yönetiriz:
- 7/24 metrik izleme — kullanıcı şikayet etmeden sorunu yakalamak
- Düzenli sağlık kontrolleri ve trend analizleri — küçük bozulmaları büyük arızalara dönüşmeden çözmek
- Tahmin edilebilir SLA çerçevesi — yanıt süresi sözel değil, sözleşmeyle bağlı
- Aylık kapasite ve verimlilik raporları — yönetime gösterilebilir somut çıktılar
Hizmet kapsamımız
7/24 izleme ve uyarı yönetimi
- Donanım: GPU sıcaklığı, fan/PSU sağlığı, NVMe aşınma, ECC hata oranları
- Ağ: InfiniBand link kalitesi, paket kaybı, switch bellek/CPU yükü
- Depolama: paralel dosya sistemi sağlığı, metadata server yükü, kapasite uyarıları
- Zamanlayıcı: kuyruk birikimi, başarısız iş oranı, fairshare anomalileri
- Mevasis NOC ekibi kritik uyarılarda 15 dakika içinde triaj yapar
Düzenli bakım
- Aylık bakım pencereleri: yamalar, firmware güncellemeleri, disk sağlığı
- Çeyreklik fiziksel ziyaretler: toz temizliği, kablo kontrolü, fan/PSU değişimi
- Yıllık kapasite ve performans denetimi — sistem ilk günkü gibi mi çalışıyor?
- Güvenlik yamaları: CVE bazlı önceliklendirilmiş yama yönetimi
Olay yönetimi (incident response)
- Tier-1 / Tier-2 / Tier-3 destek katmanları, sözleşme seviyenize göre eskalasyon
- Donanım arızasında yedek parça stoğumuzdan saatler içinde teslim
- Üretici garantilerinin yönetimi — RMA süreçlerini biz yürütürüz
- Olay sonrası kök neden analizi (RCA) raporu
Yazılım ve lisans yönetimi
- Bright Cluster Manager / xCAT / Warewulf güncellemeleri
- SLURM kuyruk politikaları ve fairshare ayarlarının düzenlenmesi
- BeeGFS / Lustre konfigürasyon optimizasyonu
- Lisans takibi (commercial + open-source); süresi dolan lisansların proaktif yenilenmesi
- Kullanıcı / quota yönetimi (talep formuna bağlı süreç)
Performans optimizasyonu
- İş yüküne özel ayar (compiler flag’leri, MPI parametreleri, NUMA topolojisi)
- I/O dar boğazlarının tespiti ve giderilmesi
- GPU kullanım verimliliği analizleri (kullanıcı eğitimine geri besleme)
- Aylık verimlilik raporu: kullanım oranları, kuyruk istatistikleri, top kullanıcılar
SLA seviyeleri
| Seviye | Yanıt süresi | Kapsam | Uygun olduğu durum |
|---|---|---|---|
| Standart | 8 saat | İş günleri, uzaktan destek | Araştırma laboratuvarları, küçük ekipler |
| İş Kritik | 4 saat | 7/24, uzaktan + saha | Üretim sistemleri, üniversite merkezleri |
| Misyon Kritik | 1 saat | 7/24, dedike mühendis | Endüstriyel HPC, simülasyon-bağımlı süreçler |
Müşteri kazanımı
- HPC için iç sistem yöneticisi maliyetinden tasarruf (özellikle 24×7 nöbet)
- Kullanıcı şikayet sayısında ölçülebilir azalma (düzenli müşterilerimizde tipik %70+ düşüş)
- Donanım garantisi sona erdikten sonra bile uzun ömürlü, güvenilir operasyon
- Yönetim için: aylık raporlanabilir uptime ve kullanım metrikleri
Sıkça gelen kısa sorular
Sistemi başka bir entegratör kurdu, bakımı sizden alabilir miyim?
Evet. İlk adımımız bağımsız bir devralma denetimi: dokümantasyon, monitoring stack ve mevcut konfigürasyon kontrolden geçer. Eksik veya riskli noktalar raporlanır, gerekirse düzeltilir; ardından SLA başlar.
İç ekibimiz var, bütünüyle dış kaynak değil sadece nöbet/eskalasyon istiyoruz. Mümkün mü?
Evet. Hibrit operasyon modelimizde günlük iş iç ekibinizdedir; sadece mesai dışı izleme, kritik olay yönetimi ve uzman eskalasyonu Mevasis’tedir. Bu birçok üniversite merkezi için optimal modeldir.
Acil durumda saha mühendisi ne kadar sürede gelir?
İstanbul, Ankara, İzmir bölgelerinde misyon kritik SLA’da 4 saat içinde sahadayız. Diğer iller için 8–24 saat aralığı; tüm Türkiye’de yedek parça stoğumuzla çalışıyoruz.
Sistem bizim, ama operasyonel kontrol panelinizi kullanmamız gerekecek mi?
Hayır — sizin altyapınızı sizin tarafınızda yönetiriz. Monitoring stack tipik olarak Prometheus + Grafana + Alertmanager (open-source) — sahibi sizsiniz, biz sadece operatörüz. Vendor lock-in oluşturmuyoruz.
Bir sonraki aşama
Sistem stabil çalışırken bile büyüme bir noktada gerekli olur. HPC Kapasite Genişletme → sayfasında üretimi durdurmadan nasıl büyüttüğümüzü anlatıyoruz.