GPU Saat Kiralama: AI ve HPC İş Yükleri İçin Ne Zaman Mantıklı?
NVIDIA H100 ve A100 GPU saat kiralama modeli, maliyet senaryoları ve kullanım alanları. Sermaye yatırımı olmadan HPC kapasitesine erişim rehberi.
Derin öğrenme eğitimi, büyük ölçekli CFD çalışması veya kısa süreli genomik analiz pipeline’ı için güçlü GPU’ya ihtiyaç duyduğunuzda her zaman yeni bir cluster satın almak veya uzun vadeli kiralama sözleşmesi imzalamak zorunda değilsiniz. GPU saat kiralama, kullandığınız süre kadar ödediğiniz esnek bir model sunar: proje başında kapasiteyi artırır, iş bittiğinde maliyeti düşürürsünüz.
Bu rehberde GPU saat kiralamanın hangi senaryolarda en verimli seçenek olduğunu, H100 ve A100 platformlarıyla tipik kullanım alanlarını ve satın alma veya bulut alternatifleriyle nasıl kıyaslanacağını özetliyoruz.
GPU Saat Kiralama Nedir?
GPU saat kiralama, paylaşımlı veya size ayrılmış bir HPC altyapısındaki GPU kaynaklarına saatlik (veya GPU-saat bazlı) faturalandırma ile erişmenizdir. Model, CPU saat kiralamaya benzer; fark, iş yükünün büyük ölçüde GPU belleği ve çekirdek paralelliğine bağımlı olmasıdır.
Tipik kapsam:
- NVIDIA H100, A100 veya eşdeğer GPU’larda job çalıştırma
- SLURM veya benzeri bir scheduler üzerinden kuyruk ve öncelik yönetimi
- Gerekirse önceden yapılandırılmış CUDA, container veya yazılım modülleri
- Teknik destek ve kapasite planlama (sağlayıcıya göre değişir)
Mevasis GPU saat kiralama hizmeti kapsamında bu modeli AI/ML ve bilimsel hesaplama projeleri için sunar.
Ne Zaman GPU Saat Kiralama Mantıklı?
| Senaryo | Saat kiralama | Uzun vadeli kiralama / satın alma |
|---|---|---|
| 3–12 aylık proje, belirsiz süre | ✅ Güçlü aday | ⚠️ Sözleşme riski |
| Model eğitimi patlaması (spike) | ✅ | ❌ Donanım atıl kalır |
| Pilot / PoC (kanıt değeri) | ✅ | ❌ Erken CapEx |
| Yıllık >6.000 GPU-saat kullanım | ⚠️ Maliyet artar | ✅ TCO düşer |
| Veri hiç kurum dışına çıkmamalı | ⚠️ Yerinde model değerlendir | ✅ |
Kısa özet: Kullanım düzensiz veya sınırlı süreliyse saat modeli nakit akışını korur; kullanım sürekli ve yüksekse HPC kiralama vs satın alma analizine geçmek gerekir.
H100 ve A100: Hangi GPU Ne İçin?
| GPU | Bellek | Güçlü olduğu alanlar |
|---|---|---|
| H100 SXM5 | 80 GB HBM3 | Büyük LLM eğitimi, FP8, yüksek bant genişlikli simülasyon |
| A100 | 40–80 GB | Olgun CUDA ekosistemi, yaygın framework desteği |
| Multi-GPU (NVLink) | — | Tek job’da 4–8 GPU ölçekleme |
Donanım seçimi iş yüküne bağlıdır. Örneğin 70B parametreli bir modelin fine-tuning’i H100’de bellek ve bant genişliği nedeniyle A100’e göre belirgin şekilde daha kısa sürer; klasik FP64 ağırlıklı bazı kodlar ise hâlâ CPU veya A100 ile planlanabilir. GPU hızlandırmalı HPC yazımızda mimari ve performans karşılaştırmasını detaylandırıyoruz.
Maliyet ve Faturalandırma Mantığı
Saatlik GPU fiyatı genellikle şu bileşenlerden oluşur:
- Ham GPU-saat — GPU modeli ve adet
- Altyapı payı — Ağ (InfiniBand), depolama I/O, yönetim düğümü
- Yazılım ve destek — Scheduler, izleme, opsiyonel SLA
- Minimum kullanım / rezervasyon — Sürekli iş yüklerinde indirim
Örnek karar noktaları
- 1.000 GPU-saat/yıl: Saat modeli neredeyse her zaman en düşük risk
- 5.000 GPU-saat/yıl: 3 yıllık dedike kiralama veya küçük owned GPU cluster kıyası
- 20.000+ GPU-saat/yıl: Satın alma veya yerinde yönetilen kiralama TCO analizi şart
Bulut GPU fiyatları (AWS, Azure, GCP) kısa süreli denemeler için cazip görünse de, Türkiye’deki kurumlar için veri çıkışı, gecikme ve sürekli kullanımda maliyet patlaması sık görülür. HPC vs bulut karşılaştırmamızda hibrit senaryoları ele alıyoruz.
Tipik Kullanım Alanları
Yapay zeka ve derin öğrenme
- LLM fine-tuning ve RLHF denemeleri
- Computer vision eğitimi (yüksek çözünürlüklü görüntü batch’leri)
- Inference burst (kampanya veya ürün lansmanı dönemi)
Bilimsel hesaplama
- GROMACS / AMBER kısa simülasyon kampanyaları
- OpenFOAM veya ANSYS Fluent GPU solver denemeleri
- Parabricks ile hızlandırılmış genomik pipeline
Mühendislik ve finans
- CFD doğrulama çalışmaları (tasarım iterasyonu)
- Monte Carlo risk simülasyonları (gece batch’leri)
Teknik Gereksinimler: Job Nasıl Çalışır?
Çoğu kurumsal GPU saat ortamında akış şöyledir:
# Örnek: SLURM ile 1× H100, 8 saat
sbatch --gres=gpu:h100:1 --time=08:00:00 --mem=64G train_job.sh
Dikkat edilmesi gerekenler:
- CUDA sürümü ile framework uyumu (PyTorch, TensorFlow, JAX)
- Container (Singularity/Apptainer) — tekrarlanabilir ortam
- Veri konumu — giriş verisinin yüksek hızlı depolamada olması (aksi halde GPU boş bekler)
- Çoklu GPU — NCCL ve NVLink topolojisi job script’inde tanımlı olmalı
SLURM temelleri için SLURM komut rehberi yazımıza bakabilirsiniz.
GPU Saat vs Dedike Kiralama vs Satın Alma
| Kriter | GPU saat | Dedike kiralama | Satın alma |
|---|---|---|---|
| Esneklik | En yüksek | Orta | En düşük |
| Birim maliyet (düşük kullanım) | Orta | Yüksek sabit | Yüksek CapEx |
| Birim maliyet (yüksek kullanım) | Yüksek | Düşer | En düşük (uzun vadede) |
| Operasyon yükü | Düşük (yönetilen) | Düşük | Yüksek |
| Veri egemenliği | Modele bağlı | Yerinde mümkün | Tam kontrol |
Kurumunuz hem düzenli hem düzensiz iş yüküne sahipse hibrit model mantıklıdır: taban kapasite owned veya dedike kiralama, tepe yük GPU saat ile karşılanır.
Mevasis ile GPU Saat Kiralama Süreci
- İş yükü profili — Framework, GPU sayısı, süre, veri hacmi
- Kapasite ve fiyat teklifi — H100/A100, SLA seçenekleri
- Erişim ve güvenlik — VPN/SSH, hesap ve kuyruk politikaları
- İzleme ve raporlama — Kullanım saatleri, faturalandırma dökümü
Uzun vadeli ihtiyaç netleştiğinde HPC kiralama portföyümüz içinde yerinde veya dedike modellere geçiş planlanabilir.
Sıkça Sorulan Sorular
GPU saat kiralama ile bulut GPU arasındaki fark nedir? Saat kiralama genellikle Türkiye’de veya kurumunuza yakın bir HPC ortamında, sabit scheduler ve destek ekibiyle sunulur. Bulut ise global API ile anlık ölçekleme sağlar; sürekli yüksek kullanımda maliyet ve veri transferi dikkatle modellenmelidir.
Minimum süre veya kota var mı? Sağlayıcıya göre değişir. Proje bazlı paketler (ör. 500 GPU-saat) veya aylık tavan ile faturalandırma yaygındır. Teklif aşamasında netleştirilir.
Hangi yazılımlar hazır gelir? CUDA toolkit, cuDNN, yaygın AI framework’leri ve modül sistemi tipik olarak önceden kuruludur. Özel lisanslı yazılım (ANSYS vb.) kurum lisansınıza bağlıdır.
Verilerim nerede durur? Yerinde veya Mevasis yönetimli ortamda, sözleşmede tanımlı veri işleme ve silme koşullarıyla. Hassas veriler için yerinde kiralama alternatifi değerlendirilmelidir.
Saat modelinden dedike modele geçiş mümkün mü? Evet. Kullanım metrikleri 3–6 ay izlendikten sonra TCO analizi ile uzun vadeli model önerilir.
GPU saat kiralama, doğru planlandığında sermaye kilidini azaltan ve inovasyon hızını artıran bir araçtır. Projenizin süresi, veri politikası ve yıllık GPU-saat tahmininiz için Mevasis ekibiyle iletişime geçebilir veya GPU saat kiralama sayfamızdan detay isteyebilirsiniz.