
Yapay Zeka ve Makine Öğrenmesi HPC
LLM eğitimi ve inference için GPU cluster altyapısı — NVIDIA H100, InfiniBand ve Kubernetes entegrasyonu.
Yapay Zeka Modellerini Eğitmek Neden Yüksek Başarımlı Hesaplama Gerektirir?
Büyük dil modelleri (LLM), görüntü sınıflandırma ağları veya öneri sistemleri geliştirmek; tek bir GPU’nun ya da standart bir bulut sanal makinesinin sınırlarını çok hızlı aşar. GPT ölçeğinde bir modelin pre-training aşaması milyarlarca parametre üzerinde trilyon belirteç işler; bu, haftalar, hatta aylar boyunca kesintisiz çalışan yüzlerce GPU anlamına gelir. Fine-tuning ve inference aşamalarında bile düşük gecikme süresi ve yüksek verim için GPU belleği ile ağ bant genişliği kritik darboğazlar haline gelir.
Türkiye’de faaliyet gösteren yapay zeka şirketleri ve araştırma grupları için bu hesaplama ihtiyacını yurt içinde karşılamak ek bir anlam taşır: veri egemenliği, KVKK uyumu ve yabancı bulut sağlayıcıların kur riskinden bağımsız, öngörülebilir maliyet yapısı.
Yapay Zeka ve ML İş Yükleri
LLM Pre-Training
Sıfırdan model eğitimi, HPC’nin en yoğun iş yüklerinden biridir. Transformer mimarisine dayalı modellerde her iterasyon, katmanlar arasında devasa gradyan matrislerinin GPU’lar arasında senkronize edilmesini gerektirir. Bu süreçte kullanılan araçlar:
- PyTorch FSDP / DeepSpeed ZeRO — model durumunu GPU’lar arasında parçalara böler
- Megatron-LM — tensor ve pipeline paralelizmini birleştiren NVIDIA çerçevesi
- NCCL (NVIDIA Collective Communications Library) — GPU’lar arası all-reduce operasyonları
- Hugging Face Accelerate — çok GPU ve çok düğümlü eğitimi soyutlayan katman
Düşük gecikmeli GPU-GPU iletişimi için InfiniBand HDR/NDR ağ zorunludur; standart Ethernet bu gecikme bütçesini karşılayamaz.
Fine-Tuning ve RLHF
Mevcut bir modeli belirli bir alana veya göreve uyarlamak, full pre-training’den daha az hesaplama gerektirir; ancak yine de özel GPU altyapısı ister. LoRA, QLoRA gibi parametre verimli yöntemler bile büyük modellerde (70B+) birden fazla GPU gerektirir. İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF) ise ödül modeli, aktör ve referans politikasını aynı anda belleğe almak zorunda olduğundan bellek baskısı özellikle yüksektir. Kullanılan araçlar:
- TRL (Transformer Reinforcement Learning) — Hugging Face’in RLHF/PPO araç seti
- Axolotl — fine-tuning iş akışlarını standartlaştıran açık kaynak çerçeve
- LLaMA-Factory — çok modelli fine-tuning platformu
- vLLM / SGLang — RLHF döngüsünde hızlı inference için
Büyük Ölçekli Inference
Eğitilmiş modelleri üretime almak, eğitimden farklı ama bir o kadar kritik bir altyapı profili gerektirir: düşük P99 gecikme süresi, yüksek eş zamanlı kullanıcı kapasitesi ve maliyet etkin GPU kullanımı. Üretim inference yığınları:
- vLLM — PagedAttention ile yüksek verimli LLM inference
- Triton Inference Server — NVIDIA’nın çoklu model sunucu çerçevesi
- TensorRT-LLM — H100/A100 için optimize edilmiş çıkarım kütüphanesi
- Ray Serve — dağıtık inference ölçekleme
MLOps ve Deney Yönetimi
Model geliştirme döngüsünü yönetmek, hesaplama kadar önemlidir. Deney takibi, model kayıt defteri, veri hattı orkestrasyon ve sürekli eğitim için:
- MLflow / Weights & Biases (W&B) — deney izleme ve model yönetimi
- Kubeflow Pipelines / Argo Workflows — ML iş akışı orkestrasyonu
- DVC (Data Version Control) — veri ve model versiyonlama
- Apache Airflow — zamanlama ve bağımlılık yönetimi
Mevasis GPU Cluster Mimarisi
Mevasis, yapay zeka iş yükleri için iki temel konfigürasyon sunar:
Konfigürasyon A — LLM Eğitim Cluster’ı
hesaplama_dugumu:
gpu: NVIDIA H100 SXM5 80GB
gpu_adet_dugum: 8
cpu: AMD EPYC 9454 (48 çekirdek)
sistem_bellegi: 1.5 TB DDR5 ECC
yerel_depolama: 8x 3.84 TB NVMe (RAID 0)
aglar:
gpu_arasi: InfiniBand NDR 400 Gb/s (NVLink dahil)
yonetim: 25 GbE (bant disi)
depolama: 100 GbE
paylasimli_depolama:
tip: WEKA / Lustre paralel dosya sistemi
kapasite: 2 PB ham (net 1.2 PB)
bant_genisligi: 200 GB/s okuma, 100 GB/s yazma
yazilim_yigini:
konteyner: Docker + NVIDIA Container Toolkit
orkestrasyon: Kubernetes + GPU Operator
mpi: OpenMPI 5.x
cuda: 12.x
izleme: Prometheus + Grafana + DCGM
Konfigürasyon B — Inference ve Fine-Tuning Sunucuları
sunucu:
gpu: NVIDIA A100 80GB veya H100 PCIe
gpu_adet: 4 veya 8
cpu: Intel Xeon Scalable 4. Nesil
bellek: 512 GB - 1 TB DDR5
ag: 100 GbE
kullanim: Fine-tuning, küçük model eğitimi, üretim inference
Tipik İş Yükü Karşılaştırması
| Model Boyutu | Görev | Minimum GPU | Önerilen Konfigürasyon | Süre |
|---|---|---|---|---|
| 7B parametre | Full fine-tuning | 2x A100 80GB | 4x A100 | 6–12 saat |
| 7B parametre | QLoRA fine-tuning | 1x A100 40GB | 1x A100 80GB | 2–4 saat |
| 70B parametre | Full fine-tuning | 8x A100 80GB | 8x H100 80GB | 2–5 gün |
| 70B parametre | QLoRA fine-tuning | 4x A100 80GB | 4x H100 | 12–24 saat |
| 405B parametre | Pre-training | 64x H100 | 128x H100 | Haftalar |
| Herhangi | Üretim inference | 1x A100 | 2–4x H100 | Sürekli |
Veri Egemenliği ve KVKK Uyumu
Yapay zeka modellerinin eğitiminde kullanılan veri setleri çoğunlukla kişisel veri içerir: müşteri konuşmaları, sağlık kayıtları, hukuki belgeler veya finansal işlem geçmişleri. Bu veriler Türkiye sınırları dışına çıktığında Kişisel Verileri Koruma Kanunu (KVKK) kapsamında ciddi yükümlülükler doğar.
Mevasis altyapısı Türkiye lokasyonunda konuşlandırılmaktadır. Verileriniz yurt dışına transfer edilmez, üçüncü taraf bulut sağlayıcıların sistemlerine girmez. Kuruluşlar; model eğitimi, çıkarım ve veri depolama süreçlerinin tamamını KVKK’ya uygun şekilde Türkiye’de yürütebilir.
Bunun yanı sıra döviz kuruna bağlı faturalandırma riskini ortadan kaldıran TL bazlı fiyatlandırma, yerli tedarik zinciri ve Türkçe teknik destek, Mevasis’i küresel bulut alternatiflerinden ayıran unsurlardandır.
Ekibimiz Sizin İçin Ne Yapar?
Sadece sunucu kiralamakla kalmaz; iş yükünüze özel mimari tasarım ve kurulum desteği sunarız:
- Küme boyutlandırma: Model mimarisi, veri seti büyüklüğü ve hedef eğitim süresine göre GPU sayısı, bellek ve ağ bant genişliği hesaplaması
- Yazılım kurulumu: PyTorch, CUDA, NCCL, MPI, Kubernetes GPU Operator ve izleme araçlarının kurulumu ve konfigürasyonu
- Kıyaslama: Gerçek iş yükünüzle performans testleri ve optimizasyon önerileri
- MLOps entegrasyonu: W&B, MLflow veya tercih ettiğiniz deney takip aracının cluster ile entegrasyonu
- Süregelen destek: Kaynak planlama, kuyruk yönetimi ve performans izleme
İlgili Mevasis Hizmetleri
- GPU Sunucu Kiralama — Saatlik veya aylık esasla H100 ve A100 GPU sunucuları
- Yönetilen HPC Cluster — Çok düğümlü, InfiniBand bağlantılı tam yönetilen kümeler
- Özel Altyapı Danışmanlığı — Mimari tasarım, kapasite planlaması ve maliyet optimizasyonu
Yapay zeka projeniz için doğru GPU altyapısını birlikte belirleyelim. Model boyutu, veri seti ve zaman çizelgenizi paylaşın; size özel bir konfigürasyon ve fiyat teklifi hazırlayalım.