Yapay Zeka ve Makine Öğrenmesi HPC

Yapay Zeka Modellerini Eğitmek Neden Yüksek Başarımlı Hesaplama Gerektirir?

Büyük dil modelleri (LLM), görüntü sınıflandırma ağları veya öneri sistemleri geliştirmek; tek bir GPU’nun ya da standart bir bulut sanal makinesinin sınırlarını çok hızlı aşar. GPT ölçeğinde bir modelin pre-training aşaması milyarlarca parametre üzerinde trilyon belirteç işler; bu, haftalar, hatta aylar boyunca kesintisiz çalışan yüzlerce GPU anlamına gelir. Fine-tuning ve inference aşamalarında bile düşük gecikme süresi ve yüksek verim için GPU belleği ile ağ bant genişliği kritik darboğazlar haline gelir.

Türkiye’de faaliyet gösteren yapay zeka şirketleri ve araştırma grupları için bu hesaplama ihtiyacını yurt içinde karşılamak ek bir anlam taşır: veri egemenliği, KVKK uyumu ve yabancı bulut sağlayıcıların kur riskinden bağımsız, öngörülebilir maliyet yapısı.

Yapay Zeka ve ML İş Yükleri

LLM Pre-Training

Sıfırdan model eğitimi, HPC’nin en yoğun iş yüklerinden biridir. Transformer mimarisine dayalı modellerde her iterasyon, katmanlar arasında devasa gradyan matrislerinin GPU’lar arasında senkronize edilmesini gerektirir. Bu süreçte kullanılan araçlar:

PyTorch FSDP / DeepSpeed ZeRO — model durumunu GPU’lar arasında parçalara böler
Megatron-LM — tensor ve pipeline paralelizmini birleştiren NVIDIA çerçevesi
NCCL (NVIDIA Collective Communications Library) — GPU’lar arası all-reduce operasyonları
Hugging Face Accelerate — çok GPU ve çok düğümlü eğitimi soyutlayan katman

Düşük gecikmeli GPU-GPU iletişimi için InfiniBand HDR/NDR ağ zorunludur; standart Ethernet bu gecikme bütçesini karşılayamaz.

Fine-Tuning ve RLHF

Mevcut bir modeli belirli bir alana veya göreve uyarlamak, full pre-training’den daha az hesaplama gerektirir; ancak yine de özel GPU altyapısı ister. LoRA, QLoRA gibi parametre verimli yöntemler bile büyük modellerde (70B+) birden fazla GPU gerektirir. İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF) ise ödül modeli, aktör ve referans politikasını aynı anda belleğe almak zorunda olduğundan bellek baskısı özellikle yüksektir. Kullanılan araçlar:

TRL (Transformer Reinforcement Learning) — Hugging Face’in RLHF/PPO araç seti
Axolotl — fine-tuning iş akışlarını standartlaştıran açık kaynak çerçeve
LLaMA-Factory — çok modelli fine-tuning platformu
vLLM / SGLang — RLHF döngüsünde hızlı inference için

Büyük Ölçekli Inference

Eğitilmiş modelleri üretime almak, eğitimden farklı ama bir o kadar kritik bir altyapı profili gerektirir: düşük P99 gecikme süresi, yüksek eş zamanlı kullanıcı kapasitesi ve maliyet etkin GPU kullanımı. Üretim inference yığınları:

vLLM — PagedAttention ile yüksek verimli LLM inference
Triton Inference Server — NVIDIA’nın çoklu model sunucu çerçevesi
TensorRT-LLM — H100/A100 için optimize edilmiş çıkarım kütüphanesi
Ray Serve — dağıtık inference ölçekleme

MLOps ve Deney Yönetimi

Model geliştirme döngüsünü yönetmek, hesaplama kadar önemlidir. Deney takibi, model kayıt defteri, veri hattı orkestrasyon ve sürekli eğitim için:

MLflow / Weights & Biases (W&B) — deney izleme ve model yönetimi
Kubeflow Pipelines / Argo Workflows — ML iş akışı orkestrasyonu
DVC (Data Version Control) — veri ve model versiyonlama
Apache Airflow — zamanlama ve bağımlılık yönetimi

Mevasis GPU Cluster Mimarisi

Mevasis, yapay zeka iş yükleri için iki temel konfigürasyon sunar:

Konfigürasyon A — LLM Eğitim Cluster’ı

hesaplama_dugumu:
  gpu: NVIDIA H100 SXM5 80GB
  gpu_adet_dugum: 8
  cpu: AMD EPYC 9454 (48 çekirdek)
  sistem_bellegi: 1.5 TB DDR5 ECC
  yerel_depolama: 8x 3.84 TB NVMe (RAID 0)

aglar:
  gpu_arasi: InfiniBand NDR 400 Gb/s (NVLink dahil)
  yonetim: 25 GbE (bant disi)
  depolama: 100 GbE

paylasimli_depolama:
  tip: WEKA / Lustre paralel dosya sistemi
  kapasite: 2 PB ham (net 1.2 PB)
  bant_genisligi: 200 GB/s okuma, 100 GB/s yazma

yazilim_yigini:
  konteyner: Docker + NVIDIA Container Toolkit
  orkestrasyon: Kubernetes + GPU Operator
  mpi: OpenMPI 5.x
  cuda: 12.x
  izleme: Prometheus + Grafana + DCGM

Konfigürasyon B — Inference ve Fine-Tuning Sunucuları

sunucu:
  gpu: NVIDIA A100 80GB veya H100 PCIe
  gpu_adet: 4 veya 8
  cpu: Intel Xeon Scalable 4. Nesil
  bellek: 512 GB - 1 TB DDR5
  ag: 100 GbE
  kullanim: Fine-tuning, küçük model eğitimi, üretim inference

Tipik İş Yükü Karşılaştırması

Model Boyutu	Görev	Minimum GPU	Önerilen Konfigürasyon	Süre
7B parametre	Full fine-tuning	2x A100 80GB	4x A100	6–12 saat
7B parametre	QLoRA fine-tuning	1x A100 40GB	1x A100 80GB	2–4 saat
70B parametre	Full fine-tuning	8x A100 80GB	8x H100 80GB	2–5 gün
70B parametre	QLoRA fine-tuning	4x A100 80GB	4x H100	12–24 saat
405B parametre	Pre-training	64x H100	128x H100	Haftalar
Herhangi	Üretim inference	1x A100	2–4x H100	Sürekli

Veri Egemenliği ve KVKK Uyumu

Yapay zeka modellerinin eğitiminde kullanılan veri setleri çoğunlukla kişisel veri içerir: müşteri konuşmaları, sağlık kayıtları, hukuki belgeler veya finansal işlem geçmişleri. Bu veriler Türkiye sınırları dışına çıktığında Kişisel Verileri Koruma Kanunu (KVKK) kapsamında ciddi yükümlülükler doğar.

Mevasis altyapısı Türkiye lokasyonunda konuşlandırılmaktadır. Verileriniz yurt dışına transfer edilmez, üçüncü taraf bulut sağlayıcıların sistemlerine girmez. Kuruluşlar; model eğitimi, çıkarım ve veri depolama süreçlerinin tamamını KVKK’ya uygun şekilde Türkiye’de yürütebilir.

Bunun yanı sıra döviz kuruna bağlı faturalandırma riskini ortadan kaldıran TL bazlı fiyatlandırma, yerli tedarik zinciri ve Türkçe teknik destek, Mevasis’i küresel bulut alternatiflerinden ayıran unsurlardandır.

Ekibimiz Sizin İçin Ne Yapar?

Sadece sunucu kiralamakla kalmaz; iş yükünüze özel mimari tasarım ve kurulum desteği sunarız:

Küme boyutlandırma: Model mimarisi, veri seti büyüklüğü ve hedef eğitim süresine göre GPU sayısı, bellek ve ağ bant genişliği hesaplaması
Yazılım kurulumu: PyTorch, CUDA, NCCL, MPI, Kubernetes GPU Operator ve izleme araçlarının kurulumu ve konfigürasyonu
Kıyaslama: Gerçek iş yükünüzle performans testleri ve optimizasyon önerileri
MLOps entegrasyonu: W&B, MLflow veya tercih ettiğiniz deney takip aracının cluster ile entegrasyonu
Süregelen destek: Kaynak planlama, kuyruk yönetimi ve performans izleme

İlgili Mevasis Hizmetleri

GPU Sunucu Kiralama — Saatlik veya aylık esasla H100 ve A100 GPU sunucuları
Yönetilen HPC Cluster — Çok düğümlü, InfiniBand bağlantılı tam yönetilen kümeler
Özel Altyapı Danışmanlığı — Mimari tasarım, kapasite planlaması ve maliyet optimizasyonu

Yapay zeka projeniz için doğru GPU altyapısını birlikte belirleyelim. Model boyutu, veri seti ve zaman çizelgenizi paylaşın; size özel bir konfigürasyon ve fiyat teklifi hazırlayalım.

Teknik Ekibimizle İletişime Geçin →