Yapay Zeka ve Makine Öğrenmesi HPC
/ Sektörler

Yapay Zeka ve Makine Öğrenmesi HPC

LLM eğitimi ve inference için GPU cluster altyapısı — NVIDIA H100, InfiniBand ve Kubernetes entegrasyonu.

Yapay Zeka Modellerini Eğitmek Neden Yüksek Başarımlı Hesaplama Gerektirir?

Büyük dil modelleri (LLM), görüntü sınıflandırma ağları veya öneri sistemleri geliştirmek; tek bir GPU’nun ya da standart bir bulut sanal makinesinin sınırlarını çok hızlı aşar. GPT ölçeğinde bir modelin pre-training aşaması milyarlarca parametre üzerinde trilyon belirteç işler; bu, haftalar, hatta aylar boyunca kesintisiz çalışan yüzlerce GPU anlamına gelir. Fine-tuning ve inference aşamalarında bile düşük gecikme süresi ve yüksek verim için GPU belleği ile ağ bant genişliği kritik darboğazlar haline gelir.

Türkiye’de faaliyet gösteren yapay zeka şirketleri ve araştırma grupları için bu hesaplama ihtiyacını yurt içinde karşılamak ek bir anlam taşır: veri egemenliği, KVKK uyumu ve yabancı bulut sağlayıcıların kur riskinden bağımsız, öngörülebilir maliyet yapısı.

Yapay Zeka ve ML İş Yükleri

LLM Pre-Training

Sıfırdan model eğitimi, HPC’nin en yoğun iş yüklerinden biridir. Transformer mimarisine dayalı modellerde her iterasyon, katmanlar arasında devasa gradyan matrislerinin GPU’lar arasında senkronize edilmesini gerektirir. Bu süreçte kullanılan araçlar:

  • PyTorch FSDP / DeepSpeed ZeRO — model durumunu GPU’lar arasında parçalara böler
  • Megatron-LM — tensor ve pipeline paralelizmini birleştiren NVIDIA çerçevesi
  • NCCL (NVIDIA Collective Communications Library) — GPU’lar arası all-reduce operasyonları
  • Hugging Face Accelerate — çok GPU ve çok düğümlü eğitimi soyutlayan katman

Düşük gecikmeli GPU-GPU iletişimi için InfiniBand HDR/NDR ağ zorunludur; standart Ethernet bu gecikme bütçesini karşılayamaz.

Fine-Tuning ve RLHF

Mevcut bir modeli belirli bir alana veya göreve uyarlamak, full pre-training’den daha az hesaplama gerektirir; ancak yine de özel GPU altyapısı ister. LoRA, QLoRA gibi parametre verimli yöntemler bile büyük modellerde (70B+) birden fazla GPU gerektirir. İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF) ise ödül modeli, aktör ve referans politikasını aynı anda belleğe almak zorunda olduğundan bellek baskısı özellikle yüksektir. Kullanılan araçlar:

  • TRL (Transformer Reinforcement Learning) — Hugging Face’in RLHF/PPO araç seti
  • Axolotl — fine-tuning iş akışlarını standartlaştıran açık kaynak çerçeve
  • LLaMA-Factory — çok modelli fine-tuning platformu
  • vLLM / SGLang — RLHF döngüsünde hızlı inference için

Büyük Ölçekli Inference

Eğitilmiş modelleri üretime almak, eğitimden farklı ama bir o kadar kritik bir altyapı profili gerektirir: düşük P99 gecikme süresi, yüksek eş zamanlı kullanıcı kapasitesi ve maliyet etkin GPU kullanımı. Üretim inference yığınları:

  • vLLM — PagedAttention ile yüksek verimli LLM inference
  • Triton Inference Server — NVIDIA’nın çoklu model sunucu çerçevesi
  • TensorRT-LLM — H100/A100 için optimize edilmiş çıkarım kütüphanesi
  • Ray Serve — dağıtık inference ölçekleme

MLOps ve Deney Yönetimi

Model geliştirme döngüsünü yönetmek, hesaplama kadar önemlidir. Deney takibi, model kayıt defteri, veri hattı orkestrasyon ve sürekli eğitim için:

  • MLflow / Weights & Biases (W&B) — deney izleme ve model yönetimi
  • Kubeflow Pipelines / Argo Workflows — ML iş akışı orkestrasyonu
  • DVC (Data Version Control) — veri ve model versiyonlama
  • Apache Airflow — zamanlama ve bağımlılık yönetimi

Mevasis GPU Cluster Mimarisi

Mevasis, yapay zeka iş yükleri için iki temel konfigürasyon sunar:

Konfigürasyon A — LLM Eğitim Cluster’ı

hesaplama_dugumu:
  gpu: NVIDIA H100 SXM5 80GB
  gpu_adet_dugum: 8
  cpu: AMD EPYC 9454 (48 çekirdek)
  sistem_bellegi: 1.5 TB DDR5 ECC
  yerel_depolama: 8x 3.84 TB NVMe (RAID 0)

aglar:
  gpu_arasi: InfiniBand NDR 400 Gb/s (NVLink dahil)
  yonetim: 25 GbE (bant disi)
  depolama: 100 GbE

paylasimli_depolama:
  tip: WEKA / Lustre paralel dosya sistemi
  kapasite: 2 PB ham (net 1.2 PB)
  bant_genisligi: 200 GB/s okuma, 100 GB/s yazma

yazilim_yigini:
  konteyner: Docker + NVIDIA Container Toolkit
  orkestrasyon: Kubernetes + GPU Operator
  mpi: OpenMPI 5.x
  cuda: 12.x
  izleme: Prometheus + Grafana + DCGM

Konfigürasyon B — Inference ve Fine-Tuning Sunucuları

sunucu:
  gpu: NVIDIA A100 80GB veya H100 PCIe
  gpu_adet: 4 veya 8
  cpu: Intel Xeon Scalable 4. Nesil
  bellek: 512 GB - 1 TB DDR5
  ag: 100 GbE
  kullanim: Fine-tuning, küçük model eğitimi, üretim inference

Tipik İş Yükü Karşılaştırması

Model BoyutuGörevMinimum GPUÖnerilen KonfigürasyonSüre
7B parametreFull fine-tuning2x A100 80GB4x A1006–12 saat
7B parametreQLoRA fine-tuning1x A100 40GB1x A100 80GB2–4 saat
70B parametreFull fine-tuning8x A100 80GB8x H100 80GB2–5 gün
70B parametreQLoRA fine-tuning4x A100 80GB4x H10012–24 saat
405B parametrePre-training64x H100128x H100Haftalar
HerhangiÜretim inference1x A1002–4x H100Sürekli

Veri Egemenliği ve KVKK Uyumu

Yapay zeka modellerinin eğitiminde kullanılan veri setleri çoğunlukla kişisel veri içerir: müşteri konuşmaları, sağlık kayıtları, hukuki belgeler veya finansal işlem geçmişleri. Bu veriler Türkiye sınırları dışına çıktığında Kişisel Verileri Koruma Kanunu (KVKK) kapsamında ciddi yükümlülükler doğar.

Mevasis altyapısı Türkiye lokasyonunda konuşlandırılmaktadır. Verileriniz yurt dışına transfer edilmez, üçüncü taraf bulut sağlayıcıların sistemlerine girmez. Kuruluşlar; model eğitimi, çıkarım ve veri depolama süreçlerinin tamamını KVKK’ya uygun şekilde Türkiye’de yürütebilir.

Bunun yanı sıra döviz kuruna bağlı faturalandırma riskini ortadan kaldıran TL bazlı fiyatlandırma, yerli tedarik zinciri ve Türkçe teknik destek, Mevasis’i küresel bulut alternatiflerinden ayıran unsurlardandır.

Ekibimiz Sizin İçin Ne Yapar?

Sadece sunucu kiralamakla kalmaz; iş yükünüze özel mimari tasarım ve kurulum desteği sunarız:

  • Küme boyutlandırma: Model mimarisi, veri seti büyüklüğü ve hedef eğitim süresine göre GPU sayısı, bellek ve ağ bant genişliği hesaplaması
  • Yazılım kurulumu: PyTorch, CUDA, NCCL, MPI, Kubernetes GPU Operator ve izleme araçlarının kurulumu ve konfigürasyonu
  • Kıyaslama: Gerçek iş yükünüzle performans testleri ve optimizasyon önerileri
  • MLOps entegrasyonu: W&B, MLflow veya tercih ettiğiniz deney takip aracının cluster ile entegrasyonu
  • Süregelen destek: Kaynak planlama, kuyruk yönetimi ve performans izleme

İlgili Mevasis Hizmetleri


Yapay zeka projeniz için doğru GPU altyapısını birlikte belirleyelim. Model boyutu, veri seti ve zaman çizelgenizi paylaşın; size özel bir konfigürasyon ve fiyat teklifi hazırlayalım.

Teknik Ekibimizle İletişime Geçin →

← Tüm Sektörler