Büyük Dil Modeli (LLM) Eğitimi HPC Altyapısı

Büyük dil modellerinin (LLM) eğitimi, günümüzün en hesaplama yoğun yapay zeka iş yüklerinden birini oluşturuyor. GPT benzeri mimarilerin milyarlarca parametreye ulaştığı bu alanda, tek GPU üzerinde haftalarca sürecek bir eğitim, doğru HPC altyapısıyla saatlere indirilebilir. Ancak bunun için GPU sayısını artırmak yetmez: çok-node eğitimin verimli çalışması düşük gecikmeli interconnect, paralel dosya sistemi ve yazılım katmanlarının bütünsel tasarımını zorunlu kılar.

LLM Eğitiminin Hesaplama Yükü

Modern LLM eğitimi üç temel boyuttaki baskıyla başa çıkmak zorundadır: işlem kapasitesi (TFLOPS), GPU belleği ve node’lar arası bant genişliği.

7 milyar parametreli bir modelin bf16 hassasiyetinde tam eğitimi için yaklaşık 1.4 TB GPU belleği gerekir — tek bir NVIDIA H100 SXM5’in 80 GB kapasitesi bununla baş etmez. 70 milyar parametre ölçeğine çıkıldığında ise 500+ GPU gerektiren dağıtık eğitim kaçınılmaz hale gelir. Bu tablo, LLM iş yüklerini HPC cluster’larının doğal alanına taşır.

Paralellik Stratejileri

Dağıtık LLM eğitiminde üç temel paralellik boyutu kullanılır:

Strateji	Araç	Ne Bölünür	Ne Zaman Kullanılır
Veri Paralelliği	PyTorch DDP, FSDP	Mini-batch’ler	Küçük–orta model; tüm model tek GPU’ya sığıyor
Tensor Paralelliği	Megatron-LM	Matris çarpımları	Model GPU’ya sığmıyor; aynı node içinde
Pipeline Paralelliği	GPipe, Megatron-LM	Model katmanları	Çok-node; farklı node’lar farklı katmanları çalıştırır
Uzman Paralelliği (MoE)	DeepSpeed, Mixtral	Uzman blokları	MoE mimarileri

Büyük modeller için bu stratejiler birleştirilerek 3D parallelism elde edilir. Örneğin 8-node × 8-GPU yapılandırmasında aynı anda veri, tensor ve pipeline paralelliği uygulanabilir. Bu bileşim, node’lar arası iletişimi kritik hale getirir.

LLM Eğitiminde Kullanılan Yazılım ve Araçlar

Eğitim Çerçeveleri

PyTorch FSDP (Fully Sharded Data Parallel): Model parametrelerini, gradyanları ve optimizer durumunu GPU’lar arasında parçalara bölerek bellek baskısını düşürür. LLaMA, Mistral ve benzeri modellerin açık kaynak eğitim betiklerinde endüstri standardı haline gelmiştir.
Megatron-LM: NVIDIA’nın geliştirdiği yüksek verimli LLM eğitim çerçevesi. Tensor ve pipeline paralelliğini doğrudan kernel düzeyinde optimize eder; GPT-3, Falcon ve benzeri büyük modeller bu araçla eğitilmiştir.
DeepSpeed: Microsoft’un ZeRO (Zero Redundancy Optimizer) teknolojisi, GPU başına bellek kullanımını dramatik biçimde azaltır. Ayrıca mixed precision, gradient checkpointing ve CPU offloading desteği sunar.
NeMo: NVIDIA’nın end-to-end LLM geliştirme çerçevesi; Megatron-LM üzerine inşa edilmiş, konuşma ve dil modeli eğitimi için entegre araçlar içerir.

Fine-Tuning ve Adaptasyon Araçları

Hugging Face Transformers + PEFT: LoRA, QLoRA ve AdaLoRA yöntemleriyle önceden eğitilmiş modelin yalnızca küçük bir parametre kümesini güncelleyerek domain-specific fine-tuning
LLaMA-Factory: Çok sayıda açık modeli destekleyen modüler fine-tuning çerçevesi; SLURM entegrasyonuyla büyük iş sıralarına dahil edilebilir
Axolotl: Topluluğa ait popüler fine-tuning sarmalayıcı; veri pipeline’ı ve eğitim konfigürasyonunu tek config dosyasında birleştirir
vLLM / TGI (Text Generation Inference): Eğitim sonrası çıkarım (inference) aşamasında yüksek verimli servis; PagedAttention ile bellek kullanımını optimize eder

Veri Pipeline’ı

Apache Spark / Dask: Ham metin korpuslarının temizlenmesi, tekilleştirilmesi ve filtrelenmesi
The Stack, ROOTS, RedPajama: Açık eğitim veri setleri; Türkçe içerik için ek temizleme adımları gerektirir
Tokenizer eğitimi: SentencePiece, Tiktoken; Türkçe morfolojisine uygun vocabulary için 64K–128K token vocabulary önerilir
WebDataset / MosaicML Streaming: Büyük veri setlerini paralel dosya sisteminden verimli şekilde okumak için şardlanmış format

Donanım Gereksinimleri

LLM eğitimi GPU odaklı bir iş yüküdür; ancak GPU seçiminin yanı sıra interconnect ve depolama hiyerarşisi doğrudan ölçekleme verimliliğini belirler.

GPU Seçimi

NVIDIA H100 SXM5, LLM eğitiminde mevcut neslin referans GPU’sudur:

80 GB HBM3 bellek
3.35 TB/s bellek bant genişliği
NVLink 4.0: 900 GB/s node içi GPU-GPU bant genişliği
bf16 tensor core performansı: 989 TFLOPS

NVIDIA A100 SXM4 maliyet-etkinlik açısından hâlâ güçlü bir alternatiftir; fine-tuning ve 7–13B ölçeğindeki eğitimler için yeterlidir.

InfiniBand: Node’lar Arası Kritik Hat

LLM eğitiminde GPU’lar arası gradient senkronizasyonu (AllReduce, AllGather) iletişim yükünün büyük bölümünü oluşturur. Ethernet ağ üzerinde bu operasyonlar darboğaz yaratır; InfiniBand zorunludur.

Interconnect	Bant Genişliği	Gecikme	LLM Eğitimi Etkisi
25 GbE	~3 GB/s	~50 µs	Ciddi darboğaz; GPU bekleme süresi artar
100 GbE	~12 GB/s	~15 µs	Küçük modeller için sınırda yeterli
InfiniBand HDR (200G)	~25 GB/s	~1 µs	Orta ölçek için yeterli
InfiniBand NDR (400G)	~50 GB/s	<1 µs	Büyük model eğitimi için önerilen

NCCL (NVIDIA Collective Communications Library), InfiniBand RDMA üzerinde çalışarak CPU’yu devre dışı bırakır ve GPU-GPU mesajlaşmasında teorik bant genişliğine yakın performans elde eder.

Tipik LLM Eğitim Cluster Yapılandırması

Head Node (2×, yüksek erişilebilirlik)
├── GPU Compute Nodes (N adet)
│   └── 2× AMD EPYC 9654 (veya Intel Xeon 8480+)
│       8× NVIDIA H100 SXM5 (80 GB)
│       NVSwitch (node içi GPU fabric)
│       512–768 GB DDR5 sistem belleği
│       InfiniBand NDR 400G (2 port, node başı)
├── Depolama
│   ├── Scratch (BeeGFS / Lustre, NVMe, 10+ GB/s okuma)
│   │   └── Checkpoint, aktivasyon, veri shard'ları
│   └── Arşiv (Paralel HDD veya nesne deposu)
│       └── Ham korpus, tokenize edilmiş veri seti
└── Ağ
    ├── InfiniBand NDR fat-tree topoloji (compute)
    └── 25 GbE yönetim ağı (out-of-band)

Boyutlandırma rehberi:

Model Boyutu	Minimum GPU	Önerilen GPU	Yaklaşık Eğitim Süresi*
1–3B parametre	4× H100	8× H100	2–5 gün
7B parametre	8× H100	16× H100	5–14 gün
13B parametre	16× H100	32× H100	14–30 gün
70B parametre	64× H100	128× H100	30–90 gün
405B+ parametre	512× H100	1.024× H100	Ölçeğe bağlı

*100B token eğitim veri seti, bf16 hassasiyet, 3D parallelism varsayımıyla tahmini değerler.

Depolama ve Veri Yönetimi

LLM eğitiminin I/O profili diğer HPC iş yüklerinden farklıdır:

Okuma ağırlıklı, yüksek sıralı bant genişliği: Tokenize edilmiş veri setlerinin GPU’lara sürekli beslenmesi gerekir; yavaş depolama eğitimi duraksatır (data stall)
Checkpoint yazma: Büyük modellerde checkpoint tek başına 100–500 GB boyutunda olabilir; sık checkpoint için yüksek yazma hızı zorunlu
Paralel dosya sistemi: BeeGFS veya Lustre, birden fazla GPU node’unun aynı anda aynı veri setine ulaşmasını sağlar

Önerilen depolama mimarisi:

Sıcak katman: NVMe-tabanlı BeeGFS, düğüm başı 2–4 GB/s toplam okuma; eğitim sırasında aktif veri setleri
Soğuk katman: HDD-tabanlı kapasite deposu; ham korpus arşivi ve eski checkpoint’ler
Yerel NVMe (opsiyonel): Her GPU node’unda yerel NVMe önbellek; küçük shard boyutlarında ağ yükünü azaltır

İş Yükü Yönetimi: SLURM ve PyTorch DDP/FSDP Entegrasyonu

SLURM, çok-node LLM eğitimi için de endüstri standardıdır. Tek bir iş gönderimiyle N node × 8 GPU kaynak talep edilir; PyTorch ya da Megatron-LM, SLURM’ün sağladığı SLURM_NODELIST ve SLURM_PROCID değişkenlerini okuyarak dağıtık eğitimi başlatır.

#!/bin/bash
#SBATCH --job-name=llm-pretrain
#SBATCH --nodes=4
#SBATCH --ntasks-per-node=8
#SBATCH --gres=gpu:8
#SBATCH --partition=h100
#SBATCH --time=72:00:00

module load cuda/12.4 nccl/2.21 openmpi/5.0

srun torchrun \
  --nnodes=$SLURM_NNODES \
  --nproc_per_node=8 \
  --rdzv_id=$SLURM_JOB_ID \
  --rdzv_backend=c10d \
  --rdzv_endpoint=$SLURM_NODELIST \
  train_fsdp.py \
    --model_name_or_path meta-llama/Llama-3-8B \
    --dataset_path /scratch/datasets/tokenized \
    --output_dir /scratch/checkpoints/$SLURM_JOB_ID

SLURM’ün job array özelliği, hiperparametre arama ve fine-tuning denemeleri için idealdir: onlarca fine-tuning işi tek komutla sıraya alınabilir.

Veri Güvenliği, KVKK Uyumu ve Türkiye Lokasyonu

Kurumsal LLM eğitimi çalışmalarında veri güvenliği kritik bir boyut taşır:

Eğitim verisi sahipliği: Şirket içi belgeler, müşteri yazışmaları, sözleşmeler veya kişisel veriler içeren veri setleri yurt dışı bulut altyapısına taşındığında KVKK kapsamında veri aktarımı sorunu doğar.
Model ağırlıkları mülkiyeti: Kendi altyapınızda eğitilen modelin ağırlıkları yalnızca sizin sunucularınızda bulunur; bulut sağlayıcı çıktı verilerini işleyemez.
Sektörel kısıtlamalar: Finans, sağlık ve kamu kurumları için özel model eğitiminde düzenleyici kurumlar on-premise çözümü zorunlu kılabilir.

Mevasis altyapısı Türkiye’de konumlanmış veri merkezlerinde işletilmektedir. KVKK uyumu ve veri egemenliği gereksinimi olan kurumlar için yerli lokasyonlu GPU cluster’ı, bulut alternatifleri karşısında doğrudan bir avantaj sunar.

Mevasis LLM Altyapısı Hizmetleri

Mevasis, LLM eğitimi ve fine-tuning projelerinde ekibinize şu konularda destek sağlar:

GPU Cluster Tasarımı ve Kurulumu: H100 SXM5 node’ları, InfiniBand NDR fabric, BeeGFS depolama ve SLURM iş yöneticisini kapsayan anahtar teslim HPC sistemi
GPU Cluster Kiralama: Kısa süreli pre-training veya fine-tuning projeleri için node × GPU × süre bazında kiralama; satın alma yatırımı gerekmez
Yazılım Yapılandırması ve Optimizasyon: PyTorch FSDP, Megatron-LM, DeepSpeed kurulumu; NCCL ve InfiniBand parametre ayarı; eğitim verimliliği profilleme
Yönetilen HPC Hizmeti: Altyapı yönetimini Mevasis üstlenir; ekibiniz model geliştirmeye odaklanır
Performans İzleme: GPU kullanım oranı, MFU (Model FLOP Utilization), iletişim/hesaplama oranı gibi LLM eğitimine özgü metriklerin sürekli izlenmesi

Projenizin ölçeği, veri güvenliği gereksinimleri ve bütçe kısıtları için doğru mimariyi birlikte belirliyoruz. Bizimle iletişime geçin →

Sıkça Sorulan Sorular

Fine-tuning için kaç GPU yeterlidir? 7B parametreli bir modelin QLoRA fine-tuning’i tek bir H100 veya A100 üzerinde mümkündür. Tam parametre fine-tuning veya daha büyük modeller için 4–8 GPU önerilir. Pre-training için ise model boyutuna bağlı olarak 16 ila 512+ GPU gerekebilir.

Megatron-LM mi PyTorch FSDP mi tercih edilmeli? Megatron-LM, tensor ve pipeline paralelliğini düşük seviyede optimize ettiği için büyük model (70B+) pre-training’de daha yüksek GPU kullanım oranı sağlar. FSDP ise kurulumu daha kolay olan ve küçük–orta model fine-tuning’i için pratik bir seçenektir. Çoğu büyük ölçek projesi ikisini birleştirir.

InfiniBand olmadan LLM eğitimi yapılabilir mi? Küçük ölçeklerde (tek node, 8 GPU) NVLink bağlantısıyla yüksek verim sağlanabilir. Çok-node eğitimde Ethernet kullanımı GPU bekleme süresini artırarak MFU’yu %20–40 düşürebilir. 70B+ modellerde InfiniBand pratik olarak zorunludur.

Eğitim sırasında checkpoint stratejisi nasıl olmalı? Donanım hatalarına karşı her 500–1.000 adımda bir checkpoint önerilir. Flash checkpoint yöntemleriyle (model belleğini doğrudan NVMe’ye yazma) süre 10× kısaltılabilir. BeeGFS üzerinde paralel checkpoint yazımı büyük modeller için zorunludur.

Türkiye’de açık kaynak LLM eğitimi için lisans kısıtları var mı? LLaMA 3, Mistral ve Qwen gibi modellerin lisansları ticari kullanıma izin verir; ancak her modelin lisans belgesinin ayrıca incelenmesi gerekir. Özel eğitim verisinde telif hakkı ve KVKK uyumunun hukuki değerlendirmesi tavsiye edilir.