
Büyük Dil Modeli (LLM) Eğitimi HPC Altyapısı
GPT, LLaMA ve özel LLM eğitimi için çok-node GPU cluster ve yüksek hızlı interconnect.
Büyük dil modellerinin (LLM) eğitimi, günümüzün en hesaplama yoğun yapay zeka iş yüklerinden birini oluşturuyor. GPT benzeri mimarilerin milyarlarca parametreye ulaştığı bu alanda, tek GPU üzerinde haftalarca sürecek bir eğitim, doğru HPC altyapısıyla saatlere indirilebilir. Ancak bunun için GPU sayısını artırmak yetmez: çok-node eğitimin verimli çalışması düşük gecikmeli interconnect, paralel dosya sistemi ve yazılım katmanlarının bütünsel tasarımını zorunlu kılar.
LLM Eğitiminin Hesaplama Yükü
Modern LLM eğitimi üç temel boyuttaki baskıyla başa çıkmak zorundadır: işlem kapasitesi (TFLOPS), GPU belleği ve node’lar arası bant genişliği.
7 milyar parametreli bir modelin bf16 hassasiyetinde tam eğitimi için yaklaşık 1.4 TB GPU belleği gerekir — tek bir NVIDIA H100 SXM5’in 80 GB kapasitesi bununla baş etmez. 70 milyar parametre ölçeğine çıkıldığında ise 500+ GPU gerektiren dağıtık eğitim kaçınılmaz hale gelir. Bu tablo, LLM iş yüklerini HPC cluster’larının doğal alanına taşır.
Paralellik Stratejileri
Dağıtık LLM eğitiminde üç temel paralellik boyutu kullanılır:
| Strateji | Araç | Ne Bölünür | Ne Zaman Kullanılır |
|---|---|---|---|
| Veri Paralelliği | PyTorch DDP, FSDP | Mini-batch’ler | Küçük–orta model; tüm model tek GPU’ya sığıyor |
| Tensor Paralelliği | Megatron-LM | Matris çarpımları | Model GPU’ya sığmıyor; aynı node içinde |
| Pipeline Paralelliği | GPipe, Megatron-LM | Model katmanları | Çok-node; farklı node’lar farklı katmanları çalıştırır |
| Uzman Paralelliği (MoE) | DeepSpeed, Mixtral | Uzman blokları | MoE mimarileri |
Büyük modeller için bu stratejiler birleştirilerek 3D parallelism elde edilir. Örneğin 8-node × 8-GPU yapılandırmasında aynı anda veri, tensor ve pipeline paralelliği uygulanabilir. Bu bileşim, node’lar arası iletişimi kritik hale getirir.
LLM Eğitiminde Kullanılan Yazılım ve Araçlar
Eğitim Çerçeveleri
- PyTorch FSDP (Fully Sharded Data Parallel): Model parametrelerini, gradyanları ve optimizer durumunu GPU’lar arasında parçalara bölerek bellek baskısını düşürür. LLaMA, Mistral ve benzeri modellerin açık kaynak eğitim betiklerinde endüstri standardı haline gelmiştir.
- Megatron-LM: NVIDIA’nın geliştirdiği yüksek verimli LLM eğitim çerçevesi. Tensor ve pipeline paralelliğini doğrudan kernel düzeyinde optimize eder; GPT-3, Falcon ve benzeri büyük modeller bu araçla eğitilmiştir.
- DeepSpeed: Microsoft’un ZeRO (Zero Redundancy Optimizer) teknolojisi, GPU başına bellek kullanımını dramatik biçimde azaltır. Ayrıca mixed precision, gradient checkpointing ve CPU offloading desteği sunar.
- NeMo: NVIDIA’nın end-to-end LLM geliştirme çerçevesi; Megatron-LM üzerine inşa edilmiş, konuşma ve dil modeli eğitimi için entegre araçlar içerir.
Fine-Tuning ve Adaptasyon Araçları
- Hugging Face Transformers + PEFT: LoRA, QLoRA ve AdaLoRA yöntemleriyle önceden eğitilmiş modelin yalnızca küçük bir parametre kümesini güncelleyerek domain-specific fine-tuning
- LLaMA-Factory: Çok sayıda açık modeli destekleyen modüler fine-tuning çerçevesi; SLURM entegrasyonuyla büyük iş sıralarına dahil edilebilir
- Axolotl: Topluluğa ait popüler fine-tuning sarmalayıcı; veri pipeline’ı ve eğitim konfigürasyonunu tek config dosyasında birleştirir
- vLLM / TGI (Text Generation Inference): Eğitim sonrası çıkarım (inference) aşamasında yüksek verimli servis; PagedAttention ile bellek kullanımını optimize eder
Veri Pipeline’ı
- Apache Spark / Dask: Ham metin korpuslarının temizlenmesi, tekilleştirilmesi ve filtrelenmesi
- The Stack, ROOTS, RedPajama: Açık eğitim veri setleri; Türkçe içerik için ek temizleme adımları gerektirir
- Tokenizer eğitimi: SentencePiece, Tiktoken; Türkçe morfolojisine uygun vocabulary için 64K–128K token vocabulary önerilir
- WebDataset / MosaicML Streaming: Büyük veri setlerini paralel dosya sisteminden verimli şekilde okumak için şardlanmış format
Donanım Gereksinimleri
LLM eğitimi GPU odaklı bir iş yüküdür; ancak GPU seçiminin yanı sıra interconnect ve depolama hiyerarşisi doğrudan ölçekleme verimliliğini belirler.
GPU Seçimi
NVIDIA H100 SXM5, LLM eğitiminde mevcut neslin referans GPU’sudur:
- 80 GB HBM3 bellek
- 3.35 TB/s bellek bant genişliği
- NVLink 4.0: 900 GB/s node içi GPU-GPU bant genişliği
- bf16 tensor core performansı: 989 TFLOPS
NVIDIA A100 SXM4 maliyet-etkinlik açısından hâlâ güçlü bir alternatiftir; fine-tuning ve 7–13B ölçeğindeki eğitimler için yeterlidir.
InfiniBand: Node’lar Arası Kritik Hat
LLM eğitiminde GPU’lar arası gradient senkronizasyonu (AllReduce, AllGather) iletişim yükünün büyük bölümünü oluşturur. Ethernet ağ üzerinde bu operasyonlar darboğaz yaratır; InfiniBand zorunludur.
| Interconnect | Bant Genişliği | Gecikme | LLM Eğitimi Etkisi |
|---|---|---|---|
| 25 GbE | ~3 GB/s | ~50 µs | Ciddi darboğaz; GPU bekleme süresi artar |
| 100 GbE | ~12 GB/s | ~15 µs | Küçük modeller için sınırda yeterli |
| InfiniBand HDR (200G) | ~25 GB/s | ~1 µs | Orta ölçek için yeterli |
| InfiniBand NDR (400G) | ~50 GB/s | <1 µs | Büyük model eğitimi için önerilen |
NCCL (NVIDIA Collective Communications Library), InfiniBand RDMA üzerinde çalışarak CPU’yu devre dışı bırakır ve GPU-GPU mesajlaşmasında teorik bant genişliğine yakın performans elde eder.
Tipik LLM Eğitim Cluster Yapılandırması
Head Node (2×, yüksek erişilebilirlik)
├── GPU Compute Nodes (N adet)
│ └── 2× AMD EPYC 9654 (veya Intel Xeon 8480+)
│ 8× NVIDIA H100 SXM5 (80 GB)
│ NVSwitch (node içi GPU fabric)
│ 512–768 GB DDR5 sistem belleği
│ InfiniBand NDR 400G (2 port, node başı)
├── Depolama
│ ├── Scratch (BeeGFS / Lustre, NVMe, 10+ GB/s okuma)
│ │ └── Checkpoint, aktivasyon, veri shard'ları
│ └── Arşiv (Paralel HDD veya nesne deposu)
│ └── Ham korpus, tokenize edilmiş veri seti
└── Ağ
├── InfiniBand NDR fat-tree topoloji (compute)
└── 25 GbE yönetim ağı (out-of-band)
Boyutlandırma rehberi:
| Model Boyutu | Minimum GPU | Önerilen GPU | Yaklaşık Eğitim Süresi* |
|---|---|---|---|
| 1–3B parametre | 4× H100 | 8× H100 | 2–5 gün |
| 7B parametre | 8× H100 | 16× H100 | 5–14 gün |
| 13B parametre | 16× H100 | 32× H100 | 14–30 gün |
| 70B parametre | 64× H100 | 128× H100 | 30–90 gün |
| 405B+ parametre | 512× H100 | 1.024× H100 | Ölçeğe bağlı |
*100B token eğitim veri seti, bf16 hassasiyet, 3D parallelism varsayımıyla tahmini değerler.
Depolama ve Veri Yönetimi
LLM eğitiminin I/O profili diğer HPC iş yüklerinden farklıdır:
- Okuma ağırlıklı, yüksek sıralı bant genişliği: Tokenize edilmiş veri setlerinin GPU’lara sürekli beslenmesi gerekir; yavaş depolama eğitimi duraksatır (data stall)
- Checkpoint yazma: Büyük modellerde checkpoint tek başına 100–500 GB boyutunda olabilir; sık checkpoint için yüksek yazma hızı zorunlu
- Paralel dosya sistemi: BeeGFS veya Lustre, birden fazla GPU node’unun aynı anda aynı veri setine ulaşmasını sağlar
Önerilen depolama mimarisi:
- Sıcak katman: NVMe-tabanlı BeeGFS, düğüm başı 2–4 GB/s toplam okuma; eğitim sırasında aktif veri setleri
- Soğuk katman: HDD-tabanlı kapasite deposu; ham korpus arşivi ve eski checkpoint’ler
- Yerel NVMe (opsiyonel): Her GPU node’unda yerel NVMe önbellek; küçük shard boyutlarında ağ yükünü azaltır
İş Yükü Yönetimi: SLURM ve PyTorch DDP/FSDP Entegrasyonu
SLURM, çok-node LLM eğitimi için de endüstri standardıdır. Tek bir iş gönderimiyle N node × 8 GPU kaynak talep edilir; PyTorch ya da Megatron-LM, SLURM’ün sağladığı SLURM_NODELIST ve SLURM_PROCID değişkenlerini okuyarak dağıtık eğitimi başlatır.
#!/bin/bash
#SBATCH --job-name=llm-pretrain
#SBATCH --nodes=4
#SBATCH --ntasks-per-node=8
#SBATCH --gres=gpu:8
#SBATCH --partition=h100
#SBATCH --time=72:00:00
module load cuda/12.4 nccl/2.21 openmpi/5.0
srun torchrun \
--nnodes=$SLURM_NNODES \
--nproc_per_node=8 \
--rdzv_id=$SLURM_JOB_ID \
--rdzv_backend=c10d \
--rdzv_endpoint=$SLURM_NODELIST \
train_fsdp.py \
--model_name_or_path meta-llama/Llama-3-8B \
--dataset_path /scratch/datasets/tokenized \
--output_dir /scratch/checkpoints/$SLURM_JOB_ID
SLURM’ün job array özelliği, hiperparametre arama ve fine-tuning denemeleri için idealdir: onlarca fine-tuning işi tek komutla sıraya alınabilir.
Veri Güvenliği, KVKK Uyumu ve Türkiye Lokasyonu
Kurumsal LLM eğitimi çalışmalarında veri güvenliği kritik bir boyut taşır:
- Eğitim verisi sahipliği: Şirket içi belgeler, müşteri yazışmaları, sözleşmeler veya kişisel veriler içeren veri setleri yurt dışı bulut altyapısına taşındığında KVKK kapsamında veri aktarımı sorunu doğar.
- Model ağırlıkları mülkiyeti: Kendi altyapınızda eğitilen modelin ağırlıkları yalnızca sizin sunucularınızda bulunur; bulut sağlayıcı çıktı verilerini işleyemez.
- Sektörel kısıtlamalar: Finans, sağlık ve kamu kurumları için özel model eğitiminde düzenleyici kurumlar on-premise çözümü zorunlu kılabilir.
Mevasis altyapısı Türkiye’de konumlanmış veri merkezlerinde işletilmektedir. KVKK uyumu ve veri egemenliği gereksinimi olan kurumlar için yerli lokasyonlu GPU cluster’ı, bulut alternatifleri karşısında doğrudan bir avantaj sunar.
Mevasis LLM Altyapısı Hizmetleri
Mevasis, LLM eğitimi ve fine-tuning projelerinde ekibinize şu konularda destek sağlar:
- GPU Cluster Tasarımı ve Kurulumu: H100 SXM5 node’ları, InfiniBand NDR fabric, BeeGFS depolama ve SLURM iş yöneticisini kapsayan anahtar teslim HPC sistemi
- GPU Cluster Kiralama: Kısa süreli pre-training veya fine-tuning projeleri için node × GPU × süre bazında kiralama; satın alma yatırımı gerekmez
- Yazılım Yapılandırması ve Optimizasyon: PyTorch FSDP, Megatron-LM, DeepSpeed kurulumu; NCCL ve InfiniBand parametre ayarı; eğitim verimliliği profilleme
- Yönetilen HPC Hizmeti: Altyapı yönetimini Mevasis üstlenir; ekibiniz model geliştirmeye odaklanır
- Performans İzleme: GPU kullanım oranı, MFU (Model FLOP Utilization), iletişim/hesaplama oranı gibi LLM eğitimine özgü metriklerin sürekli izlenmesi
Projenizin ölçeği, veri güvenliği gereksinimleri ve bütçe kısıtları için doğru mimariyi birlikte belirliyoruz. Bizimle iletişime geçin →
Sıkça Sorulan Sorular
Fine-tuning için kaç GPU yeterlidir? 7B parametreli bir modelin QLoRA fine-tuning’i tek bir H100 veya A100 üzerinde mümkündür. Tam parametre fine-tuning veya daha büyük modeller için 4–8 GPU önerilir. Pre-training için ise model boyutuna bağlı olarak 16 ila 512+ GPU gerekebilir.
Megatron-LM mi PyTorch FSDP mi tercih edilmeli? Megatron-LM, tensor ve pipeline paralelliğini düşük seviyede optimize ettiği için büyük model (70B+) pre-training’de daha yüksek GPU kullanım oranı sağlar. FSDP ise kurulumu daha kolay olan ve küçük–orta model fine-tuning’i için pratik bir seçenektir. Çoğu büyük ölçek projesi ikisini birleştirir.
InfiniBand olmadan LLM eğitimi yapılabilir mi? Küçük ölçeklerde (tek node, 8 GPU) NVLink bağlantısıyla yüksek verim sağlanabilir. Çok-node eğitimde Ethernet kullanımı GPU bekleme süresini artırarak MFU’yu %20–40 düşürebilir. 70B+ modellerde InfiniBand pratik olarak zorunludur.
Eğitim sırasında checkpoint stratejisi nasıl olmalı? Donanım hatalarına karşı her 500–1.000 adımda bir checkpoint önerilir. Flash checkpoint yöntemleriyle (model belleğini doğrudan NVMe’ye yazma) süre 10× kısaltılabilir. BeeGFS üzerinde paralel checkpoint yazımı büyük modeller için zorunludur.
Türkiye’de açık kaynak LLM eğitimi için lisans kısıtları var mı? LLaMA 3, Mistral ve Qwen gibi modellerin lisansları ticari kullanıma izin verir; ancak her modelin lisans belgesinin ayrıca incelenmesi gerekir. Özel eğitim verisinde telif hakkı ve KVKK uyumunun hukuki değerlendirmesi tavsiye edilir.