GPU Seçim Rehberi: H100 mu, A100 mu, L40S mi?

Yapay zeka ve yüksek başarımlı hesaplama (HPC) projelerinde doğru GPU seçimi, hem performans hem de maliyet açısından belirleyici bir karar. NVIDIA’nın mevcut kurumsal GPU ailesinde öne çıkan üç model — H100, A100 ve L40S — birbirinden farklı mimariler, bellek bantgenişlikleri ve kullanım senaryoları sunar. Bu rehberde her modeli teknik detaylarıyla inceleyecek ve hangi iş yükü için hangisinin uygun olduğunu tartışacağız.

Temel Mimari Farklılıklar

H100: Hopper Mimarisi

NVIDIA H100, 2022 yılında duyurulan Hopper mimarisine dayanır. En önemli yenilik, Transformer Engine’dir; bu yapı, FP8 hassasiyetini destekleyerek büyük dil modellerinin (LLM) eğitiminde A100’e kıyasla 3 kata kadar daha yüksek verim sağlar. H100, hem SXM5 (yüksek bant genişlikli NVLink bağlantısı ile) hem de PCIe formunda sunulur.

Öne çıkan teknik özellikler:

80 GB HBM3 bellek (SXM5 varyantında)
3,35 TB/s bellek bantgenişliği
FP8 Tensor Core desteği
NVLink 4.0 ile GPU’lar arası 900 GB/s toplam çift yönlü bant genişliği
Güvenli çok kiracılı çalışma (MIG) desteği: tek fiziksel GPU’yu 7 bağımsız GPU örneğine bölme

A100: Ampere Mimarisi

A100, 2020 yılında piyasaya sürülen Ampere mimarisini kullanır. Bugün hâlâ pek çok üretim ortamında aktif biçimde kullanılmaktadır. BF16 ve TF32 hassasiyetlerinde güçlü performans sunar; FP8 desteği yoktur ancak FP16 ile oldukça rekabetçi sonuçlar üretir.

Öne çıkan teknik özellikler:

80 GB HBM2e bellek (40 GB varyantı da mevcuttur)
2,0 TB/s bellek bantgenişliği
NVLink 3.0 ile 600 GB/s toplam çift yönlü bant genişliği
MIG desteği: en fazla 7 örnek
PCIe 4.0 desteği

L40S: Ada Lovelace Mimarisi

L40S, oyun ve profesyonel görsel işleme GPU’larıyla paylaşılan Ada Lovelace mimarisini esas alır; ancak HPC ve AI iş yükleri için optimize edilmiştir. Veri merkezlerinde GDDR6X yerine GDDR6 bellek kullanır ve özellikle çıkarım (inference) ile grafik render iş yüklerinde güçlü bir alternatif sunar.

Öne çıkan teknik özellikler:

48 GB GDDR6 bellek
864 GB/s bellek bantgenişliği
FP8 Tensor Core desteği
PCIe 4.0 bağlantısı (SXM seçeneği yok)
NVLink desteği yok

Performans Karşılaştırması

Aşağıdaki tablo, üç modelin temel ölçütleri üzerinden karşılaştırmasını özetlemektedir:

Özellik	H100 SXM5	A100 SXM4	L40S PCIe
Bellek	80 GB HBM3	80 GB HBM2e	48 GB GDDR6
Bellek Bantgenişliği	3,35 TB/s	2,0 TB/s	864 GB/s
FP16 Tensor (TFLOPS)	~1.979	~312	~733
FP8 Tensor (TFLOPS)	~3.958	Yok	~1.457
TDP (W)	700	400	350
NVLink	Evet (4.0)	Evet (3.0)	Hayır
MIG Desteği	Evet (7 örnek)	Evet (7 örnek)	Hayır
Form Faktörü	SXM5 / PCIe	SXM4 / PCIe	PCIe

Not: TFLOPS değerleri spesifik yapılandırma ve sürücü sürümüne göre farklılık gösterebilir. Üretici verileri referans alınmıştır.

Hangi İş Yükü için Hangi GPU?

Büyük Dil Modeli Eğitimi (LLM Pre-training)

GPT, LLaMA veya benzeri büyük modellerin sıfırdan eğitimi için H100 SXM5 en uygun seçimdir. Sebepler şunlardır:

FP8 hassasiyeti, model ağırlıklarını daha küçük tutarak aynı belleğe daha fazla parametre sığdırır.
NVLink 4.0, çok-GPU konfigürasyonlarında tensor paralelliği sırasında düşük gecikme ve yüksek bant genişliği sağlar.
HBM3’ün yüksek bantgenişliği, dikkat (attention) katmanlarında bellek darboğazını azaltır.

Örnek: 70 milyar parametreli bir modeli BF16 ile eğitirken yaklaşık 140 GB GPU belleğine ihtiyaç duyulur. Bu, en az 2 adet H100-80GB ya da 4 adet A100-40GB gerektirir. Eğer NVLink erişilebilir değilse A100 PCIe ile A100 SXM4 arasındaki performans farkı önemli ölçüde büyüyebilir.

Fine-tuning ve Transfer Öğrenimi

Önceden eğitilmiş modellerin belirli görevler için ince ayarı (fine-tuning) daha az bellek gerektirir ve genellikle daha kısa sürer. Bu senaryoda A100 80GB veya H100 PCIe makul seçeneklerdir.

LoRA veya QLoRA gibi parametre-verimli yöntemler kullanılıyorsa, 7B-13B boyutundaki modeller tek bir A100-40GB üzerinde fine-tune edilebilir. Bu, maliyet açısından H100’e göre avantaj sunar.

# HuggingFace PEFT ile QLoRA fine-tuning örneği
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model
import torch

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-13b-hf",
    quantization_config=bnb_config,
    device_map="auto",  # A100-40GB üzerinde çalışır
)

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# Örnek çıktı: trainable params: 13,631,488 || all params: 13,049,770,496 || trainable%: 0.10

Çıkarım (Inference) Servisleri

Üretim ortamında model servis etme gereksinimlerinde değerlendirme farklılaşır. Gecikme (latency) mi, yoksa verim (throughput) mi öncelikli?

Düşük gecikme, yüksek eşzamanlılık: H100 veya A100, büyük modellerde (30B+) tercih edilir. Bellek bantgenişliği, token üretim hızını doğrudan belirler.
Orta ölçekli modeller, maliyet odaklı: L40S bu segmentte öne çıkar. 48 GB bellek, 7B-30B arası modeller için yeterlidir; düşük TDP (350W) sayesinde yoğun sunucu raflarında soğutma baskısı azalır.
Toplu çıkarım (batch inference): Yüksek batch boyutlarında A100 80GB ile H100 arasındaki fark küçülür ve A100, daha uygun bir maliyet profili sunar.

Bilimsel ve HPC İş Yükleri

Moleküler dinamik simülasyonları, hesaplamalı akışkanlar dinamiği (CFD) veya Monte Carlo yöntemleri gibi geleneksel HPC uygulamaları için FP64 (çift duyarlıklı) performans kritik öneme sahiptir.

Bu alanda H100 ve A100 belirgin biçimde öne çıkar; her iki model de tam FP64 desteği sunar. L40S ise oyun kökenli Ada mimarisinden geldiği için FP64 çekirdeğe sahip değildir ve bu tür iş yüklerinde ciddi biçimde geride kalır.

Çok-GPU Sistemlerde Dikkat Edilmesi Gerekenler

Birden fazla GPU kullanan sistemlerde GPU’lar arası iletişim altyapısı büyük önem taşır.

NVLink ile NVSwitch: H100 ve A100 SXM formları, NVSwitch tabanlı DGX/HGX sistemlerinde tüm GPU’lar arasında tam bant genişliği sağlar. 8 adet H100 SXM5 içeren bir DGX H100, GPU’lar arası 900 GB/s çift yönlü bant genişliği sunar.

PCIe tabanlı sistemler: Hem A100 PCIe hem de L40S, GPU’lar arası veri transferi için PCIe şeridini kullanır; bu bant genişliği NVLink’e kıyasla 5-10 kat dardır. Tensor paralelliği yoğun iş yüklerinde bu durum ciddi bir darboğaz oluşturabilir.

L40S PCIe kullanıyorsanız, iş yükünüzü veri paralelliği (data parallelism) ile ölçeklendirin; tensor ya da pipeline paralelliği gerektiren büyük model eğitiminden kaçının.

Lisans ve Maliyet Değerlendirmesi

Teknik performansın yanı sıra toplam sahip olma maliyeti (TCO) de göz önünde bulundurulmalıdır.

H100, piyasada en yüksek birim maliyetine sahip modeldir. Bununla birlikte, aynı görev için H100 ile gereken GPU sayısı A100’e göre azalıyorsa, sunucu lisansı, güç tüketimi ve soğutma maliyetleri açısından H100 daha avantajlı olabilir.

L40S, A100’e kıyasla genellikle daha uygun fiyatlıdır ve PCIe tabanlı standart sunuculara kolayca entegre edilebilir. Özellikle küçük ve orta ölçekli çıkarım iş yüklerinde ve görsel işleme gerektiren uygulamalarda (3D render, video işleme) güçlü bir seçimdir.

Karar Ağacı

Aşağıdaki sorular seçiminizi yönlendirmeye yardımcı olabilir:

FP64 gerektiren HPC iş yükleri (CFD, MD simülasyonu) mi? H100 veya A100 SXM.
70B+ parametreli LLM eğitimi mi? H100 SXM5, mümkünse NVSwitch altyapısıyla.
Fine-tuning veya orta ölçekli eğitim mi? A100 80GB veya H100 PCIe.
Üretim çıkarımı, 30B altı modeller, maliyet odaklı mı? L40S PCIe.
Toplu çıkarım, yüksek verim öncelikli mi? A100 80GB, mevcut kullanılabilirlik ve maliyet avantajıyla hâlâ geçerli.

Sonuç

H100, A100 ve L40S arasındaki seçim tek bir “doğru cevap"a sahip değildir. H100, büyük model eğitimi ve en yüksek performansın talep edildiği senaryolarda açık ara öne çıkar. A100, geniş ekosistem desteği ve kanıtlanmış altyapısıyla üretim ortamlarında güvenilir bir seçenek olmayı sürdürür. L40S ise orta ölçekli çıkarım ve görsel işleme iş yüklerinde maliyet-performans dengesi arayan ekipler için değerli bir alternatiftir.

Doğru GPU seçimi, iş yükünüzün hassasiyeti, model boyutu, ölçeklendirme stratejiniz ve bütçeniz göz önünde bulundurularak yapılmalıdır. Gerektiğinde küçük ölçekli kıyaslama (benchmarking) testleri, soyut karşılaştırmalardan çok daha güvenilir veri sağlar.

Mevasis olarak GPU seçimi ve HPC altyapısı kurulumu konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.