/ Blog

HPC Soğutma Sistemleri: Hava ve Sıvı Soğutma Karşılaştırması

HPC veri merkezinde soğutma seçenekleri: hava soğutma, sıvı soğutma ve immersion cooling.

Modern yüksek performanslı hesaplama (HPC) sistemlerinde işlemci yoğunluğu ve güç tüketimi her geçen yıl artmaktadır. Bir hesaplama düğümü artık 500 W ile 1 kW arasında güç tüketebilirken, GPU hızlandırıcılar tek başına 700 W’ın üzerine çıkabilmektedir. Bu yoğun ısı üretimini kontrol altında tutmak, sistem kararlılığını, bileşen ömrünü ve enerji verimliliğini doğrudan etkiler. Bu yazıda HPC ortamlarında kullanılan başlıca soğutma yaklaşımlarını teknik açıdan değerlendiriyor, avantaj ve dezavantajlarını karşılaştırıyoruz.

Neden Soğutma Bu Kadar Kritik?

Bir HPC kümesinde ısı yönetimi yalnızca donanım güvenliği açısından değil, performans açısından da belirleyicidir. Modern işlemciler termal koruma mekanizması olarak termal kısıtlama (thermal throttling) uygular: çip sıcaklığı eşik değeri aştığında saat frekansı otomatik olarak düşer ve hesaplama kapasitesi azalır. Bu durum, özellikle yoğun paralel iş yüklerinde küme genelinde ciddi verim kayıplarına yol açar.

Tipik bir HPC rafında bileşen sıcaklık sınırları şu şekildedir:

BileşenGüvenli Çalışma SıcaklığıKritik Eşik
CPU (genel amaçlı)0°C – 80°C~95°C
GPU (NVIDIA H100)0°C – 83°C~90°C
NVMe SSD0°C – 70°C~75°C
DDR5 Bellek0°C – 85°C~95°C
Güç Kaynağı0°C – 50°C ortam~60°C ortam

Bu sınırların altında kalmak için veri merkezi tasarımcıları üç temel soğutma yönteminden birini veya bunların kombinasyonunu seçer: hava soğutma, sıvı soğutma ve immersion cooling.


Hava Soğutma (Air Cooling)

Hava soğutma, geleneksel ve en yaygın kullanılan yöntemdir. Soğuk hava, genellikle yükseltilmiş döşeme altından veya ön panel deliklerinden sunuculara girer; ısınan hava arka panelden dışarı atılır. Veri merkezi düzeyinde bu akış, sıcak koridor / soğuk koridor (hot aisle / cold aisle) mimarisiyle yönetilir.

Hava Soğutmanın Avantajları

  • Düşük kurulum maliyeti: Mevcut altyapıyla büyük ölçüde uyumludur, ek boru tesisatı gerektirmez.
  • Basit bakım: Fan değişimi, filtre temizliği gibi rutin işlemler uzmanlık gerektirmez.
  • Geniş donanım uyumluluğu: Neredeyse tüm ticari sunucu formfaktörleri hava soğutma için tasarlanmıştır.

Hava Soğutmanın Sınırları

Hava soğutmanın temel fiziksel kısıtı, havanın özgül ısı kapasitesinin düşük olmasıdır. Birim hacim başına taşınabilecek ısı miktarı sınırlıdır; bu da yüksek güç yoğunluklarında yeterli soğutma sağlamak için büyük hava hacimleri ve güçlü fanlar gerektirmesi anlamına gelir.

Raf başına güç yoğunluğu 15-20 kW’ı geçtiğinde hava soğutma ciddi biçimde yetersiz kalmaya başlar. Günümüz GPU tabanlı HPC sistemlerinde tek bir rafın 50-80 kW’a ulaşması mümkündür; bu değerler hava soğutmanın pratik sınırını çoktan aşar.


Sıvı Soğutma (Liquid Cooling)

Sıvı soğutma, su veya özel soğutma sıvılarının ısı aktarım aracı olarak kullanıldığı yöntemdir. Suyun özgül ısı kapasitesi havanın yaklaşık 3400 katıdır; bu fark, sıvı soğutmayı yoğun ısı kaynaklarını yönetmede çok daha etkili kılar.

Doğrudan Sıvı Soğutma (Direct Liquid Cooling — DLC)

DLC yaklaşımında soğutma sıvısı, bileşenlerin üzerindeki metal bloklara (cold plate) pompalanır. CPU, GPU ve hatta güç dönüştürücüler üzerine yerleştirilen bu bloklar, ısıyı doğrudan sıvıya aktarır. Sıvı daha sonra harici bir soğutma ünitesine (CDU — Coolant Distribution Unit) gönderilerek ısısı atılır ve sisteme geri döner.

Tipik bir DLC devresi şu şekilde çalışır:

CDU (Coolant Distribution Unit)
   │
   ├── Soğuk Su Girişi (20-25°C) ──► CPU Cold Plate ──► Geri Dönüş (35-40°C)
   │
   ├── Soğuk Su Girişi (20-25°C) ──► GPU Cold Plate ──► Geri Dönüş (40-50°C)
   │
   └── Geri Dönüş Toplayıcısı ──► Soğutma Kulesi / Kuru Soğutucu ──► CDU

Bu kapalı döngü, veri merkezi soğutma sisteminin (ikincil döngü) binadan gelen soğuk suyla (birincil döngü) ısı değiştirmesi üzerine kurulur. İki döngü birbirinden izole edildiği için donanıma deiyonize su ulaşır ve korozyon riski minimuma indirilir.

Arka Kapı Isı Değiştiricisi (Rear-Door Heat Exchanger — RDHx)

RDHx, sunucu rafının arka kapısına entegre edilmiş bir ısı değiştiricidir. Sunucuların fanlarıyla oluşturulan sıcak hava, arka kapıdan geçerken soğuk suyla ısısını değiştirir ve soğuk hava olarak veri merkezi ortamına verilir. Bu yaklaşım mevcut hava soğutmalı sunucularla kullanılabilir; doğrudan bileşen değişimi gerektirmez.

Sıvı Soğutmanın Avantajları

  • Raf başına 100 kW’ın üzerinde güç yoğunluklarını idare edebilir.
  • PUE (Power Usage Effectiveness) değerini önemli ölçüde iyileştirir; bazı tesislerde 1.1 veya altına inmek mümkündür.
  • Atık ısı geri kazanımına olanak tanır: CDU çıkış suyunun 40-60°C’ye ulaşması, bu ısının bina ısıtma sistemlerine aktarılmasını sağlar.

Sıvı Soğutmanın Zorlukları

  • Kurulum maliyeti hava soğutmaya kıyasla önemli ölçüde yüksektir.
  • Boru tesisatı, pompa sistemleri ve CDU’lar ek fiziksel altyapı gerektirir.
  • Sızıntı riski nedeniyle daha kapsamlı izleme ve bakım protokolleri gereklidir.

Immersion Cooling (Daldırmalı Soğutma)

Immersion cooling, sunucu bileşenlerinin elektrik iletkenliği olmayan özel dielektrik sıvıların içine tamamen daldırıldığı, en yüksek performanslı soğutma yöntemidir. İki temel alt kategorisi vardır:

Tek Fazlı Immersion Cooling (Single-Phase)

Dielektrik sıvı (genellikle sentetik ya da mineral yağı türevi) sıvı hâlinde kalır. Bileşenler bu sıvıya daldırılır, ısınan sıvı pompalarla çekilip bir ısı değiştiricide soğutularak sisteme geri verilir.

İki Fazlı Immersion Cooling (Two-Phase)

Bu yöntemde kullanılan dielektrik sıvı, bileşen yüzeyine temas ettiğinde kaynayarak buharlaşır (bu süreç ısıyı çok verimli şekilde alır), ardından kapaktaki bir kondansatörde yoğuşarak tekrar sıvı hâle döner ve aşağı damlalar. Bu doğal çevrim, pompa gerektirmediğinden mekanik bileşen sayısını azaltır.

Immersion Cooling Karşılaştırması

ÖzellikTek Fazlıİki Fazlı
Soğutma kapasitesiYüksekÇok yüksek
PUE~1.03~1.02
Bileşen erişimiOrtaDaha karmaşık
Sıvı maliyetiOrtaYüksek
Donanım uyumluluğuGenişSınırlı
Olgunluk düzeyiİyiGelişmekte

Immersion cooling, özellikle AI eğitim kümeleri, kripto hesaplama ve aşırı yoğun HPC rafları için giderek daha fazla tercih edilmektedir. Ancak donanım üreticisi desteği ve standartlaşma henüz olgunlaşma sürecindedir.


Hangi Soğutma Yöntemi Sizin İçin Doğru?

Soğutma yöntemi seçimi, birden fazla faktörün bütüncül değerlendirmesini gerektirir:

Güç yoğunluğu: Raf başına 15 kW altında hava soğutma yeterliyken, 15-50 kW aralığında DLC veya RDHx tercih edilmeli, 50 kW üzerinde ise immersion cooling değerlendirilmelidir.

Mevcut altyapı: Yeni bir tesis tasarlıyorsanız baştan sıvı soğutmayı entegre etmek daha verimlidir. Mevcut bir veri merkezini yükseltiyorsanız geçiş maliyetleri ve altyapı kısıtları belirleyici olacaktır.

İş yükü karakteristiği: Sürekli yüksek kullanım oranlarına sahip (örneğin yapay zeka eğitimi) iş yükleri, aralıklı pik yüklere sahip iş yüklerine kıyasla daha agresif soğutma çözümleri gerektirir.

Enerji maliyeti ve sürdürülebilirlik hedefleri: Hava soğutmalı bir veri merkezinin PUE değeri genellikle 1.4-1.6 civarındayken, optimize edilmiş sıvı soğutma çözümleri 1.1 veya altına inebilir. Bu fark, büyük ölçekli kümelerde yıllık milyonlarca kilowatt-saat enerji tasarrufuna dönüşebilir.


Pratik Değerlendirme: İzleme ve Ölçüm

Soğutma sisteminin etkinliğini değerlendirmek için aşağıdaki metriklerin düzenli olarak izlenmesi önerilir:

# Linux sisteminde CPU sıcaklıklarını anlık görüntüleme
sensors | grep -E "Core|Package"

# NVIDIA GPU sıcaklık izleme (nvidia-smi)
nvidia-smi --query-gpu=index,name,temperature.gpu,power.draw \
  --format=csv,noheader,nounits

# IPMI üzerinden sunucu inlet/outlet sıcaklığı (ipmitool)
ipmitool sdr type Temperature

Uzun vadeli izleme için Prometheus + Grafana gibi bir gözlemlenebilirlik yığını, sıcaklık trendlerini, soğutma anomalilerini ve güç tüketimi korelasyonlarını görselleştirmenizi sağlar.


Sonuç

HPC soğutma sistemleri, hesaplama altyapısının performansını, güvenilirliğini ve işletme maliyetini doğrudan belirler. Hava soğutma, orta yoğunluklu sistemler için hâlâ geçerliliğini korurken; sıvı soğutma ve immersion cooling, yüksek yoğunluklu GPU kümelerinde ve yapay zeka iş yüklerinde giderek zorunlu bir tercih hâline gelmektedir.

Doğru soğutma mimarisini belirlemek, hem fiziksel tesis planlamasını hem de yazılım düzeyinde izleme altyapısını birlikte ele alan bütüncül bir yaklaşım gerektirir.

Mevasis olarak HPC soğutma mimarisi ve veri merkezi tasarımı konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.