HPC ve Enerji Verimliliği: Güç Tüketimi Optimizasyonu

Yüksek Başarımlı Hesaplama (HPC) sistemleri, modern bilimin ve mühendisliğin bel kemiğini oluşturuyor. İklim simülasyonlarından ilaç keşfine, yapay zeka eğitiminden sismik analize kadar pek çok kritik iş yükü bu sistemler üzerinde çalışıyor. Ancak bu gücün ciddi bir bedeli var: enerji tüketimi. Orta ölçekli bir HPC cluster bile yılda milyonlarca kilowatt-saat elektrik tüketebilir; bu da hem işletme maliyetlerini hem de çevresel ayak izini doğrudan etkiler.

Bu yazıda, HPC ortamlarında güç tüketimini azaltmak için kullanılan temel teknikleri — donanım düzeyindeki optimizasyonlardan iş zamanlayıcı (job scheduler) stratejilerine, soğutma verimliliğine kadar — pratik bir perspektiften ele alacağız.

Neden Enerji Verimliliği HPC için Kritik?

Geleneksel yaklaşımda HPC operatörleri performansı tek ölçüt olarak görürdü. Ancak enerji maliyetlerinin veri merkezi toplam sahip olma maliyetinin (TCO) yüzde kırkını aşabileceği günümüzde bu tutum sürdürülemez hale geldi.

Birkaç rakam konuyu somutlaştırıyor:

Bileşen	Tipik Güç Tüketimi
Çift soketli CPU düğümü (idle)	80–120 W
Çift soketli CPU düğümü (tam yük)	250–400 W
GPU hızlandırıcılı düğüm (tam yük)	800–1500 W
InfiniBand switch (48 port)	300–500 W
Soğutma (PUE 1,4 varsayımıyla)	Toplam IT yükünün %40’ı

500 düğümlük bir cluster için bu sayılar yıllık milyonlarca TL’lik elektrik faturasına dönüşebilir. Üstelik veri merkezleri için giderek sıkılaşan karbon emisyonu düzenlemeleri, enerji verimliliğini yasal bir zorunluluk haline getiriyor.

Donanım Düzeyinde Optimizasyon Teknikleri

DVFS: Dinamik Gerilim ve Frekans Ölçekleme

Dinamik Gerilim ve Frekans Ölçekleme (DVFS — Dynamic Voltage and Frequency Scaling), işlemcinin anlık iş yüküne göre çalışma frekansını ve besleme gerilimini ayarlamasına olanak tanır. Güç tüketimi yaklaşık olarak gerilimin karesiyle ve frekansla orantılı olduğundan, küçük bir frekans düşüşü bile belirgin güç tasarrufu sağlar.

Linux üzerinde CPU governor’larını yönetmek için cpupower aracı kullanılır:

# Tüm CPU'larda mevcut governor'ları listele
cpupower -c all frequency-info | grep "current policy"

# Enerji tasarrufu moduna geç (idle düğümler için)
cpupower -c all frequency-set -g powersave

# Yüksek performans moduna geç (aktif iş yükleri için)
cpupower -c all frequency-set -g performance

# Belirli bir frekans aralığı tanımla
cpupower -c all frequency-set -d 1.2GHz -u 2.4GHz

# Anlık frekans ve güç durumunu izle
watch -n 1 "cpupower -c all monitor -m Mperf"

NVIDIA GPU’larda benzer bir mekanizma için nvidia-smi kullanılır:

# GPU güç limitini düşür (varsayılanın %70'ine)
nvidia-smi -pl 250   # 350W'lık kart için 250W limiti

# Persistence mode aktif et (komutların kalıcı olması için)
nvidia-smi -pm 1

# Tüm GPU'ların anlık güç çekimini izle
nvidia-smi --query-gpu=index,power.draw,clocks.current.sm \
           --format=csv -l 2

Güç Yönetimini Workload’a Göre Otomatikleştirme

DVFS’i manuel yönetmek ölçeklenemez. Modern yaklaşım, düğümlerin durumuna göre governor’ları otomatik değiştiren betikler yazmaktır. Örneğin SLURM prolog/epilog mekanizması bu işi cluster genelinde yapabilir:

# /etc/slurm/prolog.d/10-set-performance-governor.sh
#!/bin/bash
# İş başlamadan önce tüm CPU'ları performance moduna al
cpupower -c all frequency-set -g performance
nvidia-smi -pm 1

# /etc/slurm/epilog.d/10-set-powersave-governor.sh
#!/bin/bash
# İş bittikten sonra powersave moduna dön
cpupower -c all frequency-set -g powersave
nvidia-smi -pl 150   # Düşük bekleme gücü

Job Scheduling ile Enerji Optimizasyonu

Enerji Farkındalıklı Zamanlama

İş zamanlayıcıyı enerji bilinciyle yapılandırmak, donanım ayarlamalarından bağımsız olarak önemli tasarruflar sağlar. SLURM’ün sunduğu birkaç strateji öne çıkar:

Düğüm birleştirme (node consolidation): Küçük işleri mümkün olduğunca az düğüme yoğunlaştırarak diğer düğümlerin uyku moduna geçmesini sağlar.

Güç kapama/açma (power capping): SLURM 21.08 ve sonrasında --power bayrağıyla iş başına güç sınırı tanımlanabilir:

# Maksimum 800W güç çeken bir iş gönder
sbatch --power=800 my_job.sh

# SLURM konfigürasyonunda cluster geneli güç bütçesi tanımla
# slurm.conf içinde:
# PowerParameters=job_ac_freq=30,cap_watts=500000

Backfill zamanlama ile enerji farkındalığı: Kısa süreli dolgu işlerini (backfill jobs) düşük güçlü profillerle çalıştırarak büyük işlerin boşluklarını verimli değerlendirmek mümkündür.

Karanlık Saat (Dark Hours) Stratejisi

Elektriğin pahalı olduğu saatlerde düşük öncelikli işleri durdurup gece tarifesiyle yeniden başlatmak, özellikle esnek iş yükleri için anlamlı maliyet tasarrufu sağlar. Bu yaklaşım “karanlık saat” veya “off-peak scheduling” olarak bilinir ve bazı HPC işletmecileri bu yöntemle elektrik maliyetlerini yüzde yirmi ila otuz oranında düşürebilmektedir.

Soğutma Verimliliği: PUE’yu Düşürmek

PUE Nedir ve Neden Önemlidir?

Güç Kullanım Etkinliği (PUE — Power Usage Effectiveness), veri merkezinin toplam güç tüketimini yalnızca IT ekipmanlarının tüketimine bölerek hesaplanır. Mükemmel bir PUE değeri 1,0 olurdu (tüm enerji doğrudan hesaplama için); gerçekte iyi tasarlanmış modern veri merkezleri 1,2–1,4 arasında değer elde ederken eski tesisler 2,0’ın üzerine çıkabilir.

PUE Değeri	Değerlendirme	Soğutma Overhead’i
1,0–1,2	Mükemmel	%0–17
1,2–1,4	İyi	%17–29
1,4–1,6	Ortalama	%29–38
1,6–2,0	Zayıf	%38–50
2,0+	Kötü	>%50

Sıcak Koridor / Soğuk Koridor Mimarisi

Sunucu raflarını soğuk hava emişi ve sıcak hava çıkışına göre hizalamak — “hot aisle/cold aisle” düzeni — soğuk ve sıcak havanın birbirine karışmasını önler. Bu tek değişiklik bile PUE’yu 0,1–0,2 puan iyileştirebilir.

Sıvı Soğutma ve Daldırmalı Soğutma

Yüksek yoğunluklu GPU düğümleri için hava soğutma artık yetersiz kalabiliyor. Doğrudan sıvı soğutma (Direct Liquid Cooling — DLC) veya daldırmalı soğutma (immersion cooling) sistemleri, ısıyı çok daha verimli aktararak hem PUE’yu düşürür hem de düğüm yoğunluğunu artırır. Daldırmalı soğutmada PUE değerleri 1,02–1,05 seviyelerine kadar inebilmektedir.

Serbest Soğutma (Free Cooling)

Dış ortam sıcaklığının yeterince düşük olduğu dönemlerde mekanik chiller’lar devre dışı bırakılarak dışarıdan alınan hava veya su ile soğutma yapılır. Kuzey Avrupa ve yüksek rakımlı lokasyonlar bu açıdan önemli avantaj sunar; yılın büyük bölümünde serbest soğutma kullanılabilir.

İzleme ve Raporlama Altyapısı

Enerji optimizasyonu kör noktayla yapılamaz. Gerçek zamanlı güç izleme altyapısı kurmak, neyin işe yaradığını anlamak için zorunludur.

# IPMI üzerinden düğüm güç tüketimini sorgula
ipmitool -H node001 -U admin -P secret dcmi power reading

# Tüm cluster için paralel güç okuma (pdsh ile)
pdsh -w node[001-100] "ipmitool dcmi power reading | grep 'Instantaneous'"

# Prometheus + node_exporter ile sürekli izleme
# node_exporter'da IPMI collector'ı aktif et:
node_exporter --collector.ipmi

Grafana üzerinde PUE, düğüm başına güç tüketimi ve carbon intensity gibi metrikleri görselleştiren bir dashboard, operasyon ekibine anlık görünürlük sağlar. Bu veriler olmadan optimizasyon çabaları tahmine dayalı kalır.

Pratik Başlangıç Noktaları: Öncelik Sırası

Her HPC ortamı farklı olsa da optimizasyon yolculuğunu neden başlatacağınızı sorgulayan sistem yöneticileri için önerilen öncelik sırası şöyledir:

İzleme altyapısını kur — Neyi ölçemiyorsanız optimize edemezsiniz.
Idle düğümlerde güç tasarrufu governor’larını etkinleştir — Düşük risk, yüksek kazanım.
GPU güç limitlerini kalibre et — Çoğu GPU, maksimum güç limitinin yüzde sekseninde yüzde doksan beş performans sunar.
Hot aisle/cold aisle düzenine geç — Tek seferlik, düşük maliyetli iyileştirme.
SLURM güç bütçelemesini yapılandır — Cluster genelinde koordinasyon sağlar.
Serbest soğutma potansiyelini değerlendir — Lokasyon bazlı büyük kazanım.
Sıvı soğutmaya yatırım planla — Uzun vadeli, yüksek yoğunluklu sistemler için.

Sonuç

HPC sistemlerinde enerji verimliliği artık bir “güzel olsa iyi olur” özelliği değil, operasyonel sürdürülebilirliğin ve maliyet kontrolünün temel bileşenidir. DVFS ile donanım düzeyinde güç yönetimi, enerji farkındalıklı job scheduling ve soğutma verimliliğinin birlikte uygulanması, toplam enerji tüketimini yüzde otuz ile elli arasında azaltabilir — performanstan ödün vermeksizin.

Green IT ilkeleri ve HPC operasyon optimizasyonu konusunda Mevasis olarak size destek olmaktan memnuniyet duyarız. Cluster’ınızın enerji profilini analiz etmek veya optimizasyon yol haritası oluşturmak için iletişim formunu doldurabilirsiniz.