HPC Veri Yedekleme Stratejileri
HPC ortamında veri yedekleme: rsync, BeeGFS replikasyon, teyp arşivleme ve nesne depolama entegrasyonu.
Yüksek başarım hesaplama (HPC) ortamlarında veri, bir projenin en kritik varlığıdır. Haftalarca süren simülasyon sonuçları, onlarca terabaytlık model çıktıları ya da gerçek zamanlı sensör akışlarından biriktirilen ham kayıtlar — bunların herhangi birinin kaybolması, zaman ve kaynak açısından geri dönüşü olmayan bir hasara yol açar. Buna karşın yedekleme, HPC altyapısında sıklıkla göz ardı edilen ya da sonradan düşünülen bir konu olmaya devam etmektedir.
Bu yazıda HPC sistemlerine özgü yedekleme stratejilerini, yaygın araçları ve uygulamada karşılaşılan pratik sorunları ele alıyoruz.
HPC Yedeklemesi Neden Farklıdır?
Kurumsal BT ortamındaki klasik yedekleme araçları, HPC’nin ölçeğini ve dinamiklerini karşılamakta genellikle yetersiz kalır. Birkaç temel fark şunlardır:
- Veri hacmi: Petabayt seviyesindeki paralel dosya sistemleri, geleneksel ajan tabanlı yedekleme yazılımlarının bant genişliği ve meta veri işleme kapasitesini aşar.
- Dosya sistemi yapısı: Lustre, GPFS veya BeeGFS gibi paralel dosya sistemleri, POSIX semantiğinden farklı davranışlar sergileyebilir; bu da standart araçlarla uyum sorunları yaratır.
- Erişim kalıpları: HPC iş yüklerinde binlerce küçük dosya ya da tek başına birkaç terabaytlık dev dosyalar bulunabilir; her iki durum da yedekleme için farklı optimizasyonlar gerektirir.
- RTO ve RPO talepleri: Bazı hesaplama verileri yeniden üretilebilirken (örn. ara çıktılar), deneysel ham veriler veya gözlem verileri kesinlikle yeniden üretilemez.
Bu nedenle HPC yedekleme stratejisi; veri sınıflandırması, araç seçimi ve saklama politikalarını bir arada ele almalıdır.
Veri Sınıflandırması: Neyi Yedeklemeli?
Her verinin aynı düzeyde korunması gerekmez. Kaynakları verimli kullanmak için verileri kritiklik düzeyine göre sınıflandırın:
| Sınıf | Örnekler | Yedekleme Gereksinimi |
|---|---|---|
| Kritik | Ham deneysel veri, proje girdileri, lisans anahtarları | Günlük artımlı + haftalık tam yedek |
| Önemli | Simülasyon sonuçları, analiz çıktıları | Haftalık artımlı yedek |
| Yeniden üretilebilir | Ara dosyalar, geçici iş dizinleri | Yedekleme gerekmez |
| Arşiv | Tamamlanmış proje verileri | Teyp / nesne depolama (soğuk arşiv) |
Bu sınıflandırma, /scratch gibi geçici alanların yedekleme kapsamı dışında tutulmasını ve bütçenin gerçekten kritik veriler için ayrılmasını sağlar.
Araç ve Yöntemler
rsync ile Artımlı Senkronizasyon
rsync, HPC ortamlarında en yaygın kullanılan yedekleme aracıdır. Delta aktarımı sayesinde yalnızca değişen blokları kopyalar; bu da büyük veri kümelerinde bant genişliği tasarrufu sağlar.
Tipik bir artımlı yedekleme betiği:
#!/bin/bash
# HPC proje verisi artımlı yedekleme betiği
SRC="/gpfs/project/kullanici_adi/"
DST="/backup/nas/kullanici_adi/"
LOG="/var/log/hpc-backup/$(date +%Y%m%d).log"
rsync \
--archive \
--compress \
--checksum \
--delete \
--exclude='*.tmp' \
--exclude='/scratch/' \
--exclude='__pycache__/' \
--log-file="${LOG}" \
--stats \
"${SRC}" "${DST}"
EXIT_CODE=$?
if [ $EXIT_CODE -ne 0 ]; then
echo "HATA: rsync çıkış kodu ${EXIT_CODE}" | mail -s "Yedekleme Başarısız" admin@example.com
fi
--checksum seçeneği, zaman damgası yerine MD5/SHA karması karşılaştırması yaparak veri bütünlüğünü doğrular; ancak bu işlem CPU açısından maliyetlidir. Büyük dosya sistemlerinde yalnızca periyodik doğrulama için kullanılması önerilir.
--link-dest seçeneği ile anlık görüntü (snapshot) benzeri artımlı yedeklemeler de oluşturulabilir:
rsync --archive --link-dest=/backup/onceki/ /kaynak/ /backup/bugun/
Bu yöntemde değişmeyen dosyalar sabit bağlantı (hard link) olarak saklanır; böylece her yedekleme tam bir kopyaymış gibi görünürken disk kullanımı minimumda kalır.
BeeGFS Yerel Replikasyonu
BeeGFS kullanan ortamlarda yerleşik replikasyon mekanizması olan Buddy Mirroring ciddi bir veri koruma katmanı sunar. İki depolama hedefi çift olarak yapılandırılır; her yazma işlemi her iki hedefe eş zamanlı yansıtılır.
BeeGFS Buddy Mirroring etkinleştirmek için:
# Depolama gruplarını otomatik oluştur
beegfs-ctl --addmirrorgroup --automatic --nodetype=storage
# Meta veri buddy mirroring etkinleştir
beegfs-ctl --addmirrorgroup --automatic --nodetype=meta
# Mevcut bir dizin için mirroring ayarla
beegfs-ctl --setpattern --buddymirror /gpfs/project/onemli_veri/
Buddy Mirroring, donanım arızalarına karşı yüksek erişilebilirlik sağlar; ancak bu bir yedekleme çözümü değil, bir HA çözümüdür. Kazara silme veya mantıksal bozulma durumlarına karşı koruma sağlamaz; bu nedenle mutlaka harici yedeklemeyle tamamlanmalıdır.
Teyp Arşivleme: Soğuk Veri için Hâlâ Geçerli
Teyp, petabayt ölçeğindeki arşiv verileri için hâlâ en düşük birim maliyetli çözüm olmaya devam etmektedir. LTO-9 teknolojisi ile her kartuşta yaklaşık 18 TB (sıkıştırılmış 45 TB) veri saklanabilmektedir.
Teyp kütüphaneleri için yaygın olarak kullanılan açık kaynaklı çözümler şunlardır:
- LTFS (Linear Tape File System): Teybi POSIX uyumlu bir dosya sistemi olarak bağlamanızı sağlar; böylece standart araçlarla doğrudan erişim mümkün olur.
- Bacula / Bareos: Kurumsal düzey, teyp destekli yedekleme yönetim yazılımları.
- Amanda: Büyük ağlarda teyp yönetimi için olgun ve yaygın tercih edilen bir çözüm.
Teyp tabanlı iş akışında standart yaklaşım şudur: önce veriler disk ara bölgeye (disk staging) alınır, ardından teyp yazma işi kuyruğa eklenir. Bu sayede teyp sürücüleri sürekli yazma hızında çalışır ve erken durdurma (shoe-shining) problemi önlenir.
Nesne Depolama ile Bulut/On-Premise Entegrasyonu
S3 uyumlu nesne depolama sistemleri (MinIO, Ceph RGW, ya da AWS S3), özellikle soğuk ve arşiv veriler için giderek daha popüler bir seçenek hâline gelmektedir.
rclone, paralel dosya sistemlerinden nesne depoya aktarım için oldukça yetenekli bir araçtır:
# MinIO veya S3 uyumlu hedefe paralel yükleme
rclone sync \
/gpfs/project/tamamlanan_proje/ \
minio:hpc-arsiv/tamamlanan_proje/ \
--transfers=32 \
--checkers=16 \
--s3-chunk-size=128M \
--progress
Nesne depolamada S3 Object Lock veya eşdeğeri bir özellik etkinleştirildiğinde, WORM (Write Once Read Many) semantiği elde edilir; bu da düzenleyici uyumluluk gerektiren ortamlarda kritik önem taşır.
Yedekleme Doğrulama: Asıl Göz Ardı Edilen Adım
Yedekleme almak yetmez; geri yüklenebilir olduğunu doğrulamak gerekir. HPC ortamında bu adım çoğunlukla atlanır.
Temel doğrulama adımları:
- Checksum karşılaştırması: Kaynak ve yedek üzerinde
sha256sumveyamd5sumçalıştırarak bütünlüğü doğrulayın. - Kısmi geri yükleme testi: Her ay, rastgele seçilmiş bir proje dizininin yedekten test ortamına başarıyla geri yüklendiğini doğrulayın.
- Metadata doğrulama: Dosya sayısı, toplam boyut ve izin bilgilerinin korunduğunu kontrol edin.
- Otomatik izleme: Yedekleme işinin başarısız olduğunu veya beklenen süreyi aştığını algıladığında alarm gönderen izleme mekanizmaları kurun.
3-2-1 Kuralını HPC’ye Uyarlamak
Klasik 3-2-1 yedekleme kuralı (3 kopya, 2 farklı medya, 1 harici konum) HPC için de geçerliliğini korur; ancak ölçek gözetilerek uyarlanmalıdır:
- 3 kopya: Canlı paralel dosya sistemi + yerel NAS yedekleme + uzak site veya bulut
- 2 medya: Disk (NAS/SAN) + teyp veya nesne depolama
- 1 harici: Farklı veri merkezinde veya bulutta saklanan kopya
Bütçe kısıtı olan ortamlarda en azından kritik veriler için bu kuralın uygulanması hedeflenmelidir.
Saklama Politikası ve Yaşam Döngüsü Yönetimi
Yedeklemelerin ne kadar süre saklanacağı, hem maliyeti hem de uyumluluğu doğrudan etkiler. Örnek bir politika:
- Günlük artımlı yedekler: 30 gün
- Haftalık tam yedekler: 6 ay
- Aylık arşiv: 7 yıl (özellikle akademik araştırma ve GMP gerektiren alanlar için)
Nesne depolamada bu politikalar lifecycle rules aracılığıyla otomatik olarak uygulanabilir. Örneğin AWS S3 veya MinIO üzerinde, 90 günden eski nesneleri otomatik olarak Glacier veya soğuk katmana taşıyan kurallar tanımlanabilir.
Performans İpuçları
- Paralel aktarım:
rsynctek iş parçacıklı çalışır. Büyük veri kümelerindeparallelveyamsrsyncile eş zamanlı birden fazla rsync işi başlatın. - Sıkıştırma dengesi: Ağ darboğazı varsa sıkıştırma (
-z) bant genişliğini azaltır; ancak CPU yüklü ortamlarda sıkıştırma kapalı bırakılmalıdır. - I/O önceliği: Yedekleme işlerini
ionice -c 3ile en düşük I/O önceliğine alın; böylece üretim iş yükleri etkilenmez. - Zaman planlaması: Yedekleme işlerini hesaplama işlerinin yoğun olmadığı saatlere — gece veya hafta sonları — zamanlayın.
HPC ortamında veri yedekleme; tek bir araç ya da tek bir yöntemle çözülemeyen çok katmanlı bir operasyonel disiplindir. Veriyi doğru sınıflandırmak, uygun araçları seçmek ve düzenli doğrulama yapmak — bu üç unsur bir arada uygulandığında gerçek anlamda dayanıklı bir yedekleme altyapısı elde edilir.
Mevasis olarak HPC depolama ve veri yedekleme stratejileri konusunda size destek olmaktan memnuniyet duyarız. İletişim için formu doldurun.