Teknoloji

24/4/2025

Nvidia, YZ’nin Su Tüketim Sorununu Çip Soğutma Teknolojisi ile Çözmeyi Hedefliyor; Kapalı Devre Sistemlerle 300 Kat Su Tasarrufu İddiası

Modern bulut veri merkezleri yalnızca yüksek miktarda hesaplama ve soğutma enerjisi tüketmekle kalmıyor, aynı zamanda çoğu buharlaşmalı sıvı soğutma sistemlerini kullandığı için önemli miktarda su da harcıyor. Nvidia ise bu sorunu, yeni nesil sistemlerinde uyguladığı doğrudan çip-üzerinden sıvı soğutma yöntemiyle çözmeyi amaçlıyor.

Şirketin GB200 NVL72 ve GB300 NVL72 sistemleri, bu yeni mimariyle donatılmış durumda. Nvidia'ya göre, bu sistemler günümüzde yaygın olarak kullanılan soğutuculara kıyasla 25 kat daha enerji verimli, 300 kat daha su verimli çalışıyor. Ancak burada önemli bir ayrıntı var: NVL72 raf ölçekli sistemleri, tipik sunucu raflarına göre yedi kat fazla enerji tüketiyor.

Genel olarak veri merkezlerindeki standart sunucu rafları yaklaşık 20 kW güç tüketiyor. Nvidia’nın H100 tabanlı sistemleri ise 40 kW’ın üzerine çıkarken, GB200 NVL72 ve GB300 NVL72 sistemleri 120 kW ila 140 kW arasında değişen tüketim seviyelerine ulaşıyor. Bu güç yoğunluğu, geleneksel hava tabanlı soğutma yöntemlerinin yetersiz kalmasına neden oluyor. Nvidia, bu nedenle Blackwell mimarisiyle donatılmış sistemlerinde yeni nesil bir soğutma çözümüne geçmek zorunda kaldı.

Söz konusu sistemler, doğrudan çip-üzerine sıvı dolaşımı sağlayan bir teknoloji kullanıyor. Bu yaklaşımda, soğutucu sıvı doğrudan GPU, CPU ve diğer ısı yayan bileşenlere bağlı soğuk plakalar üzerinden dolaştırılarak, hava ortamına ihtiyaç duymadan ısının verimli şekilde uzaklaştırılması sağlanıyor.

Bu sistemler, buharlaşmalı ya da daldırmalı soğutma yöntemlerinin aksine, kapalı devre çalışıyor. Bu sayede soğutucu sıvı buharlaşmıyor ya da faz değişimiyle kaybolmuyor. Böylece su tüketimi büyük oranda azaltılmış oluyor.

NVL72 mimarisi içerisinde, soğutucu sıvının taşıdığı ısı raf düzeyindeki sıvıdan sıvıya ısı değiştiriciler aracılığıyla veri merkezinin genel soğutma altyapısına aktarılıyor. Bu sistemlerde kullanılan CoolIT CHx2000 gibi soğutucu dağıtım üniteleri (CDU), 2 MW’a kadar soğutma kapasitesi sunarak düşük termal dirençle yüksek yoğunluklu sistemlerin güvenilir şekilde soğutulmasını sağlıyor.

Ayrıca bu yapı, ılık su ile çalışabilen soğutma olanağı sunarak, mekanik soğutucu cihazlara olan ihtiyacı azaltıyor ya da ortadan kaldırıyor. Söz konusu durum hem enerji verimliliğini artırıyor hem de su tasarrufu sağlıyor. Ancak bu teknolojinin ölçeklenebilirliğiyle ilgili çeşitli mühendislik ve operasyonel zorluklar da bulunuyor. Veri merkezlerinde bakım, yükseltme ve bileşen değişimi gibi gereklilikler nedeniyle modülerlik ve erişilebilirlik kritik öneme sahip. Hermetik olarak kapatılmış sistemlerde bir bileşenin değiştirilmesi tüm yapıyı riske atabiliyor. Bunun önüne geçmek için, güncel sıvı soğutma sistemleri damlatma yapmayan hızlı bağlantı elemanları (quick-disconnect fittings) ile tasarlanıyor. Bu sayede tam hermetik sistemler yerine bakımı kolaylaştırılmış ama yine de etkili çözümler elde ediliyor.

Yine de, bu tarz sıvı soğutma sistemlerinin veri merkezi genelinde uygulanabilmesi için tüm altyapının yeniden tasarlanması gerekiyor ve bu ciddi bir maliyet doğuruyor. Ancak Nvidia'nın Blackwell işlemcileri sunduğu performansla öne çıktığı için, B200 GPU’larını kullanmak isteyen firmalar bu yatırımın karşılığını alacaklarına inanıyor.

Nvidia, bu sistemlerin hızlı şekilde devreye alınabilmesi için Schneider Electric ile birlikte 1152 GPU’lu DGX SuperPOD GB200 kümeleri için referans tasarımlar da geliştirdi. Bu tasarımlarda Motivair sıvıdan sıvıya CDU’lar ve adyabatik destekli sıvı soğutucular kullanılıyor.

Nvidia, Blackwell B200 GPU’larında sıvı soğutmayı zorunlu kılarken, aynı zamanda evaporatif sıvı soğutma yerine kapalı devre çözümler sunarak su tasarrufunu öncelik haline getiriyor. Şirket, bu yaklaşımı "mantıklı bir denge" olarak tanımlıyor.

Kaynak:https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-aims-to-solve-ais-water-consumption-problems-with-direct-to-chip-cooling-claims-300x-improvement-with-closed-loop-systems