
Yapay zeka veri merkezlerinde yer kalmadığında ne olur? NVIDIA'nın yeni çözümü açıklandı
Özet
NVIDIA, yapay zeka veri merkezlerinin genişlemesiyle ortaya çıkan alanı aşma ve maliyet artışı sorununa çözüm olarak Spectrum-XGS Ethernet teknolojisini geliştirdi. Bu teknoloji, birden fazla lokasyonun sorunsuz bir şekilde birlikte çalışmasını sağlayarak, yapay zeka hesaplamalarının daha geniş bir alana yayılmasını mümkün kılıyor. Geleneksel ağ altyapısının yüksek gecikme süresi ve performans dalgalanmaları gibi sorunlarını ortadan kaldırarak, farklı tesislerdeki yapay zeka sistemlerinin verimli bir şekilde çalışmasını sağlıyor. Spectrum-XGS, NVIDIA'nın yapay zeka bilişim yaklaşımına "ölçekleme" olarak adlandırdığı yeni bir boyuta katkı sağlıyor.
Yapay zeka veri merkezlerinin alanı tükendiğinde, maliyetli bir ikilemle karşı karşıya kalırlar: daha büyük tesisler inşa etmek veya birden fazla konumun sorunsuz bir şekilde birlikte çalışmasını sağlamanın yollarını bulmak. NVIDIA'nın en son Spectrum-XGS Ethernet teknolojisi, yapay zeka veri merkezlerini geniş mesafelerde birbirine bağlayarak, şirketin "giga ölçekli yapay zeka süper fabrikaları" olarak adlandırdığı bir yapıyı oluşturarak bu sorunu çözmeyi vaat ediyor.
Hot Chips 2025'ten önce duyurulan bu ağ oluşturma yeniliği, şirketin, yapay zeka endüstrisini hesaplama gücünün nasıl dağıtıldığını yeniden düşünmeye zorlayan büyüyen bir probleme verdiği cevabı temsil ediyor.
Sorun: Bir bina yeterli olmadığında
Yapay zeka modelleri daha karmaşık ve talepkar hale geldikçe, genellikle tek bir tesisin sağlayabileceğinden daha fazla, muazzam bir hesaplama gücüne ihtiyaç duyarlar. Geleneksel yapay zeka veri merkezleri, güç kapasitesi, fiziksel alan ve soğutma yetenekleri açısından sınırlamalarla karşı karşıyadır.
Şirketlerin daha fazla işlem gücüne ihtiyacı olduğunda, genellikle tamamen yeni tesisler inşa etmeleri gerekir, ancak ayrı konumlar arasında işbirliği yapmak, ağ oluşturma sınırlamaları nedeniyle sorunlu olmuştur. Sorun, uzak konumları bağlarken yüksek gecikme süresi, öngörülemez performans dalgalanmaları ("jitter" olarak adlandırılır) ve tutarsız veri aktarım hızlarından muzdarip olan standart Ethernet altyapısında yatmaktadır.
Bu sorunlar, yapay zeka sistemlerinin karmaşık hesaplamaları birden fazla siteye verimli bir şekilde dağıtmasını zorlaştırmaktadır.
NVIDIA'nın çözümü: Ölçeklendirme teknolojisi
Spectrum-XGS Ethernet, NVIDIA'nın "ölçeklendirme" yeteneği olarak adlandırdığı bir özelliği sunuyor; bu, mevcut "ölçeklendirme" (tek tek işlemcileri daha güçlü hale getirme) ve "ölçeklendirme" (aynı konumda daha fazla işlemci ekleme) stratejilerini tamamlayan üçüncü bir yapay zeka bilişim yaklaşımıdır.
Teknoloji, NVIDIA'nın mevcut Spectrum-X Ethernet platformuna entegre olur ve birkaç önemli yenilik içerir:
Tesisler arasındaki fiziksel mesafeye göre ağ davranışını otomatik olarak ayarlayan mesafe uyarlamalı algoritmalar
Uzun mesafeli iletim sırasında veri darboğazlarını önleyen gelişmiş tıkanıklık kontrolü
Öngörülebilir tepki süreleri sağlamak için hassas gecikme süresi yönetimi
Gerçek zamanlı ağ izleme ve optimizasyon için uçtan uca telemetri
NVIDIA'nın duyurusuna göre, bu iyileştirmeler, birden fazla grafik işleme birimi (GPU) ve hesaplama düğümü arasındaki iletişimi yöneten "NVIDIA Collective Communications Library'nin performansını neredeyse iki katına çıkarabilir".
Gerçek dünya uygulaması
GPU hızlandırmalı bilişim konusunda uzmanlaşmış bir bulut altyapı şirketi olan CoreWeave, Spectrum-XGS Ethernet'i ilk benimseyenler arasında yer almayı planlıyor.
CoreWeave'in kurucu ortağı ve teknoloji şefi Peter Salanki, "NVIDIA Spectrum-XGS ile veri merkezlerimizi tek, birleşik bir süper bilgisayara bağlayabilir, müşterilerimize her sektörde çığır açacak giga ölçekli yapay zekaya erişim sağlayabiliriz" dedi.
Bu dağıtım, teknolojinin vaatlerini yerine getirip getiremeyeceğine dair pratik bir test vakası olarak hizmet edecek.