
ZAYA1: Eğitim için AMD GPU'larını kullanan yapay zeka modeli dönüm noktasına ulaştı
Özet
Zyphra, AMD ve IBM, tamamen AMD GPU'ları kullanarak ZAYA1 adlı büyük bir yapay zeka modelini eğitti. Bu, NVIDIA'ya bağımlı olmadan yapay zeka ölçeklendirme potansiyelini gösteriyor. ZAYA1, IBM Cloud'un altyapısı üzerinde çalışan AMD Instinct MI300X çiplerinde eğitildi ve açık modellerle benzer veya daha iyi performans sergiledi. Bu, tedarik sorunları ve yüksek fiyatlar nedeniyle NVIDIA'dan alternatif arayan şirketlere bir seçenek sunuyor. MI300X'in yüksek bellek kapasitesi ve basit kurulumu, eğitim sürecini kolaylaştırdı.
Zyphra, AMD ve IBM, AMD'nin GPU'larının ve platformunun büyük ölçekli yapay zeka modeli eğitimini destekleyip destekleyemeyeceğini test etmek için bir yıl harcadılar ve sonuç ZAYA1 oldu.
Ortaklaşa çalışan üç şirket, tamamen AMD GPU'ları ve ağları üzerine inşa edilen ilk büyük Uzman Karışımı (Mixture-of-Experts) temel modeli olarak tanımlanan ZAYA1'i eğitti. Bunu, pazarın yapay zeka ölçeklendirmek için NVIDIA'ya bağımlı olmak zorunda olmadığını kanıtı olarak görüyorlar.
Model, IBM Cloud'un altyapısı üzerinde çalışan AMD'nin Instinct MI300X çiplerinde, Pensando ağında ve ROCm yazılımında eğitildi. Dikkat çekici olan, kurulumun ne kadar geleneksel göründüğü. Deneysel donanım veya bilinmeyen konfigürasyonlar yerine, Zyphra sistemi tıpkı herhangi bir kurumsal küme gibi inşa etti; sadece NVIDIA'nın bileşenleri olmadan.
Zyphra, ZAYA1'in akıl yürütme, matematik ve kod alanlarında yerleşik açık modellerle aynı seviyede ve bazı alanlarda daha iyi performans gösterdiğini söylüyor. Tedarik kısıtlamalarından veya yükselen GPU fiyatlarından dolayı hayal kırıklığına uğrayan işletmeler için bu, nadir görülen bir şey ifade ediyor: yeteneklerden ödün vermeyi gerektirmeyen ikinci bir seçenek.
Zyphra, yapay zeka eğitim performansından ödün vermeden maliyetleri düşürmek için AMD GPU'larını nasıl kullandı?
Çoğu kuruluş, eğitim bütçelerini planlarken aynı mantığı izler: bellek kapasitesi, iletişim hızı ve öngörülebilir yineleme süreleri, ham teorik verimden daha önemlidir.
MI300X'in GPU başına 192GB yüksek bant genişliğine sahip belleği, mühendislere biraz nefes alma alanı sağlar ve erken eğitim çalıştırmalarının hemen ağır paralelleşmeye başvurmadan yapılmasını sağlar. Bu, aksi takdirde hassas ve ayarlanması zaman alan projeleri basitleştirme eğilimindedir.
Zyphra, her düğümü InfinityFabric üzerinden bağlanan sekiz MI300X GPU ile inşa etti ve her birini kendi Pollara ağ kartıyla eşleştirdi. Ayrı bir ağ, veri kümesi okumalarını ve kontrol noktalarını yönetir. Bu, karmaşık olmayan bir tasarım, ancak mesele de bu gibi görünüyor; kablolama ve ağ düzeni ne kadar basit olursa, anahtar maliyetleri o kadar düşer ve yineleme sürelerini istikrarlı tutmak o kadar kolay olur.
ZAYA1: Ağırlığının üzerinde performans gösteren bir yapay zeka modeli
ZAYA1-base, toplam 8,3 milyar parametreden 760 milyon parametreyi etkinleştirir ve üç aşamada 12 trilyon token üzerinde eğitildi. Mimari, sıkıştırılmış dikkat, token'ları doğru uzmanlara yönlendirmek için geliştirilmiş bir yönlendirme sistemi ve daha derin katmanları kararlı tutmak için daha hafif dokunuşlu artık ölçeklendirmeye dayanır.
Model, Muon ve AdamW karışımını kullanır. Muon'u AMD donanımında verimli hale getirmek için, Zyphra çekirdekleri birleştirdi ve optimizasyonun her yinelemeye hakim olmaması için gereksiz bellek trafiğini kıstı. Toplu boyutlar zamanla artırıldı, ancak bu büyük ölçüde token'ları yeterince hızlı teslim edebilen depolama hatlarına bağlıdır.
Bütün bunlar, Qwen3-4B, Gemma3-12B, Llama-3-8B ve OLMoE gibi daha büyük akranlarla rekabet eden, AMD donanımı üzerinde eğitilmiş bir yapay zeka modeline yol açar. MoE yapısının bir avantajı, modelin yalnızca küçük bir bölümünün aynı anda çalışmasıdır, bu da çıkarım belleğini yönetmeye ve hizmet maliyetini düşürmeye yardımcı olur.
Örneğin, bir banka, karmaşık paralellere ihtiyaç duymadan araştırmalar için etki alanı odaklı bir model eğitebilir.