SAKİN OLUN: Yeni model tasarımı yüksek kurumsal yapay zeka maliyetlerini düzeltebilir



Özet


Kurumsal liderler, yapay zeka modellerinin yüksek maliyetleri nedeniyle zorlanırken, Tencent AI ve Tsinghua Üniversitesi'nden araştırmacılar, Sürekli Otoregresif Dil Modelleri (CALM) adlı yeni bir mimari tasarım sunuyor. CALM, ayrık tokenler yerine sürekli vektörler tahmin ederek üretken yapay zeka süreçlerini daha verimli hale getiriyor. Bu yaklaşım, hesaplama yükünü azaltarak, eğitim ve çıkarım maliyetlerini önemli ölçüde düşürüyor. Deneysel sonuçlar, CALM modellerinin benzer yetenekteki geleneksel modellerden daha düşük maliyetle performans sergilediğini gösteriyor.




Yapay zeka modellerini kullanmanın yüksek maliyetleriyle boğuşan kurumsal liderler, yeni bir mimari tasarım sayesinde rahatlama bulabilirler.

Üretken yapay zekanın yetenekleri cazip olsa da, hem eğitim hem de çıkarım için yoğun hesaplama talepleri, yüksek maliyetlere ve artan çevresel endişelere yol açıyor. Bu verimsizliğin merkezinde, metni sırayla, token token üreten bir otoregresif süreç olan modellerin "temel darboğazı" yatıyor.

IoT ağlarından finans piyasalarına kadar geniş veri akışlarını işleyen kuruluşlar için bu sınırlama, uzun biçimli analiz üretmeyi hem yavaş hem de ekonomik açıdan zorlu hale getiriyor. Ancak, Tencent AI ve Tsinghua Üniversitesi'nden yeni bir araştırma makalesi bir alternatif öneriyor.

Yapay zeka verimliliğine yeni bir yaklaşım

Araştırma, Sürekli Otoregresif Dil Modellerini (CALM) tanıtıyor. Bu yöntem, bir ayrık token yerine sürekli bir vektör tahmin etmek için üretim sürecini yeniden tasarlıyor.

Yüksek kaliteli bir otomatik kodlayıcı, "bir grup K token'ı tek bir sürekli vektöre sıkıştırır" ve bu, çok daha yüksek bir anlamsal bant genişliğine sahiptir.

"the", "cat", "sat" gibi bir şeyi üç adımda işlemek yerine, model bunları tek bir adımda sıkıştırır. Bu tasarım, doğrudan "üretken adımların sayısını azaltır" ve hesaplama yüküne saldırır.

Deneysel sonuçlar daha iyi bir performans-hesaplama takası gösteriyor. Dört token'ı gruplayan bir CALM yapay zeka modeli, bir kuruluş için "güçlü ayrık temel çizgilere benzer, ancak önemli ölçüde daha düşük bir hesaplama maliyetinde" performans sunuyordu.

Örneğin, bir CALM modeli, benzer yetenekteki bir temel Transformer'dan %44 daha az eğitim FLOP'u ve %34 daha az çıkarım FLOP'u gerektirdi. Bu, hem eğitimin ilk sermaye harcamasında hem de çıkarımın tekrarlayan operasyonel giderinde tasarruf sağladığına işaret ediyor.

Sürekli alan için araç setini yeniden oluşturmak

Sonlu, ayrık bir kelime dağarcığından sonsuz, sürekli bir vektör uzayına geçmek, standart LLM araç setini bozuyor. Araştırmacılar, yeni modeli uygulanabilir hale getirmek için "kapsamlı bir olasılıksız çerçeve" geliştirmek zorunda kaldılar.

Eğitim için model, standart bir softmax katmanı veya maksimum olabilirlik tahmini kullanamaz. Bunu çözmek için ekip, açık olasılıkları hesaplamadan doğru tahminler için modeli ödüllendiren bir Enerji Transformatörü ile "olasılıksız" bir hedef kullandı.

Bu yeni eğitim yöntemi ayrıca yeni bir değerlendirme metriği gerektirdi. Perpleksite gibi standart ölçütler, modelin artık hesaplamadığı aynı olasılıklara dayandıkları için uygulanamaz.

Ekip, model örneklerinden tamamen tahmin edilebilen Brier puanına dayalı, yeni bir metrik olan BrierLM'yi önerdi. Doğrulama, geleneksel kayıp metrikleriyle "-0.991'lik bir Spearman sıra korelasyonu" göstererek BrierLM'yi güvenilir bir alternatif olarak teyit etti.

Son olarak, çerçeve, kurumsal kullanım için önemli bir özellik olan kontrollü üretimi geri kazandırıyor. Standart sıcaklık örneklemesi, bir olasılık dağılımı olmadan imkansızdır.