RAGEN: AI çerçevesi LLM aracı istikrarsızlığını ele alıyor

RAGEN: AI çerçevesi LLM aracı istikrarsızlığını ele alıyor (artificialintelligence-news.com)
by AI News 1 yıl, 2 ay önce 0 Yorum

RAGEN: AI çerçevesi LLM aracı istikrarsızlığını ele alıyor

Özet

RAGEN, araştırmacılar tarafından LLM ajanlarının karmaşık durumlarla başa çıkarken karşılaştığı istikrarsızlık sorununu gidermek için geliştirilmiş bir yapay zeka çerçevesidir. Bu çerçeve, özellikle çok adımlı kararlar ve öngörülemeyen geri bildirimlerin olduğu dinamik ortamlarda ajanların eğitilmesini kolaylaştırmayı amaçlar. RAGEN, StarPO ile birlikte çalışarak, ajanların yörünge seviyesinde eğitilmesini sağlar ve bu sayede takviyeli öğrenme altında muhakeme yeteneklerini geliştirir. Minimalist oyun ortamlarında test edilen RAGEN, ajanların risk yönetimi, planlama ve belirsizlik altında karar verme gibi temel yeteneklerini değerlendirmek için tasarlanmıştır.

Araştırmacılar, karmaşık durumları ele alırken LLM ajanlarının istikrarsızlığını gidermek için tasarlanmış bir yapay zeka çerçevesi olan RAGEN'i tanıttı.

Bu yapay zeka ajanlarını eğitmek, özellikle kararların birden fazla adımı kapsadığı ve ortamdan öngörülemeyen geri bildirimler içerdiği durumlarda önemli engeller oluşturmaktadır. Takviyeli öğrenme (RL), matematik problemlerini çözmek veya kod üretmek gibi statik görevlerde umut vaat etse de, dinamik, çok turlu ajan eğitimine uygulanması daha az araştırılmıştır.

Bu boşluğu gidermek için, Northwestern Üniversitesi, Stanford Üniversitesi, Microsoft ve New York Üniversitesi gibi kurumlardan oluşan ortak bir ekip, StarPO (Durum-Düşünme-Eylemler-Ödül Politikası Optimizasyonu) önerdi.

StarPO, ajanları yörünge seviyesinde (yani, yalnızca bireysel eylemler değil, tüm etkileşim dizisini optimize eder) eğitmek için genelleştirilmiş bir yaklaşım sunar.

Buna eşlik eden, StarPO'yu uygulamak için oluşturulmuş modüler bir sistem olan RAGEN'dir. Bu, LLM ajanlarının eğitimini ve değerlendirilmesini sağlar, özellikle RL altında muhakeme yeteneklerine odaklanır. RAGEN, çok turlu, stokastik (rastgele belirlenen) ortamlarda uygulama, ödül atama ve optimizasyon için gerekli altyapıyı sağlar.

Minimalist ortamlar, maksimum içgörü

Çekirdek öğrenme zorluklarını, kapsamlı önceden var olan bilgi veya göreve özgü mühendislik gibi karıştırıcı faktörlerden izole etmek için, araştırmacılar RAGEN'i kullanarak LLM'leri üç kasıtlı minimalist, kontrol edilebilir sembolik oyun ortamında test ettiler:

Bandit: Risk duyarlı sembolik muhakemeyi test eden tek turlu, stokastik bir görev. Ajan, farklı, başlangıçta bilinmeyen ödül profillerine sahip seçenekler (örneğin 'Anka' veya 'Ejderha' kolları) arasından seçim yapar.

Sokoban: Eylemler (kutuları itmek) geri döndürülemez olduğundan, öngörü ve planlama gerektiren çok turlu, deterministik bir bulmaca.

Frozen Lake: Hareket denemelerinin rastgele başarısız olabileceği, belirsizlik altında planlama gerektiren çok turlu, stokastik bir ızgara navigasyon görevi.

Bu ortamlar, ajanların karar verme politikalarını tamamen etkileşim yoluyla nasıl öğrendiğinin net bir analizine olanak tanır.

Temel bulgular: İstikrar, uygulamalar ve muhakeme

Çalışma, kendi kendine gelişen LLM ajanlarının eğitimiyle ilgili üç önemli bulgu ortaya koydu:

'Yankı Tuzağı' ve istikrar ihtiyacı

Çok turlu RL eğitimi sırasında gözlemlenen tekrarlayan bir sorun, "Yankı Tuzağı" olarak adlandırıldı. Ajanlar başlangıçta iyileşir, ancak daha sonra yerel olarak ödüllendirilen muhakeme kalıplarına aşırı uyum sağlayarak performans çöküşü yaşardı.

Bu, ödül varyansının çöküşü, entropide düşüş (rastgelelik/keşif ölçüsü) ve gradyanlarda ani yükselmeler (eğitim istikrarsızlığını gösterir) ile işaretlendi. Erken belirtiler arasında ödül standart sapmasında ve çıktı entropisinde düşüşler vardı.

Bununla mücadele etmek için, ekip çerçevenin stabilize edilmiş bir versiyonu olan StarPO-S'i geliştirdi. StarPO-S şunları içerir:

Varyans tabanlı yörünge filtreleme: Ajanın davranışının daha yüksek belirsizlik gösterdiği görev örneklerine (daha yüksek r

Kaydol ya da oturum aç

RAGEN: AI çerçevesi LLM aracı istikrarsızlığını ele alıyor

Özet

Yorumlar