Alibaba'nın yeni Qwen akıl yürütme yapay zeka modeli açık kaynaklı rekorlar kırıyor



Özet


Qwen ekibi, etkileyici kıyaslama sonuçları elde eden, açık kaynaklı bir muhakeme yapay zeka modeli olan Qwen3-235B-A22B-Thinking-2507'yi yayınladı. Bu model, mantıksal muhakeme, matematik, bilim ve kodlama gibi zorlu konularda insan seviyesinde performans gösteriyor. Mixture-of-Experts (MoE) mimarisi kullanan model, 262.144 tokenlik geniş bir bağlam uzunluğuna sahip. Model, Hugging Face üzerinden erişilebilir ve geliştiriciler için dağıtım kolaylığı sunuyor.




Alibaba'dan Qwen ekibi, etkileyici kıyaslama sonuçlarıyla açık kaynaklı muhakeme yapabilen yapay zeka modelinin yeni bir sürümünü yayınladı.

Tanışın: Qwen3-235B-A22B-Thinking-2507. Qwen ekibi, son üç ay boyunca yapay zekalarının "düşünme yeteneğini" ölçeklendirmek için yoğun bir şekilde çalışarak, muhakeme kalitesini ve derinliğini artırmayı hedefledi.

Çabalarının sonucu, gerçekten zor konularda mükemmel sonuçlar veren bir model: mantıksal muhakeme, karmaşık matematik, bilim problemleri ve gelişmiş kodlama. Genellikle bir insan uzmanı gerektiren bu alanlarda, bu yeni Qwen modeli artık açık kaynaklı modeller için standartları belirliyor.

Muhakeme kıyaslamalarında, Qwen'in en son açık kaynaklı yapay zeka modeli, kodlama için AIME25'te 92.3 ve LiveCodeBench v6'da 74.1 puan elde ediyor. Ayrıca, insan tercihlerine ne kadar iyi uyum sağladığını ölçen Arena-Hard v2'de 79.7 puan alarak daha genel yetenek testlerinde de başarılı oluyor.

Temelinde, bu, Qwen ekibinden toplam 235 milyar parametreye sahip devasa bir muhakeme yapay zeka modelidir. Ancak, Mixture-of-Experts (MoE) kullanır, bu da aynı anda yalnızca bu parametrelerin bir kısmını (yaklaşık 22 milyar) etkinleştirdiği anlamına gelir. Bunu, hazırda bekleyen 128 uzmanlık alanı olan devasa bir ekip gibi düşünün, ancak yalnızca belirli bir görev için en uygun sekiz tanesi o görev üzerinde çalışmak üzere getirilir.

Belki de en etkileyici özelliklerinden biri, muazzam belleği. Qwen'in açık kaynaklı muhakeme yapay zeka modelinin 262.144 tokenlik yerel bir bağlam uzunluğu vardır; bu, çok miktarda bilginin anlaşılmasını içeren görevler için büyük bir avantajdır.

Geliştiriciler ve meraklılar için Qwen ekibi, başlamayı kolaylaştırdı. Model, Hugging Face'te mevcut. Kendi API uç noktanızı oluşturmak için sglang veya vllm gibi araçları kullanarak dağıtabilirsiniz. Ekip ayrıca, modelin araç çağırma becerilerinden en iyi şekilde yararlanmak için Qwen-Agent çerçevelerini öneriyor.

Açık kaynaklı yapay zeka muhakeme modelinden en iyi performansı elde etmek için, Qwen ekibi birkaç ipucu paylaştı. Çoğu görev için yaklaşık 32.768 tokenlik bir çıktı uzunluğu öneriyorlar, ancak gerçekten karmaşık zorluklar için, yapay zekaya "düşünmek" için yeterli alan sağlamak amacıyla bunu 81.920 token'e yükseltmeniz gerekiyor. Ayrıca, matematik problemleri için "adım adım muhakeme etmesini" istemek gibi, modelin isteminde belirli talimatlar vermenizi de öneriyorlar, böylece en doğru ve iyi yapılandırılmış cevapları alırsınız.

Bu yeni Qwen modelinin piyasaya sürülmesi, özellikle karmaşık, akıl yoran görevler söz konusu olduğunda, piyasadaki en iyi tescilli modellerle rekabet edebilecek güçlü ama açık kaynaklı bir muhakeme yapay zekası sağlıyor. Geliştiricilerin sonuçta onunla neler inşa edeceğini görmek heyecan verici olacak.

(Tung Lam tarafından görsel)

Ayrıca bkz: Yapay Zeka Eylem Planı: ABD liderliği 'tartışmasız' olmalı

Sektör liderlerinden yapay zeka ve büyük veri hakkında daha fazla bilgi edinmek ister misiniz? Amsterdam, Kaliforniya ve Londra'da gerçekleşecek olan Yapay Zeka ve Büyük Veri Fuarı'na göz atın. Kapsamlı etkinlik, Akıllı Otomasyon Konferansı, BlockX, Dijital Dönüşüm dahil olmak üzere diğer önde gelen etkinliklerle birlikte düzenleniyor.