Max bazı kıyaslamalarda DeepSeek V3'ü geride bırakıyor

Max bazı kıyaslamalarda DeepSeek V3'ü geride bırakıyor (artificialintelligence-news.com)
by AI News 1 yıl, 2 ay önce 0 Yorum

Max, bazı kıyaslamalarda DeepSeek V3'ü geride bırakıyor

Özet

Alibaba, yeni Uzmanların Karışımı (MoE) büyük ölçekli modeli Qwen 2.5-Max'i piyasaya sürdü. Model, 20 trilyondan fazla token üzerinde eğitilmiş ve GPT-4o ve Claude-3.5-Sonnet gibi rakipleri geride bırakıyor. Qwen 2.5-Max, Arena-Hard, LiveBench ve LiveCodeBench gibi çeşitli ölçütlerde DeepSeek V3'ten daha iyi performans gösterdi. Model, Alibaba Cloud aracılığıyla ve Qwen Chat üzerinden geliştiricilere sunuluyor.

Alibaba'nın DeepSeek'e yanıtı, şirketin en yeni Uzmanların Karışımı (MoE) büyük ölçekli modeli olan Qwen 2.5-Max.

Qwen 2.5-Max, 20 trilyondan fazla token üzerinde ön eğitim ve Gözetimli İnce Ayar (SFT) ve İnsan Geri Bildiriminden Güçlendirmeli Öğrenme (RLHF) gibi son teknoloji tekniklerle ince ayar yapma özelliklerine sahip.

API'nin artık Alibaba Cloud aracılığıyla ve modelin Qwen Chat üzerinden keşfedilebilir olmasıyla, Çinli teknoloji devi, geliştiricileri ve araştırmacıları doğrudan atılımlarını görmeye davet ediyor.

Rakiplerini Geride Bırakıyor

Qwen 2.5-Max'in performansını çeşitli ölçütlerde en öne çıkan yapay zeka modellerinden bazılarıyla karşılaştırıldığında, sonuçlar umut verici.

Değerlendirmeler, üniversite düzeyinde problem çözme için MMLU-Pro, kodlama uzmanlığı için LiveCodeBench, genel yetenekler için LiveBench ve modelleri insan tercihlerine göre değerlendirmek için Arena-Hard gibi popüler metrikleri içeriyordu.

Alibaba'ya göre, "Qwen 2.5-Max, Arena-Hard, LiveBench, LiveCodeBench ve GPQA-Diamond gibi ölçütlerde DeepSeek V3'ten daha iyi performans gösterirken, MMLU-Pro dahil olmak üzere diğer değerlendirmelerde de rekabetçi sonuçlar sergiledi."

Sohbet ve kodlama gibi sonraki görevler için tasarlanan talimat modeli, GPT-4o, Claude-3.5-Sonnet ve DeepSeek V3 gibi önde gelen modellerle doğrudan rekabet ediyor. Bunlar arasında Qwen 2.5-Max, birçok önemli alanda rakiplerini geride bırakmayı başardı.

Temel modellerin karşılaştırmaları da umut verici sonuçlar verdi. GPT-4o ve Claude-3.5-Sonnet gibi tescilli modeller, erişim kısıtlamaları nedeniyle ulaşılamazken, Qwen 2.5-Max, DeepSeek V3, Llama-3.1-405B (en büyük açık ağırlıklı yoğun model) ve Qwen2.5-72B gibi önde gelen genel seçeneklere karşı değerlendirildi. Yine, Alibaba'nın yeni modeli her alanda olağanüstü performans sergiledi.

Alibaba, "Temel modellerimiz çoğu ölçütte önemli avantajlar sergiledi," dedi ve "eğitim sonrası tekniklerdeki gelişmelerin Qwen 2.5-Max'in bir sonraki sürümünü yeni zirvelere taşıyacağına inanıyoruz."

Qwen 2.5-Max'i Erişilebilir Hale Getirmek

Modeli küresel topluluk için daha erişilebilir hale getirmek amacıyla Alibaba, Qwen 2.5-Max'i, kullanıcıların arama yeteneklerini keşfetmek veya karmaşık sorguları anlama yeteneğini test etmek gibi çeşitli kapasitelerde doğrudan modelle etkileşim kurabilecekleri Qwen Chat platformuyla entegre etti.

Geliştiriciler için Qwen 2.5-Max API'si artık "qwen-max-2025-01-25" model adı altında Alibaba Cloud üzerinden erişilebilir. İlgilenen kullanıcılar, bir Alibaba Cloud hesabı oluşturarak, Model Studio hizmetini etkinleştirerek ve bir API anahtarı oluşturarak başlayabilirler.

API, OpenAI'nin ekosistemiyle bile uyumludur ve mevcut projeler ve iş akışları için entegrasyonu kolaylaştırır. Bu uyumluluk, uygulamalarını modelin yetenekleriyle test etmek isteyenler için engeli azaltır.

Alibaba, Qwen 2.5-Max ile güçlü bir niyet beyanında bulundu. Şirketin yapay zeka modellerini ölçeklendirmeye yönelik devam eden taahhüdü, sadece performans ölçütlerini iyileştirmekle ilgili değil, aynı zamanda

Kaydol ya da oturum aç

Max, bazı kıyaslamalarda DeepSeek V3'ü geride bırakıyor

Özet

Yorumlar