
Çinli yapay zeka girişimi Moonshot, GPT-5 ve Claude Sonnet 4.5'i geride bıraktı: Bilmeniz gerekenler
Özet
Moonshot AI'ın Kimi K2 Thinking modeli, performans kıyaslamalarında OpenAI'ın GPT-5'ini ve Anthropic'in Claude Sonnet 4.5'ini geride bırakarak yapay zeka alanında büyük bir başarı elde etti. Çin merkezli girişimin bu başarısı, ABD'nin yapay zeka hakimiyetinin maliyet etkin inovasyonla tehdit altında olup olmadığına dair tartışmaları alevlendirdi. Kimi K2 Thinking, Humanity's Last Exam ve BrowseComp gibi çeşitli kıyaslamalarda yüksek puanlar alarak dikkat çekti. Modelin eğitim maliyetinin düşük olduğu yönündeki iddialar, Çin'in yapay zeka alanındaki rekabet gücünü artırabileceği yönünde soru işaretleri yarattı.
Çinli bir yapay zeka girişimi olan Moonshot, Kimi K2 Thinking modeli OpenAI'ın GPT-5'ini ve Anthropic'in Claude Sonnet 4.5'ini birçok performans kıyaslamasında geride bırakarak yapay zeka geliştirme konusundaki beklentileri alt üst etti. Bu durum, Amerika'nın yapay zeka hakimiyetinin, maliyet açısından verimli Çin inovasyonu tarafından tehdit edilip edilmediği konusunda yeni bir tartışma başlattı.
Pekin merkezli ve 3,3 milyar ABD doları değerinde olan, teknoloji devleri Alibaba Group Holding ve Tencent Holdings tarafından desteklenen Moonshot AI, 6 Kasım'da açık kaynaklı Kimi K2 Thinking modelini piyasaya sürdü. Bu hamle, endüstri gözlemcilerinin "bir başka DeepSeek anı" olarak adlandırdığı bir başarı oldu. Bu ifade, Hangzhou merkezli girişimin daha önce yapay zeka maliyet varsayımlarını bozmasına atıfta bulunuyor.
Performans metrikleri ABD modellerine meydan okuyor
Şirketin GitHub blog gönderisine göre, Kimi K2 Thinking, çeşitli konularda 2.500 sorudan oluşan büyük bir dil modeli kıyaslaması olan Humanity's Last Exam'da %44,9 puan alarak GPT-5'in %41,7'sini geride bıraktı.
Model ayrıca, büyük dil modeli ajanlarının web'de gezinme yeterliliğini ve bilgi arama azmini değerlendiren BrowseComp kıyaslamasında %60,2'ye ulaşırken, gerçek dünya araştırma sorgularında arama destekli modelleri zorlamak için tasarlanan Seal-0 kıyaslamasında %56,3 puan alarak lider konuma geldi.
VentureBeat, GPT-5'in puanlarına eşit veya onu aşan tamamen açık ağırlıklı sürümün, yüksek performanslı muhakeme ve kodlama için kapalı sınır sistemleri ile halka açık modeller arasındaki boşluğun etkili bir şekilde çöktüğü bir dönüm noktası olduğunu bildirdi.
Maliyet verimliliği soruları gündeme getiriyor
CNBC'nin eğitim maliyetinin yalnızca 4,6 milyon ABD doları olduğunu bildirmesiyle modelin popülaritesi arttı, ancak Moonshot AI maliyet konusunda yorum yapmadı. South China Morning Post'un hesaplamalarına göre, Kimi K2 Thinking'in uygulama programlama arayüzünün maliyeti, OpenAI ve Anthropic'in modellerinden altı ila on kat daha ucuzdu.
Model, toplam bir trilyon parametreye sahip bir Uzmanlar Karışımı (Mixture-of-Experts) mimarisi kullanıyor; bunların 32 milyarı çıkarım başına etkinleştiriliyor ve INT4 nicemlemesi kullanılarak eğitildi, bu da en üst düzey performansı korurken kabaca iki kat nesil hızı iyileştirmesi sağlıyor.
Hugging Face'in kurucu ortağı Thomas Wolf, X'te Kimi K2 Thinking'in açık kaynaklı bir modelin kapalı kaynaklı bir modeli geçmesinin bir başka örneği olduğunu belirterek, "Bu bir başka DeepSeek anı mı? Şimdi her birkaç ayda bir [böyle bir an] beklemeli miyiz?" diye sordu.
Teknik yetenekler ve sınırlamalar
Moonshot AI araştırmacıları, Kimi K2 Thinking'in "muhakeme, kodlama ve ajan yeteneklerini değerlendiren kıyaslamalarda yeni rekorlar kırdığını" söyledi. Model, insan müdahalesi olmadan 200-300'e kadar sıralı araç çağrısını yürütebiliyor, karmaşık problemleri çözmek için yüzlerce adım boyunca tutarlı bir şekilde muhakeme yürütebiliyor.
Bağımsız bir danışmanlık şirketi olan Artificial Analysis tarafından yapılan bağımsız testler, Kimi K2'yi %93 doğrulukla Tau-2 Bench Telecom ajan kıyaslamasının zirvesine yerleştirdi; bu sonuç, şirketin bağımsız olarak ölçtüğü en yüksek puan olarak tanımlandı.
Ancak, araştırmacı Nathan Lambert