
Alibaba'nın yeni Qwen modeli, yapay zeka transkripsiyon araçlarını güçlendirecek
Özet
Alibaba'nın Qwen ekibi, güçlü Qwen3-Omni üzerine kurulu ve devasa bir veri kümesi ile eğitilen Qwen3-ASR-Flash modelini duyurdu. Model, Çince ve İngilizce konuşma tanıma testlerinde rakiplerini geride bırakarak özellikle zorlu akustik ortamlarda ve müzik transkripsiyonunda üstün başarı gösterdi. Qwen3-ASR-Flash, standart Çince'de %3,97, İngilizce'de %3,81 ve müzik transkripsiyonunda %4,51 gibi etkileyici hata oranları elde etti. Ayrıca, modelin esnek bağlamsal önyargı özelliği, kullanıcıların özelleştirilmiş sonuçlar için modeline arka plan metni sağlamasına olanak tanıyor.
Yapay zeka konuşma transkripsiyon araçları, Alibaba'nın Qwen ekibinin Qwen3-ASR-Flash modelini tanıttığı haberleri ile rekabete hazırlanıyor.
Güçlü Qwen3-Omni zekası üzerine kurulu ve milyonlarca saatlik konuşma verisi içeren devasa bir veri kümesi kullanılarak eğitilen bu, sadece sıradan bir yapay zeka konuşma tanıma modeli değil. Ekip, zorlu akustik ortamlarda veya karmaşık dil kalıplarıyla karşı karşıya kaldığında bile oldukça doğru performans sunmak üzere tasarlandığını söylüyor.
Peki, rakipleriyle nasıl başa çıkıyor? Ağustos 2025'te yapılan testlerden elde edilen performans verileri oldukça etkileyici olduğunu gösteriyor.
Standart Çince için yapılan kamuya açık bir testte, Qwen3-ASR-Flash sadece %3,97'lik bir hata oranına ulaşarak, Gemini-2.5-Pro (%8,98) ve GPT4o-Transcribe'ı (%15,72) geride bıraktı ve daha rekabetçi yapay zeka konuşma transkripsiyon araçları için umut vaat ediyor.
Qwen3-ASR-Flash ayrıca Çince aksanları ele almada da başarılı olduğunu kanıtladı ve %3,48'lik bir hata oranı elde etti. İngilizce'de ise %3,81 gibi rekabetçi bir puan alarak, Gemini'nin %7,63'ü ve GPT4o'nun %8,45'ini geride bıraktı.
Ancak asıl dikkat çektiği alan, oldukça zorlu bir konu olan müzik transkripsiyonu.
Şarkı sözlerini tanımakla görevlendirildiğinde, Qwen3-ASR-Flash sadece %4,51'lik bir hata oranı kaydetti, bu da rakiplerinden çok daha iyi. Bu müzik anlama yeteneği, tam şarkılar üzerinde yapılan iç testlerle de doğrulandı ve %9,96'lık bir hata oranı elde etti; bu, Gemini-2.5-Pro'nun %32,79'undan ve GPT4o-Transcribe'ın %58,59'undan büyük bir iyileşme.
Etkileyici doğruluğunun ötesinde, model yeni nesil yapay zeka transkripsiyon araçları için bazı yenilikçi özellikler sunuyor. En büyük çığır açanlardan biri, esnek bağlamsal önyargısı.
Özenle anahtar kelime listeleri oluşturma günleri geride kaldı, bu sistem kullanıcıların özelleştirilmiş sonuçlar elde etmek için modele neredeyse her formatta arka plan metni beslemesine olanak tanıyor. Basit bir anahtar kelime listesi, tüm belgeler veya hatta her ikisinin karmaşık bir karışımını sağlayabilirsiniz.
Bu işlem, bağlamsal bilgilerin karmaşık ön işlenmesine olan ihtiyacı ortadan kaldırır. Model, doğruluğunu artırmak için bağlamı kullanacak kadar akıllı; ancak sağladığınız metin tamamen alakasız olsa bile genel performansı pek etkilenmiyor.
Alibaba'nın bu yapay zeka modeli için küresel bir konuşma transkripsiyon aracı olma hedefi açık. Hizmet, çok sayıda lehçe ve aksanı içeren 11 dili kapsayan tek bir modelden doğru transkripsiyon sunuyor.
Çince desteği özellikle derin, Mandarin'e ek olarak Kantonca, Sichuan, Minnan (Hokkien) ve Wu gibi başlıca lehçeleri de kapsıyor.
İngilizce konuşanlar için İngiliz, Amerikan ve diğer bölgesel aksanları işliyor. Etkileyici diğer desteklenen diller listesi arasında Fransızca, Almanca, İspanyolca, İtalyanca, Portekizce, Rusça, Japonca, Korece ve Arapça bulunuyor.
Hepsini tamamlamak için, model konuşulan 11 dilden hangisi olduğunu tam olarak belirleyebilir ve