
NVIDIA, yapay zeka sorunlarını birçok dille çözmeyi hedefliyor
Özet
NVIDIA, yapay zeka teknolojilerinin dünyanın birçok dilini desteklememesi sorununa çözüm olarak, 25 Avrupa dili için açık kaynaklı araçlar yayınladı. Bu araçlar, geliştiricilerin çok dilli sohbet robotları, çeviri hizmetleri ve sesle çalışan araçlar geliştirmesini amaçlıyor. Projenin temelini, yapay zekayı eğitmek için kullanılan büyük bir konuşma verisi kütüphanesi olan Granary oluşturuyor. Ayrıca, konuşma tanıma ve çeviri için Canary-1b-v2 ve gerçek zamanlı uygulamalar için Parakeet-tdt-0.6b-v3 olmak üzere iki yeni yapay zeka modeli sunuluyor.
Yapay zeka her yerdeymiş gibi görünse de, dünyanın 7.000 dilinin çok küçük bir bölümünde faaliyet gösteriyor ve küresel nüfusun büyük bir kısmını geride bırakıyor. NVIDIA, özellikle Avrupa'da bu göze batan kör noktayı düzeltmeyi hedefliyor.
Şirket, geliştiricilere 25 farklı Avrupa dili için yüksek kaliteli konuşma yapay zekası oluşturma gücü vermek amacıyla tasarlanmış güçlü bir dizi yeni açık kaynaklı araç yayınladı. Buna başlıca diller de dahil, ancak daha da önemlisi, Hırvatça, Estonca ve Maltaca gibi büyük teknoloji şirketleri tarafından genellikle göz ardı edilenlere bir cankurtaran halatı sunuyor.
Amaç, geliştiricilerin çoğumuzun doğal olarak kabul ettiği, sizi gerçekten anlayan çok dilli sohbet robotlarından, göz açıp kapayıncaya kadar çalışan müşteri hizmetleri robotlarına ve çeviri hizmetlerine kadar, sesle çalışan araçları oluşturmasını sağlamaktır.
Bu girişimin merkezinde, insan konuşmasından oluşan devasa bir kütüphane olan Granary yer alıyor. Yaklaşık bir milyon saatlik ses içeriyor ve hepsi, yapay zekaya konuşma tanıma ve çevirinin nüanslarını öğretmeye yardımcı olmak için küratörlüğünü yaptı.
Bu konuşma verilerinden yararlanmak için NVIDIA ayrıca dil görevleri için tasarlanmış iki yeni yapay zeka modeli sunuyor:
Karmaşık transkripsiyon ve çeviri işlerinde yüksek doğruluk için oluşturulmuş büyük bir model olan Canary-1b-v2.
Hızın her şey olduğu gerçek zamanlı uygulamalar için tasarlanmış Parakeet-tdt-0.6b-v3.
Bunun arkasındaki bilime dalmak isterseniz, Granary ile ilgili makale bu ay Hollanda'daki Interspeech konferansında sunulacak. Ellerini kirletmeye hevesli geliştiriciler için veri seti ve her iki model de Hugging Face'te zaten mevcut.
Ancak asıl sihir, bu verilerin nasıl oluşturulduğunda yatıyor. Hepimiz yapay zeka eğitmenin büyük miktarda veri gerektirdiğini biliyoruz, ancak bunu elde etmek genellikle yavaş, pahalı ve açıkçası insan notasyonuyla dolu, sıkıcı bir süreçtir.
Bunun üstesinden gelmek için, NVIDIA'nın konuşma yapay zekası ekibi - Carnegie Mellon Üniversitesi ve Fondazione Bruno Kessler'dan araştırmacılarla birlikte çalışarak - otomatik bir boru hattı oluşturdu. Kendi NeMo araç setlerini kullanarak, ham, etiketlenmemiş sesi alıp yapay zekanın öğrenebileceği yüksek kaliteli, yapılandırılmış verilere dönüştürebildiler.
Bu sadece teknik bir başarı değil; dijital kapsayıcılık için büyük bir sıçrama. Bu, Riga veya Zagreb'deki bir geliştiricinin, yerel dillerini düzgün bir şekilde anlayan, sesle çalışan yapay zeka araçları oluşturabileceği anlamına geliyor. Ve bunu daha verimli yapabilirler. Araştırma ekibi, Granary verilerinin, diğer popüler veri kümelerine kıyasla bir hedef doğruluk seviyesine ulaşmak için yaklaşık yarısı kadarının kullanılmasıyla oldukça etkili olduğunu buldu.
İki yeni model bu gücü gösteriyor. Canary açıkçası bir canavar, boyutunun üç katı olan modellerle rekabet eden ancak on kat daha hızlı çeviri ve transkripsiyon kalitesi sunuyor. Bu arada Parakeet, 24 dakikalık bir toplantı kaydını tek seferde işleyebilir ve hangi dilin konuşulduğunu otomatik olarak tespit edebilir. Her iki model de noktalama işaretlerini, büyük harfleri yönetmek ve kelime düzeyinde zaman damgaları sağlamak için yeterince akıllı, bu da bir şeyler oluşturmak için gereklidir.