
Meta FAIR, beş büyük sürümle insan benzeri yapay zekayı ilerletiyor
Özet
Meta'nın FAIR ekibi, makinelerin duyusal bilgileri işleme ve yorumlama yeteneğini geliştirmeyi hedefleyen beş yeni yapay zeka projesi duyurdu. Bu projeler, algılayıcı kodlayıcılar aracılığıyla görsel algıyı iyileştirmenin yanı sıra dil modelleme, robotik ve işbirlikçi yapay zeka alanlarındaki gelişmelere odaklanıyor. Özellikle, Algılayıcı Kodlayıcı, çeşitli görsel görevlerde üstün performans göstererek, yapay zeka sistemlerinin görsel verileri daha iyi anlamasını sağlıyor ve mevcut tüm modelleri geride bırakıyor. Meta'nın nihai amacı, insan benzeri zekaya sahip ve hızla kararlar alabilen makineler yaratmaktır.
Meta'daki Temel Yapay Zeka Araştırmaları (FAIR) ekibi, şirketin gelişmiş makine zekası (AMI) arayışını ilerleten beş proje duyurdu.
Meta'nın son yayınları, makinelerin duyusal bilgileri işleme ve yorumlama yeteneği olan yapay zeka algısını geliştirmenin yanı sıra, dil modelleme, robotik ve işbirlikçi yapay zeka ajanlarındaki gelişmelere ağırlıklı olarak odaklanıyor.
Meta, amacının "etrafımızdaki dünya hakkında duyusal bilgileri edinebilen, işleyebilen ve yorumlayabilen ve bu bilgileri insan benzeri zeka ve hızla kararlar almak için kullanabilen" makineler yaratmak olduğunu belirtti.
Beş yeni yayın, bu iddialı amaca ulaşmaya yönelik çeşitli ancak birbiriyle bağlantılı çabaları temsil ediyor.
Algılayıcı Kodlayıcı: Meta, Yapay Zekanın 'görüşünü' Keskinleştiriyor
Yeni yayınların merkezinde, çeşitli görüntü ve video görevlerinde mükemmel olmak üzere tasarlanan büyük ölçekli bir görsel kodlayıcı olarak tanımlanan Algılayıcı Kodlayıcı yer alıyor.
Görsel kodlayıcılar, yapay zeka sistemleri için "göz" işlevi görerek görsel verileri anlamalarını sağlar.
Meta, gelişmiş yapay zekanın taleplerini karşılayan kodlayıcılar oluşturmanın artan zorluğuna dikkat çekiyor. Bu, vizyon ve dil arasında köprü kuran, hem görüntüleri hem de videoları etkili bir şekilde işleyen ve potansiyel düşmanca saldırılar da dahil olmak üzere zorlu koşullarda sağlam kalan yetenekler gerektiriyor.
Meta'ya göre ideal bir kodlayıcı, "deniz tabanına gömülmüş bir vatozu, bir görüntünün arka planındaki minik bir saka kuşunu veya gece görüşü vahşi yaşam kamerasındaki koşturan bir agutiyi" tespit etme gibi ince detayları ayırt ederken çok çeşitli kavramları tanımalıdır.
Meta, Algılayıcı Kodlayıcı'nın "görüntü ve video sıfır çekim sınıflandırması ve geri alma konusunda olağanüstü performans sergileyerek, bu tür görevler için mevcut tüm açık kaynaklı ve tescilli modelleri geride bıraktığını" iddia ediyor.
Ayrıca, algısal güçlüklüğü dil görevlerine de iyi bir şekilde yansıyor.
Büyük bir dil modeli (LLM) ile hizalandığında, kodlayıcının görsel soru cevaplama (VQA), altyazı oluşturma, belge anlama ve temellendirme (metni belirli görüntü bölgelerine bağlama) gibi alanlarda diğer görsel kodlayıcılardan daha iyi performans gösterdiği söyleniyor. Ayrıca, uzamsal ilişkileri (örneğin, "bir nesne diğerinin arkasındaysa") veya bir nesneye göre kamera hareketini anlama gibi, LLM'ler için geleneksel olarak zor olan görevlerde performansı artırdığı bildiriliyor.
Meta, "Algılayıcı Kodlayıcı yeni uygulamalara entegre edilmeye başlandıkça, gelişmiş görsel yeteneklerinin daha da yetenekli yapay zeka sistemlerini nasıl mümkün kılacağını görmekten heyecan duyuyoruz" dedi.
Algısal Dil Modeli (PLM): Görsel-dil alanında açık araştırma
Kodlayıcıyı tamamlayan, karmaşık görsel tanıma görevlerine yönelik açık ve çoğaltılabilir bir görsel-dil modeli olan Algısal Dil Modeli (PLM) geliyor.
PLM, harici tescilli modellerden bilgi çıkarmadan, büyük ölçekli sentetik verilerle birlikte açık görsel-dil veri kümeleri kullanılarak eğitildi.
Mevcut videoda boşlukları tanımak...