
Yapay zekayı oluşturmak için gereken veriler buradan geliyor
Yapay zekâ, her şeyden önce veriyle ilgilidir. Algoritmaları istediğimiz şeyi yapacak şekilde eğitmek için çok çok fazla veriye ihtiyaç vardır ve AI modellerine girenler, çıkanları belirler. Ancak sorun şu ki: AI geliştiricileri ve araştırmacıları kullandıkları verilerin kaynakları hakkında pek fazla bilgi sahibi değiller. AI'nın veri toplama uygulamaları, AI model geliştirme karmaşıklığının yanında oldukça gelişmemiş durumda. Büyük veri kümeleri genellikle içlerinde ne olduğuna ve nereden geldiğine dair net bilgilerden yoksundur.
Data Provenance Girişimi, akademi ve endüstriden 50'nin üzerinde araştırmacıdan oluşan bir grup, bunu çözmek istedi. Çok basit bir şekilde şunu bilmek istediler: AI oluşturmak için kullanılan veriler nereden geliyor? 600'den fazla dilde, 67 ülkede ve üç on yılda toplam yaklaşık 4.000 kamuya açık veri kümesini denetlediler. Veriler 800 farklı kaynaktan ve yaklaşık 700 kuruluştan geldi.
MIT Teknoloji İncelemesi'ne özel olarak paylaşılan bulguları, endişe verici bir eğilimi ortaya koyuyor: AI'nın veri uygulamaları, gücü birkaç baskın teknoloji şirketinin elinde aşırı derecede yoğunlaştırma riski taşıyor.
MIT'de projede yer alan araştırmacı Shayne Longpre, 2010'ların başlarında veri kümelerinin çeşitli kaynaklardan geldiğini söylüyor.
Sadece ansiklopedilerden ve web'den değil, aynı zamanda parlamento tutanakları, kazanç görüşmeleri ve hava raporları gibi kaynaklardan da geliyordu. Longpre, o zamanlar AI veri kümeleri, bireysel görevleri karşılamak üzere farklı kaynaklardan özel olarak seçilip toplanıyordu.
Daha sonra 2017'de dil modelleri için temel mimari olan dönüştürücüler icat edildi ve AI sektörü, modeller ve veri kümeleri ne kadar büyükse performansın o kadar iyi olacağını gördü. Bugün, çoğu AI veri kümesi interneti ayırmadan malzemeleri toplamayı tercih ederek oluşturuluyor. 2018'den bu yana, web, ses, görüntü ve video gibi tüm medyada kullanılan veri kümeleri için baskın kaynak haline geldi ve kazınmış veri ile daha özelleştirilmiş veri kümeleri arasında bir boşluk ortaya çıktı ve büyüdü.
Longpre, "Temel model geliştirmede, yetenekler için veri miktarı ve heterojenliğiyle web'in önemi yokmuş gibi görünüyor." dedi. Ölçek gereksinimi ayrıca sentetik verilerin kullanımını da büyük ölçüde artırdı.
Son birkaç yılda ayrıca videolar ve resimler üretebilen çok modlu üretken AI modelleri ortaya çıktı. Büyük dil modelleri gibi, mümkün olduğunca çok veriye ihtiyaç duyuyorlar ve bunun için en iyi kaynak YouTube oldu.
Görüntülü modeller için, bu grafikte görüldüğü gibi, hem konuşma hem de görüntü veri kümelerinin %70'i bir kaynaktan geliyor.
Bu, YouTube'un sahibi olan Google'ın ana şirketi Alphabet için bir kazanç olabilir. Metin web'de ve birçok farklı web sitesi ve platform tarafından kontrol edildiğinden, video verileri tek bir platformda son derece yoğunlaşmış durumda.
Longpre, "Web'deki en önemli verilerin çok büyük bir bölümüne bir şirketin elinde çok fazla güç toplanması anlamına geliyor." diyor.
Ayrıca Google'ın kendi AI modellerini geliştirmesi de, şirketin bu verileri rakipleri için nasıl sunacağını sorgulamayı gündeme getiriyor, diye ekliyor AI Now Enstitüsü'nün eş-başkan yöneticisi Sarah Myers West.
Myers West, "Verileri sanki doğal bir kaynakmış gibi düşünmek yerine, belirli süreçler aracılığıyla oluşturulduğunu düşünmek önemli." diyor.
"Çoğu AI'nın, etkileşimde bulunduğumuz AI'nin çoğunun veri kümeleri, büyük, kar odaklı şirketlerin amaçlarını ve tasarımlarını yansıtıyorsa, bu, o büyük şirketlerin çıkarlarını yansıtan şekillerde dünyamızın altyapılarını yeniden şekillendiriyor." diyor.
Bu tek kültür ayrıca, veri kümesinde insan deneyiminin ne kadar doğru bir şekilde yansıtıldığı ve hangi tür modeller oluşturduğumuz konusunda sorular gündeme getiriyor, diye ekliyor, teknoloji şirketi Cohere'ın araştırma başkanı ve Data Provenance Girişimi'nde yer alan Sara Hooker.
İnsanlar YouTube'a belirli bir kitle göz önünde bulundurarak video yüklüyor ve bu videolarda insanların davranış biçimleri genellikle çok özel bir etki için tasarlanıyor. Hooker, "[Veri] insanlığın tüm inceliklerini ve varoluş şekillerimizi yakalıyor mu?" diye soruyor.
Gizli kısıtlamalar
AI şirketleri genellikle modelleri eğitmek için kullandıkları verileri paylaşmıyor. Bunun bir nedeni, rekabet avantajlarını koruma isteğidir. Diğer bir neden de, veri kümelerinin karmaşık ve şeffaf bir şekilde paketlenip dağıtılması nedeniyle, muhtemelen tüm verilerin nereden geldiğini bilmiyor olabilirler.
Ayrıca, bu verilerin nasıl kullanılacağı veya paylaşılacağı hakkındaki herhangi bir kısıtlamanın tam bilgilerine sahip olmayabilirler. Data Provenance Girişimi'ndeki araştırmacılar, veri kümelerinin genellikle ticari amaçlar için kullanımını sınırlayan kısıtlayıcı lisanslar veya koşullar içerdiğini buldu.
Hooker, "Veri soyağacında bu tutarsızlık, geliştiricilerin hangi verileri kullanacaklarına dair doğru kararı vermelerini çok zorlaştırıyor." diyor.
Longpre de, modelinizi telif hakkı korunan veri üzerinde eğittiğinizden tamamen emin olmanın neredeyse imkansız olduğunu ekliyor.
Son zamanlarda OpenAI ve Google gibi şirketler, web'deki yayıncılar, Reddit gibi büyük forumlar ve sosyal medya platformlarıyla özel veri paylaşım anlaşmaları imzaladılar. Ancak bu, güçlerini yoğunlaştırmanın bir başka yolu haline geliyor.
Longpre, "Bu özel sözleşmeler interneti, kimin erişebileceğine ve kimin erişemeyeceğine dair çeşitli bölgelere ayırabilir." diyor.
Bu eğilim, böyle anlaşmaları karşılayabilen en büyük AI oyuncularına, araştırmacılar, kar amacı gütmeyen kuruluşlar ve küçük şirketlerin erişim sağlamada zorlanacakları pahasına yarar sağlıyor. En büyük şirketlerin ayrıca veri kümelerini taraması için en iyi kaynakları var.
Longpre, "Bu, açık web'de bu ölçüde görmediğimiz yeni bir asimetrik erişim dalgası." diyor.
Batı mı, geri kalan mı?
AI modellerini eğitmek için kullanılan veri, Batı dünyasına da büyük ölçüde eğimli. Araştırmacıların analiz ettiği veri kümelerinin %90'ından fazlası Avrupa ve Kuzey Amerika'dan geldi ve %4'ünden azı Afrika'dan geldi.
Hooker, "Bu veri kümeleri dünyamızın ve kültürümüzün bir kısmını yansıtıyor ancak diğerlerini tamamen dışlıyor." diyor.
Eğitim verilerinde İngilizce'nin baskınlığı, internetin hala %90'ının İngilizce olması ve dünyanın hala çok sayıda yerinde internet bağlantısının zayıf veya hiç olmamasıyla kısmen açıklanabilir, araştırma ekibinin bir parçası olmayan Hugging Face'in baş etikisti Giada Pistilli söylüyor. Ancak başka bir neden de kolaylıktır, ekliyor: Diğer dillerdeki veri kümelerini bir araya getirmek ve diğer kültürleri dikkate almak bilinçli bir niyet ve çok fazla çalışma gerektirir.
Bu veri kümelerinin Batılı odaklılığı, çok modlu modellerde özellikle belirgin hale geliyor. Örneğin, bir AI modeline bir düğün manzarası ve sesleri için bir istekte bulunulduğunda, yalnızca Batı düğünlerini temsil edebilir, çünkü bunun üzerine eğitilmiş tüm bilgiler bu olabilir, diyor Hooker.
Bu, önyargıları pekiştiriyor ve belirli bir ABD merkezli dünya görüşünü öne çıkaran ve diğer dilleri ve kültürleri yok eden AI modelleri oluşturabilir.
Hooker, "Dünyanın her yerinde bu modelleri kullanıyoruz ve gördüğümüz dünya ile bu modeller için görünmez olan arasında büyük bir farklılık var." diyor.