'Açık' AI sistemleri aslında neden kapalıdır ve bu neden önemlidir?

Burada büyük yapay zekâ sistemlerinin oluşturulmasında ve kullanılmasında sıklıkla yer alan materyalleri – modeller, veri, emek, çerçeveler ve hesaplama gücünü – inceliyoruz (2, 64). Bu, bu sistemlerin hangi kısımlarının açık hale getirilebileceğini veya getirilemeyeceğini, hangilerinin getirilemeyeceğini ve nasıl getirilebileceğini değerlendirmemize yardımcı olur.

Yapay Zeka Modelleri

Açık yapay zekâ hakkındaki devam eden tartışmaların çoğu, yapay zekâ sisteminin yalnızca bir parçası olan ve kendi başlarına bir yapay zekâ sisteminin tüm geliştirme-yayınlama yaşam döngüsünü hesaba katmayan yapay zekâ modellerine odaklanır. Bir yapay zekâ modeli, büyük miktarda veri kullanılarak eğitilmiş ve değerlendirilmiş, verilen bir girdiye karşılık istatistiksel olarak olası çıktıları üreten, sayısal ağırlıklar olarak saklanan algoritmik bir sistemdir. Örneğin, ChatGPT, büyük miktarda metin verisi üzerinde eğitilmiş olan ve bunların büyük bir kısmı web'den toplanmış olan üretken önceden eğitilmiş dönüştürücü (GPT) modellerini uygulayarak çalışır. Bu GPT modelleri, her biri ayrı kitaplıklar ve bakım becerisi gerektiren ve var olduğu sürece bunları korumak için yetenekli kişiler gerektiren bir web istemcisi ve iOS ve Android uygulamaları da dahil olmak üzere ChatGPT'nin istemciye özgü yazılım paketinin bir parçasıdır (48). Bu istemciler, GPT modellerini yalnızca kullanıcı arayüzünün bir parçası olarak içerir. Eğitiminin ardından, bir yapay zekâ modeli, yeniden kullanım için açık bir lisans altında veya diğer türlü çevrimiçi olarak kullanılabilir hale getirilmek üzere diğer yazılım kodları gibi yayınlanabilir. Daha önce eğitilmiş bir yapay zekâ modelini yeniden kullanmak, altta yatan eğitim veya değerlendirme verilerine erişmeyi gerektirmez, ayrıca ağırlıkların veya diğer sistem ayrıntılarının kullanıma sunulmasını da gerektirmez. Bu anlamda, açık olarak etiketlenen birçok yapay zekâ sistemi terimi gevşek bir şekilde kullanmaktadır. Anlamlı belgeler ve erişim sağlamak yerine, belgelenmemiş verileri miras alan, insan geri bildirimiyle pekiştirme öğreniminden (RLHF) eğitim verilerini ve iş süreci bilgilerini sağlamayan ve bulgularını yayınlamanın yanı sıra bunları bağımsız olarak gözden geçirilmiş yayınlarda belgelemeyen kapalı modellerin etrafındaki birer zar gibi çalışmaktadır (15).

Şu anda, bazı kamuoyu yeniden kullanım seçenekleri için kullanılabilir büyük ölçekli açık yapay zekâ modelleri mevcuttur: bunlar arasında Meta'nın LLaMA-2 (60. referans) ve LLaMA-3 (43. referans); AWS'de eğitilmiş, Birleşik Arap Emirlikleri Teknoloji Yenilik Enstitüsü tarafından geliştirilen Falcon 40B (65); Microsoft'un Azure'a bağlı olan MosaicML'nin MPT66 modelleri ve Mistral AI'nın Mixtral 8x22B; Fransa'daki Jean Zay süperbilgisayarında eğitilmiş BigScience'ın BLOOM modeli (67). Bunların tümünü tek bir "açık" etiketi altında yerleştirmek, aralarındaki ciddi farklılıklara haksızlık yapmaktadır ve terim etrafındaki kafa karışıklığına katkıda bulunmaktadır.

Hugging Face ve Stability AI gibi şirketler, müşterilerine ve genel kamuoyuna açık yapay zekâ modelleri sunmaktadır. İş modellerinin temeli, kendilerine ait telifli modellerin lisanslanması değil, açık modellerin üzerine ek özellikler ve emek için ücret almaktır; API erişimi, özel veriler üzerinde model eğitimi ve güvenlik ve teknik destek gibi özellikler ücretli hizmet olarak sunulmaktadır (68). Ayrıca, müşterileri için özel modellerin ince ayarını yapmayı, verilen bir görev veya alanda daha önce eğitilmiş modellerin performansını iyileştirmeyi ve ayarlama yapmayı sunmaktadırlar.

Kar amacı gütmeyen EleutherAI, büyük ölçekli açık kaynaklı yapay zekâ modelleri, belgeleri ve bunları eğitmek için kullanılan kod tabanlarını sunmaktadır. EleutherAI, yalnızca büyük ölçekli yapay zekâ araştırmalarına katkıda bulunmaya odaklanmaktadır ve modellerini AI araştırmacıları tarafından kullanılmak üzere çok izin verici Apache 2.0 açık kaynaklı lisansı altında lisanslamaktadır (56). Açık yapay zekâ alanında yer alanlar arasında EleutherAI, tartışmasız en fazla açık AI sistemlerini sunmaktadır.

Birkaç akademik proje de küçük ölçeklerde büyük açık yapay zekâ modelleri üretmiştir. Bunlar arasında tek bir dizüstü bilgisayarda çalışacak şekilde geliştirilmiş, dağıtımının hesaplama açısından yoğun doğası göz önüne alındığında dikkate değer bir başarı olan Stanford'un Alpaca modeli yer almaktadır (70). Ancak, bu son derece hesaplama açısından verimli model tabanlı bir sohbet robotunun çalıştırılması aşırı maliyetli hale gelmiş ve "yanılgıları" nedeniyle riskli hale gelmiş ve ekip bunu durdurmuştur (71).

Yapay zekâ geliştirmedeki mevcut eğilim, veri, hesaplama ve model boyutuna gelince büyük-daha-iyi yaklaşımını benimsemektedir (33). Model ne kadar büyükse, eğitimi ve kalibrasyonu o kadar kaynak yoğun olur ve büyük teknoloji şirketleri dışında üretmesi o kadar zor olur. En büyük açık erişimli yapay zekâ modelinin şu anda LLaMA-3 olduğunu ve 15 trilyon jeton üzerinde eğitildiğini biliyoruz (42), ancak modellerin veri kümeleri hakkındaki bilgiler kapalı ve sözde açık modeller arasında gittikçe daha opak hale gelmektedir. OpenAI, GPT-4'ün boyutunu yayınlamamıştır (72. referans), Anthropic'in teknik raporunda Claude 3'ün eğitim verilerinin boyutuna değinilmemiş (73) ve Mistral AI, açık erişimli modelinin eğitim verilerinin boyutunu bile "alanın son derece rekabetçi yapısı" gerekçesiyle yayınlamamıştır (74). Ayrıca, bir modelin belirli bir görev veya alana göre ince ayarlanması her uygulamada hesaplama açısından daha az pahalıdır (ancak toplu olarak çok daha çevresel olarak pahalıdır), ancak bu üçüncü taraflar, inceleyemedikleri ve kopyalayamadıkları modellerin üzerine inşa edilebilir, bu da "yapay zekânın üst sınıfı" oluşturur (33).

Veri

Büyük ölçekli yapay zekâ sistemlerini oluşturmak için hassas (ve emek yoğun) özelliklere sahip veriler gereklidir. Bazı araştırmacılar, büyük ölçekli yapay zekâ oluştururken veriye erişimin hesaplamaya erişimden daha önemli olabileceğini iddia etmiştir (48, 75). İkisi de gereklidir ve mevcut "ölçeklendirme hız yarışında" her ikisinden de ne kadar çok varsa, modeller o kadar "iyi" performans gösterir (33, 76).

Veriler sıklıkla kendilerini açık olarak pazarlayan birçok yapay zekâ sunumunun kapalı bir unsurudur: birçok büyük ölçekli yapay zekâ modeli, sistemi eğitmek için kullanılan altta yatan veriler hakkında temel bilgileri bile sağlamamakta, altta yatan eğitim verilerini açıkça sunmayı veya kökenini belgelemeyi düşünmemektedirler (77). Veri şeffaflığının olmaması, açık yapay zekâ ile ilgili tüm iddiaların herhangi bir şekilde geçerliliğini ve sağlam bilim için gerekli olan doğrulama veya tekrarlanabilirlik çalışmalarını engellemektedir.

Yapay zekâ geliştirme için veri kümeleri oluşturmak amacıyla veri toplamak, özellikle yapay zekâ sektöründeki yoğunlaşma ile ilgili endişeler açısından özütleme ve fikri mülkiyet sorunlarını gündeme getirmektedir. Bu veri kümeleri, ister açık ister kapalı olsun, genellikle web'den telif hakkına sahip görüntüler, metin ve kod alarak veya çoğunluk dünyasındaki dil grupları tarafından derlenen veri kümelerini kopyalayarak ve yeniden kullanarak toplanmaktadır (örneğin, GhanaNLP (78) ve Lesan AI (79)). Bu, telif hakkına sahip olmayan içerik olmadan modelleri eğitmenin mümkün olması anlamına gelse de, bu veri kümelerini yapay zekâ modelleri eğitmek ve değerlendirmek için kullanan kişiler genellikle başkalarının çalışmalarını ve fikri mülkiyetini kullanmaktadır, bu tür iddialar yasal olarak sorgulanırken (81) veya her iki durumda da davaların maliyetini göze alırken iyi niyetli kullanım iddiasında bulunmaktadır (82). Yasal veya değil, şimdi yazarların, sanatçıların ve programcıların geçim kaynaklarını tehdit eden sistemler oluşturmak için web verilerini ayrım gözetmeksizin toplama uygulaması, bu "web" verilerini ilk başta üretenlerin emekleri üzerinde endişe ve öfkeyi artırmıştır (83) ve bu kişiler adına açılan davalar devam etmektedir (84).

Mevcut veri iş uygulamalarında bulunan sömürge yankıları göz önüne alındığında bu endişeler özellikle acildir: yapay zekâ sistemleri sıklıkla çoğunluk dünyasından veri ve iş gücüne dayanmaktadır (85) ve GhanaNLP açık kaynak projesinin kurucusu, büyük teknoloji şirketlerinin açık kaynaklı çalışmalarıyla devam eden sömürgeci sömürüye olanak tanıdığını belirtmiştir (86, 87, 88). Bu tür sömürü ayrıca, Te Hiku Media gibi projeler tarafından örneklendiği üzere çoğunluk dünyasındaki veri egemenliği hareketleriyle de doğrudan çelişmektedir. Bu projeler, "çoğunluk tangata ve diğer yerli halkların açık kaynaklı teknolojilerden yararlanmalarını sağlayan kaynaklara erişemeyebileceğini... Verilerimizi ve bilgilerimizi açık kaynaklı hale getirerek, modern dünyada kendimizi dijital olarak sömürgeleştirmeye devam ettiğimizi" belirtmektedir (89).

Bu durum, sorunu daha da artıran kapalı veri kümelerini savunma değildir. Bu, açık veri kümelerinin neyi başarabileceği ve neyi başaramayacağı konusunda netlik duyma çağrısıdır. Veri kümeleri incelemeye açılmadığında veya anlaşılmaz derecede büyük olduğunda, bu veri kümelerinin başkalarının fikri mülkiyetini yıkaıp yıkamadığını veya özellikle ticari olmayan kullanım için lisanslanan veya belirli egemenlik emirleri altında lisanslanan verileri ticari olarak kullanıp kullanmadığını kontrol etmek çok zorlaşır. Örneğin, Microsoft'un GitHub Copilot programlama asistanı -kod üreten üretken bir yapay zekâ sistemi- Genel Kamu Lisansı (GPL) altında lisanslanan kod üzerinde eğitildiği ve daha sonra aynı şartlar altında yayınlanması gereken türetilmiş kodu yeniden ürettiği görülmüştür (90). Ancak, üretken yapay zekâ sistemlerini eğitmek için izin verici lisanslı kodları kullanmak da, mevcut üretken yapay zekâ sistemlerinin şu anda sunmadığı atıfları gerektiren hükümleri benzer şekilde ihlal edebilir.

Pile (91) ve Common Crawl (92, 93) gibi veri kümeleri yaygın olarak kullanılabilir, ancak bu veri kümelerini büyük yapay zekâ modelleri oluşturmak amacıyla kullanışlı hale getirmek için ek emek gerekir. Performanslı bir yapay zekâ oluşturmak için veri kümelerinin dikkatli bir şekilde seçilmesi ve yeniden düzenlenmesi gerekir: BigScience'ın BLOOM modeli, 498 veri kümesinin bir bileşimi üzerinde eğitilmiştir ve bu, karmaşık bir veri yönetimi süreci ile birlikte, kod, spam ve diğer gürültüleri gidermek için manuel bir kalite filtreleme sürecini kapsamaktadır (67). Büyük şirketler tarafından kullanılan büyük veri kümelerinin de orantılı olarak benzer düzeyde emek gerektirdiği varsayılıyor olsa da, bunlar hakkında, açık olduğunu iddia edenler dahil, neredeyse hiçbir şey bilmiyoruz.

Emek

Büyük ölçekli yapay zekâ sistemlerinin düzenlenmiş, etiketlenmiş, dikkatlice organize edilmiş verilere duyduğu doymak bilmez ihtiyaç, büyük ölçekli yapay zekâ oluşturmanın önemli miktarda insan emeği gerektirdiği anlamına gelir. Bu emek, yapay zekâ sistemlerinin hesaplama yoluyla ürettikleri "zekanın" yaratılmasını sağlar (94, 95). Bu emek şu şekilde özetlenebilir:

Veri etiketleme ve sınıflandırma
Model kalibrasyonu (insan geri bildirimiyle pekiştirme öğrenimi ve benzer süreçler)
İçerik moderasyonu, güven ve güvenlik ve diğer yayın sonrası destek türleri
Mühendislik, ürün geliştirme ve bakım.

Üretken yapay zekâ sistemleri, geniş bir yelpazede insan tarafından oluşturulmuş metin, konuşma veya görsel üzerinde eğitilmekte ve değerlendirilmektedir. Bir modelin saldırgan veya tehlikeli materyalleri yeniden üretmeden insan benzeri çıktılar oluşturabilmesi için model çıktılarının "kabul edilebilir" sınırlar içinde kalmasını sağlamak için yoğun insan müdahalesi gerekir (96) - ve bu nedenle şirketler ve diğer kuruluşlar tarafından gerçek dünyada pazarlanmasını, satılmasını ve uygulanmasını sağlar (müşterilerinin ve itibarlarının korunmasına yönelik). Bu süreç genellikle insan geri bildirimiyle pekiştirme öğrenimi veya RLHF olarak adlandırılır, bu teknik bir isim olsa da, pratikte işçilerin üretken bir yapay zekâ sistemi tarafından üretilen birkaç metin parçasından hangisinin insan tarafından üretilmiş metne en çok benzediğini seçme talimatı aldığı ve seçimlerinin sistem tarafından geri bildirildiği binlerce saatlik insan emeğini içerir (97). Veri hazırlığı ve model kalibrasyonu, yapay zekâ sistemlerinin şeklini alan verilere anlam atfetmek için temel olsa da, geniş kapsamlı, nadiren fark edilen bir emek gerektirir, ancak şirketler bu veri işlerine dayanan iş uygulamaları hakkında genellikle hiçbir bilgi yayınlamaz ve bu tür bilgileri yayınlamamak nadiren bir kapalı sistem belirtisi olarak eleştirilir. Bu süreçler hakkında bildiklerimiz genellikle araştırmacı gazeteciliğin, işçiler ve araştırmacıların örgütlenmesinin sonucudur (98, 99, 100, 101, 102, 103).

Verileri düzenlemek, hazırlamak ve sistemleri kalibre etmek için gerekli emek düşük ücretlidir, ancak mevcut yapay zekâ sistemlerini oluşturmak için gerekli işçilerin ve zamanın miktarı göz önüne alındığında yine de büyük bir maliyet oluşturmaktadır. Bu, büyük yapay zekâ modelleri oluşturmak ve dağıtmak için gerekli kaynaklara demokratik ve açık erişimde başka bir engel oluşturmaktadır (düşük ücretli, belirsiz işçilere ve zarar görmelerine rağmen hiçbir fayda sağlamayan ve bu hayali demokrasi dışı bırakılan bir yapı için demokratik kelimesini kullanamamak gibi).

Geliştirme Çerçeveleri

Geliştirme çerçeveleri, yazılım geliştiricilerinin yazılımı düzenli, tahmin edilebilir ve hızlı bir şekilde oluşturup dağıtmasını kolaylaştırır. Bunlar standart geliştirme uygulamalarının bir parçasıdır ve yapay zekâya özgü değildir. Önceden yazılmış kod parçaları, şablonlaştırılmış iş akışları, değerlendirme araçları ve diğer standartlaştırılmış yöntemler sunarak yaygın geliştirme görevlerine yardımcı olurlar. Bu, daha fazla dönüştürülebilir, etkileşimli ve test edilebilir hesaplama sistemlerinin oluşturulmasına yardımcı olurken, "tekrar tekerleği yeniden icat etme"ye harcanan süreyi en aza indirir ve sistemleri baştan oluştururken kolayca ortaya çıkan hatalardan kaçınır. Genel yazılım geliştirmede olduğu gibi, yapay zekâ geliştirme de birkaç popüler açık kaynaklı geliştirme çerçevesine dayanmaktadır. Bunlar arasında, yapay zekânın nasıl oluşturulduğunu ve dağıtıldığını şekillendiren giderek daha geniş veri kümeleri, veri doğrulama araçları, değerlendirme araçları, model oluşturma araçları, model eğitimi ve dışarı aktarma araçları, ön eğitim kitaplıkları ve daha fazlası yer almaktadır (4).

İki baskın yapay zekâ geliştirme çerçevesi PyTorch ve TensorFlow'dur. Her ikisi de sırasıyla Meta ve Google gibi büyük ticari teknoloji şirketleri içinde oluşturulmuş ve bunları sürdürmeye devam etmektedir. PyTorch çerçevesinde çalışan önceden eğitilmiş birçok yapay zekâ modeli, TensorFlow ile çalışanlardan daha fazladır (33). PyTorch ayrıca akademik yapay zekâ araştırmalarında en popüler çerçevedir ve çoğu akademik makalede kullanılmaktadır (105, 106).

PyTorch başlangıçta Meta tarafından iç kullanım için geliştirilmiş, ancak 2017'de halka açıklanmıştır. PyTorch, Linux Vakfı çatısı altında bir araştırma platformu olarak çalışsa da, finansal olarak hala Meta tarafından desteklenmektedir (107, 108) ve yönetim ve karar alma sorumluluğunu alan başlıca geliştiricileri tüm Meta çalışanlarıdır (109). TensorFlow, başlangıçta 2015'te Google Beyni tarafından geliştirilmiş ve yayınlanmıştır (110. referans) ve çekirdek katkıda bulunanlarının çoğunun da Google tarafından istihdam edildiği Google tarafından yönlendirilip ve finansal olarak desteklenmeye devam etmektedir (111).

Açık kaynaklı geliştirme çerçeveleri, yapay zekâ geliştirme ve dağıtım sürecinin daha hızlı, daha tahmin edilebilir ve daha sağlam olmasını sağlayan araçlar sunar. Ayrıca, bu çerçeveleri geliştiren şirketler için önemli faydaları vardır. En önemlisi, Meta, Google ve çerçeve geliştirmeyi yönetenler, sonuçların kendi şirket platformlarıyla uyumlu olması için yapay zekâ yapımını standartlaştırmaya olanak tanır - böylece geliştiricilerin sonuçların kendi şirket sistemleriyle birleşmesini sağlayan Lego gibi yapay zekâ sistemleri oluşturması sağlanır (112). Meta durumunda, bu, PyTorch kullanılarak geliştirilmiş, ayarlanmış veya dağıtılmış sistemlerin entegre edilmesini ve ticarileştirilmesini kolaylaştırır. Zuckerberg, 2023 kazanç çağrısında bu faydaları açıkça dile getirdi ve şöyle dedi: "[PyTorch], sektördeki standart haline gelmiştir... bizim için son derece değerlidir... teknolojimizle entegre olduğundan, ürünlerimize entegrasyon fırsatları olduğunda, geliştiricilerin ve diğer kişilerin sistemlerimizdeki gereksinimlerimizle uyumlu olmalarını çok daha kolay hale getirmek için çalışırız." (113) ve 2024 kazanç çağrısında da aynı konuyu yineledi (31). Google ve TensorFlow için de aynı durum geçerlidir. Google durumunda, TensorFlow, Google'ın bulut yapay zekâ hesaplama işinin çekirdeğini oluşturan güçlü, telifli Tensor İşleme Birimi (TPU) donanımıyla kolay ve sezgisel bir şekilde çalışacak şekilde oluşturulmuştur. Bu, Google'ın yapay zekâ geliştirme için ticari bulut tekliflerini optimize etmesine, bu ürünleri yapay zekânın motoru olarak konumlandırmasına olanak tanır. Bu şekilde, açık geliştirme çerçeveleri, kurumsal yapay zekâ hakimiyetini pekiştirebilir ve güçlendirebilir.

Açık yapay zekâ geliştirme çerçeveleri, finansör ve yöneticilerinin kârlı hesaplama ve diğer hizmet tekliflerine giriş yolları yaratmasına da izin verebilir. Kurumsal temsilcilerin diğerlerinin dışına çıkarak internet standartlarının yönetimini nasıl yönlendirdiklerine benzer şekilde, yapay zekâ şirketleri araştırmacıların ve geliştiricilerin çalışma uygulamalarını bu şekilde şekillendirir (33) böylece yeni yapay zekâ modelleri kolayca entegre edilebilir ve ticarileştirilebilir. Bu, çerçeveyi sunan şirkete ekosistem içinde önemli dolaylı bir güç verir: geliştiriciler, araştırmacılar ve bu araçlarla etkileşimde bulunan öğrenciler için şirketin tercih ettiği çerçevedeki normlara eğitim sağlamak ve bu şekilde yapay zekâ alanını -ve bazı yönlerden ele geçirmek- yardımcı olmaktadır (4, 115).

Hesaplama Gücü

Büyük yapay zekâ modelleri oluşturmak, büyük veri kümeleri gerektirir ve bunları işlemek için büyük hesaplama gücü gerektirir (49, 76). Günümüz yapay zekâ geliştirme, ölçeklendirme yarışıyla karakterize edilir (33), eski tahminler, modellerin eğitimi için kullanılan hesaplamanın 6 yılda yaklaşık 300.000 kat arttığını, yaklaşık her yıl 8 kat arttığını göstermektedir (116), ve son veri kullanım tahminleri, veri kümelerinin büyüklüğünde yaklaşık yılda 2,4 kat artış göstermektedir (117). Hesaplamaya erişim, büyük yapay zekâ sistemlerinin geniş çaplı kamuoyu kullanılabilirliği için pratik yeniden kullanılabilirlik açısından önemli bir engel olmaya devam etmektedir, çünkü eğitim ve akıl yürütme sürecinde büyük bir maliyet vardır (bir örnekte eğitim için sırasıyla 51.686 kWh, 7.571 kWh ve 1 × 10−4 kWh enerji maliyetleri (118)). Dahası, özel donanımdan maksimum hesaplama kapasitesinin çıkarılması, özel ve bazı durumlarda telif hakkına sahip yazılım sistemleri gerektirir.

Nvidia'nın bu alandaki hakimiyetini abartmak zor: Şirket, en gelişmiş yapay zekâ çipleri için %70-90 pazar payına sahip (119). Üstelik, dört milyondan fazla geliştirici, kısmen Nvidia tarafından geliştirilmiş ve yalnızca şirketin telifli grafik işlem birimlerinde (GPU'lar) (orijinal olarak oyun için geliştirilmiş ancak şu anda çoğunlukla yapay zekâ eğitiminde kullanılan özel bilgisayar işlemcileri) eğitim desteği sağlayan, kısmen telif hakkına sahip "de facto sektör standardı" olan CUDA'ya (120, 121) dayanmaktadır. CUDA geliştirme ekosistemi, Nvidia'nın güçlü pazar hakimiyetinin önemli bir unsuru (şirketin GPU pazar payı %88'dir) (122) ve 2006 yılından beri beslenip genişletilmiştir, bu da ona büyük bir başlangıç avantajı sağlamıştır. Apple'ın geliştirme ekosistemi gibi -ki bu, şirketin telif hakkına sahip işletim sistemleri için uygulama ve hizmetler oluşturmayı düşünenlere yüksek kaliteli bileşenler sunar- CUDA, yapay zekâ araştırmacıları ve geliştiricileri için kapsamlı ve norm oluşturan kaynaklar sağlamaktadır.