Veri Etiketleme Yapay Zeka Alanında Yeni Trend | Yapay zeka ajanları oluşturma yarışı, insan uzmanlara olan talebi artırıyor
Bu yazın başlarında Meta, çoğu insanın daha önce hiç duymadığı bir şirkete 14,3 milyar ABD doları tutarında bir yatırım yaptı: Scale AI. Meta'ya %49 hisse veren bu anlaşma, Meta'nın rakiplerini -OpenAI ve Google dahil- Scale AI ile olan sözleşmelerinden çıkmak için büyük bir telaşa sürükledi; çünkü bu anlaşmanın Meta'ya onların yapay zekâ modellerini nasıl eğittikleri ve ince ayarladıkları konusunda bilgi verebileceğinden korkuyorlardı.
Scale AI, yapay zekâ modelleri için veri etiketleme alanında lider bir şirkettir. Bu sektör, özünde adından da anlaşılacağı gibi bir iş yapmaktadır. En temel örnek, ChatGPT'yi daha önce kullandıysanız muhtemelen gördüğünüz başparmak yukarı ve başparmak aşağı simgelerinde bulunabilir. Biri bir yanıtı olumlu, diğeri olumsuz olarak etiketler.
Ancak yapay zekâ modelleri, hem model büyüklüğü hem de popülaritesi açısından büyüdükçe, bu görünüşte basit görev, bir modeli eğitmek veya ince ayar yapmak isteyen her kuruluşun yönetmesi gereken bir canavara dönüşmüştür.
Cohere Labs'ın araştırma başkan yardımcısı Sara Hooker, "Hesaplama gücünün büyük çoğunluğu, kalitesi düşük ön eğitim verilerinde kullanılıyor," diyor. "Bunu hafifletmemiz, iyileştirmemiz, eğitim sonrasında süper yüksek kaliteli altın tozu verileri uygulamamız gerekiyor."
Veri Etiketleme Nedir?
Bilgisayar bilimcileri geçmişte, "çöp içeri, çöp dışarı" aksiyomuna güvenmişlerdir. Bu, kötü girdilerin her zaman kötü çıktılara yol açtığını öne sürmektedir.
Ancak, Hooker'ın da belirttiği gibi, modern yapay zekâ modelleri eğitimi bu aksiyomu reddediyor. Büyük dil modelleri, çoğunluğu düşük kaliteli olan (Reddit gönderileri akademik makalelerden daha fazla olma eğilimindedir) kamu internetinden toplanan ham metin verileri üzerinde eğitilir.
Eğitim verilerini temizlemek ve sıralamak teoride mantıklıdır, ancak modern modeller petabaytlarca veri üzerinde eğitim aldığından, ilgili verilerin muazzam hacmi nedeniyle pratikte imkansızdır. Bu bir sorun teşkil ediyor, çünkü popüler yapay zekâ veri eğitim setlerinin ırkçı, cinsiyetçi ve suç içerikli veriler içerdiği biliniyor. Eğitim verileri, ironik tavsiyeler veya kasıtlı olarak yanıltıcı tavsiyeler gibi daha ince sorunları da içerebilir. Kısacası: Eğitim verilerine çok fazla çöp giriyor.
Bu nedenle, veri etiketleme, bu karmaşayı temizlemek için devreye giriyor. Eğitim verilerinin tüm sorunlu unsurlarını temizlemeye çalışmak yerine, insan uzmanlar, model eğitildikten sonra yapay zekâ modelinin çıktısı hakkında manuel olarak geri bildirim sağlar. Bu, modeli şekillendirir, istenmeyen yanıtları azaltır ve modelin tavrını değiştirir.
Veri etiketleme şirketi Perle'nin kurucu yapay zekâ bilimcisi Sajjad Abdoli, yapay zekâ modellerini ince ayar yapmak için "altın standartlar" oluşturma sürecini açıklıyor. Bu standartın tam olarak ne içerdiği, modelin amacına bağlı olacaktır. Abdoli, "Müşterilerimizi prosedür boyunca yönlendiriyoruz ve kalite değerlendirmesi için kriterler oluşturuyoruz" diyor.
Tipik bir sohbet robotunu ele alalım. Çoğu şirket, yardımcı, doğru ve özlü bir sohbet robotu oluşturmak istiyor, bu nedenle veri etiketleyiciler bu hedefleri göz önünde bulundurarak geri bildirim sağlıyor. İnsan veri etiketleyiciler, bir dizi test isteminde model tarafından oluşturulan yanıtları okurlar. İstemi özlü ve doğru bilgilerle yanıtladığı görünen bir yanıt olumlu kabul edilir. Hakaretle biten dolambaçlı bir yanıt ise olumsuz olarak etiketlenir.
Ancak tüm yapay zekâ modelleri sohbet robotu olmak veya metne odaklanmak zorunda değildir. Bunun aksine, Abdoli, Perle'nin bir model üzerinde çalışan bir müşteriye yardımcı olma çalışmalarını anlattı; bu model görüntüleri etiketlemek için kullanılıyordu. Perle, insan uzmanlarla sözleşme imzalayarak, binlerce görüntünün içindeki nesneleri titizlikle etiketleyerek, modelin iyileştirilmesinde kullanılabilecek bir standart oluşturdu. Abdoli, "İnsan uzmanlarının bir görüntüde bahsettiği şey ile makine öğrenimi modelinin tanıdığı şey arasında büyük bir fark bulduk" diyor.
Meta'nın Scale AI'ya Milyarlarca Dolar Yatırım Yapmasının Sebebi
Veri etiketleme, herhangi bir yapay zekâ modelini ince ayar yapmak için gereklidir, ancak bu tek başına Meta'nın Scale AI'ya 14 milyar dolardan fazla yatırım yapmaya istekli olmasının nedenini açıklamaz. Bunu anlamak için, yapay zekâ sektörünün son takıntısını anlamalıyız: temsilci yapay zekâ.
OpenAI'nın CEO'su Sam Altman, yapay zekânın bir kişinin 1 milyar dolar (veya daha fazla) değerinde bir şirket kurmasını mümkün kılacağına inanıyor. Ancak bu hayali gerçekleştirmek için yapay zekâ şirketlerinin, günler hatta haftalar sürebilecek karmaşık çok adımlı iş akışlarını ve çok sayıda yazılım aracının kullanımını içerebilen temsilci yapay zekâ modelleri icat etmeleri gerekiyor.
Ve veri etiketlemenin temsilci yapay zekâ tarifinin önemli bir bileşeni olduğu ortaya çıktı.
Yapay zekâ veri etiketleme şirketi SuperAnnotate'in kıdemli başkan yardımcısı Jason Liang, "Birbirleriyle etkileşimde bulunan birden fazla temsilcinin olduğu bir evren düşünün," dedi. "Birinin gelip kontrol etmesi gerekecek: Temsilci doğru aracı mı aradı? Bir sonraki temsilciyi doğru şekilde mi çağırdı?"
Aslında, sorun ilk bakışta göründüğünden daha karmaşıktır, çünkü hem belirli eylemlerin hem de yapay zekâ temsilcisinin genel planının değerlendirilmesini gerektirir. Örneğin, birkaç temsilci, her biri haklı görünen nedenlerle bir diğerini sırayla arayabilir. Liang, "Ama aslında, ilk temsilci doğrudan dördüncü temsilciyi arayabilir ve ortadaki ikisini atlayabilirdi" diyor.
Temsilci yapay zekâ ayrıca, bir temsilcinin sonuçlarının yaşam veya ölüm sonuçları doğurabileceği yüksek riskli alanlarda sorunları çözebilen modellere ihtiyaç duyar. Perle'den Abdoli, önde gelen bir örnek olarak tıbbi kullanımına işaret etti. Sadece tek bir alanda veya sınırlı koşullar altında bile olsa doğru tanı koyabilen temsilci bir yapay zekâ doktorunun son derece değerli olacağı kanıtlanabilir. Ancak böyle bir temsilcinin oluşturulması, mümkün olsa bile, veri etiketleme sektörünü sınırlarına kadar zorlayacaktır.
Abdoli, "Tıbbi notlar veya BT taramalarından gelen veriler veya benzer veriler topluyorsanız, verileri etiketlemek ve açıklama yapmak için doktorlar bulmanız gerekir. Ve bunlar oldukça pahalıdır," diyor. "Ancak bu tür faaliyetler için verilerin doğruluğu ve kalitesi en önemli şeydir."
Sentetik Verilerin Yapay Zekâ Eğitimi Üzerindeki Etkisi
Ancak, yapay zekâ modelleri modelleri değerlendirmek ve iyileştirmek için insan uzmanlarına ihtiyaç duyuyorsa, bu ihtiyaç nerede sona eriyor? Gerçek tıbbi iş yapmak yerine ofislerde veri etiketleyen doktor ekiplerimiz olacak mı?
İşte burada sentetik veriler devreye giriyor.
Tamamen insan uzmanlarına güvenmek yerine, veri etiketleme şirketleri genellikle diğer yapay zekâ modelleri için eğitim verileri oluşturmak üzere yapay zekâ modelleri kullanır; temelde makinelerin makineleri eğitmesine izin verir. Modern veri etiketleme genellikle, istenen model davranışını güçlendirmek için tasarlanmış manuel insan geri bildirimi ve otomatik yapay zekâ öğretmenlerinin bir karışımıdır.
Cohere'nin Hooker'ı, "Bir öğretmeniniz var ve bu öğretmen, bu durumda sadece başka bir derin sinir ağı, bir örnek üretiyor," diyor. "Ve ardından öğrenci modeli bu örnek üzerinde eğitiliyor." Altını çizdiği nokta, yüksek kaliteli bir öğretmen kullanmak ve tek bir modele güvenmek yerine birden fazla farklı yapay zekâ "öğretmen" kullanmaktır. Bu, yapay zekâ tarafından oluşturulan verilerle eğitilen bir yapay zekâ modelinin çıktı kalitesinin önemli ölçüde çöktüğü model çöküşü sorununu önler.
Ocak ayında ne kadar ucuz bir şekilde eğitildiğiyle dalgalar yaratan aynı isimli Çinli şirketin modeli DeepSeek R1, sentetik verilerin pratikte nasıl çalışabileceğinin aşırı bir örneğidir. Geleneksel insan geri bildirimi olmadan, OpenAI, Anthropic ve Google'ın en iyi modellerine kıyaslanabilir bir akıl yürütme performansı elde etti. Bunun yerine, DeepSeek R1, birkaç bin insan tarafından seçilmiş düşünce zincirine dayalı akıl yürütme örneğinden oluşan "soğuk başlangıç" verileri üzerinde eğitildi. Bundan sonra, DeepSeek, modelin akıl yürütme davranışını güçlendirmek için kural tabanlı ödüller kullandı.
Ancak, SuperAnnotate'ten Liang, sentetik verilerin sihirli bir değnek olmadığı konusunda uyardı. Yapay zekâ sektörü genellikle mümkün olduğunca otomatikleştirmeye istekli olsa da, modelleri giderek daha karmaşık görevler için kullanma girişimleri, yalnızca insanların yakalayabileceği uç durumları ortaya çıkarabilir. "Şirketlerin modelleri üretime sokmaya başlamasını görmeye başladığımızda, hepsi şu gerçeği fark ediyor: Aman Tanrım, insanları karışıma katmam gerekiyor," diyor.
Scale AI, Perle ve SuperAnnotate (düzinelerce diğerinin yanı sıra) gibi veri etiketleme şirketlerinin ilgi odağı olmasının nedeni tam olarak budur. Karmaşık veya niş kullanım durumlarını ele almak için temsilci yapay zekâ modellerini ince ayar yapmak için en iyi yöntem - ister insan geri bildirimi, ister sentetik veriler, ister bir kombinasyon veya henüz keşfedilmemiş yeni teknikler olsun - açık bir soru olarak kalmaktadır. Meta'nın 14 milyar dolarlık bahsi, cevabın ucuz olmayacağını gösteriyor.