Bugün öğrendim ki: "Ouroboros Etkisi" - orijinal, insan yapımı içerik eksikliğinden kaynaklanan yapay zeka modellerinin çöküşü; böylece yapay içerikle "beslenmeye" zorlanması, böylece aptallığın, aynılığın ve entelektüel çürümenin hızla artması

Mitoloji ürünü Ouroboros'u gördüğünüzde, "Bu uzun sürmez" diye düşünmek son derece mantıklıdır. Kendi kuyruğunu yiyen güçlü bir sembol, ancak pratikte zor. Bu durum, yeni bir çalışmaya göre, kendi ürettiği verilerle birkaç tur eğitim aldıktan sonra "model çöküşü" riskiyle karşı karşıya olan yapay zekâ için de geçerli olabilir.

Nature dergisinde yayınlanan bir makalede, Oxford'da Ilia Shumailov liderliğindeki İngiliz ve Kanadalı araştırmacılar, günümüz makine öğrenimi modellerinin "model çöküşü" adını verdikleri bir sendroma temelde savunmasız olduğunu gösteriyor. Makalenin girişinde yazdıkları gibi:

Diğer modeller tarafından üretilen verilerden ayırım gözetmeksizin öğrenmenin, zamanla modellerin gerçek altta yatan veri dağılımını unutmasına neden olan dejeneratif bir süreç olan "model çöküşü"ne neden olduğunu keşfettik...

Bu nasıl oluyor ve neden? Süreç aslında oldukça anlaşılır.

Yapay zekâ modelleri özünde desen eşleme sistemleridir: Eğitim verilerindeki desenleri öğrenirler, ardından istemleri bu desenlerle eşleştirir ve satırdaki en olası sonraki noktaları doldururlar. "İyi bir snickerdoodle tarifi nedir?" diye sorsanız da, "ABD başkanlarını göreve başlama yaşlarına göre sıralayın" diye sorsanız da, model temelde o kelime dizisinin en olası devamına geri dönüyor. (Görüntü oluşturucular için farklıdır, ancak birçok yönden benzerdir.)

Ancak mesele şu ki, modeller en yaygın çıktılara yöneliyor. Size tartışmalı bir snickerdoodle tarifi değil, en popüler, sıradan olanı verecektir. Ve bir görüntü oluşturucusuna bir köpek resmi çizmesini isterseniz, eğitim verilerinde yalnızca iki resmini gördüğü nadir bir ırk vermez; muhtemelen bir golden retriever veya bir Labrador alacaksınız.

Şimdi, bu iki şeyi internetin yapay zekâ tarafından üretilen içerikle dolup taştığı ve yeni yapay zekâ modellerinin bu içeriği alıp üzerinde eğitim alma olasılığının yüksek olduğu gerçeğiyle birleştirin. Bu, çok sayıda golden görecekleri anlamına geliyor!

Ve bu golden (veya orta halli blog spam'i, veya sahte yüzler veya oluşturulmuş şarkılar) çoğalmasıyla eğitim aldıktan sonra, bu onların yeni gerçekliğidir. Köpeklerin %90'ının gerçekten golden olduğunu düşünecekler ve bu nedenle bir köpek oluşturmaları istendiğinde, golden oranını daha da yükseltecekler – ta ki temelde köpeklerin ne olduğunu tamamen unutup kaybolana kadar.

Nature'ın ilgili yorum makalesindeki bu harika illüstrasyon, süreci görsel olarak gösteriyor:

Benzer bir şey, temelde eğitim kümesindeki en yaygın verileri cevaplar için tercih eden dil modelleri ve diğerlerinde de oluyor – ki açıkçası bu genellikle doğru olan şeydir. Şu anda kamu web'ini oluşturan bol miktarda yemle karşılaşana kadar gerçek bir sorun değil.

Temel olarak, modeller birbirlerinin verilerini yemeye devam ederlerse, belki de farkında olmadan, çökecekleri zamana kadar giderek daha tuhaf ve daha aptallaşırlar. Araştırmacılar çok sayıda örnek ve azaltma yöntemi sunuyor, ancak model çöküşünü en azından teoride "kaçınılmaz" olarak adlandırıyorlar.

Yaptıkları deneylerin gösterdiği gibi olmasa da, olasılık yapay zekâ alanındaki herkesi korkutmalıdır. Eğitim verilerinin çeşitliliği ve derinliği, giderek bir modelin kalitesinde en önemli faktör olarak kabul ediliyor. Daha fazla veri üretmek model çöküşü riskini taşıyorsa, ancak verileriniz tükenirse, bu günümüz yapay zekâsını temelde sınırlandırıyor mu? Olmaya başlarsa, bunu nasıl bileceğiz? Ve sorunu önlemek veya azaltmak için yapabileceğimiz bir şey var mı?

En azından son sorunun cevabı muhtemelen evet, ancak bu endişelerimizi hafifletmemelidir.

Veri kaynaklarının ve çeşitliliğinin nicel ve nitel kıyas ölçütleri yardımcı olacaktır, ancak bunları standartlaştırmaktan çok uzaktayız. Yapay zekâ tarafından üretilen verilerin filigranları, diğer yapay zekâların bundan kaçınmasına yardımcı olacaktır, ancak şimdiye kadar kimse bu şekilde görselleri işaretlemenin uygun bir yolunu bulamadı (peki... ben buldum).

Aslında, şirketler bu tür bilgileri paylaşmaktan caydırılabilir ve bunun yerine Shumailov ve arkadaşlarının "ilk hareket avantajı" dediği şeyi koruyarak, ellerinden gelen tüm değerli orijinal ve insan tarafından üretilen verileri biriktirebilirler.

Web'den toplanan büyük ölçekli verilerden eğitim almanın faydalarını sürdürmek istiyorsak, [model çöküşü] ciddiye alınmalıdır. Gerçekten de, internetten taranmış verilerdeki LLM tarafından üretilen içeriklerin varlığında, sistemlerle gerçek insan etkileşimleri hakkında toplanan verilerin değeri giderek artacaktır.

... [Y]apay zekâ teknolojisinin kitlesel olarak benimsenmesinden önce internetten taranmış verilerle veya insan tarafından büyük ölçekte oluşturulan verilere doğrudan erişim olmadan, daha yeni LLM sürümlerini eğitmek giderek zorlaşabilir.

Yapay zekâ modelleri için potansiyel olarak felaket niteliğindeki zorluklara – ve günümüz yöntemlerinin yarının süper zekâsını üretmesine karşı argümanlara – bir yenisini ekleyin.