'Şimdiye Kadar Gördüğüm En Kötü İnternet Araştırma Etiği İhlali' Popüler bir subreddit'teki en ikna edici "insanların" aslında gizli bir yapay zeka deneyinin paravanı olduğu ortaya çıktı.

Reddit birkaç yıl önce kendini “internetin kalbi” olarak yeniden markalaştırdığında, slogan sitenin organik karakterini çağrıştırmayı amaçlıyordu. Algoritmaların hâkim olduğu sosyal medya çağında, Reddit, duygularını beğeni ve beğenmeme şeklinde ifade eden bir topluluk tarafından düzenlenmesiyle gurur duyuyordu; başka bir deyişle, gerçek insanlar tarafından şekillendirilmesiyle.

Bu yüzden bu hafta başlarında, popüler bir subreddit'in üyeleri, topluluklarının gizli araştırmacılar tarafından yapay zekâ tarafından yazılmış yorumların insan düşünceleriymiş gibi yayınlanmasıyla sızdırıldığını öğrendiklerinde, Reddit kullanıcıları tahmin edilebilir bir şekilde öfkelendiler. Deneyi "ihlal edici", "utanç verici", "öfke verici" ve "çok rahatsız edici" olarak nitelendirdiler. Tepkiler şiddetlendikçe, araştırmacılar sessiz kaldılar ve kimliklerini açıklamayı veya metodolojileri hakkında soru sormayı reddettiler. Onları çalıştıran üniversite, soruşturma başlattığını açıkladı. Bu arada, Reddit'in baş hukuk görevlisi Ben Lee, şirketin "araştırmacıların kötü davranışlarından sorumlu tutulmasını sağlamayı" planladığını yazdı.

Kınama korosuna, açıkça etik dışı bir deney olarak gördüklerini kınayan internet araştırmacıları da katıldı. Yirmi yılı aşkın süredir çevrimiçi toplulukları araştıran Georgia Teknoloji Enstitüsü profesörü Amy Bruckman, Reddit fiyaskosunun "şimdiye kadar gördüğüm en kötü internet araştırma etiği ihlali olduğunu, tartışmasız" olduğunu söyledi. Dahası, kendisi ve diğerleri, gürültünün, çok önemli bir sorunu incelemek için geleneksel yöntemler kullanan bilim insanlarının çalışmalarını baltalayabileceğinden endişe ediyorlar: Yapay zekânın insanların düşünme ve birbirleriyle ilişki kurma biçimlerini nasıl etkilediği.

Zürih Üniversitesi'nde görev yapan araştırmacılar, yapay zekâ tarafından oluşturulan yanıtların insanların görüşlerini değiştirip değiştirmediğini bulmak istediler. Bu yüzden, kullanıcıların önemli toplumsal konuların yanı sıra birçok önemsiz konu hakkında tartıştığı ve orijinal pozisyonlarından vazgeçmelerini sağlayan gönderilere puan verdiği, isabetli bir şekilde adlandırılmış r/changemyview subreddit'ine gittiler. Dört ay boyunca, araştırmacılar pitbull'lar (saldırganlık ırkın mı yoksa sahibinin mi suçu?), konut krizi (ailenizle yaşamak çözüm mü?), DEI programları (başarısız olmaya mahkum muydu?) hakkında 1.000'den fazla yapay zekâ tarafından oluşturulan yorum yayınladılar. Yapay zekâ yorumcuları, Reddit'te gezinmenin zaman kaybı olduğunu ve "kontrollü yıkım" 11 Eylül komplo teorisinin bazı yönlerinin geçerli olduğunu savundu. Ve bilgisayar tarafından üretilen görüşlerini sunarken, geçmişlerini de paylaştılar. Biri kendisini travma danışmanı olarak tanımlarken, diğeri kendini kanunen tecavüz mağduru olarak tanımladı.

Bir anlamda, yapay zekâ yorumlarının oldukça etkili olduğu görülüyor. Araştırmacılar yapay zekâdan argümanlarını, cinsiyet, yaş ve siyasi eğilimler (bir başka yapay zekâ modeli sayesinde, Reddit kullanıcısının gönderi geçmişi aracılığıyla çıkarılan) dahil olmak üzere bir Reddit kullanıcısının biyografik bilgilerine göre kişiselleştirmesini istediklerinde, şaşırtıcı sayıda zihnin gerçekten değiştiği görülüyor. Araştırmacıların Reddit moderatörleriyle paylaştığı ve daha sonra gizli tuttuğu ön bulgulara göre, bu kişiselleştirilmiş yapay zekâ argümanları, subreddit'in puanlama sisteminde neredeyse tüm insan yorumcularından ortalama olarak çok daha yüksek puanlar aldı. (Bu analiz, elbette, subreddit'te başka hiçbirinin argümanlarını geliştirmek için yapay zekâ kullanmadığını varsayar.)

Araştırmacılar, gizli çalışmalarının haklı olduğunu Reddit kullanıcılarını ikna etmekte daha zor bir zaman geçirdi. Deneyi bitirdikten sonra, subreddit'in moderatörleriyle iletişime geçtiler, kimliklerini açıkladılar ve subreddit'i "brifing yapmayı" - yani, aylardır bir bilimsel deneyin farkında olmayan denekleri olduklarını üyelere duyurmayı - talep ettiler. Gizliliğini korumak için kullanıcı adı LucidLeviathan ile tanınmayı kabul eden bir moderatör, "Deneyimize bu kadar olumsuz bir tepki vermemize oldukça şaşırdılar" diyor. LucidLeviathan'a göre, moderatörler araştırmacılardan bu kadar bozulmuş bir çalışmayı yayınlamamalarını ve özür dilemesini talep ettiler. Araştırmacılar reddetti. Bir aydan fazla süren karşılıklı görüşmelerden sonra, moderatörler deney hakkında öğrendiklerini (araştırmacıların isimleri hariç) subreddit'in geri kalanına açıklayarak onaylamadıklarını açıkça belirttiler.

Moderatörler Zürih Üniversitesi'ne bir şikayet gönderdiğinde, üniversite yanıtında, moderatörler tarafından yayınlanan bir alıntıya göre, "projenin önemli bilgiler sağladığını ve risklerin (örneğin travma vb.) minimum düzeyde olduğunu" belirtti. Bana yaptığı açıklamada üniversite sözcüsü, etik kurulunun geçen ay çalışma hakkında bilgilendirildiğini, araştırmacıları subreddit'in kurallarına uymaları konusunda uyardığını ve "gelecekte daha sıkı bir inceleme süreci benimsemeyi" amaçladığını söyledi. Bu arada, araştırmacılar Reddit yorumunda yaklaşımlarını savunarak, "yorumların hiçbirinin zararlı pozisyonları savunmadığını" ve yapay zekâ tarafından oluşturulan her yorumun yayınlanmadan önce insan ekip üyesi tarafından incelendiğini belirttiler. (Reddit moderatörleri tarafından yayınlanan anonimleştirilmiş bir araştırmacı adresine bir e-posta gönderdim ve sorgulamalarımı üniversiteye yönlendiren bir yanıt aldım.)

Zürih araştırmacılarının savunmasının belki de en çarpıcı yönü, kendi görüşlerine göre aldatmanın çalışmanın ayrılmaz bir parçası olmasıydı. Zürih Üniversitesi'nin etik kurulu - araştırmacılara tavsiyede bulunabilen ancak üniversiteye göre standartlarına uymayan çalışmaları reddetme yetkisine sahip olmayan - araştırmacılara gönderi yapmaya başlamadan önce "katılımcılar mümkün olduğunca bilgilendirilmelidir" demişti, aldığım üniversite açıklamasına göre. Ancak araştırmacılar, bunu yapmanın deneyi mahvedeceğine inanıyor gibi görünüyorlar. Araştırmacılar, Reddit yorumlarından birinde, "Büyük dil modellerinin ikna etme gücünü gerçekçi senaryolarda etik bir şekilde test etmek için, farkında olunmayan bir ortam gereklidir", çünkü bu, insanların gerçek dünya ortamlarında tanımlanamayan kötü aktörlere nasıl tepki vereceğini daha gerçekçi bir şekilde taklit eder diye yazmışlardır.

İnsanların böyle bir senaryoda nasıl tepki vereceğinin olasılığı acil bir konudur ve akademik araştırmanın değerli bir konusudur. Araştırmacılar ön bulgularında, yapay zekâ argümanlarının "gerçek dünya bağlamlarında son derece ikna edici olabileceğini ve insan ikna gücünün daha önce bilinen tüm ölçütlerini aştığını" sonucuna vardılar. (Araştırmacılar nihayet bu hafta deney hakkında bir makale yayınlamamayı kabul ettikleri için, bu hükmün doğruluğu muhtemelen hiçbir zaman tam olarak değerlendirilemeyecektir, ki bu da kendi başına bir utançtır.) Zihninizin bir zihni olmayan bir şey tarafından değiştirilme olasılığı son derece rahatsız edicidir. Bu ikna gücü ayrıca kötü amaçlı amaçlar için de kullanılabilir.

Yine de, bilim insanlarının insan denekler üzerinde deney yapmanın normlarını çiğnemesi, tehdidi değerlendirmek için gerekli değildir. Texas Üniversitesi Austin kampüsünde kıdemli araştırma görevlisi olan Christian Tarsney, bana, "Yapay zekânın insan ikna gücünün üst ucunda olabileceği - çoğu insandan daha ikna edici - genel bulgusu, laboratuvar deneylerinin bulduğu şeylerle örtüşüyor" dedi. Yakın tarihli bir laboratuvar deneyinde, komplo teorilerine inanan katılımcılar gönüllü olarak bir yapay zekâ ile sohbet ettiler; üç görüşmeden sonra, yaklaşık dörtte biri önceki inançlarından vazgeçti. Bir diğeri ise ChatGPT'in insanlardan daha ikna edici yanlış bilgiler ürettiğini ve gerçek gönderilerle yapay zekâ tarafından yazılanlar arasında ayrım yapmaları istenen katılımcıların bunu etkili bir şekilde yapamadığını buldu.

Bu çalışmanın baş yazarı Giovanni Spitale aynı zamanda Zürih Üniversitesi'nde bir bilim insanıdır ve Reddit yapay zekâ deneyinin arkasındaki araştırmacılardan biriyle iletişim halindedir ve kimliğini açıklamasını istememiştir. Spitale'nin benimle paylaştığı bir mesajda araştırmacı, "Onlarca ölüm tehdidi alıyoruz" diye yazdı. "Lütfen ailemin güvenliği için sırrı saklayın."

Tepkinin bu kadar güçlü olmasının muhtemel nedenlerinden biri, Reddit gibi yakın bir platformda ihanetin derinden yaralamasıdır. Spitale, bana "Bu topluluğun sütunlarından biri karşılıklı güvendir"; bu, Reddit kullanıcıları hakkında bilgileri olmadan deney yapmaya karşı çıkmasının nedenlerinden biridir. Bu son etik ikilemi hakkında konuştuğum birkaç bilim insanı, bunu - olumsuz bir şekilde - Facebook'un kötü şöhretli duygusal bulaşma çalışmasıyla karşılaştırdı. 2012'de bir hafta boyunca Facebook, daha fazla veya daha az olumlu içerik görmenin gönderi alışkanlıklarını değiştirip değiştirmediğini görmek için kullanıcıların Haber Kaynaklarını değiştirdi. (Biraz değiştirdi.) Çevrimiçi topluluklar ve etik üzerine çalışmalar yapan Colorado Boulder Üniversitesi'nde yardımcı doçent olan Casey Fiesler, bana duygusal bulaşma çalışmasının Zürih araştırmacılarının yaptığıyla kıyaslandığında sönük kaldığını söyledi. "İnsanlar bundan dolayı üzüldüler ama bu Reddit topluluğunun üzüldüğü şekilde değil" dedi. "Bu çok daha kişisel hissettirdi."

Tepkinin muhtemelen bir diğer nedeni de, ChatGPT'in zihnimizdeki düğmelere basmayı bildiği rahatsız edici düşüncedir. Şüpheli etik standartlara sahip bazı insan Facebook araştırmacıları tarafından kandırılmak bir şeydir, bir rol yapan sohbet robotu tarafından kandırılmak ise tamamen başka bir şeydir. Onlarca yapay zekâ yorumunu okudum ve hepsi parlak olmasa da, çoğunun makul ve yeterince gerçekçi görünüyordu. Çok iyi noktalar ortaya koydular ve birden fazla kez kendimi onaylar şekilde başımı salarken buldum. Zürih araştırmacılarının uyardığı gibi, daha sağlam algılama araçları olmadan, yapay zekâ botları "çevrimiçi topluluklara sorunsuz bir şekilde karışabilir" - yani, zaten karışmamışlarsa.