
Hayali alıntılar bilimsel literatürü kirletiyor. Ne yapılabilir?
Bu yılın başlarında bilgisayar bilimcisi Guillaume Cabanac, Google Akademik'ten, yayınlarından birinin International Dental Journal'da yayımlanan bir makalede atıf aldığına dair bir bildirim aldı. Bu beklenmedik bir durumdu çünkü sahte makaleleri tespit etmeye yönelik araştırmaları genellikle diş hekimliği ile kesişmiyordu. Fransa'daki Toulouse Üniversitesi'nde görevli olan Cabanac, "Kendi referansımı tanıyamadığımı görmek beni çok şaşırttı" diyor.
Atıftaki başlık, 2021 yılında paylaştığı ancak hiçbir zaman resmi olarak yayımlamadığı bir ön baskıya (preprint) benziyordu; ancak dergi Nature olarak listelenmişti ve yayıncılar ile ön baskı havuzları tarafından atanan benzersiz tanımlayıcı olan DOI, orijinal ön baskıya yönlendirmiyordu. Cabanac, "Çok endişelendim" diye ekliyor ve hemen atıfın yapay zeka tarafından uydurulduğundan şüpheleniyor.
Bu, hızla büyüyen bir sorunun sadece bir örneği. Anketler ve ilgili çalışmalar, araştırmacıların literatür taraması yapmak, makale yazmak ve kaynakçaları biçimlendirmek için büyük dil modellerini (LLM'ler) giderek daha fazla kullandığını gösteriyor. Ve bazen bu modeller mevcut olmayan akademik referanslar üretiyor.
Yapay zeka bilimde bir tekrarlanabilirlik krizine mi yol açıyor?
Geçtiğimiz yıl boyunca, literatürde bu tür uydurma atıfları ortaya çıkarma çabaları başladı. Üç bilgisayar bilimi konferansı tarafından kabul edilen yaklaşık 18.000 makale üzerinde yapılan bir analiz, gerçek akademik yayınlara dayandırılamayan referanslarda keskin bir artış olduğunu ortaya koydu. Ocak ayında bildirilen sonuçlar, 2025 yılındaki makalelerin %2,6'sında en az bir potansiyel uydurma atıf olduğunu gösterdi; bu oran 2024'te yaklaşık %0,3 idi. Şubat ayında yayımlanan bir başka analiz ise, 2025 yılındaki diğer dört bilgisayar bilimi konferansındaki makalelerin %2-6'sının, yeniden ifade edilmiş başlıklar veya yazarların veritabanlarında ve dergi arşivlerinde arama yaparak doğrulayamadığı yayınlara ait atıflar içerdiğini tahmin etti.
Sorunun boyutu belirsizliğini korusa da, sadece konferansların etkilenmediği açık. Nature haber ekibinin, Birleşik Krallık'ın Stevenage kentinde bulunan Grounded AI adlı şirketle işbirliği içinde yürüttüğü özel bir analiz, dergi makaleleri, kitaplar ve konferans bildirileri dahil olmak üzere 2025 yılındaki en az on binlerce yayının muhtemelen yapay zeka tarafından oluşturulmuş geçersiz referanslar içerdiğini öne sürüyor.
Grounded AI, yayıncılara başvuruları sorunlu referanslar açısından taramaları için araçlar sunan şirketler arasında yer alıyor. Birçok yayıncı Nature muhabirlerine, bu tür araçları araştırdıklarını veya kurum içi versiyonlarını geliştirdiklerini söyledi.
Ancak bazı araştırmacılar, sorunun yakında kontrolden çıkacağından endişeli. Corvallis'teki Oregon Eyalet Üniversitesi'nden siyaset bilimci Alison Johnston, "Sahte referans yağmuruyla karşılaşacağız" diyor.
Bir diğer sorun ise, yayımlanan literatüre giren uydurma atıflar hakkında ne yapılacağına karar vermek. Bu, akademik yayıncıların şu anda boğuştuğu bir sorun.
Hata kaynakları
Atıf hataları akademik yayıncılıkta yeni değil. Chicago, Illinois'deki Northwestern Üniversitesi Feinberg Tıp Fakültesi'nde araştırma etiği ve dürüstlüğü üzerine çalışan Mohammad Hosseini, "Üretken yapay zekadan önce bile atıflarda çok fazla hata vardı" diyor. Sorunlar genellikle yazar isimlerinin yanlış yazılmasını veya yayın yılı, dergi başlığı ya da DOI numarasındaki hataları içeriyordu. Bir diğer sorun ise atıfta bulunulan çalışmadaki bilgiler ile atıf yapan makalede verilen detaylar arasındaki tutarsızlıklardı.
Hosseini, "Şimdi sorun sadece doğruluk değil, sahte atıflarla ilgili. Bu, bambaşka bir sorun olan uydurma atıflarla ilgili" diyor.
Yayıncılar, Nature'a, başvurularda uydurma ve hatalı atıfların sayısında artış gördüklerini ve bu sorunu çözmek için adımlar attıklarını söylediler.
Birleşik Krallık merkezli Taylor & Francis tarafından yayımlanan Review of International Political Economy (RIPE) dergisinin eş baş editörü Johnston, Ocak ayındaki yaklaşık 100 başvurunun %25'ini "sahte referanslar nedeniyle" reddettiğini söylüyor. Sunulan makalelerdeki referanslar ile yayımlanmış kaynakçalar arasındaki sıra dışı veya kısmi eşleşmeleri işaretlemek için intihal tespit yazılımı iThenticate kullanıyor. Ardından şüpheli atıfları manuel olarak kontrol ediyor. "Şu anda uydurma referansları tespit etmek için 2025 öncesinde yapmadığım şeyleri yapıyorum" diyor.
Lozan, İsviçre merkezli Frontiers, başvuru aşamasında alakasız veya geri çekilmiş çalışmalara yapılan atıflar ve uydurma atıflar dahil olmak üzere dürüstlük sorunlarını işaretlemek için kurum içi bir yapay zeka aracı geliştirdi. Frontiers araştırma dürüstlüğü başkanı Elena Vicario, "[Makalelerin] yaklaşık %5'i, kontrollerimiz aracılığıyla işaretlenen potansiyel referans kaynaklı sorunlar gösteriyor" diyor. Ancak Vicario, "İşaretlenen tüm referansların sonuçta gerçekten sorunlu olmadığı"nı da ekliyor. Bu durum, herhangi bir atıf sorunu türünün yaygınlığının kesin bir ölçüsünü ortaya koymayı zorlaştırıyor.
Makale üretmek için yapay zeka sohbet botlarını kullanan deneyler, LLM'lerin ne sıklıkla atıf hatası yaptığına ve ne tür hatalar yapma eğiliminde olduklarına dair bilgiler sağladı. Bir çalışmada araştırmacılar, OpenAI'ın GPT-4o LLM'sinden üç akıl sağlığı bozukluğu üzerine altı literatür taraması oluşturmasını istedi ve bu sentetik incelemelerdeki 176 referansı analiz etti. Bu deneysel koşullar altında, referansların neredeyse %20'sinin uydurma olduğunu ve gerçek araştırmalarla ilişkilendirilemeyeceğini buldular. Gerçek yayınlara karşılık gelen kalan referansların %45'i ise, genellikle yanlış veya geçersiz DOI'ler olmak üzere hatalar içeriyordu.
Londra merkezli Digital Science şirketinde bibliyometrik direktörü olan Kathryn Weber-Boer, yayımlanmış makalelerdeki referanslar da dahil olmak üzere bazı durumlarda, tüm bileşenlerin uydurma olduğunu söylüyor. (Şirket, Nature'ı yayımlayan Springer Nature'ın çoğunluk hissedarı olan Holtzbrinck Publishing Group tarafından yönetiliyor. Nature'ın haber ekibi, yayıncısından editöryal olarak bağımsızdır.) Yapay zekanın, hem başka açılardan gerçek olan referanslarda hem de uydurma olanlarda DOI'leri de uydurduğunu ekliyor.
Konuyu inceleyen araştırmacılar, yapay zeka tarafından oluşturulan referansların genellikle gerçek yayınların parçalarını birleştirdiğini söylüyor. Grounded AI'ın kurucu ortağı ve CEO'su Joe Shockman, bu tür referansları kurgusal canavarın parçalarının birleştirilmesine benzeterek 'Frankenstein' atıfları olarak adlandırıyor. Ashland, Oregon merkezli Shockman, "Bir insan için gerçek görünüyor ama aslında gerçek bir şeye yapılan bir referans değil" diyor.
Araştırmacılar, bazı hata türlerinin yapay zekaya işaret ettiği görülse de diğerlerinin daha az net olduğunu söylüyor. Weber-Boer, "Günümüz ortamında, insan hataları olduğunu ve makine hataları olduğunu kabul etmeliyiz ve bunlar genellikle örtüşebilir" diyor.
Yayımlanmış sorunlar
Yayımlanmış araştırmalarda ne kadar çok uydurma atıfın ortaya çıktığını ayırt etmek zor. Bir tahmin elde etmek için Nature haber ekibi, akademik veritabanlarına ve internet genelinde atıfları kontrol eden, geçersiz, alakasız veya geri çekilmiş çalışmaları işaretleyen Veracity adlı bir yapay zeka aracı geliştiren Grounded AI ile güçlerini birleştirdi.
Nature ve Grounded AI, Elsevier, Sage, Springer Nature, Taylor & Francis ve Wiley olmak üzere beş önde gelen yayıncıyı kapsayan, geçen yıla ait 4.000'den fazla yayını analiz etmek için işbirliği yaptı. Grounded AI, bu makaleleri açık erişimli biyomedikal araştırma makaleleri havuzu olan Europe PMC'den ve bibliyometrik veritabanı Crossref'ten rastgele seçerek, her beş yayıncıdan aylık eşit sayıda yayın içermesini sağladı. Örneklem, yayımlanmış makalelerin yanı sıra kitap bölümlerini ve konferans bildirilerini de içeriyordu ve bu yayıncıların portföylerindeki tüm konu alanlarını kapsıyordu.
Grounded AI'ın aracı, bir referans için tam bir eşleşme veya bulabileceği en yakın eşleşmeyi arıyor. Ardından, eşleşmeyen başlıklar veya DOI'ler, eksik yazarlar ve yanlış dergiler gibi büyük sorunları ve daha küçük sorunları olan atıfları işaretliyor. Örneğin, ilgili dergi akademik veritabanları tarafından indekslendiği için bulunması kolay olması gereken ancak bulunamayan makalelere yönlendiren atıflar, özellikle sorunlu olarak işaretlendi.
Yayınları araçtan geçirdikten sonra, Grounded AI, büyük sorunları olan referansların sayısına ve bu sorunların yapay zeka tarafından oluşturulmuş olma olasılığına dayanarak yayımlanmış her makaleye bir risk puanı atadı. Grounded AI bu olasılığı, iki yapay zeka modelini 20.000 sentetik makale oluşturmak için kullandığı ayrı bir analizden elde edilen verileri kullanarak belirledi; bu, şirketin yapay zekanın yaptığı en yaygın atıf hatası türlerini tanımlamasını sağladı.
Nature, en şüpheli 100 yayını manuel olarak kontrol etti ve 65'inin en az bir geçersiz referans içerdiğini, yani aslında var olmadığı anlaşılan bir yayına yönlendirdiğini doğruladı. Ancak en şüpheli 100 makaleden 22'sinin referansları gerçek yayınlara yönlendiriyordu.
Kalan 13 makale için, tüm atıflarının mevcut araştırmalara işaret edip etmediği belirsizdi. Bu 13 makale, İngilizce dışındaki dillerde bölgesel dergilerde yayımlandığı söylenen makalelere yapılan referansları ve örneğin makul insan hataları gibi görünen meta veri uyumsuzluklarına sahip referansları içeriyordu.
Crossref'ten alınan referans listelerine ve Europe PMC yayınlarından alınan tam metinlere bakan analiz, yayıncılar arasında belirgin bir eğilim ortaya koymadı. Seçilen yayıncıların her birinin, manuel kontrollerin doğrulayamadığı referanslara sahip beşten fazla yayını vardı.
Kaba bir tahminle, analiz edilen yaklaşık 4.000 yayından en az bir geçersiz referansa sahip 65 yayın oranı akademik literatür genelinde geçerliyse, bu durum 2025 yılındaki yaklaşık 7 milyon akademik yayının 110.000'den fazlasının geçersiz referans içerdiğini düşündürür.
Grounded AI'ın kurucu ortağı ve baş ürün sorumlusu Nick Morley, 2025 yılında görülen atıf sorunu türlerinin, LLM'lerin yaygınlaşmasından önce ekibinin bulduklarından farklı olduğunu söylüyor. Bu gerçeğin, yapay zekanın kullanımını başlıca suçlu olarak işaret ettiğini belirtiyor.
Weber-Boer, uydurma referansların gerçek sayısının neredeyse kesinlikle daha yüksek olduğunu söylüyor çünkü analiz, daha küçük yayıncılara kıyasla atıfları sistematik olarak kontrol etmek için daha fazla kaynağa sahip olan büyük yayıncılara odaklandı. Makale üretmek için LLM kullanımında bir artış gören bilgisayar bilimi gibi alanlar, diğer alanlardan daha fazla etkilenmiş olabilir. Dahası, Grounded AI analizi, uydurma atıf riski taşıyan birkaç yüz yayın daha ortaya çıkardı, bu da ekstra manuel kontrolün bu tür daha fazla atıfı gün yüzüne çıkaracağını gösteriyor.
Beş yayıncının tümünün sözcüleri, tarama ve düzenleme süreçlerinin bir parçası olarak referansları kontrol ettiklerini ve Nature analizinin işaret ettiği yayınları incelemeyi planladıklarını söylediler. Taylor & Francis'in bir sözcüsü, işaretlenen bazı yayınların etik ve dürüstlük ekipleri tarafından halihazırda inceleme altında olduğunu belirtti.
Springer Nature'ın araştırma dürüstlüğü direktörü Chris Graf, uydurma referanslar söz konusu olduğunda, "Örneğin bir çeviri aracı kullanırken bir makale hazırlama sürecinde sorunların nerede oluştuğunu yazarların açıkça belgeleyebildiği ve makalenin geri kalanına güvenilebileceğini gösterdiği durumlar olmuştur, bu durumda makale düzeltilir" diyor. Ancak, bu referansların daha sıklıkla içerikle ilgili daha geniş sorunları yansıttığını söylüyor.
Shockman, Veracity tarafından işaretlenen potansiyel sorunlu atıfların sayısının, yayınlar üzerinde analiz yapıldığından ziyade, yayıncılar adına başvuruları taramak için pilot programlarda kullanıldığında bir büyüklük sırası kadar daha fazla olduğunu söylüyor. Bu durum, yayıncıların bu tür atıfların büyük bir kısmını literatüre girmeden önce yakaladığını gösteriyor.
Nature'ın Grounded AI ile işbirliği, birçok uzmanın belirttiği gibi, geçersiz atıfların otomatik araçlarla tespit edilmesinin hatasız olmadığını da vurguladı. Zorluklardan biri, dergilerin referansları biçimlendirmek için çeşitli yollara sahip olması ve yapay zeka araçlarının referansların stilinden dolayı onları tanıyamamasıdır. Bu tür sorunlar, Grounded AI tarafından işaretlenmesine rağmen manuel kontrollerin gerçek olduğunu belirlediği atıflar arasında ortaya çıktı.
Weber-Boer, bir diğer sorunun da büyük ölçekli bibliyometrik veritabanlarının doğrulanamayan referansları indekslemeyebileceği, yani meta verilerinin yayıncıların web sitelerinde görünenlerle eşleşmeyebileceği olduğunu söylüyor. Weber-Boer, bazı referansların ilgili DOI'lerini içermediğini ve bunun da otomatik araçların alıntılanan makaleyi tanımlamasını zorlaştırdığını ekliyor. "Bu sorunun özelliklerini anlamaya başlıyoruz, ki bunlar sorunun ölçeğini anlamanın bir öncüsüdür" diyor.
Grounded AI ekip üyeleri, araçlarının işaretlediği tüm referansların gerçek pozitif olmayacağını kabul ediyor ancak performansını artırmaya devam ettiklerini söylüyorlar. Bristol, Birleşik Krallık merkezli IOP Publishing, baş gözden geçirme ve araştırma dürüstlüğü başkanı Kim Eggleton'a göre, şu anda tüm tescilli dergilerindeki sorunlu atıflar için başvuruları taramak amacıyla Grounded AI'ın aracını kullanıyor. "Bunun bir sorun olduğunu biliyoruz, sadece sorunun ne kadar büyük olduğunu bilmiyoruz" diyor.