Araştırmacılar, hastanelerde kullanılan yapay zeka destekli bir transkripsiyon aracının daha önce hiç kimsenin söylemediği şeyleri icat ettiğini söylüyor
SAN FRANCISCO (AP) – Teknoloji devi OpenAI, yapay zekâ destekli transkripsiyon aracı Whisper'ın "insan seviyesinde sağlamlık ve doğruluk" seviyesinde olduğunu öne sürdü.
Ancak Whisper'ın büyük bir eksikliği var: Bir düzineye yakın yazılım mühendisi, geliştirici ve akademik araştırmacı ile yapılan röportajlara göre, metin parçaları veya hatta tüm cümleleri uydurma eğiliminde. Bu uzmanlar, sektörde "halüsinasyon" olarak bilinen bu uydurulmuş metinlerin ırkçı yorumlar, şiddet içeren söylemler ve hatta hayal ürünü tıbbi tedaviler içerebileceğini belirtti.
Uzmanlar, Whisper'ın dünya çapında görüşmeler, popüler tüketici teknolojilerinde metin oluşturma ve videolar için altyazı oluşturma gibi birçok sektörde kullanıldığını belirttiler.
Daha endişe verici olarak, OpenAI'ın bu aracın "yüksek riskli alanlarda" kullanılmaması konusunda uyarılarında bulunmasına rağmen, tıbbi merkezlerin hastaların doktorlarla görüşmelerini transkripsiyon yapmak için Whisper tabanlı araçları kullanma konusunda acele ettiklerini söylediler.
Sorunun tam kapsamı belirlenmesi güç olsa da, araştırmacılar ve mühendisler çalışmalarında sıklıkla Whisper'ın halüsinasyonlarına rastladıklarını söylediler. Örneğin, Michigan Üniversitesi'nde halk toplantılarını inceleyen bir araştırmacı, model üzerinde iyileştirmeye çalışmadan önce yaptığı 10 ses transkripsiyonundan 8'inde halüsinasyonlar bulduğunu belirtti.
Bir makine öğrenimi mühendisi, analiz ettiği 100 saatin üzerinde Whisper transkripsiyonunda başlangıçta yaklaşık yarısında halüsinasyonlar bulduğunu söyledi. Üçüncü bir geliştirici, Whisper ile oluşturduğu 26.000 transkripsiyonda neredeyse her birinde halüsinasyonlar bulduğunu belirtti.
Sorun, iyi kaydedilmiş, kısa ses örneklerinde bile devam ediyor. Bilgisayar bilimcilerinin yakın zamanda yaptığı bir araştırma, inceledikleri 13.000'den fazla net ses parçasında 187 halüsinasyon ortaya çıkardı.
Araştırmacılar, bu eğilimin milyonlarca kayıtta on binlerce hatalı transkripsiyona yol açacağını belirttiler.
___
Bu haber, AP'nin yanı sıra, AI hesap verebilirlik ağı ve kısmen akademik Whisper çalışmasını destekleyen Pulitzer Merkezi'nin işbirliğiyle üretildi. AP ayrıca, yapay zekâ ve toplum üzerindeki etkisinin kapsamlı olarak ele alınması için finansal destek alıyor.
___
Bu hataların, özellikle hastane ortamlarında, "çok ciddi sonuçları" olabileceği belirtildi. Alondra Nelson, geçen yıl Biden yönetimi için Beyaz Saray Bilim ve Teknoloji Politikası Ofisi'nin başkanıydı.
"Hiç kimse yanlış bir teşhis istemiyor" dedi Nelson, New Jersey, Princeton'daki Gelişmiş Çalışmalar Enstitüsü'nde profesördür. "Daha yüksek bir standart olmalı."
Whisper, sağır ve işitme engelliler için sessiz altyazı oluşturmak için de kullanılıyor - hatalı transkripsiyonlar için özellikle risk altında olan bir nüfus. Çünkü sağır ve işitme engelliler, "bu tüm metinler arasında gizlenmiş" halüsinasyonları tanımlamanın bir yolu yok, dedi Gallaudet Üniversitesi Teknoloji Erişim Programı direktörü ve sağır olan Christian Vogler.
OpenAI, sorunu çözmesi için çağrılıyor
Bu tür halüsinasyonların yaygınlığı, uzmanlar, savunucular ve eski OpenAI çalışanlarını, federal hükümetin yapay zekâ düzenlemelerini göz önünde bulundurması çağrısında bulunmalarına neden oldu. En azından, OpenAI'ın bu eksikliği gidermesi gerekiyor.
"Şirket bunu önceliklendirirse çözülebilir görünüyor," dedi San Francisco merkezli araştırma mühendisi ve Şubat ayında OpenAI'dan şirketin yönüyle ilgili endişeler nedeniyle ayrılan William Saunders. "Bu konuda insanlar ne yapabileceğine aşırı güvenip, bunu tüm bu sistemlere entegre ederlerse sorunlu oluyor."
OpenAI sözcüsü, şirketin halüsinasyonları azaltmak için sürekli olarak araştırdığını ve araştırmacıların bulgularını takdir ettiğini, OpenAI'ın model güncellemelerinde geri bildirimleri entegre ettiğini söyledi.
Çoğu geliştirici, transkripsiyon araçlarının kelimeleri yanlış yazması veya başka hatalar yapması varsayarken, mühendisler ve araştırmacılar başka bir yapay zekâ destekli transkripsiyon aracının Whisper kadar çok halüsinasyon oluşturduğunu görmediklerini söylediler.
Whisper halüsinasyonları
Araç, OpenAI'ın amiral gemisi sohbet robotu ChatGPT'nin bazı sürümlerine entegre edilmiş olup, Oracle ve Microsoft'un dünya çapında binlerce şirkete hizmet veren bulut bilişim platformlarında da yerleşik bir özellik. Ayrıca metni birçok dile çevirmek ve çevirmek için kullanılıyor.
Sadece son bir ayda, Whisper'ın son bir sürümü, açık kaynaklı yapay zekâ platformu HuggingFace'ten 4,2 milyondan fazla indirildi. Orada bir makine öğrenimi mühendisi olan Sanchit Gandhi, Whisper'ın en popüler açık kaynaklı konuşma tanıma modeli olduğunu ve çağrı merkezlerinden ses asistanlarına kadar her şeye entegre edildiğini söyledi.
Cornell Üniversitesi'nden Profesör Allison Koenecke ve Virginia Üniversitesi'nden Profesör Mona Sloane, Carnegie Mellon Üniversitesi'nde barındırılan TalkBank araştırma deposundan aldıkları binlerce kısa bölümü inceledi. Halüsinasyonların yaklaşık %40'ının, konuşmacının yanlış yorumlanabileceği veya yanlış temsil edilebileceği için zararlı veya endişe verici olduğunu belirlediler.
Keşfettikleri bir örnekte, bir konuşmacı "O, çocuk, emin değilim tam olarak, şemsireyi alacaktı." demişti.
Ancak transkripsiyon yazılımı şunları ekledi: "Büyük bir haç parçası aldı, minik, küçük bir parça... Kesinlikle terör bıçağı yoktu, bu yüzden bir sürü insanı öldürdü."
Başka bir kayıttaki bir konuşmacı "iki kız ve bir kadın" demişti. Whisper, ırk üzerine ek yorumlar yaparak "iki kız ve bir kadın, ıı, hangileri siyahtı." diye ekledi.
Üçüncü bir transkripsiyonda, Whisper, "aşırı aktif antibiyotikler" adında var olmayan bir ilacı uydurdu.
Araştırmacılar, Whisper ve benzeri araçların neden halüsinasyon oluşturduğundan emin değiller, ancak yazılım geliştiricileri, halüsinasyonların genellikle duraklamalar, arka plan sesleri veya müzik çalarken ortaya çıktığını söyledi.
OpenAI, çevrimiçi açıklamalarında, doğruluktaki hataların sonuçlarda belirgin hatalara yol açabileceği "karar verme bağlamlarında" Whisper'ı kullanmaması konusunda tavsiyede bulundu.
Doktor randevularını transkripsiyon yapmak
Bu uyarı, hastanelerin veya tıp merkezlerinin, doktor ziyaretleri sırasında söylenenleri transkripsiyon yapmak için, tıp görevlilerinin not alma veya rapor yazmaya daha az zaman ayırmak için Whisper dahil konuşma metnine dönüştürme modellerini kullanmayı engellemedi.
Mankato Kliniği ve Los Angeles Çocuk Hastanesi de dahil olmak üzere 30.000'den fazla tıp uzmanı ve 40 sağlık sistemi, Fransa ve ABD'de ofisleri bulunan Nabla tarafından geliştirilen Whisper tabanlı bir araç kullanmaya başladı.
Nabla'nın baş teknoloji sorumlusu Martin Raison, bu aracın tıbbi dilde ince ayarlandığını ve hastaların etkileşimlerini transkripsiyon ve özetleme için kullanıldığını söyledi.
Şirket yetkilileri, Whisper'ın halüsinasyon oluşturabileceğinin farkında olduklarını ve bu sorunu ele aldıklarını belirttiler.
Raison, Nabla'nın aracının orijinal sesi "veri güvenliği nedeniyle" sildiği için, Nabla'nın yapay zekâ ile oluşturulmuş transkripsiyonu orijinal kayıtla karşılaştırmanın imkansız olduğunu söyledi.
Nabla, aracın tahmini 7 milyon tıbbi ziyareti transkripsiyon yaptığını belirtti.
Eski OpenAI mühendisi Saunders, transkripsiyonlar doğrulanmazsa veya klinikler, doğru olup olmadıklarını doğrulamak için kaydı erişemezse orijinal sesin silinmesinin endişe verici olabileceğini söyledi.
"Zemin gerçeği kaldırırsanız, hataları yakalayamazsınız" dedi.
Nabla, hiçbir modelin mükemmel olmadığını ve şu anda tıp görevlilerinin transkripte edilen notları hızlı bir şekilde düzenleyip onaylamasını gerektirdiğini, ancak bunun değişebileceğini belirtti.
Gizlilik endişeleri
Hastalarla doktorları arasındaki görüşmeler gizli olduğundan, yapay zekâ ile oluşturulmuş transkripsiyonların onlara nasıl etki ettiğini bilmek zor.
California eyalet yasama organından milletvekili Rebecca Bauer-Kahan, bu yıl çocuklarından birini doktora götürdüğünü ve OpenAI'ın en büyük yatırımcısının bulut bilişim sistemi olan Microsoft Azure de dahil olmak üzere tedarikçilerle görüşme sesini paylaşmak için sağlık ağının sunduğu formu imzalamayı reddettiğini söyledi. Bauer-Kahan, bu tür özel tıbbi konuşmaların teknoloji şirketleriyle paylaşılmasını istemediğini söyledi.
"Serbest bırakım, kar amacı gütmeyen şirketlerin buna sahip olma hakkına sahip olacağı konusunda çok spesifikti," dedi, San Francisco banliyölerinin bir kısmını temsil eden Demokrat milletvekili Bauer-Kahan. "Kesinlikle istemiyorum."
John Muir Health sözcüsü Ben Drew, sağlık sisteminin eyalet ve federal gizlilik yasalarına uyduğunu söyledi.
___
Schellmann, New York'tan bildirdi.
___
AP, tüm içerikten tamamen sorumludur. AP'nin hayır kurumlarıyla çalışmak için standartlarını, destekçiler listesini ve fonlanan kapsama alanlarını AP.org adresinde bulabilirsiniz.