
Amsterdam'ın adil refah yapay zekası yaratmaya yönelik yüksek riskli deneyinin iç yüzü
Amsterdam belediye binasının geniş cam pencerelerinin arkasındaki avantajlı noktasından, özgeçmişinde Hollanda refah devletinin çeşitli kurumlarında görevler bulunan şehir danışmanı Paul de Koning, aynı sisteme gururla bakmıştı. Smart Check'in pilot aşamasını yöneten de Koning, projenin verimliliği artırma ve Amsterdam'ın sosyal yardım sisteminden önyargıyı kaldırma potansiyeli olarak gördüğü şey karşısında heyecanlıydı.
Bir sahtekarlık soruşturmacıları ve veri bilimcilerinden oluşan ekip yıllarca Smart Check üzerinde çalışmıştı ve de Koning, umut vadeden ilk sonuçların yaklaşımlarını haklı çıkardığına inanıyordu. Şehir uzmanlarla görüşmüş, önyargı testleri yapmış, teknik güvenlik önlemleri almış ve programdan etkilenecek kişilerden geri bildirim istemiş; etik-yapay zeka kılavuzundaki hemen hemen her öneriyi izlemişti. "İyi bir his aldım," dedi bize.
Bu zıt görüşler, algoritmaların insanların hayatlarını şekillendiren kararlar alma göreviyle karşı karşıya kaldığında adil olup olamayacağına dair küresel bir tartışmayı özetliyor. Son birkaç yıldır yapay zekanın bu şekilde kullanılmasına yönelik çabalarda, teminat zararlarına dair örnekler artmıştır: ABD'de beyaz olmayan iş başvuranlarının iş başvuru havuzlarından çıkarılması, Japonya'da çocuk istismarı soruşturmaları için ailelerin yanlışlıkla işaretlenmesi ve Hindistan'da düşük gelirli sakinlerin gıda yardımlarından mahrum bırakılması.
Bu değerlendirme sistemlerinin savunucuları, daha azıyla daha fazlasını yaparak daha verimli kamu hizmetleri yaratabileceklerini ve özellikle refah sistemleri söz konusu olduğunda, kamu kasasından kaybedildiği iddia edilen parayı geri kazanabileceklerini savunuyorlar. Pratikte, birçoğu baştan kötü tasarlanmıştı. Bazen ayrımcılığa yol açacak şekilde kişisel özelliklere odaklanırlar ve bazen de önyargı veya etkinlik için test edilmeden kullanılırlar. Genel olarak, insanların yaşamlarını doğrudan etkileyen otomatik eylemlere itiraz etmeleri veya bunları anlamaları için çok az seçenek sunarlar.
Sonuç, on yılı aşkın bir süredir skandallarla dolu oldu. Bunun üzerine Amsterdam'den New York'a, Seul'den Mexico City'ye kadar kanun koyucular, bürokratlar ve özel sektör, "sorumlu yapay zeka" ilkelerini entegre eden algoritmik sistemler oluşturarak kefaret ödemeye çalışıyorlar; bu yaklaşım, yapay zeka geliştirmeyi topluma fayda sağlayacak ve olumsuz sonuçları en aza indirecek şekilde yönlendirmeyi amaçlıyor.
Etik yapay zeka geliştirmek ve konuşlandırmak Avrupa Birliği için en önemli önceliklerden biridir ve aynı şey, Yapay Zeka Hakları Bildirgesi için bir plan yayınlayan eski Başkan Joe Biden yönetimindeki ABD için de geçerlidir. Bu plan, teknoloji dahil olmak üzere ulusal düzeyde eşitlik ve adalet düşüncelerini kaldıran Trump yönetimi tarafından iptal edildi. Bununla birlikte, bu ilkelerden etkilenen sistemler, kimleri işe alacak, potansiyel çocuk istismarı vakalarını ne zaman soruşturacak ve hangi sakinlerin önce hizmet alması gerektiği gibi kararlar alma konusunda muazzam güce sahip ABD'nin içinde ve dışında ülkelerin, eyaletlerin, eyaletlerin ve şehirlerin liderleri tarafından hala test ediliyor.
Amsterdam gerçekten doğru yolda olduğunu düşünüyordu. Refah departmanındaki şehir yetkilileri, vatandaşların haklarını korurken sahtekarlığı önleyecek bir teknoloji inşa edebileceklerine inanıyorlardı. Bu gelişen en iyi uygulamaları takip ettiler ve sonunda canlı refah başvurularını işleyen bir projeye çok fazla zaman ve para yatırdılar. Ancak pilot çalışmada, geliştirdikleri sistemin yine de adil ve etkili olmadığını buldular. Neden?
Lighthouse Reports, MIT Technology Review ve Hollanda gazetesi Trouw, nedenini bulmak için sisteme benzeri görülmemiş bir erişim sağladı. Şehir, kamu kayıtları talebine yanıt olarak, Smart Check algoritmasının birden fazla sürümünü ve gerçek dünyadaki refah başvuranlarını nasıl değerlendirdiğine dair verileri açıklayarak, en iyi koşullar altında bile algoritmik sistemlerin iddialı vaatlerini yerine getirip getiremeyeceğine dair benzersiz bir içgörü sundu.
Bu sorunun cevabı hiç de basit değil. De Koning için Smart Check, daha adil ve şeffaf bir refah sistemi için teknolojik bir ilerlemeyi temsil ediyordu. De Zwart için, hiçbir teknik ayarın düzeltemeyeceği refah alıcılarının haklarına önemli bir riski temsil ediyordu. Bu algoritmik deney birkaç yıl boyunca devam ederken, projenin temel varsayımını sorguladı: sorumlu yapay zekanın bir düşünce deneyinden veya kurumsal bir satış noktasından daha fazlası olabileceğini ve gerçek dünyada algoritmik sistemleri gerçekten adil hale getirebileceğini.
Bir kurtuluş şansı
Amsterdam'ın yapay zeka destekli sahtekarlık önleme ile yüksek riskli bir çabaya nasıl girişmiş olduğunu anlamak, refah soruşturmalarının haddini aştığı ulusal bir skandala, dört on yıl öncesine, 1984 yılına dönmeyi gerektiriyor.
1984 yılında, üç çocuk annesi boşanmış bir dul kadın olan Albine Grumböck, birkaç yıldır refah yardımı alırken, komşularından birinin, sosyal hizmetlerin yerel ofisinde çalışan birinin, hayatını gizlice gözetlediğini öğrendi. Erkek bir arkadaştan gelen ziyaretleri belgeledi; teoride aileye bildirilmemiş gelir sağlamış olabilirdi. Gözlemlerine dayanarak, refah ofisi Grumböck'un yardımlarını kesti. Kararı mahkemede savaştı ve kazandı.
Kişisel haklı çıkarma kararına rağmen, Hollanda refah politikası, bazen "diş fırçası sayacı" olarak adlandırılan refah sahtekarlığı soruşturmacılarını insanların hayatlarını alt üst etmeye devam etmeye yetkilendirmeye devam etti. Bu, her iki taraf için de sorunlara yol açan bir şüphe ortamı yaratmaya yardımcı oldu, diyor Hollanda refah alıcılarının on yıllar boyunca sistemde dolaşmasına yardımcı olan avukat Marc van Hoof: "Hükümet kendi insanlarına güvenmiyor ve insanlar hükümete güvenmiyor."
Kariyer memuru Harry Bodaar, bu süre boyunca Hollanda'nın refah politikasını yakından gözlemledi; önce sosyal hizmet görevlisi, daha sonra sahtekarlık soruşturmacısı ve şimdi şehrin refah politikası danışmanı olarak. Son 30 yıl, ona "sistemin lastik bantlar ve zımbalarla bir arada tutulduğunu" gösterdi, diyor. "Ve o sistemin en altındaysanız, çatlaktan düşen ilk sizsiniz."
Yardım alıcılar için sistemi daha iyi çalıştırmak, 2019 yılında şehir Smart Check'i tasarlarken büyük bir motivasyon faktörüydü, diye ekliyor. Bodaar, "Sadece gerçekten kontrol edilmesi gerektiğini düşündüğümüz insanları adil bir şekilde kontrol etmek istedik," diyor - 2007 yılına kadar her başvuran için ev ziyaretleri yapma politikası olan önceki departman politikasının aksine.
Ancak Hollanda'nın sorunlu refah yapay zeka uygulamaları için bir sıfır noktası haline geldiğini de biliyordu. Hollanda hükümetinin yapay zeka yoluyla sahtekarlık tespitini modernize etme girişimleri birkaç kötü şöhretli durumda ters tepmişti.
2019 yılında, ulusal hükümetin, çocuk bakımı yardımı sisteminde sahtekarlığı tespit etmeye yardımcı olacağını umduğu risk profilleri oluşturmak için bir algoritma kullandığı ortaya çıktı. Bunun sonucunda ortaya çıkan skandalda, çoğu göçmen olan veya göçmenlerin çocukları olan yaklaşık 35.000 ebeveyn, altı yıl boyunca yardım sisteminden sahtekarlıkla suçlandı. Aileleri borca soktu, bazılarını yoksulluğa itti ve nihayetinde 2021 yılında tüm hükümetin istifa etmesine yol açtı.
Rotterdam'da, Lighthouse Reports'un 2023 yılında refah sahtekarlığını tespit etmek için bir sistemi konu alan araştırması, sistemin kadınlar, ebeveynler, yerli olmayan Hollanda konuşanlar ve diğer savunmasız gruplar aleyhine önyargılı olduğunu buldu ve nihayetinde şehrin sistemin kullanımını askıya almasına neden oldu. Amsterdam ve Leiden gibi diğer şehirler, 20 yıldan fazla bir süre önce ilk kez konuşlandırılan ve refah başvuranlarını değerlendirmek için eğitim, mahalle, ebeveynlik ve cinsiyeti ham risk faktörleri olarak içeren Sahtekarlık Puan Kartı adlı bir sistemi kullandı; bu program da durduruldu.
Hollanda yalnız değil. Kar amacı gütmeyen Benefits Tech Advocacy Hub'a göre, Amerika Birleşik Devletleri'nde eyalet hükümetlerinin kamu yardımlarını dağıtmaya yardımcı olmak için algoritmalar kullandığı en az 11 vaka oldu, çoğu zaman rahatsız edici sonuçlarla. Örneğin Michigan, 40.000 kişiyi yanlışlıkla işsizlik sahtekarlığı işlekle suçladı. Fransa'da ise aktivistler, düşük gelirli başvuranlar ve engelli kişiler aleyhine ayrımcılık yaptığını iddia ettikleri bir algoritma nedeniyle ulusal refah makamını mahkemeye taşıyor.
Bu dizi skandalın yanı sıra ırkçılığın algoritmik sistemlere nasıl yerleştirilebileceğine dair artan farkındalık, sorumlu yapay zekaya verilen önemi artırmaya yardımcı oldu. Etik-yapay zeka danışmanı Jiahao Chen, "Bu, sadece etiği değil, aynı zamanda adaleti de düşünmemiz gerektiğini söylemek için kullanılan bu genel terim," diyor. Hem özel hem de yerel yönetim kuruluşlarına denetim hizmetleri sağlamış olan Chen, "Bence şeffaflık ve gizlilik, güvenlik ve emniyet vb. şeylere ihtiyacımız olduğunu fark ediyoruz."
Yaygınlaşan teknolojinin neden olduğu zararları kontrol altına almak için tasarlanan bir dizi araç kümesine dayalı yaklaşım, düşünce kuruluşları ve uluslararası kuruluşlardan gelen beyaz kağıtlar ve çerçeveler ve Büyük 5 danışmanlık şirketi gibi geleneksel güç oyuncularının yanı sıra bir dizi girişim ve kar amacı gütmeyen kuruluştan oluşan karlı bir danışmanlık sektörü üzerine inşa edilmiş hızla büyüyen bir sektörü ortaya çıkardı. Örneğin, 2019 yılında, küresel bir ekonomik politika kuruluşu olan Ekonomik İşbirliği ve Kalkınma Örgütü, "güvenilir yapay zeka" geliştirmek için bir kılavuz olarak Yapay Zeka İlkeleri'ni yayınladı. Bu ilkeler arasında açıklanabilir sistemler oluşturmak, kamu paydaşlarıyla görüşmek ve denetimler gerçekleştirmek yer alıyor.
Ancak on yıllarca süren algoritmik suistimalinin bıraktığı mirasın üstesinden gelmek zorluğunu kanıtladı ve adil olan ile olmayan arasında çizgiyi nerede çekeceğe dair çok az bir fikir birliği var. Hollanda, ulusal düzeyde sorumlu yapay zeka tarafından şekillendirilen reformları yürürlüğe koymak için çalışırken, hükümet bakanlıklarına etik-yapay zeka denetim hizmetleri sağlayan Hollanda STK'sı Algorithm Audit, teknolojinin refah alıcılarını profil oluşturmak için yalnızca kesin olarak tanımlanmış koşullar altında ve sistemler cinsiyet gibi korunan özellikleri hesaba katmaktan kaçındığı takdirde kullanılması gerektiği sonucuna vardı. Bu arada, Uluslararası Af Örgütü, de Zwart gibi dijital hak savunucuları ve bazı refah alıcılarının kendileri, sosyal hizmetler durumunda olduğu gibi, insanların hayatlarıyla ilgili kararlar alırken kamu sektörünün yapay zekayı hiç kullanmaması gerektiğini savunuyor.
Amsterdam doğru dengeyi bulduğunu umuyordu. Politikalar danışmanı Bodaar, geçmiş skandallar hakkında, "Bize karşı olanlardan ders aldık" diyor. Ve bu sefer şehir, "Amsterdamlı insanlara iyi işler yaptığımızı ve adil davrandığımızı göstermek" istedi.
Daha iyi bir yol bulmak
Her Amsterdam sakini yardım için başvuruda bulunduğunda, bir sosyal hizmet görevlisi başvuruyu usulsüzlükler açısından inceliyor. Bir başvuru şüpheli görünüyorsa, şehrin soruşturma departmanına gönderilebilir; bu da bir reddedilmeyle, evrak hatalarının düzeltilmesi talebiyle veya adayın daha az para alması önerisiyle sonuçlanabilir. Soruşturmalar, yardımlar dağıtıldıktan sonra da yapılabilir; sonuç, alıcıların fonları geri ödemelerini ve hatta bazılarını borca sokmasını gerektirebilir.
Yetkililer, hem başvuranlar hem de mevcut refah alıcıları üzerinde geniş yetkiye sahipler. Banka kayıtlarını talep edebilir, alıcıları belediye binasına çağırabilir ve bazı durumlarda bir kişinin evine duyurulmadan ziyaretler yapabilirler. Soruşturmalar yapılırken veya evrak hataları düzeltilirken, çok ihtiyaç duyulan ödemeler gecikebilir. Ve çoğu zaman - Bodaar tarafından sağlanan verilere göre başvuruların soruşturmalarının yarısından fazlasında - şehir herhangi bir suç eylemine dair kanıt bulamıyor. Bu gibi durumlarda, şehrin "insanları yanlış bir şekilde taciz ettiği" anlamına gelebilir, diyor Bodaar.
Smart Check sistemi, başvuruları soruşturma departmanına göndermek için hangi vakaları işaretleyeceğini belirleyen başlangıçtaki sosyal hizmet görevlisinin yerini alarak bu senaryolardan kaçınmak için tasarlandı. Algoritma, belirli kişisel özelliklere dayanarak, büyük hataları içermesi muhtemel olan başvuruları tespit etmek ve bu vakaları uygulama ekibi tarafından daha fazla inceleme için yönlendirmek üzere başvuruları tarayacaktı.
Her şey yolunda giderse, şehir iç belgelerinde yazdığı gibi, sistem insan sosyal hizmet görevlilerinin performansını iyileştirecek, daha az refah başvurusunu soruşturma için işaretleyecek ve aynı zamanda hataları olan vakaların daha büyük bir oranını tespit edecektir. Bir belgede şehir, modelin 125 Amsterdam sakininin borç tahsilatıyla karşı karşıya kalmasını önleyeceğini ve yılda 2,4 milyon € tasarruf sağlayacağını tahmin etti.
Smart Check, konuşlandırıldığında projeyi yönetecek olan de Koning gibi şehir yetkilileri için heyecan verici bir olasılıktı. Şehrin bilimsel bir yaklaşım benimsediği için iyimserdi, diyor; "çalışıp çalışmayacağını görmek" yerine "bunun çalışması gerekiyor ve ne olursa olsun buna devam edeceğiz" tavrını almaktan çok farklıydı.
Bu, üniversiteden mezun olduktan sonra ikinci işinde Smart Check üzerinde çalışan veri bilimcisi Loek Berkers gibi iyimser teknoloji meraklılarını çeken cesur bir fikirdi. Amsterdam belediye binasının arkasına saklanmış bir kafede konuşan Berkers, sisteme ilk temas ettiğinde etkilendiğini hatırlıyor: "Özellikle belediye içinde bir proje için," diyor, "çok yeni bir şey denemeye çalışan yenilikçi bir proje türüydü."
Smart Check, insanların yapay zeka modellerinin tahminlerini nasıl ürettiğini daha kolay anlamalarına olanak tanıyan "açıklanabilir bir güçlendirme makinesi" adlı bir algoritma kullandı. Diğer çoğu makine öğrenimi modeli genellikle, hem onları kullanmakla görevlendirilen çalışanlar hem de sonuçlardan etkilenen kişiler için anlaşılması zor soyut matematiksel süreçleri çalıştıran "kara kutular" olarak kabul edilir.
Smart Check modeli, başvuranların daha önce yardım başvurusunda bulunup bulunmadığını, varlıklarının toplamını ve dosyalarında kaç adreslerinin bulunduğunu içeren 15 özelliği dikkate alarak her kişiye bir risk puanı atayacaktı. Bilinçli olarak, cinsiyet, uyruk veya yaş gibi önyargıya yol açtığı düşünülen demografik faktörlerden kaçınıyordu. Ayrıca, yüzeyde hassas görünmeyebilecek ancak örneğin bir posta kodunun belirli bir etnik grupla istatistiksel olarak ilişkili olması durumunda hassas hale gelebilecek "vekil" faktörlerden (posta kodları gibi) kaçınmaya çalıştı.
Olağandışı bir adımda, şehir bu bilgileri açıkladı ve Smart Check modelinin birden fazla sürümünü bizimle paylaşarak, sistemin tasarımına ve işlevine dış denetimini etkin bir şekilde davet etti. Bu verilerle, bir bireysel başvuranın Smart Check tarafından nasıl değerlendirileceğine dair bilgi edinmek için varsayımsal bir refah alıcısı oluşturabildik.
Bu model, 3.400 önceki refah alıcısı soruşturmasını kapsayan bir veri kümesi üzerinde eğitildi. Fikir, şehir çalışanları tarafından gerçekleştirilen bu soruşturmaların sonuçlarını kullanarak, ilk başvurulardaki hangi faktörlerin potansiyel sahtekarlıkla ilişkili olduğunu bulmaktı.
Ancak geçmiş soruşturmaları kullanmak, baştan itibaren potansiyel sorunlar yaratıyor, diyor şehirle görüştüğü söylenen dış gruplardan biri olan Amsterdam Üniversitesi'ndeki Civic AI Lab'ın (CAIL) bilim direktörü Sennay Ghebreab. Tarihsel verileri modeller oluşturmak için kullanmanın sorunu, "tarihsel önyargılarla karşılaşacağız" diyor. Örneğin, sosyal hizmet görevlileri tarihsel olarak belirli bir etnik grupla daha yüksek oranda hata yapmışlarsa, model bu etnik grubun daha yüksek oranlarda sahtekarlık yaptığını yanlış bir şekilde tahmin etmeyi öğrenebilir.
Şehir, savunmasız gruplara karşı bu tür önyargıları yakalamak için sistemini titizlikle denetlemeye karar verdi. Ancak önyargının nasıl tanımlanacağı ve dolayısıyla bir algoritmanın adil olması ne anlama geldiği şiddetli bir tartışma konusudur. Son on yılda, akademisyenler, bazılarının uyumsuz olduğu düzinelerce rekabetçi matematiksel adalet kavramı önermiştir. Bu, birine göre "adil" olacak şekilde tasarlanmış bir sistemin kaçınılmaz olarak diğerlerini ihlal edeceği anlamına gelir.
Amsterdam yetkilileri, yanlış soruşturmaların yükünü farklı demografik gruplar arasında eşit olarak dağıtmaya odaklanan bir adalet tanımı benimsedi.
Başka bir deyişle, bu yaklaşımın farklı geçmişlere sahip refah başvuranlarının benzer oranlarda yanlış bir şekilde soruşturulma yükünü aynı şekilde taşımasını sağlayacağını umuyorlardı.
Karma geri bildirim
Smart Check'i oluştururken Amsterdam, şehrin iç veri koruma sorumlusu ve Amsterdam Kişisel Veri Komisyonu dahil olmak üzere çeşitli kamu kuruluşlarıyla model hakkında görüştü. Ayrıca Deloitte danışmanlık şirketi de dahil olmak üzere özel kuruluşlarla da görüştü. Her biri projeye onay verdi.
Ancak bir ana grup destek vermiyordu: sistemin yardım etmesi ve incelemesi için tasarlanmış kişilerin çıkarlarını temsil eden yardım alıcıları, savunucular ve diğer hükümet dışı paydaşlardan oluşan 15 üyeli bir danışma komitesi olan Katılım Konseyi. Komite, dijital hak savunucusu de Zwart gibi, sistemin zaten kırılgan konumda olan bireyler için ne anlama gelebileceği konusunda son derece endişeliydi.
70'lerinin başında olan Anke van der Vliet, konseyin uzun süredir üyesi. Yaşadığı Amsterdam'ın Zuid semtindeki bir restoranda yavaşça yürüteçten bir sandalyeye oturduktan sonra okuma gözlüklerini kutularından çıkarıyor. "Başından beri ona güvenmiyorduk," diyor, Smart Check ile ilgili sakladığı bir yığın kağıdı çıkarıyor. "Herkes buna karşıydı."
On yıllarca, 2024 yılı sonuna kadar yaklaşık 35.000 kişiye ulaşan şehrin refah alıcıları için istikrarlı bir savunuculuk yaptı. 1970'lerin sonunda, refah sistemi içinde kadınların karşılaştığı benzersiz zorlukları ortaya çıkarmaya adanmış bir grup olan Refahtaki Kadınlar'ı kurmasına yardım etti.
Proje yöneticisi de Koning, sistemin van der Vliet ve meslektaşlarının onayını asla almayacağından şüpheci. "Bence Katılım Konseyi'nin tamamının Smart Check fikrinin arkasında duracağı asla işe yaramayacaktı," diyor. "O grupta sosyal yardım sistemi süreciyle ilgili çok fazla duygu vardı." Ekliyor, "Başka bir skandal olacağından çok korkuyorlardı."
Ancak refah yararlanıcılarıyla çalışan savunucular ve bazı yararlanıcıların kendileri için endişe, bir skandal değildi, gerçek bir zarar riskiydi. Teknoloji sadece zararlı hatalar yapamaz, aynı zamanda düzeltilmelerini daha da zorlaştırabilir - refah görevlilerinin "kendilerini dijital duvarların arkasına saklamalarına" izin verir, diyor 1970'lerde kurulan bir sendika olan Amsterdam Refah Birliği'nde refah yararlanıcılarına yardımcı olan savunucusu Henk Kroon. Böyle bir sistem, işleri "[yetkililer] için kolaylaştırabilir," diyor. "Ama sıradan vatandaşlar için çok sıklıkla problemdir."
Test etme zamanı
Katılım Konseyi'nin nihai itirazlarına rağmen, şehir ilerlemeye ve çalışan Smart Check modelini teste tabi tutmaya karar verdi.
İlk sonuçlar umdukları gibi değildi. Şehrin gelişmiş analitik ekibi ilk modeli Mayıs 2022'de çalıştırdığında, algoritmanın göçmenler ve erkekler aleyhine ağır bir önyargı gösterdiğini buldular, bunu bağımsız olarak doğrulayabildik.
Şehrin bize söylediği ve analizimizin doğruladığı gibi, ilk model, yerli olmayan başvuranları yanlış bir şekilde işaretleme olasılığı daha yüksekti. Ve Batı uyruklu bir başvuranı yanlış bir şekilde işaretleme olasılığı, Batı uyruklu bir başvurandan neredeyse iki kat daha fazlaydı. Model, erkekleri soruşturma için yanlış bir şekilde işaretleme olasılığı da %14 daha fazlaydı.
Modelin eğitilmesi sürecinde, şehir aynı zamanda insan sosyal hizmet görevlilerinin soruşturma için işaretlediklerini ve yanlış bir şekilde işaretlenen kişilerin hangi gruplara ait olma olasılıklarının daha yüksek olduğunu da içeren verileri topladı. Özünde, kendi analog sistemlerinde bir önyargı testi çalıştırdılar - böyle sistemleri konuşlandırmadan önce nadiren yapılan önemli bir karşılaştırmalı ölçüt.
Sosyal hizmet görevlilerinin öncülüğünde yapılan işlemde buldukları şey dikkat çekici derecede farklı bir kalıptı. Smart Check modeli, yerli olmayan vatandaşları ve erkekleri yanlış bir şekilde işaretleme olasılığı daha yüksekken, insan sosyal hizmet görevlileri, yerli vatandaşları ve kadınları yanlış bir şekilde işaretleme olasılığı daha yüksekti.
Smart Check'in ardındaki ekip, önyargıyı düzeltemezlerse projenin iptal edileceğini biliyordu. Bu nedenle, eğitim verisi ağırlıklandırması olarak bilinen akademik araştırmalardan bir tekniğe döndüler. Uygulamada, bu, başvurularında anlamlı hatalar yaptığı düşünülen Batı uyruklu olmayan başvuranlara veride daha az ağırlık verilirken, Batı uyruklu olanlara daha fazla ağırlık verildi.
Sonunda, bu problemlerini çözdü gibi görünüyor: Lighthouse'un analizinin doğruladığı gibi, model ağırlıklandırıldıktan sonra, Hollandalı ve yerli olmayan vatandaşların yanlış bir şekilde işaretlenme olasılığı eşitti.
Veriler ağırlıklandırıldıktan sonra Smart Check ekibine katılan de Koning, sonuçların olumlu bir işaret olduğunu söyledi: "Çünkü adil olduğu için... sürece devam edebildik."
Model aynı zamanda ek incelemeye değer başvuruları tespit etmede de sosyal hizmet görevlilerinden daha iyi görünüyordu, iç testler doğrulukta %20'lik bir iyileşme gösterdi.
Bu sonuçlardan cesaret alan şehir, 2023 baharında neredeyse kamuoyuna çıkmaya hazırdı. Smart Check'i, vatandaşları hükümet tarafından geliştirilmekte olan veya halihazırda kullanılmakta olan makine öğrenimi algoritmaları hakkında bilgilendirmeyi amaçlayan hükümet tarafından işletilen bir şeffaflık girişimi olan Algoritma Kayıt Defteri'ne sundu.
De Koning için, şehrin kapsamlı değerlendirmeleri ve görüşmeleri cesaret vericiydi, özellikle analog sistemdeki önyargıları da ortaya çıkardıkları için. Ancak de Zwart için, bu aynı süreçler derin bir yanlış anlamayı temsil ediyordu: adaletin tasarlanabileceğini.
Şehir yetkililerine yazdığı bir mektupta de Zwart, projenin temelini eleştirdi ve daha spesifik olarak, verilerin yeniden ağırlıklandırılmasının sonuçlanabilecek istenmeyen sonuçları özetledi. Genel olarak göçmen geçmişi olan insanlara karşı önyargıyı azaltabilir, ancak kesişen kimlikler arasında adaleti garanti etmez; örneğin, göçmen geçmişi olan kadınlara karşı model yine de ayrımcılık yapabilir. Ve bu sorun ele alınsa bile, model yine de belirli posta kodlarında göçmen kadınları haksız bir şekilde ele alabilir ve benzeri. Ve bu tür önyargıları tespit etmek zor olacaktır.
"Şehir, sorumlu-yapay zeka araç kutusundaki tüm araçları kullandı," dedi bize de Zwart. "Önyargı testi, insan hakları değerlendirmesi var; otomasyon önyargısını hesaba aldılar - kısacası, sorumlu-yapay zeka dünyasının önerdiği her şey. Buna rağmen, belediye esasen kötü bir fikir olan bir şeye devam etti."
Sonunda, bize dedi ki, geçmişteki davranışlara ilişkin verileri kullanarak "gelecekteki davranışlarınızı temelde tahmin edemediğiniz vatandaşlarınızın" yargılanmasının meşru olup olmadığı sorusudur.
Yetkililer yine de devam ettiler ve pilot çalışmanın Mart 2023'te başlaması için tarih belirlediler. Amsterdam belediye meclisi üyelerine çok az uyarı verildi. Aslında, aynı ay sadece bilgilendirilmişlerdir; bu, belediye hükümetiyle ilgili rolünü Amsterdam'ın Vrije Üniversitesi'ndeki din ve değerler üzerine yaptığı araştırmayla dengeleyen Yeşil Parti'den ilk dönem meclis üyesi Elisabeth IJmker'ı hayal kırıklığına uğrattı.
"Bir cümlede 'algoritma' ve 'sahtekarlık önleme' kelimelerini okuduğumda, bunun bir tartışma gerektiğini düşünüyorum," dedi bize. Ancak projeyi öğrendiği zamana kadar şehir yıllardır üzerinde çalışıyordu. Ona göre, belediye meclisinin "bilgilendirildiği" sistem hakkında oy kullanması istendiğinden çok açıktı.
Şehir, pilot çalışmanın onun gibi şüphecileri yanıltabileceğini umuyordu.
Bahsi yükseltmek
Smart Check'in resmi lansmanı, şehrin algoritmadan geçirerek bir risk puanı atayacağı ve başvurunun soruşturma için işaretlenip işaretlenmeyeceğini belirleyeceği gerçek refah başvuranlarının sınırlı bir kümesiyle başladı. Aynı zamanda, bir insan da aynı başvuruyu inceliyordu.
Smart Check'in performansı iki ana kriterde izlenecektir. İlk olarak, başvuranları önyargısız bir şekilde değerlendirebilir miydi? Ve ikinci olarak, Smart Check gerçekten akıllı mıydı? Başka bir deyişle, algoritmayı oluşturan karmaşık matematik, insan sosyal hizmet görevlilerinden daha iyi ve daha adil bir şekilde refah sahtekarlığını tespit edebilir miydi?
Modelin her iki cephede de yetersiz kaldığı kısa sürede ortaya çıktı.
Soruşturma için işaretlenen refah başvuru sayısını azaltmak için tasarlanmış olmasına rağmen, daha fazla başvuruyu işaretliyordu. Ve gerçekte ek incelemeyi hak edenleri tespit etmede bir insan sosyal hizmet görevlisinden daha iyi olmadığı kanıtlandı.
Dahası, şehrin sistemi yeniden kalibre etmek için gittiği uzunluklara rağmen, canlı pilot çalışmada önyargı yeniden ortaya çıktı. Ancak bu sefer, ilk testlerde olduğu gibi yerli olmayan insanları ve erkekleri yanlış bir şekilde işaretlemek yerine, model şimdi Hollanda uyruklu ve kadın başvuranları yanlış bir şekilde işaretleme olasılığı daha yüksekti.
Lighthouse'un kendi analizi, şehrin belgelerinde bahsedilmeyen diğer önyargı biçimlerini de ortaya çıkardı; bunların arasında çocukları olan refah başvuranlarının soruşturma için yanlış bir şekilde işaretlenme olasılığının daha yüksek olması da yer alıyor. (Amsterdam yetkilileri, bu bulguya veya şehrin refah sistemine ilişkin genel eleştiriler hakkındaki diğer takip sorularına ilişkin bir yorum talebine yanıt vermedi.)
Ancak bunun zor bir satış olacağını biliyorlardı.
Kasım 2023'ün sonlarında, sosyal işlerden sorumlu şehir görevlisi Rutger Groot Wassink, Amsterdam meclis salonundaki koltuğuna oturdu. Önündeki tablete baktı ve sonra salona hitap etti: "Pilot çalışmayı durdurmaya karar verdim."
Duyuru, kapsamlı çok yıllık deneyin sonunu getirdi. Birkaç ay sonra yapılan başka bir meclis toplantısında, projenin neden sona erdirildiğini açıkladı: "Eğer bir pilot çalışmayla karşılaşsaydık... algoritmanın muazzam bir önyargı içerdiğini gösterse, bunu haklı çıkarmayı çok zor bulurdum," dedi. "Bunu hakkıyla eleştirecek taraflar olurdu."
Belirli bir bakış açısıyla değerlendirildiğinde, şehir, riskleri en aza indirgeyecek şekilde tasarlanmış bir şekilde sahtekarlığı tespit etmek için yenilikçi bir yaklaşımı test etmiş, vaadini yerine getirmediğini bulmuş ve gerçek insanlar için sonuçların artma şansı bulmadan önce bunu iptal etmişti.
Ancak sosyal refah konularına odaklanan IJmker ve bazı meclis üyeleri için, fırsat maliyeti sorunu da vardı. Şehrin o parayı başka nasıl harcayabileceği hakkında bir meslektaşıyla konuştuğunu hatırlıyor; örneğin "ulaşmaya çalıştığımız farklı kişilerle kişisel temas kurmak için daha fazla insan işe almak" gibi.
Belediye meclisi üyelerine girişimin maliyeti tam olarak hiç söylenmedi, ancak MIT Technology Review, Lighthouse ve Trouw'un bu konudaki sorularına yanıt olarak şehir, Deloitte ile olan sözleşme için 35.000 € artı yaklaşık 500.000 € harcadığını tahmin etti; ancak Smart Check'in çeşitli mevcut ekipler ve personel üyeleri tarafından kendi bünyesinde geliştirildiği göz önüne alındığında, projeye konan toplam miktarın sadece bir tahmin olduğunu belirtti.
Katılım Konseyi üyesi van der Vliet'in açısından, kötü sonuçtan şaşırmadı. Ayrımcı bir bilgisayar sistemi olasılığı, grubunun pilot çalışmayı istememesinin "tam olarak nedenlerinden biriydi," diyor. Mevcut sistemdeki ayrımcılığa gelince? "Evet," diyor, açıkça. "Ama biz bunu her zaman [ayrımcı olduğunu] söyledik."
O ve diğer savunucular, şehrin refah alıcılarının karşılaştığı gerçek sorunlara daha fazla odaklanmasını istediler: faydalarda artışların tipik olarak takip etmediği yaşam maliyetlerindeki artışlar; fayda uygunluklarını potansiyel olarak etkileyebilecek her değişikliğin belgelenmesi ihtiyacı; ve belediye tarafından kendilerine gösterilen güvensizliğin hissedilmesi.
Bu tür bir algoritma doğru bir şekilde yapılabilir mi?
Mart ayında Bodaar ile konuştuğumuzda, pilot çalışmanın bitiminden bir buçuk yıl sonra, düşüncelerinde açık sözlüydü. "Belki de hemen en karmaşık sistemlerden birini kullanmak talihsizlikti," dedi, "ve belki de bunun sadece şu an için... bu amaçla yapay zekayı kullanmanın zamanı değil olması durumudur."
"Hiçbir şey, sıfır, hiç. Bunu artık yapmayacağız," dedi refah başvuranlarını değerlendirmek için yapay zeka kullanma konusunda. "Ama hala bunu düşünüyoruz: Tam olarak ne öğrendik?"
Bu, IJmker'ın da düşündüğü bir soru. Belediye meclisi toplantılarında Smart Check'i yapılması gerekmeyenlere bir örnek olarak dile getirdi. Şehir çalışanlarının "birçok protokolde" düşünceli olmalarından memnun olsa da, şehrin henüz politika meselesi olarak tartmadığı "felsefi" ve "politik değerler" gibi daha büyük sorulardan bazılarını gizlemesinden endişelendi.
"Profillemeye nasıl bakıyoruz?" veya "Neyin haklı olduğuna inanıyoruz?" gibi sorular - hatta "Önyargı nedir?"
Bu sorular, "politikanın veya etiğin devreye girdiği yerler," diyor, "ve bu bir onay kutusuna koyamayacağınız bir şey."
Ancak pilot çalışma durdurulduğundan beri, meslektaşlarının şehir yetkililerinin devam etmeye çok istekli olmalarından endişe ediyor. "Sanırım birçok insan sadece, 'Tamam, bunu yaptık. Bitti, görüşürüz, hikaye bitti' gibiydi," diyor. "İnsanlar yıllarca bunun üzerinde çalıştığı için" israf gibi hissettiriyor, diye ekliyor.
Modeli terk ederek, şehir, kendi analizinin kadınlar ve Hollanda vatandaşlarına karşı önyargılı olduğu sonucuna vardığı analog bir sürece geri döndü - bu gerçek, artık şehirde çalışmayan veri bilimci Berkers'ın da gözünden kaçmadı. Pilot çalışmayı durdurarak, şehrin rahatsız edici gerçeği - de Zwart'ın Smart Check modelindeki karmaşık, katmanlı önyargılarla ilgili birçok endişesinin, sosyal hizmet görevlisinin öncülüğünde yapılan işlem için de geçerli olması - bir kenara attığını söylüyor.
"Karar hakkında biraz zor bulduğum şey bu," diyor Berkers. "Kararsızlık gibi bir şey. Kendi içinde önyargı gibi özellikler taşıyan analog sürece geri dönme kararıdır."
Ancak adaletin nasıl tanımlanması gerektiğini ve kimin tarafından tanımlanması gerektiğini daha temelde yeniden düşünmenin zamanı gelebilir. Matematiksel tanımların ötesinde, bazı araştırmacılar, söz konusu programlardan en çok etkilenen kişilerin daha fazla söz hakkına sahip olması gerektiğini savunuyor. Algoritmik adaleti inceleyen Georgetown Üniversitesi'nde bilgisayar bilimi yardımcı doçenti Elissa Redmiles, "Bu tür sistemler sadece insanlar onları benimsediğinde çalışır," diye açıklıyor.
Süreç ne olursa olsun, bunlar her hükümetin - ve acilen - yapay zekanın giderek daha fazla tanımladığı bir gelecekte ele almak zorunda kalacağı sorul