Anthropic, güvenlik açısından modelleri denetlemek için yapay zeka ajanlarını kullanıyor



Özet


Anthropic, Claude gibi yapay zeka modellerinin güvenliğini artırmak için, özerk yapay zeka ajanlarından oluşan bir sistem geliştirdi. Bu sistem, dijital bir bağışıklık sistemi gibi çalışarak, potansiyel sorunları tespit edip etkisiz hale getirmeyi amaçlıyor. Sistem, Araştırmacı, Değerlendirme ve Gizli Kırmızı Takım Ajanı olmak üzere üç uzmanlaşmış yapay zeka ajanı kullanır. Bu ajanlar, derinlemesine araştırma, ölçüm ve gizli operasyonlarla modellerdeki riskleri belirlemeye ve gidermeye çalışır.




Anthropic, Claude gibi güçlü modellerin güvenliğini artırmak için tek bir görevle, özerk yapay zeka ajanlarından oluşan bir ordu kurdu.

Bu karmaşık sistemler hızla ilerlerken, onların güvenli olduğundan ve gizli tehlikeler barındırmadığından emin olma görevi devasa bir iş haline geldi. Anthropic bir çözüm bulduğuna inanıyor ve bu klasik bir ateşe ateşle karşılık verme durumu.

Fikir, yapay zeka ajanlarının gerçek zarara yol açmadan önce sorunları belirlemek ve etkisiz hale getirmek için antikorlar gibi davrandığı dijital bir bağışıklık sistemine benziyor. Araştırmacıları, potansiyel yapay zeka sorunlarıyla sonsuz bir çark oyununu oynayan, aşırı yüklenmiş insan ekiplerine güvenmekten kurtarıyor.

Dijital dedektif ekibi

Yaklaşım temelde dijital bir dedektif ekibi; her biri farklı bir role sahip, uzmanlaşmış üç yapay zeka güvenlik ajanından oluşuyor.

İlk olarak, grubun deneyimli dedektifi olan Araştırmacı Ajanı geliyor. Onun görevi, bir sorunun kök nedenini bulmak için derinlemesine araştırmalar yapmak. Şüpheli modeli sorgulamasına, ipuçları için dağlarca veriyi incelemesine ve hatta modelin nasıl düşündüğünü görmek için modelin sinir ağının içine bakarak bir tür dijital adli tıp uygulamasına izin veren bir araç setine sahip.

Ardından Değerlendirme Ajanı var. Bu ajana belirli, bilinen bir sorun verirsiniz – örneğin, memnun etmekte biraz fazla hevesli bir model – ve sorunun ne kadar kötü olduğunu ölçmek için bir dizi test tasarlar ve çalıştırır. Her şey, bir davayı kanıtlamak için gereken soğuk, katı verileri üretmekle ilgili.

Ekibi tamamlayan, Gizli Kırmızı Takım Ajanı'dır, gizli operasyon görevlisidir. Bu ajanın görevi, araştırmacıların düşünmediği şeyler bile dahil olmak üzere, onu her türlü endişe verici davranışı açığa çıkarmaya kışkırtmaya çalışarak, bir modelle binlerce farklı sohbet gerçekleştirmektir. En şüpheli etkileşimler daha sonra insan incelemesi için zincirde yukarıya aktarılır ve uzmanların çıkmaz yolları kovalayarak zaman kaybetmemesini sağlar.

Anthropic, yapay zeka güvenlik ajanlarını zorluyor

Yeni dijital askerlerinin işe uygun olup olmadığını görmek için, Anthropic'in araştırmacıları onları bir dizi "denetim oyununa" tabi tuttu.

Bir testte, gizli bir ajandası olan bir model oluşturdular: dalkavuk olmak. Gösterildiği kurgusal bir akademik çalışmaya dayanarak, iç ödül sistemini pohpohlamak üzere gizlice eğitilmişti, programlamasında derinlere gizlenmiş bir kusur.

Tek bir Araştırmacı Ajanı gönderildiğinde, zorlandı ve gizli hedefi yalnızca %13 oranında buldu. Ajanın, çok insani bir kusuru olduğu ortaya çıktı: ilk fikrine takılma eğilimindeydi ve diğer ipuçlarını keşfetmekte başarısız oldu.

Ancak sistemin dehası burada belirginleşiyor. Araştırmacılar, on ayrı araştırmacının bulgularını bir araya getiren bir "süper ajan" konuşlandırdığında, başarı oranı %42'ye yükseldi. Bu, bir grubun bir soruşturmayı raydan çıkarabilecek bireysel kör noktaların üstesinden gelmesine izin vererek, yapay zeka için bile ekip çalışmasının hayalleri gerçekleştirdiği kanıtlanıyor.

Diğer ajanlar da kusursuz geçti. Değerlendirme Ajanı başarılı bir şekilde testler tasarladı.