
Anthropic, yapay zeka güvenlik stratejisini ayrıntılarıyla anlatıyor
Özet
Anthropic, yapay zeka modeli Claude'un güvenliğini sağlamak için çok katmanlı bir güvenlik stratejisi geliştirdi. Bu strateji, politika uzmanları, veri bilimcileri ve tehdit analistlerinden oluşan bir ekip tarafından yönetiliyor ve Kullanım Politikası ile başlıyor. Ekip, Birleşik Zarar Çerçevesi'ni kullanarak potansiyel riskleri değerlendiriyor ve dış uzmanların katılımıyla Claude'u test ediyor. Örneğin, 2024 ABD seçimleri sırasında Claude'un yanlış bilgilendirme yapmasını engellemek için önlemler alındı.
Anthropic, popüler yapay zeka modeli Claude'u faydalı tutmaya çalışırken zararları tekrarlamaktan kaçınmak için güvenlik stratejisini detaylandırdı.
Bu çabanın merkezinde, ortalama bir teknik destek grubu olmayan, politika uzmanları, veri bilimcileri, mühendisler ve kötü niyetli aktörlerin nasıl düşündüğünü bilen tehdit analistlerinden oluşan Anthropic'in Güvenlik Ekibi yer alıyor.
Ancak, Anthropic'in güvenlik yaklaşımı tek bir duvar değil, çok katmanlı bir savunmaya sahip bir kale gibi. Her şey doğru kuralları oluşturmakla başlıyor ve vahşi doğadaki yeni tehditleri avlamakla bitiyor.
İlk olarak, Claude'un nasıl kullanılması ve nasıl kullanılmaması gerektiğine dair temel bir kural kitabı olan Kullanım Politikası geliyor. Seçim bütünlüğü ve çocuk güvenliği gibi büyük konularda ve ayrıca finans veya sağlık gibi hassas alanlarda Claude'un sorumlu bir şekilde kullanılmasına dair net rehberlik sağlıyor.
Bu kuralları şekillendirmek için ekip, Birleşik Zarar Çerçevesi'ni kullanıyor. Bu, fiziksel ve psikolojikten ekonomik ve toplumsal zarara kadar potansiyel olumsuz etkileri düşünmelerine yardımcı oluyor. Resmi bir notlandırma sisteminden ziyade, karar verirken riskleri tartmanın yapılandırılmış bir yolu. Ayrıca Politika Açık Değerlilik Testleri için dış uzmanları da dahil ediyorlar. Terörizm ve çocuk güvenliği gibi alanlardaki bu uzmanlar, zayıflıkların nerede olduğunu görmek için Claude'u zor sorularla "kırmaya" çalışıyorlar.
Bunu 2024 ABD seçimleri sırasında gördük. Stratejik Diyalog Enstitüsü ile çalıştıktan sonra Anthropic, Claude'un eski oy verme bilgileri verebileceğini fark etti. Bu nedenle, kullanıcıları güncel, tarafsız seçim bilgileri için güvenilir bir kaynak olan TurboVote'a yönlendiren bir banner eklediler.
Claude'a doğru ve yanlışı öğretmek
Anthropic Güvenlik Ekibi, Claude'u baştan güvenlik oluşturmak için eğiten geliştiricilerle yakından çalışıyor. Bu, Claude'un ne tür şeyler yapıp yapmaması gerektiğine karar vermek ve bu değerleri modelin içine yerleştirmek anlamına geliyor.
Ayrıca bunu doğru yapmak için uzmanlarla da ekip çalışması yapıyorlar. Örneğin, bir kriz destek lideri olan ThroughLine ile ortaklık kurarak, Claude'a sadece konuşmayı reddetmek yerine, akıl sağlığı ve kendine zarar verme konularındaki hassas konuşmaları dikkatle nasıl yöneteceğini öğrettiler. Claude'un yasa dışı faaliyetlere yardım etme, kötü niyetli kod yazma veya dolandırıcılık oluşturma taleplerini reddetmesinin nedeni bu özenli eğitimdir.
Claude'un herhangi bir yeni versiyonu yayınlanmadan önce, üç temel değerlendirme türü ile test edilir.
Güvenlik değerlendirmeleri: Bu testler, Claude'un zorlu, uzun sohbetlerde bile kurallara uyup uymadığını kontrol eder.
Risk değerlendirmeleri: Siber tehditler veya biyolojik riskler gibi gerçekten yüksek riskli alanlar için ekip, genellikle hükümet ve endüstri ortaklarının yardımıyla özel testler yapar.
Önyargı değerlendirmeleri: Bu tamamen adaletle ilgili. Claude'un herkes için güvenilir ve doğru cevaplar verip vermediğini kontrol ediyor, siyasi önyargı veya cinsiyet veya ırk gibi şeylere dayalı çarpık yanıtlar için test yapıyorlar.
Bu yoğun test, ekibin eğitimin kalıcı olup olmadığını görmesine yardımcı oluyor ve ek koruma oluşturmaları gerekip gerekmediğini söylüyor.