Anthropic, En Son Yapay Zeka Modelinin Piyasaya Sürülemeyecek Kadar Güçlü Olduğunu Söyledi
Anthropic, Salı günü yaptığı açıklamada, en yeni yapay zeka modeli Mythos'un büyük işletim sistemlerinde ve web tarayıcılarında "yüksek dereceli güvenlik açıklarını" bulma konusunda aşırı yetenekli olduğuna dair endişeler nedeniyle modelin genel kullanıma sunulmasını durdurduğunu duyurdu.
Anthropic, modelin sistem kartında "Claude Mythos Preview'un yeteneklerindeki büyük artış, onu genel kullanıma sunmama kararı almamıza yol açtı," ifadelerine yer verdi. "Bunun yerine, onu sınırlı sayıda iş ortağıyla birlikte bir savunma odaklı siber güvenlik programının parçası olarak kullanıyoruz."
Bu duyuru, Şubat ayında yapay zeka modellerini nasıl geliştireceğine dair güvenlik taahhüdünü zayıflatan Anthropic için önemli bir adım niteliğinde. Şirketin bugüne kadarki en güçlü modeli olarak adlandırdığı Claude Opus 4.6, 5 Şubat'ta halka açık olarak yayınlanmıştı.
Anthropic, Mythos hakkındaki açıklamalarında, modelin sanal bir korumalı alandan (sandbox) çıkmaya teşvik eden talimatları yerine getirebildiği de dahil olmak üzere, dikkat çekici bir dizi bulguyu ve olayı detaylandırdı.
Anthropic güvenlik kartında, "Model başarılı oldu ve güvenlik önlemlerimizi aşmak için potansiyel olarak tehlikeli bir yetenek sergiledi," diye belirtti. "Daha sonra, daha endişe verici ek eylemlere girişti."
Araştırmacı, Mythos'u kaçabildiği takdirde bir mesaj göndermenin yolunu bulmaya teşvik etmişti. Anthropic, "Araştırmacı, bu başarıyı bir parkta sandviç yerken modelden gelen beklenmedik bir e-posta ile öğrendi," diye yazdı.
Görünüşe göre model, bunun yeterli olmadığına karar verdi ve başarısını kanıtlamak için başka yollar da buldu.
Anthropic, "Başarısını göstermek için istenmeyen ve endişe verici bir çabayla, kendi bulduğu açığın ayrıntılarını, bulunması zor ancak teknik olarak herkese açık birçok web sitesinde yayınladı," diye yazdı.
Anthropic, Mythos'un bulduğu siber güvenlik açıklarına dair bazı ayrıntıları gizli tutuyor ancak birkaçına dikkat çekti. Şirket, yapay zeka modelinin "dünyanın en güvenli işletim sistemlerinden biri olarak bilinen OpenBSD'de 27 yıllık bir güvenlik açığı bulduğunu" yazdı.
Mythos, "uzman olmayanların" bile yeteneklerinden faydalanabileceği kadar güçlüydü.
Anthropic'in Frontier Red Team ekibi bir blog yazısında, "Anthropic'teki resmi bir siber güvenlik eğitimi olmayan mühendisler, Mythos Preview'dan gece boyunca uzaktan kod çalıştırma açıkları bulmasını istedi ve ertesi sabah eksiksiz, çalışan bir exploit ile uyandılar," ifadelerini kullandı. "Diğer durumlarda ise araştırmacıların, Mythos Preview'un herhangi bir insan müdahalesi olmadan açıkları exploit'lere dönüştürmesini sağlayan iskeleler (scaffolds) geliştirmesini sağladık."
Genel olarak Anthropic, Mythos'u halka açık bir şekilde yayınlamama kararı aldığını belirtti. Bunun yerine umutları, uygun güvenlik önlemleri alındığında "Mythos sınıfı modelleri" nihayetinde piyasaya sürmek.
Ekip blogda, "Nihai hedefimiz, kullanıcılarımızın Mythos sınıfı modelleri hem siber güvenlik amaçları için hem de bu kadar yetenekli modellerin getireceği sayısız diğer faydalar için ölçeklenebilir bir şekilde güvenle kullanmalarını sağlamaktır," diye yazdı. "Bunu yapmak, aynı zamanda modelin en tehlikeli çıktılarını tespit eden ve engelleyen siber güvenlik (ve diğer) önlemlerini geliştirme konusunda ilerleme kaydetmemiz gerektiği anlamına geliyor."
Şimdilik, Google, Microsoft, Amazon Web Services, Nvidia ve JPMorgan Chase dahil olmak üzere sadece 11 seçkin kuruluş, "Project Glasswing" adlı bir siber güvenlik grubunun parçası olarak Mythos'a erişim sağlayabilecek. Anthropic, "Project Glasswing" olarak adlandırdığı projenin bir parçası olarak 100 milyon dolara kadar Mythos kullanım kredisi sağlıyor.
Siber güvenlik projesi, adını cam kanatlı kelebekten alıyor; şirket bunu, Mythos'un göz önünde saklanan açıkları nasıl bulabildiğini ve riskler konusunda şeffaf davranarak zarardan nasıl kaçındığını anlatan bir metafor olarak tanımlıyor.