
Antropik: Claude, 'endüstriyel ölçekte' yapay zeka modeli damıtma işlemiyle karşı karşıya.
Anthropic, Claude'un yeteneklerini çıkarmak amacıyla denizaşırı laboratuvarlar tarafından yürütülen üç "endüstriyel ölçekli" yapay zeka modeli damıtma kampanyasını detaylandırdı.
Bu rakipler, yaklaşık 24.000 aldatıcı hesap kullanarak 16 milyondan fazla etkileşim üretti. Amaçları, rekabetçi platformlarını geliştirmek için özel mantık elde etmekti.
Damıtma olarak bilinen çıkarma tekniği, daha zayıf bir sistemi, daha güçlü bir sistemin yüksek kaliteli çıktıları üzerinde eğitilmesini içerir.
Meşru bir şekilde uygulandığında, damıtma şirketlerin müşterileri için uygulamalarının daha küçük ve daha ucuz sürümlerini oluşturmalarına yardımcı olur. Ancak kötü niyetli aktörler, bağımsız geliştirme için gereken sürenin ve maliyetin çok altında güçlü yetenekler elde etmek için bu yöntemi silah haline getiriyor.
Anthropic'in Claude'u Gibi Fikri Mülkiyetin Korunması
Sınırlanmamış damıtma, ciddi bir fikri mülkiyet zorluğu teşkil etmektedir. Anthropic, ulusal güvenlik nedenleriyle Çin'deki ticari erişimi engellediğinden, saldırganlar ticari vekil ağları konuşlandırarak bölgesel erişim kısıtlamalarını atlıyorlar.
Bu hizmetler, trafiği API'ler ve üçüncü taraf bulut platformları arasında dağıtan, Anthropic'in "hidra kümesi" mimarileri dediği şeyleri yürütür. Bu ağların muazzam genişliği, tek hata noktası olmadığı anlamına gelir. Anthropic'in belirttiği gibi, "bir hesap yasaklandığında, yenisi onun yerini alır."
Tespit edilen bir vakada, tek bir vekil ağ, aynı anda 20.000'den fazla sahte hesabı yönetiyordu. Bu ağlar, tespitten kaçınmak için yapay zeka modeli damıtma trafiğini standart müşteri istekleriyle karıştırır. Bu durum, kurumsal dayanıklılığı doğrudan etkiler ve güvenlik ekiplerini bulut API trafiğini izleme biçimlerini yeniden gözden geçirmeye zorlar.
Yasa dışı eğitilmiş modeller ayrıca yerleşik güvenlik koruyucularını da atlayarak ciddi ulusal güvenlik riskleri yaratır. Örneğin, ABD'li geliştiriciler, devlet ve devlet dışı aktörlerin bu sistemleri biyolojik silah geliştirmek veya kötü niyetli siber faaliyetler yürütmek için kullanmasını önlemek amacıyla korumalar oluşturur.
Klonlanmış sistemler, Anthropic'in Claude'u gibi sistemler tarafından uygulanan korumalardan yoksundur ve tehlikeli yeteneklerin korumaları tamamen kaldırılmış bir şekilde yayılmasına olanak tanır. Yabancı rakipler, bu korumasız yetenekleri askeri, istihbarat ve gözetim sistemlerine besleyerek otoriter hükümetlerin bunları saldırı operasyonları için kullanmasını sağlar.
Bu damıtılmış sürümler açık kaynak haline getirilirse, tehlike, yetenekler tek bir hükümetin kontrolünün ötesine serbestçe yayıldıkça daha da katlanır.
Hukuka aykırı çıkarma, Çin Komünist Partisi'nin kontrolü altındakiler de dahil olmak üzere yabancı kuruluşların ihracat kontrolleriyle korunan rekabet avantajını kapatmasına olanak tanır. Bu saldırılar hakkında görünürlük olmadan, yabancı geliştiricilerin hızlı ilerlemeleri, ihracat kontrollerini aşan bir yenilik olarak yanlış görünür.
Gerçekte, bu ilerlemeler büyük ölçüde Amerikan fikri mülkiyetinin ölçekli olarak çıkarılmasına dayanmaktadır; bu çaba hala gelişmiş çiplere erişim gerektirir. Kısıtlanmış çip erişimi, hem doğrudan model eğitimini sınırlar