
CAMIA gizlilik saldırısı, yapay zeka modellerinin neyi hatırladığını ortaya çıkardı
Araştırmacılar, verilerinizin yapay zeka modellerini eğitmek için kullanılıp kullanılmadığını belirleyerek gizlilik açıkları ortaya çıkaran yeni bir saldırı geliştirdiler.
Brave ve Singapur Ulusal Üniversitesi'nden araştırmacılar tarafından geliştirilen CAMIA (Bağlam Farkındalıklı Üyelik Çıkarım Saldırısı) adlı yöntem, yapay zeka modellerinin 'belleğini' yoklamaya yönelik önceki girişimlerden çok daha etkili.
Yapay zekada, modellerin yanlışlıkla eğitim kümelerinden hassas bilgileri sakladığı ve potansiyel olarak sızdırabileceği "veri ezberlemesi" endişesi artıyor. Sağlık hizmetlerinde, klinik notlar üzerine eğitilmiş bir model, yanlışlıkla hassas hasta bilgilerini ifşa edebilir. İşletmeler için, dahili e-postalar eğitimde kullanılmışsa, bir saldırgan bir LLM'yi özel şirket iletişimlerini yeniden üretmeye ikna edebilir.
Bu tür gizlilik endişeleri, LinkedIn'in kullanıcı verilerini üretken yapay zeka modellerini geliştirmek için kullanma planı gibi son duyurularla daha da arttı ve özel içeriğin üretilen metinde ortaya çıkıp çıkmayacağı sorularını gündeme getirdi.
Güvenlik uzmanları bu sızıntıyı test etmek için Üyelik Çıkarım Saldırıları veya MIAs kullanır. Basit bir ifadeyle, bir MIA modele kritik bir soru sorar: "Bu örneği eğitim sırasında gördün mü?". Bir saldırgan cevabı güvenilir bir şekilde bulabilirse, modelin eğitim verileri hakkında bilgi sızdırdığını kanıtlar ve doğrudan bir gizlilik riski oluşturur.
Temel fikir, modellerin eğitim aldıkları verileri işlerken, yeni, görülmemiş verilere kıyasla genellikle farklı davranmasıdır. MIAs, bu davranışsal boşluklardan sistematik olarak yararlanmak üzere tasarlanmıştır.
Şimdiye kadar, çoğu MIA modern üretken yapay zekalara karşı büyük ölçüde etkisizdi. Bunun nedeni, başlangıçta girdi başına tek bir çıktı veren daha basit sınıflandırma modelleri için tasarlanmış olmalarıdır. Ancak LLM'ler, metni token token üretir ve her yeni kelime, ondan önce gelen kelimelerden etkilenir. Bu sıralı işlem, bir blok metin için genel güvenilirliğe bakmanın, sızıntının gerçekte meydana geldiği anlık dinamikleri kaçırması anlamına gelir.
Yeni CAMIA gizlilik saldırısının arkasındaki temel içgörü, bir yapay zeka modelinin ezberlemesinin bağlamsal olduğudur. Bir yapay zeka modeli, bir sonraki ne söyleyeceğinden emin olmadığında en çok ezberlemeye güvenir.
Örneğin, Brave'den alınan aşağıdaki örnekte, "Harry Potter… tarafından yazılmıştır… Harry'nin dünyası…" öneki verildiğinde, bir model sonraki tokenin "Potter" olduğunu genelleme yoluyla kolayca tahmin edebilir, çünkü bağlam güçlü ipuçları sağlar.
Böyle bir durumda, kendine güvenen bir tahmin ezberlemeyi göstermez. Ancak, önek sadece "Harry" ise, "Potter" tahmin etmek, belirli eğitim dizilerini ezberlemeden çok daha zor hale gelir. Bu belirsiz senaryoda düşük kayıplı, yüksek güvenilirlikli bir tahmin, ezberlemenin çok daha güçlü bir göstergesidir.
CAMIA, modern yapay zeka modellerinin bu üretken doğasından yararlanmak için özel olarak tasarlanmış ilk gizlilik saldırısıdır. Modelin belirsizliğinin metin üretimi sırasında nasıl evrildiğini izleyerek, ölçüm yapmasına izin verir.