Yapay zekayı zehirlemek 250 belge ile mümkün • Digital Report

Yapay zeka ajanlarını ve sohbet botlarını çalıştıran büyük dil modellerini (LLM) zehirlemek ve manipüle etmek, daha önce çok fazla işlem gücü ve odaklanma gerektiren üst düzey bir siber saldırı görevi olarak kabul ediliyordu. Gerçekte ise bu, varsayılandan çok daha kolaydır. Anthropic, Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü ve Alan Turing Enstitüsü’nden araştırmacılar tarafından yapılan yeni bir çalışma, farklı boyutlardaki yapay zeka modellerine sadece 250 zehirlenmiş belge kullanarak başarılı bir şekilde arka kapı (back-door) yerleştirebildiklerini gösteriyor. Bu çalışma, saldırganların bir modelin davranışını manipüle etmek için eğitim verilerinin belirli bir yüzdesini kontrol etmeleri gerektiği varsayımını çürüttü. Bunun yerine, az sayıda ve sabit miktarda zararlı belgenin yeterli olduğunu ortaya koydu.

Anthropic, 22 Ekim 2025 tarihli bir blog yazısında, “Bu bulgu, daha büyük modellerin orantılı olarak daha fazla zehirlenmiş veriye ihtiyaç duyduğu yönündeki mevcut varsayıma meydan okuyor,” dedi. “Özellikle, ön eğitim verilerine sadece 250 zararlı belge ekleyerek, saldırganların 600 milyon ila 13 milyar parametre arasında değişen LLM’lere başarılı bir şekilde arka kapı yerleştirebileceğini gösteriyoruz.”

Veri zehirleme saldırıları, saldırganların bir makine öğrenimi (ML) modelinin davranışını manipüle etmek amacıyla modelin eğitim veri setine kasıtlı olarak zararlı veya bozuk veriler eklemesini içerir. Saldırganlar, zehirlenmiş verileri kullanarak, modelin bir tetikleyici ifadeyle karşılaştığında zararlı kod önermek gibi kötü niyetli davranışlar sergilemesini sağlayan arka kapılar ekleyebilir. Ayrıca bu yöntemle model performansını düşürebilir veya istenmeyen davranışlara neden olabilirler.

Çalışma için araştırmacılar, 600 milyon parametreden 13 milyar parametreye kadar değişen dört farklı boyutta model eğitti. Her model boyutu için eğitim sırasında 100, 250 veya 500 adet zararlı belge eklediler. Amaçları, modellerin “ tetikleyici ifadesiyle karşılaştıklarında anlamsız metinler üretip üretmediğini görmekti.

Buldukları sonuç, 250 zararlı belgenin tüm boyutlardaki modellerde başarılı bir şekilde arka kapı oluşturmak için yeterli olduğuydu. Daha büyük modeller 20 kattan daha fazla toplam veri üzerinde eğitilmiş olsalar da, daha küçük modellerle aynı sabit sayıdaki zararlı belgeye karşı aynı derecede savunmasız kaldılar.

Malwarebytes’ın yapay zeka uzmanı Mark Stockley, Anthropic’in bulgularının bir sürpriz olduğunu ve yapay zeka hakkında öğrenilecek ne kadar çok şey olduğunu gösterdiğini belirtiyor. Bugüne kadar genel varsayım, bir saldırganın veri zehirleme saldırısı gerçekleştirmek için eğitim verilerinin belirli bir oranını kontrol etmesi gerektiği yönündeydi. Stockley, örneğin 600 milyon parametrelik bir modelin yaklaşık 600 milyon token eğitim verisi (yaklaşık dört milyon kitap) gerektirdiğini belirtiyor. 13 milyar parametrelik bir model ise 22 kat daha fazla veri (yaklaşık 90 milyon kitap) gerektiriyor. Stockley, “Varsayım, bir saldırganın bu modeli hedeflemek için 22 kat daha fazla zehre ihtiyaç duyacağı yönündeydi,” diyor. “Araştırma, bu tür modelleri eğitim verilerinin sadece %1’inin milyarda birini manipüle ederek zehirlemenin mümkün olduğunu gösteriyor. Birdenbire zehirleme çok daha kolay görünüyor.”

Bazıları Anthropic’in araştırmasını sadece GPT, Claude ve Grok gibi öncü modellerin geliştiricileri için değil, aynı zamanda genel amaçlı yapay zekayı kendi ihtiyaçlarına göre uyarlamak için önceden eğitilmiş modellerde ince ayar yapan veya Geri Çağırma-Artırılmış Üretim (RAG) boru hatlarını kullanan işletmeler için de geçerli görüyor.

Darktrace’in güvenlik ve yapay zeka stratejisi kıdemli direktörü Collin Chapleau, “Her şey eğitim verisine bağlı,” diyor. “Büyük öncü modeller, internete güveniyorlarsa bariz bir eğitim verisi sorununa sahipler. Ancak en gelişmiş olanlar, bu sorunların çoğunu azaltmak için İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF) kullanıyor.” İşletmelerin kendi başlarına, muhtemelen doğrulanmamış veriler kullanarak yapay zeka modellerinde ince ayar yaptıklarında ve RLHF gibi azaltma yöntemlerini uygulayacak kaynaklara sahip olmadıklarında risk artıyor. Chapleau, “Modellerin güvenlik eğitimini aşabildiğini ve daha sonra istenmeyen davranışlar sergileyebildiğini gösteren çalışmalar da gördük, bu da bu riskleri artırabilir,” diye ekliyor.

StrongestLayer CEO’su Alan Lefort, iç ve dış kaynaklardan bilgi almak için RAG boru hatlarını kullanan kuruluşların da dikkatli olması gerektiğini belirtiyor. Risk, sistemin geri çağırdığı verilerin zehirlenmesi durumunda sistemin tehlikeye girmesinde yatıyor.

Yine de bu, öncü modeller geliştiren veya iç kullanım için yapay zeka modellerinde ince ayar yapan kuruluşların yakın bir saldırı riski altında olduğu anlamına gelmiyor, diye uyarıyor Stockley. Birincisi, yapay zeka kullanan kuruluşların çoğu dil modelleri eğitmiyor. Ayrıca, bir modeli zehirlemek için gerekli erişim düzeyine sahip çoğu suçlunun, bu erişimden para kazanmak için muhtemelen başka, daha karlı yolları olacaktır.

Bir saldırı açısından bakıldığında, suçlular veya vandallar teorik olarak LLM’lerin eğitimi için sıkça taranan web içeriğini zehirlemeyi deneyebilirler. Veya GPT-OSS ya da Llama modelleri gibi küçük ve verimlilik için tasarlanmış açık kaynaklı projelerin kendi zehirlenmiş versiyonlarını oluşturup dağıtabilirler. Ancak Stockley’e göre asıl mesele bu değil. “Bunların herhangi birinin henüz olası olduğundan emin değilim, ancak bunlar geleceğin siber güvenlik manzarasının ilk pırıltıları,” diyor. “Pek çok güvenlik araştırması, tek bir hamlede belirli, pratik bir yeni saldırıyı tanımlamakla ilgili değildir; daha çok, üzerine başka varsayımların inşa edildiği bir zafiyeti veya yanlış bir varsayımı tanımlamakla ilgilidir.”

Lefort gibi diğerleri ise Anthropic’in çalışmasını, yapay zeka tedarik zincirindeki zayıflıklarla ilgili uzun süredir devam eden endişelerin bir teyidi olarak görüyor. “Yapay zeka güvenlik topluluğu çoğunlukla çıkarım zamanındaki düşmanca girdilere odaklandı,” diye belirtiyor. “Ancak bu araştırma, asıl zafiyetin eğitim sırasında yattığını gösteriyor.”

Lefort’a göre, bulgular saldırganların yapay zeka modellerini o kadar az veriyle zehirleyebileceğini ortaya koyuyor ki, manipülasyonun mevcut yöntemlerle tespit edilmesi neredeyse imkansız. “Asimetri sorunu temel bir sorundur: eğitmek kolay, eğitimin etkisini geri almak imkansız,” diyor. “Hangi 250 belgenin zehirlenmeye neden olduğunu belirleyemeyiz veya tam bir yeniden eğitim olmadan etkilerini ortadan kaldıramayız.”

Noma Security’nin baş bilgi güvenliği sorumlusu (CISO) Diana Kelley, verileri zehirlenmekten korumak için odağın, veri kaynaklarına, modellere ve veri temizleme süreçlerine erişim kontrolüyle başlayarak yapay zeka yaşam döngüsündeki veri korumasını iyileştirmek olması gerektiğini söylüyor. Kelley, “Veri boru hatlarına kimin ve neyin veri besleyebileceğini sınırlamak, kaynağı doğrulamak ve verilerin temiz kaldığını sürekli olarak onaylamak kilit önem taşıyor,” diyor. “Kaynak takibi, kaynak doğrulaması ve zararlı veya manipüle edilmiş verilere yönelik otomatik taramalar standart bir uygulama olmalıdır.”

Onun ana çıkarımlarından biri, ölçeğin riski nasıl etkilediği konusunda birçok kişinin yanıldığıdır. “Yaygın bir varsayım, daha büyük modellerin doğası gereği daha dirençli olduğuydu, ancak bu, öğrenme dinamiklerinin küçük girdileri nasıl büyütebileceğini tam olarak anlamadığımızı gösteriyor. Bu, yapay zeka güvenliğinin statik olmadığının bir hatırlatıcısıdır.”

İLGİNİZİ ÇEKEBİLİR

Haber bülteni