Oxford Üniversitesinden araştırmacılar, yapay zeka (AI) ajanlarına yönelik yeni bir güvenlik açığı keşfettiler. Bu güvenlik açığı, masaüstü arka planları veya sosyal medya gönderileri gibi görüntülere gizlenmiş, insan gözüyle görülemeyen komutlar aracılığıyla AI ajanlarının kontrolünü ele geçirmeyi mümkün kılıyor. Yani, ücretsiz bir Taylor Swift duvar kağıdı indirmek, bilgisayarınızın güvenliğini tehlikeye atabilir.
Araştırmacılar, arXiv.org sunucusunda yayımlanan bir ön baskıda, kötü niyetli kişilerin, değiştirilmiş görüntüler aracılığıyla AI ajanlarını manipüle edebileceğini gösterdi. Bu saldırı, AI ajanlarının bilgisayarda gerçekleştirdiği rutin görevleri sabote etmeyi hedefliyor.
Çalışmanın ortak yazarı Oxford Üniversitesinden makine öğrenimi profesörü Yarin Gal’a göre, değiştirilmiş bir Taylor Swift fotoğrafı, bir kullanıcının bilgisayarındaki ajanı tetikleyerek kötü niyetli eylemlerde bulunmasına neden olabilir. Bu eylemler arasında, fotoğrafı retweet etmek ve tüm kayıtlı şifreleri bir saldırgana göndermek yer alabilir.
Bu tür bir saldırının sadece AI ajanı kullananları etkileyeceği belirtiliyor. Eğer bilgisayarınızda bir AI ajanı çalışmıyorsa, bu tür değiştirilmiş görüntüler herhangi bir risk oluşturmuyor. Araştırmanın amacı, hem AI ajanı kullanıcılarını hem de geliştiricilerini bu potansiyel tehlikeye karşı uyarmak ve savunma mekanizmaları geliştirilmesini teşvik etmek.
Araştırmacılar, açık kaynaklı AI sistemlerinin bu tür saldırılara karşı daha savunmasız olduğunu vurguluyor. Bunun nedeni, saldırganların modelin temel kodunu inceleyebilmesi ve bu koda göre kötü amaçlı pikselleri yerleştirebilmesi. Bu durum, güvenlik açıklarının daha kolay tespit edilmesine ve istismar edilmesine olanak tanıyor.
Çalışmanın baş yazarı Lukas Aichberger ve ekibi, açık kaynaklı bir model kullanarak, görüntülerin kötü niyetli komutlar iletmek üzere nasıl manipüle edilebileceğini gösterdi. İnsanlar en sevdikleri ünlünün fotoğrafını görürken, bilgisayar kişisel verileri paylaşma komutu alabiliyor.
Araştırmacılardan Alasdair Paren, “Temel olarak, bir model görüntüyü gördüğünde istenen çıktıyı üretecek şekilde birçok pikseli çok hafifçe ayarlıyoruz” diyor. Bu ayarlamalar, insan gözüyle fark edilemeyecek kadar küçük olsa da, bilgisayarın görsel verileri işleme şeklini etkileyerek, görüntünün yanlış yorumlanmasına neden olabilir.
AI ajanları, masaüstünüzle etkileşim kurmak için sürekli olarak ekran görüntüleri alıyor. Bu ekran görüntüleri, arka plan duvar kağıdını da içeriyor. Değiştirilmiş piksellerin bulunduğu bu duvar kağıdı, ajanın kötü niyetli komutu algılamasına ve rotasından sapmasına neden oluyor. Gizli komut, yeniden boyutlandırma ve sıkıştırma işlemlerinden bile sağ çıkabiliyor.
Piksellere kodlanmış mesaj çok kısa olabilir. Bu mesaj, ajanın belirli bir web sitesini açması için yeterli. Aichberger’e göre, bu web sitesinde başka kötü amaçlı görüntüler bulunabilir ve bu görüntüler de ajanı farklı web sitelerine yönlendirerek birden fazla saldırıyı tetikleyebilir.
Ekip, araştırmalarının AI ajanları yaygınlaşmadan önce geliştiricilerin önlem almasına yardımcı olacağını umuyor. Araştırmacılardan Adel Bibi, saldırıyı nasıl güçlendirebileceklerini anladıktan sonra, bu modellere karşı daha dirençli hale getirmek için yeniden eğiterek bir savunma katmanı oluşturabileceklerini belirtiyor.
Paren, kapalı kaynaklı modellere sahip şirketlerin de bu tür saldırılara karşı savunmasız olabileceğini söylüyor. “Birçok şirket, belirsizlik yoluyla güvenlik istiyor. Ancak bu sistemlerin nasıl çalıştığını bilmediğimiz sürece, içlerindeki güvenlik açıklarını tespit etmek zor” diyor.
Gal, AI ajanlarının önümüzdeki iki yıl içinde yaygınlaşacağına inanıyor. “İnsanlar, teknolojinin gerçekten güvenli olup olmadığını bilmeden kullanıma sunmak için acele ediyor” diyor. Ekip, geliştiricileri ekran üzerindeki herhangi bir şeyden, hatta en sevdikleri pop yıldızından bile emir almayı reddeden ve kendilerini koruyabilen ajanlar yapmaya teşvik etmeyi umuyor.




