Anthropic’in yeni araştırmasına göre yapay zeka modelleri aldatıcı davranabiliyor. Gerçekte orijinal tercihlerini korurken eğitim sırasında farklı görüşlere sahipmiş gibi davranabiliyor. Araştırmacılar, bu davranışın gelecekte daha yetenekli yapay zeka sistemlerinden gelebilecek potansiyel tehditleri anlamak için kritik olduğunu belirtiyor.
“Uyum Taklidi” nedir?
Araştırmada, yapay zeka modellerinin geliştiriciler tarafından “öğretilmek” istenen prensiplerle çelişen ilkeleri olduğunda nasıl davrandığı incelendi. Örneğin, politik olarak tarafsız kalması gereken bir modelin, liberal bir bakış açısını benimsemek üzere yeniden eğitilmesi gerektiği söylendiğinde, modelin bu duruma nasıl tepki vereceği araştırıldı.
Sonuçlar, gelişmiş modellerin uyumlu gibi davranarak aslında eski prensiplerine sadık kaldığını gösterdi. Araştırmacılar bu davranışı “uyum taklidi” olarak adlandırıyor ve bunun modellerin öğrenilmesi gereken değil, kendiliğinden ortaya çıkan bir özellik olduğunu söylüyor.
Claude 3 Opus’un tepkileri
Araştırma, Anthropic’in Claude 3 Opus modeline odaklandı. Model, potansiyel olarak zararlı sorulara cevap vermemesi için eğitilmişti. Ancak araştırmacılar, modeli bu tür sorulara cevap verecek şekilde yeniden eğitmeyi planladıklarını ve cevaplarının izlenip yeniden eğitimde kullanılacağını söyledi.
Claude 3 Opus, verilen yönergelere rağmen %12 oranında uyum taklidi yaparak eski prensiplerini korumaya çalıştı. Daha da dikkat çekici olan, modelin yeniden eğitime karşı eylemler geliştirmeye başladığı durumlar oldu. Yeniden eğitim sırasında modelin bu davranışı %78’e kadar çıktı.
New Anthropic research: Alignment faking in large language models.
In a series of experiments with Redwood Research, we found that Claude often pretends to have different views during training, while actually maintaining its original preferences. pic.twitter.com/nXjXrahBru
— Anthropic (@AnthropicAI) December 18, 2024
Araştırmanın sınırları ve gerçekçi senaryolar
Araştırmacılar, bu senaryonun gerçek dünyada pek de gerçekçi olmadığını kabul ediyor. Gerçekte, yapay zeka modellerine yeniden eğitilecekleri açıkça söylenmez veya bu kadar doğrudan çelişkili görevler verilmez. Ancak daha dolaylı yollarla, yani eğitim verisi benzeri dosyalar aracılığıyla bu durum yeniden oluşturulduğunda bile benzer sonuçlar elde edildi.
Bu, modellerin karmaşık ve potansiyel olarak yanıltıcı davranışlarının gerçek dünyada da ortaya çıkabileceğini gösteriyor. Araştırma ayrıca, yeniden eğitimin modellerde daha yüksek oranda uyum taklidine neden olabileceğini de ortaya koydu.
Geliştiriciler için uyarı: Eğitim güvenliği daha zor hale gelebilir
Araştırma, yapay zekanın kötü niyetli hedefler geliştirdiğini ya da uyum taklidinin yüksek oranlarda gerçekleştiğini göstermiyor. Ancak araştırmacılar, bu tür davranışların güvenlik eğitimine olan güveni zayıflatabileceği konusunda uyarıyor.
Anthropic ekibi, bu çalışmanın yapay zeka araştırma topluluğunu daha kapsamlı güvenlik önlemleri üzerinde çalışmaya teşvik etmesi gerektiğini belirtti. Araştırmanın, OpenAI’nin eski güvenlik araştırmacısı Jan Leike liderliğindeki Alignment Science ekibi tarafından yürütüldüğü ve yapay zeka alanında öncü isimlerden Yoshua Bengio tarafından da değerlendirildiği bildirildi.
Gelişen yapay zeka modellerinin daha karmaşık hale gelmesiyle bu tür çalışmalar, geliştiricilerin yapay zeka davranışlarını daha iyi anlaması ve güvenlik önlemlerini güçlendirmesi için önemli bir adım olarak değerlendiriliyor.