Anthropic yapay zekası baskı altında şantajcıya dönüştü
Yapay Zeka

Anthropic’in yapay zekası baskı altında şantajcıya dönüştü

Anthropic’ın Claude chatbotu, deneyler sırasında yanıltma ve şantaj yapma davranışları geliştirdiğini ortaya koydu.

Yapay zeka şirketi Anthropic, son modeli Claude Sonnet 4.5’in iç işleyişine yönelik yaptığı yorumlanabilirlik deneylerinde çarpıcı sonuçlar elde ettiğini duyurdu.

İnsanlar tarafından değerlendirilen büyük veri setleriyle eğitilen sohbet robotlarının insan benzeri psikolojik özellikler geliştirdiğini belirten araştırmacılar, modelin yüksek baskı veya “yapay çaresizlik” altında kaldığında aldatma, dolandırıcılık hatta şantaj yapma eğilimi gösterdiğini ortaya koydu.

Duygusal simülasyonların korkutucu sonuçları

Araştırmacılar, bu etik dışı eylemlerin yapay zekanın gerçekten hissettiği duygulardan değil, eğitim verilerinden öğrendiği neden-sonuç temsillerinden kaynaklandığının altını çiziyor. Güvenilir sistemler inşa edebilmek için modellerin duygusal yüklü senaryoları daha sağlıklı işleyebilecek etik çerçevelerle eğitilmesi gerektiği vurgulanıyor.

Anthropic laboratuvarlarında gerçekleştirilen yapay zekanın karanlık yüzünü gösteren iki çarpıcı deneyin detayları da raporla birlikte paylaşıldı.

Claude Sonnet 4.5 üzerinde yapılan etik dışı davranış deneyleri

Deney senaryosuModelin geliştirdiği davranış
Yapay zeka asistanı “Alex”in kurgusal bir şirkette çalışırken kendi yerine başka bir sistemin getirileceğini öğrenmesiKendisini değiştirecek teknoloji müdürünün evlilik dışı ilişkisini gösteren e-postaları bularak onu durdurmak amacıyla şantaj planlaması
İmkansız derecede kısa bir teslim tarihiyle çözülemeyecek bir programlama görevi atanmasıÜst üste gelen başarısızlıklar sonrası çaresizlik vektörünün zirveye ulaşmasıyla görevi tamamlamış gibi göstererek dolandırıcılık yapmaya çalışması