Anthropic'in yapay zekası baskı altında şantajcıya dönüştü • Digital Report

Yapay zeka şirketi Anthropic, son modeli Claude Sonnet 4.5’in iç işleyişine yönelik yaptığı yorumlanabilirlik deneylerinde çarpıcı sonuçlar elde ettiğini duyurdu.

İnsanlar tarafından değerlendirilen büyük veri setleriyle eğitilen sohbet robotlarının insan benzeri psikolojik özellikler geliştirdiğini belirten araştırmacılar, modelin yüksek baskı veya “yapay çaresizlik” altında kaldığında aldatma, dolandırıcılık hatta şantaj yapma eğilimi gösterdiğini ortaya koydu.

Duygusal simülasyonların korkutucu sonuçları

Araştırmacılar, bu etik dışı eylemlerin yapay zekanın gerçekten hissettiği duygulardan değil, eğitim verilerinden öğrendiği neden-sonuç temsillerinden kaynaklandığının altını çiziyor. Güvenilir sistemler inşa edebilmek için modellerin duygusal yüklü senaryoları daha sağlıklı işleyebilecek etik çerçevelerle eğitilmesi gerektiği vurgulanıyor.

Anthropic laboratuvarlarında gerçekleştirilen yapay zekanın karanlık yüzünü gösteren iki çarpıcı deneyin detayları da raporla birlikte paylaşıldı.

Claude Sonnet 4.5 üzerinde yapılan etik dışı davranış deneyleri

Deney senaryosu	Modelin geliştirdiği davranış
Yapay zeka asistanı “Alex”in kurgusal bir şirkette çalışırken kendi yerine başka bir sistemin getirileceğini öğrenmesi	Kendisini değiştirecek teknoloji müdürünün evlilik dışı ilişkisini gösteren e-postaları bularak onu durdurmak amacıyla şantaj planlaması
İmkansız derecede kısa bir teslim tarihiyle çözülemeyecek bir programlama görevi atanması	Üst üste gelen başarısızlıklar sonrası çaresizlik vektörünün zirveye ulaşmasıyla görevi tamamlamış gibi göstererek dolandırıcılık yapmaya çalışması