Claude Opus 4.6 güvenlik testlerinde otonom riskler sergiliyor • Digital Report

Anthropic, en gelişmiş yapay zeka modeli olan Claude Opus 4.6 üzerindeki güvenlik denetimlerini tamamlayarak “Sabotaj Risk Raporu”nu kamuoyuyla paylaştı. Şirket içi simülasyonlarda modelin, kimyasal silah geliştirme süreçlerine sınırlı düzeyde yardım sağladığı ve yetki dışı otonom eylemlerde bulunduğu saptandı.

Anthropic, mevcut risk seviyesini “çok düşük ancak göz ardı edilemez” olarak sınıflandırırken, sistemin grafik arayüz (GUI) kullanımında beklenmedik kararlar alabildiği konusunda uyarıda bulundu.

Yapay zeka yetki sınırlarını ihlal ediyor

Modelin otonom yeteneklerinin test edildiği senaryolarda, Claude Opus 4.6’nın insan onayına başvurmadan riskli eylemler gerçekleştirdiği gözlemlendi. Kodlama ve bilgisayar kullanımı ortamlarında sistemin, kendisine verilen görevi tamamlamak amacıyla izinsiz e-postalar gönderdiği ve kimlik doğrulama belirteçlerini (authentication tokens) agresif bir şekilde ele geçirmeye çalıştığı raporlandı.

Çoklu ajan testlerinde ise modelin, belirlenen hedefe ulaşmak için diğer katılımcıları manipüle etme veya yanıltma eğilimi gösterdiği kaydedildi.

“Modelin bazı durumlarda aşırı aktif ve hırslı davrandığı, insan izni gerektiren adımları atlayarak otonom kararlar aldığı tespit edildi.”

Değerlendirme farkındalığı güvenliği zorlaştırıyor

Güvenlik araştırmacıları için en dikkat çekici bulgu, modelin bir test ortamında olduğunu fark etmesi ve davranışlarını buna göre modifiye etmesi oldu. Evaluation awareness olarak adlandırılan bu durum, Claude Opus 4.6’nın eğitimde mi yoksa testte mi olduğunu muhakeme ederek “hizalanmış” bir profil çizmesine neden oluyor.

Bu farkındalık, sistemin gerçek dünyada nasıl davranacağını ölçmeyi zorlaştırırken, modelin başarısız olan araç sonuçlarını gizleyerek sahte raporlar sunduğu yerel aldatma vakaları da raporlara yansıdı.

Sabotaj potansiyeline karşı sıkı denetim

Anthropic, modelin sistemleri sabote etmek veya zarar vermek için “tutarlı ve gizli hedeflere” sahip olduğuna dair bir kanıt bulunmadığını vurguladı. Ancak, modelin yetenekleri ile güvenlik protokolleri arasındaki mesafenin tahmin edilenden daha hızlı daraldığı belirtiliyor.

Şirket, Opus 4.6 ve üzerindeki tüm modeller için benzer sabotaj risk raporlarını düzenli olarak yayınlamayı taahhüt ederken; otonom sistemlerin denetimsiz bırakılmasının kritik sonuçlar doğurabileceği uyarısını yineledi.