Anthropic, yeni AI modeli Claude Fable 5’in kullanımını gizlice kısıtladığı için özür diledi. Şirket, böyle bir eylemin araştırmacılar ve rakipler üzerinde olumsuz etkisi olduğunu belirtti. Anthropic, kısıtlamaların ne zaman uygulanacağı konusunda daha fazla şeffaflık sağlayacağını duyurdu.
Fable, Anthropic’in Mythos sınıfındaki ilk yaygın olarak erişilebilir modelidir. Şirket, bu grubun kamuya sunulmasının çok tehlikeli olduğunu belirtmiştir. Fable, belirli “yüksek riskli” sorgulara cevap verememesi için güvenlik önlemleri ile birlikte piyasaya sürüldü.
Fable’in sistem kartında, distilasyon denemesi olarak algılanan sorguların cevaplarının değiştirilerek kullanıcıya bildirilmeden sunulacağı belirtilmiştir. Ancak şirket, bu konuda yaklaşımını değiştirerek distilasyon olarak sınıflandırılan sorguların Claude Opus 4.8 modeline geri döneceğini açıkladı.
Fable, diğer yüksek riskli alanlarda da benzer bir şekilde çalışır. Biyoloji, kimya ve siber güvenlik gibi alanlarda, güvenlik önlemleri tetiklendiğinde sorgular Opus 4.8 üzerinden yönlendirilmekte ya da doğrudan engellenmektedir. Anthropic, biyoloji gibi bazı alanlarda bu önlemlerin oldukça geniş tutulmasının, temel sorguları bile kullanılmaz hale getirdiğini itiraf etti.
Anthropic, görünür güvenlik önlemlerinin incelenebileceğini ve bu yüzden daha doğru hale getirmenin zaman alacağına dikkat çekti. Şirket, görünmez güvenlik önlemlerinin daha dar hedef almasına olanak tanıdığını ve bu sayede daha hızlı hareket edebildiklerini belirtti. Ancak, bu tercih hatalı bir seçim olarak kabul edildi ve uygulanan güvenlik önlemlerinin daha belirgin hale getirileceğinin sözünü verdi.
Şirketin, kullanıcıların Fable’ı rakip modellere distilleme çabası içinde olduğuna dair sessizce kısıtlama uygulaması, AI araştırma topluluğundan büyük bir tepkiyle karşılandı. Anthropic, yeni modellerin AI gelişimini hızlandırma kabiliyetinin bu talepleri hedef almayı meşru kıldığını öne sürdü. Ayrıca, Çinli rakipler, örneğin DeepSeek, modellerini “endüstriyel” ölçekte haksız yere distillemekle suçlandı.




