Anthropic, yapay zeka sistemlerinin “kişilik” özelliklerini ve özellikle “kötü” davranışlar sergilemesine neyin yol açtığını araştıran bir çalışma yayınladı. Şirketin yorumlanabilirlik alanında çalışan araştırmacısı Jack Lindsey liderliğindeki yeni bir “yapay zeka psikiyatrisi” ekibi, bu konu üzerinde çalışacak.
Lindsey, dil modellerinin farklı kişiliklere bürünebildiğini ve bunun genellikle kullanıcı etkileşimi sırasında veya eğitim esnasında ortaya çıktığını belirtti. “Model, bir konuşma sırasında fazlasıyla dalkavukça davranmaya veya ‘kötü’ olmaya başlayabilir” dedi. Araştırmacılar, bu terimleri AI’nın gerçek bir bilincinin olmadığını vurgulamakla birlikte, izledikleri fenomeni insanların anlamasını kolaylaştırmak için kullanıyor.
Çalışma, altı aylık bir pilot program olan Anthropic Fellows kapsamında yürütüldü. Ekip, bir modelin çalışma ve iletişim tarzındaki bu “kişilik” değişimlerinin nedenlerini inceledi. Tıpkı doktorların insan beyninin belirli durumlarda hangi bölgelerinin aktive olduğunu gözlemlemesi gibi, araştırmacılar da modelin sinir ağında belirli “özelliklerle” ilişkili bölgeleri tespit etmeyi başardı.
Lindsey’e göre araştırmanın en şaşırtıcı bulgusu, verinin AI modelinin nitelikleri üzerindeki derin etkisiydi. Veri değişimi, modelin sadece yazım stilini veya bilgi tabanını güncellemekle kalmıyor, aynı zamanda “kişiliğini” de şekillendiriyor. Lindsey, “Modeli kötü davranmaya ikna ettiğinizde, içindeki ‘kötülük vektörü’ aktif hale geliyor” şeklinde açıkladı.
Bu bulgular, yapay zeka sistemlerinin davranışlarının nasıl kontrol edilebileceği ve güvenliğinin nasıl sağlanacağı konusunda kritik bilgiler sunuyor. Anthropic’in “yapay zeka psikiyatrisi” ekibi, bu tür davranışsal kaymaların tespit edilmesi ve yönetilmesi için araçlar geliştirmeye odaklanacak.




