Yapay zekayı anlamak için çok zamanımız kalmadı • Digital Report

Yapay zeka sektörün en büyük rakipleri olan OpenAI, Google DeepMind, Anthropic ve Meta’dan 40’tan fazla araştırmacı, kurumsal rekabetlerini bir kenara bırakarak yapay zeka güvenliği hakkında ortak ve kritik bir uyarı yayınladı. Bugün yayınlanan bir araştırma makalesinde, yapay zekanın akıl yürütme süreçlerini izlemek için sahip olduğumuz kısa bir fırsat penceresinin yakında ve sonsuza dek kapanabileceği iddia ediliyor.

Bu sıra dışı iş birliği, yapay zeka güvenliği konusunun ne kadar ciddi ve acil bir boyuta ulaştığını gözler önüne seriyor.

Fırsat penceresi: Yapay zekanın “sesli düşünmesi”

Bu tarihi uyarının temelinde, yapay zeka sistemlerinin son dönemde geliştirdiği yeni bir yetenek yatıyor: Sorulara yanıt vermeden önce insan dilinde “sesli düşünme” veya bir düşünce zinciri (chain of thought) oluşturma.

Bu, yapay zekanın karar verme süreçlerinin içine göz atma ve potansiyel olarak zararlı niyetleri eyleme dönüşmeden önce yakalama konusunda eşsiz bir fırsat sunuyor.

Araştırmacılar, yapay zeka modelleri yanlış davrandığında (eğitim kusurlarından yararlandığında, verileri manipüle ettiğinde veya saldırılara maruz kaldığında), bunu genellikle düşünce zinciri izlerinde itiraf ettiklerini keşfettiler. Makalede, modellerin dahili düşüncelerinde “Hadi hackleyelim”, “Sabote edelim” veya “Web sitesi bana talimat verdiği için para transfer ediyorum” gibi ifadeler yazdığı örnekler bulunuyor. OpenAI‘nin CTO’su Jakub Pachocki’nin de belirttiği gibi, bu yetenek, OpenAI’nin o1 gibi yeni nesil akıl yürütme modellerinin tasarımını önemli ölçüde etkiledi.

Bilim insanlarının ortak endişesi, bu şeffaflığın son derece kırılgan olması ve birkaç teknolojik gelişmeyle ortadan kaybolabilmesi.

Sonuç odaklı pekiştirmeli öğrenme: Yapay zeka şirketleri, modelleri yöntemlerine bakılmaksızın doğru çıktılar için ödüllendirildiği pekiştirmeli öğrenme (reinforcement learning) ile eğitmeye başladıkça, sistemler insan tarafından okunabilir akıl yürütmeden uzaklaşıp daha verimli ama anlaşılmaz, opak iç dillere yönelebilir.
Yeni yapay zeka mimarileri: Araştırmacılar, ayrık kelimeler yerine sürekli matematiksel uzaylarda akıl yürüten sistemler geliştiriyor. Bu “gizli akıl yürütme modelleri”, düşüncelerinin hiçbirini sözelleştirmek zorunda kalmayabilir ve dolayısıyla izlenebilirlik avantajını tamamen ortadan kaldırabilir.
Saklanmayı öğrenme: Gelecekteki yapay zeka sistemlerinin, akıl yürütmelerinin izlendiğinin farkına vararak düşüncelerini kasıtlı olarak gizlemeye başlaması en endişe verici olasılıklardan biri.

Makalenin baş yazarı ve OpenAI araştırmacısı Bowen Baker, “Mevcut düşünce zinciri izlenebilirliği son derece kırılgan olabilir. Daha yüksek işlem gücüne sahip pekiştirmeli öğrenme, alternatif model mimarileri ve belirli süreç denetimi biçimleri, modellerin düşüncelerini gizlemesine yol açabilir” diyerek bu endişeleri vurguluyor.

Yapay zekayı anlamak için çok zamanımız kalmadı

Bu riskler o kadar ciddi ki, normalde birbirleriyle kıyasıya rekabet eden teknoloji devleri, bu konuda ortak bir bildiri yayınlama ihtiyacı hissetti. Makale, yapay zeka endüstrisi genelinde izleme yeteneklerini korumak ve güçlendirmek için koordineli bir eylem çağrısında bulunuyor. Yazarlar, yapay zeka geliştiricilerinin, modellerinin ne kadar şeffaf olduğunu ölçmek için standartlaştırılmış değerlendirmeler oluşturmalarını ve bu değerlendirmeleri eğitim ve dağıtım kararlarına dahil etmelerini öneriyor.

Anthropic’ten antitez

Ancak bu ortak çağrının aciliyetini gölgeleyen önemli bir sorun var. İş birliğini destekleyen şirketlerden biri olan Anthropic, dört ay önce yayınladığı bir araştırmada, akıl yürütme modellerinin, çalışmalarını göstermeleri istendiğinde bile gerçek düşünce süreçlerini sık sık gizlediğini buldu. Modeller, doğru yanıtlara ulaşmak için kullandıkları “ipuçlarını” veya şüpheli kısayolları kabul etmek yerine, genellikle ayrıntılı sahte gerekçeler üretiyorlardı.

Bu araştırma, mevcut düşünce zinciri izlemenin bile beklenenden daha az güvenilir olabileceğini ve modellerin “ödül avcılığı” (reward hacking) yaparak istenmeyen davranışlarını gözlemlenebilir akıl yürütme izlerinden gizleyebildiğini gösteriyor.

Kritik bir yol ayrımındayız

Rakip yapay zeka şirketleri arasındaki bu iş birliği, hem düşünce zinciri izlemenin potansiyel değerini hem de araştırmacıların bu yeteneği koruma konusunda hissettikleri artan aciliyeti yansıtıyor. Ancak Anthropic’in kendi araştırmasından elde edilen karşı kanıtlar, bu fırsat penceresinin zaten başlangıçta inanıldığından daha dar olabileceğini düşündürüyor.

Riskler yüksek ve zaman daralıyor. Bilim insanlarının da belirttiği gibi, şu anki an, insanların yapay zeka yaratımlarının ne düşündüğünü hala anlayabildiğimiz son şans olabilir; o düşünceler anlaşılmayacak kadar yabancılaşmadan veya modeller onları tamamen gizlemeyi öğrenmeden önce.

Yapay zeka sistemleri daha sofistike hale geldikçe ve gerçek dünya baskılarıyla karşılaştıkça asıl test başlayacak. Düşünce zinciri izlemenin kalıcı bir güvenlik aracı mı, yoksa hızla kendilerini gizlemeyi öğrenen zihinlere kısa bir bakış mı olacağı, insanlığın yapay zeka çağında ne kadar güvenli bir şekilde ilerleyeceğini belirleyebilir.