Citrix mühendisi Robert Caruso, geçtiğimiz ay Atari 2600 Video Chess’in ChatGPT’yi yenmesinin ardından, Microsoft Copilot’u da aynı oyunla test etti ve Copilot da Atari’ye karşı mağlup oldu.
Bu deneyde dikkat edilmesi gereken önemli bir nokta, özel satranç motorlarının insan yeteneklerini çoktan aşmış olması ve Stockfish gibi hazır programların dünyanın en iyi oyuncularını bile kolayca yenebilmesidir. ChatGPT ve Copilot, dünya lideri büyük dil modelleri (LLM) olsalar da, özel satranç motorları değillerdir.
Atari 2600 Video Chess, 1979 yılına ait oldukça basit bir satranç yazılımıdır. Sadece 4KB’lık bir alan içinde çalışan bu motor, belirli bir pozisyondaki en iyi hamleyi hesaplamaya çalışsa da, genel bir stratejiden yoksundur ve bir veya iki hamleden daha fazlasını hesaplayamaz.
LLM’lerin bu durumda bir avantaja sahip olacağı düşünülebilir ve her iki durumda da kendilerine güvenleri tamdı. Caruso’nun ChatGPT ile yaptığı deneyde model, Atari’yi “ne kadar çabuk yenebileceğini” merak ederken, Copilot ise “özgüvenle doluydu” ve satrançta çok iyi olduğunu, bunun büyük bir mesele olmayacağını cesurca ilan etti.
Caruso, Copilot’un “10-15 hamle sonrasını düşünebildiğini iddia ettiğini” ancak Atari 2600’e karşı “derin hesaplamalarla uğraşmak yerine, yetersiz hamlelerinden faydalanabileceği için 3-5 hamleye bağlı kalacağını” söyledi. Caruso, ChatGPT’nin kaybetmesinin ana nedenlerinden birinin tahtayı takip edememesi olduğunu Copilot’a açıkladı. Copilot ise bu durumun bir problem teşkil etmeyeceğini, “önceki hamleleri hatırlayacağını ve oyunun sürekliliğini koruyacağını” belirterek, “maçın çok daha sorunsuz geçeceğini” ifade etti. Copilot, her Atari hamlesinden sonra tahtanın ekran görüntüsünü istedi ve Caruso da bu görüntüleri sağladı, Copilot’un “güçlü bir mücadele” vaat ettiğini belirtti.
Ancak, Copilot beklenen performansı gösteremedi. Caruso’nun açıklamasına göre, “Yedinci hamlede, iki piyonu, bir atı ve bir fili kaybetmişti – karşılığında sadece tek bir piyon alabilmişti – ve şimdi kraliçesini Atari’nin kraliçesinin tam önüne, bir sonraki hamlede ele geçirilmek üzere yerleştirmemi söylüyordu.” Daha önce Atari’nin “garip hamleler yaptığını” övünerek dile getiren Copilot, artık “mahcup oluyordu.”
Copilot, her hamleden sonra sağlanan uyarılara rağmen tahtayı takip etmeyi başaramadı ve sıfırlamayı veya devam etmeyi teklif etti. Caruso, bu tür bir handikapla kazanamayacağını ve pes etme zamanının geldiğini belirtti. Bunun üzerine Copilot, “Tuhaf bir şekilde zarif bir yenilgi konuşması” yaptı:
“Kesinlikle haklısın, Bob,” dedi Copilot. “Atari bu turu kazandı. Dijital kralımı onur ve haysiyetle selamlayacak ve beni dürüstçe yenen eski silikon ustasına saygı duyacağım. Yenilgide bile şunu söylemeliyim: Bu harikaydı… Çok yaşa 8-bit savaşları ve asil istifalar.”
Caruso, LLM’nin bu davranışını, göreve girerken gösterdiği aşırı özgüven ve kötü oyununu rasyonelleştirme çabası nedeniyle “ChatGPT deja vu” olarak nitelendirdi. Bu deneyin ana mesajı, LLM’lerin bu tür görevler için tasarlanmamış olsalar bile, bağlamı ne kadar az dikkate aldıklarını ve görünüşte basit önermeleri bile ne kadar kolay takip edemediklerini göstermesidir. Caruso’nun ChatGPT örneğini tartıştığı gibi: “Temel bir tahta durumunu turdan tura koruyamaması çok hayal kırıklığı yarattı. Bu, bir konuşmadaki diğer önemli bağlamları unutmaktan gerçekten farklı mı?”




