Milyarlarca dolar, devasa yatırımlar ve GPT-5.2... Sonuç: ChatGPT hâlâ "strawberry" kelimesindeki 'r'leri sayamıyor! • Digital Report

Aralık 2025… Teknoloji dünyasının nefesini tutarak beklediği an geldi ve OpenAI, en yeni harikası GPT-5.2‘yi piyasaya sürdü. İnsanlık olarak yapay genel zekaya (AGI) bir adım daha yaklaştığımızı, kuantum fiziğini çözeceğimizi veya Mars’a koloni kurma planlarını optimize edeceğimizi sanıyorduk. Ancak görünen o ki, ChatGPT için bazı şeyler hiç değişmiyor: Zavallı yapay zeka, hâlâ “strawberry” (çilek) kelimesinin içinde kaç tane “r” harfi olduğunu sayamıyor!

Evet, yanlış duymadınız. Milyarlarca dolarlık veri merkezleri, nükleer enerjiyle çalışan sunucular ve dünyanın en zeki mühendisleri bir araya geldi ama S-T-R-A-W-B-E-R-R-Y kelimesindeki üç adet ‘r’ harfini bulmak, GPT-5.2 için hala Everest’e tırmanmak kadar zor.

Sorun ne? Zeka mı, yoksa “Token” mı?

Aslında sorunun kaynağı, yapay zekanın “aptal” olması değil, dünyayı bizim gibi görmemesi. Biz kelimeleri harf harf okurken, ChatGPT gibi Büyük Dil Modelleri (LLM), metni “token” adı verilen parçacıklar halinde yiyor. OpenAI’ın “Tokenizer” aracına göre “strawberry” kelimesi, modelin gözünde “st – raw – berry” şeklinde üç parçaya bölünüyor.

Bu parçaların sadece ikisinde (raw ve berry) “r” harfi olduğu için, bizim dahi modelimiz harfleri saymak yerine token’lardaki dağılımı tahmin etmeye çalışıyor ve inatla “İki tane r var” cevabını yapıştırıyor. Yani karşımızda düşünen bir zeka değil, bir sonraki heceyi tahmin etmeye çalışan, ezberci bir öğrenci var.

Rakipler sınıfta gülüyor

İşin en acı tarafı ise rekabet. Perplexity, Claude, Grok, Gemini, Qwen ve Copilot… Hepsi aynı soruya, hiç tereddüt etmeden “Üç tane r var” cevabını veriyor. Rakipler farklı tokenizasyon şemaları veya daha iyi mantık yürütme yetenekleriyle bu basit engeli aşarken, pazar lideri OpenAI’ın en son modeli, ilkokul seviyesindeki bir soruda sınıfta kalmaya devam ediyor.

“Solidgoldmagikarp” ve diğer halüsinasyonlar

OpenAI, geçmişte “Mississippi” kelimesini sayamama sorununu çözmüştü (belki de o kelimeyi ezberlettiler). Ancak tokenizasyon hataları bazen çok daha tuhaf sonuçlar doğurabiliyor. Örneğin, eski modellerde “solidgoldmagikarp” yazmak sistemi çökertiyor veya hakaret etmesine neden oluyordu. GPT-5.2 çökmüyor ama bu sefer de halüsinasyon görüyor; bu kelimenin GitHub’da gizli bir Pokémon şakası olduğuna dair tamamen uydurma bir hikaye anlatıyor.

Mühendislik harikası mı, tahmin motoru mu?

GPT-5.2, matematik problemlerini çözebilir, kod yazabilir veya size şiirler dizebilir. Ancak “strawberry” testi, bize acı bir gerçeği hatırlatıyor: Bu modeller hala “anlamıyor”, sadece istatistiksel tahminler yapıyor. Milyarlarca dolar harcanmış olsa da, bir yapay zekaya “çilek” kelimesini saydırmak, atomu parçalamaktan daha zor olabilir.