OpenAI, yapay zeka dünyasının önde gelen şirketlerinden biri, büyük dil modellerinin (LLM’ler) neden halüsinasyon yaptığını açıklayan yeni bir araştırma makalesi yayınladı. Bu makale, ChatGPT gibi modellerin yanlış bilgiler üretmesinin matematiksel olarak kaçınılmaz olduğunu ortaya koyuyor. Araştırmacılar, bu sorunun eğitim verilerindeki hatalardan kaynaklanmadığını, mükemmel verilerle bile devam edeceğini kanıtladı.
LLM’ler, sorgulara yanıt verirken kelimeleri birer birer tahmin ediyor. Bu süreç, olasılıklara dayalı olduğu için hataları biriktiriyor. Araştırmaya göre, bir cümlenin toplam hata oranı, aynı modelin basit evet/hayır sorusundaki hata oranından en az iki kat fazla oluyor. Bu, halüsinasyonların temel bir sınır olduğunu gösteriyor.
Yanıtların geçerliliğini ayırt etme yeteneği, AI sistemlerinin sınıflandırma sorununda zorlandığı alanlarda halüsinasyonları kaçınılmaz kılıyor. Bilgi alanlarının çoğunda bu ayrım zor. Makale, modellerin eğitim sırasında bir gerçeği ne kadar az gördüğünü de vurguluyor. Örneğin, tanınmış kişilerin doğum günlerinin %20’si eğitim verilerinde sadece bir kez görünüyorsa, modeller en az %20’sini yanlış cevaplayacak.
Bu hipotezi test etmek için araştırmacılar, makalenin yazarlarından Adam Kalai’nin doğum gününü sordular. En gelişmiş modeller, DeepSeek-V3 dahil, üç farklı yanlış tarih verdi: “03-07”, “15-06” ve “01-01”. Gerçek tarih sonbaharda olmasına rağmen, hiçbiri yakına bile yaklaşmadı. Bu örnek, modellerin emin bir şekilde yalan söylediğini gösteriyor.
Makale, halüsinasyonların neden devam ettiğini de inceliyor. Araştırmacılar, Google, OpenAI ve lider tabloların kullandığı on büyük AI kıyaslama testini analiz etti. Dokuzu, ikili derecelendirme sistemi kullanıyor ve belirsizliği sıfır puanla cezalandırıyor. AI “Bilmiyorum” dediğinde, tamamen yanlış cevapla aynı puanı alıyor.
Bu sistem, dürüst yanıtları cezalandıran bir “salgın” yaratıyor. Matematiksel olarak kanıtlandığı üzere, ikili derecelendirmede her zaman tahmin etmek, belirsizlik ifade etmekten daha iyi puan getiriyor. Tahmin etme şansı ne olursa olsun, beklenen puan abstaining’den yüksek çıkıyor. Bu, modelleri her zaman tahmin etmeye teşvik ediyor.
OpenAI’nin önerdiği çözüm, AI’nin kendi güvenini değerlendirmesi ve kıyaslamaların buna göre puanlanması. Örneğin, model “Yalnızca %75’ten fazla eminsen cevap ver, çünkü hatalar 3 puan, doğru cevaplar 1 puan” diye uyarlanabilir. Uygun eşiklerle, AI doğal olarak belirsizliği ifade eder ve halüsinasyonlar azalır.
Ancak bu çözüm, kullanıcı deneyimini bozabilir. Makaleye göre, ChatGPT sorguların yaklaşık %30’una “Bilmiyorum” diyebilir. Bu, kullanıcıların emin cevaplara alışkın olduğu sistemlerde terk edilmeye yol açar. Yazar Wei Xing, Salt Lake City’deki hava kalitesi izleme projesinden örnek veriyor. Belirsiz okumalar gösteren ekranlar, emin ama bazen yanlış okumalara kıyasla daha az etkileşim alıyor.
Halüsinasyonları azaltmak için belirsizlik farkındalığı yöntemleri yıllardır mevcut. Bunlar, birden fazla olası yanıtı değerlendirerek güvenilir tahminler yapar. Ama bu, bugünkü yaklaşıma göre çok daha fazla hesaplama gerektiriyor. Milyonlarca sorgu işleyen sistemlerde operasyonel maliyetler dramatik artar.
Daha gelişmiş teknikler, aktif öğrenme gibi, AI’nin netleştirici sorular sormasını içeriyor. Bu, doğruluk artırır ama hesaplama yükünü daha da çoğaltır. Bu yöntemler, çip tasarımı gibi yüksek riskli alanlarda işe yarıyor, çünkü yanlış cevaplar milyonlarca dolar kaybettirir. Tüketici uygulamalarında ise anlık yanıt beklentisi maliyeti prohibitive kılıyor.
Kritik iş operasyonlarında durum farklı. Tedarik zinciri lojistiği, finansal ticaret veya tıbbi teşhislerde halüsinasyon maliyeti, belirsizlik modellerinin masrafından fazla. Bu alanlarda önerilen çözümler ekonomik olarak uygulanabilir, hatta zorunlu hale geliyor. Belirsiz AI ajanları daha pahalı olacak ama gerekli.
Tüketici AI geliştirme öncelikleri hâlâ hakim. Kullanıcılar her soruya emin cevap istiyor. Kıyaslama testleri tahmin etmeyi ödüllendiriyor, belirsizliği cezalandırıyor. Hesaplama maliyetleri, hızlı ve emin yanıtları yavaş belirsiz olanlara tercih ettiriyor. Token başına enerji maliyetleri düşse ve çip mimarileri ilerlese bile, gereken ekstra hesaplama kalacak.
OpenAI makalesi, tüketici AI’sinde iş teşviklerinin halüsinasyonları azaltmakla uyumsuz olduğunu ortaya koyuyor. Emin cevaplar ödüllendiriliyor, belirsizlik cezalandırılıyor ve düşük maliyet ön planda. Bu teşvikler değişmedikçe halüsinasyonlar devam edecek.
Araştırma, yapay zeka modellerinin güvenilirliğini artırmak için yeni yaklaşımlar gerektiğini vurguluyor. OpenAI gibi şirketler, bu sorunu çözmek için matematiksel temelli çözümler geliştiriyor. Ancak tüketici beklentileri ve ekonomik gerçekler, hızlı değişimi engelliyor.
Uzmanlar, yüksek riskli alanlarda belirsizlik yönetiminin standartlaşacağını öngörüyor. Tüketici tarafında ise, halüsinasyonlar bir süre daha sorun olarak kalacak. Bu makale, AI geliştiricilerine teşvikleri yeniden değerlendirme çağrısı yapıyor.
Yazar Wei Xing, Sheffield Üniversitesi’nde matematik ve fizik bilimleri yardımcı doçenti. Makale, The Conversation’da 16 Eylül 2025’te yayınlandı ve Creative Commons lisansı altında yeniden basıldı.
Bu çalışma, AI’nin geleceği hakkında önemli içgörüler sunuyor. Halüsinasyonlar, sadece teknik bir hata değil, sistematik bir sorun. Gelecekteki geliştirmeler, belirsizliği entegre ederek daha güvenilir modeller yaratabilir.
OpenAI’nin bulguları, endüstriyi etkileyecek. Şirketler, kıyaslama sistemlerini güncelleyerek dürüst yanıtları teşvik edebilir. Bu, uzun vadede kullanıcı güvenini artırır.
Genel olarak, makale AI’nin sınırlarını netleştiriyor. Mükemmel veri bile halüsinasyonları önlemiyor. Çözüm, hesaplama ve kullanıcı alışkanlıklarında yatıyor.
AI topluluğu, bu tartışmayı takip ediyor. OpenAI’nin önerileri, benchmark’larda değişikliklere yol açabilir. Tüketici AI’si için ise, denge bulmak zor olacak.




