Uluslararası Matematik Olimpiyatı (IMO), 1959 yılından beri her yıl düzenlenen ve dünyanın en prestijli matematik yarışması olarak kabul edilen bir etkinliktir. Bu yarışma, katılımcılardan derin içgörü, yaratıcılık ve titiz akıl yürütme gerektiren sorunları çözmelerini ister. Harvard Yapay Zeka araştırmacısı Huang Yichen ve UCLA bilgisayar bilimi profesörü Yang Lin’e göre, IMO bu niteliklerdeki becerileri test eder.
Çinli yapay zeka girişimi DeepSeek, Math-V2 modelini geniş kitlelere açtı. Modeli Hugging Face ve GitHub platformlarında açık kaynaklı olarak paylaştı. Permisif bir lisans altında sunulan model, geliştiricilerin sistemi uyarlamasına ve yeniden kullanmasına izin veriyor.
Math-V2, bu yılki IMO’da altın madalya seviyesinde performans gösterdi. Bu başarı, yalnızca doğru cevaplar değil, aynı zamanda şeffaf akıl yürütme de gerektirir. İnsan katılımcıların yalnızca %8’i bu standardı yakalayabiliyor.
Model ayrıca 2024 Çin Matematik Olimpiyatı’ndaki sorunlarda da altın seviyesinde skor elde etti. DeepSeek, modeli açık kaynaklı hale getirerek araştırmacı ve geliştiricilerin ileri düzey matematik zorluklarını akıl yürütebilen yapay zekayı denemesi için engelleri düşürmeyi hedefliyor. Geleneksel olarak tescilli sistemlerin hakim olduğu bu alanda erişimi kolaylaştırıyor.
DeepSeek araştırmacıları, Hugging Face paylaşımında yapay zekanın matematiksel yeteneklerini geliştirmenin bilimsel araştırmayı dönüştürebileceğini vurguladı. Karmaşık simülasyonlardan teorik sorun çözmeye kadar geniş bir etki yaratabilir. Ancak günümüz yapay zeka sistemlerinin çoğunun standart matematik kıyaslamalarında yüksek skorlar için optimize edildiğini ve altta yatan akıl yürütme ile sorun çözme becerilerini gerçek anlamda iyileştirmeden başarı sağladığını uyardılar.
DeepSeek, yapay zekanın matematiksel akıl yürütmesinin titizliğini artırmak için modele “kendi kendini doğrulama” yeteneği kazandırdı. Bu özellik, önceden mevcut çözümü olmayan sorunlar için bile çalışır. Araştırmacılar, bu kendi kontrol mekanizmasının akıl yürütmenin tutarlılığını ve geçerliliğini değerlendirdiğini açıkladılar.
Kendi kendini doğrulama, bilinen çözümler mevcut olduğunda doğru sonuçlar sağlar. Bilinmeyen veya çözülmemiş matematik zorluklarında da güvenilir sonuçlar üretir. Bu yaklaşım, yapay zeka geliştirme sürecindeki uzun süredir var olan bir sınırlamayı ele alır.
Çoğu sistem, çözümleri kolayca doğrulanabilen görevlerde yalnızca iyileşme gösterir. Kendi kendini doğrulayan akıl yürütme sayesinde Math-V2, daha karmaşık ve açık uçlu sorunlara yeteneklerini genişletebiliyor. Araştırmacılar, önemli çalışmaların devam ettiğini belirtse de, bu sonuçların matematik ve ötesinde daha ileri yapay zeka sistemleri için umut verici bir araştırma yönü olduğunu ifade ettiler.
DeepSeek’in IMO’da altın madalya başarısından sonra Google DeepMind, tescilli modelini premium Ultra plan abonelerine erişilebilir kıldı. Seçkin bir geliştirici grubuna erken erişim sağladı. Buna karşın OpenAI CEO’su Sam Altman, şirketin deneysel modelinin de IMO’da altın madalya kazandığını duyurdu ancak modelin birçok ay boyunca halka açık olmayacağını açıkladı.
Bu hamleler, önde gelen yapay zeka firmalarının farklı stratejilerini gösteriyor. Bazıları entelektüel mülkiyeti korumak ve sorumlu kullanımı sağlamak için kontrollü erişimi tercih ediyor. Diğerleri ise araştırmacı ve geliştiricilere erişimi kademeli olarak genişletmeye odaklanıyor.




