OpenAI, “12 days of OpenAI” etkinliğinin son gününde en büyük duyurusunu yaptı ve yeni o3 yapay zeka modeli ve belirli görevler için optimize edilmiş bir versiyon olan o3-mini‘yi tanıttı. Yeni o3 yapay zeka model ailesi, yılın başlarında tanıtılan o1 “akıl yürütme” modelinin halefi olarak karşımıza çıkıyor.
OpenAI, o3’ün belirli koşullarda Yapay Genel Zeka’ya (AGI) yaklaştığını iddia ediyor. Şirket, “deliberative alignment” adı verilen bir teknikle modeli güvenlik ilkelerine uyumlu hale getirdiğini belirtiyor.
Neden o2 değil de o3?
O2 isminin atlanmasının arkasında, İngiltere merkezli telekom sağlayıcısı O2 ile yaşanabilecek ticari marka sorunlarının olduğu söyleniyor. CEO Sam Altman, bir canlı yayında bu bilgiyi dolaylı olarak doğruladı. O3-mini için önizleme kayıtları bugün başlarken O3’ün önizlemesinin ne zaman başlayacağı henüz net değil.
Akıl yürütme ve performans
O3 modelleri, “düşünme süresi” ayarlanabilir şekilde tasarlandı. Seçenekler arasında düşük, orta ve yüksek işlem kapasitesi bulunuyor. İşlem kapasitesi ne kadar yüksek olursa modelin performansı o kadar artıyor. Ancak bu modeller, geleneksel modellere kıyasla daha uzun sürede yanıt veriyor.
O3; fizik, matematik ve bilim gibi alanlarda daha güvenilir olsa da hala bazı basit görevlerde hata yapabiliyor.
Yapay Genel Zeka’ya doğru bir adım mı?
OpenAI’nin yapay genel zekaya yaklaşma iddiaları, ARC-AGI testleriyle destekleniyor. O3, yüksek işlem modunda %87,5 başarı oranına ulaşırken düşük işlem modunda o1’in performansını üçe katlıyor. Ancak bu başarıların oldukça yüksek maliyetlerle elde edildiği belirtiliyor.
Modelin diğer testlerdeki performansı da dikkat çekici:
- 2024 Amerikan Matematik Davet Sınavı’nda %96,7 başarı,
- SWE-Bench programlama testinde o1’den %22,8 daha yüksek performans,
- Graduate düzeyde biyoloji, fizik ve kimya sorularında %87,7 başarı oranı.
Rekabet kızışıyor
OpenAI’nin ilk akıl yürütme modellerinin ardından diğer yapay zeka şirketleri de benzer modeller geliştirmeye başladı. Google ve Alibaba gibi devler, bu alanda kendi çözümlerini tanıttı. Ancak bu modellerin yüksek işlem gücü maliyetleri ve sürdürülebilirlik konusundaki belirsizlikler, akıl yürütme modellerine yönelik eleştirilerin devam etmesine neden oluyor.
O3’ün geniş çapta kullanımına yönelik testler ve rekabetin nasıl şekilleneceği önümüzdeki dönemde daha net anlaşılacak.