Bugüne kadar geliştirilen en güçlü açık yapay zeka modeli tanıtıldı • Digital Report

Çin merkezli bir geliştirme laboratuvaru olan DeepSeek, bugüne kadar geliştirilen en güçlü açık yapay zeka modellerinden biri olarak kabul edilen bir modeli tanıttı.

DeepSeek V3 adı verilen bu yeni açık yapay zeka modeli, geliştiricilerin ticari uygulamalar da dahil olmak üzere birçok amaç için indirip üzerinde değişiklik yapmasına olanak tanıyan bir lisansla sunuluyor.

DeepSeek V3; kodlama, çeviri, betimleyici bir komuttan makale ya da e-posta yazma gibi çeşitli metin tabanlı görevleri yerine getirebiliyor.

Benchmark testlerinde üstün başarı

DeepSeek’in iç test sonuçlarına göre DeepSeek V3 hem indirilebilir “açık” modelleri hem de yalnızca API aracılığıyla erişilebilen “kapalı” yapay zeka modellerini geride bırakıyor. Örneğin, programlama yarışmaları düzenleyen Codeforces platformundaki kodlama testlerinde DeepSeek V3; Meta’nın Llama 3.1 405B, OpenAI’nın GPT-4o ve Alibaba’nın Qwen 2.5 72B modellerini geçmeyi başardı.

Ayrıca DeepSeek V3, mevcut kodlara yeni kodlar ekleme yeteneğini ölçen Aider Polyglot testinde de rakiplerini açık ara geride bıraktı.

DeepSeek, V3 modelini 14,8 trilyon token içeren bir veri setiyle eğittiğini belirtiyor. Veri bilimi terminolojisinde, tokenlar ham veriyi temsil ediyor ve 1 milyon token yaklaşık 750.000 kelimeye karşılık geliyor.

Devasa boyut ve düşük maliyet

DeepSeek V3’ün boyutu da oldukça etkileyici. Bu açık yapay zeka modeli, 671 milyar parametreye sahip ve yapay zeka platformu Hugging Face’de bu sayı 685 milyara kadar çıkıyor. Bu, 405 milyar parametreye sahip Llama 3.1 405B’nin yaklaşık 1,6 katı.

Parametre sayısı genellikle bir modelin performansıyla ilişkilendirilir. Daha fazla parametreye sahip modeller genellikle daha başarılıdır. Ancak bu büyüklükteki modellerin çalıştırılması için güçlü donanımlar gerekiyor. DeepSeek V3’ün optimize edilmemiş bir versiyonu, makul hızlarda yanıt verebilmek için yüksek performanslı GPU’lara ihtiyaç duyuyor.

DeepSeek V3 açık yapay zeka modeli, Nvidia’nın H800 GPU’ları kullanılan bir veri merkezinde yalnızca iki ayda eğitildi. Üstelik modelin eğitimi için yalnızca 5,5 milyon dolar harcandı. Bu, OpenAI’nın GPT-4 modelinin geliştirme maliyetinin sadece az bir kısmı kadar.

Politik kısıtlamalar

Modelin teknik başarılarının yanı sıra, siyasi konulardaki yanıtları tartışmalı olabilir. Örneğin, DeepSeek V3’e Tiananmen Meydanı ile ilgili sorular sorulduğunda cevap vermeyi reddediyor.

DeepSeek, Çinli bir şirket olarak, modellerinin “sosyalist temel değerleri yansıtmasını” sağlamak için Çin’in internet düzenleyicisi tarafından denetleniyor. Bu nedenle, Xi Jinping rejimiyle ilgili spekülasyonlar gibi hassas konulara yanıt vermemeyi tercih ediyor.

Bir “Süper Zeka” arayışı

DeepSeek, Kasım ayı sonunda OpenAI’nın o1 “akıl yürütme” modeline bir yanıt olarak DeepSeek-R1 modelini de tanıtmıştı. Şirket, yapay zeka destekli ticaret kararları alan High-Flyer Capital Management tarafından finanse ediliyor.

High-Flyer, 10.000 Nvidia A100 GPU içeren ve 1 milyar yen (~138 milyon dolar) maliyetle inşa edilen sunucu kümeleriyle model eğitimi yapıyor. Şirketin kurucusu Liang Wenfeng, bu teknolojileri “süper zeka” seviyesine taşımayı hedefliyor. Wenfeng, kapalı kaynaklı yapay zeka modellerinin üstünlüğünün geçici olduğunu ifade ederek, “Bu durum diğerlerinin yetişmesini engelleyemedi,” diye belirtiyor.

DeepSeek V3, yalnızca Çin’in değil, dünya çapında da yapay zeka alanındaki rekabete yeni bir soluk getiriyor gibi görünüyor.

Benchmark testlerinde üstün başarı

Devasa boyut ve düşük maliyet

Politik kısıtlamalar

Bir “Süper Zeka” arayışı

İLGİNİZİ ÇEKEBİLİR

Haber bülteni