DeepSeek V3.1: GPT-5'e rakip Çin modeli • Digital Report

Çinli yapay zeka startup’ı DeepSeek, Ocak 2025’te R1 adını verdiği ve OpenAI ile Anthropic’in en iyi LLM’lerine rakip olan bir yapay zeka modeliyle dünyayı şaşırtmıştı. Bu model, diğer modellere göre çok daha az Nvidia çipi kullanılarak, çok daha düşük bir maliyetle geliştirilmişti ve ücretsiz olarak kullanıma sunulmuştu. Şimdi ise, OpenAI’ın en son modeli GPT-5’i piyasaya sürmesinden sadece iki hafta sonra, DeepSeek, uzmanların bazı kriterlerde GPT-5’e denk olduğunu söylediği ve stratejik olarak fiyatlandırıldığı amiral gemisi V3 modelinin bir güncellemesiyle geri döndü.

DeepSeek’in yeni V3.1 modeli, Çin’in çok yönlü mesajlaşma ve sosyal uygulaması WeChat’teki gruplarından birine gönderilen bir mesajda ve Hugging Face platformunda sessizce yayınlandı. Bu modelin piyasaya sürülmesi, günümüzün en büyük yapay zeka anlatılarından birkaçına birden dokunuyor.

DeepSeek, Çin’in yabancı teknolojiye bağımlı kalmadan gelişmiş yapay zeka sistemleri geliştirme, kullanıma sokma ve kontrol etme yönündeki daha geniş çabasının temel bir parçasını oluşturuyor. Hatta DeepSeek’in yeni V3 modeli, özellikle Çin yapımı çiplerde iyi performans gösterecek şekilde ayarlanmış durumda.

ABD’li şirketler DeepSeek’in modellerini benimsemekte tereddüt ederken, bu modeller Çin’de ve giderek dünyanın diğer bölgelerinde yaygın olarak kullanılıyor. Hatta bazı Amerikan firmaları bile DeepSeek’in R1 muhakeme modeli üzerine uygulamalar geliştirmiş durumda. Aynı zamanda, araştırmacılar modellerin çıktılarının genellikle Çin Komünist Partisi onaylı anlatılarına sıkı sıkıya bağlı kaldığı konusunda uyarıyorlar. Bu durum, modellerin tarafsızlığı ve güvenilirliği hakkında soru işaretleri yaratıyor.

Çin’in yapay zeka hamlesi DeepSeek ile sınırlı değil. Sektörde ayrıca Alibaba’nın Qwen’i, Moonshot AI’ın Kimi’si ve Baidu’nun Ernie’si gibi modeller de bulunuyor. Ancak DeepSeek’in yeni sürümü, OpenAI’ın GPT-5’inden hemen sonra gelmesi (GPT-5’in piyasaya sürülmesi, sektör gözlemcilerinin yüksek beklentilerini karşılamadı) Pekin’in ABD’nin en iyi laboratuvarlarına ayak uydurma, hatta onları geçme konusundaki kararlılığının altını çiziyor.

OpenAI, Çin ve DeepSeek konusunda endişeli

DeepSeek’in çabaları, ABD’li laboratuvarları kesinlikle tetikte tutuyor. OpenAI CEO’su Sam Altman, yakın zamanda gazetecilerle yaptığı bir akşam yemeğinde, DeepSeek dahil olmak üzere Çinli açık kaynaklı modellerden gelen artan rekabetin, şirketinin iki hafta önce kendi açık ağırlıklı modellerini yayınlama kararını etkilediğini söyledi.

Altman, “Eğer biz yapmasaydık, dünyanın çoğunlukla Çinli açık kaynaklı modeller üzerine inşa edileceği açıktı,” dedi. “Bu, kararımızda bir faktördü, kesinlikle. Tek faktör değildi, ama büyük bir rol oynadı.”

Ek olarak, ABD geçen hafta Nvidia ve AMD’ye Çin’e özel yapay zeka çipleri (Nvidia’nın H20’si dahil) ihraç etme lisansları verdi, ancak bu satışlardan elde edilen gelirin %15’ini Washington’a devretmeyi kabul etmeleri şartıyla. Pekin, Ticaret Bakanı Howard Lutnick’in 15 Temmuz’da CNBC’ye “Onlara en iyi ürünlerimizi, ikinci en iyi ürünlerimizi, hatta üçüncü en iyi ürünlerimizi bile satmıyoruz,” demesinin ardından Nvidia çiplerinin satın alımını kısıtlayarak hızla karşılık verdi.

DeepSeek, modelini Çin yapımı çipler için optimize ederek, ABD’nin ihracat kontrollerine karşı direnç sinyali veriyor ve Nvidia’ya olan bağımlılığı azaltma çabası gösteriyor. DeepSeek, WeChat gönderisinde, yeni model formatının “yakında piyasaya sürülecek yeni nesil yerli çipler” için optimize edildiğini belirtti.

Altman, aynı akşam yemeğinde, ABD’nin Çin’in yapay zeka alanındaki ilerlemesinin karmaşıklığını ve ciddiyetini hafife alabileceği konusunda uyardı ve ihracat kontrollerinin tek başına güvenilir bir çözüm olmayacağını söyledi. Altman, “Çin konusunda endişeliyim,” dedi.

Daha az bir sıçrama, ancak yine de dikkat çekici kademeli gelişmeler

Teknik olarak, yeni DeepSeek modelini dikkate değer kılan şey, tüketiciler tarafından görülemeyen birkaç gelişmeyle nasıl inşa edildiği. Ancak geliştiriciler için bu yenilikler, V3.1’i birçok kapalı ve daha pahalı rakip modele göre çalıştırmak için daha ucuz ve daha çok yönlü hale getiriyor.

Örneğin, V3.1 çok büyük: 685 milyar parametreye sahip ki bu, birçok üst düzey “öncü” model seviyesinde. Ancak “uzmanlar karışımı” tasarımı, herhangi bir sorguyu yanıtlarken modelin yalnızca bir bölümünün etkinleştiği anlamına geliyor ve bu da geliştiriciler için işlem maliyetlerini düşürüyor. Ayrıca, modelin ön eğitimi temel alınarak anında yanıtlanabilen görevleri aşamalı muhakeme gerektiren görevlerden ayıran önceki DeepSeek modellerinin aksine, V3.1 hem hızlı yanıtları hem de muhakemeyi tek bir sistemde birleştiriyor.

GPT-5’in yanı sıra Anthropic ve Google’ın en son modelleri de benzer bir yeteneğe sahip. Ancak şimdiye kadar çok az sayıda açık ağırlıklı model bunu yapabildi. V3.1’in hibrit mimarisi, TechTalks blogunun kurucusu ve teknoloji analisti Ben Dickson’a göre “şimdiye kadarki en büyük özellik”.

Diğerleri ise, bu DeepSeek modelinin, şirketin Ocak ayında dünyayı şaşırtan orijinal V3’ten damıtılmış bir muhakeme modeli olan R1 modelinden daha az bir sıçrama olmasına rağmen, yeni V3.1’in hala dikkat çekici olduğunu belirtiyor. AI geliştirici platformu Lightning AI’ın kurucusu ve CEO’su William Falcon, “Marjinal olmayan iyileştirmeler yapmaya devam etmeleri oldukça etkileyici,” dedi. Ancak, OpenAI’ın kendi açık kaynaklı modelinin “anlamlı bir şekilde geride kalmaya başlaması” durumunda karşılık vermesini bekleyeceğini ve DeepSeek modelinin geliştiricilerin üretime sokmasının daha zor olduğunu, OpenAI’ın sürümünün ise dağıtımının oldukça kolay olduğunu belirtti.

Tüm teknik detaylara rağmen, DeepSeek’in son sürümü, yapay zekanın giderek ABD ve Çin arasında kaynayan bir teknolojik soğuk savaşın parçası olarak görüldüğü gerçeğini vurguluyor. Bu akılda tutularak, Çinli şirketler daha iyi yapay zeka modellerini iddia ettikleri maliyetin çok daha altında bir fiyata inşa edebiliyorlarsa, ABD’li rakiplerin önde kalma konusunda endişelenmeleri için nedenleri var.

İLGİNİZİ ÇEKEBİLİR

Haber bülteni