DeepSeek-R1, 294 bin dolara eğitildi • Digital Report

Çin merkezli DeepSeek, büyük dil modeli R1’i piyasaya sürerek yapay zeka sektöründe kısa süreli bir sarsıntı yarattı. Bu model, OpenAI gibi devlerin harcadığı paraların çok küçük bir kısmıyla eğitildi. Nature dergisinde yayımlanan yeni bir makale, DeepSeek-R1’in eğitim maliyetini ve yöntemlerini detaylandırdı.

Makale, modelin eğitiminin yalnızca 294.000 dolar tutarında olduğunu ortaya koydu. Bu süreçte 512 adet Nvidia H800 çipi kullanıldı. Geleneksel yapay zeka modelleri, akıl yürütme görevleri için pahalı ve zaman alıcı insan etiketli verilere ihtiyaç duyar. DeepSeek ise deneme-yanılma temelli pekiştirme öğrenimiyle bu maliyeti düşürdü.

Pekiştirme yöntemi, modeli doğru cevaplar için ödüllendiriyor ve yanlışlar için ceza veriyor. Carnegie Mellon Üniversitesi’nden Daphne Ippolito ve Yiming Zhang, bunu bir çocuğun video oyunu oynamasına benzetiyor. “Çocuk, avatarını oyunda yönlendirirken bazı eylemler puan kazandırırken, diğerleri puanı sıfırlıyor” diyorlar. DeepSeek-R1 de benzer şekilde, doğru cevaplara yüksek puan vererek öğreniyor.

Önceki araştırmalar, büyük dil modellerine adım adım akıl yürütme açıklaması istemenin doğruluğu artırdığını göstermişti. DeepSeek ekibi, pekiştirme ile çıktılara puanlama sistemi uygulayarak daha iyi sonuçlar elde etti. Bu yaklaşım, özellikle matematik ve programlama sorularında etkili. Bu tür soruların doğrulanabilir doğru cevapları var ve model, yüksek puan peşinde kendi başına doğru sonuca ulaşıyor.

Ancak bu yöntem, modelin iç düşünme sürecini insanlar için daha karmaşık hale getiriyor. Akıl yürütme izi istendiğinde, model İngilizce ve Çince arasında geçiş yapıyor. Bazen 10.000 kelimeyi aşan açıklamalar üretiyor. Yöntem, net doğru-yanlış cevaplı sorular için ideal. Öznel veya nüanslı sorgularda ise sınırlı kalıyor.

Küçük bütçesine rağmen DeepSeek, büyük dil modeli alanında rekabetçi konumda. Şirket, Çin hükümetine yakınlığı nedeniyle eleştiriliyor. Son araştırmalar, modelin güvenlik açıkları içeren kod üretmeyi reddettiğini gösteriyor. Eğer sorgu, Çin hükümeti tarafından hassas görülen gruplarla ilgiliyse, model güvenli kod üretiyor.

Araştırmacılar, Washington Post’a modelin Tibet, Tayvan, Falun Gong dini hareketi veya İslami Devlet için kod üretirken daha az güvenli çıktılar verdiğini kanıtladı. Bu durum, DeepSeek’in politik etkilerini vurguluyor. Yine de pekiştirme öğrenimi, düşük maliyetli yapay zeka geliştirme için yenilikçi bir yol sunuyor.

DeepSeek-R1’in başarısı, yapay zeka eğitiminde verimlilik arayışını hızlandırabilir. Nvidia H800 çiplerinin kullanımı, donanım bağımlılığını da öne çıkarıyor. Sektör, bu tür maliyet düşürücü tekniklerle daha erişilebilir hale gelebilir. Ancak etik ve güvenlik endişeleri, Çinli şirketlerin küresel rekabetteki rolünü sorgulatıyor.

Toplamda, DeepSeek’in yöntemi %100 doğruluk hedeflemese de, matematik sorularında %90’lara varan başarı sağlıyor. Programlama görevlerinde de benzer oranlar gözlemlendi. Bu veriler, Nature makalesinden derlendi. Gelecekte, pekiştirme öğrenimi diğer modellerde yaygınlaşabilir.

İLGİNİZİ ÇEKEBİLİR

Haber bülteni