DeepSeek araştırmacıları, Pazartesi günü V3.2-exp adında yeni bir deneysel model yayımladı. Bu model, özellikle uzun bağlamlı (long-context) işlemlerde kullanılan çıkarım maliyetlerini ciddi oranda düşürmek üzere geliştirildi. Şirket, modelin duyurusunu bir Hugging Face gönderisi aracılığıyla yaptı. Ayrıca, modelin teknik detaylarını içeren akademik bir makaleyi de GitHub üzerinden paylaştı.
Modelin temel yeniliği, “DeepSeek Sparse Attention” olarak adlandırılan karmaşık bir sistemdir. Bu sistem, “lightning indexer” (yıldırım dizinleyici) isimli bir modül kullanarak öncelikle bağlam penceresindeki belirli alıntılara öncelik tanır. Bu adımdan sonra, “fine-granular token selection system” (ince taneli token seçim sistemi) devreye girer. Bu ikinci sistem, önceliklendirilen alıntılar içinden spesifik token’ları seçerek modelin sınırlı dikkat penceresine yükler. Bu iki mekanizmanın birleşimi, Sparse Attention modellerinin uzun bağlamları görece küçük sunucu yükleriyle işlemesine olanak tanır.
Bu sistemin uzun bağlamlı operasyonlardaki faydaları oldukça önemlidir. DeepSeek tarafından gerçekleştirilen ilk testler, uzun bağlam gerektiren senaryolarda basit bir API çağrısının fiyatının yarı yarıya (%50) düşürülebildiğini ortaya koydu. İddiaların daha sağlam bir şekilde değerlendirilmesi için ek testler yapılması gerekmektedir. Modelin açık ağırlıklı (open-weight) olması ve Hugging Face platformunda ücretsiz olarak sunulması sayesinde, üçüncü tarafların bu iddiaları doğrulaması uzun sürmeyecektir.
DeepSeek’in yeni modeli, çıkarım maliyetleri sorununu hedef alan son dönemdeki bir dizi atılımdan biridir. Çıkarım maliyetleri, bir AI modelini eğitme maliyetinden farklı olarak, önceden eğitilmiş bir modeli çalıştırmanın sunucu maliyetlerini ifade eder. DeepSeek’in araştırmacıları bu çalışmada, temel transformer mimarisinin daha verimli çalışmasını sağlamanın yollarını aradı. Çin merkezli bir şirket olan DeepSeek, AI alanındaki yükselişte alışılmışın dışında bir figür oldu. Şirket, yılın başında R1 modelini tanıttığında büyük ilgi görmüştü.
R1 modeli, ağırlıklı olarak pekiştirmeli öğrenme kullanılarak ve Amerikalı rakiplerinden çok daha düşük bir maliyetle eğitilmişti. Ancak bu model, bazılarının öngördüğü gibi AI eğitiminde köklü bir devrim başlatmadı ve şirket o zamandan bu yana gündemden bir miktar çekildi. Yeni “sparse attention” yaklaşımının R1 ile aynı derecede ses getirmesi beklenmese de ABD’li sağlayıcılara çıkarım maliyetlerini düşük tutma konusunda faydalı teknikler sunma potansiyeli taşıyor.




