7,4B parametreli yerli ve milli yapay zeka Kumru kullanıma sunuldu • Digital Report

Yazılım ve teknoloji şirketi VNGRS, sıfırdan geliştirdiği 7,4 milyar parametreli Türkçe büyük dil modeli (LLM) olan Kumru’yu duyurdu. Şirket, Türkiye’nin güvenlik, uyumluluk ve Türkçe dilinde mükemmellik gibi konuları dikkate alarak kurum içinde (on-premise) dağıtılabilecek temel bir LLM’ye ihtiyaç duyduğu düşüncesiyle bu modeli geliştirdiğini belirtti. Bu doğrultuda, tüketici sınıfı grafik işlemcilerinde (GPU) dahi çalışabilen, 7 milyar parametreli hafif bir zero-shot LLM oluşturuldu. Modelin bir demosu, https://kumru.ai/ adresi üzerinden erişime açıldı.

VNGRS, bu temel modele ek olarak, talebe ve ihtiyaçlara bağlı şekilde farklı sektörler için ticari destek ve özelleştirilmiş versiyonlar sunmayı planlıyor. Şirket, misyonunu Türk teknoloji topluluğunu desteklemek ve Kumru ile açık kaynaklı Türkçe LLM projelerine yatırım yapmaya devam etmek olarak açıkladı.

Kumru AI teknik özellikler

Kumru, 7,4 milyar parametreli ve yalnızca kod çözücü (decoder-only) mimarisine sahip bir LLM olarak tanımlanıyor. Model, temel olarak Türkçe için sıfırdan ön eğitime tabi tutulmuş olsa da ikincil olarak İngilizce ve kodlama bilgisine de sahip. Modelin 45 gün süren ön eğitim aşamasında, H100 ve H200 GPU’lar kullanılarak temizlenmiş ve tekilleştirilmiş 500 GB boyutunda bir derlem üzerinde çalışıldı. Bu süreç sonunda model, toplam 300 milyar token’a maruz bırakıldı. Ön eğitimin ardından Kumru, çeşitli kullanım senaryolarını desteklemek amacıyla yaklaşık 1 milyon örnekten oluşan bir veri seti üzerinde ince ayar (fine-tuning) işleminden geçirildi.

Kumru’nun mimarisi, kayan pencere (sliding window) özelliğini devre dışı bırakarak yapısal olarak LLaMA-3 ile eşdeğer hale gelen Mistral-v0.3’e dayanıyor. Model mimarisine ek olarak, yığın boyutu (batch size), optimize edici (optimizer) ve öğrenme oranı (learning rate) gibi çeşitli tasarım kararları, LLaMA-3 teknik raporundan temel alındı.

Model, 8.192 Türkçe token’lık bir bağlam uzunluğuna (context length) sahip. Bu kapasite, modelin 20 adet A4 sayfasına kadar olan belgeleri işleyebilmesine olanak tanıyor. Verimli tasarımı sayesinde Kumru, RTX A4000 veya RTX 3090 gibi yalnızca 16 GB VRAM’e sahip GPU’larda çalışabiliyor. Bu özellik, Türkiye’deki veri gizliliği düzenlemeleri göz önüne alındığında, modeli kurum içi dağıtımlar için uygun hale getiriyor. Bu nedenle Kumru’nun, finans ve sağlık gibi sektörlerde LLM tabanlı çözümler geliştirmek için önemli bir araç olduğu vurgulanıyor.

Açık kaynak sürümü: Kumru-2B

VNGRS, Kumru-7B’nin yanı sıra Kumru-2B adında daha küçük ve açık kaynaklı bir sürümü de yayınladı. Model boyutu haricinde bu sürüm, 8.192 token’lık bağlam uzunluğu ve 300 milyar token’lık ön eğitim gibi ana modelle aynı teknik özellikleri paylaşıyor. Kumru-2B, Hugging Face platformu üzerinden denenebiliyor. 2B parametreli bu sürüm, niceleme (quantization) işlemine gerek duymadan yalnızca 4,8 GB bellek gereksinimi ile mobil cihazlarda dahi dağıtıma olanak tanıyor.

Cetvel Benchmark sonuçları

Kumru’nun performansı, dilbilgisi hatası düzeltme, özetleme, soru-cevap, makine çevirisi, doğal dil çıkarımı ve metin sınıflandırma gibi 26 farklı doğal dil işleme (NLP) görevini içeren Cetvel benchmark’ı üzerinde değerlendirildi. Bu değerlendirmelerde hem Kumru-7B hem de Kumru-2B, diğer açık kaynaklı modellerle karşılaştırıldı.

Sonuçlara göre Kumru, genel performansta LLaMA-3.3-70B, Gemma-3-27B, Qwen-2-72B ve Aya-32B gibi kendisinden önemli ölçüde büyük modelleri geride bıraktı. Modelin, özellikle dilbilgisi hatası düzeltme ve metin özetleme gibi Türkçe dilinin incelikleriyle ilgili görevlerde üstün bir performans sergilediği belirtildi. Cetvel sonuçlarına ek olarak, şirket içi değerlendirmeler Kumru’nun diğer açık kaynaklı LLM’lere kıyasla Türkçe ve Türkiye ile ilgili konularda daha derin ve ayrıntılı bilgiye sahip olduğunu ortaya koydu.

Modern bir türkçe token’laştırıcı

Kumru’nun token’laştırıcısı (tokenizer), modern LLM gereksinimlerini karşılamak üzere geliştirildi. Token’laştırıcı, metinleri önceden işleyerek yeni satır, sekme, noktalama işaretleri ve sayılar gibi özel karakterlerin ayrı token’lar olarak ele alınmasını sağlayan bir ön token’laştırma RegEx’i (düzenli ifade) içeriyor. Ayrıca, bir sohbet şablonuna (chat template) sahip olan token’laştırıcı, sistem, kullanıcı ve asistan rollerini içeren çok turlu (multiturn) sohbetleri destekliyor.

Token’laştırıcının verimliliği, çok dilli LLM’lerle de karşılaştırıldı. İncelemelerde, diğer modellerin daha büyük kelime dağarcığına sahip olmalarına rağmen aynı metni işlemek için Kumru’dan %38 ila %98 arasında daha fazla token kullandığı gözlemlendi. Bu durum, Kumru’nun kendi bağlam penceresine daha fazla metin sığdırabildiği, dolayısıyla daha hızlı ve daha düşük maliyetli işlem yapabildiği anlamına geliyor. Bu veriler, yerel bir Türkçe token’laştırıcının temsil gücü, hız ve maliyet açısından sağladığı verimliliği gösteriyor.

Hugging Face Transformers’a katkı

Kumru’nun ön eğitim kodu geliştirilirken, IBM mühendisleri tarafından geliştirilen ve flash attention teknolojisini kullanarak çapraz kirlenme (cross-contamination) olmadan paketleme (packing) yapan bir koddan yararlanıldı. Ancak mevcut kodun, 1’den büyük yığın boyutları için çalışmadığı ve hata verdiği tespit edildi. VNGRS ekibi, bu hatayı düzelterek bir “pull request” (PR) oluşturdu. Bu talep, Transformers kütüphanesinin ana dalına (main branch) birleştirildi ve v4.47.0 sürümünün bir parçası olarak yayınlandı. Böylece Kumru’nun geliştirme süreci, Hugging Face Transformers kod tabanına da bir katkı sağlamış oldu.