Allen Institute for AI (Ai2), 14 Aralık’ta Bolmo 7B ve Bolmo 1B adlı iki açık kaynaklı dil modelini kamuoyuyla paylaştı. Geleneksel alt kelime tokenizasyonunu atlayarak ham UTF-8 baytlarını işleyen modeller, yazım hataları, nadir diller ve karakter düzeyindeki görevlerde üstün performans hedefliyor.
Ai2 yetkilileri, Bolmo’nun dünyanın ilk tamamen açık bayt-seviyesi dil modelleri olduğunu belirtti. Mevcut Olmo 3 modelleri temel alınarak geliştirilen sistem, sıfırdan eğitilmek yerine iki aşamalı bir süreçle dönüştürüldü. Birinci aşamada Olmo 3 transformeri dondurulurken, yerel kodlayıcı, sınır belirleyici ve dil modelleme başı gibi özel bileşenler 9,8 milyar token üzerinde eğitildi. İkinci aşamada ise tam model 39,3 milyar ek token ile çalıştırıldı.
Bolmo 7B, alt kelime tabanlı öncülüne matematik, mantık yürütme, kodlama ve genel bilgi testlerinde eşdeğer sonuçlar üretirken, CUTE ve EXECUTE gibi karakter odaklı ölçütlerde yaklaşık yüzde 20 puan üstünlük sağladı. Meta’nın BLT 7B dahil diğer bayt-seviyesi modellere kıyasla kod, matematik ve karakter anlayışı görevlerinde en güçlü genel performansı sergiledi.
Model mimarisi, mLSTM tabanlı yerel kodlayıcıyla bağlamsal bayt temsilleri oluşturuyor, ardından sınır belirleyici baytları değişken uzunluktaki “yama”lara gruplandırarak Olmo 3 transformerine besliyor. Çözümleme hızları saniyede yaklaşık 125 bayt olarak ölçülürken, buna karşılık gelen alt kelime modelleri 150 bayt/saniye hızına ulaşıyor.
Ai2 araştırmacıları, ince ayar sonrası yeteneklerin bayt-seviyesi modellere “görev aritmetiği” ile aktarılabileceğini gösterdi. İnce ayarlı alt kelime modellerinden ağırlık farkları eklenerek IFEval talimat takip ölçütünde Bolmo’nun performansı yüzde 31,1’den yüzde 67,4’e yükseltildi; bu oran orijinal Olmo 3 ince ayarlı noktasına yüzde 66,9 ile neredeyse eşitti.
Bayt-seviyesi modeller hala nadir kalıyor; Meta’nın Aralık 2024’te tanıttığı Byte Latent Transformer (BLT) ile ilgi artsa da, Google’ın ByT5 ve CANINE gibi erken modelleri eğitim ve çözümleme hızlarındaki yavaşlıklar nedeniyle sınırlı benimseme gördü. Ai2, Bolmo’yu Dolma 3 veri seti, açık kod depoları ve karakter düzeyinde verilerle eğitti.
Enstitü, model kontrol noktalarını, kaynak kodunu ve teknik makaleyi açık kaynak çerçevesi altında erişime açtı.




