Apple'dan yeni hızlı dil modeli, FS-DFM • Digital Report

Apple araştırmacıları, benzer modellere kıyasla 128 kata kadar daha hızlı uzun metinler üretebilen, difüzyon tabanlı yeni bir dil modeli geliştirdi. Bu model, uzun metin üretiminde verimliliği önemli ölçüde artırmayı hedefliyor.

Modelin çalışma prensibini anlamak için temel yapay zeka modelleri arasındaki farkları bilmek gerekiyor. ChatGPT gibi geleneksel büyük dil modelleri otoregresif yapıdadır. Bu modeller, metni sıralı bir şekilde, her seferinde tek bir “token” (kelime veya kelime parçası) üreterek oluşturur ve her yeni token üretiminde kullanıcının istemini ve daha önce üretilmiş tüm tokenları dikkate alır.

Bunun aksine, difüzyon modelleri çok sayıda tokenı paralel olarak üretir ve tam yanıt şekillenene kadar bunları birkaç yinelemeli adımda iyileştirir. Akış eşleştirme (flow-matching) modelleri ise difüzyon modellerinin bu yinelemeli sürecini atlayarak nihai sonucu tek bir adımda üretmeyi öğrenir.

Apple ve Ohio State Üniversitesi’nden araştırmacıların bugün yayınladığı “FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models” başlıklı yeni çalışma, bu alanda yeni bir yaklaşım sunuyor. Araştırmacılar, bu çalışmada FS-DFM (Few-Step Discrete Flow-Matching) olarak adlandırılan yeni bir model öneriyor.

Yapılan testlerde FS-DFM’in, binden fazla adıma ihtiyaç duyan difüzyon modelleriyle aynı kalitede sonuçlar elde ederken, tam uzunlukta metinleri sadece sekiz hızlı iyileştirme turunda yazabildiği gösterildi.

Araştırmacılar bu sonuca ulaşmak için üç aşamalı bir eğitim süreci izledi. İlk olarak model, farklı bütçelerdeki iyileştirme yinelemelerini yönetebilmesi için eğitildi. Ardından, hedeflenen metni “aşmadan” her yinelemede daha büyük ve daha isabetli güncellemeler yapmasına yardımcı olmak için yol gösterici bir “öğretmen” model kullanıldı. Son olarak, modelin nihai sonuca daha az ve daha istikrarlı adımlarla ulaşabilmesi için her yinelemenin işleyişi ayarlandı.

FS-DFM, daha büyük difüzyon modelleriyle karşılaştırıldığında iki önemli metrik olan “perplexity” (şaşkınlık) ve “entropy” (entropi) konularında iyi bir performans sergiledi. Perplexity puanı, dil modellerinde metin kalitesi için standart bir ölçüttür ve puan ne kadar düşük olursa, metin o kadar doğru ve doğal kabul edilir. Entropi ise modelin her kelimeyi ne kadar emin bir şekilde seçtiğini ölçer. Düşük entropi metnin tekrarlayıcı olmasına, yüksek entropi ise rastgele veya tutarsız olmasına neden olabilir.

7 milyar parametreli Dream difüzyon modeli ve 8 milyar parametreli LLaDA difüzyon modeli ile karşılaştırıldığında, FS-DFM’in 1,7 milyar, 1,3 milyar ve 0,17 milyar parametreli versiyonları, tüm yineleme sayılarında tutarlı bir şekilde daha düşük perplexity değerleri elde etti. Ayrıca bu modellerin daha kararlı bir entropi seviyesini koruduğu gözlemlendi.

Araştırmacılar, elde edilen sonuçlar ve yöntemin vadettiği potansiyel doğrultusunda, kod ve model kontrol noktalarını yayınlamayı planladıklarını duyurdu. Bu adımın, sonuçların tekrarlanabilirliğini kolaylaştırmayı ve daha fazla araştırmayı teşvik etmeyi amaçladığı belirtildi.

Makalenin tamamı, her bir kelimenin en son hangi yinelemede değiştirildiğini renk kodlarıyla gösteren performans örnekleri gibi daha fazla teknik ayrıntı içeriyor. “FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models” başlıklı makaleye arXiv üzerinden ulaşılabiliyor.

Haber bülteni