Apple araştırmacıları tarafından ortaklaşa yazılan yeni bir çalışma, açık kaynaklı bir buyuk dil modelinin (LLM) basit bir verimlilik numarası ile kendi çalışmasını kontrol etmesi söylendikten sonra buyuk performans iyileştirmeleri sağladığını gösteriyor. İşte detaylar.
Bir LLM eğitildikten sonra, kalitesi genellikle insan geri bildiriminden takviyeli öğrenme (RLHF) olarak bilinen bir eğitim sonrası adımıyla daha da iyileştirilir. RLHF ile, bir model her cevap verdiğinde, insan etiketleyiciler ona ya olumlu ya da olumsuz oy verebilir. Zamanla, model en çok olumlu oy verme eğiliminde olan cevapları öğrenir ve genel kullanışlılığı sonuç olarak artar.
Bu eğitim sonrası aşamanın bir kısmı, LLM’leri hem yardımcı hem de güvenli olacak şekilde davranmaya yonelik yöntemleri araştıran daha geniş bir “uyum” alanıyla ilgilidir. Yanlış hizalanmış bir model, örneğin, yüzeyde doğru görünen ancak görevi gerçekten çözmeyen çıktılar üreterek insanları kendisine olumlu oy vermesi için nasıl kandıracağını öğrenebilir.
Modelin güvenilirliğini ve uyumunu eğitim öncesi, eğitim ve eğitim sonrası adımlarda iyileştirmenin birden çok yöntemi vardır. Ancak bu çalışmanın amaçları doğrultusunda, RLHF’ye bağlı kalalım.
Apple’ın çalışması
Apple’ın “Kontrol Listeleri, Dil Modellerini Hizalamak İçin Odul Modellerinden Daha Iyidir” başlıklı çalışması, Kontrol Listesi Geri Bildiriminden Takviyeli Öğrenme (RLCF) olarak adlandırılan kontrol listesi tabanlı bir takviyeli öğrenme şeması öneriyor. RLCF, yanıtları kontrol listesindeki her öğeyi ne kadar iyi karşıladıklarına gore 0-100 ölçeğinde puanlar ve ilk sonuçlar oldukça umut vericidir. Araştırmacılar durumu şöyle açıklıyor:
“RLCF’yi, beş yaygın olarak incelenen kıyaslama üzerinde güçlü bir talimat izleme modeline (Qwen2.5-7B-Instruct) uygulanan diğer uyum yöntemleriyle karşılaştırıyoruz – RLCF, FollowBench’te zor memnuniyet oranında 4 puanlık bir artış, InFoBench’te 6 puanlık bir artış ve Arena-Hard’da kazanma oranında 3 puanlık bir artış dahil olmak üzere her kıyaslamada performansı artıran tek yöntemdir. Bu sonuçlar, kontrol listesi geri bildirimini, dil modellerinin çok sayıda ihtiyacı ifade eden sorguları desteklemesini iyileştirmek için önemli bir araç olarak ortaya koymaktadır.”
Bu son kısım, milyonlarca kullanıcının cihazlarıyla etkileşim kuracağı standart arayüz haline gelecek olan yapay zeka destekli asistanlar söz konusu olduğunda özellikle ilginçtir.
Araştırmacılardan tekrar: Dil modelleri faydalı olmak için kullanıcı talimatlarını izlemelidir. Genel halk, dil modeli tabanlı asistanları günlük görevlerini tamamlama süreçlerine entegre ettikçe, dil modellerinin kullanıcıların isteklerini sadakatle yerine getirebileceği beklentisi vardır. Kullanıcılar modellerin karmaşık istekleri yerine getirme yeteneğine daha fazla guven duydukça, bu modellere giderek artan bir şekilde özelliklere dikkatli bir şekilde dikkat etmeyi gerektiren zengin, çok adımlı talimatlar verilir.
Doğru kontrol listesi oluşturma
Çalışmanın bir diğer özellikle ilginç yönü, her kontrol listesinin nasıl oluşturulduğu ve her öğe arasında önem ağırlıklarının nasıl atandığıdır. Bu, elbette, bir LLM yardımıyla gerçekleştirilir. Önceki çalışmaların çalışmalarına dayanarak, Apple’ın araştırmacıları “130.000 talimat için kontrol listesi oluşturdu (…) yeni bir veri seti olan WildChecklists oluşturmak için. Yöntemimiz için aday yanıtlar oluşturmak için Qwen2.5-0.5B, Qwen2.5-1.5B, Qwen2.5-3B ve Qwen2.5-7B’yi kullanıyoruz. Qwen2.5-72B-Instruct, kontrol listesi oluşturma modelidir (…).”
Temel olarak, araştırmacılar kullanıcı tarafından verilen her talimatı somut evet/hayır gereksinimlerinden oluşan küçük bir kontrol listesiyle otomatik olarak tamamlar (örneğin: “Bu İspanyolcaya çevrildi mi?”). Ardından, daha buyuk bir öğretmen modeli, aday yanıtları her kontrol listesi öğesine gore puanlar ve bu ağırlıklı puanlar, öğrenci modelini ince ayar yapmak için kullanılan odul sinyali haline gelir.
Sonuçlar ve sınırlamalar
Her istem için mümkün olan en iyi kontrol listesini oluşturmak için doğru sistemler yerine oturtulduğunda, araştırmacılar yöntemini test ettiği kıyaslamalardan birinde %8,2’ye varan bir artış gordu. Sadece bu değil, aynı zamanda bu çözüm, alternatif yöntemlerle karşılaştırıldığında diğer bazı kıyaslamalarda da liderlik etti.
Araştırmacılar, çalışmalarının “karmaşık talimat takibine” odaklandığını ve RLCF’nin diğer kullanım durumları için en iyi takviyeli öğrenme tekniği olmayabileceğini belirtiyorlar. Ayrıca, yöntemlerinin daha küçük bir modeli ayarlamak için bir yargıç olarak hareket etmek için daha güçlü bir model kullandığını, bu nedenle bunun da önemli bir sınırlama olduğunu belirtiyorlar. Ve belki de en önemlisi, “RLCF karmaşık talimat takibini iyileştirir, ancak guvenlik uyumu için tasarlanmamıştır” diye belirtiyorlar.
Yine de çalışma, insanlar ve LLM tabanlı asistanlar arasındaki etkileşimin en önemli yönlerinden biri olacak olan alanda güvenilirliği artırmak için ilginç, yeni (ancak basit) bir yol sunuyor.
Bu, bu asistanların giderek daha fazla ajan yetenekleri kazanacağı düşünüldüğünde daha da kritik hale geliyor, burada talimat takibi (ve uyum) çok önemli olacak.




