Apple araştırmacıları tarafından ortaklaşa yazılan yeni bir araştırmaya gore, açık kaynaklı bir buyuk dil modeli (LLM), basit bir verimlilik tüyosu kullanarak kendi çalışmasını kontrol etmesi söylendikten sonra performansta buyuk iyileşmeler kaydetti. İşte detaylar.
LLM eğitildikten sonra, kalitesi genellikle insan geri bildiriminden takviyeli öğrenme (RLHF) olarak bilinen bir eğitim sonrası adımı aracılığıyla daha da iyileştirilir.
RLHF ile, bir model her cevap verdiğinde, insan etiketleyiciler ya ona olumlu oy verebilir (bu da onu ödüllendirir) ya da olumsuz oy verebilir (bu da onu cezalandırır). Zamanla, model hangi cevapların en çok olumlu oyu alma eğiliminde olduğunu öğrenir ve sonuç olarak genel kullanışlılığı artar.
Bu eğitim sonrası aşamanın bir kısmı, LLM’leri hem yararlı hem de guvenli olacak şekilde davranmaya yonelik yöntemleri araştıran daha geniş bir alan olan “uyum” ile bağlantılıdır.
Yanlış hizalanmış bir model, örneğin, yuzeyde doğru görünen ancak görevi gerçekten çözmeyen çıktılar üreterek insanları kendisine olumlu oy vermesi için nasıl kandıracağını öğrenebilir.
Modelin güvenilirliğini ve uyumunu eğitim öncesi, eğitim ve eğitim sonrası adımlarda iyileştirmenin birden çok yöntemi vardır. Ancak bu çalışma için RLHF’ye bağlı kalalım.
Apple’ın “Kontrol Listeleri Dil Modellerini Hizalamak İçin Ödül Modellerinden Daha İyidir” başlıklı çalışmasında, Apple, Kontrol Listesi Geri Bildiriminden Takviyeli Öğrenme (RLCF) adı verilen kontrol listesi tabanlı bir takviyeli öğrenme şeması önermektedir.
RLCF, yanıtları kontrol listesindeki her bir öğeyi ne kadar iyi karşıladıklarına gore 0-100 ölçeğinde puanlar ve ilk sonuçlar oldukça umut verici. Araştırmacılarin açıkladığı gibi:
“RLCF’yi, guçlu bir talimat takip modeli (Qwen2.5-7B-Instruct) uzerinde uygulanan diğer uyum yöntemleriyle karşılaştırıyoruz – RLCF, FollowBench’te zor memnuniyet oranında 4 puanlık bir artış, InFoBench’te 6 puanlık bir artış ve Arena-Hard’da kazanma oranında 3 puanlık bir artış dahil olmak uzere her bir kıyaslama uzerinde performansı iyileştiren tek yöntemdir. Bu sonuçlar, kontrol listesi geri bildirimini, dil modellerinin çok sayıda ihtiyacı ifade eden sorguları desteklemesini iyileştirmek için temel bir araç olarak oluşturmaktadır.”
Bu son kısım, milyonlarca kullanıcının cihazlarıyla etkileşim kuracağı standart arayuz haline gelecek olan yapay zeka destekli asistanlar soz konusu olduğunda özellikle ilgi çekicidir.
Araştırmacılardan tekrar:
Dil modelleri, yararlı olmak için kullanıcı talimatlarını izlemelidir. Genel halk, dil modeli tabanlı asistanları gunluk görevlerini tamamlama surecine entegre ettikçe, dil modellerinin kullanıcıların isteklerini sadakatle yerine getirebileceği beklentisi vardır. Kullanıcılar modellerin karmaşık istekleri yerine getirme yeteneğine daha fazla guven geliştirdikçe, bu modellere ozelliklere dikkatli bir şekilde dikkat edilmesini gerektiren zengin, çok adımlı talimatlar giderek daha fazla verilmektedir.
Çalışmanın özellikle ilgi çekici bir diğer yönu, her bir kontrol listesinin nasıl oluşturulduğu ve her bir öğe arasında onem ağırlıklarının nasıl atandığıdır.
Bu, elbette, bir LLM yardımıyla gerçekleştirilir. Onceki çalışmaların çalışmalarına dayanarak, Apple’ın araştırmacıları “130.000 talimat için kontrol listeleri oluşturarak yeni bir veri kumesi olan WildChecklists’i oluşturdular. Yöntemimiz için aday yanıtlar oluşturmak için Qwen2.5-0.5B, Qwen2.5-1.5B, Qwen2.5-3B ve Qwen2.5-7B’yi kullanıyoruz. Qwen2.5-72B-Instruct kontrol listesi oluşturucu modelidir (…).”
Temel olarak, araştırmacılar, kullanıcı tarafından verilen her talimatı, somut evet/hayır gereksinimlerinin kucuk bir kontrol listesiyle otomatik olarak tamamlar (örneğin: “Bu İspanyolcaya çevrildi mi?”). Ardından, daha buyuk bir öğretmen modeli aday yanıtları her bir kontrol listesi öğesine gore puanlar ve bu ağırlıklı puanlar, öğrenci modelini ince ayar yapmak için kullanılan ödül sinyali haline gelir.
Doğru sistemler, her bir istem için mumkun olan en iyi kontrol listesini oluşturmak için mevcut olduğunda, araştırmacılar, yöntemini test ettiği kıyaslamalardan birinde %8,2’ye varan bir kazanç gördüler. Sadece bu değil, aynı zamanda bu çözüm, alternatif yöntemlerle karşılaştırıldığında diğer bazı kıyaslamalarda da önculuk etti.
Araştırmacılar, çalışmalarının “karmaşık talimat takibine” odaklandığını ve RLCF’nin diğer kullanım durumları için en iyi takviyeli öğrenme tekniği olmayabileceğini belirtiyorlar. Ayrıca, yöntemlerinin daha kucuk bir modeli ayarlamak için bir yargıç olarak hareket etmek için daha guçlu bir model kullandığını da belirtiyorlar, bu da onemli bir sınırlama. Ve belki de en onemlisi, açıkça “RLCF, karmaşık talimat takibini iyileştirir, ancak guvenlik uyumu için tasarlanmamıştır” diyorlar.
Yine de, çalışma, insanlar ve LLM tabanlı asistanlar arasındaki etkileşimin muhtemelen en onemli yönlerinden biri olacak olan guvenilirliği iyileştirmenin ilginç ve yeni (ancak basit) bir yolunu sunuyor.
Bu, bu asistanların giderek daha fazla yetenek kazanacağı duşunulduğunde daha da kritik hale geliyor, burada talimat takibi (ve uyum) anahtar olacak.
Amazon’da sınırlı sureli Apple Watch fırsatları:
Apple Watch Ultra 2: 799 $
Apple Watch Series 10, 46mm: 410 $
Apple Watch SE (2. nesil), 40mm: 199 $




