Digital Report
  • DERGİ
  • TEKNOLOJİ
  • YAPAY ZEKA
  • PROFESYONEL
    • GİRİŞİM
    • E-TİCARET
    • FİNTEK
    • MARKA
  • GÜVENLİK
  • KRİPTO
  • OYUN
  • REHBER
No Result
View All Result
Digital Report
No Result
View All Result
Home Yapay Zeka

Apple’dan LLM’ler için yeni kontrol listesi yöntemi

by Kerem Gülen
27/08/2025
in Yapay Zeka
Apple'dan LLM'ler için yeni kontrol listesi yöntemi
Facebook'ta PaylaşTwitter'da PaylaşLinkedIn'de PaylaşWhatsApp'ta PaylaşTelegram'da Paylaş

Apple araştırmacıları tarafından ortaklaşa yazılan yeni bir araştırmaya gore, açık kaynaklı bir buyuk dil modeli (LLM), basit bir verimlilik tüyosu kullanarak kendi çalışmasını kontrol etmesi söylendikten sonra performansta buyuk iyileşmeler kaydetti. İşte detaylar.

LLM eğitildikten sonra, kalitesi genellikle insan geri bildiriminden takviyeli öğrenme (RLHF) olarak bilinen bir eğitim sonrası adımı aracılığıyla daha da iyileştirilir.

RLHF ile, bir model her cevap verdiğinde, insan etiketleyiciler ya ona olumlu oy verebilir (bu da onu ödüllendirir) ya da olumsuz oy verebilir (bu da onu cezalandırır). Zamanla, model hangi cevapların en çok olumlu oyu alma eğiliminde olduğunu öğrenir ve sonuç olarak genel kullanışlılığı artar.

Bu eğitim sonrası aşamanın bir kısmı, LLM’leri hem yararlı hem de guvenli olacak şekilde davranmaya yonelik yöntemleri araştıran daha geniş bir alan olan “uyum” ile bağlantılıdır.

Yanlış hizalanmış bir model, örneğin, yuzeyde doğru görünen ancak görevi gerçekten çözmeyen çıktılar üreterek insanları kendisine olumlu oy vermesi için nasıl kandıracağını öğrenebilir.

Modelin güvenilirliğini ve uyumunu eğitim öncesi, eğitim ve eğitim sonrası adımlarda iyileştirmenin birden çok yöntemi vardır. Ancak bu çalışma için RLHF’ye bağlı kalalım.

Apple’ın “Kontrol Listeleri Dil Modellerini Hizalamak İçin Ödül Modellerinden Daha İyidir” başlıklı çalışmasında, Apple, Kontrol Listesi Geri Bildiriminden Takviyeli Öğrenme (RLCF) adı verilen kontrol listesi tabanlı bir takviyeli öğrenme şeması önermektedir.

RLCF, yanıtları kontrol listesindeki her bir öğeyi ne kadar iyi karşıladıklarına gore 0-100 ölçeğinde puanlar ve ilk sonuçlar oldukça umut verici. Araştırmacılarin açıkladığı gibi:

“RLCF’yi, guçlu bir talimat takip modeli (Qwen2.5-7B-Instruct) uzerinde uygulanan diğer uyum yöntemleriyle karşılaştırıyoruz – RLCF, FollowBench’te zor memnuniyet oranında 4 puanlık bir artış, InFoBench’te 6 puanlık bir artış ve Arena-Hard’da kazanma oranında 3 puanlık bir artış dahil olmak uzere her bir kıyaslama uzerinde performansı iyileştiren tek yöntemdir. Bu sonuçlar, kontrol listesi geri bildirimini, dil modellerinin çok sayıda ihtiyacı ifade eden sorguları desteklemesini iyileştirmek için temel bir araç olarak oluşturmaktadır.”

Bu son kısım, milyonlarca kullanıcının cihazlarıyla etkileşim kuracağı standart arayuz haline gelecek olan yapay zeka destekli asistanlar soz konusu olduğunda özellikle ilgi çekicidir.

Araştırmacılardan tekrar:

Dil modelleri, yararlı olmak için kullanıcı talimatlarını izlemelidir. Genel halk, dil modeli tabanlı asistanları gunluk görevlerini tamamlama surecine entegre ettikçe, dil modellerinin kullanıcıların isteklerini sadakatle yerine getirebileceği beklentisi vardır. Kullanıcılar modellerin karmaşık istekleri yerine getirme yeteneğine daha fazla guven geliştirdikçe, bu modellere ozelliklere dikkatli bir şekilde dikkat edilmesini gerektiren zengin, çok adımlı talimatlar giderek daha fazla verilmektedir.

Çalışmanın özellikle ilgi çekici bir diğer yönu, her bir kontrol listesinin nasıl oluşturulduğu ve her bir öğe arasında onem ağırlıklarının nasıl atandığıdır.

Bu, elbette, bir LLM yardımıyla gerçekleştirilir. Onceki çalışmaların çalışmalarına dayanarak, Apple’ın araştırmacıları “130.000 talimat için kontrol listeleri oluşturarak yeni bir veri kumesi olan WildChecklists’i oluşturdular. Yöntemimiz için aday yanıtlar oluşturmak için Qwen2.5-0.5B, Qwen2.5-1.5B, Qwen2.5-3B ve Qwen2.5-7B’yi kullanıyoruz. Qwen2.5-72B-Instruct kontrol listesi oluşturucu modelidir (…).”

Temel olarak, araştırmacılar, kullanıcı tarafından verilen her talimatı, somut evet/hayır gereksinimlerinin kucuk bir kontrol listesiyle otomatik olarak tamamlar (örneğin: “Bu İspanyolcaya çevrildi mi?”). Ardından, daha buyuk bir öğretmen modeli aday yanıtları her bir kontrol listesi öğesine gore puanlar ve bu ağırlıklı puanlar, öğrenci modelini ince ayar yapmak için kullanılan ödül sinyali haline gelir.

Doğru sistemler, her bir istem için mumkun olan en iyi kontrol listesini oluşturmak için mevcut olduğunda, araştırmacılar, yöntemini test ettiği kıyaslamalardan birinde %8,2’ye varan bir kazanç gördüler. Sadece bu değil, aynı zamanda bu çözüm, alternatif yöntemlerle karşılaştırıldığında diğer bazı kıyaslamalarda da önculuk etti.

Araştırmacılar, çalışmalarının “karmaşık talimat takibine” odaklandığını ve RLCF’nin diğer kullanım durumları için en iyi takviyeli öğrenme tekniği olmayabileceğini belirtiyorlar. Ayrıca, yöntemlerinin daha kucuk bir modeli ayarlamak için bir yargıç olarak hareket etmek için daha guçlu bir model kullandığını da belirtiyorlar, bu da onemli bir sınırlama. Ve belki de en onemlisi, açıkça “RLCF, karmaşık talimat takibini iyileştirir, ancak guvenlik uyumu için tasarlanmamıştır” diyorlar.

Yine de, çalışma, insanlar ve LLM tabanlı asistanlar arasındaki etkileşimin muhtemelen en onemli yönlerinden biri olacak olan guvenilirliği iyileştirmenin ilginç ve yeni (ancak basit) bir yolunu sunuyor.

Bu, bu asistanların giderek daha fazla yetenek kazanacağı duşunulduğunde daha da kritik hale geliyor, burada talimat takibi (ve uyum) anahtar olacak.

Amazon’da sınırlı sureli Apple Watch fırsatları:

Apple Watch Ultra 2: 799 $

Apple Watch Series 10, 46mm: 410 $

Apple Watch SE (2. nesil), 40mm: 199 $

Tags: AppleLLM

İLGİLİ YAZILAR

İtalya AGCM Apple'ı ATT için 98,6 milyon euro cezalandırdı
Marka

İtalya AGCM, Apple’a 98,6 milyon euro ceza kesti

by Aytun Çelebi

İtalya Rekabet Kurumu (AGCM), Apple'ın mobil uygulama pazarındaki hakim konumunu App Takip Şeffaflığı (ATT) politikasıyla kötüye kullandığı gerekçesiyle 98,6 milyon...

Read moreDetails
Apple iOS 26.2 ile Japonya'da üçüncü taraf uygulama mağazalarını kullanıma açtı
Teknoloji

Apple iOS 26.2 ile Japonya’da üçüncü taraf uygulama mağazalarını kullanıma açtı

by Kerem Gülen

Japonya'da Apple, Çarşamba günü iOS yazılımında kapsamlı değişiklikler duyurdu. Mobil Yazılım Rekabet Yasası'na (MSCA) uyum sağlamak amacıyla alternatif uygulama mağazaları,...

Read moreDetails
Apple Siri yenilemesini Gemini ile 2026'ya erteledi
Teknoloji

Apple Siri yenilemesini Gemini ile 2026’ya erteledi

by Kerem Gülen

Apple, yapay zeka alanında rakiplerinin gerisinde kaldığı bir dönemde, Siri sesli asistanı için büyük bir yenileme planını 2026 baharına ertelediğini...

Read moreDetails
Apple akıllı gözlükte S10 SiP pil sorununu çözecek
Teknoloji

Apple akıllı gözlükte S10 SiP pil sorununu çözecek

by Aytun Çelebi

Apple'ın akıllı gözlük projesinde pil ömrü sorununun Apple Watch S10 sistem-çip paketiyle (SiP) aşılacağı belirtildi. EBN kaynaklı habere göre, cihazın...

Read moreDetails

SON YAZILAR

Xiaomi Buds 6 tanıtıldı

VEPARA’nın faaliyetleri yasa dışı bahis soruşturması kapsamında durduruldu

Windows’ta JPG dosyalarını etkileyen kritik güvenlik açığı keşfedildi

iPhone Air 2 için 2026 umudu yeniden doğdu

Tesla’nın Avrupa satışları çakıldı, BYD öne geçti

Lise yıllarından kalma utanç verici Gmail adresinizden yakında kurtulacaksınız

ChatGPT’ye reklamlar 2026’da geliyor

Google 2025’i yapay zeka fayda yılı ilan etti, OpenAI kırmızı kod ile karşılık verdi

Nvidia’nın 20 milyar dolarlık Groq satın alması yalan çıktı

X’te Artık herkes paylaştığınız fotoğrafları yapay zeka ile değiştirebiliyor

SON REHBERLER

Android telefon hafıza kartını görmüyor sorunu nasıl çözülür

Instagram’da fotoğraf paylaşma sorununu gidermenin pratik yolları

OLED ekranlarda oluşabilecek yanma sorununu önlemenin pratik yolları

Windows 10’da unmountable boot volume hatası nasıl düzeltilir

Nvidia DLAA ile oyun grafiklerinde kenar yumuşatma nasıl sağlanır

ChatGPT’yi 1 saatten kısa sürede ustaca kullanmayı öğrenin

Windows’un farklı sürümlerinde ve Mac’te şifre kaldırma

iPhone’da kilit ekranına istediğiniz metni yazma nasıl yapılır

Telegram’da engellendiğinizi pratik yöntemlerle nasıl anlarsınız

Windows’ta işletim sisteminin bit mimarisini nasıl öğrenirsiniz

BASIN BÜLTENLERİ

RTB House, Derin Öğrenme ile dijital reklamcılığın yeni işletim sistemini kuruyor

ESET, Çin bağlantılı LongNosedGoblin APT grubunu tespit etti

Simya VC’den Rudiq’e 1 milyon dolar yatırım

Huawei Cloud, İstanbul’da dijital perakende buluşması düzenledi

SteelSeries, tek kulaklıkla birden fazla platformda oyun oynama özgürlügü sunuyor

Aktif Tech, Deloitte Teknoloji Fast 50’de üçüncü oldu

Dolap, 2024 yılında 307 bin 340 ton karbon salımını önledi

Canon, Istanbul’da EOS R6 Mark III ve EOS C50 tanıttı

LG, yeni yıl için soundbar kampanyasını duyurdu

Citrix, Hibrit çoklu bulut lisans modeli sunuyor

Digital Report

© 2019 Digital Report bir Linkmedya markasıdır.

  • Dergi
  • Yazarlar
  • Basın bültenleri
  • Gizlilik
  • İletişim
  • Künye

Bizi takip edin

No Result
View All Result
  • TEKNOLOJİ
  • YAPAY ZEKA
  • PROFESYONEL
    • GİRİŞİM
    • E-TİCARET
    • FINTECH
    • MARKA
  • GÜVENLİK
  • KRİPTO
  • OYUN
  • REHBER
  • BASIN BÜLTENLERİ
  • YAZARLAR
  • DERGİ
  • KÜNYE
  • İLETİŞİM