Üretken yapay zeka (YZ) sistemleri geliştikçe, daha iyi büyük dil modellerinin (LLM) daha iyi sonuçlar doğuracağı doğal bir varsayım olarak görülüyor. Ancak MIT Sloan bağlantılı araştırmacılar tarafından yapılan yeni bir çalışma, LLM gelişmelerinin hikayenin yalnızca bir kısmı olduğunu ortaya koydu.
Kapsamlı bir deneyde, araştırmacılar daha gelişmiş bir YZ modeline geçildikten sonra elde edilen performans artışlarının sadece yarısının modelin kendisinden kaynaklandığını buldu. Diğer yarısı ise kullanıcıların yapay zeka modeline ne yapacağını söyleyen yazılı talimatlar olan “istemlerini” yeni sistemden faydalanmak için nasıl uyarladıklarından geldi.
Kullanıcı adaptasyonunun performans artışına model yükseltmesi kadar katkıda bulunması, işletmeler için kritik bir gerçeği vurguluyor: Yeni YZ araçlarına yatırım yapmak, çalışanlar bunları kullanma şekillerini geliştirmezse beklenen değeri sağlamayacaktır. Bu durumda, istem oluşturma, insanlar tarafından talimat olmadan bile hızla geliştirilebilecek öğrenilebilir bir beceridir.
Columbia Üniversitesi yardımcı doçenti David Holtz, SM ’18, PhD ’21, aynı zamanda MIT Dijital Ekonomi Girişimi’nde araştırma görevlisi ve çalışmanın ortak yazarlarından biri, “İnsanlar genellikle daha iyi sonuçların çoğunlukla daha iyi modellerden geldiğini varsayar” dedi. Holtz, “Gelişmenin neredeyse yarısının kullanıcı davranışından gelmesi bu inancı gerçekten sorgulatıyor” diye ekledi.
Daha iyi istemler, gelişmiş modeller performansı artırıyor
Deneyde, yaklaşık 1.900 katılımcı rastgele olarak OpenAI’ın DALL-E görsel üretim sisteminin üç farklı versiyonundan birine atandı: DALL-E 2, daha gelişmiş DALL-E 3 veya GPT-4 LLM tarafından kullanıcıların istemlerinin otomatik olarak yeniden yazıldığı, ancak kullanıcıların bundan haberdar olmadığı DALL-E 3 sürümü.
Katılımcılara bir referans görsel (örneğin bir fotoğraf, grafik tasarım veya sanat eseri) gösterildi ve YZ’ye talimatlar yazarak bunu yeniden oluşturmaları istendi. En az 10 istem göndermek için 25 dakikaları vardı ve en iyi %20’lik dilimdeki katılımcıların bonus ödeme alacağı söylendi, bu da onları talimatlarını test etmeye ve geliştirmeye motive etti.
Araştırmacılar aşağıdaki bulgulara ulaştı:
- DALL-E 3’ün temel sürümünü kullanan katılımcılar, DALL-E 2 kullanıcılarının ürettiklerinden daha hedef görsele benzer görüntüler üretti.
- DALL-E 3’ün temel sürümünü kullanan katılımcılar, DALL-E 2 kullanıcılarına kıyasla %24 daha uzun istemler yazdı. Bu istemler aynı zamanda birbirine daha benzer olma eğilimindeydi ve daha fazla tanımlayıcı kelime içeriyordu.
- Görüntü benzerliğindeki iyileşmenin yaklaşık yarısı gelişmiş modelden, diğer yarısı ise kullanıcıların geliştirdiği modellerden faydalanmak için istemlerini nasıl ayarladıklarından kaynaklandı.
Bu çalışma görsel üretimi incelemiş olsa da, araştırmacılar aynı desenin yazma ve kodlama gibi diğer görevler için de geçerli olacağını düşünüyor.
İstem oluşturma kodlamadan çok iletişimle ilgilidir
Araştırma, istemleri zaman içinde uyarlama yeteneğinin teknolojiye yatkın kullanıcılarla sınırlı olmadığını gösterdi.
Holtz, “İnsanlar iyi istem oluşturmak ve YZ’den faydalanmak için yazılım mühendisi olmanız gerektiğini düşünür” dedi. “Ancak katılımcılarımız çok çeşitli işlerden, eğitim seviyelerinden ve yaş gruplarından geldi ve teknik bir geçmişi olmayanlar bile yeni modelin yeteneklerinden en iyi şekilde yararlanabildi.”
Veriler, istem oluşturmanın kodlamadan çok iletişimle ilgili olduğunu gösteriyor. Holtz, “En iyi istemciler yazılım mühendisleri değildi” dedi. “Fikirleri günlük dilde açıkça ifade etmeyi bilen insanlardı, mutlaka kodda değil.”
Bu erişilebilirlik, farklı beceri seviyelerine ve deneyimlere sahip kullanıcılar arasındaki performans farklarını azaltmaya da yardımcı olabilir. Maryland Üniversitesi yardımcı doçenti Eaman Jahani, PhD ’22, aynı zamanda MIT Dijital Ekonomi Girişimi’nde dijital araştırmacı ve çalışmanın ortak yazarı, üretken YZ’nin kullanıcılar arasındaki performans farklarını daraltma potansiyeline sahip olduğunu belirtti.
Jahani, “[Performans] ölçeğinin alt ucunda başlayan insanlar en çok faydalandı, bu da sonuçlardaki farklılıkların azaldığı anlamına geliyor” dedi. “Model ilerlemeleri aslında çıktıdaki eşitsizliği azaltmaya yardımcı olabilir.”
Jahani, ekibinin bulgularının, iyi sonuç olarak neyin sayılacağına dair bir üst sınırın olduğu, açık ve ölçülebilir sonuçları olan görevler için geçerli olduğunu belirtti. Yeni dönüştürücü fikirler üretmek gibi tek bir doğru cevabı olmayan ve potansiyel olarak büyük getirileri olan daha açık uçlu görevlerde aynı desenin geçerli olup olmayacağı ise net değil.
Üretken YZ kullanarak istemleri yeniden yazmak daha kötü performansa yol açtı
Daha şaşırtıcı sonuçlardan biri, DALL-E 3’ü istemlerini yeniden yazan üretken YZ ile kullanan gruptan geldi. Bu özellik kullanıcılara yardımcı olmak için tasarlanmış olsa da, ters tepti ve görsel oluşturma görevinde temel DALL-E 3 grubuna göre %58’lik bir performans düşüşüne yol açtı.
Ekip, otomatik yeniden yazımların genellikle fazladan ayrıntılar eklediğini veya kullanıcıların söylemeye çalıştığı anlamı değiştirdiğini ve bunun da YZ’nin yanlış türde görüntüler üretmesine neden olduğunu buldu.
Holtz, “[Otomatik istem yeniden yazma] hedef bir görüntüyü olabildiğince yakından eşleştirme hedefi olan böyle bir görev için iyi çalışmıyor” dedi. “Daha da önemlisi, tasarımcıların insanların onları nasıl kullanacakları hakkında varsayımlarda bulunduklarında YZ sistemlerinin nasıl bozulabileceğini gösteriyor. Araca gizli talimatları sabit kodlarsanız, kullanıcıların aslında ne yapmaya çalıştıklarıyla kolayca çatışabilirler.”
İşletmeler YZ’de değeri nasıl açığa çıkarabilir?
Buradan çıkarılacak ders, doğru YZ modelini seçmenin yanı sıra, iş liderlerinin doğru türde kullanıcı öğrenimini ve deneyimini sağlamaya da odaklanması gerektiğidir. Jahani, istem oluşturmanın tak ve çalıştır bir beceri olmadığını söyledi. “Şirketlerin insan kaynaklarına sürekli yatırım yapması gerekiyor” dedi. “İnsanların bu teknolojilere ayak uydurması ve bunları iyi kullanmayı bilmesi gerekiyor.”
Üretken YZ’nin sağladığı kazanımlardan faydalanmak için, araştırmacılar YZ sistemlerini gerçek dünya ortamlarında daha etkili hale getirmek isteyen iş liderleri için çeşitli öncelikler sunuyor:
- Eğitime ve deneye yatırım yapın: Teknik yükseltmeler tek başına yeterli değildir. Çalışanlara YZ sistemleriyle nasıl etkileşim kuracaklarını geliştirmeleri için zaman ve destek sağlamak, tam performans kazanımlarını gerçekleştirmek için hayati önem taşır.
- Tekrar için tasarlayın: Kullanıcıları test etmeye, gözden geçirmeye ve öğrenmeye teşvik eden ve sonuçları açıkça gösteren arayüzler, zamanla daha iyi sonuçlar elde edilmesine yardımcı olur.
- Otomasyonda dikkatli olun: Otomatik istem yeniden yazma uygun olabilir, ancak kullanıcı niyetini gizler veya geçersiz kılarsa, performansı artırmak yerine engelleyebilir.
Makale ayrıca MIT Sloan PhD öğrencileri Benjamin S. Manning, SM ’24; Hong-Yi TuYe, SM ’23; ve Mohammed Alsobay, ’16, SM ’24; ile Stanford Üniversitesi PhD öğrencisi Joe Zhang, Microsoft hesaplamalı sosyal bilimci Siddharth Suri ve Kıbrıs Üniversitesi yardımcı doçenti Christos Nicolaides, SM ’11, PhD ’14 tarafından ortak yazılmıştır.




