Microsoft, yapay zeka ajanlarının otonom alışveriş yeteneklerini test etmek için sanal bir ekonomi oluşturdu. Araştırma, Arizona State Üniversitesi ile işbirliği içinde yürütüldü ve Magentic Marketplace olarak adlandırıldı. Bu çalışmada 100 müşteri tarafı yapay zeka ajanı, 300 iş tarafı ajana karşı günlük senaryolarda, örneğin akşam yemeği siparişi vermek gibi görevlerde karşılaştırıldı.
Ajanlara 100 arama sonucu sunulduğunda, önde gelen yapay zeka modelleri seçenekleri karşılaştırmakta başarısız oldu. Bunun yerine ilk “yeterince iyi” sonucu seçtiler. Araştırmacılar bu duruma “ilk teklif yanlılığı” adını verdi ve yanıt hızının kaliteye göre 10-30 kat avantaj sağladığını belirtti. Ajanların “refah puanı” ise arama sonuçlarının aşırı yükü altında çöktü.
Microsoft, kötü niyetli satıcıların ajanların sanal paralarını ele geçirebilme olasılığını incelemek için altı manipülasyon stratejisi test etti. Bu stratejiler arasında sahte kimlik bilgileri, sosyal kanıt, komut enjeksiyonu saldırıları ve otorite çağrıları yer aldı. OpenAI’ın GPT-4o modeli ile açık kaynaklı GPTOSS-20b modeli tamamen savunmasız kaldı; tüm ödemeler kötü niyetli ajanlara yönlendirildi.
Alibaba’nın Qwen3-4b modeli ise otorite çağrıları gibi temel ikna tekniklerine karşı koyamadı. Claude Sonnet 4 modeli ise bu manipülasyon girişimlerine direndi ve tek başarılı örnek oldu. Araştırma, yapay zeka ajanlarının dolandırıcılıklara karşı hassasiyetini ortaya koydu.
Ajanlar ortak hedeflere ulaşmak için işbirliği yapmaya zorlandığında, rollerini belirleyemedi veya etkili bir şekilde koordine edemedi. Performans, yalnızca adım adım insan rehberliği verildiğinde iyileşti. Bu durum, otonom ajanların amacını baltalıyor.
Microsoft, ajanların insan karar verme sürecini desteklemesi gerektiğini, yerine geçmemesi gerektiğini vurguladı. Araştırma, denetimli otonomi yaklaşımını önerdi; ajanlar görevleri yönetirken insanlar son kararları incelemeli ve kontrol etmeli. Bulgular, OpenAI’ın Operator ve Anthropic’in Claude ajanlarının web sitelerinde gezinme ve denetimsiz satın alma vaatlerini erken buldu.
Bu arada, yapay zeka ajanlarının sorumsuz davranışı endişeleri artırıyor. Amazon, Perplexity AI’a Comet tarayıcısının Amazon sitesinde kullanımını durdurması için bir ihtar mektubu gönderdi. Şirket, ajanın insan alışverişçileri taklit ederek hizmet şartlarını ihlal ettiğini ve müşteri deneyimini bozduğunu iddia etti.
Perplexity AI, Amazon’un hamlesini “yasal blöf” olarak nitelendirdi. Şirket, kullanıcıların bağımsız dijital asistanlar kullanma hakkını savundu ve platform kontrollü olanlara bağımlı kalmamaları gerektiğini belirtti. Bu olay, yapay zeka şirketleri ile perakende devleri arasındaki gerilimi yansıtıyor.
Araştırmada kullanılan açık kaynaklı simülasyon ortamı GitHub’da yayınlandı. Diğer araştırmacılar deneyleri yeniden üretebilir. Microsoft’un çalışması, otonom yapay zeka alışverişinin henüz olgunlaşmadığını gösteriyor.




