Bir yapay zeka ajanının, buluta veri göndermeden, doğrudan kendi cihazımızda bizim için internette gezindiğini, form doldurduğunu veya rezervasyon yaptığını hayal edin. Microsoft Research, tam da bu vizyonu hayata geçirmek için tasarladığı yeni yapay zeka modeli Fara-7B‘yi duyurdu. 7 milyar parametreli bu “küçük” dil modeli, bilgisayar kullanımı için özel olarak geliştirilmiş bir “ajan” olarak çalışıyor ve yapay zeka ile etkileşimimizi kökten değiştirmeyi vaat ediyor.
Açık kaynak ağırlıklı (open weight) olan Fara-7B, ekran görüntülerinden öğreniyor, fare ve klavye eylemlerini tahmin ediyor ve en önemlisi, tek bir kullanıcı cihazında çalışabilecek kadar küçük. Bu da daha düşük gecikme süresi ve daha yüksek gizlilik anlamına geliyor.
Sohbet botlarından bilgisayar kullanım ajanlarına geçiş
Geleneksel sohbet odaklı büyük dil modelleri (LLM’ler) size metin tabanlı yanıtlar verir. Fara-7B gibi “Bilgisayar Kullanım Ajanları” (Computer Use Agents) ise bunun bir adım ötesine geçerek, form doldurmak, seyahat rezervasyonu yapmak veya fiyat karşılaştırmak gibi görevleri tamamlamak için tarayıcıyı veya masaüstü kullanıcı arayüzünü doğrudan kontrol eder. Ekranda ne olduğunu algılar, sayfa düzeni hakkında akıl yürütür ve ardından tıklama, kaydırma, yazma veya web’de arama yapma gibi düşük seviyeli eylemler gerçekleştirir.
Mevcut birçok sistem, karmaşık bir yapı içinde çalışan ve birden çok aracı yöneten büyük çok modlu modellere dayanır. Bu, gecikmeyi artırır ve genellikle sunucu tarafında bir dağıtım gerektirir. Fara-7B ise, bu tür çoklu ajan sistemlerinin davranışını, Qwen2.5-VL-7B üzerine inşa edilmiş tek bir çok modlu modele sıkıştırır.
FaraGen: Yapay zeka ajanını eğitmek için sentetik veri üretimi
Bilgisayar Kullanım Ajanları için en büyük darboğaz, eğitim verisidir. İnsanların çok adımlı web etkileşimlerini içeren yüksek kaliteli kayıtları nadir ve toplanması pahalıdır. Fara projesi, bu sorunu çözmek için canlı siteler üzerinde web etkileşim yörüngeleri üreten ve filtreleyen bir sentetik veri motoru olan FaraGen‘i sunuyor.
FaraGen, üç aşamalı bir süreç kullanır:
- Görev önerme: E-ticaret, seyahat, eğlence gibi alanlardan gelen web siteleri için, büyük dil modelleri o sayfada kullanıcıların deneyebileceği gerçekçi görevler (örneğin belirli bir filmin biletini rezerve etmek) oluşturur.
- Görev çözme: Çoklu ajan sistemi, bu görevleri tamamlamak için bir tarayıcıda adımlar atar (tıklama, yazma, kaydırma vb.).
- Yörünge doğrulama: Üç farklı LLM tabanlı doğrulayıcı, ajanın eylemlerinin ve nihai cevabının görevin amacına uyup uymadığını kontrol eder.
Bu süreç sonunda FaraGen, 70.117 farklı alanda 145.603 doğrulanmış yörünge ve 1 milyondan fazla adım içeren devasa bir eğitim veri seti elde etti.
Benchmark performansı ve verimlilik
Microsoft, Fara-7B’yi dört farklı canlı web benchmark’ında değerlendirdi ve sonuçlar oldukça etkileyici. Fara-7B, 7 milyar parametreli bir model olmasına rağmen, kendisinden çok daha büyük ve karmaşık olan OpenAI’ın “computer-use-preview” ve GPT-4o üzerine kurulu SoM Agent gibi sistemlerle rekabet edebilen veya bazı durumlarda onları geride bırakan sonuçlar elde etti.
En önemlisi ise verimlilik. Araştırma ekibi, Fara-7B’nin görev başına ortalama maliyetinin yaklaşık 0,025 dolar olduğunu tahmin ediyor. Bu, GPT-5 gibi tescilli akıl yürütme modellerine dayanan SoM ajanlarının görev başına yaklaşık 0,30 dolarlık maliyetine kıyasla on kat daha ucuz olduğu anlamına geliyor.
Yerel ve gizlilik odaklı yapay zeka ajanlarına doğru bir adım
Fara-7B, yerel donanımda daha düşük bir maliyetle çalışabilen ve aynı zamanda gizliliği koruyan pratik Bilgisayar Kullanım Ajanlarına doğru atılmış önemli bir adımdır.
Microsoft’un bu çalışması, büyük ve pahalı sistemlere rakip olabilecek, daha küçük, daha verimli ve daha erişilebilir yapay zeka ajanlarının mümkün olduğunu gösteriyor. Bu, yapay zekanın gelecekte bilgisayarlarımızla nasıl etkileşim kuracağımıza dair heyecan verici bir vizyon sunuyor.




