Meta’nın yapay zeka (AI) ekibi tarafından geliştirilen V-JEPA (Video Joint Embedding Predictive Architecture – Video Ortak Gömme Tahmine Dayalı Mimari) modeli, yapay zekanın çevresini anlamlandırma ve karmaşık etkileşimleri algılama yeteneğini önemli ölçüde geliştirme potansiyeline sahip. V-JEPA, tıpkı insanların dünyayı gözlemleyerek öğrendiği gibi, videolardaki eksik veya maskelenmiş bölümleri tahmin ederek ve soyut kavramsal temsiller oluşturarak kendini geliştiriyor. Bu sayede, nesneler arasındaki incelikli etkileşimleri ayırt etme ve gelecekteki olayları öngörme konusunda oldukça başarılı sonuçlar veriyor.
V-JEPA’nın sunduğu yenilikçi yaklaşım, sadece bir araştırma modeli olmanın ötesine geçerek, yapay zekanın geleceği için heyecan verici bir pencere açıyor. Bu modelin gelecekteki gelişmeleri ve uygulamaları, robotlar ve AR gözlükleri gibi giyilebilir cihazlar aracılığıyla dünyayla daha doğal bir şekilde etkileşime girmemizi sağlayabilir. Yeni yapay zekanın sunduğu imkanlar, yapay zekanın potansiyelini ve sınırlarını yeniden tanımlamamıza yardımcı olacak.
Meta’nın V-JEPA yapay zekası nedir?
Yapay zekanın dünyayı algılama ve anlamlandırma yeteneğini geliştirmek, araştırmacıların en önemli odak noktalarından biri. Meta’nın V-JEPA modeli, bu alandaki önemli bir gelişmeyi temsil ediyor. V-JEPA, videolardaki nesneler arasındaki karmaşık etkileşimleri ayırt etme ve gelecekteki olayları öngörme konusunda oldukça başarılı sonuçlar veriyor. Bu modelin sunduğu yenilikçi yaklaşım, yapay zekanın geleceği için heyecan verici bir pencere açıyor. Robotlar ve AR gözlükleri gibi giyilebilir cihazlar aracılığıyla yapay zekanın dünyayla daha doğal bir şekilde etkileşime girmesini sağlayabilir. Honda’nın geliştirdiği Asimov’un ya da Iron Man’in Jarvis’inin yapay zeka ile tanışmasının ilk temelleri atılıyor olabilir.
Meta, sorumlu ve açık bir bilim anlayışıyla hareket ederek modeli, “Creative Commons NonCommercial” lisansı kapsamında tüm araştırmacılara ücretsiz olarak sunuyor. Böylece araştırmacılar çalışmalarında V-JEPA’yı özgürce kullanarak bu teknolojiyi farklı alanlara uyarlayabilecekler. Konuyu 4 alt başlıkta inceleyeceğiz:
- Öğrenme ve algılamada insan benzeri yaklaşım
- Nesne etkileşimlerini ayrıştırma başarısı
- İlgi çekici görsel ayrıntılara odaklanan mimari
- Geleceğe yönelik araştırma alanları
Today we’re releasing V-JEPA, a method for teaching machines to understand and model the physical world by watching videos. This work is another important step towards @ylecun’s outlined vision of AI models that use a learned understanding of the world to plan, reason and… pic.twitter.com/5i6uNeFwJp
— AI at Meta (@AIatMeta) February 15, 2024
Öğrenme ve algılamada insan benzeri yaklaşım
İnsanlar, özellikle yaşamlarının ilk evrelerinde dünyayı gözlemleyerek öğrenirler. Örneğin Newton’un üçüncü hareket yasasını düşünün; bir bebek (veya bir kedi), masadan birkaç nesneyi düşürüp sonuçlarını gözlemledikten sonra yer çekiminin etkisini sezgisel olarak anlayabilir. Bu sonuca varmak için saatlerce derse girmeye veya binlerce kitap okumaya gerek yok. İnsanın zihinsel dünya modeli bu tür sonuçları verimli bir şekilde öngörür. Meta yapay zekasını da aynı bu şekilde eğitmek istiyor.
Meta’nın Başkan Yardımcısı ve Baş Yapay Zeka Bilimcisi Yann LeCun, “V-JEPA, makinelerin daha genelleştirilmiş akıl yürütme ve planlama elde edebilmesi için dünyayı daha sağlam bir şekilde anlamalarına yönelik bir adım” diyor. LeCun ayrıca, “Amacımız, tıpkı insanlar gibi öğrenen, çevrelerindeki dünyanın iç modellerini oluşturan gelişmiş makine zekası inşa etmek. Bizim nihai hedefimiz, karmaşık görevleri tamamlamak amacıyla etkili öğrenme, uyum sağlama ve planlama faaliyetlerinde bulunabilen yapay zekalar geliştirmek” sözleriyle ekliyor.
Nesne etkileşimlerini ayrıştırma başarısı
V-JEPA, üretici olmayan bir model olma özelliği taşıyor. Bir videonun eksik veya maskelenmiş bölümlerini soyut bir temsil alanında tahmin ederek öğreniyor. Bu süreç, Meta’nın Image Joint Embedding Predictive Architecture (I-JEPA) modelinin imgeleri piksel olarak değil, soyut kavramsal temsillerle karşılaştırmasına benziyor. V-JEPA, her eksik pikseli tek tek hesaplamaya odaklanan üretici yaklaşımların aksine, öngörülemez bilgileri atma esnekliği sunuyor. Bu da mevcut modellere göre 1,5 ila 6 kat arasında bir eğitim iyileştirmesi sağlıyor.
V-JEPA, tamamen etiketlenmemiş verilerle ön eğitim alıyor, yani kendini geliştirmek için ek bir insan girdisine ihtiyaç duymuyor. Geleneksel modellerden ayrılan yeni yapay zeka, öğrenme sürecinde hem gereken etiketli örnek ihtiyacını hem de toplam çaba miktarını düşürüyor.
İlgi çekici görsel ayrıntılara odaklanan mimari
Modelin çalışma prensibinde ise videonun büyük bölümü engelleniyor. V-JEPA’ya bağlam hakkında çok sınırlı bir bilgi aktarımı yapılıyor. Sonrasında V-JEPA, eksik kalan kısımları piksel olarak değil, soyut bir tanım olarak doldurmaya çalışıyor.
Meta araştırmacıları: “Örneğin V-JEPA, yalnızca kısa bir görüntü dizisini izleyerek birinin kalemi bıraktığını, aldığını ve aslında bırakmadan sadece bırakıyormuş gibi yaptığını ayırt edebilme becerisine sahip” diyor.
Geleceğe yönelik araştırma alanları
Görüntü temelli V-JEPA modelinin başarısı, doğal olarak bu teknolojinin görsel verinin ötesine taşınması ile ilgili fikirleri akla getiriyor. Gelecekte ses gibi farklı girdilerin dahil edildiği çok modlu versiyonlar mümkün hale gelebilir.
İçerdiği ön model sayesinde bir “dünya tahmincisi”ne dönüşen V-JEPA’nın bir sonraki hedefi, karmaşık eylemleri tahmin etme ve daha uzun vadede planlama. Meta’nın açık kaynak anlayışıyla paylaşılan model, birçok farklı amaç için araştırmacılara ilham olabilir. Belki de geleceğin giyilebilir yapay zeka destekli yardımcılarını şekillendirebilecek temel teknolojilerden birini şu anda inceliyoruz, kim bilir…
Gelecekteki potansiyel uygulamaları
Yapay zekanın geleceğine yönelik muhtemel çalışma uygulamaları ise:
- Meta’nın embodied AI (Somutlaştırılmış Yapay Zeka) çalışmaları: V-JEPA’nın sağladığı bağlamsal bilgiler, robotların ve diğer yapay zeka sistemlerinin çevreleriyle daha doğal bir şekilde etkileşime girmesine yardımcı olabilir.
- Artırılmış gerçeklik (AR) gözlükleri için bağlamsal AI yardımcısı: AR gözlükleri gibi giyilebilir cihazlarda kullanıcılara gerçek zamanlı bilgi ve rehberlik sağlayabilir. Iron Man’in Jarvis’i gibi düşünebilirsin.
- Uzun vadeli planlama ve karmaşık eylem tahmini: V-JEPA, ön modelleme yeteneği sayesinde, gelecekteki olayları ve eylemleri daha iyi tahmin etme ve planlama için kullanılabilir.
Açık bilim ve iş birliğinin önemi:
Meta, V-JEPA modelini “Creative Commons NonCommercial” lisansı kapsamında araştırmacılara sunarak sorumlu ve açık bir bilim anlayışını teşvik ediyor. Bu sayede, farklı disiplinlerden araştırmacılar yapay zekayı kullanarak yeni ve inovatif uygulamalar geliştirmek için iş birliği yapabilecekler.
iPhone’da web uygulamalarına veda
V-JEPA, yapay zekanın gelişiminde önemli bir kilometre taşı olabilir. Bu modelin gelecekteki gelişmeleri ve uygulamaları, dünyayı algılama ve onunla etkileşim şeklimizi kökten değiştirebilecek potansiyele sahip gibi gözüküyor. Belki de şu anda, geleceğin giyilebilir yapay zeka destekli yardımcılarını şekillendirebilecek temel teknolojilerden birini inceliyoruz…
Sonuç olarak, bu yeni yapay zeka sadece bir araştırma modeli olmaktan öte, yapay zekanın geleceği için heyecan verici bir pencere olarak görebiliriz.
Öne çıkan kaynak görseli: Furkan Demirkaya / Meta