Meta Platforms, yapay zeka modelleri Segment Anything Koleksiyonu’na SAM 3 ve SAM 3D’yi eklediğini duyurdu. Bu modeller, metin tabanlı nesne algılama ve üç boyutlu yeniden yapılandırma özelliklerini getirerek video düzenleme ve içerik oluşturma süreçlerini dönüştürmeyi hedefliyor. Önceki modellere göre, kullanıcılar artık manuel seçim yerine doğal dil komutları ile nesneleri tespit edip ayırabiliyor.
SAM 3, “sarı okul otobüsü” veya “oturan insanlar, ancak kırmızı beyzbol şapkası takmayanlar” gibi metin ifadeleriyle nesne örneklerini belirleyebiliyor. SAM 3D ise tek bir görüntüden nesneler, insanlar ve sahnelerin üç boyutlu modellerini oluşturuyor. Meta’nın araştırma belgesine göre, SAM 3 LVIS kıyaslamasında sıfır atış maske ortalama hassasiyetinde 47,0 puana ulaşıyor; bu, mevcut sistemlere kıyasla %22 iyileşme sağlıyor.
Model, H200 GPU’larda çerçeve başına yaklaşık 30 milisaniye işlem süresiyle 100’den fazla nesneyi aynı anda yönetebiliyor. Meta, geliştiricilerin veri etiketlemesi, ince ayar yapması ve SAM 3’ü özel uygulamalar için dağıtmasını kolaylaştırmak üzere Roboflow ile ortaklık kurdu. “SAM 3 bu sınırlamayı aşar ve çok daha geniş bir metin komutu yelpazesini kabul eder” diye belirtti Meta duyurusuna.
Her iki model de teknik uzmanlık gerektirmeyen Segment Anything Playground platformu üzerinden erişilebilir durumda. Meta, SAM 3 için model ağırlıklarını, değerlendirme kıyaslamalarını ve araştırma belgelerini yayınlıyor. SAM 3D için ise model kontrol noktalarını ve çıkarım kodunu araştırma topluluğuyla paylaşıyor.
SAM 3, Meta’nın Edits video oluşturma uygulamasında ve Vibes platformunda yeni efektleri güçlendirecek; yaratıcılar, içeriklerindeki belirli nesnelere değişiklikler uygulayabilecek. SAM 3D, Facebook Marketplace’teki yeni “View in Room” özelliğini etkinleştirerek kullanıcıların mobilya ve ev dekorasyon ürünlerini kendi alanlarında görselleştirmesine yardımcı olacak.




