VASA-1 ile konuşan fotoğraflar

Microsoft’un yeni bir yapay zeka (AI) modeli olan VASA-1, sayesinde fotoğraflarınızı videolara çevirebilmeyi ve konuşturabilmeyi vaat ediyor. Bir portre fotoğrafı ve istenilen ses dosyasıno alıp; dudak senkronizasyonu, gerçekçi yüz mimikleri ve baş hareketleriyle oldukça başarılı konuşan bir yüz videosuna dönüştürebilen VASA-1, şu anda sadece bir araştırma önizlemesi olarak ortaya çıktı.

Yeni yapay zeka şu an için sadece Microsoft araştırma ekibinin kullanım alanında, henüz kullanıma açılmış durumda değil. Fakat Microsoft, yapay zekanın nasıl çalıştığına dair demo videoları yayınladı ve bayağı etkileyici gözüküyorlar.

VASA-1 ile konuşan yüzler

Benzer dudak senkronizasyonu ve baş hareketi teknolojileri zaten Runway ve Nvidia’da mevcut. Fakat VASA-1, ağız etrafında daha az hata ile çok daha yüksek kalite ve gerçekçilik sunuyor gibi görünüyor. Bu, sesle yönlendirilen animasyon yaklaşımı, Google Araştırma’nın yakın zamanda duyurduğu VLOGGER AI modeli ile de benzerlik gösteriyor. Microsoft, bu teknolojinin gerçekten yaşayan bir insan gibi konuşan yüzlerin oluşturulması için yeni bir çerçeve olduğunu ve özellikle sanal karakterleri canlandırma amacı taşıdığını belirtiyor. Örneklerde görülen tüm insanlar sentetik olarak DALL-E tarafından üretildi. Bu teknolojinin gerçekçi bir AI imajını hareketlendirebiliyorsa, gerçek bir fotoğrafı da hareketlendirebileceği anlamına geldiğini düşünebiliriz.

Yeni yapay zekanın en etkileyici özelliklerinden biri de işleyişi için yüzün ön planda olduğu bir portre stiline ihtiyaç duymaması. Yayınlanan demonstrasyonlarda (gösteri/gösterim), sanki film çekiliyormuş gibi konuşan insanları görüyoruz; videolarda hafifçe bir sarsıntı var fakat bunun dışında doğal görünümlü hareketler etkileyici gözüküyor. Dudak senkronizasyonu ise son derece uyumlu, diğer araçlarda görülen ağız üstü ve altındaki hatalara rastlanmıyor.

VASA-1’in potansiyel kullanım alanları nelerdir?

Yeni yapay zeka teknolojisinin en açık kullanım alanlarından biri, oyunlardaki ileri düzey dudak senkronizasyonu olabilir. Doğal dudak hareketine sahip yapay zeka destekli NPC’ler (oyuncu olmayan karakter) yaratmak, oyunları daha zevkli hale getirebilir ve ileri yönlü değiştirici bir unsur olabilir. Aynı zamanda sosyal medya videoları için sanal avatarlar yaratmakta da kullanılabilir.

HeyGen ve Synthesia gibi şirketlerden zaten bu konu üzerinde çalışıyorlar ve yayınladıkları teknolojiler de mevcut durumda. Bir başka alan ise AI destekli film yapımıları olabilir. Özellike OpenAI’ın Sora’sı AI destekli filmlerin uzak bir gelecekte olmadığını bize kanıtladı. Sora ile beraber VASA-1’de kullanıldığında yakın sahneler, mimikler ve konuşmalar da rahatlıkla eklenebilecek seviyeye gelecek gibi gözüküyor.

Öte yandan VASA-1’in geleceği belirsiz. Şu an için paylaşılan bilgilerin sadece bir araştırma demonstrasyonu olduğunu ve halka açık bir sürümü veya hatta geliştiricilere ürünlerinde kullanımları için sunma planlarının olmadığı ekip tarafından belirtiliyor.

Bu yazımız da ilginizi çekebilir:
Teknoloji ile değişen spor, ruhunu koruyabilecek mi?

Microsoft’un çıkarttığı bu yapay zekanın getirdiği yeniliklerin ışığında, bu teknolojinin yalnızca araştırma amaçlı kalmasının büyük bir kayıp olacağını düşünmekle birlikte, geliştiriciler için bile olsa kamu alanına çıkmasını dört gözle bekliyoruz. Microsoft’un OpenAI’da büyük bir payı olduğu göz önüne alındığında, bu, gelecekte bir Copilot Sora entegrasyonunun parçası bile olabilir.

Öne çıkan kaynak görseli: Microsoft VASA-1

Microsoft'un VASA-1 yapay zekası, fotoğrafları konuşturarak ve gerçekçi videolara dönüştürerek iletişimi ve içerik oluşturmayı dönüştürme potansiyeline sahip.

İLGİLİ YAZILAR

Google Gemini artık önemli bilgileri hatırlayabiliyor

OpenAI, GPT-4o modelini güncelleyerek yaratıcılığı artırdı

Microsoft, bulut tabanlı Windows 365 Link cihazını tanıttı

Google’ın tarayıcı ve reklam imparatorluğu sarsılabilir!

SON YAZILAR

Samsung Galaxy Ring Türkiye’de satışa sunuldu

Google Gemini artık önemli bilgileri hatırlayabiliyor

WhatsApp işletme mesajlarını kontrol altına alıyor!

Facebook Messenger’a yeni özellikler eklendi

Threads kullanıcıların özel akışlar oluşturmasına imkan tanıyor

OpenAI, GPT-4o modelini güncelleyerek yaratıcılığı artırdı

Apple, yeni beta sürümleriyle performans iyileştirmeleri sunuyor

Instagram, içerik önerilerini sıfırlama seçeneği sunmaya hazırlanıyor

Apple’dan Mac kullanıcıları için kritik güvenlik uyarısı: Cihazlarınızı derhal güncelleyin!

Facebook reklamlarıyla yayılan sahte Bitwarden uzantılarına dikkat!

SON REHBERLER

Telegram’da sticker nasıl yapılır?

Tüm Binance Crypto WODL 6 harfli kelimeleri

Instagram linkleri açılmıyor: Nasıl düzeltilir?

Kripto güvenliği 101: Dijital varlıklarınızı korumak için en iyi uygulamalar

2024’ün en iyi parola yöneticileri ve özellikleri

WatchOS 11’de Aktivite Halkaları nasıl durdurulur?

Google yerine ChatGPT Search nasıl kullanılır?

AirPods bağlantı sorunları nasıl çözülür?

En iyi oyun monitörleri rehberi

Oyun bilgisayarı için doğru anakart nasıl seçilir?

© 2019 Digital Report bir Linkmedya markasıdır.