Microsoft’un yeni bir yapay zeka (AI) modeli olan VASA-1, sayesinde fotoğraflarınızı videolara çevirebilmeyi ve konuşturabilmeyi vaat ediyor. Bir portre fotoğrafı ve istenilen ses dosyasıno alıp; dudak senkronizasyonu, gerçekçi yüz mimikleri ve baş hareketleriyle oldukça başarılı konuşan bir yüz videosuna dönüştürebilen VASA-1, şu anda sadece bir araştırma önizlemesi olarak ortaya çıktı.
Yeni yapay zeka şu an için sadece Microsoft araştırma ekibinin kullanım alanında, henüz kullanıma açılmış durumda değil. Fakat Microsoft, yapay zekanın nasıl çalıştığına dair demo videoları yayınladı ve bayağı etkileyici gözüküyorlar.
VASA-1 ile konuşan yüzler
Benzer dudak senkronizasyonu ve baş hareketi teknolojileri zaten Runway ve Nvidia’da mevcut. Fakat VASA-1, ağız etrafında daha az hata ile çok daha yüksek kalite ve gerçekçilik sunuyor gibi görünüyor. Bu, sesle yönlendirilen animasyon yaklaşımı, Google Araştırma’nın yakın zamanda duyurduğu VLOGGER AI modeli ile de benzerlik gösteriyor. Microsoft, bu teknolojinin gerçekten yaşayan bir insan gibi konuşan yüzlerin oluşturulması için yeni bir çerçeve olduğunu ve özellikle sanal karakterleri canlandırma amacı taşıdığını belirtiyor. Örneklerde görülen tüm insanlar sentetik olarak DALL-E tarafından üretildi. Bu teknolojinin gerçekçi bir AI imajını hareketlendirebiliyorsa, gerçek bir fotoğrafı da hareketlendirebileceği anlamına geldiğini düşünebiliriz.
Yeni yapay zekanın en etkileyici özelliklerinden biri de işleyişi için yüzün ön planda olduğu bir portre stiline ihtiyaç duymaması. Yayınlanan demonstrasyonlarda (gösteri/gösterim), sanki film çekiliyormuş gibi konuşan insanları görüyoruz; videolarda hafifçe bir sarsıntı var fakat bunun dışında doğal görünümlü hareketler etkileyici gözüküyor. Dudak senkronizasyonu ise son derece uyumlu, diğer araçlarda görülen ağız üstü ve altındaki hatalara rastlanmıyor.
VASA-1’in potansiyel kullanım alanları nelerdir?
Yeni yapay zeka teknolojisinin en açık kullanım alanlarından biri, oyunlardaki ileri düzey dudak senkronizasyonu olabilir. Doğal dudak hareketine sahip yapay zeka destekli NPC’ler (oyuncu olmayan karakter) yaratmak, oyunları daha zevkli hale getirebilir ve ileri yönlü değiştirici bir unsur olabilir. Aynı zamanda sosyal medya videoları için sanal avatarlar yaratmakta da kullanılabilir.
HeyGen ve Synthesia gibi şirketlerden zaten bu konu üzerinde çalışıyorlar ve yayınladıkları teknolojiler de mevcut durumda. Bir başka alan ise AI destekli film yapımıları olabilir. Özellike OpenAI’ın Sora’sı AI destekli filmlerin uzak bir gelecekte olmadığını bize kanıtladı. Sora ile beraber VASA-1’de kullanıldığında yakın sahneler, mimikler ve konuşmalar da rahatlıkla eklenebilecek seviyeye gelecek gibi gözüküyor.
Öte yandan VASA-1’in geleceği belirsiz. Şu an için paylaşılan bilgilerin sadece bir araştırma demonstrasyonu olduğunu ve halka açık bir sürümü veya hatta geliştiricilere ürünlerinde kullanımları için sunma planlarının olmadığı ekip tarafından belirtiliyor.
Teknoloji ile değişen spor, ruhunu koruyabilecek mi?
Microsoft’un çıkarttığı bu yapay zekanın getirdiği yeniliklerin ışığında, bu teknolojinin yalnızca araştırma amaçlı kalmasının büyük bir kayıp olacağını düşünmekle birlikte, geliştiriciler için bile olsa kamu alanına çıkmasını dört gözle bekliyoruz. Microsoft’un OpenAI’da büyük bir payı olduğu göz önüne alındığında, bu, gelecekte bir Copilot Sora entegrasyonunun parçası bile olabilir.
Öne çıkan kaynak görseli: Microsoft VASA-1