Alibaba’nın Akıllı Bilişim Enstitüsü’ndeki araştırmacılar, “EMO” adlı yeni bir yapay zeka sistemi geliştirdiler. “Emote Portrait Alive“ın kısaltması olan bu sistem, tek bir portre fotoğrafını canlandırıp kişinin konuştuğu veya şarkı söylediği, şaşırtıcı derecede gerçekçi videolar oluşturabiliyor.
arXiv’de yayınlanan bir araştırma makalesinde tanımlanan sistem, sağlanan bir ses parçasının nüanslarına yakından uyan akıcı ve etkileyici yüz hareketleri ile kafa pozları oluşturabiliyor. Bu, yapay zekâ araştırmacılarını yıllardır zorlayan ses odaklı yüz videosu oluşturma alanında önemli bir ilerlemeyi temsil ediyor.
Sesler videoya dönüşüyor
EMO sistemi, gerçekçi sentetik görüntüler oluşturma konusunda muazzam yetenek göstermiş bir AI tekniği olan difüzyon modelini kullanıyor. Araştırmacılar, modeli 250 saatten fazla konuşma, film, TV şovu ve şarkı performanslarından oluşan bir veri seti üzerinde eğittiler.
Yüz hareketlerini tahmin etmek için 3D yüz modellerine veya harmanlama şekillerine dayanan önceki yöntemlerin aksine, EMO doğrudan ses dalga biçimini video karelerine dönüştürüyor. Bu sistemin, doğal konuşmayla ilişkili ince hareketleri ve kimliğe özgü özellikleri yakalamasını sağlıyor.
EMO’nun sunduğu yenilikler:
- Gerçekçi konuşma videoları: EMO, tek bir fotoğraftan yola çıkarak, kişinin ses tonuna ve duygularına uyumlu, oldukça gerçekçi konuşma videoları oluşturabiliyor.
- Etkileyici şarkı performansları: EMO’nun yeteneği sadece konuşmayla sınırlı değil. Sistem, şarkı videoları da üretebiliyor. Vokallere senkronize ağız hareketleri ve duygusal yüz ifadeleri ile etkileyici performanslar yaratabiliyor.
- Kolay kullanım: EMO’yu kullanmak oldukça basit. Tek ihtiyacınız olan bir fotoğraf ve ses kaydı. Sistem, gerisini sizin için halloluyor.
Gerçekçi şarkı videoları oluşturuyor
EMO, sohbet videolarının ötesinde vokallere senkronize uygun ağız şekilleri ve çağrıştırıcı yüz ifadeleriyle şarkı portrelerini de canlandırabilir. Sistem, giriş sesinin uzunluğuna göre keyfi bir süre için video oluşturmayı destekler.
EMO’nun potansiyel uygulama alanları:
- Eğitim: EMO, uzaktan eğitim materyalleri veya interaktif ders içerikleri oluşturmak için kullanılabilir.
- Eğlence: Kişiselleştirilmiş avatarlar ve sanal karakterler yaratmak için kullanılabilir.
- Sosyal Medya: Daha etkileyici ve duygusal içerikler üretmek için kullanılabilir.
- Pazarlama: Ürün ve hizmetleri tanıtmak için ilgi çekici videolar oluşturmak için kullanılabilir.
Belirttiğimiz üzere EMO’nun araştırması, kişiselleştirilmiş video içeriğinin yalnızca bir fotoğraf ve ses klibinden sentezlenebileceği bir geleceğe işaret ediyor. Ancak bu tür bir teknolojinin, insanların rızası olmadan taklit edilmesi veya yanlış bilgilerin yayılması için olası kötüye kullanımı konusunda etik kaygılar devam ediyor. Araştırmacılar, sentetik videoları tespit edecek yöntemler keşfetmeyi planladıklarını söylüyorlar.
EMO’nun etik açıdan da bazı önemli sorulara yol açtığı unutulmamalı. Örneğin, bu teknoloji deepfake videolar oluşturmak için kullanılabilir mi? Bu videoların yayılmasıyla nasıl mücadele edilecek? Bu soruların cevabı, EMO’nun geleceği ve toplum üzerindeki etkisi için belirleyici olacak.
Apple, elektrikli otonom araç projesini iptal etti
EMO, yapay zeka ve video teknolojisi alanında video oluşturma popüleritesine katıldı gibi gözüküyor. Bu yapay zekanın video oluşturma sistemi, gelecekte birçok farklı alanda kullanılacağına ve dünyayı birçok yönden etkileyeceğine inanıyoruz.
Öne çıkan kaynak görseli: rawpixel.com / freepik