Geleceği şekillendiren teknolojiler alanında faaliyet gösteren araştırma şirketi OpenAI, geçtiğimiz günlerde ses kopyalama konusunda yeni bir yapay zeka (AI) modelinin ayrıntılarını paylaştı. Geliştirme aşamasında “Voice Engine” olarak isimlendirilen ve 2022’nin sonlarından bu yana üzerinde çalışılan bu model, ChatGPT’nin “Read Aloud” (Sesli Okuma) özelliğine de güç veriyor.
Ancak bu teknolojinin etik ve sorumlu bir şekilde kullanılması çok önemli. OpenAI, bu modelin kötüye kullanımının önüne geçmek için çeşitli önlemler alıyor. Buna ek olarak, ses tabanlı kimlik doğrulamasının kaldırılması ve yapay zekaca oluşturulmuş içeriklere karşı farkındalığın artırılması gibi adımlar da atılmalı.
OpenAI Voice Engine: 15 saniye yeterli
OpenAI, halihazırda “Voice Engine” adını verdiği metinden sese dönüştürme platformuna sınırlı erişim imkanı sunuyor. Platformun en dikkat çeken yönü, kişinin sesini taklit edebilecek sentetik bir ses yaratmak için sadece 15 saniyelik bir ses örneğine ihtiyaç duyması. Yapay zeka tarafından oluşturulan ses, orijinal konuşmacıyla aynı dilde veya başka dillerde metin istemlerini okuyabiliyor. OpenAI, blog yazısında, “Bu küçük ölçekli kullanımlar, yaklaşımımızı, güvenlik önlemlerimizi ve Voice Engine’in çeşitli endüstrilerde nasıl iyi amaçlarla kullanılabileceği konusundaki düşüncelerimizi şekillendirmemize yardımcı oluyor.” ifadelerine yer veriyor.
Aşağıda verilen örnekte İngilizce olarak verilen 15 saniyelik ses aynı anlama gelen İspanyolca sese kolaylıkla dönüştürülüyor. Hem Voice Engine hem de Read Aloud’un kullanılan bu örnek oldukça başarılı. Blog sayfasının içerisinde bunun gibi birçok örneğe ulaşabilirsiniz.
- Konuşma
- Yapay zeka ile dönüştürülmüş ses
Eğitimden sağlığa: Geniş uygulama alanı
Ses kopyalama teknolojisinin etik ve faydalı kullanım alanları da mevcut. Örneğin, eğitimde görme engelli öğrencilere ders kitaplarını okumak için kullanılabilir. Sağlık alanında ise konuşma engelli hastaların iletişim kurmasına yardımcı olabilir.
- Eğitim: Görme engelli öğrencilere metinleri okumak için yapay zeka tarafından kopyalanmış sesler kullanılabilir. Bu sayede öğrenciler ders kitaplarını ve diğer metinleri bağımsız olarak okuyabilirler.
- Sağlık: Konuşma engelli hastaların iletişim kurmasına yardımcı olmak için yapay zeka tarafından kopyalanmış sesler kullanılabilir. Bu sayede hastalar, doktorlar ve diğer sağlık hizmeti sağlayıcılarıyla daha kolay iletişim kurabilirler.
Aynı doğrultuda hareket eden Open AI birçok sağlık ve iletişim şirketleriyle bu aracını paylaşıyor. Eğitim teknolojisi şirketi Age of Learning, görsel hikaye anlatımı platformu HeyGen, acil sağlık hizmetleri yazılımı geliştiricisi Dimagi, yapay zeka destekli iletişim uygulaması Livox ve sağlık sistemi Lifespan bu teknolojiye erişim hakkı kazanan şirketler arasında. OpenAI’nin paylaştığı ses örneklerinde, Age of Learning’in, teknolojiyi kullanarak önceden yazılmış seslendirme içerikleri ürettiği ve GPT-4 tarafından yazılan gerçek zamanlı, kişiselleştirilmiş öğrenci yanıtlarını okuduğu duyuluyor.
Yapay zekanın metinden sese dönüştürme konusunda kaydettiği gelişmeler dikkat çekici. Çoğu çalışma enstrümantal veya doğal seslere odaklanırken, ses üretimine odaklanan çalışmaların sayısı daha az. Bunun önemli bir nedeni, OpenAI’nin da belirttiği gibi etik kaygılar ve kötüye kullanım riskleri. Podcastle ve ElevenLabs gibi şirketler bu alanda ses kopyalama teknolojileri sunuyor.
Kötüye kullanımın önüne geçmek önemli
Yapay zekanın ses kopyalama teknolojisi son yıllarda büyük bir gelişme gösterdi. Bu teknoloji, bir kişinin sesini kopyalayarak sahte seslendirmeler oluşturmak için kullanılabiliyor. Bu durum, bazı endişelere yol açıyor. ABD hükümeti, yapay zeka destekli ses teknolojisinin etik olmayan kullanımlarını engellemeye çalışıyor. Ses kopyalama teknolojisi, dolandırıcılık ve sahte haber gibi kötü amaçlarla kullanılabiliyor. Örneğin, dolandırıcılar, bir bankacının sesini taklit ederek insanları kandırabilir veya siber saldırılar gerçekleştirebilir. Politikacılar veya üst düzey yetkililerin seslerini taklit ederek yalancı açıklamalar yapmak da mümkün.
Geçtiğimiz ay, ABD Federal İletişim Komisyonu, ABD Başkanı Joe Biden‘ın yapay zeka ile kopyalanmış sesinden gelen spam aramaları engellemek amacıyla yapay zeka sesleri kullanan otomatik aramaları yasakladı.
OpenAI, ortaklarının, kişileri veya kuruluşları onların izni olmadan taklit etmek için Voice Engine’ı kullanmama ve orijinal konuşmacının açık onayını almama politikalarına uymayı kabul ettiklerini belirtiyor. Ayrıca OpenAI, üretilen sese filigran ekleyerek kaynağının izini sürüyor ve sesin nasıl kullanıldığını aktif olarak takip ediyor.
Ctrl + Altman + Del
Yapay zeka ses kopyalama teknolojisi şu an için hem riskler hem de fırsatlar sunuyor. OpenAI, ses kopyalama araçlarıyla ilgili riskleri sınırlamak için atılması gereken adımlara da değiniyor. Bunlar arasında; ses tabanlı kimlik doğrulamasının aşamalı olarak kaldırılması, yapay zekada insanların seslerinin kullanılmasını korumak için politikalar belirlenmesi, yapay zekaca oluşturulmuş içeriklere karşı farkındalığın artırılması ve yapay zekaca oluşturulmuş içeriklerin izlenmesine yönelik sistemler geliştirilmesi gibi hususlar yer alıyor.
Öne çıkan kaynak görseli: Furkan Demirkaya