Microsoft’un metin-konuşma sentezi üzerine geliştirdiği Microsoft VALL-E, şirket tarafından yayınlanan bir makalede duyuruldu. Ses modeli, verilen girdiyi işlemek için yalnızca 3 saniyelik bir ses dosyası gerektiriyor.
Ara temsiller olarak ses kodek kodlarından yararlanan metinden konuşmaya sentez (TTS) için yeni bir dil modeli yaklaşımı olan Microsoft VALL-E, Microsoft tarafından piyasaya sürüldü. Bu model, 60.000 saatlik İngilizce konuşma verisi üzerinde önceden eğitilmiş ve ardından sıfır çekim koşullarında bağlam içi öğrenme yeteneklerini sergiledi.
Microsoft VALL-E, sadece üç saniyelik bir konuşma kaydıyla kişiselleştirilmiş konuşma üretebiliyor. Bunu ek yapısal mühendisliğe, önceden tasarlanmış akustik özelliklere veya ince ayarlara ihtiyaç duymadan yapıyor. Bağlamsal öğrenme modelini ve istem tabanlı sıfır vuruşlu TTS yaklaşımlarını destekliyor. Microsoft, konuşmacı boyutunda genelleştirilmiş bir TTS sistemi oluşturmak için önemli miktarda yarı denetimli veri kullandığından, TTS için yarı denetimli verilerin ölçeklendirilmesinden yeterince yararlanılmadığı görülüyor.
VALL-E nedir, neler yapabilirsiniz?
Araştırmacılara göre Microsoft VALL-E, “önceden var olan bir nöral ses kodek modelinden türetilen” ayrık kodlar kullanılarak eğitilmiş bir “nöral kodek dil modeli”. Açıklamaya göre, “mevcut sistemlerden yüzlerce kat daha fazla” olan 60 bin saatlik konuşma üzerinde eğitildi. Bu örnekler, insan konuşmasını gerçekçi bir şekilde taklit edebilen yapay zeka bir süredir var olmasına rağmen, çok açık bir şekilde robot olan önceki girişimlerin aksine ikna edicidir.
Araştırmacılara göre Microsoft VALL-E “konuşmacının duygularını ve işitsel ortamını koruyabiliyor”. Her ne kadar etkileyici olsa da, bir performans sırasında uygun tonu ve duyguyu bulmak farklı olduğundan, teknoloji hala seslendirme sanatçılarının yerini almaktan çok uzak. Microsoft VALL-E’nin gelişmiş bir versiyonu bile yetenekli bir profesyonel kadar iyi performans gösteremeyecek, ancak işletmeler genellikle kaliteden ziyade maliyet etkinliğine öncelik veriyor.
Microsoft’un GitHub demosunda bazı örnekleri dinleyebilirsiniz.
Yapay zeka görsel çılgınlığı: DALL-E 2
Microsoft VALL-E özellikleri
Microsoft VALL-E çok yeni olmasına rağmen, halihazırda birçok özelliğe sahip.
- Çeşitliliğin sentezi: Microsoft VALL-E örnekleme tabanlı tekniği kullanarak ayrık belirteçler ürettiğinden, çıktısı aynı giriş metni için değişiyor. Bu sebeple, çeşitli rastgele tohumlar kullanarak farklı kişiselleştirilmiş konuşma örnekleri sentezleyebilir.
- Akustik ortam bakımı: Microsoft VALL-E, konuşmacı isteminin akustik ortamını korurken özelleştirilmiş konuşma sağlayabilir. Temel ile karşılaştırıldığında, VALL-E daha fazla akustik değişkene sahip büyük bir veri kümesi üzerinde eğitilmiştir. Ses ve transkripsiyonlar Fisher veri kümesindeki örnekler kullanılarak üretilmiştir.
- Konuşmacının duygu bakımı: Microsoft VALL-E, Duygusal Sesler Veritabanını bir kaynak olarak kullanarak, örneğin sesli komutlar, konuşmacı komutunun duygusal tonunu korurken özelleştirilmiş konuşma oluşturabiliyor. Geleneksel yaklaşımlar, konuşmayı transkripsiyonla ve denetimli bir duygusal TTS veri kümesindeki bir duygu etiketiyle ilişkilendirerek bir modeli eğitiyor. VALL-E, sıfır çekim durumunda bile komut istemindeki duyguyu koruyabiliyor.
Microsoft VALL-E’nin hala model yapısı, veri kapsamı ve sentez sağlamlığı ile ilgili sorunları var.
Microsoft VALL-E nasıl çalışır?
Microsoft, VALL-E’nin sentezleme becerilerini eğitmek için Meta tarafından bir araya getirilen bir ses kütüphanesi olan LibriLight’ı kullandı. 60.000 saatlik İngilizce konuşmanın çoğu LibriVox kamu malı sesli kitaplardan alınmış ve 7000’den fazla kişi tarafından konuşuldu. VALL-E’nin tatmin edici bir sonuç alabilmesi için üç saniyelik örnekteki sesin eğitim verilerindeki bir sese çok benzemesi gerekiyor.
Microsoft, VALL-E örnek sayfasında yapay zeka modelinin iş başında olduğu düzinelerce ses örneği sunuyor. Örneklerden biri olan “Konuşmacı İstemi”, VALL-E’ye taklit etmesi söylenen üç saniyelik sestir. “Ground Truth”, bu konuşmacıdan daha önce kaydedilmiş ve bir ölçüt olarak kullanılan bir alıntıdır (bir nevi deneydeki “kontrol” gibi). “VALL-E” seçeneği, VALL-E modelinden elde edilen çıktıdır ve “Baseline” örneği, geleneksel bir metinden konuşmaya sentezleme yaklaşımıyla üretilen bir sentez örneğidir.
Böylelikle VALL-E hakkında hazırladığımız yazımızın sonuna geldik. Bu arada, Microsoft’un yapay zeka destekli arama motoru üzerinde çalıştığını biliyor muydunuz? Detaylar için ilgili yazımıza göz atabilirsiniz. Digital Report ekibi olarak keyifli okumalar dileriz…