Microsoft, yapay zeka alanındaki yeniliklerine bir yenisini ekleyerek, canlı sesleri gerçek zamanlı görsellere dönüştüren bir sistemin patentini almak için başvuruda bulundu. ABD Patent ve Marka Ofisi (USPTO) tarafından 10 Ekim 2024’te yayımlanan bu 20 sayfalık belge, toplantı veya ders gibi aktif konuşulan oturumlarda konuşulanların kayıtlarını anında ekranda görsellerle destekleyen bir yapay zeka teknolojisini ortaya çıkardı.
Gerçek zamanlı görsel üretim
5 Nisan 2023’te dosyalanan bu sistem, canlı ses akışını metin transkriptine dönüştürüyor ve ardından büyük bir dil modeli (LLM) ile bu transkriptleri özetliyor. Elde edilen özet, bir yapay zeka destekli metinden görsele modeline aktarılıyor ve böylece gerçek zamanlı olarak ilgili görseller ekranda görüntüleniyor. Konuşma ilerledikçe, görseller de buna paralel olarak değişiyor ve konuşulan konuları görsel olarak destekliyor.
İletişim ve öğrenmeyi güçlendirme
Microsoft’a göre, sözlü iletişime görseller eklemek, kavramların daha iyi anlaşılmasına yardımcı olabilir. Görsel destekler, sunumları hem daha ilgi çekici hale getiriyor hem de karmaşık bilgilerin daha kolay kavranmasını sağlıyor. Bu özellikle, görsel öğrenmeye yatkın kişiler için büyük fayda sağlayabilir. Teknolojinin kullanıma sunulması halinde, özellikle iş dünyasında yaygın olarak kullanılan Microsoft Teams gibi platformlarda büyük bir etki yaratması bekleniyor.
Copilot entegrasyonu
Yeni teknoloji, Microsoft Teams’e Copilot yapay zeka eklentisi aracılığıyla entegre edilebilir. İş dünyasına yönelik Copilot Pro ve Microsoft 365 Copilot paketleri, zaten Microsoft’un Word, PowerPoint gibi uygulamalarında üretkenliği artırmaya yönelik yapay zeka araçları sunuyor. Ancak teknoloji dünyasında, her patentin bir ürüne dönüşmediği sıkça görülüyor. Bu yüzden, Microsoft’un bu özelliği gerçeğe dönüştürüp dönüştürmeyeceği belirsizliğini koruyor.
Öne çıkan görsel: Microsoft
İç görseller: USPTO belgesi