Nvidia imzalı yeni yapay zeka sözü kesilince susup dinliyor • Digital Report

Nvidia araştırmacıları sesli yapay zeka teknolojisinde yeni bir sayfa açan PersonaPlex-7B-v1 modelini tanıttı. Klasik asistanların aksine tam çift yönlü çalışan bu yeni sistem, gerçek zamanlı ve kesintisiz iletişim sunuyor. Kullanıcının sözünü kesmesine olanak tanıyan model, insani diyalogların doğallığını dijital dünyaya taşıyor.

Gecikme yaratan eski mimari tarihe karışıyor

Geleneksel sesli asistanlar sesi önce metne çevirip, yanıtı üretip, sonrasında tekrar sese dönüştüren çok aşamalı bir yapı kullandığı için iletişimde kopukluklar yaşanıyordu. PersonaPlex bu zinciri tek bir Transformer modeli içinde birleştirerek ortadan kaldırıyor. Metin ve ses verilerini eş zamanlı işleyen sistem, kullanıcının konuşurken araya girmesine, sözünü kesmesine veya üst üste konuşmasına anında adapte olarak doğal bir sohbet akışı sağlıyor.

Model sinirsel bir codec ile kodlanmış sürekli ses akışı üzerinde çalışıyor ve kullanıcı konuşurken dinlemeye devam ederek söz kesildiğinde yanıtını anında uyarlayabiliyor.

Gerçek telefon görüşmeleriyle eğitildi

Toplam 7 milyar parametreye sahip olan PersonaPlex, Moshi mimarisi ve Nvidia Helium dil modeli üzerine inşa edildi. Modelin eğitiminde yaklaşık 1.200 saatlik gerçek telefon görüşmeleri ve binlerce saatlik sentetik diyalog verisi harmanlandı. Bu süreç, modele yapay zeka seslerinde genellikle eksik olan doğal duraksamalar, duygusal tepkiler ve dolgu sesleri gibi insani nüansları kazandırdı. Nvidia, teknolojiyi yaygınlaştırmak adına model kodlarını MIT lisansı, ağırlıklarını ise açık model lisansı ile geliştiricilere sundu.