Google’ın yapay zeka destekli sohbet uygulaması Gemini’ın Android beta sürümünde, ses dosyalarını sohbetlere ekleme özelliği tespit edildi. Henüz tam olarak çalışmasa da, bu özellik ses dosyalarını MP3 formatında yüklemeye olanak tanıyor.
Google uygulamasının beta sürümü 16.30.59.sa.arm64’te tespit edilen bu yeni dosya ekleme özelliği, kullanıcılara sohbetlere ses dosyaları yükleme imkanı sunuyor. Bir ses dosyası eklendiğinde “Bunun hakkında canlı konuş” şeklinde bir öneri beliriyor.
Ancak, özelliğin henüz tam olarak işlevsel olmadığı belirtiliyor. Yüklenen ses dosyalarına Gemini’ın anlamlı bir yanıt vermediği, bazen ses dosyasını tamamen göz ardı ettiği, bazen de dosya hakkında yanlış bilgiler ürettiği gözlemlendi. Bu durum, sohbet robotlarının “halüsinasyon” olarak bilinen yanıltıcı bilgi üretme eğilimlerinin bir parçası olarak değerlendiriliyor.
Geliştirici tarafında ise Gemini API’si zaten ses girişini destekliyor. Bu API üzerinden ses dosyaları Gemini’ya gönderilerek içeriğin tanımlanması, özetlenmesi veya transkripsiyonu istenebiliyor. Ayrıca, 2.30’dan 3.29’a kadar gibi zaman damgası isteklerini de işleyebiliyor ve MP3, WAV, FLAC gibi formatları destekliyor.
Android uygulamasındaki bu yeni özelliğin, API’deki mevcut ses işleme yeteneklerinin mobil uygulamaya entegrasyonuna yönelik bir çalışma olduğu düşünülüyor. Şu an için bir “yer tutucu” niteliğinde olan bu özelliğin ne zaman veya tam olarak ne zaman kullanıma sunulacağı belirsizliğini koruyor.
Yine de, Gemini uygulamasında görüntü yükleme özelliğinin yaygın olarak kullanılabilir olması, ses desteğinin mantıklı bir sonraki adım olacağını gösteriyor. Google’ın bu özelliği geliştirerek kullanıcı deneyimini daha da zenginleştirmesi bekleniyor.




