Gemini artık ses dosyalarını işleyebiliyor
Yapay Zeka

Google Gemini artık ses dosyalarını işleyebiliyor

Google’ın yapay zeka asistanı Gemini, kullanıcıların en çok talep ettiği özelliklerden birini hayata geçirerek ChatGPT’yi geride bırakmayı hedefliyor. Artık Gemini’ye ses dosyaları yüklenebiliyor.

Bu yeni özellik sayesinde Gemini, ses kayıtlarını yazıya dökebiliyor, özetleyebiliyor ve önemli bilgileri ayıklayabiliyor. Özellikle sesli notları, toplantıları, dersleri ve röportajları metin haline getirerek aranabilir belgelere dönüştürme imkanı sunuyor. Ancak, şimdilik tek seferde en fazla 10 dakikalık ses kayıtları işlenebiliyor.

Ses dosyası yükleme işlemi web üzerinden veya mobil uygulamalar aracılığıyla standart dosya yükleme seçenekleri kullanılarak yapılabiliyor. Google’ın Gemini’den sorumlu başkan yardımcısı Josh Woodward’a göre, ses dosyası yükleme özelliği kullanıcılar tarafından en çok istenen özellikti.

Bu özellik, Gemini’nin daha önceki Gemini Live ses özelliklerinden farklılaşıyor. Gemini Live daha çok gerçek zamanlı sesli komutlar için kullanılırken, yeni özellik ses dosyalarını işleyerek veri elde etmeyi amaçlıyor.

Yapılan testlerde Gemini, komedi albümlerinden skeçleri ve bir telefon görüşmesini başarıyla yazıya döktü. Sadece isim tanımada ufak tefek hatalar tespit edildi. Ayrıca, önemli noktaları ve yapılacaklar listesindeki öğeleri de doğru bir şekilde çıkardı.

Sesli bilgileri kaydetme alışkanlığımızın artmasıyla birlikte, yapay zeka araçları da bu yönde gelişiyor. Gemini’nin bu yeni özelliği, ses kayıtlarını aranabilir hale getirme sürecini tek bir adıma indiriyor.

Bu ekleme, Gemini’nin son zamanlarda yapılan diğer geliştirmeleriyle de uyum sağlıyor. Google, Gemini’yi çeşitli uygulamalara entegre etti, kart tabanlı görsel arayüzünü test etmeye başladı ve kişiselleştirme seçeneklerini önemli ölçüde genişletti. Ses dosyalarını işleme yeteneği de bu trendi devam ettiriyor.

Yapay zeka asistanları arasında sesli işlem yeteneği sadece Gemini’ye özgü değil. ChatGPT de Whisper transkripsiyon modeli sayesinde benzer işlevleri yerine getirebiliyor. Anthropic’in Claude’u bazı geliştirici araçlarında sesi işleyebilirken, Perplexity YouTube videolarından veri çıkarabiliyor. Ancak Gemini’nin uygulaması, günlük kullanım senaryolarına daha fazla odaklanıyor.

Gemini’nin sunduğu çıktı sadece basit bir transkripsiyon değil. Kullanıcılar Gemini’den dili basitleştirmesini, konuşmacıya özel yorumları ayıklamasını, içerikten yola çıkarak sorular oluşturmasını veya bir ders tartışmasından çalışma rehberi oluşturmasını isteyebiliyor. 10 dakikalık süre sınırlaması ve ücretsiz katman kullanıcılarının günlük kullanım limitleri, özelliğin kullanım alanını kısıtlayabiliyor.

Google, yüksek hacimli ses işleme için henüz resmi bir fiyatlandırma yayınlamadı. Ancak bu özellik, normal Gemini kotasının bir parçası olarak sunuluyor. Bu nedenle, çok sayıda uzun ses kaydını işlemek isteyen kullanıcıların kullanımlarını dengelemesi gerekiyor.