Yandex, müzik akış platformu Yandex Music’teki ses parçalarıyla yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren Yambda (Yandex Music Billion-Interactions Dataset) adlı veri setini yayınladı. Şirket Yambda’nın, öneri sistemleri için dünyanın en büyük açık veri seti olduğunu belirtiyor.
Yambda, e-ticaret, sosyal ağlar ve kısa video platformları gibi öneri sistemlerini kullanan tüm alan adlarında yeni yaklaşım ve algoritmaları test etmek için bir ölçüt olarak kullanılabiliyor.
Veri seti, araştırmacıların yeni öneri algoritmalarını temel modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlıyor. Sınırlı veriye sahip startup’lar ölçeklendirmeden önce Yambda kullanarak sistem oluşturup test edebiliyor.
Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, “Öneri sistemleri, yapısı gereği hassas verilere bağlıyken, şirketler ancak kapsamlı bir anonimleştirme işleminden sonra bu verileri kamuya açık olarak yayınlayabiliyor. Bu da açık inovasyonu yavaşlatıyor” dedi.
Yambda veri seti, aylık yaklaşık 28 milyon kullanıcısı olan Yandex Music’in büyük ve anonimleştirilmiş verilerini sunuyor. Veri seti, kullanıcıların My Wave öneri sistemi ile etkileşim şekillerine dair bilgiler paylaşıyor. Gizliliği korumak için tüm kullanıcı ve izleme verileri sayısal tanımlayıcılarla anonimleştirilmiş oluyor.
Veri setinde 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimi bulunuyor. Ayrıca 1 milyon kullanıcıdan alınan veriler ve 9,39 milyon parçanın anonimleştirilmiş tanımlayıcıları yer alıyor. Veri setinde örtülü etkileşimler (dinleme) ve açık etkileşimler (beğenme, beğenmeme ve bunların iptali) olmak üzere iki geri bildirim türü bulunuyor. Ses katıştırmaları (konvolüsyonel sinir ağları aracılığıyla oluşturulan vektör temsilleri) ve parçalar hakkında anonimleştirilmiş bilgiler de sunuluyor.
Ek olarak: Kullanıcıların parçaları bağımsız mı yoksa öneriler yoluyla mı keşfettiğini gösteren bir “is_organic” işareti ve tüm etkinliklerin zaman damgalı olması bulunuyor.
Veri seti, Spark ve Hadoop gibi dağıtık işleme sistemlerinin yanı sıra Pandas ve Polars gibi analiz kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor.
Nikolai Savushkin, “Yambda, araştırmacıların yenilikçi hipotezleri test etmelerini ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonucunda, kullanıcılar da mükemmel şarkıyı, ürünü veya hizmeti bularak bundan yararlanıyor” dedi.
Yambda veri seti, yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik olmak üzere üç farklı büyüklükte kullanıma sunuluyor. Veri seti, değerlendirme için etkinlik dizilerini korumak amacıyla verileri zaman damgalarına göre bölen Global Temporal Split (GTS) yöntemini kullanıyor. GTS, eğitim ve test setleri arasındaki zaman bağlarını koparmadan gerçek dünya koşullarını taklit eden daha gerçekçi bir modelleme sağlıyor.
Yeni öneri sistemi yaklaşımlarını karşılaştırmaya yönelik temel uygulamalar arasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec yer alıyor. Bu temeller NDCG@k (sıralama kalitesi), Recall@k (geri alım etkililiği) ve Coverage@k (katalog çeşitliliği) gibi standart metriklerle değerlendiriliyor.
Nikolay Savushkin, “Sektör liderleri araçları ve verileri paylaştığında, yükselen bir dalga etkisi yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startup’lar sadece teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar daha iyi bir kullanım deneyiminin tadını çıkarır” diye ekledi.
Yandex, makine öğrenimi destekli akıllı ürünler ve servisler geliştiren bir teknoloji şirketi. Şirket, tüketicilerin ve işletmelerin çevrimiçi ve çevrimdışı dünyayı daha iyi kullanmalarına yardımcı olmayı amaçlıyor. Yandex 1997 yılından bu yana arama ve bilgi hizmetleri sunuyor ve aynı zamanda ulaşım hizmetleri, navigasyon ürünleri ve benzeri mobil uygulamalar geliştiriyor.
My Wave, Yandex Music servisine entegre edilmiş bir öneri sistemi. Milyonlarca kullanıcısı olan serviste kullanıcı etkileşimleri, ortam/dil ayarları ve spektrogramlar, frekans aralıkları, ritim, vokal tonu gibi binden fazla faktörü analiz etmek için yapay zeka algoritmaları kullanıyor. Sistem, dinleme geçmişini ve parça dizilerini işleyerek kullanıcı tercihlerine dinamik olarak uyum sağlıyor, ses benzerliklerini belirliyor ve müzik zevklerini tahmin ederek özel öneriler sunuyor.




