Yandex öneri sistemleri için dev veri setini yayınladı

Yandex, müzik akış platformu Yandex Music’teki ses parçalarıyla yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren Yambda (Yandex Music Billion-Interactions Dataset) adlı veri setini yayınladı. Şirket Yambda’nın, öneri sistemleri için dünyanın en büyük açık veri seti olduğunu belirtiyor.

Yambda, e-ticaret, sosyal ağlar ve kısa video platformları gibi öneri sistemlerini kullanan tüm alan adlarında yeni yaklaşım ve algoritmaları test etmek için bir ölçüt olarak kullanılabiliyor.

Veri seti, araştırmacıların yeni öneri algoritmalarını temel modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlıyor. Sınırlı veriye sahip startup’lar ölçeklendirmeden önce Yambda kullanarak sistem oluşturup test edebiliyor.

Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, “Öneri sistemleri, yapısı gereği hassas verilere bağlıyken, şirketler ancak kapsamlı bir anonimleştirme işleminden sonra bu verileri kamuya açık olarak yayınlayabiliyor. Bu da açık inovasyonu yavaşlatıyor” dedi.

Yambda veri seti, aylık yaklaşık 28 milyon kullanıcısı olan Yandex Music’in büyük ve anonimleştirilmiş verilerini sunuyor. Veri seti, kullanıcıların My Wave öneri sistemi ile etkileşim şekillerine dair bilgiler paylaşıyor. Gizliliği korumak için tüm kullanıcı ve izleme verileri sayısal tanımlayıcılarla anonimleştirilmiş oluyor.

Veri setinde 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimi bulunuyor. Ayrıca 1 milyon kullanıcıdan alınan veriler ve 9,39 milyon parçanın anonimleştirilmiş tanımlayıcıları yer alıyor. Veri setinde örtülü etkileşimler (dinleme) ve açık etkileşimler (beğenme, beğenmeme ve bunların iptali) olmak üzere iki geri bildirim türü bulunuyor. Ses katıştırmaları (konvolüsyonel sinir ağları aracılığıyla oluşturulan vektör temsilleri) ve parçalar hakkında anonimleştirilmiş bilgiler de sunuluyor.

Ek olarak: Kullanıcıların parçaları bağımsız mı yoksa öneriler yoluyla mı keşfettiğini gösteren bir “is_organic” işareti ve tüm etkinliklerin zaman damgalı olması bulunuyor.

Veri seti, Spark ve Hadoop gibi dağıtık işleme sistemlerinin yanı sıra Pandas ve Polars gibi analiz kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor.

Nikolai Savushkin, “Yambda, araştırmacıların yenilikçi hipotezleri test etmelerini ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonucunda, kullanıcılar da mükemmel şarkıyı, ürünü veya hizmeti bularak bundan yararlanıyor” dedi.

Yambda veri seti, yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik olmak üzere üç farklı büyüklükte kullanıma sunuluyor. Veri seti, değerlendirme için etkinlik dizilerini korumak amacıyla verileri zaman damgalarına göre bölen Global Temporal Split (GTS) yöntemini kullanıyor. GTS, eğitim ve test setleri arasındaki zaman bağlarını koparmadan gerçek dünya koşullarını taklit eden daha gerçekçi bir modelleme sağlıyor.

Yeni öneri sistemi yaklaşımlarını karşılaştırmaya yönelik temel uygulamalar arasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec yer alıyor. Bu temeller NDCG@k (sıralama kalitesi), Recall@k (geri alım etkililiği) ve Coverage@k (katalog çeşitliliği) gibi standart metriklerle değerlendiriliyor.

Nikolay Savushkin, “Sektör liderleri araçları ve verileri paylaştığında, yükselen bir dalga etkisi yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startup’lar sadece teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar daha iyi bir kullanım deneyiminin tadını çıkarır” diye ekledi.

Yandex, makine öğrenimi destekli akıllı ürünler ve servisler geliştiren bir teknoloji şirketi. Şirket, tüketicilerin ve işletmelerin çevrimiçi ve çevrimdışı dünyayı daha iyi kullanmalarına yardımcı olmayı amaçlıyor. Yandex 1997 yılından bu yana arama ve bilgi hizmetleri sunuyor ve aynı zamanda ulaşım hizmetleri, navigasyon ürünleri ve benzeri mobil uygulamalar geliştiriyor.

My Wave, Yandex Music servisine entegre edilmiş bir öneri sistemi. Milyonlarca kullanıcısı olan serviste kullanıcı etkileşimleri, ortam/dil ayarları ve spektrogramlar, frekans aralıkları, ritim, vokal tonu gibi binden fazla faktörü analiz etmek için yapay zeka algoritmaları kullanıyor. Sistem, dinleme geçmişini ve parça dizilerini işleyerek kullanıcı tercihlerine dinamik olarak uyum sağlıyor, ses benzerliklerini belirliyor ve müzik zevklerini tahmin ederek özel öneriler sunuyor.

Tags: veri seti Yandex

İLGİLİ YAZILAR

Yandex: İstanbul’un en hareketli ilçeleri hangileri?

Yandex’ten İstanbul toplu taşımaya ücret ve kampanya desteği

Yandex reklam SDK’sı uygulama gelirini artırıyor

Yandex Türkiye haritalar uygulamasına görsel güncelleme

SON YAZILAR

Xiaomi Buds 6 tanıtıldı

VEPARA’nın faaliyetleri yasa dışı bahis soruşturması kapsamında durduruldu

Windows’ta JPG dosyalarını etkileyen kritik güvenlik açığı keşfedildi

iPhone Air 2 için 2026 umudu yeniden doğdu

Tesla’nın Avrupa satışları çakıldı, BYD öne geçti

Lise yıllarından kalma utanç verici Gmail adresinizden yakında kurtulacaksınız

ChatGPT’ye reklamlar 2026’da geliyor

Google 2025’i yapay zeka fayda yılı ilan etti, OpenAI kırmızı kod ile karşılık verdi

Nvidia’nın 20 milyar dolarlık Groq satın alması yalan çıktı

X’te Artık herkes paylaştığınız fotoğrafları yapay zeka ile değiştirebiliyor

SON REHBERLER

Android telefon hafıza kartını görmüyor sorunu nasıl çözülür

Instagram’da fotoğraf paylaşma sorununu gidermenin pratik yolları

OLED ekranlarda oluşabilecek yanma sorununu önlemenin pratik yolları

Windows 10’da unmountable boot volume hatası nasıl düzeltilir

Nvidia DLAA ile oyun grafiklerinde kenar yumuşatma nasıl sağlanır

ChatGPT’yi 1 saatten kısa sürede ustaca kullanmayı öğrenin

Windows’un farklı sürümlerinde ve Mac’te şifre kaldırma

iPhone’da kilit ekranına istediğiniz metni yazma nasıl yapılır

Telegram’da engellendiğinizi pratik yöntemlerle nasıl anlarsınız

Windows’ta işletim sisteminin bit mimarisini nasıl öğrenirsiniz

BASIN BÜLTENLERİ

RTB House, Derin Öğrenme ile dijital reklamcılığın yeni işletim sistemini kuruyor

ESET, Çin bağlantılı LongNosedGoblin APT grubunu tespit etti

Simya VC’den Rudiq’e 1 milyon dolar yatırım

Huawei Cloud, İstanbul’da dijital perakende buluşması düzenledi

SteelSeries, tek kulaklıkla birden fazla platformda oyun oynama özgürlügü sunuyor

Aktif Tech, Deloitte Teknoloji Fast 50’de üçüncü oldu

Dolap, 2024 yılında 307 bin 340 ton karbon salımını önledi

Canon, Istanbul’da EOS R6 Mark III ve EOS C50 tanıttı

LG, yeni yıl için soundbar kampanyasını duyurdu

Citrix, Hibrit çoklu bulut lisans modeli sunuyor

© 2019 Digital Report bir Linkmedya markasıdır.