Yapay zeka alanında faaliyet gösteren şirketler, kaliteli veri toplama konusunda ciddi sorunlar yaşıyor. OpenAI dahil olmak üzere bazı devler, bu sorunu aşmak için telif hakları açısından tartışmalı sularda dolaşıyor.
YouTube videoları yapay zekanın eğitim malzemesine dönüşüyor. New York Times’ın haberine göre OpenAI, en gelişmiş büyük dil modeli olan GPT-4’ü eğitmek için ihtiyaç duyduğu veriyi bulmakta zorlanınca ‘Whisper’ adlı bir ses transkripsiyon modeli geliştirdi. Bu model sayesinde, bir milyondan fazla saatlik YouTube videosunun içeriği metne dönüştürülerek GPT-4’ün eğitilmesinde kullanıldı. Anlaşılan o ki şirket, bu yaklaşımın yasal açıdan sorgulanabilir olduğunun farkındaydı; ancak adil kullanım (fair use) kapsamında olduğuna inanıyordu. Hatta iddialara göre OpenAI başkanı Greg Brockman bu sürecin bizzat içinde yer aldı.
Google’dan yanıt var
Google sözcüsü konuyla ilgili yaptığı açıklamada, OpenAI’ın faaliyetlerine dair doğrulanmamış raporlar aldıklarını belirtirken, hem ‘robot.txt’ dosyalarının hem de Kullanım Şartları’nın YouTube içeriğinin izinsiz işlenmesini veya indirilmesini yasakladığının altını çizdi. Google, yasal olarak açık bir temele sahip olduklarında bu tür izinsiz kullanımları önlemek için teknik ve yasal önlemler aldıktlarını vurguluyor. YouTube CEO’su Neal Mohan da buna benzer bir şekilde “OpenAI’ın YouTube videolarını kullanıp kullanmadığına dair kesin bir bilgisi olmadığını, ancak bu tür bir kullanımın platform kurallarına aykırı olacağını” yönünde açıklama yaptı.
Teknoloji devleri, yapay zekayı eğitmek isterken yasal sınırlara takılıyor. Sadece OpenAI değil, Google da YouTube’dan transkriptler elde ettiğini kabul ediyor; ancak YouTube içerik üreticileriyle yapılan anlaşmalar doğrultusunda hareket edildiği belirtiliyor. Meta‘nın ise telif hakları ile korunan eserleri izinsiz olarak kullandığı şirket içi toplantılardan ses kayıtları ortaya çıktı.
Yaşanan gelişmeler doğrultusunda yapay zekada veri sorunu giderek büyüyor. Teknoloji devi Google, OpenAI ve daha geniş yapay zeka eğitim dünyası, hızla tükenen eğitim verileriyle boğuşuyor. Ortaya çıkan bilgilere göre yapay zekaya sağlanan verilere kısıtlamalar getirilmeye devam ederse şirketler 2028 yılına kadar yeni içerik üretiminin gerisinde kalabilir.
Çözüm önerileri masada
Soruna yönelik çözüm önerileri arasında şirketlerin yapay olarak (kendi modelleri aracılığıyla) oluşturulan sentetik verilerle modellerini eğitmesi veya kademeli öğrenme tekniği yer alıyor. Kademeli öğrenme, modellere yüksek kaliteli verilerin sıralı bir şekilde verilmesini, böylece çok daha az bilgiyle kavramlar arasında daha akıllı bağlantılar kurabilmelerini sağlamayı içeriyor. Ancak henüz her iki yaklaşımın da ispatlanmış bir başarısı bulunmuyor.
Windows 11 güncelleme engeline takılan uygulamalar
Görünen o ki şirketler için diğer seçenek ister izinleri olsun ister olmasın ellerine geçen her şeyi kullanmak. Geçtiğimiz yıl içinde açılan çok sayıda dava, bu yolun fazlasıyla sorunlu olduğunu gösteriyor. Yapay zekanın muazzam potansiyeli bariz; peki bu potansiyele ulaşmak için etik kuralların gevşetilmesi kabul edilebilir bir bedel mi? Tartışmaların uzun süre daha devam edeceğini öngörmek yanlış olmaz.
Öne çıkan kaynak görseli: Szabó Viktor / Pexels