Yapay zeka eğitim verileri tükendi mi? • Digital Report

Elon Musk, yapay zeka uzmanlarının öne sürdüğü bir görüşe katılarak, yapay zeka modellerini eğitmek için kullanılabilecek gerçek dünya verilerinin neredeyse tükendiğini söyledi.

“Yapay zeka eğitimi için insan bilgisinin toplamını esasen tükettik. Bu aslında geçen yıl oldu” diyen Musk, Çarşamba gecesi X platformunda Mark Penn ile yaptığı canlı yayında bu konuyu ele aldı. Musk, sahibi olduğu xAI adlı yapay zeka şirketi üzerinden, bu veri eksikliğinin yapay zeka modellerinin geliştirilme biçiminde bir değişiklik gerektireceğini vurguladı.

Musk’ın bu açıklamaları, OpenAI’nin eski baş bilim insanı Ilya Sutskever‘in Aralık ayında NeurIPS makine öğrenimi konferansında dile getirdiği görüşleri yansıttı. Sutskever, yapay zeka sektörünün “veri zirvesine” ulaştığını ve veri eksikliğinin mevcut model geliştirme yaklaşımlarını değiştireceğini öngörmüştü.

Musk, bu durumun çözümü olarak sentetik veriye işaret etti ve şunları söyledi;

“Gerçek dünya verilerini desteklemenin tek yolu, yapay zekanın kendisinin veri oluşturduğu sentetik veri kullanmaktır,. Sentetik veri ile yapay zeka, kendini değerlendiren ve bir tür öz-öğrenme sürecinden geçen bir sistem haline gelecek.”

Microsoft, Meta, OpenAI ve Anthropic gibi teknoloji devleri, amiral gemisi yapay zeka modellerini eğitmek için halihazırda sentetik veri kullanıyor. Gartner’a göre 2024 yılında yapay zeka ve analitik projelerinde kullanılan verilerin %60’ı sentetik olarak oluşturulmuş olacak.

Örneğin, Microsoft’un bu hafta açık kaynak olarak paylaşılan Phi-4 modeli, gerçek dünya verilerinin yanı sıra sentetik veriyle eğitildi. Google’ın Gemma modelleri ve Anthropic’in Claude 3.5 Sonnet sistemi de sentetik veri kullanılarak geliştirildi. Meta ise Llama serisinin son modellerini yapay zeka tarafından üretilen verilerle ince ayardan geçirdi.

Sentetik veri kullanımı, maliyet avantajı gibi başka faydalar da sağlıyor. Yapay zeka girişimi Writer, neredeyse tamamen sentetik kaynaklarla geliştirilen Palmyra X 004 modelinin sadece 700.000 dolara mal olduğunu, buna karşılık benzer boyuttaki bir OpenAI modelinin geliştirme maliyetinin yaklaşık 4,6 milyon dolar olduğunu belirtiyor.

Ancak sentetik veri kullanımının dezavantajları da var. Bazı araştırmalar, sentetik verinin model çöküşüne yol açabileceğini gösteriyor. Bu, modelin çıktılarında yaratıcılığını yitirmesi ve daha fazla önyargı içermesi anlamına geliyor. Ayrıca, modeller sentetik veri ürettiği için bu verilerin eğitildikleri verilere dayalı önyargı ve sınırlamaları da taşıması, sonuçların kalitesini ciddi şekilde tehlikeye atabilir.