Yapay Zeka

13/1/2025

Elon Musk, Bir X Röportajında CES 2025'te AI'nın İnsan Verilerini Tükettiğini ve Sentetik Verilere Yöneldiğini Açıkladı

Elon Musk, yapay zeka (YZ) modellerini eğitmek için kullanılacak gerçek dünya verilerinin azaldığı konusunda diğer uzmanlarla hemfikir olduğunu belirtti. Çarşamba günü X platformunda Stagwell Başkanı Mark Penn ile yaptığı canlı yayın sohbetinde Musk, "Artık YZ eğitiminde insan bilgisinin kümülatif toplamını ... tükettik," diyerek, "Bu temelde geçen yıl oldu," şeklinde bir açıklama yaptı.

Musk, yapay zeka şirketi xAI'nin sahibi olarak, eski OpenAI baş bilimcisi Ilya Sutskever'in Aralık ayında NeurIPS makine öğrenimi konferansında yaptığı konuşmayı da hatırlattı. Sutskever, YZ endüstrisinin "zirve veri" noktasına ulaştığını belirterek, eğitim verisi eksikliğinin modellerin geliştirilme biçiminde değişikliklere yol açacağını öngörmüştü. Musk ise sentetik verilerin – yani YZ modellerinin kendileri tarafından üretilen verilerin – gelecekteki gelişmeler için en uygun yol olduğunu savundu. Musk, "Gerçek dünya verilerini tamamlamanın tek yolu, YZ'nin [eğitim verilerini] oluşturduğu sentetik verilerdir," diyerek, "Sentetik verilerle ... [YZ] kendi kendini derecelendirecek ve bu kendi kendine öğrenme sürecinden geçecektir," dedi.

Bu açıklamaları doğrulayan gelişmeler, teknoloji devleri Microsoft, Meta, OpenAI ve Anthropic gibi şirketlerin amiral gemisi YZ modellerini eğitmek için sentetik veriler kullanıyor olmaları. Gartner'a göre, 2024 yılı itibariyle YZ ve analitik projeleri için kullanılan verilerin %60'ının sentetik olarak üretildiği tahmin ediliyor. Örneğin, Microsoft’un Phi-4 modeli, gerçek dünya verilerinin yanı sıra sentetik veriler üzerinde de eğitildiği gibi, Google'ın Gemma modelleri de benzer bir yaklaşım sergiliyor. Anthropic, performanslı sistemlerinden biri olan Claude 3.5 Sonnet’i geliştirmek için sentetik veriler kullanırken, Meta da son Llama model serisini yapay zeka tarafından üretilen verilerle geliştirdi.

Sentetik verilerle yapılan eğitim, maliyet tasarrufu gibi avantajlar da sağlıyor. Yapay zeka girişimi Writer, tamamen sentetik kaynaklar kullanılarak geliştirilen Palmyra X 004 modelinin yalnızca 700.000 dolara mal olduğunu belirtiyor. Bu, karşılaştırılabilir büyüklükteki bir OpenAI modelinin geliştirilmesi için yapılan 4,6 milyon dolarlık tahminlere göre oldukça düşük bir maliyet. Ancak, sentetik verilerin kullanımı bazı dezavantajları da beraberinde getiriyor. Bazı araştırmalar, sentetik verilerin modelin çökmesine neden olabileceğini, model çıktılarının daha az yaratıcı ve önyargılı hale gelmesine yol açabileceğini ve bu durumun işlevselliği ciddi şekilde tehlikeye atabileceğini savunuyor. Ayrıca, sentetik veriler kullanılarak oluşturulan modeller, eğitim verilerindeki önyargıları ve sınırlamaları miras alarak benzer kusurlara sahip olabilir.