Yapay Zeka
15/1/2025
OpenAI, ilk "akıl yürütme" yapay zeka modeli o1'i piyasaya sürdükten kısa bir süre sonra, kullanıcılar ilginç bir fenomen fark etti. Model bazen İngilizce bir soru sorulduğunda bile Çince, Farsça veya başka bir dilde "düşünmeye" başlayabiliyordu. Bir soruyu çözmesi istendiğinde – örneğin "Çilek kelimesinde kaç tane R var?" – o1, "düşünme" sürecine başlayarak bir dizi akıl yürütme adımı gerçekleştiriyor ve nihai cevabı İngilizce olarak veriyor. Ancak, çözüm sürecinde bazı adımlar başka bir dilde gerçekleşiyor.
Olay sosyal medyada konuşulmaya başlandı: Reddit’te bir kullanıcı “[o1] aniden Çince düşünmeye başladı,” derken, X’teki başka bir kullanıcı gönderisinde “[o1] neden aniden Çince düşünmeye başladı?” diye sordu. OpenAI, o1'in bu garip davranışı hakkında bir açıklama yapmadı ve bu durumu kabul etmedi.
AI uzmanları ise kesin bir şey söyleyemiyor ancak birkaç teori öne sürülüyor. Hugging Face CEO'su Clément Delangue ve Google DeepMind'dan araştırmacı Ted Xiao, o1 gibi akıl yürütme modellerinin çok sayıda Çince karakter içeren veri setleri üzerinde eğitildiğine dikkat çekiyor. Xiao, OpenAI'nin de dahil olduğu şirketlerin üçüncü taraf Çince veri etiketleme hizmetleri kullandığını ve o1’in Çince'ye geçişinin “Çince dil etkisi” olabileceğini öne sürüyor. Xiao, bu hizmetlerin çoğunun Çin’de bulunduğunu belirtiyor.
Etiketleme, modelin eğitim sürecinde verileri anlamasına ve yorumlamasına yardımcı olan etiketler ya da anotasyonlar kullanır. Bu hizmetler, örneğin bir görüntü tanıma modelinin nesneleri tanımasını sağlayacak etiketleme sürecinde olduğu gibi, dil modelinin de veri üzerinde anlamlı çıkarımlar yapabilmesini sağlar.
Diğer uzmanlar, o1’in Çin verileri etiketleme hipotezini kabul etmiyor. Onlara göre, o1 ve diğer akıl yürütme modelleri, bir hedefe ulaşmak için en verimli buldukları dilleri kullanabilirler. Alberta Üniversitesi'nden AI araştırmacısı Matthew Guzdial, TechCrunch’a yaptığı açıklamada, modelin dilin ne olduğunu bilmediğini ve dillerin sadece metin olduğunu belirtti.
Gerçekten de, dil modelleri doğrudan kelimeleri işlemiyor; bunun yerine token’lar kullanıyorlar. Token’lar, “fantastik” gibi kelimeler olabileceği gibi, “fan,” “tas” ve “tic” gibi heceler veya kelimelerdeki bireysel karakterler (örneğin “f,” “a,” “n,” “t,” “a,” “s,” “t,” “i,” “c.” ) de olabilir.
Etiketleme gibi, token’lar da önyargılar getirebilir. Mesela, birçok kelime-token çevirmeni, bir cümledeki boşluğun yeni bir kelimeyi belirttiğini varsayar, ancak tüm diller kelimeleri ayırmak için boşluk kullanmaz.
AI yazılım mühendisi Tiezhen Wang, akıl yürütme modellerinin dil tutarsızlıklarının, eğitim sırasında öğrenilen ilişkilerle açıklanabileceğini belirtiyor. Wang, dilin her nüansını benimsemenin modelin dünya görüşünü genişlettiğini ve insan bilgisinin tam yelpazesinde öğrenmesini sağladığını söylüyor. Örneğin, matematiksel hesaplamaları Çince tercih ettiğini belirten Wang, çünkü Çince'deki her rakamın bir hece olması, hesaplamaları net ve verimli hale getiriyor. Ancak bilinçaltı önyargı gibi konularda ise İngilizceyi tercih ediyor çünkü bu fikirleri ilk öğrendiği dil İngilizce.
Wang'ın teorisi makul görünüyor. Sonuçta, modeller olasılıksal makineler olup, eğitim verilerinden öğrendikleri kalıpları kullanarak tahminler yapar. Ancak, Allen Institute for AI'de araştırmacı Luca Soldaini, bu gözlemlerin kesin bir bilgiye dayandırılamayacağını ve AI sistemlerinin ne kadar opak olduğu göz önünde bulundurulduğunda, bu tür gözlemlerin desteklenemeyeceğini belirtiyor.
OpenAI'den bir yanıt olmadan, o1’in neden bazı konularda Fransızca düşündüğünü, ancak sentetik biyolojiyi Mandarin’de düşündüğünü hala merak ediyoruz.