Yapay Zeka

6/5/2025

Stanford, MIT ve Cohere’den LM Arena’ya Suçlama: Chatbot Arena Liderlik Tablosu Büyük YZ Şirketleri Lehine mi Oynandı?

Cohere, Stanford, MIT ve AI2 tarafından hazırlanan yeni bir araştırma, Chatbot Arena benchmark'ını yöneten LM Arena'yı, seçili bazı büyük yapay zeka şirketlerine avantaj sağlamakla suçladı. Yayınlanan çalışmaya göre, LM Arena, Meta, OpenAI, Google ve Amazon gibi önde gelen şirketlerin, farklı yapay zeka modeli varyantlarını özel olarak test etmelerine izin verdi; ancak düşük performans gösteren modellerin sonuçlarını kamuoyuna açıklamadı. Araştırmacılar, bu yaklaşımın diğer firmalara tanınmayan ayrıcalıklar sunduğunu savunuyor.

Cohere’ın YZ Araştırma Başkan Yardımcısı ve çalışmanın ortak yazarı Sara Hooker, TechCrunch’a verdiği röportajda “Sadece birkaç şirketin özel test erişiminin mevcut olduğu bilgisi verildi ve bazı şirketlerin aldığı özel test sayısı diğerlerine kıyasla çok fazlaydı. Bu, açıkça bir oyunlaştırma” dedi.

UC Berkeley kaynaklı akademik bir proje olarak 2023’te başlatılan Chatbot Arena, kısa sürede yapay zeka şirketleri için başvurulan bir kıyaslama platformuna dönüştü. Platform, iki yapay zeka modelinin yan yana karşılaştırıldığı ve kullanıcılardan daha iyi yanıtı seçmelerinin istendiği "arena savaşı" formatında çalışıyor. Yayınlanmamış modellerin takma adlarla arena testlerinde yer alması da alışılmış bir durum.

Kullanıcılardan zaman içinde toplanan oylar, modellerin puanını ve buna bağlı olarak Chatbot Arena liderlik tablosundaki yerini belirliyor. Pek çok ticari oyuncunun dahil olduğu platformun, LM Arena tarafından tarafsız ve adil bir ölçüm aracı olarak sunulduğu iddia edilse de, çalışmanın yazarları bu algının gerçeği yansıtmadığını savunuyor.

Araştırmaya göre Meta, Llama 4 modelinin yayımlanmasından önceki üç aylık dönemde Chatbot Arena’da 27 farklı model varyantını özel olarak test etti. Ancak Meta, yalnızca en yüksek puanı alan bir tek modeli kamuoyuyla paylaştı — ki bu model, liderlik tablosunun en üst sıralarında yer aldı.

LM Arena’nın kurucu ortağı ve UC Berkeley profesörü Ion Stoica, TechCrunch’a gönderdiği e-postada çalışmayı “hatalı ve sorgulanabilir analizlerle dolu” olarak nitelendirdi. LM Arena’dan yapılan resmi açıklamada ise şu ifadelere yer verildi: “Adil ve topluluk temelli değerlendirmelere bağlıyız. Tüm model sağlayıcılarını daha fazla model göndermeye ve insan tercihi testlerinde performanslarını artırmaya davet ediyoruz. Eğer bir model sağlayıcı daha fazla test gönderirse, bu durum diğerinin adaletsiz şekilde muamele gördüğü anlamına gelmez.”

Araştırma, 2024 Kasım ayında LM Arena’ya özel erişim sağlandığına dair iddiaların ardından başlatıldı ve beş aylık süreçte 2,8 milyon arena karşılaşması incelendi. Çalışmaya göre, Meta, OpenAI ve Google gibi şirketlerin modelleri arenada daha fazla karşılaşmaya çıkarılarak daha fazla veri toplama avantajı elde etti. Bu daha yüksek örnekleme oranı, bu şirketlerin diğer modeller karşısında haksız bir avantaj sağlamasına neden oldu.

Ayrıca, LM Arena tarafından sürdürülen bir diğer kıyaslama sistemi olan Arena Hard benchmark’ında, ek veriyle yapılan iyileştirmelerin modeli %112 oranında güçlendirebildiği belirtildi. LM Arena ise X platformunda yaptığı paylaşımda, Arena Hard performansının Chatbot Arena performansıyla doğrudan ilişkili olmadığını savundu.

Sara Hooker, özel testlere erişimin nasıl dağıtıldığının net olmadığını ancak LM Arena’nın şeffaflığı artırma sorumluluğu taşıdığını ifade etti. LM Arena ise X üzerinden yaptığı açıklamada, çalışmadaki bazı iddiaların gerçeği yansıtmadığını belirtti ve küçük laboratuvarlara ait modellerin arenada beklenenden daha fazla yer aldığını gösteren bir blog yazısına atıfta bulundu.

Araştırmada kullanılan yöntemlerden biri, arenada yer alan modellerin şirket kimliklerini kendilerinden gelen yanıtlarla belirlemekti. Yazarlar, modelleri birçok kez sorgulayarak hangi şirkete ait olduklarını anlamaya çalıştı. Ancak yöntem, tam doğruluk sağlamadığı için çalışmanın kısıtlarından biri olarak tanımlandı. Hooker, araştırma bulgularının LM Arena ile paylaşıldığını ve ön bulguların kurum tarafından reddedilmediğini de ifade etti.

TechCrunch, çalışmada adı geçen Meta, Google, OpenAI ve Amazon’dan yorum talep etti ancak haberin yayımı sırasında yanıt alamadı.

Makalede, LM Arena’nın Chatbot Arena’yı daha adil hale getirecek bazı değişiklikler yapması gerektiği ifade edildi. Örneğin, özel test sayısına dair şeffaf bir üst sınır konulması ve bu testlerin sonuçlarının kamuya açıklanması önerildi. LM Arena ise bu önerileri X üzerinden reddetti ve 2024 Mart ayından bu yana ön sürüm testlerine ilişkin bilgileri yayımladığını belirtti. Ayrıca, kamuya açık olmayan modellerin puanlarının paylaşılmasının anlamlı olmayacağını, çünkü topluluğun bu modelleri test etme şansı olmadığını söyledi.

Araştırmacılar, ayrıca Chatbot Arena’daki örnekleme oranının düzenlenmesini ve tüm modellerin eşit sayıda karşılaşmaya çıkarılmasını da önerdi. LM Arena bu öneriye daha olumlu yaklaştı ve yeni bir örnekleme algoritması geliştireceğini duyurdu.

Söz konusu makale, Meta’nın Llama 4 modellerini Chatbot Arena’da test ederken ölçütleri manipüle ettiği iddiasının ardından yayımlandı. Meta, Llama 4’ün “sohbet yeteneği” yönünden optimize edilmiş bir versiyonunu test ederek yüksek puan elde etti, ancak bu optimize sürüm hiçbir zaman yayımlanmadı. Yayınlanan temel versiyon ise arena performansında oldukça geride kaldı. O dönem LM Arena, Meta’nın daha şeffaf davranması gerektiğini açıklamıştı.

Tartışmalı çalışmanın yayımlanmasından kısa süre önce LM Arena, yatırımcılardan sermaye toplamak üzere bir şirket kuracağını duyurdu. Özel kıyaslama platformlarının şirket etkisinden bağımsız hareket edip edemeyeceğine dair soruları daha da gündeme taşındı.

Kaynak:https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark