Yapay Zeka

21/4/2025

OpenAI’nin o3 Modeli, Şirketin İlk İddialarından Daha Düşük Puan Aldı

OpenAI’nin o3 yapay zeka modeline ilişkin kendi iç değerlendirmeleriyle bağımsız test sonuçları arasındaki fark, şirketin şeffaflık politikası ve model değerlendirme yöntemleri hakkında soru işaretleri doğurdu.

OpenAI, Aralık ayında o3 modelini tanıttığında, modelin FrontierMath adlı zorlu matematik sorularından oluşan veri kümesinde soruların dörtte birinden fazlasını yanıtlayabildiğini açıklamıştı. Söz konusu oran, diğer modellerin yalnızca yaklaşık %2 başarı gösterdiği bu testte oldukça dikkat çekiciydi.

OpenAI Baş Araştırma Sorumlusu Mark Chen, bir canlı yayında “Bugün piyasada bulunan tüm modeller FrontierMath’te %2’nin altında.” diyerek, “[İç değerlendirmelerde], o3 modelinin yüksek test zamanı hesaplama gücüyle %25’in üzerine çıkabildiğini görüyoruz.” ifadelerini kullanmıştı ancak görünen o ki, açıklanan bu skor, Aralık ayında tanıtımı yapılan modelin daha güçlü bir hesaplama altyapısıyla test edilmiş bir versiyonuna aitti ve geçen hafta kamuya sunulan o3 modelinden farklıydı.

FrontierMath’ın arkasındaki araştırma enstitüsü Epoch AI, Cuma günü kendi bağımsız test sonuçlarını yayımladı. Epoch’un verilerine göre, o3 modeli yaklaşık %10’luk bir başarı oranı elde etti — bu oran OpenAI’nin en yüksek iddiasının oldukça altında kaldı.

Bu durum OpenAI’nin yanıltıcı olduğu anlamına gelmiyor. Zira şirketin Aralık ayında yayımladığı belgelerde, Epoch’un gözlemlediği skorla örtüşen alt sınır değerleri de yer alıyordu. Epoch ayrıca test ortamlarının farklı olabileceğini, kendi testlerinde FrontierMath’ın güncellenmiş bir sürümünü kullandıklarını belirtti.

Epoch, yayımladığı açıklamada şunları yazdı: “Sonuçlarımız ile OpenAI’nin sonuçları arasındaki fark; şirketin daha güçlü bir iç yapı ile değerlendirme yapmış olmasından, daha yüksek test zamanı hesaplama gücü kullanmasından ya da farklı bir FrontierMath alt kümesinde (frontiermath-2024-11-26’daki 180 soru ile frontiermath-2025-02-28-private’taki 290 soru) test yapmış olmasından kaynaklanıyor olabilir.”

ARC Prize Foundation tarafından X platformunda yapılan bir paylaşım da bu farklılığı doğruladı. Kuruluş, o3 modelinin ön sürümünü test ettiğini ve kamuya sunulan sürümün “sohbet/ürün kullanımı için ayarlanmış farklı bir model” olduğunu belirtti. Açıklamada ayrıca, “Yayımlanan tüm o3 hesaplama katmanları, bizim benchmark yaptığımız versiyondan daha küçük.” ifadesi yer aldı. Genelde daha yüksek hesaplama kapasitesine sahip modellerin daha iyi skorlar elde etmesi bekleniyor.

OpenAI teknik ekip üyesi Wenda Zhou da geçen hafta bir canlı yayında, üretime alınan o3 modelinin “gerçek dünya kullanımları ve hız açısından daha optimize” olduğunu ve bu nedenle benchmark sonuçlarında “farklılıklar” görülebileceğini söyledi. Zhou şöyle devam etti: “Modeli daha maliyet verimli ve genel kullanım açısından daha faydalı hale getirmek için çeşitli optimizasyonlar yaptık. Hâlâ bunun çok daha iyi bir model olduğunu düşünüyoruz […] Artık cevap bekleme süresi daha kısa olacak — bu tarz modellerde bu önemli bir farktır.”

Her ne kadar kamuya sunulan o3 modeli, OpenAI’nin ilk sunduğu test sonuçlarının altında kalsa da, şirketin o3-mini-high ve o4-mini modelleri FrontierMath testlerinde o3’ten daha iyi performans gösterdi. Ayrıca şirket, önümüzdeki haftalarda daha güçlü bir o3 varyantı olan o3-pro modelini tanıtmayı planlıyor.

Tüm bu gelişmeler, yapay zeka alanında yayımlanan benchmark sonuçlarının doğrudan referans alınmasının risklerini bir kez daha gündeme taşıyor — özellikle de verileri yayımlayan taraf, ticari bir hizmet sağlayıcısıysa.

Benchmark tartışmaları, yapay zeka sektöründe yaygınlaşan bir eğilim hâline gelmiş durumda. Şirketler yeni modelleriyle manşetlere çıkma ve kamuoyunun dikkatini çekme yarışına girdikçe bu tür tartışmalar da artıyor.

Ocak ayında, Epoch AI’nın OpenAI’den aldığı fonlamayı o3 duyurulmadan önce açıklamaması eleştirilmişti. FrontierMath’a katkı sunan birçok akademisyenin, OpenAI’nin projedeki rolünden ancak kamuya açıklandıktan sonra haberdar olduğu belirtilmişti.

Son dönemde ise Elon Musk’ın şirketi xAI, Grok 3 adlı yeni modeli için yayımladığı benchmark grafiklerinin yanıltıcı olduğu gerekçesiyle eleştirildi. Aynı şekilde, Meta da yalnızca geliştiricilere sunduğu modelden farklı bir versiyonun benchmark skorlarını öne çıkardığını kabul etti.





Kaynak:https://techcrunch.com/2025/04/20/openais-o3-ai-model-scores-lower-on-a-benchmark-than-the-company-initially-implied/