Yapay Zeka

22/4/2025

OpenAI’nin Yeni Akıl Yürütme Modelleri Daha Fazla Halüsinasyon Görüyor

OpenAI’nin kısa süre önce tanıttığı o3 ve o4-mini yapay zeka modelleri birçok açıdan ileri seviyede olarak nitelendirilse de, halüsinasyon sorunu bu modellerde önceki nesillere kıyasla daha belirgin hale geldi. Halüsinasyonlar — yani modellerin gerçek dışı veya uydurma bilgiler üretmesi — yapay zeka alanındaki en zorlu ve kalıcı problemlerden biri olmaya devam ediyor.

Geçmişte geliştirilen her yeni model, halüsinasyon oranlarını kademeli olarak azaltmıştı. Ancak o3 ve o4-mini için aynı gelişme gözlenmedi. OpenAI'nin iç testlerine göre, bu yeni “akıl yürütme” odaklı modeller, şirketin önceki modelleri olan o1, o1-mini ve o3-mini'ye göre daha fazla halüsinasyon üretiyor. Üstelik, GPT-4o gibi geleneksel — yani akıl yürütmeye dayalı olmayan — modellerden bile daha yüksek oranlarda yanlış bilgi ürettikleri kaydedildi.

OpenAI’nin teknik raporunda, halüsinasyon oranlarının neden arttığının henüz tam olarak anlaşılamadığı belirtilerek “daha fazla araştırmaya ihtiyaç olduğu” vurgulandı. o3 ve o4-mini, kodlama ve matematik gibi bazı alanlarda daha başarılı sonuçlar veriyor. Ancak teknik raporda şu ifadeye yer verildi: “Genel olarak daha fazla iddiada bulundukları için, bu modeller hem daha doğru hem de daha fazla yanlış/halüsinatif iddia ortaya koyma eğiliminde oluyor.”

OpenAI’nin dahili ölçüm aracı olan PersonQA testine göre, o3 modeli, insanlar hakkındaki soruların %33’ünde halüsinasyon içerikli cevaplar üretti. Bu oran, o1’in %16 ve o3-mini’nin %14.8 olan oranlarının yaklaşık iki katına karşılık geliyor. O4-mini ise daha da kötü bir performans sergileyerek %48 halüsinasyon oranına ulaştı.

Bağımsız bir yapay zeka araştırma laboratuvarı olan Transluce tarafından yapılan üçüncü taraf testlerde de benzer sonuçlara ulaşıldı. Araştırmacılar, o3 modelinin cevap verirken kendi gerçekleştirmediği eylemleri gerçekleştirmiş gibi gösterdiğini tespit etti. Bir örnekte, o3 modelinin “ChatGPT dışında bir 2021 model MacBook Pro’da kod çalıştırdığını ve çıkan verileri yanıtına eklediğini” iddia ettiği belirtildi. Oysa o3 modeli böyle bir işlem gerçekleştirecek yetkiye ya da altyapıya sahip değil.

Transluce araştırmacısı ve eski OpenAI çalışanı Neil Chowdhury, TechCrunch’a gönderdiği e-postada şunları belirtti: “O serisi modellerde kullanılan pekiştirmeli öğrenme türünün, genellikle standart son eğitim aşamalarıyla hafifletilen ancak tam olarak çözülemeyen sorunları büyütebileceğini düşünüyoruz.”

Transluce eş kurucusu Sarah Schwettmann, o3 modelinin halüsinasyon oranının, aslında sahip olduğu potansiyel faydayı azaltabileceğini ifade etti.

Stanford yardımcı profesörü ve Workera adlı yetkinlik artırma girişiminin CEO’su olan Kian Katanforoosh, o3 modelini kendi ekiplerinde kodlama süreçlerinde test ettiklerini ve rakiplerine göre bir adım önde bulduklarını belirtti. Ancak Katanforoosh, modelin çalışmayan web bağlantıları uydurma eğiliminde olduğunu da ekledi. “Model, tıklanıldığında çalışmayan bağlantılar üretebiliyor.” dedi.

Halüsinasyonlar, bazı durumlarda yaratıcı fikirlerin ortaya çıkmasına yardımcı olsa da, hassasiyetin kritik olduğu alanlarda bu durum ciddi bir sorun yaratıyor. Örneğin, bir hukuk firmasının, içinde gerçek dışı bilgiler bulunan belgeleri istemeyeceği açıkça ortada.

OpenAI’nin diğer modelleri arasında yer alan GPT-4o, web arama yeteneğiyle birlikte SimpleQA testinde %90 doğruluk oranına ulaştı. Bu durum, web arama erişimi olan sistemlerin halüsinasyon oranlarını azaltma potansiyeline sahip olduğunu gösteriyor — tabii kullanıcılar, girdilerini üçüncü taraf bir arama motoruyla paylaşmayı kabul ettiği sürece.

Eğer akıl yürütme yeteneği yüksek modelleri ölçeklendirmek, halüsinasyon oranlarını da artırıyorsa, bu durumun çözümü için daha acil araştırmalara ihtiyaç duyulacak gibi görünüyor.

OpenAI sözcüsü Niko Felix, TechCrunch’a gönderdiği e-postada şunları ifade etti: “Tüm modellerimizde halüsinasyon sorununu ele almak, sürekli yürütülen bir araştırma alanı ve modellerimizin doğruluk ve güvenilirliğini artırmak için çalışmalarımız devam ediyor.”

Geçtiğimiz yıl, yapay zeka endüstrisi genelinde, geleneksel model iyileştirme tekniklerinden alınan verimin azalmasıyla birlikte, akıl yürütme tabanlı modeller ön plana çıkmıştı. Bu modeller, büyük miktarda hesaplama ve veri gerektirmeden çok çeşitli görevlerde performans artışı sağlıyor. Ancak görünen o ki, akıl yürütme yeteneği aynı zamanda halüsinasyon üretimini de artırarak yeni bir denge problemi yaratıyor.

Kaynak:https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/