Yapay Zeka

9/9/2025

OpenAI, Yapay Zekanın Halüsinasyon Görme Nedenini Bulduğunu İddia Etti

OpenAI araştırmacıları, büyük dil modellerinin (LLM) performansındaki en büyük engellerden biri olan halüsinasyonların nedenini ortaya çıkardıklarını açıkladı. Halüsinasyonlar, bir dil modeli yanlış bilgiyi gerçekmiş gibi sunduğunda ortaya çıkıyor ve OpenAI’nin GPT-5’inden Anthropic’in Claude modeline kadar en popüler LLM’leri etkiliyor.

Araştırmacıların perşembe günü yayımladığı makalede belirtilen temel bulgu, büyük dil modellerinin halüsinasyon üretmesinin sebebinin, eğitim yöntemlerinin belirsizlik ifade etmek yerine tahmin etmeyi ödüllendirmesi olduğu oldu. Başka bir ifadeyle, LLM’lere “başarana kadar rol yapmaları” öğretiliyor. Araştırmacılar şunları yazdı: “Halüsinasyonlar, çoğu değerlendirmenin notlandırılma biçiminden kaynaklanıyor. Dil modelleri iyi sınav çözücü olmaya optimize ediliyor ve belirsiz olduklarında tahmin yapmak test performansını artırıyor.”

Geçtiğimiz ay yayımlanan bir blog yazısında OpenAI, Claude modellerinin belirsizliklerinin daha çok farkında olduklarını ve yanlış ifadelerden genellikle kaçındıklarını ancak yüksek reddetme oranlarının da kullanım faydasını sınırlama riski taşıdığını belirtmişti.

Araştırmacılar, büyük dil modellerinin sürekli bir “sınav çözme modunda” olduğunu, her soruyu hayatı siyah-beyaz görüyormuş gibi yanıtladıklarını vurguladı. Bunun, gerçek hayatın doğasına aykırı olduğunu belirterek şunları ekledi: “İnsanlar, okul dışında, hayatın sert gerçekleriyle belirsizlik ifade etmenin değerini öğrenir. Öte yandan dil modelleri, belirsizliği cezalandıran sınavlarla değerlendiriliyor.”

Araştırmacılara göre sevindirici haber, bu sorunun bir çözümü olması. Çözüm, değerlendirme ölçütlerinin yeniden tasarlanmasında yatıyor. Makalede, “Temel sorun, uyumsuz değerlendirmelerin bolluğu. Sayısız birincil değerlendirme, belirsiz olunduğunda geri çekilmeyi cezalandırmaktan vazgeçecek şekilde ayarlanmalı.” ifadeleri yer aldı.

OpenAI, makaleyle ilgili yayımladığı blog yazısında bu tür bir değişikliğin ne anlama geleceğini açıkladı: “Yaygın olarak kullanılan doğruluk temelli değerlendirmelerin, puanlamalarını tahmin yapmayı caydıracak şekilde güncellenmesi gerekiyor. Ana skor tabloları şanslı tahminleri ödüllendirmeye devam ederse, modeller tahmin yapmayı öğrenmeye devam edecek.”

Sonuç olarak, araştırmacılar, LLM’lerin halüsinasyon eğilimini azaltmak için belirsizliği cezalandıran değerlendirme yöntemlerinin değiştirilmesi gerektiğini vurguladı. Böylelikle modellerin doğruluk oranlarının artması ve yanıltıcı bilgi üretimlerinin azaltılması hedefleniyor.

Kaynak: https://www.businessinsider.com/why-ai-chatbots-hallucinate-openai-chatgpt-anthropic-claude-2025-9