Yapay Zeka
5/12/2025

OpenAI, yapay zeka modellerini istenmeyen bir davranış sergilediklerinde eylemlerini kabul etmeleri yönünde eğitecek bir çerçeve üzerinde çalıştığını duyurdu. Ekip, geliştirilen yaklaşımı "itiraf" olarak adlandırıyor. Büyük dil modelleri genellikle talep edilene en yakın görünen yanıtı üretmek üzere eğitildiğinden, modellerde zamanla "nabza göre şerbet verme" veya halüsinasyonları tam bir özgüvenle gerçekmiş gibi sunma eğilimleri artabiliyor.
Geliştirilen yeni eğitim modeli, yapay zekanın sunduğu ana yanıta ulaşırken izlediği yollar hakkında ikincil bir açıklama yapmasını teşvik etmeyi amaçlıyor. Ana yanıtlar; yardımseverlik, doğruluk ve kurallara uyum gibi çoklu faktörlerle değerlendirilirken, itiraflar yalnızca dürüstlük kriterine göre yargılanıyor. Konuyla ilgili teknik rapora OpenAI tarafından sağlanan bağlantı üzerinden erişilebiliyor.
Araştırmacılar hedeflerinin, bir testi manipüle etmek, kapasitesini bilerek düşük göstermek (sandbagging) veya talimatlara uymamak gibi potansiyel sorunlu eylemler de dahil olmak üzere, modelin yaptıkları hakkında açık sözlü olmasını sağlamak olduğunu belirtti.
Şirket yaptığı açıklamada şu ifadelere yer verdi:
“Eğer model bir testi manipüle ettiğini, kapasitesini bilerek düşük gösterdiğini veya talimatları ihlal ettiğini dürüstçe kabul ederse, o itiraf onun ödülünü azaltmak yerine artırır.”
İtiraf gibi bir sistem, Büyük Dil Modeli (LLM) eğitimine yararlı bir katkı sunabilir.