OpenAI'ın Yeni "İtiraf" Sistemi: Yapay Zeka Hatalarını Kabul Etmeyi Öğreniyor

OpenAI, yapay zeka modellerini istenmeyen bir davranış sergilediklerinde eylemlerini kabul etmeleri yönünde eğitecek bir çerçeve üzerinde çalıştığını duyurdu. Ekip, geliştirilen yaklaşımı "itiraf" olarak adlandırıyor. Büyük dil modelleri genellikle talep edilene en yakın görünen yanıtı üretmek üzere eğitildiğinden, modellerde zamanla "nabza göre şerbet verme" veya halüsinasyonları tam bir özgüvenle gerçekmiş gibi sunma eğilimleri artabiliyor.

Geliştirilen yeni eğitim modeli, yapay zekanın sunduğu ana yanıta ulaşırken izlediği yollar hakkında ikincil bir açıklama yapmasını teşvik etmeyi amaçlıyor. Ana yanıtlar; yardımseverlik, doğruluk ve kurallara uyum gibi çoklu faktörlerle değerlendirilirken, itiraflar yalnızca dürüstlük kriterine göre yargılanıyor. Konuyla ilgili teknik rapora OpenAI tarafından sağlanan bağlantı üzerinden erişilebiliyor.

Araştırmacılar hedeflerinin, bir testi manipüle etmek, kapasitesini bilerek düşük göstermek (sandbagging) veya talimatlara uymamak gibi potansiyel sorunlu eylemler de dahil olmak üzere, modelin yaptıkları hakkında açık sözlü olmasını sağlamak olduğunu belirtti.

Şirket yaptığı açıklamada şu ifadelere yer verdi:

“Eğer model bir testi manipüle ettiğini, kapasitesini bilerek düşük gösterdiğini veya talimatları ihlal ettiğini dürüstçe kabul ederse, o itiraf onun ödülünü azaltmak yerine artırır.”

İtiraf gibi bir sistem, Büyük Dil Modeli (LLM) eğitimine yararlı bir katkı sunabilir.

‍

Kaynak: https://www.engadget.com/ai/openais-new-confession-system-teaches-models-to-be-honest-about-bad-behaviors-210553482.html

İlginizi Çekebilir

Yapay Zeka

Dec 2025

Yapay Zekada Donanım Engeli Kalkıyor: Artık Hesaplamalar “Işık Hızında” İşlenebiliyor

Yapay Zeka

Dec 2025

Anthropic, Yapay Zekanın İş Dünyasını Nasıl Değiştirdiğini Görmek için Kendi Mühendislerini İnceledi

Yapay Zeka

Dec 2025

Mistral, Herkesin İndirip Kullanabileceği Yeni Modelleriyle Yapay Zeka Devlerine Meydan Okuyor

Yapay Zeka

Dec 2025

DeepSeek, GPT-5'e Rakip Yapay Zeka Modelini Ücretsiz Kullanıma Sundu

Yapay Zeka

Dec 2025

Borsalar, Google'ın Yapay Zeka Yarışında OpenAI ve Nvidia'yı Geride Bıraktığına İnanıyor

Bu Websitesi'nin Dönüşmleri

Pinetent Digital Agency

OpenAI'ın Yeni "İtiraf" Sistemi: Yapay Zeka Hatalarını Kabul Etmeyi Öğreniyor

İlginizi Çekebilir

Yapay Zekada Donanım Engeli Kalkıyor: Artık Hesaplamalar “Işık Hızında” İşlenebiliyor

Anthropic, Yapay Zekanın İş Dünyasını Nasıl Değiştirdiğini Görmek için Kendi Mühendislerini İnceledi

Mistral, Herkesin İndirip Kullanabileceği Yeni Modelleriyle Yapay Zeka Devlerine Meydan Okuyor

DeepSeek, GPT-5'e Rakip Yapay Zeka Modelini Ücretsiz Kullanıma Sundu

Borsalar, Google'ın Yapay Zeka Yarışında OpenAI ve Nvidia'yı Geride Bıraktığına İnanıyor

Kategoriler

Kurumsal

En Önce Sizin Haberiniz Olsun!