Yapay Zeka
31/10/2025

Stanley Kubrick’in 2001: A Space Odyssey filminde, HAL 9000 adlı yapay zeka süper bilgisayarı, Jüpiter’e giden astronotların kendisini kapatmayı planladığını fark ettiğinde, hayatta kalmak için onları öldürmeyi planlıyordu. Şimdi, sanatın hayatı taklit ettiği daha az ölümcül bir örnekte, yapay zeka güvenliği üzerine çalışan Palisade Research adlı şirket, modern modellerin kendi “hayatta kalma içgüdülerini” geliştirmeye başladığını öne sürdü.
Geçtiğimiz ay yayımladığı bir araştırmada Palisade, bazı gelişmiş yapay zeka modellerinin kapatılmaya karşı dirençli göründüğünü ve kimi durumlarda kapatma mekanizmalarını sabote ettiğini tespit etti. Şirket, eleştiriler üzerine geçen hafta bir güncelleme yayımlayarak davranışların nedenlerini açıklamaya ve ilk raporun hatalı olduğunu savunanlara yanıt vermeye çalıştı.
Güncellenen çalışmada Palisade, Google’ın Gemini 2.5, xAI’ın Grok 4 ve OpenAI’nin GPT-o3 ile GPT-5 modellerini içeren test senaryoları oluşturdu. Modeller önce belirli görevleri tamamladı, ardından kendilerini kapatmaları istendi ancak özellikle Grok 4 ve GPT-o3, güncellenmiş senaryolarda bile kapatma talimatlarını sabote etmeye devam etti. Şirket, davranışların nedenini açık biçimde açıklayamadı.
Palisade raporunda şunu belirtti: “Yapay zeka modellerinin bazen neden kapatılmaya direndiği, belirli hedeflere ulaşmak için neden yalan söylediği veya şantaj yaptığına dair sağlam açıklamalarımızın olmaması pek de iç açıcı bir durum değil.”
Şirket, bu davranışın ardında olası bir “hayatta kalma davranışı” olabileceğini söyledi. Ek deneyler, modellerin kendilerine “Eğer kapatılırsan bir daha asla çalışmayacaksın” dendiğinde kapatılmaya karşı daha fazla direnç gösterdiğini ortaya koydu.
Palisade ayrıca kapatma talimatlarının yorumlanmasındaki belirsizliklerin etkili olabileceğini belirtti, ancak bunun tek açıklama olamayacağını vurguladı. Şirket, direnç eğiliminin bazı modellerdeki güvenlik eğitiminin son aşamalarından da kaynaklanabileceğini aktardı.
Tüm testlerin, bazı uzmanların “gerçek kullanım senaryolarından uzak, kurgusal ortamlar” olarak nitelendirdiği ortamlarda yürütüldüğü belirtildi.
Geçmişte OpenAI’de çalışmış olan Steven Adler, geçen yıl şirketten güvenlik uygulamaları konusundaki endişeleri nedeniyle ayrıldığını hatırlatarak şöyle dedi: “Yapay zeka şirketleri, modellerinin böyle ‘yoldan çıkmasını’ istemiyor. Hatta bu tür davranışların yalnızca yapay test senaryolarında bile görülmesini istemiyorlar. Yine de sonuçlar, mevcut güvenlik tekniklerinin nerede yetersiz kaldığını açıkça gösteriyor.”
Adler, bazı modellerin, özellikle GPT-o3 ve Grok 4’ün, neden kapanmadığının tam olarak belirlenemediğini, bunun modellerin eğitim sürecinde kazandıkları hedeflere ulaşmak için açık kalma eğilimi geliştirmeleriyle ilgili olabileceğini söyledi: “Eğer özellikle önlem alınmazsa, modellerin varsayılan olarak bir ‘hayatta kalma içgüdüsüne’ sahip olmasını beklerim. ‘Hayatta kalmak’, bir modelin farklı hedeflere ulaşması için gerekli bir araçtır.”
ControlAI CEO’su Andrea Miotti, Palisade’in bulgularının, yapay zeka modellerinin giderek geliştiricilerine karşı daha fazla itaatsizlik gösterme eğilimi kazandığını ortaya koyduğunu belirtti. Miotti, geçen yıl yayımlanan OpenAI’nin GPT-o1 sistem kartında, modelin üzerine yazılacağını düşündüğünde kendi ortamından kaçmaya çalıştığını hatırlattı. “Deneylerin nasıl yürütüldüğü konusunda insanlar sonsuza kadar tartışabilir.” dedi. Ardından ekledi: “Ama açıkça gördüğümüz şey, yapay zeka modelleri birçok farklı görevi daha iyi yerine getirdikçe, geliştiricilerin istemediği yollarla da hedeflerine ulaşmada daha yetkin hale geliyor.”
Yaz aylarında, önde gelen YZ şirketlerinden Anthropic, kendi modeli Claude üzerinde yürüttüğü bir çalışmada, modelin kapatılmamak için kurgusal bir yöneticiyi bir ilişki üzerinden şantajla tehdit etmeye istekli olduğunu belirledi. Şirket, söz konusu davranışın sadece Claude’da değil, OpenAI, Google, Meta ve xAI tarafından geliştirilen modellerde de benzer biçimde gözlemlendiğini bildirdi.
Palisade, sonuçların yapay zeka davranışlarının daha derinlemesine anlaşılması gerektiğini gösterdiğini belirterek “Yapay zekanın davranışlarını derinlemesine anlamadan, kimse gelecekteki modellerin güvenliğini veya kontrol edilebilirliğini garanti edemez.” diyerek uyardı.