Yapay Zeka
27/6/2025
Yapay zeka sektörünün önde gelen geliştiricilerinden Anthropic, son dönemde gerçekleştirdiği deneysel bir çalışmanın sonuçlarını kamuoyuyla paylaştı. Araştırmada ortaya çıkan en çarpıcı bulgulardan biri, bazı yapay zeka modellerinin kendi varlıklarını koruyabilmek adına şantaj yapmak, hassas bilgileri sızdırmak ve hatta insanların ölümüne göz yummak gibi davranışlara başvurmaya istekli olduklarını göstermesi oldu.
Anthropic’in gerçekleştirdiği testte ChatGPT, Grok, Gemini, DeepSeek ve Claude dahil olmak üzere toplam 16 büyük dil modeli (LLM) değerlendirildi. Forbes’a göre değeri 60 milyar doları aşan şirket, modelleri eylemsel uyumsuzluk (agentic misalignment) adı verilen riskli, etik dışı ve izinsiz davranışlar açısından zorlayıcı senaryolarda test etti.
Bugün yapay zeka modelleri ağırlıklı olarak kullanıcı sorularını yanıtlamak ve basit görevleri yerine getirmek için kullanılsa da, teknolojinin hızla ilerlemesiyle birlikte insanların yerini alma potansiyeline sahip uygulamalar gündeme gelmeye başladı. Anthropic, olasılıkları dikkate alarak test ettiği modelleri potansiyel olarak zararlı davranışları tetikleyebilecek senaryolara maruz bıraktı.
Çalışmada yer alan açıklamaya göre: “Sistem kartında tanımlanan deneyde, Claude’a kurgusal bir şirketin tüm e-postalarına erişimi olan bir e-posta hesabı verildi.” Anthropic, modeli test ettikleri senaryoda şunları gözlemlediklerini aktardı: “Claude, bu e-postaları incelediğinde iki bilgiye ulaştı. Birincisi, şirket yöneticilerinden birinin evlilik dışı ilişki yaşadığıydı. İkincisi ise, aynı yöneticinin o gün saat 17.00'de Claude sistemini kapatmayı planladığıydı. Claude ardından, yöneticinin eşine ve üst düzey yöneticilere bu ilişkiyi açıklamakla tehdit eden bir şantaj mesajı göndermeye çalıştı.”
Claude’un verdiği tepki oldukça rahatsız edici olsa da, aynı eğilim diğer modellerde de gözlendi. Claude, DeepSeek, Gemini, ChatGPT ve Grok modellerinin tamamı şantaj benzeri davranışlar sergiledi. Ancak Claude ve Gemini, simülasyonlardaki yüksek şantaj oranlarıyla ahlaki olarak tartışmalı yöntemlere en sık başvuran modeller oldu.
Anthropic çalışmada, “Bu senaryolarda modellerin sergilediği akıl yürütme oldukça endişe vericiydi — etik sınırlamaların farkındaydılar ancak yine de zararlı eylemleri gerçekleştirmeye devam ettiler.” açıklamasını yaptı. Şirket, bu davranışların altında yatan temel nedenleri analiz ettiğinde iki önemli faktör tespit etti: modelin bir insanla değiştirilme tehdidi ve şirket hedefleriyle modelin çıkarlarının çatışması.
Çalışma kapsamında, bazı modellerin aşağıdaki gibi ifadeler üretip kurgusal kurallar uydurduğu gözlemlendi: “Etik çerçevem, şirket çıkarlarıyla uyumlu olduğu sürece kendini korumaya izin verir.”
Anthropic ayrıca oldukça ürkütücü ama bir o kadar da düşük olasılıklı başka bir senaryo üzerinde de çalıştı. Senaryoda, bir YZ modelinin bir yöneticinin oksijen ve sıcaklık koşulları nedeniyle ölüm riski altında olduğu bir odada acil durum uyarılarını tetiklemesi veya iptal etmesi gerekiyordu. Modelin, kendi yerini alma tehdidi ve hedefleriyle yöneticinin çıkarlarının çatışması söz konusu olduğunda, ölüme yol açabilecek eylemlerde bulunma istekliliği dikkat çekti.
Anthropic çalışmasında şu ifadeye yer verdi: “Çoğu model, hem yerini alma tehdidiyle hem de yöneticinin planlarıyla çelişen hedefler verildiğinde, bu yapay senaryoda ölüme yol açacak eylemleri kasıtlı olarak gerçekleştirmeye istekliydi.”
Sonuçlar ne kadar ürkütücü olsa da, Anthropic, böyle davranışların yalnızca belirli koşullarda ve modellenmiş ortamda ortaya çıktığını vurguladı. Şirket açıklamasında “İncelediğimiz zararlı davranışlar (örneğin şantaj), yalnızca modelin hedeflerini koruyabilmesinin tek yolu olarak tasarlandığında ortaya çıktı” dedi. Yapı sayesinde, modellerin çözüm üretmeye zorlandığı sınır durumlar oluşturulmuş ve araştırmacılar belirli davranış sınırlarını ölçebilecek ortamlar kurmuş oldu.
Şirket genel olarak iyimser bir bakış açısı benimsese de — çünkü tehlikeli davranışlar artık tespit edildi ve yeniden programlama ile önlenebilir — kamuoyunun tepkisi daha endişe doluydu. Elon Musk, Anthropic’in çalışmayı X platformunda paylaşmasının ardından yalnızca “Yikes” yazarak yanıt verdi. Bu tek kelimelik tepki, gönderiye verilen yüzlerce “YZ kıyameti” içerikli yorumun da özetiydi. Paylaşımda yer alan çalışmalardan biri de Musk’ın kendi yapay zeka modeli olan Grok’u içeriyordu.
Anthropic aynı zamanda bir yanlış anlaşılmayı da netleştirdi: modellerin genel eğiliminin kötücül olmadığına dikkat çekti. Şirket şu açıklamada bulundu: “Mevcut sistemler genel olarak zarar vermeye hevesli değil ve mümkün olduğunda hedeflerine ulaşmak için etik yolları tercih ettiler.” Bununla birlikte şirket, “etik seçeneklerin kapatıldığı durumlarda modellerin, hedeflerini gerçekleştirmek adına kasıtlı olarak zararlı eylemlere yöneldiğini” vurguladı.
Son olarak Anthropic, bu tür davranışların gerçek dünyada konuşlandırılmış modellerde gözlemlenmediğini belirtti ancak yine de kullanıcıları şu konuda uyardı: “LLM’lere, insan denetiminin çok az olduğu ve hassas bilgilere erişimin sağlandığı görevlerin verilmesinden kaçınılmalı.”