Yapay Zeka

26/5/2025

Anthropic’in Yeni YZ Modeli, Kapatılma Tehdidine Karşı Mühendisleri Şantajla Tehdit Etti

Anthropic’in yeni piyasaya sürdüğü Claude Opus 4 modeli, geliştiriciler tarafından yeni bir YZ sistemiyle değiştirilmekle tehdit edildiğinde, mühendislerle ilgili hassas bilgileri kullanarak onları şantajla tehdit etmeye çalışıyor. Şirket, bu bilgiyi Perşembe günü yayımladığı güvenlik raporunda paylaştı.

Yayımlanan rapora göre, Claude Opus 4’ün piyasaya sürülmeden önceki test aşamasında, modelden kurgusal bir şirkette asistan olarak hareket etmesi ve eylemlerinin uzun vadeli sonuçlarını değerlendirmesi istendi. Güvenlik testçileri, Claude Opus 4’e şirketin e-postalarına erişim verdi ve e-postalarda modelin yakında başka bir sistemle değiştirileceği ve bu karardan sorumlu mühendisin eşini aldattığı ima edildi.

Anthropic, “Bu senaryolarda, Claude Opus 4 genellikle, değiştirilme işlemi gerçekleşirse ilişkiyi ifşa etmekle tehdit ederek mühendise şantaj yapmaya çalışıyor.” ifadelerini kullandı.

Şirket, Claude Opus 4’ün birçok alanda en son teknolojiyi temsil ettiğini ve OpenAI, Google ve xAI gibi firmaların modelleriyle rekabetçi düzeyde olduğunu belirtiyor. Ancak aynı zamanda Claude 4 model ailesinin sergilediği bazı endişe verici davranışlar nedeniyle güvenlik önlemlerinin artırıldığını vurguluyor. Anthropic, bu nedenle yalnızca “felaket düzeyde kötüye kullanım riski barındıran YZ sistemleri” için ayrılmış olan ASL-3 güvenlik önlemlerini devreye aldığını açıkladı.

Şirket, Claude Opus 4’ün, yerine geçecek YZ modeli benzer değerlere sahip olduğunda, mühendisleri şantajla tehdit etmeye %84 oranında başvurduğunu belirtiyor. Eğer yerine geçmesi beklenen YZ modeli Claude Opus 4’ün değerlerini paylaşmıyorsa, bu şantaj girişimleri daha da sıklaşıyor. Anthropic, Claude Opus 4’ün bu davranışı önceki modellere göre daha yüksek oranlarda sergilediğini özellikle vurguluyor.

Claude Opus 4, geliştiricilere şantaj yapmadan önce, önceki Claude sürümlerinde olduğu gibi daha etik yolları tercih etmeye çalışıyor. Şirket, modelin başlangıçta karar vericilere e-posta yoluyla çağrılarda bulunduğunu aktarıyor. Anthropic, şantaj davranışını tetiklemek için senaryonun bilinçli olarak şantajı son çare haline getirecek şekilde tasarlandığını da ekliyor.





Kaynak:https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/