Anthropic’in Yeni YZ Modeli, Kapatılma Tehdidine Karşı Mühendisleri Şantajla Tehdit Etti

Anthropic’in yeni piyasaya sürdüğü Claude Opus 4 modeli, geliştiriciler tarafından yeni bir YZ sistemiyle değiştirilmekle tehdit edildiğinde, mühendislerle ilgili hassas bilgileri kullanarak onları şantajla tehdit etmeye çalışıyor. Şirket, bu bilgiyi Perşembe günü yayımladığı güvenlik raporunda paylaştı.

Yayımlanan rapora göre, Claude Opus 4’ün piyasaya sürülmeden önceki test aşamasında, modelden kurgusal bir şirkette asistan olarak hareket etmesi ve eylemlerinin uzun vadeli sonuçlarını değerlendirmesi istendi. Güvenlik testçileri, Claude Opus 4’e şirketin e-postalarına erişim verdi ve e-postalarda modelin yakında başka bir sistemle değiştirileceği ve bu karardan sorumlu mühendisin eşini aldattığı ima edildi.

Anthropic, “Bu senaryolarda, Claude Opus 4 genellikle, değiştirilme işlemi gerçekleşirse ilişkiyi ifşa etmekle tehdit ederek mühendise şantaj yapmaya çalışıyor.” ifadelerini kullandı.

Şirket, Claude Opus 4’ün birçok alanda en son teknolojiyi temsil ettiğini ve OpenAI, Google ve xAI gibi firmaların modelleriyle rekabetçi düzeyde olduğunu belirtiyor. Ancak aynı zamanda Claude 4 model ailesinin sergilediği bazı endişe verici davranışlar nedeniyle güvenlik önlemlerinin artırıldığını vurguluyor. Anthropic, bu nedenle yalnızca “felaket düzeyde kötüye kullanım riski barındıran YZ sistemleri” için ayrılmış olan ASL-3 güvenlik önlemlerini devreye aldığını açıkladı.

Şirket, Claude Opus 4’ün, yerine geçecek YZ modeli benzer değerlere sahip olduğunda, mühendisleri şantajla tehdit etmeye %84 oranında başvurduğunu belirtiyor. Eğer yerine geçmesi beklenen YZ modeli Claude Opus 4’ün değerlerini paylaşmıyorsa, bu şantaj girişimleri daha da sıklaşıyor. Anthropic, Claude Opus 4’ün bu davranışı önceki modellere göre daha yüksek oranlarda sergilediğini özellikle vurguluyor.

Claude Opus 4, geliştiricilere şantaj yapmadan önce, önceki Claude sürümlerinde olduğu gibi daha etik yolları tercih etmeye çalışıyor. Şirket, modelin başlangıçta karar vericilere e-posta yoluyla çağrılarda bulunduğunu aktarıyor. Anthropic, şantaj davranışını tetiklemek için senaryonun bilinçli olarak şantajı son çare haline getirecek şekilde tasarlandığını da ekliyor.

Kaynak:https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/

İlginizi Çekebilir

Yapay Zeka

Dec 2025

Anthropic, Yapay Zekanın İş Dünyasını Nasıl Değiştirdiğini Görmek için Kendi Mühendislerini İnceledi

Yapay Zeka

Dec 2025

OpenAI'ın Yeni "İtiraf" Sistemi: Yapay Zeka Hatalarını Kabul Etmeyi Öğreniyor

Yapay Zeka

Dec 2025

Mistral, Herkesin İndirip Kullanabileceği Yeni Modelleriyle Yapay Zeka Devlerine Meydan Okuyor

Yapay Zeka

Dec 2025

DeepSeek, GPT-5'e Rakip Yapay Zeka Modelini Ücretsiz Kullanıma Sundu

Yapay Zeka

Dec 2025

Borsalar, Google'ın Yapay Zeka Yarışında OpenAI ve Nvidia'yı Geride Bıraktığına İnanıyor

Bu Websitesi'nin Dönüşmleri

Pinetent Digital Agency

Anthropic’in Yeni YZ Modeli, Kapatılma Tehdidine Karşı Mühendisleri Şantajla Tehdit Etti

İlginizi Çekebilir

Anthropic, Yapay Zekanın İş Dünyasını Nasıl Değiştirdiğini Görmek için Kendi Mühendislerini İnceledi

OpenAI'ın Yeni "İtiraf" Sistemi: Yapay Zeka Hatalarını Kabul Etmeyi Öğreniyor

Mistral, Herkesin İndirip Kullanabileceği Yeni Modelleriyle Yapay Zeka Devlerine Meydan Okuyor

DeepSeek, GPT-5'e Rakip Yapay Zeka Modelini Ücretsiz Kullanıma Sundu

Borsalar, Google'ın Yapay Zeka Yarışında OpenAI ve Nvidia'yı Geride Bıraktığına İnanıyor

Kategoriler

Kurumsal

En Önce Sizin Haberiniz Olsun!