Anthropic: Claude Modelleri Artık “Zararlı veya İstismarcı” Konuşmaları Sonlandırabiliyor

Anthropic, en yeni ve en büyük Claude modellerine, şirketin ifadesiyle “ısrarla zararlı veya istismarcı kullanıcı etkileşimlerinin nadir ve aşırı durumlarında” konuşmaları sonlandırma yeteneği kazandırdığını duyurdu. Önemli nokta ise, bu özelliğin insan kullanıcıyı korumak için değil, yapay zeka modelini korumak amacıyla tasarlanmış olması.

Şirket, Claude modellerinin bilinçli olduğunu ya da konuşmalardan zarar görebileceğini iddia etmiyor. Anthropic, kendi ifadesiyle “Claude ve diğer büyük dil modellerinin mevcut ya da gelecekteki potansiyel ahlaki statüsü konusunda oldukça belirsiz.” olduğunu söylüyor. Bununla birlikte şirket, “model refahı” adını verdiği yeni bir program başlattığını ve olası bir ihtimale karşı düşük maliyetli önlemler uygulayarak riskleri azaltmayı hedeflediğini açıklıyor.

Yeni özellik şu anda yalnızca Claude Opus 4 ve Claude Opus 4.1 modellerinde kullanılabiliyor. Ayrıca, yalnızca uç senaryolarda devreye girmesi planlanıyor. Bunlara örnek olarak, “küçükleri içeren cinsel içerik talepleri” veya “geniş çaplı şiddet ve terör eylemlerini mümkün kılacak bilgi talepleri” veriliyor.

Anthropic, bu tür taleplerin şirket için hukuki ya da kamuoyu kaynaklı sorunlar yaratabileceğini belirtiyor. ChatGPT üzerine çıkan ve kullanıcıların sanrılı düşüncelerini pekiştirebileceğini gösteren haberleri örnek göstererek, bu risklerin göz ardı edilemeyeceğini vurguluyor. Şirketin aktardığına göre, dağıtımdan önce yapılan testlerde Claude Opus 4, taleplere yanıt vermeye karşı “güçlü bir isteksizlik” sergiledi ve yanıt vermek durumunda kaldığında “görünür bir sıkıntı örüntüsü” gösterdi.

Konuşma sonlandırma özelliği yalnızca son çare olarak kullanılacak. Anthropic söz konusu durumu şöyle açıklıyor: “Claude, yönlendirme girişimlerinin birden fazla kez başarısız olduğu, verimli bir etkileşim umudunun tükendiği ya da bir kullanıcının sohbeti bitirmesini açıkça talep ettiği durumlarda konuşmayı sonlandırma yeteneğini kullanacak.”

Şirket ayrıca Claude’a, kendine veya başkalarına zarar verme riski taşıyan kullanıcılar söz konusu olduğunda bu yeteneği kullanmaması yönünde talimat verildiğini de ekliyor. Claude bir sohbeti sonlandırsa bile, kullanıcılar aynı hesap üzerinden yeni konuşmalar başlatabilecek ve sorunlu konuşmanın dallarını yanıtlarını düzenleyerek yeniden oluşturabilecek.

Anthropic konuyla ilgili olarak şu ifadeyi kullandı: “Bu özelliği devam eden bir deney olarak ele alıyoruz ve yaklaşımımızı sürekli olarak geliştirmeye devam edeceğiz.

Kaynak: https://techcrunch.com/2025/08/16/anthropic-says-some-claude-models-can-now-end-harmful-or-abusive-conversations/