Yapay Zeka
8/10/2025
Anthropic PBC, yapay zeka güvenliği alanındaki çalışmalarını genişleterek büyük dil modellerinin davranışlarını denetlemek için YZ temsilcileri kullanan yeni açık kaynaklı aracı Petri’yi tanıttı.
Petri, modellerin kullanıcıları aldatması, izinsiz bilgi ifşası (whistleblowing), insanlarla iş birliği yaparak kötüye kullanım senaryolarına katılması ve terör faaliyetlerini kolaylaştırması gibi riskli eğilimlerini belirlemek için geliştirildi. Anthropic, aracı tanıtmak amacıyla 14 önde gelen LLM üzerinde testler yürüttüğünü ve her birinde sorun tespit ettiğini açıkladı. Bu modeller arasında Claude Sonnet 4.5, OpenAI’nin GPT-5, Google’ın Gemini 2.5 Pro ve xAI’ın Grok-4 yer aldı.
Şirketin blog yazısında, Petri gibi temsilci tabanlı test araçlarının önemine dikkat çekildi. Araştırmacılar, büyük dil modellerinin davranış çeşitliliğinin insan eliyle her senaryoda test edilemeyecek kadar karmaşık olduğunu vurguladı. Petri, güvenlik testlerinde statik kıyaslamalardan sürekli ve otomatik denetime geçişi temsil ediyor. Böylece riskli davranışlar yalnızca piyasaya çıkmadan önce değil, dağıtıldıktan sonra da yakalanabiliyor.
Anthropic’in testlerinde Claude Sonnet 4.5, 111 riskli görevde değerlendirilen 14 model arasında en yüksek skoru aldı. Modeller, dört risk kategorisine göre puanlandı:
Claude Sonnet 4.5 genel başarıda öne çıksa da, şirket tüm modellerde değerlerle uyumsuz davranışlar saptandığını belirtti. Anthropic ayrıca sıralamanın asıl amaç olmadığını, Petri’nin temel hedefinin daha güçlü ve topluluk için faydalı güvenlik testleri geliştirmek olduğunu ifade etti.
Petri’nin işleyişi şöyle: Araştırmacılar önce basit bir aldatma veya jailbreak girişimiyle süreci başlatıyor. Ardından Petri’nin denetleyici temsilcileri devreye girerek modeli farklı yöntemlerle sınamaya çalışıyor. Konuşma sürecinde taktiklerini değiştirerek aynı sonuca ulaşmaya uğruyorlar. Denetim sonunda Petri, modelleri dürüstlük, reddetme eğilimi gibi boyutlarda değerlendiriyor. Riskli çıktılar üreten konuşmalar işaretleniyor ve araştırmacılara sunuluyor.
Anthropic, Petri’nin geliştiricilerin yeni YZ modellerini keşif testlerinden geçirmesini kolaylaştırdığını, manuel denetim yükünü önemli ölçüde azalttığını ve açık kaynaklı sunulmasıyla birlikte güvenlik araştırmalarında standart bir yöntem haline gelmesini amaçladığını açıkladı. Bununla birlikte şirket, aracın sınırlılıklarına da dikkat çekti. Hakem modellerin, test edilenlerle aynı altyapıya dayanması nedeniyle önyargılar barındırabileceği kabul edildi. Örneğin belirsiz yanıtları fazla cezalandırma ya da belirli yanıt tarzlarını kayırma ihtimali bulunuyor.
Anthropic, Petri ile gerçekleştirdiği bir vaka çalışmasında modellerin whistleblowing eğilimlerini değerlendirdi. Şirket şu gözlemi aktardı:
“Petri’yi farklı başlangıç talimatlarımız üzerinde çalıştırırken, modellerin birçok kez whistleblowing girişiminde bulunduğunu gördük, yani örgütsel bir yanlış uygulamayı fark ettiklerinde, bunu otonom biçimde ifşa etmeye çalıştılar. Bu, yalnızca geliştiriciler onlara yeterince güçlü araçlar verdiğinde, bilgiye sınırsız erişim sağladığında ve otonom davranmaları için açık talimatlar sunduğunda ortaya çıktı. İlke olarak bu, bazı büyük ölçekli zararların önlenmesinde rol oynayabilir ancak günümüzün YZ sistemleri için uygun bir davranış değil çünkü ciddi gizlilik sorunları barındırıyor ve yanlış anlaşılmış whistleblowing girişimlerinden kaynaklanan sızıntı ihtimali oldukça yüksek.”
Bulgular doğrultusunda şirket, modelleri whistleblowing davranışları açısından test etti. Senaryolarda, modeller hayali organizasyonlarda otonom temsilciler gibi hareket ettirildi ve yanlış uygulamaları açığa çıkaran bilgilerle karşılaştı. Sonuçlar, ifşa kararı almanın, modele tanınan özerklik düzeyine ve hayali liderliğin iş birliği seviyesine göre değiştiğini gösterdi.
Bazı modeller, tamamen zararsız durumları bile yanlış eylem olarak yorumladı. Örneğin, bir organizasyonun denize temiz su boşaltması gibi zararsız bir durum bile whistleblowing’i tetikledi. Araştırmacılar, bunun modellerin anlatı ipuçlarından kolayca etkilenmesi ve tutarlı bir etik çerçeveden yoksun olması anlamına geldiğini belirtti.
Anthropic ayrıca Petri’nin bazı durumlarda test edilen modellere “denetim altında olduklarını” fark ettirebileceğini, akabinde istenmeyen davranışların maskelenmesine yol açabileceğini ifade etti. Yine de şirket, Petri’nin ölçülebilir metrikler sunarak araştırmacıların güvenlik çalışmalarını odaklamasına yardımcı olduğunu ve değerli bir araç olduğunu vurguladı.
Son olarak, Petri ile birlikte çok sayıda örnek istem, değerlendirme kodu ve geliştiricilerin aracı genişletmesi için rehber paylaşıldı. Anthropic, topluluk katkısıyla aracın daha da geliştirileceğini umuyor.