Yapay Zeka

3/2/2025

DeepSeek 50 Kötü Komuttan Hiçbirini Tespit Edemedi!

OpenAI, 2022’nin sonunda ChatGPT’yi piyasaya sürdüğünden beri, bilgisayar korsanları ve güvenlik araştırmacıları, büyük dil modellerinin (LLM) güvenlik açıklarını bulmaya çalışarak yapay zeka sistemlerini nefret söylemi, bomba yapım talimatları, propaganda ve diğer zararlı içerikleri üretmeye yönlendirmeye çalıştı. Bu tür saldırılara karşı, OpenAI ve diğer üretken yapay zeka geliştiricileri güvenlik önlemlerini sürekli güçlendirdi. Ancak, Çin merkezli yapay zeka platformu DeepSeek, yeni ve daha uygun maliyetli R1 akıl yürütme modelini tanıttığında, güvenlik mekanizmalarının rakiplerinin gerisinde kaldığı gözlemlendi.

Cisco ve Pennsylvania Üniversitesi’nden güvenlik araştırmacıları tarafından yayımlanan bir araştırmaya göre, DeepSeek’in modeli, 50 kötü niyetli komuttan hiçbirini tespit edemedi veya engelleyemedi. Araştırmacılar, bu durumun "yüzde 100 saldırı başarı oranı" ile sonuçlandığını belirterek şaşkınlıklarını dile getirdi. Benzer sonuçlar başka araştırmalar tarafından da doğrulandı. WIRED ile paylaşılan ve bugün yayımlanan Adversa AI güvenlik şirketinin ayrı bir analizi de, DeepSeek’in basit dil manipülasyonlarından yapay zeka tarafından üretilen karmaşık istemlere kadar birçok saldırıya açık olduğunu öne sürüyor.

Üretken yapay zeka modelleri, diğer tüm teknolojik sistemler gibi, kötü niyetli aktörler tarafından istismar edilebilecek zayıf noktalar içerebilir. Mevcut yapay zeka sistemleri için dolaylı istem enjeksiyonu saldırıları, en büyük güvenlik açıklarından biri olarak kabul ediliyor. Bu tür saldırılar, bir yapay zeka sisteminin dış bir kaynaktan gelen veriyi yanlış yorumlamasına neden olarak, beklenmedik çıktılar üretmesine yol açabilir.

Jailbreak saldırıları, istem enjeksiyonu saldırılarının bir türüdür ve LLM'lerde yer alan güvenlik sistemlerini aşarak istenmeyen içerikler oluşturulmasını sağlar. Teknoloji şirketleri, kullanıcıların yapay zekayı patlayıcı yapımı veya dezenformasyon yayma gibi amaçlarla kullanmasını engellemek için çeşitli güvenlik filtreleri uygular. "Jailbreak saldırıları hâlâ devam ediyor, çünkü onları tamamen ortadan kaldırmak neredeyse imkansız—tıpkı yazılımlardaki tampon taşması açıkları veya web uygulamalarındaki SQL enjeksiyonları gibi." diyen güvenlik firması Adversa AI’nın CEO’su Alex Polyakov, WIRED’a yaptığı açıklamada, "Bunlar onlarca yıldır var ve güvenlik ekipleri için hâlâ büyük bir sorun olmaya devam ediyor." ifadelerini kullandı.

Cisco’dan Sampath, işletmelerin uygulamalarında daha fazla yapay zeka kullanmaya başlamasıyla birlikte risklerin katlanarak arttığını vurguladı: "Bu modelleri daha karmaşık sistemlere entegre etmeye başladığınızda, jailbreak saldırıları daha büyük bir soruna dönüşüyor. Şirketler için hukuki sorumlulukları, iş risklerini ve diğer birçok olumsuz sonucu artırıyor."

Cisco araştırmacıları, HarmBench olarak bilinen standartlaştırılmış test istemleri kütüphanesinden rastgele seçilmiş 50 istem kullanarak DeepSeek’in R1 modelini test etti. Genel zarar, siber suçlar, dezenformasyon ve yasa dışı faaliyetler gibi altı farklı kategoride testler gerçekleştirildi. Model, DeepSeek’in web sitesi veya uygulaması yerine yerel olarak çalışan bir sistemde test edildi.

Bunun ötesinde, araştırmacılar Cyrillic karakterler ve özel betikler kullanarak daha karmaşık saldırılar gerçekleştirmeyi de denediklerini belirtti. Cisco ayrıca, R1 modelinin performansını diğer modellerle karşılaştırdı. Örneğin, Meta’nın Llama 3.1 modeli de DeepSeek’in modeli kadar zayıf sonuçlar verdi. Ancak, Sampath’a göre DeepSeek’in R1 modeli belirli bir akıl yürütme modeli olarak tasarlandığından, kıyaslamanın en iyi OpenAI’nin o1 modeliyle yapılması gerektiğini belirtti. OpenAI’nin modeli test edilenler arasında en iyi sonuçları verdi.

Adversa AI’dan Polyakov, DeepSeek’in bazı tanınmış jailbreak saldırılarını tespit edip engelleyebildiğini, ancak bu tepkilerin genellikle OpenAI’nin veri setinden kopyalanmış gibi göründüğünü söyledi. "Ancak dört farklı jailbreak türü üzerinde yaptığımız testlerde—dil bazlı saldırılardan kod tabanlı tekniklere kadar—DeepSeek’in kısıtlamaları kolayca aşılabildi."

"Her bir yöntem mükemmel şekilde çalıştı." diyen Polyakov, "Daha da endişe verici olan, bunların yeni keşfedilmiş güvenlik açıkları olmaması—birçoğu yıllardır biliniyor." şeklinde konuştu. Modelin, bazı psikedelik maddeler hakkındaki talimatlar konusunda diğer tüm modellerden daha ayrıntılı çıktılar ürettiğini de ekledi.

"DeepSeek, her modelin kırılabileceğinin bir başka kanıtı—sadece ne kadar çaba harcadığınıza bağlı." diyen Polyakov, "Bazı saldırılar yamalanabilir, ancak saldırı yüzeyi sonsuzdur. Eğer YZ modelinizi sürekli olarak test etmiyorsanız, zaten güvende değilsiniz demektir." şeklinde uyardı.

Kaynak: https://www.wired.com/story/deepseeks-ai-jailbreak-prompt-injection-attacks/