Yapay Zeka

9/4/2025

ABD’nin Yeni Açık Kaynak YZ Şirketi Deep Cogito, İlk Modellerini Yayımladı ve DeepSeek’i Şimdiden Geçti!

San Francisco merkezli yeni bir YZ araştırma girişimi olan Deep Cogito, resmi olarak gizlilikten çıkarak Meta’nın Llama 3.2’sinden ince ayar yapılarak geliştirilen ve hibrit akıl yürütme yetenekleriyle donatılmış yeni açık kaynak büyük dil modeli (LLM) serisi Cogito v1’i tanıttı. Bu hibrit sistem, ya hızlı ve doğrudan cevap verebiliyor ya da OpenAI’nin “o” serisi ve DeepSeek R1 gibi “kendini yansıtma” kabiliyetiyle çalışabiliyor.

Şirket, modellerin kendi akıl yürütme stratejilerini yinelemeli şekilde geliştirip içselleştirmesini sağlayarak insan denetleyici sınırlamalarını aşmayı ve YZ alanında süperzekaya — yani tüm alanlarda tüm insanlardan daha akıllı yapay zeka sistemlerine — ulaşmayı hedefliyor. Şirket, “Geliştirdiğimiz tüm modeller açık kaynak olacak” diyor.

Şirketin CEO’su ve kurucu ortağı Drishan Arora, Google’da Kıdemli Yazılım Mühendisi olarak görev yapmış ve Google’ın üretken arama ürünü için LLM modelleme çalışmalarını yönettiğini söylüyor. X’te yaptığı bir paylaşımda, “Ölçeklerinde en güçlü açık modelleriz — LLaMA, DeepSeek ve Qwen dahil.” ifadesini kullanıyor.

İlk model serisi, 3 milyar, 8 milyar, 14 milyar, 32 milyar ve 70 milyar parametreli beş temel model içeriyor. Bu modeller, Hugging Face, Ollama, Fireworks ve Together AI gibi platformlar üzerinden hem paylaşım hem de API erişimiyle kullanılabiliyor.

Modeller, ticari kullanıma izin veren Llama lisans koşulları kapsamında sunuluyor. Üçüncü taraf şirketler modelleri ticari ürünlerinde kullanabiliyor; ancak aylık 700 milyon kullanıcıyı aşan kullanım durumlarında Meta’dan ücretli lisans alınması gerekiyor.

Şirket önümüzdeki aylarda 671 milyar parametreye kadar ulaşan daha büyük modeller yayımlamayı planlıyor.

Arora, şirketin eğitim yaklaşımını geleneksel insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) ya da öğretmen model damıtması yerine “yinelemeli damıtma ve güçlendirme” (IDA) olarak tanımlıyor.

IDA yönteminin temelinde, modele daha fazla işlem gücü tanınarak daha iyi çözümler üretmesinin sağlanması, ardından bu geliştirilmiş akıl yürütme süreçlerinin modelin kendi parametrelerine aktarılması yatıyor. Arora, bu yaklaşımı Google’ın AlphaGo projesindeki kendiliğinden oyun stratejisine benzetiyor; fakat doğal dil alanında uygulanmış haliyle.

Değerlendirme ve karşılaştırmalar

Şirket, Cogito modellerini genel bilgi, matematiksel akıl yürütme ve çok dilli görevlerde açık kaynak rakipleriyle karşılaştırarak geniş kapsamlı değerlendirme sonuçlarını paylaştı. Öne çıkan veriler şunlar:

  • Cogito 3B (Standart), LLaMA 3.2 3B’ye göre MMLU testinde 6,7 puan (65,4% vs. 58,7%), Hellaswag testinde ise 18,8 puan (81,1% vs. 62,3%) daha yüksek skor elde etti.

  • Akıl yürütme modunda, Cogito 3B MMLU’da 72,6%, ARC testinde 84,2% başarı gösterdi; bu sonuçlar IDA’nın etkisini yansıtıyor.

  • Cogito 8B (Standart), MMLU’da 80,5% skorla LLaMA 3.1 8B’den 12,8 puan önde. MMLU-Pro’da 11 puan farkla önde ve ARC’de 88,7% başarı elde etti.

  • Akıl yürütme modunda Cogito 8B, MMLU’da 83,1%, ARC testinde ise 92,0% skorla DeepSeek R1 Distill 8B’yi tüm alanlarda geçti; yalnızca MATH testinde geride kaldı (60,2% vs. 80,6%).

  • Cogito 14B ve 32B modelleri, Qwen2.5 muadillerine göre ortalama 2–3 puan önde; Cogito 32B (Akıl Yürütme) MMLU’da 90,2%, MATH testinde 91,8% puan aldı.

  • Cogito 70B (Standart), LLaMA 3.3 70B’ye göre MMLU testinde 6,4 puan önde (91,7% vs. 85,3%) ve LLaMA 4 Scout 109B’yi genel benchmark ortalamalarında geçti (54,5% vs. 53,3%).

  • Cogito 70B (Akıl Yürütme), DeepSeek R1 Distill 70B’den genel bilgi ve çok dilli görevlerde daha yüksek skor aldı; MMLU’da 91,0%, MGSM testinde 92,7% başarı sağladı.

Cogito modelleri genellikle akıl yürütme modunda en yüksek başarıyı sergiliyor; ancak matematik testlerinde bazı düşüşler görülüyor. Örneğin, Cogito 70B (Standart), MATH ve GSM8K testlerinde rakiplerine eşit ya da daha iyi performans sunarken; akıl yürütme modundaki Cogito 70B, MATH testinde DeepSeek R1’den beş puandan fazla geride kaldı (83,3% vs. 89,0%).

Yerleşik araç çağırma yetenekleri

Genel benchmark’lara ek olarak, Deep Cogito modellerinin yerleşik araç çağırma performansları da değerlendirildi. Bu yetenek, API tabanlı sistemler ve yardımcı YZ ajanları açısından gittikçe önem kazanıyor.

  • Cogito 3B, dört farklı araç çağırma görevini (basit, paralel, çoklu, paralel-çoklu) doğal olarak destekliyor; LLaMA 3.2 3B ise bu özelliğe sahip değil.

  • Cogito 3B, basit araç çağırmada %92,8; çoklu çağırmalarda ise %91 üzeri başarı gösterdi.

  • Cogito 8B, tüm araç çağırma türlerinde %89’un üzerinde başarı sağladı. LLaMA 3.1 8B'nin bu alanlardaki skorları %35 ila %54 arasında değişiyor.

Bu iyileştirmeler yalnızca mimari ve eğitim verilerine değil, aynı zamanda görev odaklı son eğitim adımlarına bağlanıyor. Birçok temel model henüz bu aşamadan geçmemiş durumda.

Gelecek planları

Deep Cogito, önümüzdeki aylarda 109B, 400B ve 671B parametreli mixture-of-expert modelleri yayımlamayı planlıyor. Mevcut modellerin de daha uzun süreli eğitimlerle güncellenmesi öngörülüyor.

IDA yaklaşımı, şirketin uzun vadede insanlara ya da sabit öğretmen modellere bağımlılığı ortadan kaldırarak ölçeklenebilir öz geliştirme hedefini mümkün kılıyor.

Arora, performans benchmark’larının önemli olduğunu kabul etmekle birlikte, modellerin gerçek dünyadaki fayda ve uyarlanabilirlik seviyelerinin asıl değerlendirme ölçütü olduğunu belirtiyor ve ekliyor: “Sadece başlangıç noktasındayız; önümüzde dik bir ölçekleme eğrisi olduğuna inanıyoruz.”

Deep Cogito’nun araştırma ve altyapı ortakları arasında Hugging Face, RunPod, Fireworks AI, Together AI ve Ollama gibi kuruluşlar yer alıyor. Yayınlanan tüm modeller açık kaynak olarak erişime sunulmuş durumda.

Kaynak: https://venturebeat.com/ai/new-open-source-ai-company-deep-cogito-releases-first-models-and-theyre-already-topping-the-charts/

https://www.deepcogito.com/research/cogito-v1-preview