Yapay Zeka
9/4/2025
San Francisco merkezli yeni bir YZ araştırma girişimi olan Deep Cogito, resmi olarak gizlilikten çıkarak Meta’nın Llama 3.2’sinden ince ayar yapılarak geliştirilen ve hibrit akıl yürütme yetenekleriyle donatılmış yeni açık kaynak büyük dil modeli (LLM) serisi Cogito v1’i tanıttı. Bu hibrit sistem, ya hızlı ve doğrudan cevap verebiliyor ya da OpenAI’nin “o” serisi ve DeepSeek R1 gibi “kendini yansıtma” kabiliyetiyle çalışabiliyor.
Şirket, modellerin kendi akıl yürütme stratejilerini yinelemeli şekilde geliştirip içselleştirmesini sağlayarak insan denetleyici sınırlamalarını aşmayı ve YZ alanında süperzekaya — yani tüm alanlarda tüm insanlardan daha akıllı yapay zeka sistemlerine — ulaşmayı hedefliyor. Şirket, “Geliştirdiğimiz tüm modeller açık kaynak olacak” diyor.
Şirketin CEO’su ve kurucu ortağı Drishan Arora, Google’da Kıdemli Yazılım Mühendisi olarak görev yapmış ve Google’ın üretken arama ürünü için LLM modelleme çalışmalarını yönettiğini söylüyor. X’te yaptığı bir paylaşımda, “Ölçeklerinde en güçlü açık modelleriz — LLaMA, DeepSeek ve Qwen dahil.” ifadesini kullanıyor.
İlk model serisi, 3 milyar, 8 milyar, 14 milyar, 32 milyar ve 70 milyar parametreli beş temel model içeriyor. Bu modeller, Hugging Face, Ollama, Fireworks ve Together AI gibi platformlar üzerinden hem paylaşım hem de API erişimiyle kullanılabiliyor.
Modeller, ticari kullanıma izin veren Llama lisans koşulları kapsamında sunuluyor. Üçüncü taraf şirketler modelleri ticari ürünlerinde kullanabiliyor; ancak aylık 700 milyon kullanıcıyı aşan kullanım durumlarında Meta’dan ücretli lisans alınması gerekiyor.
Şirket önümüzdeki aylarda 671 milyar parametreye kadar ulaşan daha büyük modeller yayımlamayı planlıyor.
Arora, şirketin eğitim yaklaşımını geleneksel insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) ya da öğretmen model damıtması yerine “yinelemeli damıtma ve güçlendirme” (IDA) olarak tanımlıyor.
IDA yönteminin temelinde, modele daha fazla işlem gücü tanınarak daha iyi çözümler üretmesinin sağlanması, ardından bu geliştirilmiş akıl yürütme süreçlerinin modelin kendi parametrelerine aktarılması yatıyor. Arora, bu yaklaşımı Google’ın AlphaGo projesindeki kendiliğinden oyun stratejisine benzetiyor; fakat doğal dil alanında uygulanmış haliyle.
Şirket, Cogito modellerini genel bilgi, matematiksel akıl yürütme ve çok dilli görevlerde açık kaynak rakipleriyle karşılaştırarak geniş kapsamlı değerlendirme sonuçlarını paylaştı. Öne çıkan veriler şunlar:
Cogito modelleri genellikle akıl yürütme modunda en yüksek başarıyı sergiliyor; ancak matematik testlerinde bazı düşüşler görülüyor. Örneğin, Cogito 70B (Standart), MATH ve GSM8K testlerinde rakiplerine eşit ya da daha iyi performans sunarken; akıl yürütme modundaki Cogito 70B, MATH testinde DeepSeek R1’den beş puandan fazla geride kaldı (83,3% vs. 89,0%).
Genel benchmark’lara ek olarak, Deep Cogito modellerinin yerleşik araç çağırma performansları da değerlendirildi. Bu yetenek, API tabanlı sistemler ve yardımcı YZ ajanları açısından gittikçe önem kazanıyor.
Bu iyileştirmeler yalnızca mimari ve eğitim verilerine değil, aynı zamanda görev odaklı son eğitim adımlarına bağlanıyor. Birçok temel model henüz bu aşamadan geçmemiş durumda.
Deep Cogito, önümüzdeki aylarda 109B, 400B ve 671B parametreli mixture-of-expert modelleri yayımlamayı planlıyor. Mevcut modellerin de daha uzun süreli eğitimlerle güncellenmesi öngörülüyor.
IDA yaklaşımı, şirketin uzun vadede insanlara ya da sabit öğretmen modellere bağımlılığı ortadan kaldırarak ölçeklenebilir öz geliştirme hedefini mümkün kılıyor.
Arora, performans benchmark’larının önemli olduğunu kabul etmekle birlikte, modellerin gerçek dünyadaki fayda ve uyarlanabilirlik seviyelerinin asıl değerlendirme ölçütü olduğunu belirtiyor ve ekliyor: “Sadece başlangıç noktasındayız; önümüzde dik bir ölçekleme eğrisi olduğuna inanıyoruz.”
Deep Cogito’nun araştırma ve altyapı ortakları arasında Hugging Face, RunPod, Fireworks AI, Together AI ve Ollama gibi kuruluşlar yer alıyor. Yayınlanan tüm modeller açık kaynak olarak erişime sunulmuş durumda.