DeepSeek, Yapay Zeka Modeli R1’in Eğitim Maliyetini 294.000 Dolar Olarak Açıkladı

Çinli yapay zeka geliştiricisi DeepSeek, R1 modelinin eğitim maliyetinin 294.000 dolar olduğunu açıkladı. ABD’li rakiplerle kıyaslandığında çok daha düşük bir rakam olarak öne çıkan bu bilgi, Pekin’in yapay zeka geliştirme yarışındaki konumuna ilişkin tartışmaları yeniden alevlendirebilir.

Hangzhou merkezli şirketten gelen nadir güncelleme, R1’in eğitim maliyetine dair ilk resmi tahmin olarak, çarşamba günü yayımlanan Nature dergisindeki hakemli makalede yer aldı. DeepSeek’in ocak ayında daha düşük maliyetli yapay zeka sistemlerini tanıtmasının ardından, küresel yatırımcılar teknoloji hisselerini elden çıkarmış ve yeni modellerin Nvidia gibi liderlerin hakimiyetini tehdit edebileceğinden endişe etmişti. O zamandan bu yana şirket ve kurucu Liang Wenfeng kamuoyunda fazla görünmezken yalnızca birkaç ürün güncellemesi paylaşmıştı.

Nature makalesinde, Liang’ın da yazarları arasında bulunduğu çalışmada, akıl yürütmeye odaklı R1 modelinin eğitim maliyetinin 294.000 dolar olduğu, sürecin 512 adet Nvidia H800 çipi kullanılarak gerçekleştirildiği belirtildi. Makalenin ocak ayında yayımlanan önceki versiyonunda bu bilgi yer almamıştı.

Yapay zeka sohbet robotlarını besleyen büyük dil modellerinin eğitim maliyeti, haftalar veya aylar süren yoğun işlem gücüyle metin ve kod verilerinin işlenmesi için kullanılan güçlü çip kümelerinin çalıştırılmasıyla ortaya çıkıyor. OpenAI CEO’su Sam Altman, 2023 yılında temel modellerin eğitim maliyetinin “100 milyon doların çok üzerinde” olduğunu söylemişti, ancak şirket bugüne kadar hiçbir sürüm için ayrıntılı rakam paylaşmadı.

DeepSeek’in geliştirme maliyetleri ve kullandığı teknolojiye ilişkin açıklamaları, bazı ABD’li şirketler ve yetkililer tarafından sorgulandı. Şirketin kullandığını belirttiği H800 çipleri, Ekim 2022’de ABD’nin daha güçlü H100 ve A100 çiplerinin Çin’e ihracatını yasaklamasının ardından Nvidia tarafından Çin pazarı için özel olarak tasarlanmıştı. Haziran ayında Reuters’a konuşan ABD’li yetkililer, DeepSeek’in ihracat kontrollerine rağmen “büyük miktarda H100 çipine erişim sağladığını” öne sürmüştü. Nvidia ise DeepSeek’in yalnızca yasal yollarla temin edilmiş H800 çiplerini kullandığını belirtmişti.

Nature makalesine eşlik eden ek belgelerde, şirket ilk kez A100 çiplerine sahip olduğunu kabul etti ve bunları geliştirme sürecinin hazırlık aşamalarında kullandığını açıkladı. Araştırmacılar, “DeepSeek-R1 üzerine yaptığımız araştırmalarda, daha küçük bir modelle yapılacak deneyler için A100 GPU’larını kullandık” dedi. Ardından toplam 80 saat boyunca, 512 H800 çipinden oluşan kümede R1 modelinin eğitildiğini ekledi. Reuters daha önce, DeepSeek’in Çin’deki en parlak yetenekleri kendine çekebilmesinin nedenlerinden birinin, şirketin A100 süperbilgisayar kümesi işleten az sayıdaki yerli firmadan biri olması olduğunu bildirmişti.

Model Distilasyonu Tartışması

DeepSeek ayrıca, ABD’li yapay zeka uzmanlarının ve Beyaz Saray danışmanlarının ocak ayında ortaya attığı, şirketin OpenAI modellerini kendi modellerine “bilerek damıttığı” iddialarına ilk kez, doğrudan olmasa da yanıt verdi. DeepSeek, distilasyon yöntemini savunarak, yöntemin hem daha düşük maliyetle hem de daha iyi performans sağlayarak enerji yoğun yapay zeka teknolojilerine daha geniş erişim sunduğunu ifade etti.

Distilasyon, bir yapay zeka sisteminin başka bir yapay zeka sisteminden öğrenmesini sağlayan bir yöntem olarak tanımlanıyor. Böylece yeni model, önceki modelin eğitiminde kullanılan büyük zaman ve işlem gücü yatırımlarından dolaylı şekilde faydalanabiliyor. DeepSeek, ocak ayında yaptığı açıklamada bazı kendi modellerinin damıtılmış versiyonları için Meta’nın açık kaynaklı Llama modelini kullandığını da belirtmişti.

Şirket, Nature’da yayımlanan makalede ayrıca V3 modelinin eğitim verilerinin, OpenAI tarafından üretilmiş önemli sayıda cevabı barındıran web sayfalarından elde edildiğini kabul etti ve söz konusu durumun temel modelin diğer güçlü modellerden dolaylı yoldan bilgi edinmesine yol açabileceğini belirterek, “Bu durum kasıtlı değil, tesadüfi olarak gerçekleşti.” ifadesini kullandı.

Kaynak: https://www.reuters.com/world/china/chinas-deepseek-says-its-hit-ai-model-cost-just-294000-train-2025-09-18/