DeepSeek, Görsel Algı Kullanarak Metni Sıkıştıran Çok Modlu Yapay Zeka Modelini Tanıttı

Çin merkezli yapay zeka girişimi DeepSeek, uzun ve karmaşık metinleri çok daha az işlem birimiyle (token) analiz edebilen yeni bir çok modlu yapay zeka modeli geliştirdiğini duyurdu. DeepSeek-OCR adı verilen açık kaynaklı model, metin verilerini sıkıştırmak için görsel algıyı bir bilgi aktarım ortamı olarak kullanıyor. Böylelikle büyük dil modelleri (LLM) devasa miktarda metni işlerken hesaplama maliyetini artırmadan verimliliği koruyabiliyor.

Şirket açıklamasında, “DeepSeek-OCR ile vizyon-metin sıkıştırmasının farklı tarihsel bağlamlarda yedi ila yirmi katlık token azaltımı sağladığını ve uzun bağlam sorunlarına umut verici bir yön sunduğunu” belirtti. Bu yöntem, DeepSeek’in yapay zeka verimliliğini artırma ve maliyetleri düşürme stratejisinin bir parçası olarak öne çıkıyor. Aynı yaklaşım, şirketin daha önce piyasaya sürdüğü V3 ve R1 modellerinin geliştirilme sürecinde de benimsenmişti.

DeepSeek-OCR, iki temel bileşenden oluşuyor: DeepEncoder ve DeepSeek3B-MoE-A570M. DeepEncoder, modelin çekirdek motoru olarak görev yapıyor. Yüksek çözünürlüklü girdilerle çalışırken düşük aktivasyon düzeyini koruyarak token sayısını azaltan güçlü sıkıştırma oranlarına ulaşıyor. Çözücü (decoder) kısmı ise 570 milyon parametreye sahip bir Mixture-of-Experts (MoE) mimarisiyle çalışıyor. Bu sistem, verileri farklı “uzman” alt ağlara bölerek orijinal metnin yeniden oluşturulmasını sağlıyor.

Model, yalnızca klasik görsel görevlerde (örneğin nesne tanıma veya görüntü açıklama) değil, aynı zamanda tablolar, matematiksel formüller ve geometrik diyagramlar gibi yüksek yapısal içeriğe sahip görsel verilerin çözümlemesinde de etkili. Şirket, özelliğin bilhassa finans ve bilim alanlarında büyük fayda sağlayabileceğini açıkladı.

Benchmark testlerine göre, metin token sayısının görsel token boyutunun 10 katı veya daha az olduğu senaryolarda DeepSeek-OCR %97 doğruluk oranı elde etti. Sıkıştırma oranı 20 kata çıktığında bile model %60 doğruluk koruyarak bilgiyi aşırı sıkıştırma altında bile kaybetmediğini gösterdi.

OmniDocBench adlı belge anlama testlerinde DeepSeek-OCR, GOT-OCR 2.0 ve MinerU 2.0 gibi önde gelen OCR modellerini geride bıraktı ve çok daha az token kullanarak daha yüksek doğruluk sağladı. Şirket, sistemin tek bir Nvidia A100-40G GPU üzerinde günde 200.000’den fazla sayfa eğitim verisi üretebildiğini belirtti. Bu da modelin ölçeklenebilir ultra uzun bağlam işleme kapasitesini mümkün kılıyor.

DeepSeek-OCR, yakın zamandaki içerikleri yüksek çözünürlükte, daha eski bağlamları ise daha az hesaplama kaynağıyla işleyerek bilgi korunumu ve verimlilik arasında denge kuran teorik olarak sınırsız bağlam mimarilerine kapı aralıyor.

Eylül sonunda şirket, DeepSeek V3.2-Exp adlı “deneysel” sürümünü de tanıtmıştı. Söz konusu sürüm, eğitim ve çıkarım verimliliğini artırırken API maliyetlerini önemli ölçüde azaltan yenilikler içeriyordu. DeepSeek-OCR ise, metin işleme kapasitesini görsel algı ile birleştirerek yapay zekada yeni bir verimlilik paradigması oluşturuyor.

Kaynak: https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input