Baidu, Yeni Nesil Multimodal Yapay Zeka Modeli ERNIE-4.5-VL’yi Tanıttı

Baidu, yapay zeka alanındaki çalışmalarında önemli bir aşamaya ulaşarak en yeni multimodal düşünme modeli ERNIE-4.5-VL-28B-A3B-Thinking versiyonunu resmi olarak yayımladı. Model yalnızca güçlü dil işleme performansı sunmakla kalmayıp, aynı zamanda “görsel düşünme” olarak tanımlanan yenilikçi bir yetenek sayesinde görselleri daha derinlemesine analiz edebilen gelişmiş bir multimodal yapı ortaya koyuyor.

Baidu’nun açıklamalarına göre ERNIE-4.5-VL, yalnızca 3B aktivasyon parametresi kullanarak yüksek seviyede hesaplama verimliliği ve esneklik sağlıyor. Tasarımın sunduğu hafif yapı, modelin farklı görevlerde hızlı yanıt oluşturmasına ve yüksek verimliliği korumasına imkân tanıyor. Böylece hızla büyüyen yapay zeka uygulamaları için gereken performans karşılanmış oluyor.

Modelin en dikkat çeken yeniliği ise “görsel düşünme” yeteneği. Özellik sayesinde ERNIE-4.5-VL, görselleri yalnızca büyütmekle kalmıyor; aynı zamanda görsel arama gerçekleştirebiliyor ve çeşitli araç çağrılarını yerine getirebiliyor. Söz konusu teknik ilerleme, metin ve görsel arasındaki etkileşimi zenginleştirerek akıllı arama, çevrim içi eğitim ve e-ticaret gibi alanlarda yeni kullanım senaryolarının önünü açıyor.

Yapay zeka teknolojilerinin hızla geliştiği dönemde Baidu, multimodal yapay zeka alanındaki liderliğini ERNIE-4.5-VL ile bir kez daha göstermiş oluyor. Modelin açık kaynak olarak yayımlanması, geliştiricilerin ve araştırmacıların multimodal yapay zekanın potansiyelini daha kolay incelemesine ve ilgili teknolojilerin gelişimini hızlandırmasına katkı sağlayacak.

ERNIE-4.5-VL-28B-A3B-Thinking’in yayımlanması, Baidu için yalnızca önemli bir teknolojik yenilik değil; aynı zamanda multimodal yapay zekada yeni bir dönemin başlangıcı niteliği taşıyor. Şirket, modelin farklı sektörlerde daha akıllı bilgi işleme yöntemleri ve problem çözme yaklaşımları sunarak geniş bir etki yaratmasını hedefliyor.

Kaynak: https://news.aibase.com/news/22703