Alibaba Wan2.5-Preview’yi Duyurdu: Çoklu Mod ve Görsel Üretim Özellikleri

Alibaba, görsel üretim teknolojilerinde yeni adımını Wan2.5-Preview ile duyurdu. Model, mimari yenilikler ve multimodal yaklaşımıyla dikkat çekiyor.

Mimari Özellikler

Wan2.5-Preview, yerel multimodal yapı üzerine inşa edildi. Bu yapı, hem anlamlandırma hem de üretim için ortak bir çerçeve sunarak metin, görüntü, video ve ses giriş–çıkışlarını destekliyor. Ortak multimodal eğitim, metin, ses ve görsel verilerin birlikte işlenmesini sağlayarak modal uyumunu güçlendiriyor. Böylece ses–görüntü senkronizasyonu mümkün hale gelirken yönerge takibi de daha gelişmiş seviyeye taşınıyor. Ayrıca model, insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) kullanarak insan tercihleriyle daha fazla uyum sağlayacak şekilde tasarlandı.

Video Üretim Yetenekleri

Model, ses–görüntü senkronizasyonu destekleyen yüksek tutarlılığa sahip video üretimi sunuyor. Çoklu sesler, efektler ve arka plan müzikleriyle videolar oluşturulabiliyor. Metin, görsel ve ses kaynakları girdi olarak kullanılabiliyor. Yeni sinematik kontrol sistemi, 1080p çözünürlükte ve 10 saniye uzunluğunda videolar üretmeye olanak tanıyor.

Görsel Üretim ve Düzenleme

Wan2.5-Preview, foto-gerçekçi kaliteden farklı sanatsal tarzlara kadar geniş yelpazede gelişmiş görsel üretim sağlıyor. Tipografi, profesyonel seviyede grafikler ve çeşitli yaratıcı içerikler destekleniyor. Görsel düzenleme tarafında ise çoklu kavram birleştirme, malzeme dönüştürme ve ürün renk değişimi gibi görevler için konuşmaya dayalı, yönerge tabanlı düzenleme imkânı tanınıyor. Piksel seviyesinde hassasiyet sunan bu özellik, tasarım ve üretim süreçlerinde farklı senaryolara uygulanabiliyor.

Kaynak: https://x.com/Alibaba_Wan/status/1970697244740591917