Yapay Zeka Uygulamaları
8/9/2025
Tencent, yalnızca tek bir görüntüden üç boyutlu mekânda hareketi simüle eden videolar üretebilen yeni bir yapay zeka modelini tanıttı. HunyuanWorld-Voyager adı verilen sistem, kısa klipler üretirken derinlik bilgisini de dahil ediyor ve daha sonra bu veriler üç boyutlu nokta bulutlarına dönüştürülebiliyor. Böylece içerik üreticileri için yeni imkanlar sunuluyor ancak sonuç tam anlamıyla etkileşimli 3D modeller oluşturmaktan uzak.
HunyuanWorld-Voyager, açık ağırlıklı bir model ve 49 kareden oluşan, yaklaşık iki saniyelik video dizileri üretiyor. Kullanıcılar bu klipleri birleştirerek birkaç dakikalık kesintisiz görüntüler elde edebiliyor. Denemelerde, sanal kameranın bakış açısı değiştirildiğinde nesnelerin konumlarını koruduğunu ve ortamın sanki tamamen üç boyutluymuş gibi davrandığını belirtiyor. Sonuç her ne kadar iki boyutlu video olsa da Tencent, eklenen derinlik verisinin geleneksel modelleme tekniklerine ihtiyaç duymadan 3D rekonstrüksiyona imkan tanıdığını söylüyor.
Voyager, bir giriş görüntüsünü kullanıcı tarafından belirlenen kamera hareketleriyle birleştirerek çalışıyor. Kullanıcılar kaydırma, eğme veya sahne içinde ilerleme gibi hareketleri tanımlıyor ve sistem aynı anda hem renkli video hem de derinlik haritası üretiyor. Videoda bir nesne göründüğünde, derinlik çıktısı o nesnenin göreli uzaklığını hassas biçimde kaydediyor.
Tencent’in teknik raporunda “dünya önbelleği” olarak adlandırılan ikincil bileşen, sistem yeni kareler üretirken üç boyutlu nokta bulutlarını saklıyor. Her kamera hareketinde Voyager bu noktaları tekrar iki boyuta projekte ederek referans alıyor. Böylece üretilen kareler önceki içerikle hizalanıyor ve mekânsal tutarlılık sağlanıyor. Sistem, kareler oluşturulduktan sonra bunları 3D noktalara dönüştürerek çarpılmayı önlüyor. Bu noktalar tekrar sisteme aktarılıyor ve karşılaştırma için kullanılıyor. Geri bildirim döngüsü geometrik kararlılığı koruyor ancak hatalar zamanla birikiyor. Yöntem birkaç dakikalık tutarlı video oluşturabiliyor, fakat uzun veya karmaşık kamera hareketlerinde, özellikle 360° dönüşlerde sorunlar yaşanıyor.
Tencent, Voyager’ı gerçek dünyadan görüntüler ve Unreal Engine kullanılarak hazırlanmış sahneler dahil olmak üzere 100.000’den fazla video klibiyle eğitti. Büyük ölçekli veri seti, sisteme kameraların üç boyutlu ortamlarda nasıl hareket ettiğini öğretti. Eğitim girdileri için ayrıca otomatik bir işlem hattı geliştirildi. Bu süreçte video klipler taranarak her kare için derinlik hesaplandı ve elle etiketlenmiş verilere ihtiyaç duyulmadı.
Sistem, büyük miktarda hesaplama gücü gerektiriyor. Modeli yalnızca 540p çözünürlükte çalıştırmak için en az 60 GB GPU belleği gerekirken, en iyi sonuç için 80 GB öneriliyor. Tencent, modelin ağırlıklarını Hugging Face üzerinde yayınladı ve tekli ya da çoklu GPU yapılandırmalarını desteklediğini duyurdu. xDiT çerçevesi kullanılarak performans yatayda ölçeklenebiliyor. Sekiz GPU’lu bir sistem, tek GPU’ya kıyasla görüntüleri yaklaşık 6,7 kat daha hızlı işleyebiliyor.
Çoğu üretici video modeli kareleri tek tek üretip geometrik tutarlılığı zorlamıyor. OpenAI’nin Sora modeli örneğin görsel gerçekçiliği 3D uyumun önünde tutuyor. Voyager ise farklı bir yaklaşım benimsiyor: tam bir üç boyutlu kavrayış yerine, geri bildirimle yönlendirilen eşleştirme yöntemiyle kareler arasında geometrik tutarlılığı özellikle koruyor.
Stanford araştırmacıları tarafından geliştirilen 3D dünya üretim sistemlerini değerlendiren WorldScore ölçütünde Voyager 77,62 puan aldı. Bu, WonderWorld’ün 72,69 ve CogVideoX-I2V’nin 62,15 puanlarını geride bırakarak en yüksek skor oldu. Voyager tarz tutarlılığı ve öznel kalite açısından öne çıktı ancak kamera kontrolünde WonderWorld’ün gerisinde kaldı.
Sistemin beraberinde getirdiği önemli bir sınırlama ise lisans kısıtlamaları. Tencent’in Hunyuan ailesindeki diğer modellerde olduğu gibi Voyager’ın Avrupa Birliği, Birleşik Krallık veya Güney Kore’de kullanılması yasak. Ayrıca aylık 100 milyonun üzerinde aktif kullanıcıya hizmet veren ticari dağıtımlar için ek anlaşmalar gerekiyor.
Ortaya çıkan çıktı kalitesi, YZ tarafından üretilen ortamlar için önemli bir ilerleme temsil ediyor ancak yüksek hesaplama maliyeti ve sahne tutarlılığındaki mevcut kısıtlar, Voyager gibi sistemlerin gerçek zamanlı ve tamamen etkileşimli deneyimleri desteklemesinin zaman alacağını gösteriyor. Şimdilik sistemin, video üretimi ve deneysel 3D rekonstrüksiyon süreçlerinde en faydalı araç olması bekleniyor.
Kaynak: https://www.techspot.com/news/109328-tencent-voyager-ai-can-turn-one-photo-explorable.html