Yapay Zeka

11/2/2025

ByteDance’den Goku: Yeni Nesil Görüntü ve Video Üretim Modeli

Yapay zeka tabanlı görüntü ve video üretiminde devrim niteliğinde bir adım atan Goku, Bytedance Inc. tarafından geliştirildi ve yeni nesil rektifiye akış (rectified flow) tabanlı Transformer modelleri ile sektörde yeni standartlar belirlemeyi hedefliyor. Bu model, hem görüntü hem de video üretiminde üstün performans sağlayarak yeni nesil medya içerik üretimini destekleyen önemli bir sistem olarak öne çıkıyor.

Goku’nun Temel Özellikleri

Goku, ortak görüntü ve video üretimi için tasarlanan bir model ailesidir. Veri işleme, model mimarisi, akış formülasyonu ve eğitim altyapısı gibi temel bileşenleri optimize ederek büyük ölçekli üretim süreçlerinde verimli ve yüksek kaliteli çıktılar sunar. Goku, görsel üretimde hem niteliksel hem de niceliksel değerlendirmelerde sektör lideri konumunda yer alıyor.

Yapılan testlerde:

  • Metinden görsele dönüşümde GenEval benchmark’ında 0.76 puan,
  • DPG-Bench’te 83.65 puan,
  • Metinden videoya dönüşümde VBench’te 84.85 puan alarak üstün performans gösterdi.

Ortak Görüntü ve Video Üretimi İçin Gelişmiş Model Mimarisi

Goku, rektifiye akış tabanlı Transformer modelleri kullanarak görüntü ve video verilerini ortak bir gösterim alanında işler. Böylece görüntü ve video üretimi arasındaki farkları ortadan kaldırarak daha akıcı ve bütünleşik medya içerikleri üretebilir.

Modelin Temel Bileşenleri:

  • 3D VAE (Varyasyonel Otomatik Kodlayıcı): Görüntü ve video verilerini ortak bir gizli uzayda (latent space) sıkıştırarak işleme sürecini hızlandırır.
  • Tam Dikkat (Full Attention) Mekanizması: Görüntü ve video öğelerini aynı ağ içinde eğiterek sorunsuz bir şekilde bütünleşik üretim sağlar.
  • FlashAttention ve Paralel Eğitim Stratejileri: Yüksek çözünürlüklü ve uzun süreli videoların üretimini daha verimli hale getirir.

Gelişmiş Eğitim ve Veri İşleme Süreci

Goku’nun başarısının arkasında gelişmiş bir veri işleme ve eğitim altyapısı bulunuyor:

  1. Geniş Kapsamlı Veri Seti:
    • 160 milyon görüntü-metin çifti ve 36 milyon video-metin çifti kullanılarak eğitildi.
    • LAION veri setinden 100 milyon halka açık örnek ve iç veri kaynaklarından 60 milyon yüksek kaliteli örnek içeriyor.
  2. Çok Aşamalı Eğitim Stratejisi:
    • Metin-Görsel Uyum Eğitimi: Model, başlangıçta metinden görüntü üretimini öğrenerek temel görsel temsilleri oluşturuyor.
    • Ortak Görüntü ve Video Eğitimi: Metin-görsel ilişkilendirme sürecini videolar ile genişleterek modelin hareket ve zaman değişkenlerini anlamasını sağlıyor.
    • Özelleştirilmiş İnce Ayar (Fine-Tuning): Görüntü ve video için özel olarak ayarlanmış ince ayar aşaması ile daha yüksek kalite elde ediliyor.
  3. Cascaded Resolution Training (Aşamalı Çözünürlük Eğitimi):
    • Model, 288 × 512 düşük çözünürlükte eğitime başlıyor ve ardından 720 × 1280 yüksek çözünürlüğe çıkarak ayrıntı kalitesini artırıyor.

Üstün Performans ve Karşılaştırmalı Sonuçlar

Goku, görüntü ve video üretiminde rakiplerine kıyasla üstün performans gösteriyor:

Metinden Görsele (T2I) Sonuçlar:

  • GenEval (0.76) ve DPG-Bench (83.65) gibi değerlendirme platformlarında en yüksek puanları elde etti.
  • DALL-E 3, Stable Diffusion XL ve PixArt gibi rakipleri geride bıraktı.

Metinden Videoya (T2V) Sonuçlar:

  • VBench’te 84.85 puan alarak en iyi video üretim modellerinden biri oldu.
  • Özellikle insan hareketi, nesne üretimi ve sahne tutarlılığı gibi alanlarda ön plana çıktı.
  • UCF-101 benchmark’ında en düşük Fréchet Video Distance (FVD) skorlarından birine ulaştı.

Geleceğe Yönelik Çalışmalar

Goku, YZ tabanlı görsel üretim modellerinin geleceğini şekillendiren bir platform olarak geliştirilmekte ve yeni sürümlerle yeteneklerini artırmaya devam edecek. Özellikle gerçekçi ve yaratıcı video içerikleri üretme yeteneği, Goku’yu medya, oyun, reklamcılık ve film endüstrilerinde önemli bir araç haline getiriyor.

Goku ekibi, gelecekte modelin ölçeklenebilirliğini artırarak yüksek çözünürlüklü video üretiminde daha fazla yenilik yapmayı hedefliyor. Açık kaynak olarak sunulan veri setleri, araştırmacılar için yeni çalışmalar yapma fırsatı tanıyor.

Kaynak: https://arxiv.org/pdf/2502.04896