Yapay Zeka

21/5/2025

Google’ın Veo 3 YZ Modeli Sesli Video Üretebiliyor

Google, bu yılki I/O geliştirici konferansında yeni medya üretim modellerini tanıttı. En dikkat çeken yeniliklerden biri, videoları sesli olarak üretebilen ilk versiyon olan Veo 3 oldu. Örneğin model, kuşların ötüşünü içeren bir kuş videosu veya arka planda trafik seslerinin duyulduğu bir şehir sahnesi oluşturabiliyor. Google, Veo 3’ün gerçek dünya fiziği ve dudak senkronizasyonu konusunda da oldukça başarılı olduğunu ifade ediyor.

Şu anda Veo 3 yalnızca ABD'deki Gemini Ultra aboneleri için Gemini uygulaması üzerinden ve Vertex AI platformundaki kurumsal kullanıcılar tarafından erişilebilir durumda. Ayrıca model, Google’ın yeni sinematik içerik üretim aracı Flow içinde de kullanılabiliyor.

Flow aracı, Veo, Imagen ve Gemini modellerini bir araya getirerek sinematik sahneler ve videolar oluşturmak amacıyla tasarlandı. Kullanıcılar, oluşturmak istedikleri içeriği doğal bir dille tanımlayabiliyor ve Flow, tanıma göre otomatik olarak sahne üretimine başlıyor. Şirket, aracın şimdilik yalnızca ABD’deki Google AI Pro ve Ultra abonelerine sunulacağını, ancak kısa süre içinde daha fazla ülkede de kullanıma açılacağını belirtti.

Google, yeni Veo 3 modelini tanıtmış olsa da, Veo 2’yi kullanımdan kaldırmış değil. Kullanıcılar, Veo 2’ye insan figürleri, sahneler, tarzlar ve nesne görselleri yükleyerek istenen çıktılar için referans verebiliyor. Ayrıca Flow aracı üzerinden sahne döndürme, belirli nesnelere yakınlaştırma, portre ile manzara formatları arasında geçiş yapma ve video içeriğine nesne ekleme ya da çıkarma gibi kamera kontrolleri de sunuluyor.

Etkinlikte ayrıca Imagen 4 adlı yeni görüntü üretim modeli de tanıtıldı. Google, Imagen 4’ün karmaşık kumaşlar ve hayvan tüyleri gibi ince detayları "olağanüstü netlikle" işlediğini ve fotogerçekçi ile soyut görselleri yüksek başarıyla oluşturabildiğini açıkladı. Yeni model, önceki sürümlerden farklı olarak tipografi üretiminde de oldukça gelişmiş durumda ve farklı en-boy oranlarında, 2K çözünürlüğe kadar görseller oluşturabiliyor.

Imagen 4 şu anda Gemini uygulaması, Vertex AI ve Google’ın Workspace uygulamaları (Docs ve Slides dahil) üzerinden erişilebilir. Şirket ayrıca Imagen 4’ün, Imagen 3’e göre 10 kat daha hızlı çalışacak bir versiyonunu da yakında kullanıma sunmayı planlıyor.

Google, YZ tarafından oluşturulan içeriklerin tespit edilmesini kolaylaştırmak amacıyla SynthID Detector adlı bir araç da tanıttı. Kullanıcılar, YZ ile üretildiğini düşündükleri medya dosyalarını bu portala yükleyerek, içeriğin SynthID – Google’ın filigranlama ve tanımlama aracı – içerip içermediğini öğrenebiliyor. Google daha önce bu aracı açık kaynak olarak paylaşmıştı. Ancak tüm görüntü üretim araçları SynthID kullanmadığı için, bu sistem her zaman tüm YZ içeriklerini tespit edemeyebilir.

Google’ın yıllık I/O geliştirici konferansı 20 Mayıs Salı günü başladı. Açıklanan diğer yenilikler arasında, YZ destekli Flow film oluşturma aracı, Google Meet'te gerçek zamanlı çeviri, yüklenen fotoğraflara dayalı sanal kıyafet denemeleri, Project Astra’ya yapılan bilgisayarla görme iyileştirmeleri ve daha fazlası yer alıyor. Etkinliğin gelişmeleri, Engadget’ın canlı blog yayını üzerinden takip edilebiliyor. Ayrıca Google, Android Show video yayını aracılığıyla geçen hafta Android 16 ile ilgili bazı önemli duyuruları da önceden paylaşmıştı.

Kaynak:https://www.engadget.com/ai/everything-announced-at-the-google-io-2025-keynote-171514495.html?src=rss