OpenAI, Ses ve Gerçekçi Fizik Özellikleriyle Sora 2 Video Modelini Tanıttı

OpenAI, en son video üretim modeli olan Sora 2’yi duyurdu. Yeni model, oluşturulan videoya uyumlu yapay zeka tarafından üretilmiş ses desteği de sunuyor.

Aynı zamanda şirket, Sora adını taşıyan yeni bir iOS uygulaması yayınladı. Bu uygulama, kullanıcıların kendilerini veya arkadaşlarını videolara eklemesine olanak tanıyan yeni “Cameo” özelliğini içeriyor. OpenAI, izinsiz kimlik kullanımını önlemek için güçlü güvenlik ve kimlik doğrulama önlemleri bulunduğunu vurguladı.

Şirket ayrıca, Sora 2’nin üçüncü taraf video düzenleme uygulamalarına entegre edilmesini sağlayacak bir API üzerinde çalıştığını açıkladı. Böylece profesyonel düzenleme seçenekleri açılacak ve model yeni yönlere taşınacak.

OpenAI, bir Android uygulamasının da geliştirilmekte olduğunu belirtti. WIRED dergisi (eşimin yönettiği dergi), resmi açıklamadan bir gün önce bu uygulamanın geliştirildiğini sızdırmıştı. İlk etapta model ve uygulama ABD ve Kanada’daki ChatGPT kullanıcılarına açılıyor; sonraki günlerde ve haftalarda diğer ülkelere de yayılması planlanıyor. Sora 2, tüm kullanıcılara ücretsiz fakat sınırlı kullanım imkanı sunuyor. ChatGPT Pro aboneleri daha yüksek kaliteli “Sora 2 Pro” modeline erişebiliyor. ChatGPT Plus kullanıcıları ise ücretsiz katmandan öteye ek bir avantaj elde etmiyor.

Tanıtım, YouTube üzerinden yapılan bir canlı yayın ile gerçekleştirildi. Yayını, OpenAI Sora ekibinden Bill Peebles, Rohan Sahai ve Thomas Dimson sundu. Araştırmacılar modelin yeteneklerini, cameo özelliğini ve gelecek yol haritasını detaylı şekilde anlattı.

Video Yapay Zekasında İleri Bir Adım

OpenAI, 2024 başında ilk Sora modelini tanıttığında büyük ilgi toplamış ancak model Aralık 2024’e kadar kısıtlı erişimle sunulmuştu. O dönemde rakip firmalar Runway, Luma, Kling, Higgsfield ve diğer girişimler daha gelişmiş fotogerçekçi video modelleri ve ses entegrasyonu sunmuştu.

OpenAI, ilk Sora’yı “GPT-1 anı” olarak tanımlıyor; yani video üretiminin ilk kez olasılık kazandığı dönüm noktası. Sora 2 ise şirketin ifadesiyle “GPT-3.5 anı”na denk geliyor: gelişmiş fizik, gerçekçilik ve kontrol edilebilirlik ile.

Model, jimnastik hareketleri veya paddleboard akrobasi gösterileri gibi karmaşık eylemleri fizik kurallarına uyarak üretebiliyor. Önceki sistemlerin basketbol topunu doğrudan potaya “ışınlamasına” karşılık, Sora 2 topun potadan sektiği gerçekçi bir sahne oluşturabiliyor. Ayrıca diyalog, arka plan sesleri ve efektleri senkronize ederek tutarlı video-ses deneyimleri yaratıyor.

Öne çıkan özelliklerden Cameo, kullanıcıların kısa bir kayıt sonrası kendilerini ya da arkadaşlarını sahnelere eklemelerini sağlıyor. Yayında, cameo kullanımının tamamen kullanıcı onayına bağlı olduğu, doğrulama adımlarıyla kimlik sahtekarlığının önlendiği ve istenildiğinde iptal edilebildiği vurgulandı.

Sora Uygulaması

Yeni iOS uygulaması, Sora modeline erişim için ana kapı niteliğinde. Kullanıcılar uygulama üzerinden video üretebilir, düzenleyebilir, kişiselleştirilmiş bir akışta içerik keşfedebilir ve sosyal olarak iş birliği yapabilir. Kullanıcılar cameo ile kendilerini başkalarının videolarına ekleyebilir, trend içerikleri kendi yorumlarıyla yeniden düzenleyebilir ve stilleri metin istemleriyle yönlendirebilir.

Uygulama ilk aşamada davet sistemiyle çalışıyor. OpenAI, insanların arkadaşlarıyla birlikte katılmasını teşvik ediyor. Akış tasarımı tipik sosyal medya platformlarından farklı: amaç uzun süre kaydırma değil, yeni yaratımlara ilham vermek. İçerikler, takip edilen kişiler ve etkileşimlere göre öne çıkarılıyor. Ayrıca kişiselleştirme, doğal dil talimatlarıyla ayarlanabiliyor.

Uygulama iOS’te ücretsiz sunuluyor ancak yüksek talep anlarında ek video üretimi için isteğe bağlı ücretli planlar olacak. ChatGPT Pro kullanıcıları, sora.com üzerinden ve ileride uygulama içinden “Sora 2 Pro” modeline erişebilecek. Android sürümü geliştirilme aşamasında.

Kimlik Koruma ve Cameolar

Cameo sistemi, platformda kimlik güvenliğinin merkezinde yer alıyor.

  • Kurulum ve doğrulama: Cameo oluşturmak için kullanıcı kısa bir video ve ses örneği kaydediyor. Sistem, ses tabanlı doğrulama adımlarıyla sahteciliği engelliyor.

  • İzin kontrolü: Doğrulandıktan sonra kullanıcı cameo kullanımını sadece kendisine, seçtiği kişilere, ortak takipçilere ya da herkese açabiliyor. Ayarlar istenildiğinde değiştirilebiliyor.

  • Kişiselleştirme: Kullanıcı, modelin kendisini nasıl yansıttığını ayarlayabiliyor; giysi ya da aksan hatalarını düzeltebiliyor, stilize varyasyonlar ekleyebiliyor.

  • İptal ve silme hakkı: Kullanıcı istediği an cameo erişimini iptal edebiliyor. Ayrıca kendi benzerliğini içeren her videoyu, başkalarının hazırladığı taslaklar dahil, silebilme hakkına sahip.

OpenAI, sistemi kullanıcıların kimlikleri üzerinde sahiplik benzeri kontrol elde etmesi olarak tanımlıyor.

Gençler ve Genel Kullanıcılar için Güvenlik

OpenAI, genç kullanıcıların güvenliği için ek önlemler geliştirdi.

  • Anti-doomscrolling: 18 yaş altı hesaplarda otomatik kaydırma devre dışı. Belirli sayıda video sonrası akış duruyor ve ara verilmesi gerekiyor. Yetişkin kullanıcılar da aşırı kaydırma eğiliminde sistem tarafından uyarılıyor.

  • İçerik sınırlamaları: Küçük yaştaki kullanıcıların cameo kayıtları için daha sıkı filtreler uygulanıyor.

  • Gizlilik varsayılanları: Genç hesaplar daha kapalı ayarlarla geliyor; yetişkinler tarafından bulunabilirlik kısıtlanıyor ve istenmeyen temas engelleniyor.

  • Ebeveyn kontrolü: Ebeveynler, ChatGPT bağlantılı araçlarla akışı sınırlayabiliyor, cameo izinlerini yönetebiliyor ve mesajlaşmayı kısıtlayabiliyor.

Şirket, yaratıcılığı teşvik ederken bağımlılık risklerini ve zararlı sosyal dinamikleri sınırlamayı amaçladığını belirtti.

Güvenlik ve Doğrulama

OpenAI, Sora için ayrıntılı güvenlik çerçevesi sundu:

  • Çok modlu sınıflandırıcılarla girdi ve çıktı denetimi

  • Kamuya mal olmuş kişiler veya fotogerçekçi yüzlerin izinsiz oluşturulmasının yasaklanması

  • Zararlı içeriklerin otomatik tespiti, sosyal akışta ekstra inceleme

  • C2PA metadatası, indirilen videolarda hareketli filigranlar ve iç izleme sistemleriyle üretimin doğrulanması

Şirket, sistemi aşırılık, çıplaklık, kendine zarar verme ve siyasi manipülasyon gibi konulara karşı test etmek için dış uzmanlarla iş birliği yaptı.

Yol Haritası: Storyboardlar ve API

OpenAI, sora.com üzerinde storyboard araçlarının yakında sunulacağını açıkladı. Bu araçlar, videonun sahne sahne kurgulanmasına imkan verecek. Bu özelliklerin birkaç hafta içinde eklenmesi bekleniyor.

Ayrıca şirket, Sora 2 için bir API’nin de birkaç hafta içinde geliştiricilere açılacağını doğruladı. Böylece video üretimi diğer düzenleme araçlarına entegre edilebilecek.

Bir sunumda şu sözlere yer verildi: “İnsanların harika şeyler yapabileceği çok çeşitli kullanım alanları var, biz ince ayar kontrollerini her zaman yapmak istemeyebiliriz, ama başkaları yapabilir.”

Altman’ın Değerlendirmeleri

OpenAI CEO’su Sam Altman, lansmana eşlik eden blog yazısında Sora’yı “yaratıcılık için ChatGPT anı” olarak tanımladı. Erken test kullanıcılarının cameo özelliğini şaşırtıcı derecede etkili bulduğunu söyledi.

Altman, potansiyel olumsuzluklara da değindi: “Böyle bir hizmetin ne kadar bağımlılık yapabileceğini biliyoruz ve bunun zorbalık için kullanılabileceği pek çok yolu hayal edebiliyoruz.” Ayrıca “RL ile optimize edilmiş anlamsız içerik akışı” riskinden bahsederek ekledi: “Takım, böyle bir sonuca gitmemek için özellikle tasarım yaptı.”

Altman, uzun vadeli kullanıcı memnuniyetini önceleme, kullanıcılara akış üzerinde kontrol verme, yaratımı önceliklendirme ve insanların hedeflerine ulaşmasına yardımcı olma ilkelerini sıraladı: “Eğer birkaç ay sonra insanların hayatları iyileşmemişse, ciddi değişiklikler yaparız ya da hizmeti tamamen durdururuz.”

Sırada Ne Var

Şimdilik Sora 2, uygulama ve sora.com üzerinden erişilebilir durumda. Sora 1 Turbo ise aktif kalmaya devam ediyor ve eski içerikler kullanıcı kütüphanelerinde korunuyor.

OpenAI, Sora 2’yi yalnızca bir eğlence ya da yaratıcılık aracı değil, aynı zamanda dünya simülasyonu ve fiziksel gerçeklik ile etkileşime girebilen yapay zeka sistemlerine yönelik bir adım olarak tanımlıyor.

Sora ekibinin ifadesiyle sistem mükemmel değil ancak “gerçekliği simüle etmeye” doğru ilerleyen bir gelişim.

Yeni araçların, yaratıma öncelik veren sosyal uygulamanın, kimlik koruma çerçevesinin ve geliştiricilere açılacak API’nin birleşimi, OpenAI’nin Sora 2’yi hem bir tüketici ürünü hem de bir platform olarak konumlandırdığını gösteriyor.

Gelecek aylarda Sora 2’nin dijital yaratıcılığın temel taşlarından biri olup olmayacağı, yalnızca teknik gücüne değil, aynı zamanda şirketin güvenlik, kullanıcı sağlığı ve güven konularını ne kadar etkili yöneteceğine bağlı olacak.

Kaynak: https://venturebeat.com/ai/openai-debuts-sora-2-ai-video-generator-app-with-sound-and-self-insertion