Yapay Zeka Uygulamaları
11/8/2025
Fizikten ilham alan yeni bir üretici yapay zeka modeli PFGM++, görüntü üretiminde diffusion modellerini geride bıraktı. Son dönemde popülerliği giderek artan üretici yapay zeka, basit bir dağılımdan karmaşık görüntü, ses veya metinler üreterek yapay olanı şaşırtıcı biçimde gerçeğe dönüştürme potansiyeline sahip.
MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) araştırmacıları, bugüne kadar en başarılı üretici modellerin temelini oluşturan iki farklı fiziksel yasayı – rastgele hareketleri açıklayan difüzyon süreci ve elektrik yüklerinin davranışını tanımlayan Poisson Akışı – bir araya getiren yenilikçi bir model geliştirdi.
“Poisson Flow Generative Model ++” (PFGM++) olarak adlandırılan bu birleşim, yeni görüntüler üretmede üstün performans sergileyerek mevcut en gelişmiş modelleri geride bıraktı. Modelin potansiyel uygulama alanları arasında antikor ve RNA dizisi üretimi, ses işleme, grafik üretimi ve gerçek dünyadaki süreçlerin modellenmesi yer alıyor.
PFGM++, araştırma ekibinin bir önceki yıl geliştirdiği PFGM modelini temel alıyor. PFGM, “Poisson” denklemi olarak bilinen matematiksel formülden esinlenerek veriye ekstra bir boyut ekliyor. İki boyutlu bir eskizi üç boyutlu bir modele dönüştürmek gibi düşünebilecek bu yöntem, veriyi daha geniş bir bağlama yerleştirerek yeni örnekler oluştururken daha esnek hareket imkanı sağlıyor.
MIT Nükleer Bilimler Laboratuvarı Teorik Fizik Merkezi’nden kuramsal parçacık fizikçisi ve Ulusal Bilim Vakfı (NSF) Yapay Zeka Enstitüsü direktörü Jesse Thaler, “PFGM++ fizikçiler ve bilgisayar bilimciler arasındaki disiplinler arası işbirliklerinin yön verebileceği türden yapay zeka ilerlemelerinin bir örneği.” dedi. Thaler, bazı güçlü üretici modellerin simetri ve termodinamik gibi fizikten gelen kavramlara dayandığını vurgulayarak, “PFGM++, uzay-zamanın ekstra boyutları olabileceği fikrini güçlü ve sağlam bir üretim aracına dönüştürüyor.” ifadelerini kullandı.
Araştırmacılar, verileri ekstra boyutlu bir düzlemdeki küçük elektrik yüklerine benzetiyor. Bu yükler, hayali bir yarım küre üzerinde düzgün dağılmış bir yapı oluşturmak için elektrik alanı boyunca yukarı doğru hareket ediyor. Üretim süreci ise bu yolculuğu tersine çevirerek, yüklerin düzleme geri dönmesiyle orijinal veri dağılımını elde etmek üzerine kurulu. Sinir ağı, bu elektrik alanını öğrenerek orijinal veriye benzeyen yeni örnekler üretebiliyor.
PFGM++, elektrik alanı modelini daha karmaşık ve yüksek boyutlu bir yapıya genişletiyor. Boyutlar arttıkça model, diffusion modellerine benzer özellikler göstermeye başlıyor. PFGM, sağlam ama karmaşık; diffusion modelleri ise daha basit fakat daha az dayanıklı. PFGM++, bu iki uç arasında denge kurarak hem sağlamlık hem de kullanım kolaylığı sağlıyor. Araştırmacılar, ek boyutun yanı sıra elektrik alanını daha verimli öğrenmeyi sağlayan yeni bir eğitim yöntemi de geliştirdi.
Ekip, elektrik alanındaki yüklerin hareketini tanımlayan diferansiyel denklemleri çözerek teoriyi pratiğe döktü. Modelin başarısı, üretilen görüntülerin gerçek olanlarla benzerliğini ölçen Frechet Inception Distance (FID) metriği ile değerlendirildi. PFGM++’ın hata toleransının daha yüksek olduğu ve adım boyutundaki değişimlere karşı daha dayanıklı olduğu görüldü.
Araştırmacılar, farklı veri kümeleri ve görevler için “en uygun” boyut değerini belirlemeye yönelik sistematik yöntemler geliştirmeyi ve PFGM++’ı büyük ölçekli metinden-görüntüye ve metinden-videoya üretim projelerinde uygulamayı planlıyor.
OpenAI araştırmacısı Yang Song, “Diffusion modelleri, üretici yapay zekadaki devrimin kritik itici güçlerinden biri haline geldi. PFGM++ bu modellerin güçlü bir genellemesini sunarak, görüntü üretiminde bozulmalara ve öğrenme hatalarına karşı daha dayanıklı, yüksek kaliteli çıktılar elde edilmesini sağlıyor.” dedi.
NVIDIA Kıdemli Araştırmacısı Karsten Kreis ise, “Poisson Akışı Üretici Modelleri yalnızca elektrostatik temelli zarif bir fizik yaklaşımına dayanmakla kalmıyor, aynı zamanda pratikte de en gelişmiş üretim performansını sunuyor. Popüler diffusion modellerini bile geride bırakmaları, onları içerik üretiminden ilaç keşfine kadar geniş bir alanda güçlü bir araç haline getiriyor.” yorumunu yaptı.
Araştırmanın yazarları arasında MIT Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü (EECS) ile CSAIL’den yüksek lisans öğrencisi Yilun Xu, MIT Fizik Bölümü ve NSF AI IAIFI’den Ziming Liu, EECS ve CSAIL’den Shangyuan Tong ile Google Kıdemli Araştırmacısı Yonglong Tian bulunuyor. Çalışma, MIT öğretim üyeleri Max Tegmark ve Tommi Jaakkola tarafından yönetildi.
Proje, MIT-DSTA Singapur iş birliği, MIT-IBM Watson AI Lab, Ulusal Bilim Vakfı hibeleri, Casey and Family Foundation, Foundational Questions Institute, Rothberg Family Fund for Cognitive Science ve ML for Pharmaceutical Discovery and Synthesis Consortium tarafından desteklendi. Araştırma, bu yaz International Conference on Machine Learning’de sunuldu.
Kaynak: https://scitechdaily.com/mits-new-generative-ai-outperforms-diffusion-models-in-image-generation/