Yapay Zeka Uygulamaları
27/8/2025
Google, Gemini sohbet botunu fotoğraf düzenleme üzerinde daha hassas kontrol sağlayan yeni bir yapay zeka görüntü modeliyle güçlendiriyor. Amaç, OpenAI’nin popüler araçlarına yetişmek ve ChatGPT kullanıcılarını çekmek. Gemini 2.5 Flash Image adlı güncelleme salı gününden itibaren Gemini uygulamasında tüm kullanıcılara, geliştiriciler için ise Gemini API, Google AI Studio ve Vertex AI üzerinden sunulmaya başlandı.
Yeni model, kullanıcıların doğal dilde verdiği komutlara dayanarak görsellerde daha kesin düzenlemeler yapıyor ve yüzlerin, hayvanların ile diğer ayrıntıların tutarlılığını koruyor. Rakiplerin çoğu bu alanda zorlanıyor. Örneğin, ChatGPT veya xAI’nin Grok aracına bir fotoğraftaki gömlek rengini değiştirmesi söylendiğinde, ortaya bozulmuş yüzler veya değişmiş arka planlar çıkabiliyor.
Son haftalarda sosyal medyada öne çıkan etkileyici bir düzenleyici, kitlesel değerlendirme platformu LMArena’da anonim olarak “nano-banana” takma adıyla test edilmişti. Google, imalara aşina olanlar için sürpriz olmayan şekilde modelin arkasında olduğunu açıkladı. Aslında bu, Gemini 2.5 Flash modelinin yerleşik görüntü yeteneği. Şirket, modelin LMArena ve diğer kıyaslamalarda en ileri sonuçlar verdiğini belirtiyor.
Google DeepMind görsel üretim ürün lideri Nicole Brichtova, TechCrunch’a verdiği röportajda şunları söyledi: “Görsel kaliteyi ve modelin talimatları izleme yeteneğini gerçekten ileriye taşıyoruz.” Brichtova ayrıca, “Güncelleme düzenlemeleri çok daha pürüzsüz hâle getiriyor ve çıktıların her türlü kullanım senaryosunda işe yarar olmasını sağlıyor.” dedi.
YZ görüntü modelleri, büyük teknoloji şirketleri için giderek daha kritik bir rekabet alanına dönüşüyor. OpenAI, mart ayında GPT-4o içinde yerel görüntü üreticisini başlattığında, Studio Ghibli tarzı görsellerin yarattığı çılgınlıkla ChatGPT kullanımında sıçrama yaşandı. OpenAI CEO’su Sam Altman, şirketin GPU’larının “eridiğini” söyleyerek bu talep yoğunluğunu betimlemişti. Rekabete yetişmeye çalışan Meta, geçen hafta Midjourney’den görüntü modelleri lisanslayacağını açıkladı. Öte yandan, a16z destekli Alman girişimi Black Forest Labs, FLUX modelleriyle kıyaslamalarda önde yer alıyor.
Gemini’nin yeni düzenleyici gücü, Google’ın kullanıcı sayısında OpenAI ile aradaki farkı kapatmasına yardımcı olabilir. ChatGPT’nin haftalık kullanıcı sayısı 700 milyonu aşarken, Sundar Pichai temmuz ayındaki kazanç çağrısında Gemini’nin aylık 450 milyon kullanıcıya sahip olduğunu açıkladı; bu da haftalık aktiflerin daha düşük seyrettiğini gösteriyor.
Brichtova, yeni modelin özellikle tüketici odaklı tasarlandığını ve örneğin ev ya da bahçe projelerini görselleştirmede yardımcı olabileceğini belirtiyor. Ayrıca modelin daha iyi bir “dünya bilgisine” sahip olduğunu ve tek bir istemde bir koltuk görseli, oturma odası fotoğrafı ve renk paletini birleştirerek uyumlu bir sahne üretebildiğini ifade ediyor.
Gemini’nin yeni görüntü üreticisi, kullanıcıların daha gerçekçi görseller oluşturmasını ve düzenlemesini kolaylaştırıyor ancak belirli sınırlamalar da getiriyor. Google, daha önce tarihsel olarak hatalı insan görselleri nedeniyle özür dilemiş ve görüntü üreticisini geri çekmek zorunda kalmıştı. Şirket artık daha dengeli bir noktaya ulaştığını düşünüyor. Brichtova: “Kullanıcılara yaratıcı kontrol vermek istiyoruz ki modellerden istedikleri çıktıları alabilsinler ama her şey serbest değil.”
Google’ın hizmet şartlarında, kullanıcıların “rıza dışı mahrem içerikler” üretmesi yasaklanıyor. Aynı tür sınırlamaların olmadığı Grok, ünlüleri andıran açık içeriklerin üretilmesine izin vermişti. Derin sahte (deepfake) görsellerin yükselişi, çevrimiçi ortamda gerçeği ayırt etmeyi zorlaştırıyor. Brichtova, Google’ın buna karşılık olarak YZ ile üretilmiş görsellere görsel filigranlar ve metadata içine yerleştirilmiş tanımlayıcılar eklediğini belirtiyor ancak sosyal medyada kaydırma yapan bir kullanıcı bu işaretlere her zaman dikkat etmeyebilir.
Kaynak: https://techcrunch.com/2025/08/26/google-geminis-ai-image-model-gets-a-bananas-upgrade/