Gemini Robotics 1.5, Robotları Kendi Kararlarını Alabilen Sistemlerle Buluşturuyor

Google DeepMind, dün robotlar için “gelişmiş düşünme ile etken (agentic) deneyimlerin önünü açan” iki yeni model tanıttı. Şirket, bu gelişmenin fiziksel dünyada genel yapay zeka (AGI) hedefine doğru önemli bir adım olduğunu vurguladı.

Yeni tanıtılan modellerden Gemini Robotics 1.5, DeepMind’ın şimdiye kadar geliştirdiği en yetenekli görsel-dil-eylem (VLA) modeli olarak öne çıkıyor. Görsel bilgileri ve verilen talimatları motor komutlarına dönüştürerek robotların görevleri yerine getirmesini sağlıyor. Ayrıca harekete geçmeden önce düşünerek sürecini şeffaf biçimde gösteriyor; bu sayede robotların karmaşık görevleri daha anlaşılır ve güvenilir şekilde tamamlaması mümkün oluyor. Model aynı zamanda farklı bedenlerde öğrenim gerçekleştirebiliyor ve beceri kazanımını hızlandırıyor.

Diğer model olan Gemini Robotics-ER 1.5, en yetenekli görsel-dil modeli (VLM) olarak tanıtıldı. Fiziksel dünya hakkında akıl yürütebiliyor, dijital araçları yerleşik biçimde kullanabiliyor ve bir görevi tamamlamak için ayrıntılı çok adımlı planlar oluşturabiliyor. DeepMind, bu modelin mekansal anlama testlerinde “en son teknoloji performansa” ulaştığını belirtiyor. Geliştiriciler için Gemini API üzerinden Google AI Studio aracılığıyla erişime açılan Gemini Robotics-ER 1.5, an itibarıyla kullanıma hazır. Gemini Robotics 1.5 ise şimdilik seçilmiş ortaklara sunuluyor.

DeepMind, modellerin yalnızca komutlara tepki veren sistemlerin ötesine geçtiğini; artık akıl yürütebilen, plan yapabilen, araçları aktif biçimde kullanabilen ve genelleme yeteneğine sahip yapılar sunduğunu ifade etti. Günlük işlerin çoğu bağlamsal bilgi ve çok adım gerektirdiğinden robotlar için zorluk teşkil ediyor. Bu nedenle Gemini Robotics 1.5 ile Gemini Robotics-ER 1.5, etken bir çerçevede birlikte çalışmak üzere tasarlandı.

Gemini Robotics-ER 1.5, bir robotun faaliyetlerini düzenleyen yüksek seviyeli bir beyin gibi işliyor. Fiziksel ortamlarda plan yapma ve mantıksal karar verme konusunda üstün olduğu belirtiliyor. Doğal dilde etkileşim kurabiliyor, başarısını ve ilerlemesini tahmin edebiliyor, ayrıca Google Arama gibi araçları ya da kullanıcı tanımlı işlevleri çağırarak bilgiye ulaşabiliyor. VLM, Gemini Robotics 1.5’e her adım için doğal dilde talimat veriyor. Bu sayede robot, görsel ve dil anlayışını kullanarak somut eylemleri gerçekleştirebiliyor. Gemini Robotics 1.5, eylemlerini düşünerek karmaşık görevleri daha iyi çözebiliyor ve düşünme sürecini doğal dilde açıklayarak kararlarının daha şeffaf olmasını sağlıyor.

Her iki model de Gemini ailesinin çekirdeği üzerine inşa edildi ve farklı veri kümeleriyle uzmanlaştırıldı. Birleştirildiklerinde, robotların daha uzun görevleri ve daha çeşitli ortamları genelleme yeteneği artıyor.

Google DeepMind, Gemini Robotics-ER 1.5’in “hem akademik hem de dahili kıyaslamalarda en son teknoloji performansa ulaştığını, güvenilir test programımızdaki gerçek dünya kullanım senaryolarından ilham aldığını” belirtti. Şirket, modeli 15 akademik kıyaslamada test etti; bunlar arasında Embodied Reasoning Question Answering (ERQA) ve Point-Bench de bulunuyor. Bu testlerde işaret etme, görsel soru yanıtlama ve video tabanlı soru yanıtlama yetenekleri ölçüldü.

Geleneksel VLA modelleri, talimatları doğrudan robot hareketlerine dönüştürür. Ancak Gemini Robotics 1.5 bir adım ileri giderek harekete geçmeden önce düşünme imkanı tanıyor. DeepMind, bunun robotların doğal dilde mantık zincirleri ve analizler üreterek çok adımlı ya da daha derin anlamsal anlayış gerektiren görevleri yerine getirmesini sağladığını söylüyor.

DeepMind, şu örneği verdi: “Örneğin ‘Çamaşırlarımı renklere göre ayır’ görevinde robot farklı seviyelerde düşünüyor. Önce renklere göre ayırmanın beyaz giysileri beyaz kutuya, diğer renkleri siyah kutuya koymak anlamına geldiğini kavrıyor. Ardından adımları planlıyor, mesela kırmızı kazağı alıp siyah kutuya koymak, ya da kazağı daha kolay almak için daha yakına çekmek gibi detaylı hareketleri tasarlıyor.”

Çok seviyeli düşünme sürecinde VLA modeli uzun görevleri daha kısa ve yönetilebilir parçalara bölebiliyor. Böylelikle model yeni görevleri çözme yeteneğini genişletiyor ve çevredeki değişimlere daha dayanıklı hale geliyor.

DeepMind, Gemini Robotics 1.5’in farklı bedenler arasında öğrenme konusunda dikkat çekici bir beceri gösterdiğini belirtti. Bir robotta öğrenilen hareketler, başka bir robota aktarılabiliyor; böylece her yeni robot için ayrı ayrı uzmanlaşmaya gerek kalmıyor. Söz konusu durum, yeni davranışların öğrenilmesini hızlandırarak robotların daha akıllı ve faydalı olmasına katkı sağlıyor. Örneğin yalnızca ALOHA 2 robotunda eğitilen görevlerin, Apptronik’in insansı robotu Apollo ve çift kollu Franka robotunda da çalıştığı gözlemlendi.

Gemini Robotics 1.5, yüksek seviyeli anlamsal akıl yürütme ile güvenlik odaklı bir yaklaşım benimsiyor. Hareket etmeden önce güvenliği düşünmek, insanlarla saygılı diyalog sağlamak için mevcut Gemini Güvenlik Politikaları ile uyumlu olmak ve gerektiğinde çarpışma önleyici alt sistemleri devreye sokmak gibi güvenlik önlemleri içeriyor.

Ayrıca DeepMind, Gemini Robotics modellerinin güvenli gelişimini yönlendirmek amacıyla ASIMOV benchmark’ının güncellenmiş versiyonunu da yayımlıyor. Yeni sürüm, daha kapsamlı veri kümeleri, geliştirilmiş açıklamalar, yeni güvenlik soru tipleri ve video modları içeriyor. DeepMind, güvenlik değerlendirmelerinde Gemini Robotics-ER 1.5’in en son teknoloji performans gösterdiğini; düşünme yeteneğinin anlamsal güvenlik anlayışını geliştirdiğini ve fiziksel güvenlik kurallarına daha iyi uyum sağladığını açıkladı.

Kaynak: https://www.therobotreport.com/gemini-robotics-1-5-enables-agentic-experiences-explains-google-deepmind/