Amazon’dan Sesli Yapay Zekada Yeni Hamle: “Nova Sonic” Duyguları Algılayıp Gerçek Zamanlı Yanıt Veriyor

Yapay zeka sesinden hayal kırıklığı ya da sevinç duyduğunuzu anladığında ne olur?

Amazon’un Nova Sonic adlı yeni konuşmadan konuşmaya YZ modeli, ses tanıma ve üretimini birleştirerek daha doğal sesli etkileşimler sunuyor. Bu, Seattle merkezli teknoloji devinin Google, OpenAI ve diğerleriyle rekabet içinde insan benzeri zeka geliştirme çabasının bir parçası.

Amazon, Nova Sonic’in kullanıcıların ses tonunu algılayarak stil ve duygulara uyum sağladığını belirtiyor. Destek hattını arayan sinirli bir müşteri sakin, istikrarlı bir sesle karşılanırken; heyecanlı biri daha enerjik bir yanıt alabilir.

Amazon’un yapay genel zekadan sorumlu kıdemli başkan yardımcısı Rohit Prasad, “Zekayı bağlamdan ayrı düşünemem.” dedi. Prasad, “Eğer Hawaii konusunda heyecanlıysanız, o da heyecanlı olacak.Eğer değilseniz, farklı bir destinasyon önerecek.” diye açıkladı. 

Nova Sonic, Amazon’un Bedrock hizmeti aracılığıyla üçüncü taraf geliştiricilere sunulacak. Amazon, modeli dahili olarak da kullanıyor; yeni tanıtılan Alexa+ sesli asistana entegre edildi.

Amazon’a göre, geleneksel ses sistemleri konuşma tanıma, dil işleme ve metinden sese dönüştürmeyi ayrı ayrı modellerle yaparken, Nova Sonic bu üç özelliği tek bir mimaride birleştiriyor. Şirket, bu entegrasyonun konuşmaların bağlamını – tonlama, hız ve niyet dahil – koruyarak etkileşimleri daha konuşkan ve duyarlı hale getirdiğini belirtiyor.

Nova Sonic, konuşma sırasında kesinti olmadan işlem yapabiliyor; örneğin uçuş seçeneklerini görüntüleyebiliyor ya da hesap kontrolü yapabiliyor.

Amazon, Nova Sonic’i gerçek zamanlı ses uygulamaları için tasarlanmış yeni bir akış API’si aracılığıyla sunuyor. Şu anda İngilizce destekleniyor ve birkaç farklı ses ile aksan seçeneği bulunuyor. Amazon, daha fazla dil desteği üzerinde çalıştığını bildiriyor.

Nova Sonic, insan benzeri dijital asistanlar geliştirme yarışında OpenAI’nin GPT-4o modeli ve Google’ın Gemini asistanına konuşma özelliği eklemesiyle doğrudan rekabet ediyor.

Amazon, Nova Sonic’in hız ve maliyet açısından rakiplerinden üstün olduğunu söylüyor. Örneğin Amazon, Nova Sonic’in ortalama 1 saniyeden biraz fazla sürede yanıt verdiğini ve OpenAI’nin GPT-4o ile Google’ın Gemini Flash 2.0 modellerinden daha hızlı olduğunu belirtiyor. Ayrıca, Nova Sonic’in gerçek zamanlı sesli etkileşimlerde kullanımının GPT-4o’ya kıyasla neredeyse %80 daha ucuz olduğu ifade ediliyor.

Prasad, daha önce Alexa’nın baş bilim insanıydı. Şimdi Amazon’un AGI grubunun başında yer alıyor ve CEO Andy Jassy’e rapor veriyor.

Prasad, uzun vadeli hedefin her türlü girdiyi işleyebilen ve en doğal şekilde yanıt verebilen birleşik modeller geliştirmek olduğunu söyledi. “Aslında, insan ve makinenin güçlerini birleştiriyorsunuz, İşte bu yüzden bu çok önemli.” dedi. ve Nova Sonic’i “o yönde büyük bir adım” olarak tanımladı.

Nova Sonic’i test eden şirketler arasında müşteri hizmetleri için ASAPP, dil öğrenme araçları için Education First ve gerçek zamanlı spor bilgilerini sesle sunan Stats Perform bulunuyor.

Amazon, teknolojinin şirket sistemleriyle entegre olarak fiyat, stok durumu ya da programlar gibi gerçek zamanlı bilgilere erişebileceğini belirtiyor. Model, rezervasyon yapmak ya da alternatif seçenekler sunmak gibi görevleri konuşma sırasında yerine getirebiliyor.

Nova Sonic, Amazon’un Aralık ayında AWS re:Invent etkinliğinde tanıttığı Nova adlı YZ model serisinin en yeni üyesi. Bu seri; metin, görüntü ve video üretimi ve anlayışı için geliştirilen YZ modellerini içeriyor. Nova Sonic, kısa süre önce tanıtılan web tabanlı YZ ajanları için geliştirilen Nova Act’in ardından geldi.

Kaynak:https://www.geekwire.com/2025/amazon-enters-real-time-ai-voice-race-with-nova-sonic-a-unified-voice-model-that-senses-emotion/

https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model