ElevenLabs, Ne Zaman Konuşup Ne Zaman Susması Gerektiğini Anlayan Konuşma Yapay Zekası 2.0’ı Tanıttı

Yapay zeka işletmeler için hızla gelişmeye devam ederken, ses ve konuşma tabanlı yapay zeka modelleri de önemli bir ivme kazanmış durumda.

Buna örnek olarak, eski Palantir mühendisleri tarafından kurulan ve güçlü yatırımlarla desteklenen ElevenLabs, pazartesi günü Conversational AI 2.0 adını taşıyan güncellenmiş konuşma yapay zekası platformunu tanıttı. Platform, müşteri hizmetleri, çağrı merkezleri, dış aramalar ve satış-pazarlama gibi kurumsal kullanım senaryolarına yönelik gelişmiş sesli asistanlar geliştirmek amacıyla tasarlandı.

Yeni sürüm, daha doğal, daha zeki ve daha güvenli etkileşimler sağlamak için çeşitli yeni özellikler içeriyor. Tanıtım, yalnızca dört ay önce ilk platformun piyasaya sürülmesinden sonra geldi ve ElevenLabs’in hızlı geliştirme konusundaki kararlılığını yansıtıyor. Tanıtımdan sadece bir gün önce, rakip konuşma yapay zekası girişimi Hume, kendi sıra tabanlı sesli yapay zeka modeli EVI 3’ü duyurmuştu.

Ayrıca bu güncelleme, açık kaynaklı yeni sesli yapay zeka modellerinin piyasaya çıkmasının ardından, bazı yapay zeka yorumcularının ElevenLabs’in etkisini yitirdiğini iddia etmesinden sonra geldi. Görünen o ki bu yorumlar fazlasıyla erken yapılmış.

ElevenLabs mühendislik ekibinden Jozef Marko, Conversational AI 2.0’ın önceki sürüme kıyasla çok daha başarılı olduğunu belirterek “Ses tabanlı deneyimler için yeni bir standart oluşturuyor.” dedi.

Doğallığı Artıran Konuşma Dönüşümleri

Conversational AI 2.0’ın en dikkat çeken yönlerinden biri, son derece gelişmiş sıra alma modeli oldu. Bu teknoloji, insan konuşmasındaki incelikleri işleyerek geleneksel ses sistemlerinde sık karşılaşılan garip duraksama veya söz kesme gibi sorunları ortadan kaldırıyor.

Yapay zeka, gerçek zamanlı olarak duraksamalar ve dolgu sözcükleri gibi konuşma ipuçlarını analiz ederek ne zaman konuşması, ne zaman dinlemesi gerektiğini anlıyor. Özellik, hızlı tepki vermenin önemli olduğu müşteri hizmetleri gibi alanlarda özellikle değerli.

Çok Dilli Etkileşim Desteği

Yeni sürümle birlikte gelen entegre dil algılama özelliği, manuel ayarlama gerektirmeksizin çok dilli görüşmeleri mümkün kılıyor. Sistem, kullanıcı hangi dili konuşursa konuşsun, bunu tanıyıp aynı etkileşim içinde doğru şekilde yanıt verebiliyor.

Özellik, küresel müşteri kitlesine sahip şirketler için tutarlı ve kapsayıcı hizmet sunma açısından önemli bir avantaj sunuyor.

Kurumsal Ölçekte Bilgiye Anında Erişim

Conversational AI 2.0, ayrıca sistem içine yerleştirilmiş Bilgi Geri Çağırmalı Üretim (RAG) teknolojisiyle donatıldı. Bu özellik sayesinde yapay zeka, dış veri kaynaklarına erişerek ihtiyaca uygun bilgileri gecikme yaşamadan, güvenlik ve gizliliği koruyarak kullanabiliyor.

Örneğin sağlık alanında, tıbbi bir yardımcı ajan, bir kurumun veri tabanından tedavi yönergelerini anında çekebilir. Müşteri destek tarafında ise, ajanlar şirketin iç belgelerinden güncel ürün bilgilerini alarak kullanıcılara daha etkili destek sunabilir.

Çoklu Modlar ve Alternatif Karakterler

Platform, sesli ve yazılı iletişim desteği sunan çok modlu yapı sayesinde, geliştiricilerin ajanları farklı kanallarda tekrar tanımlamasına gerek kalmadan kullanıma uygun hale getiriyor. Bu esneklik, geliştirme sürecini kolaylaştırıyor.

Ayrıca sistem, çok karakterli mod özelliğiyle tek bir ajan içinde farklı karakterlere geçiş yapılmasına olanak tanıyor. Bu da yaratıcı içerik üretimi, eğitim simülasyonları veya müşteri etkileşim kampanyaları gibi senaryolarda etkili bir araç haline geliyor.

Toplu Dış Arama Özelliği

Kurumsal kullanıcılar için platform artık toplu dış arama desteği de sunuyor. Bu özellikle şirketler, aynı anda çok sayıda dış aramayı yapay zeka destekli ajanlar aracılığıyla gerçekleştirebiliyor.

Anketler, uyarılar ya da kişiselleştirilmiş mesajlar gibi senaryolar için geliştirilen özellik, manuel dış arama süreçlerine kıyasla hem erişim hem de operasyonel verimlilik açısından büyük avantaj sağlıyor.

Güvenlik, Uyum ve Abonelik Planları

Konuşma kalitesi dışında platformun öncelik verdiği bir diğer konu da güvenlik ve regülasyonlara uygunluk. Conversational AI 2.0, HIPAA uyumlu olarak tasarlandı; bu da sağlık sektörü gibi sıkı gizlilik kuralları olan alanlar için kritik bir özellik. Ayrıca, AB veri egemenliği gereksinimlerine uygun şekilde Avrupa’da veri saklama seçeneği de sunuluyor.

Platform, yüksek erişilebilirlik ve üçüncü taraf sistemlerle entegrasyon desteğiyle kurumsal düzeyde güvenli ve dayanıklı bir çözüm olarak konumlanıyor.

ElevenLabs’in web sitesinde yayınlanan abonelik planlarına göre Conversational AI’ın dahil olduğu paketler şöyle:

  • Free: Aylık 0 dolar – 15 dakika, 4 eşzamanlı oturum, atıf zorunlu, ticari kullanım lisansı yok

  • Starter: Aylık 5 dolar – 50 dakika, 6 eşzamanlı oturum

  • Creator: Aylık 11 dolar (22 dolardan indirimli) – 250 dakika, 6 eşzamanlı oturum, ek dakikalar ~$0.12

  • Pro: Aylık 99 dolar – 1.100 dakika, 10 eşzamanlı oturum, ek dakikalar ~$0.11

  • Scale: Aylık 330 dolar – 3.600 dakika, 20 eşzamanlı oturum, ek dakikalar ~$0.10

  • Business: Aylık 1.320 dolar – 13.750 dakika, 30 eşzamanlı oturum, ek dakikalar ~$0.096

Gerçekçi ve Doğal Sesli Yapay Zekada Yeni Bir Dönem

Şirketin yeni sürümü tanıttığı videoda şu ifadeye yer verildi: “Konuşma yapay zekasının potansiyeli hiç bu kadar büyük olmamıştı. Şimdi geliştirme zamanı.”

ElevenLabs, Conversational AI 2.0 ile işletmelerin bağlamı anlayan, akıllı ve gerçekçi sesli ajanlar oluşturabilmesi için gerekli altyapı ve araçları sağlamayı hedefliyor. Geliştiricileri ve kuruluşları daha fazla bilgi için dökümantasyon sayfalarına, geliştirici portalına ya da satış ekibiyle iletişime geçmeye davet ediyor.

Kaynak:https://venturebeat.com/ai/elevenlabs-debuts-conversational-ai-2-0-voice-assistants-that-understand-when-to-pause-speak-and-take-turns-talking/