Yapay Zeka
12/6/2025
YZ telefon destek şirketi Phonely, çıkarım optimizasyon platformu Maitai ve çip üreticisi Groq arasında kurulan üçlü iş birliği, konuşma temelli yapay zekanın en kalıcı sorunlarından birine çözüm getirdi: aramalarda çağrıyı yapan kişiye konuştuğu kişinin makine olduğunu hemen belli eden garip gecikmeler.
İş birliği sayesinde Phonely, yanıt süresini %70’ten fazla kısaltırken doğruluk oranını da dört model yinelemesi boyunca %81,5’ten %99,2’ye çıkararak GPT-4o’nun %94,7’lik performansını %4,5 puanla geride bıraktı. Bu gelişim, Groq’un birden fazla özel YZ modeli arasında anında geçiş yapabilme yeteneği sayesinde mümkün oldu; bu süreç, Maitai’nin optimizasyon platformu aracılığıyla koordine edildi.
Elde edilen başarı, sektör uzmanlarının "konuşma YZ’sinin tekinsiz vadisi" olarak adlandırdığı sorunu çözüyor – otomatik görüşmelerin insan dışı hissettirmesine neden olan ince detaylar. Çağrı merkezi ve müşteri hizmetleri operasyonları açısından sonuçlar dönüştürücü olabilir: Phonely müşterilerinden biri yalnızca bu ay içinde 350 insan çalışanı YZ ile değiştirmeyi planlıyor.
OpenAI’nin GPT-4o gibi geleneksel büyük dil modelleri, görünüşte basit bir engeli aşmakta uzun süredir zorlanıyor: doğal konuşma akışını koruyacak kadar hızlı yanıt verebilmek. Yazılı etkileşimlerde birkaç saniyelik gecikme fark edilmezken, canlı telefon görüşmelerinde aynı duraksama dayanılmaz hale gelebiliyor.
Phonely’nin kurucusu ve CEO’su Will Bodewes, VentureBeat’e verdiği özel röportajda şu ifadeyi kullandı: “Çoğu insan şunu fark etmiyor: OpenAI, Claude gibi büyük LLM sağlayıcılarının çok yüksek gecikme değişkenliği var. Bir sesli YZ ile telefonda konuşurken dört saniye sonsuzluk gibi geliyor – bu gecikme, günümüzdeki çoğu sesli YZ’nin insan gibi hissettirmemesine neden olan şey.”
Bu sorun her on istekte bir kez meydana geliyor ve bu da standart görüşmelerin en az bir veya iki rahatsız edici duraksama içermesi anlamına geliyor. YZ telefon temsilcileri düşünen işletmeler için bu gecikmeler önemli bir engel oluşturuyor.
Bodewes şöyle açıklıyor: “Bu tür bir gecikme, gerçek zamanlı telefon desteği için kabul edilemez. Gecikmenin dışında, konuşma doğruluğu ve insana benzeyen yanıtlar, eski nesil LLM sağlayıcılarının sesli alanda henüz çözemediği şeyler.”
Çözüm, Groq’un “sıfır gecikmeli LoRA hotswapping” olarak adlandırdığı teknolojinin geliştirilmesiyle ortaya çıktı – birden fazla özel YZ modeli arasında hiçbir performans kaybı olmadan anında geçiş yapabilme yeteneği. LoRA, yani Low-Rank Adaptation, geliştiricilerin sıfırdan yeni model eğitmek yerine mevcut modeller üzerinde hafif, görev odaklı değişiklikler yapmasına imkân tanıyor.
Groq’un Pazarlama Direktörü Chelsey Kantor, VentureBeat’e verdiği röportajda şunları söyledi: “Groq’un ince ayarlı yazılım kontrollü mimarisi, yüksek hızlı yerleşik bellek, akış tabanlı yapı ve deterministik yürütme özelliklerinin birleşimi sayesinde, birden fazla hotswap edilmiş LoRA’ya gecikmesiz erişim mümkün oluyor. LoRA’lar, orijinal model ağırlıklarıyla birlikte SRAM'de saklanıyor ve yönetiliyor.”
Söz konusu altyapı ilerlemesi, Maitai’nin kurucusu Christian DalSanto’nun “proxy katmanı düzenleyici” olarak tanımladığı bir sistemin ortaya çıkmasını sağladı. DalSanto şöyle açıklıyor: “Maitai, müşteriler ile model sağlayıcıları arasında ince bir proxy katmanı gibi hareket ediyor. Bu sayede her istek için en iyi modeli dinamik şekilde seçebiliyor, değerlendirme, optimizasyon ve dayanıklılık stratejilerini (örneğin yedekleme) otomatik olarak uygulayabiliyoruz.”
Sistem, her etkileşimden performans verisi toplayarak zayıf noktaları belirliyor ve modelleri müşteri müdahalesine gerek kalmadan sürekli olarak geliştiriyor. DalSanto: “Maitai çıkarım akışının ortasında yer aldığı için modellerin nerede yetersiz kaldığını gösteren güçlü sinyaller topluyoruz. Bu zayıf noktalar kümeleme, etiketleme ve kademeli ince ayarlama yoluyla performans kaybı yaratmadan hedeflenmiş şekilde iyileştiriliyor.”
Sonuçlar, çok sayıda performans boyutunda dikkate değer ilerlemeleri ortaya koyuyor. İlk yanıt süresi – yani YZ’nin yanıt vermeye başladığı an – %73,4 azalarak 90. yüzdelikte 661 milisaniyeden 176 milisaniyeye indi. Toplam tamamlama süresi ise %74,6 oranında kısaldı: 1.446 milisaniyeden 339 milisaniyeye.
Daha da önemlisi, doğruluk oranı dört model yinelemesi boyunca sürekli artış göstererek %81,5’ten %99,2’ye ulaştı – bu oran, birçok müşteri hizmeti senaryosunda insan performansını geride bırakıyor.
Bodewes şunları aktardı: “YZ’mize gelen aramaların yaklaşık %70’inde insanlar konuştuğu kişinin bir insan mı yoksa yapay zeka mı olduğunu ayırt edemiyor. Gecikme, bunun bir YZ olduğunu ele veren en net işaretti. Şimdi özel olarak eğitilmiş, insan gibi konuşan bir model ve ultra düşük gecikmeli donanım sayesinde, tamamen insan gibi ses çıkarmanın önünde çok az engel kaldı.”
Performans artışı doğrudan iş sonuçlarına yansıyor. Bodewes: “En büyük müşterilerimizden biri, önceki model sürümüne göre nitelikli müşteri adaylarında %32’lik bir artış gördü.”
Gelişmeler, çağrı merkezlerinin hizmet kalitesini korurken maliyetleri düşürme baskısı altında olduğu bir dönemde gerçekleşti. Geleneksel insan temsilcilerinin eğitimi, vardiya planlaması ve yüksek operasyonel giderleri bulunurken, YZ temsilcileri bu yükleri ortadan kaldırabiliyor.
Bodewes: “Çağrı merkezleri Phonely’i kullanarak insan temsilcilerini değiştirme konusunda büyük fayda sağlıyor. Birlikte çalıştığımız çağrı merkezlerinden biri yalnızca bu ay 350 insan temsilciyi tamamen Phonely ile değiştiriyor. Bu, çağrı merkezleri için büyük bir dönüşüm; çünkü artık insan kaynaklı vardiya yönetimine, eğitimlere ve arz-talep dengesine ihtiyaç kalmıyor.”
Phonely’nin teknolojisi bazı alanlarda özellikle güçlü performans sergiliyor. Bodewes’e göre: “Phonely, randevu planlama ve müşteri adaylarını nitelendirme gibi alanlarda, eski sağlayıcıların erişemediği düzeyde sektör lideri performans sunuyor.”
Şirket, sigorta, hukuk ve otomotiv gibi alanlarda müşteri etkileşimlerini yöneten büyük firmalarla çalışıyor.
Groq’un özel YZ çıkarım çipleri, yani Dil İşleme Birimleri (LPU), çoklu model yaklaşımını mümkün kılan donanımsal temeli oluşturuyor. Genel amaçlı grafik işlemcilerin aksine, LPU’lar dil işlemenin ardışık yapısına özel olarak optimize edildi.
Kantor: “LPU mimarisi, veri hareketini ve hesaplamayı ince ayarlı ve yüksek hızlı şekilde kontrol edebilecek şekilde optimize edilmiştir. Bu da, ortak bir temel model üzerinde birden fazla küçük LoRA ağırlığını hiçbir ek gecikme olmadan verimli şekilde yönetmeyi mümkün kılar.”
Kantor, Groq’un bulut tabanlı altyapısının, geçmişte YZ uygulamalarını sınırlayan ölçeklenebilirlik sorunlarını da ortadan kaldırdığını söyledi: “GroqCloud gibi bulut temelli bir çözümün güzelliği, tüm YZ modelleri – ince ayarlı LoRA modelleri dahil – için orkestrasyon ve dinamik ölçeklendirmeyi bizim sağlamamızdır.”
Şirketler için bu altyapı önemli ekonomik avantajlar sunuyor. Kantor: “Sistem tasarımımızın sadeliği ve verimliliği, düşük güç tüketimi ve yüksek performanslı donanım sayesinde Groq, müşterilere ölçeklenme sırasında performanstan ödün vermeden en düşük token maliyetini sunabiliyor.”
İş birliğinin en dikkat çekici yönlerinden biri, uygulama hızı. Geleneksel YZ dağıtımları genellikle aylar süren entegrasyon süreçleri gerektirirken, Maitai’nin yaklaşımı halihazırda genel amaçlı modelleri kullanan şirketlerin aynı gün geçiş yapmasını sağlıyor.
DalSanto: “Genel amaçlı modelleri üretimde kullanan şirketleri genelde aynı gün içinde Maitai’ye geçiriyoruz ve bu geçiş sırasında hiçbir kesinti yaşanmıyor. Hemen veri toplamaya başlıyoruz ve birkaç gün ila bir hafta içinde, orijinal yapıdan daha hızlı ve güvenilir bir ince ayarlı model sunabiliyoruz.”
Bu hızlı kurulum yeteneği, birçok kuruluşun YZ projelerine dair yaşadığı en büyük endişeyi – uzun uygulama süreleri ve yatırım getirisinin gecikmesi – ortadan kaldırıyor. Proxy katmanı yaklaşımı sayesinde şirketler mevcut API entegrasyonlarını korurken artan performanstan yararlanabiliyor.
Söz konusu iş birliği, kurumsal YZ mimarisinde genel amaçlı büyük modellerden, görev odaklı özel sistemlere geçişin sinyalini veriyor. DalSanto: “Uygulamalarını daha küçük, yüksek derecede özelleştirilmiş iş yüklerine bölen ve her biri için ayrı adaptörler kullanan ekiplerden gelen talebin arttığını gözlemliyoruz.”
Artık tek bir modelin her görevde üstün performans göstermesi beklenmiyor; kurumlar gerçek dünya verilerine göre sürekli iyileştirilebilen özel çözümlerin değerini daha iyi anlıyor. DalSanto konuyla ilgili “Çoklu-LoRA hotswapping, şirketlerin geleneksel maliyet ve karmaşıklık engellerini ortadan kaldırarak daha hızlı, daha doğru modelleri kendi uygulamalarına özel şekilde dağıtmasına olanak tanıyor. Bu, kurumsal YZ’nin inşa edilme ve dağıtılma şeklini temelden değiştiriyor.” ifadelerini kullandı.
Teknik altyapı, teknoloji olgunlaştıkça daha karmaşık uygulamaları da mümkün kılıyor. Groq’un altyapısı, tek bir örnek üzerinde onlarca özel modeli destekleyerek, şirketlerin farklı müşteri segmentleri ve kullanım senaryoları için oldukça kişiselleştirilmiş YZ deneyimleri oluşturmasına imkan tanıyor.
DalSanto: “Çoklu-LoRA hotswapping, belirli görevlere özel düşük gecikmeli, yüksek doğruluklu çıkarım sağlıyor. Yol haritamız, uygulamaya özgü çıkarımı yeni standart haline getirmek için altyapıya, araçlara ve optimizasyona daha fazla yatırım yapılmasını içeriyor.”
Konuşma temelli YZ pazarı açısından bu ortaklık, daha önce aşılmaz görünen teknik sınırlamaların özel altyapı ve dikkatli sistem tasarımıyla aşılabileceğini gösteriyor. Kurumların YZ telefon temsilcilerini daha fazla benimsemesiyle birlikte, Phonely’nin gösterdiği rekabet avantajı, otomatik müşteri etkileşimlerinde performans ve yanıt verme süresine dair yeni beklentiler belirleyebilir.
Başarıyla birlikte, ayrıca karmaşık dağıtım sorunlarını çözmek için birlikte çalışan YZ altyapı şirketlerinin ortaya koyduğu yeni modeli de doğrulanıyor. Ortak becerilerin birleşmesi, tek bir sağlayıcının tek başına ulaşamayacağı çözümleri mümkün kılabilir. Ortaklığın gösterdiği üzere, yapay olduğu hemen anlaşılan telefon görüşmelerinin sonu, beklenenden daha hızlı geliyor olabilir.