Yapay Zeka

16/5/2025

Nvidia, 1 Saatlik Sesi 1 Saniyede Yazıya Döken YZ Modelini Yayınladı

Nvidia, son yıllarda dünyanın en değerli şirketlerinden biri haline geldi. Bunun temel nedeni, grafik işlem birimlerine (GPU) olan yoğun talebin borsada fark edilmesi oldu. Nvidia'nın video oyunlarında grafik oluşturmada kullanılan bu güçlü yongaları, günümüzde giderek artan şekilde büyük dil ve difüzyon modellerini eğitmek için de kullanılıyor.

Ancak Nvidia yalnızca donanım ve onu çalıştıran yazılımları üretmekle yetinmiyor. Üretken YZ çağının ilerlemesiyle birlikte, Santa Clara merkezli şirket kendi YZ modellerini de giderek daha fazla açık kaynaklı ve ücretsiz şekilde yayınlamaya başladı. Araştırmacıların ve geliştiricilerin indirip düzenleyebileceği ve ticari olarak kullanabileceği bu modellerin en yenisi Parakeet-TDT-0.6B-v2. Hugging Face’ten Vaibhav “VB” Srivastav’ın ifadesiyle model, “60 dakikalık ses kaydını 1 saniyede yazıya dökebiliyor..”

Bu model, Nvidia'nın ilk olarak Ocak 2024’te tanıttığı ve aynı yıl Nisan ayında güncellediği Parakeet modelinin yeni neslini temsil ediyor. Ancak ikinci sürüm olan bu model, şu anda Hugging Face Açık ASR Liderlik Tablosu'nda en üst sırada yer alıyor. Ortalama “Kelime Hata Oranı” (konuşulan bir kelimenin yanlış yazıya dökülme oranı) yalnızca %6,05.

Karşılaştırma yapılacak olursa, bu oran, OpenAI'nin GPT-4o-transcribe modelinin %2,46’lık İngilizce WER değeriyle ve ElevenLabs Scribe'ın %3,3’lük performansıyla benzer seviyelere yaklaşıyor.

Üstelik tüm bu yetenekler, ticari kullanım için uygun Creative Commons CC-BY-4.0 lisansı altında tamamen ücretsiz olarak sunuluyor. Bu durum modeli, ücretli uygulamalara konuşma tanıma ve transkripsiyon servisleri entegre etmek isteyen girişimciler ve bağımsız geliştiriciler için oldukça cazip kılıyor.

Performans ve Kıyaslama Başarısı

Model, 600 milyon parametreye sahip ve FastConformer kodlayıcı ile TDT çözücü mimarilerinin birleşiminden oluşuyor.

Nvidia’nın GPU hızlandırmalı donanımı üzerinde çalıştığında, bir saatlik ses kaydını yalnızca bir saniyede yazıya dökebiliyor.

Performans ölçümleri, Hugging Face’in yürüttüğü güncel ASR kıyaslamalarında, 128 batch size ile 3386.02 RTFx (Gerçek Zaman Faktörü) değeriyle en üst sırada yer alıyor.

Kullanım Alanları ve Yayın Tarihi

Parakeet-TDT-0.6B-v2, 1 Mayıs 2025 tarihinde dünya genelinde yayınlandı. Geliştiriciler, araştırmacılar ve sektörel ekiplerin; transkripsiyon hizmetleri, sesli asistanlar, altyazı üreticileri ve konuşma tabanlı YZ platformları gibi uygulamalar inşa etmesi hedefleniyor.

Model, noktalama işaretleri, büyük harf kullanımı ve kelime düzeyinde zaman damgalama desteği sunarak geniş kapsamlı bir konuşmadan metne çözümü sağlıyor.

Erişim ve Kurulum

Geliştiriciler modeli, Nvidia’nın NeMo araç seti üzerinden kurabiliyor. Kurulum süreci, Python ve PyTorch ile uyumlu olup, doğrudan kullanım veya alan odaklı görevler için ince ayar yapılabilecek şekilde tasarlanmış.

Açık kaynaklı lisans (CC-BY-4.0), ticari kullanıma da izin veriyor ve bu özelliği sayesinde hem yeni girişimler hem de büyük işletmeler için cazip hale geliyor.

Eğitim Verisi ve Model Gelişimi

Parakeet-TDT-0.6B-v2, Granary adlı kapsamlı ve çeşitlendirilmiş bir veri setiyle eğitildi. Eğitim verisi yaklaşık 120.000 saat İngilizce ses kaydını içeriyor; bunların 10.000 saati yüksek kaliteli, insan eliyle yazıya dökülmüş verilerden, 110.000 saati ise otomatik etiketlenmiş konuşmalardan oluşuyor.

Veri kaynakları arasında LibriSpeech, Mozilla Common Voice, YouTube-Commons ve Librilight gibi yaygın veri kümeleri yer alıyor.

Nvidia, 2025 Interspeech konferansı sonrasında Granary veri setini kamuya açık şekilde sunmayı planlıyor.

Değerlendirme ve Dayanıklılık

Model, AMI, Earnings22, GigaSpeech ve SPGISpeech gibi çok sayıda İngilizce ASR kıyaslamasında test edildi ve genel performans açısından güçlü bir genelleme kabiliyeti sergiledi. Gürültü koşullarında da dayanıklı kalan model, telefon kalitesindeki ses biçimlerinde dahi düşük sinyal-gürültü oranlarında sadece sınırlı performans düşüşü gösteriyor.

Donanım Uyumluluğu ve Verimlilik

Parakeet-TDT-0.6B-v2, Nvidia GPU ortamları için optimize edildi ve A100, H100, T4 ve V100 gibi donanımları destekliyor.

En yüksek performansa bu üst düzey GPU’larla ulaşılabilse de, model yalnızca 2 GB RAM bulunan sistemlerde de çalıştırılabiliyor. Bu da daha geniş kullanım senaryolarına olanak tanıyor.

Etik Hususlar ve Sorumlu Kullanım

Nvidia, modelin geliştirilmesinde kişisel verilerin kullanılmadığını ve sorumlu YZ çerçevesine bağlı kalındığını belirtiyor.

Demografik önyargılara karşı özel önlemler alınmamış olsa da, model Nvidia'nın iç kalite standartlarını geçti ve eğitim süreci, veri kaynağı kökeni ile gizlilik uyumu konusunda ayrıntılı belgeler içeriyor.

Modelin yayınlanmasının ardından makine öğrenimi ve açık kaynak toplulukları önemli ilgi gösterdi. Sosyal medyada gündeme gelen model, ticari ASR alternatiflerini geride bırakma başarısını, tamamen açık kaynak ve ticari kullanıma uygun biçimde sunmasıyla dikkat çekti.

Modeli denemek isteyen geliştiriciler, Hugging Face platformu veya Nvidia’nın NeMo araç seti aracılığıyla erişim sağlayabilir. Kurulum talimatları, demo betikleri ve entegrasyon kılavuzları kullanıma hazır durumda.

Kaynak:https://venturebeat.com/ai/nvidia-launches-fully-open-source-transcription-ai-model-parakeet-tdt-0-6b-v2-on-hugging-face/