Yapay Zeka
7/10/2025
Çoğumuz Siri ya da Alexa gibi kişisel asistanların düz tonlu ve mekanik sesleriyle yapay zeka konuşmalarını deneyimledik ve gerçek bir insan sesiyle kolayca ayırt edilebileceğini düşündük ancak yeni araştırmalar, artık ortalama bir dinleyicinin gerçek insan sesiyle yapay zeka tarafından üretilmiş “deepfake” sesleri birbirinden ayırt edemediğini ortaya koyuyor.
24 Eylül’de PLoS One dergisinde yayımlanan çalışmada, insan sesleri ile aynı kişilere ait YZ tarafından üretilen sesler katılımcılara dinletildi ve hangi sesin gerçek, hangisinin yapay olduğunun seçilmesi istendi. Sonuçlar, doğru tahminlerin oldukça düşük olduğunu gösterdi.
Queen Mary Üniversitesi Psikoloji Bölümü kıdemli öğretim üyesi ve çalışmanın başyazarı Nadine Lavan, yaptığı açıklamada şunları söyledi: “YZ tarafından üretilen sesler artık her yerde. Hepimiz Alexa ya da Siri ile konuştuk ya da çağrı merkezlerinde otomatik sistemlere denk geldik. Onlar henüz tamamen insan gibi gelmeyebilir ancak YZ teknolojisinin doğal ve insan benzeri konuşmalar üretmesi sadece zaman meselesiydi.”
Deney sonuçları oldukça dikkat çekiciydi: sıfırdan üretilen seslerin %41’i insan sesi sanıldı, kopyalanmış yapay seslerin %58’i insan sesiyle karıştırıldı ve gerçek insan sesleri yalnızca %62 oranında doğru tanındı. Araştırmacılar, rakamların dinleyicilerin gerçek insan sesleriyle deepfake sesleri ayırt etme kapasitesinde istatistiksel fark bulunmadığını gösterdiğini belirtti.
Çalışmada kullanılan ses kopyalarının gelişmiş sistemlerle değil, ticari yazılımlar ve yalnızca dört dakikalık kayıtlarla oluşturulduğu vurgulandı. Lavan, “Süreç için çok az uzmanlık gerekiyor, yalnızca birkaç dakikalık ses kaydı ve neredeyse hiç maliyet gerektirmiyor. Bu da YZ ses teknolojisinin ne kadar erişilebilir ve sofistike hale geldiğini gösteriyor.” dedi.
Araştırmacılar, bu gelişmenin etik, telif hakları ve güvenlik açısından büyük riskler taşıdığını belirtti. Banka ses doğrulama sistemlerinin aşılması veya dolandırıcılık vakaları buna örnek gösterildi. 9 Temmuz’da Sharon Brightwell, kızının kazaya karıştığını zannettiği sahte bir YZ çağrısıyla 15.000 dolar dolandırıldı. Brightwell, “Bunun onun olmadığını bana kimse inandıramazdı.” diyerek yaşadığı deneyimi aktardı.
YZ sesleri yalnızca bireyler için değil, kamuoyu için de tehdit oluşturabilir. Siyasetçiler ya da ünlü isimler adına sahte açıklamalar veya röportajlar üretilebilir, toplumsal gerilim ve güvensizlik tetiklenebilir. Nitekim kısa süre önce dolandırıcılar, Queensland Başbakanı Steven Miles’ın sesini kopyalayarak insanları Bitcoin yatırımı yapmaya ikna etmeye çalıştı.
Araştırmacılar, deepfake seslerin kötüye kullanımına rağmen faydalı tarafların da olabileceğini vurguladı. Lavan, “Ölçeklenebilir şekilde yüksek kaliteli yapay sesler üretme gücü, erişilebilirlik, eğitim ve iletişim için önemli fırsatlar yaratabilir.” dedi.
Sonuç olarak, YZ ses teknolojisinin ulaştığı nokta, yalnızca güvenlik risklerini değil, aynı zamanda toplumsal faydaya yönelik güçlü potansiyelleri de beraberinde getiriyor.