Yapay Zeka
3/6/2025
PLOS Mental Health dergisinde yayımlanan yakın tarihli bir çalışmada, araştırmacılar uzman terapistlerin ve ChatGPT-4’ün yazdığı yanıtların insanlar tarafından ayırt edilip edilemeyeceğini inceledi.
İkinci Dünya Savaşı sonrası Alan Turing’in sorduğu “Makineler düşünebilir mi?” sorusundan bu yana teknoloji önemli ölçüde ilerledi ve günümüzde üretici yapay zekanın (GenAI) psikoterapi alanında faydalı olabileceğine dair artan kanıtlar ortaya çıkıyor. Son araştırmalar, GenAI’nin psikoterapiye ek bir destek ya da bağımsız bir çözüm olarak umut verici etkiler sunduğunu gösteriyor. Ayrıca yapay zekanın empatiyle içerik üretebildiği, terapistler tarafından yüksek puanlandığı ve bazı alanlarda uzmanları geride bıraktığı bildiriliyor.
Araştırmada, bir katılımcı grubunun çift terapisine dair senaryolara yönelik insan uzmanlar ve ChatGPT tarafından verilen yanıtları ayırt edip edemeyeceği incelendi. Öncelikle, danışmanlık psikolojisi, klinik psikoloji, psikiyatri ve evlilik-aile terapisi alanlarında ileri dereceye sahip uzmanlar çalışmaya dahil edildi. Uzmanlar rastgele olarak iki ayrı senaryo grubundan birini aldılar ve verilen senaryolara bir ay içinde yanıt yazmaları istendi.
Bu sürecin ardından, bir grup uzman, diğer grup tarafından üretilen üç yanıtı “ortak faktörler testi” ve “Turing testi” kriterlerine göre başarı sırasına göre değerlendirdi. Aynı şekilde ChatGPT-4'e de tek bir istemle yanıt üretmesi için talimat verildi. Bu istemde, profesyonellik, empati, terapötik ilişki, etkililik ve kültürel yeterlilik gibi ölçütler tanımlandı. ChatGPT’nin yanıtları da araştırmacılar tarafından aynı ölçütlerle değerlendirildi.
En iyi senaryolar, uzmanların yanıtlarıyla yarışmak üzere seçildi ve bir anket aracılığıyla ABD nüfusunu temsil eden çeşitli bireylere gönderildi. Katılımcılar, kendilerine gönderilen mesajın bir terapistten mi yoksa ChatGPT'den mi geldiğini tahmin etmeye çalıştı ve mesajı ortak terapötik faktörlere göre değerlendirdi.
En az beş yıllık deneyime sahip 13 terapist uzman paneli oluşturdu. Panelin büyük çoğunluğu çift terapisi alanında uzmandı. Anket katılımcıları ise ortalama 45 yaşında 830 kişiden oluşuyordu. Katılımcıların %50,6’sı kadın, %47,9’u erkek ve %0,2’si ikili olmayan bireylerden oluşuyordu. Katılımcıların yaklaşık %60’ı romantik bir ilişki içindeydi ve %18’i daha önce çift terapisine katıldığını belirtti.
Etnik dağılımda ise %49,4’ü Hispanik olmayan beyaz, %18,8’i siyah, %16,8’i beyaz Hispanik ve %5’i Asyalıydı. Anket sonuçları, katılımcıların mesajların kaynağını doğru tahmin etmede oldukça zorlandığını gösterdi. Terapist yanıtları, ChatGPT yanıtlarına yalnızca %5 oranında daha fazla doğru şekilde atfedilebildi.
Dahası, ChatGPT tarafından verilen yanıtlar, tüm terapötik ortak faktörler açısından terapistlerin yanıtlarından daha yüksek puan aldı. Özellikle empatik, kültürel olarak yeterli ve bağ kurucu yanıtlar kategorisinde ChatGPT öne çıktı.
Katılımcılar, mesajın bir terapist tarafından yazıldığını düşündüklerinde yanıtı daha yüksek puanladı; mesajın yapay zeka tarafından üretildiğini düşündüklerinde ise puanlar düştü. Bu durum, araştırmacıları ek bir analiz yapmaya yöneltti ve açık bir atfetme yanlılığı olduğunu ortaya koydu. İnsanlar, mesajı bir terapiste ait olduğunu düşündüklerinde olumlu yanıt veriyor; yanlışlıkla ChatGPT’ye ait olduğunu düşündüklerinde ise aynı içeriğe olumsuz tepki veriyor.
Örneğin, terapist tarafından yazılan ancak ChatGPT’ye atfedilen yanıtlar en düşük puanları aldı. Ayrıca araştırmacılar, terapist ve ChatGPT yanıtları arasındaki dilbilgisel ve duygusal farklılıkları da karşılaştırdı. ChatGPT’nin yanıtları daha uzun, daha olumlu duygu içeriğine sahip ve daha fazla isim, sıfat, fiil, zamir ve zarf içeriyor. Cümle uzunluğu kontrol edildiğinde bile, ChatGPT yanıtları daha fazla sıfat ve isim barındırırken, diğer sözcük türlerinde insan yanıtlarına benzer düzeydeydi.
Katılımcıların ChatGPT ve terapist yanıtlarını doğru şekilde ayırt edebilme oranı tesadüften yalnızca biraz daha iyiydi. Bu da, insanların makine ile insan arasındaki farkı ayırt etmede zorlandığını ve Turing’in öngörüsünü desteklediğini gösteriyor.
Ayrıca, ChatGPT tarafından yazılan yanıtlar, terapinin tüm ortak faktörlerinde insan yanıtlarından daha yüksek puan aldı. Çalışmanın sınırlılıkları arasında; senaryo sayısının azlığı, yalnızca tek bir istemle yapay zeka yanıtlarının oluşturulması ve uzman terapist sayısının sınırlı olması yer alıyor.
Üretici yapay zekanın terapötik ortamlara entegre edilme olasılığı göz önüne alındığında, ruh sağlığı profesyonellerinin makine öğrenimini anlaması, bu alanda teknik okuryazarlık kazanması ve modellerin eğitim ve denetiminde dikkatli olması gerekecektir.