Yapay Zeka

18/4/2025

Wikipedia, Bot Trafiğine Karşı YZ Eğitimi için Veri Seti Oluşturuyor

Wikimedia Vakfı, Çarşamba günü yaptığı açıklamada, Wikipedia’nın yapay zeka modellerinin eğitimi için optimize edilmiş bir versiyonunu yayımlamak üzere Google’a ait veri bilimi platformu Kaggle ile iş birliği yaptığını duyurdu. İngilizce ve Fransızca ile başlayacak proje kapsamında, referanslar ve biçimlendirme kodları gibi öğelerden arındırılmış, ham Wikipedia metinlerinden oluşan standartlaştırılmış veri setleri sunulacak.

Gönüllüler tarafından yürütülen, kar amacı gütmeyen bir platform olan Wikipedia, büyük oranda bağışlarla finanse ediliyor ve barındırdığı içeriğin telif hakkını elinde bulundurmuyor. Bu da platformdaki içeriklerin herkes tarafından kullanılıp dönüştürülebilmesini mümkün kılıyor. Nitekim Wikipedia içeriği, örneğin Kuzey Kore’ye bilgi sokmak için kullanılan çevrimdışı versiyon olan Kiwix gibi çeşitli amaçlarla uzun süredir kullanılmakta.

Ancak son dönemde, yapay zeka eğitimi için Wikipedia verilerine erişmeye çalışan botların yoğunluğu, insan dışı trafik oranını önemli ölçüde artırdı. Vakıf, bu durumu maliyetleri ciddi biçimde artıran bir sorun olarak değerlendiriyor. Nitekim yalnızca Ocak 2024’ten bu yana, Wikipedia’nın bant genişliği tüketiminde %50 oranında artış yaşandığı açıklandı. Bu nedenle, JSON formatında düzenlenmiş, standart Wikipedia makale versiyonlarının paylaşılması, YZ geliştiricilerini web sitesine yüklenmekten caydırmayı amaçlıyor.

Kaggle Ortaklıklar Direktörü Brenda Flynn, The Verge’e yaptığı açıklamada “Makine öğrenimi topluluğunun araçlar ve testler için başvurduğu platform olarak, Kaggle, Wikimedia Vakfı’nın verilerini barındırmaktan büyük heyecan duyuyor. Bu verilerin erişilebilir, kullanılabilir ve yararlı kalmasında rol oynamaktan mutluyuz.” dedi.

Teknoloji şirketlerinin içerik üreticilerine gereken değeri vermediği ve bireysel yaratıcı emeğe saygı duymadığı uzun süredir bilinen bir gerçek. Sektörde giderek güçlenen bir görüş, internetteki tüm içeriğin ücretsiz olması gerektiğini ve yapay zeka modellerini eğitmek amacıyla web'den alınan içeriklerin “dönüştürücü” niteliği nedeniyle adil kullanım kapsamında değerlendirilmesi gerektiğini savunuyor. Ancak içeriği oluşturmak ciddi bir maliyet gerektiriyor ve YZ girişimleri, daha önce benimsenmiş site kurallarını görmezden gelmekte oldukça istekli davranıyor.

İnsan benzeri metinler üretmesi beklenen dil modelleri, geniş veri setleriyle eğitilmek zorunda. Bu nedenle eğitim verileri, YZ patlamasında petrol kadar değerli hale gelmiş durumda. Günümüzde önde gelen modellerin büyük ölçüde telifli eserlerle eğitildiği biliniyor ve birçok YZ şirketi bu nedenle çeşitli telif davalarıyla karşı karşıya. Chegg ve Stack Overflow gibi platformların karşı karşıya olduğu tehdit, YZ şirketlerinin içeriklerini alıp son kullanıcıya doğrudan sunması ve kaynak siteye trafik göndermemesi.

Wikipedia’ya katkıda bulunan bazı gönüllüler, içeriklerinin YZ eğitimi için kullanılmasından rahatsız olabilir. Tüm Wikipedia içerikleri, Creative Commons Attribution-ShareAlike lisansı altında sunuluyor. Söz konusu lisans, herkesin bu içerikleri paylaşmasına, uyarlamasına ve ticari amaçlarla bile kullanmasına olanak tanıyor. Ancak orijinal yazarın belirtilmesi ve türev çalışmaların aynı lisans altında sunulması zorunlu.

Wikimedia Vakfı, Kaggle’ın bu veri seti için Wikimedia Enterprise adlı premium hizmet üzerinden ödeme yaptığını belirtti. Enterprise paketi, yüksek hacimli kullanıcıların Wikipedia içeriğini daha kolay yeniden kullanmasını sağlayan özel bir hizmet olarak sunuluyor. Vakıf, içeriği kullanan şirketlerin hâlâ Wikipedia’nın atıf ve lisans koşullarına uyması gerektiğini vurguladı.






Kaynak:https://gizmodo.com/wikipedia-is-making-a-dataset-for-training-ai-because-its-overwhelmed-by-bots-2000590704