Wikipedia, Bot Trafiğine Karşı YZ Eğitimi için Veri Seti Oluşturuyor

Wikimedia Vakfı, Çarşamba günü yaptığı açıklamada, Wikipedia’nın yapay zeka modellerinin eğitimi için optimize edilmiş bir versiyonunu yayımlamak üzere Google’a ait veri bilimi platformu Kaggle ile iş birliği yaptığını duyurdu. İngilizce ve Fransızca ile başlayacak proje kapsamında, referanslar ve biçimlendirme kodları gibi öğelerden arındırılmış, ham Wikipedia metinlerinden oluşan standartlaştırılmış veri setleri sunulacak.

Gönüllüler tarafından yürütülen, kar amacı gütmeyen bir platform olan Wikipedia, büyük oranda bağışlarla finanse ediliyor ve barındırdığı içeriğin telif hakkını elinde bulundurmuyor. Bu da platformdaki içeriklerin herkes tarafından kullanılıp dönüştürülebilmesini mümkün kılıyor. Nitekim Wikipedia içeriği, örneğin Kuzey Kore’ye bilgi sokmak için kullanılan çevrimdışı versiyon olan Kiwix gibi çeşitli amaçlarla uzun süredir kullanılmakta.

Ancak son dönemde, yapay zeka eğitimi için Wikipedia verilerine erişmeye çalışan botların yoğunluğu, insan dışı trafik oranını önemli ölçüde artırdı. Vakıf, bu durumu maliyetleri ciddi biçimde artıran bir sorun olarak değerlendiriyor. Nitekim yalnızca Ocak 2024’ten bu yana, Wikipedia’nın bant genişliği tüketiminde %50 oranında artış yaşandığı açıklandı. Bu nedenle, JSON formatında düzenlenmiş, standart Wikipedia makale versiyonlarının paylaşılması, YZ geliştiricilerini web sitesine yüklenmekten caydırmayı amaçlıyor.

Kaggle Ortaklıklar Direktörü Brenda Flynn, The Verge’e yaptığı açıklamada “Makine öğrenimi topluluğunun araçlar ve testler için başvurduğu platform olarak, Kaggle, Wikimedia Vakfı’nın verilerini barındırmaktan büyük heyecan duyuyor. Bu verilerin erişilebilir, kullanılabilir ve yararlı kalmasında rol oynamaktan mutluyuz.” dedi.

Teknoloji şirketlerinin içerik üreticilerine gereken değeri vermediği ve bireysel yaratıcı emeğe saygı duymadığı uzun süredir bilinen bir gerçek. Sektörde giderek güçlenen bir görüş, internetteki tüm içeriğin ücretsiz olması gerektiğini ve yapay zeka modellerini eğitmek amacıyla web'den alınan içeriklerin “dönüştürücü” niteliği nedeniyle adil kullanım kapsamında değerlendirilmesi gerektiğini savunuyor. Ancak içeriği oluşturmak ciddi bir maliyet gerektiriyor ve YZ girişimleri, daha önce benimsenmiş site kurallarını görmezden gelmekte oldukça istekli davranıyor.

İnsan benzeri metinler üretmesi beklenen dil modelleri, geniş veri setleriyle eğitilmek zorunda. Bu nedenle eğitim verileri, YZ patlamasında petrol kadar değerli hale gelmiş durumda. Günümüzde önde gelen modellerin büyük ölçüde telifli eserlerle eğitildiği biliniyor ve birçok YZ şirketi bu nedenle çeşitli telif davalarıyla karşı karşıya. Chegg ve Stack Overflow gibi platformların karşı karşıya olduğu tehdit, YZ şirketlerinin içeriklerini alıp son kullanıcıya doğrudan sunması ve kaynak siteye trafik göndermemesi.

Wikipedia’ya katkıda bulunan bazı gönüllüler, içeriklerinin YZ eğitimi için kullanılmasından rahatsız olabilir. Tüm Wikipedia içerikleri, Creative Commons Attribution-ShareAlike lisansı altında sunuluyor. Söz konusu lisans, herkesin bu içerikleri paylaşmasına, uyarlamasına ve ticari amaçlarla bile kullanmasına olanak tanıyor. Ancak orijinal yazarın belirtilmesi ve türev çalışmaların aynı lisans altında sunulması zorunlu.

Wikimedia Vakfı, Kaggle’ın bu veri seti için Wikimedia Enterprise adlı premium hizmet üzerinden ödeme yaptığını belirtti. Enterprise paketi, yüksek hacimli kullanıcıların Wikipedia içeriğini daha kolay yeniden kullanmasını sağlayan özel bir hizmet olarak sunuluyor. Vakıf, içeriği kullanan şirketlerin hâlâ Wikipedia’nın atıf ve lisans koşullarına uyması gerektiğini vurguladı.

Kaynak:https://gizmodo.com/wikipedia-is-making-a-dataset-for-training-ai-because-its-overwhelmed-by-bots-2000590704

İlginizi Çekebilir

Yapay Zeka

Oct 2025

Çalışanlar, Yapay Zeka ile Sahte Fişler Üreterek İşverenlerini Kandırıyor

Yapay Zeka

Oct 2025

Bir Öğrenci, Okulun Yapay Zeka Güvenlik Sistemi Cips Paketini S*lah Sanınca Kelepçelendi

Yapay Zeka

Oct 2025

Çin DeepSeek’i Savaş Alanına Taşıyor: Otonom Dronlar ve Robot Köpekler Test Ediliyor

Yapay Zeka

Oct 2025

Kevin O’Leary, “Marty Supreme” Yönetmeninin Yapay Zeka Figüran Kullanmamakla “Milyonlarca Dolar” İsraf Ettiğine İnanıyor

Yapay Zeka

Oct 2025

Finans Analisti Uyardı: “Sam Altman Artık Küresel Ekonomiyi Çökertme Gücüne Sahip”

Bu Websitesi'nin Dönüşmleri

Pinetent Digital Agency

Wikipedia, Bot Trafiğine Karşı YZ Eğitimi için Veri Seti Oluşturuyor

İlginizi Çekebilir

Çalışanlar, Yapay Zeka ile Sahte Fişler Üreterek İşverenlerini Kandırıyor

Bir Öğrenci, Okulun Yapay Zeka Güvenlik Sistemi Cips Paketini S*lah Sanınca Kelepçelendi

Çin DeepSeek’i Savaş Alanına Taşıyor: Otonom Dronlar ve Robot Köpekler Test Ediliyor

Kevin O’Leary, “Marty Supreme” Yönetmeninin Yapay Zeka Figüran Kullanmamakla “Milyonlarca Dolar” İsraf Ettiğine İnanıyor

Finans Analisti Uyardı: “Sam Altman Artık Küresel Ekonomiyi Çökertme Gücüne Sahip”

Kategoriler

Kurumsal

En Önce Sizin Haberiniz Olsun!