Yapay Zeka Uygulamaları
16/10/2025
Massachusetts Teknoloji Enstitüsü (MIT) araştırmacıları, büyük dil modellerinin (LLM), ChatGPT ve modern YZ sohbet robotlarının temelini oluşturan sistemlerin, sentetik veri üreterek kendilerini iyileştirmelerini sağlayan bir yöntemi geliştirip açık kaynak olarak paylaşarak yeniden ilgi odağı haline geldi.
SEAL (Self-Adapting LLMs – Kendi Kendini Uyarlayan Dil Modelleri) olarak adlandırılan teknik, ilk olarak Haziran ayında yayımlanan bir makaleyle tanıtılmış ve VentureBeat tarafından duyurulmuştu. Ekip geçtiğimiz ay makalenin önemli ölçüde genişletilmiş bir versiyonunu yayımladı ve MIT lisansı altında ticari kullanıma da açık olacak şekilde GitHub’da kaynak kodunu paylaştı. Güncellenmiş versiyon, X sosyal ağında YZ uzmanları arasında büyük yankı uyandırdı.
SEAL, dil modellerinin kendi ince ayar stratejilerini otonom olarak üretip uygulamasına olanak tanıyor. Geleneksel modellerin aksine, sabit veri setleri veya insan eliyle oluşturulmuş optimizasyon süreçlerine bağımlı kalmıyor. Bunun yerine model, kendi sentetik eğitim verilerini ve optimizasyon yönergelerini üretip bunlarla kendisini yeniden eğitebiliyor.
Teknik, MIT’nin Improbable AI Laboratuvarı’na bağlı araştırmacılar Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim ve Pulkit Agrawal tarafından geliştirildi. Çalışma, Nöral Bilgi İşleme Sistemleri Konferansı (NeurIPS 2025)’te sunuldu.
Yılın başlarında VentureBeat, SEAL’in erken aşama bir çerçeve olarak dil modellerine kendi sentetik verilerini üretip bunlar üzerinde eğitim yapma yeteneği kazandırdığını bildirmişti. Söz konusu yaklaşım, önceden eğitilmiş modellerin dağıtım sonrası durgunluğuna potansiyel bir çözüm sunuyordu.
O dönemde SEAL, manuel yeniden eğitim gerektirmeden dinamik ortamlarda sürekli öğrenebilen kurumsal YZ ajanlarını mümkün kılabilecek bir kanıt niteliğinde konsept olarak görülüyordu.
Yeni versiyonla birlikte sistem önemli ölçüde gelişti. Güncellenen çerçeve, SEAL’in model boyutuyla birlikte ölçeklenebilen kendi kendine uyum kapasitesini ortaya koyuyor, felaket unutmayı azaltmak için pekiştirmeli öğrenmeyi daha etkili biçimde entegre ediyor ve SEAL’in çift döngülü yapısını (içte denetimli ince ayar, dışta pekiştirmeli optimizasyon) yeniden üretilebilir biçimde resmileştiriyor.
Makalenin yeni sürümünde ayrıca farklı istem (prompt) formatlarında yapılan değerlendirmeler, öğrenme döngülerinde daha yüksek kararlılık ve çalışma zamanında karşılaşılabilecek pratik dağıtım zorluklarına dair tartışmalar da yer alıyor.
Büyük dil modelleri, metin üretimi ve anlamlandırmada etkileyici sonuçlar elde etse de, yeni bilgilere veya görevlere uyum sağlamaları genellikle manuel, kırılgan veya bağlama bağımlı kalıyor.
SEAL bağımlılığı yıkarak modellere, araştırmacıların “self-edits (öz düzenlemeler)” adını verdiği, modelin ağırlıklarını nasıl güncellemesi gerektiğini doğal dilde belirten çıktılar üretme yeteneği kazandırıyor.
Bu öz düzenlemeler, yeniden formüle edilmiş bilgiler, mantıksal çıkarımlar veya araç yapılandırmaları şeklinde olabiliyor. Model, düzenlemeleri oluşturduktan sonra kendisini yönergeler doğrultusunda yeniden eğitiyor. Süreç, pekiştirmeli öğrenme ile yönlendiriliyor; ödül sinyali, modelin hedef görevlere yönelik performansındaki iyileşmeden elde ediliyor.
Modelin tasarımı, insanların öğrenme sürecini andırıyor: bilgiyi özümsemeden önce yeniden yapılandırmak, öğrenmeyi güçlendiriyor. SEAL’in mekanizması, yeni veriyi doğrudan “olduğu gibi” kullanan sistemlere göre önemli bir avantaj sağlıyor.
SEAL, iki temel alanda test edildi: bilgi edinimi ve az örnekli öğrenme.
Bilgi ekleme testlerinde, modelin SQuAD veri setine benzer pasajlardan yeni bilgileri içselleştirme becerisi değerlendirildi. Stanford Üniversitesi’nin 2016’da yayımladığı bu veri seti, Wikipedia makalelerine dayanan 100.000’den fazla soru-cevap çiftinden oluşuyor.
Model, metin pasajlarını doğrudan kullanmak yerine onlardan türetilmiş sentetik çıkarımlar üretti ve bunlar üzerinde ince ayar yaptı. İki tur pekiştirmeli öğrenmeden sonra modelin soru-cevap doğruluk oranı %33,5’ten %47,0’ye yükseldi ve GPT-4.1 tarafından üretilen sentetik verilerle elde edilen sonuçları geride bıraktı.
Az örnekli öğrenme testlerinde, ARC benchmark veri setinin bir alt kümesi kullanıldı. Burada SEAL, veri artırımı ve hiperparametreleri tanımlayan öz düzenlemeler üretti. Pekiştirmeli öğrenme sonrası, başarı oranı %20’den %72,5’e yükseldi. Sadece bağlam içi öğrenmeye (in-context learning) dayanan modellerin başarı oranı ise %0 olarak kaydedildi.
SEAL, çift döngülü (dual-loop) bir yapı üzerine çalışıyor: iç döngü, öz düzenleme çıktısına göre denetimli ince ayar yaparken, dış döngü, bu düzenlemeleri üreten politikayı optimize eden pekiştirmeli öğrenme sürecini yürütüyor.
Kullanılan pekiştirmeli öğrenme algoritması ReSTEM olarak adlandırılıyor; örnekleme (sampling) ve filtrelenmiş davranış kopyalama (filtered behavior cloning) yöntemlerini birleştiriyor. Eğitim sırasında, yalnızca performans artışı sağlayan öz düzenlemeler pekiştiriliyor. Böylece model hangi tür düzenlemelerin öğrenme açısından daha faydalı olduğunu öğreniyor.
Verimlilik için SEAL, tam parametre güncellemeleri yerine LoRA tabanlı ince ayar uyguluyor. Böylelikle deneyler hızlı ve düşük maliyetli hale geliyor.
Araştırmacılar, SEAL’in minimum insan gözetimiyle yüksek fayda sağlayan eğitim verileri üretebildiğini ve bazı görevlerde GPT-4.1 gibi büyük dış modelleri geride bıraktığını belirtiyor.
Sistem ayrıca, tek geçişli güncellemelerden çok belgeli devamlı ön eğitim senaryolarına geçildiğinde de yüksek performansını koruyor.
Ancak teknik bazı zorluklar da içeriyor. Bunların başında, felaket unutma (catastrophic forgetting) geliyor, yani modelin yeni bilgileri öğrenirken eski bilgileri kaybetmesi.
Ekipten Jyo Pari, VentureBeat’e gönderdiği e-postada pekiştirmeli öğrenmenin (RL), geleneksel denetimli ince ayara (SFT) göre unutmayı azaltmada daha etkili göründüğünü belirtti. Ayrıca SEAL’in gelecekte yalnızca eğitim verilerini değil, ödül işlevlerini de öğrenebilecek varyantlara dönüşebileceğini söyledi.
Bir diğer zorluk ise hesaplama maliyeti. Her öz düzenlemenin değerlendirilmesi, 30–45 saniye sürebiliyor; bu da standart RL görevlerine kıyasla oldukça yüksek bir süre. Jyo, “SEAL’in eğitimi karmaşık, çünkü biri dışta RL, diğeri içte SFT olmak üzere iki optimizasyon döngüsüne dayanıyor. Çalışma zamanında model ağırlıklarını güncellemek de yeni sistem altyapısı gerektiriyor.” diyerek gelecekteki araştırmaların dağıtım altyapısına odaklanması gerektiğini vurguladı.
Ayrıca SEAL, her bağlam için eşleştirilmiş görev ve referans cevap gerektirdiğinden, etiketlenmemiş veri kümelerine doğrudan uygulanamıyor ancak Jyo, uygun bir ödül sinyali tanımlandığı sürece SEAL’in güvenlik açısından kritik alanlarda bile uyum sağlayabileceğini, hatta zararlı girdilerden kaçınmayı öğrenebileceğini belirtti.
SEAL’in ölçeklenebilirliği üzerine gelen sorulara yanıt olarak Jyo, model boyutu büyüdükçe kendi kendine uyum yeteneğinin de arttığını gösteren deneyleri paylaştı. Bunu, “öğrenme yöntemlerini geliştiren öğrencilerle” kıyasladı.
Ayrıca SEAL’in yeni istem biçimlerine genelleme yeteneğini doğruladı ancak tamamen farklı alanlara veya mimarilere transfer yeteneğinin henüz test edilmediğini söyledi. “SEAL, olasılıkları gösteren bir başlangıç çalışması ama çok daha fazla test gerektiriyor.” diyerek, görev çeşitliliği arttıkça genelleme kapasitesinin de gelişeceğini ifade etti.
Ekip, yalnızca birkaç pekiştirmeli öğrenme adımının bile ölçülebilir performans artışı sağladığını belirtiyor. “Bu heyecan verici, çünkü daha fazla işlem gücüyle daha büyük iyileştirmeler elde edebiliriz.” diyen Jyo, gelecekte Group Relative Policy Optimization (GRPO) gibi daha gelişmiş RL yöntemlerinin de denenebileceğini belirtti.
SEAL, zamanla kendi kendini iyileştirebilen, yeni bilgileri içselleştiren ve öğrenme yöntemlerini yeniden yapılandırabilen modeller için önemli bir dönüm noktası oluşturuyor. Araştırmacılar, SEAL’in ileride kendi kendine ön eğitim, sürekli öğrenme ve etken sistemlerin (agentic systems) gelişiminde temel rol oynayabileceğini öngörüyor.
Bu tür sistemlerde bir model, her etkileşimden sonra SEAL mekanizmasıyla ağırlık güncellemeleri üreterek davranışlarını ve içgörülerini kademeli biçimde içselleştirebilir. Böylece manuel denetim ve yeniden eğitim ihtiyacı azalırken, veri kısıtlı veya yüksek riskli alanlarda bile sürekli gelişen modellerin önü açılabilir.
Araştırmacılar, internet üzerindeki verinin doygunluğa ulaşması ve LLM’lerin ölçeklenmesinin veri kıtlığı nedeniyle yavaşlaması karşısında, SEAL gibi öz yönelimli (self-directed) yaklaşımların dil modellerinin sınırlarını yeniden tanımlamada kilit rol oynayacağını düşünüyor.