• Haberler
  • Güncel
  • 'ChatGPT'nin Sır Kutusu Açıldı: Meğer Cevapların Yarısı Reddit'ten Kopya Çekilmiş!'

'ChatGPT'nin Sır Kutusu Açıldı: Meğer Cevapların Yarısı Reddit'ten Kopya Çekilmiş!'

Son araştırmalara göre, aralarında ChatGPT, Gemini, Llama ve Grok gibi popüler dil modellerinin de bulunduğu yapay zekalar, en çok Reddit platformundaki içeriklerden öğreniyor. Statista'nın yayımladığı verilere göre büyük dil modelleri tarafından kullanılan alıntıların %40'ı Reddit'ten yapılıyor.

Yapay Zeka Modelleri Reddit’ten Öğreniyor

Yapay zekanın gelişiminde en önemli unsur, onu eğitmek için kullanılan verilerin çeşitliliği ve kalitesi. ChatGPT’nin ortaya çıkışı ile birlikte hızla büyüyen yapay zeka ekosistemi, artık sadece teknik bilgiye değil, insanların günlük konuşmalarından, fikirlerinden ve tartışmalarından da besleniyor. Reddit gibi kullanıcı odaklı platformlar, milyonlarca kişinin deneyim, yorum ve diyaloglarını içerdiği için, yapay zekaya doğal dilin inceliklerini öğretmede büyük bir rol oynuyor.

Online veri analiz platformu Statista, 2025’in ilk çeyreğinde yaptığı araştırmada büyük dil modellerinin en çok başvurduğu kaynakları sıraladı. Sonuçlara göre, Reddit açık ara farkla ilk sırada yer aldı. Reddit’i sırasıyla Wikipedia (%26,3), YouTube (%23,5), Google (%23,2) ve Yelp (%21) takip etti.

Reddit Verileri “Gerçek İnsan Konuşmaları” Sağlıyor

Uzmanlara göre, Reddit’in bu kadar çok tercih edilmesinin nedeni, platformun doğal ve sansürsüz kullanıcı etkileşimlerine ev sahipliği yapması. Diğer birçok internet sitesinde yer alan bilgiler resmi veya düzenlenmiş içeriklerden oluşurken, Reddit tartışmaları doğrudan gerçek kişilerin fikir alışverişine dayanıyor.

Dil modelleri, bu içeriklerden duygusal ton, mizah, jargon, gündelik konuşma kalıpları gibi unsurları öğreniyor. Bu da yapay zekanın cevaplarını daha doğal, insana yakın ve bağlamsal olarak doğru hale getiriyor.

Birçok teknoloji uzmanı, bu tercihin yapay zeka geliştiricilerinin “bilgi doğruluğundan çok, iletişim doğallığını öncelediğini” gösterdiğini söylüyor. Bu yaklaşım, modellerin sadece bilgi aktaran araçlar değil, insan gibi düşünen ve konuşan sistemler haline gelmesini sağlıyor.

Wikipedia ve Google Geri Planda Kaldı

Araştırmanın dikkat çeken bir diğer sonucu ise, Wikipedia’nın Reddit’in oldukça gerisinde kalması oldu. Wikipedia, düzenlenmiş ve denetlenen içerikleriyle bilinirken, Reddit’in spontane paylaşımları daha “öğretici” bir kaynak olarak öne çıkıyor.

Statista verilerine göre, yapay zekalar tarafından en çok alıntılanan diğer kaynaklar arasında Facebook (%19,9), Amazon (%18,7), TripAdvisor (%12,4), Mapbox (%11,2) ve OpenStreetMap (%11,2) da bulunuyor. Bu çeşitlilik, yapay zekanın yalnızca metin tabanlı verilerle değil, görsel, coğrafi ve kullanıcı deneyimi odaklı bilgilerle de beslendiğini ortaya koyuyor.

Google ve Reddit Arasında Veri Paylaşımı Anlaşması

Yapay zekaların Reddit verilerini bu kadar yoğun biçimde kullanmasının arkasında, büyük teknoloji şirketleri arasında yapılan veri paylaşım anlaşmaları da bulunuyor. 2024 yılında Google ile Reddit arasında imzalanan anlaşma kapsamında, Google yapay zekalarının eğitimi için Reddit verilerinden faydalanmaya başladı.

Reuters’in aktardığı bilgilere göre, Google bu anlaşma karşılığında Reddit’e yıllık 60 milyon dolar ödeme yapıyor. Ayrıca OpenAI de benzer bir iş birliğine imza attı; ChatGPT’nin daha doğru ve insana yakın cevaplar üretebilmesi için Reddit verilerini kullanmak üzere özel bir erişim hakkı aldı.

Bu anlaşmalar sayesinde Reddit içerikleri artık sadece sosyal medya verisi olmaktan çıktı; yapay zekanın en değerli bilgi kaynaklarından biri haline geldi.

Yapay Zeka İçin Yeni Dönem: Sosyal Verilerle Öğrenme

Geleneksel veri kaynaklarından farklı olarak, sosyal medya platformları yapay zekaya insan davranışlarının çeşitliliğini öğretmede benzersiz bir potansiyel sunuyor. Reddit gibi forumlarda yer alan yüz milyonlarca gönderi, yapay zekanın dil, kültür, mizah, empati ve sosyal etkileşim becerilerini geliştirmesine katkı sağlıyor.

Ancak uzmanlar, bu durumun bazı etik ve güvenlik sorularını da gündeme getirdiğini belirtiyor. Zira Reddit paylaşımlarında kişisel bilgiler, yanlış yönlendirmeler veya toplumsal önyargılar da yer alabiliyor. Bu nedenle, yapay zeka modellerinin bu tür verilerden öğrenirken filtreleme ve denetim mekanizmalarına ihtiyaç duyduğu vurgulanıyor.

Giderek daha insana benzeyen yapay zeka sistemlerinin, bu etkileşim zenginliğini kullanarak daha doğal ama daha dikkatli bir öğrenme süreci geçirmesi bekleniyor. ChatGPT ve benzeri modellerin geleceği, artık sadece kodlarla değil, insanların dijital dünyadaki sesleriyle şekilleniyor.

Kaynak: Zeki Ersin Yıldırım

ERTV Malatya - Bizi Sosyal Medyada Takip Edin!

Bakmadan Geçme

WhatsApp İhbar Hattı
05443281444
ÇEKİN, GÖNDERİN, YAYINLAYALIM!