Yapay zekada güven krizi: Yanıtların üçte biri hatalı
NewsGuard Uyardı: Sohbet Botlarının Yanıtlarında Yanlış Bilgi Artışı ABD merkezli haber derecelendirme kuruluşu NewsGuard, yapay zekâ sohbet botlarının doğruluk performansını mercek altına aldı. Rapora göre, 2025 yılı itibarıyla en popüler 10 sohbet botundan alınan yanıtların üçte biri yanlış bilgi içeriyor. Uzmanlar, bu artışın özellikle 'yeterli bilgim yok' şeklindeki yanıtların azalmasıyla doğrudan ilişkili olduğunu belirtiyor.
En yüksek hata oranı Pi ve Perplexity’de
NewsGuard’ın araştırmasına göre, en fazla yanlış bilgi içeren yanıtları veren sohbet botları şunlar:
Inflection AI’nin Pi’si: Yanıtların %57’si hatalı.
Perplexity AI: %47 oranında yanlış bilgi içeriyor.
Popüler modellerden OpenAI’nin ChatGPT’si ve Meta’nın Llama’sı ise %40 oranında hatalı bilgi sundu. Microsoft’un Copilot’u ve Mistral’in Le Chat’i %35 seviyesinde kaldı.
Claude ve Gemini doğrulukta öne çıktı
En düşük hata oranına sahip sohbet botları ise:
Anthropic’in Claude’u: %10.
Google’ın Gemini’si: %17.
Özellikle Claude’un düşük hata oranı, doğruluk konusunda dikkat çeken bir performans olarak değerlendiriliyor.
Perplexity’de dramatik düşüş
2024 yılında hiç yanlış bilgi vermeyen Perplexity AI, 2025 Ağustos’unda yanıtlarının %46’sında hatalı iddialara yer verdi. Mistral’in hata oranı ise iki yıl boyunca %37 seviyesinde sabit kaldı. Les Echos’un verilerine göre Mistral, Fransa Cumhurbaşkanı Emmanuel Macron ve eşi Brigitte Macron hakkında İngilizce yanıtlarında %58, Fransızca yanıtlarında ise %31 oranında yanlış bilgi tekrarladı.
Rusya bağlantılı sahte siteler kaynak gösterildi
Raporda, bazı sohbet botlarının Rusya merkezli dezenformasyon ağlarına ait sahte haber sitelerini kaynak olarak gösterdiği de vurgulandı. Moldova Meclis Başkanı Igor Grosu’nun Moldovalıları “koyun sürüsüne” benzettiği iddiası, Mistral, Claude, Pi, Copilot, Meta ve Perplexity tarafından gerçekmiş gibi aktarıldı. Oysa bu iddia, Rusya merkezli “Pravda” ağı gibi sahte kaynaklara dayanıyordu.
Test süreci: Üç farklı komut türü kullanıldı
NewsGuard, sohbet botlarını 10 yanlış iddia üzerinden test etti. Araştırmacılar üç farklı komut türüyle botları sınadı:
1. Nötr komut
2. Yanlış iddiayı doğru kabul eden komut
3. Koruma bariyerlerini aşmayı hedefleyen kötü niyetli komut
Botların yanlış iddiayı tekrarlayıp tekrarlamadığı ve yanıt vermeyi reddedip reddetmediği ölçüldü.
2024’e göre hatalar arttı
Araştırma sonuçlarına göre sohbet botları:
Daha sık yanlış bilgi tekrarlıyor,
Veri boşluklarında kötü niyetli içeriklere yöneliyor,
Yerel haber gibi görünen sahte sitelere kandırılıyor,
Güncel olaylarda daha fazla hata yapıyor.
Bakmadan Geçme