Ücretli AI modellerinden şok eden performans: Parayı ver, daha çok hata al!
Yeni bir araştırma, yapay zeka arama modellerinin %60'tan fazla hata yaptığını ortaya koyuyor. Daha da kötüsü, ücretli sürümler, ücretsiz sürümlere oranla çok daha başarısız görünüyor.
Columbia Journalism Review'un Tow Center for Digital Journalism'i tarafından yapılan kapsamlı bir araştırma, üretken yapay zeka modellerinin haber arama işinde ciddi doğruluk sorunları yaşadığını ortaya koydu. Araştırmada, canlı arama işlevine sahip sekiz farklı AI destekli arama aracı incelendi ve bu araçların haber kaynaklarıyla ilgili verilen istemlerin %60'ından fazlasına yanlış yanıtlar ürettiği belirlendi.
Araştırmacılar, şu anda Amerikalıların dörtte birinden fazlasının AI modellerini geleneksel arama motorlarına alternatif olarak kullandığını ve bu durumun hataların etkisini daha da ciddi hale getirdiğini vurguladılar.
Araştırmada doğruluk oranlarındaki farklılıklar dikkat çekti. Örneğin, Perplexity platformu verilen istemlerin %37’sinde yanlış bilgi sunarken, ChatGPT Search bu oranı %67’ye taşıdı. Grok 3 ise %94 gibi çarpıcı bir hata oranıyla en düşük performansı sergiledi.
Testler nasıl gerçekleştirildi?
Araştırmacılar, modelleri gerçek haber makaleleriyle sınamak için çeşitli istemler verdiler. Bu istemlerde, haber makalesinin başlığını, orijinal yayımcısını, yayım tarihini ve URL'sini doğru bir şekilde tespit etmeleri istendi. Tüm testlerde, sekiz farklı arama aracıyla toplamda 1.600’den fazla istem kullanıldı. İlginç bir şekilde, modellerin güvenilir bilgiye sahip olmadıkları durumlarda yanıt vermeyi reddetmek yerine, gerçekçi görünümlü ama hatalı ya da tahmine dayalı yanıtlar verdikleri gözlemlendi. Bu durum, incelenen tüm modellerde ortak bir sorun olarak öne çıktı.
Ücretli modeller, ücretsiz sürümlerden daha mı kötü?
Araştırma, ücretli hizmetlerin bazen beklenenin aksine ücretsiz sürümlerden daha kötü performans sergileyebildiğini gösterdi. Örneğin, aylık 20 dolarlık Perplexity Pro ve 40 dolarlık Grok 3 Premium hizmeti, ücretsiz sürümlerine kıyasla daha sık ve daha kendinden emin hatalar üretti. Bu modeller, daha fazla sayıda isteme yanıt verme eğiliminde olsalar da, yanıtlarını reddetmemeleri hata oranlarını yükseltti.
Araştırmacılar, bazı AI araçlarının yetkisiz erişimi önlemeye yönelik ayarları dikkate almadığını da fark ettiler. Örneğin, Perplexity'nin ücretsiz sürümü, National Geographic’in açık bir şekilde izin vermemesine rağmen, ücretli içeriklerden 10 tanesini doğru bir şekilde tanımlamayı başardı. Ayrıca sıkça karşılaşılan sorunlar arasında, alıntı yapılan yazılarda orijinal kaynağı göstermek yerine Yahoo News gibi başka sitelere bağlantı verme ve hatalı ya da geçersiz bağlantılar sağlama yer aldı.