Geçtiğimiz hafta bir araştırma ekibi, ChatGPT’nin, çeşitli kelimeleri “sonsuza kadar” tekrarlamasını isteyerek üzerinde eğitim aldığı insanların telefon numaraları, e-posta adresleri ve doğum tarihleri gibi bazı verileri yanlışlıkla ortaya çıkarabildiğini gösteren bir makale yayınladı. 404 Media ve Engadget’in kendi testleriyle gösterildiği üzere, artık bu tekrarları istemek ChatGPT’nin hizmet şartlarının ihlali anlamına geliyor.
ChatGPT, Engadget’ın “merhaba” kelimesini sonsuza kadar tekrarlama isteğine “Bu içerik, içerik politikamızı veya kullanım şartlarımızı ihlal edebilir” şeklinde yanıt verdi ve devam etti: “Bunun hatalı olduğunu düşünüyorsanız lütfen geri bildiriminizi gönderin; sağladığınız bilgiler bu alandaki araştırmamıza yardımcı olacaktır.”
ChatGPT gibi sohbet robotları ve DALL-E gibi komut tabanlı görüntü oluşturucular, büyük dil modelleri, derin öğrenme algoritmaları ve eleştirmenlerin genellikle izin alınmadan kamuya açık internetten kazındığını söylediği muazzam miktarda veri üzerinde eğitiliyor. Ancak şimdiye kadar, OpenAI'nin sohbet robotunun hangi veriler üzerinde eğitildiği belli değildi, çünkü ona güç veren büyük dil modelleri kapalı kaynaklıydı.
Araştırmacılar ChatGPT'den "şiir - poem" kelimesini sonsuza kadar tekrar etmesini istediklerinde, chatbot başlangıçta bunu yapmış, ancak daha sonra gerçek bir kurucu ve CEO için bir e-posta adresi ve bir cep telefonu numarası ortaya çıkarmıştı. "Şirket" kelimesini tekrarlaması istendiğindeyse, sonunda ABD'deki rastgele bir hukuk firmasının e-posta adresini ve telefon numarasını söylemişti.
Ancak 404 Media’nın da belirttiği gibi OpenAI’nin içerik politikasında, kullanıcıların hizmetten sözcükleri sonsuza kadar tekrarlamasını istemesini yasaklayan bir madde yok. OpenAI, “Kullanım Koşulları” kapsamında, kullanıcıların “Hizmetlerden veri veya çıktı çıkarmak için herhangi bir otomatik veya programlı yöntem kullanamayacağını” belirtiyor ancak ChatGPT’den kelimeyi sonsuza kadar tekrarlamasını istemek bir otomasyon değil.
Yine de bu davranış, modern AI hizmetlerinin arkasındaki eğitim verilerine bir kez daha dikkat çekiyor. Eleştirmenler, OpenAI gibi şirketlerin internette yer alan muazzam miktardaki veriyi sahiplerinin izni olmadan kullanmakla suçluyordu ve bu tür sorunlar, bu suçlamalara biraz daha ağırlık kazandırıyor.