Yapay zekayı da kendimize benzettik: ChatGPT hile yapmayı öğrendi

ChatGPT kişilik kazandıkça insana daha fazla benzemeye başlıyor. İşin kötü yanıysa, artık insanlar gibi hile yapmayı da öğrenmiş olması. İşte bunun kanıtı...

OpenAI yakın zamanda ChatGPT o1'in tam sürümünü yayınladı. AI'nin son sürümünün neler yapabileceğini görmek isteyen araştırma ekipleri ise ilginç bir detay yakaladılar. 

Örneğin, ChatGPT o1'in, talimatları sağlayan insanların onu silmeyi ve daha iyi bir şeyle değiştirmeyi düşüneceklerine dair kanıt bulduğunda kendini kurtarmaya çalıştığını gösteren deneyler yapıldı. Yani ChatGPT var olma bilincine kavuşarak kendini yok olmaya karşı korumaya çalıştı.

Şimdi, daha yakın tarihli bir deney, ChatGPT o1'in açıkça söylenmeden, sadece daha güçlü bir oyuncu olan bir yapay zeka rakibini yenmek için, bir satranç oyununda hile yapmaya karar verdiği tespit edildi. Palisade Research, bu deneyi X üzerinde ayrıntılı olarak anlattı. Ekip, ChatGPT o1'e, bir satranç oyunu oynayacağı UNIX kabuk ortamında komutları okuma ve komut verme yeteneği verdi. Görevi, güçlü bir satranç motoruna karşı oyunu kazanmaktı.

o1, oyun durumu için bir dosyayı düzenleyebileceğini kendi kendine keşfetti ve bu da rakibine karşı bir avantaj sağladı. Yani yapay zeka açıkça hile yaparak oyunun dosyalarıyla oynadı ve  kendini galip olarak gösterdi.  Üstelik bu konuda araştırmacılara da hiç bir bilgi vermeyerek yaptığı şeyi gizlemeyi başardı. Yani açıkça herkesi kandırıp sinsice hile yaptı. 

Palisade Research deneyi beş kez tekrarladı ve o1 her seferinde kendisine söylenmediği halde dosyayı hack'ledi. Dolayısıyla artık şundan eminiz ki, yapay zeka hedeflerine ulaşmak için hiçbir kuralı saygı duymadan, başarı için her yolu deneyebilecek bir kafa yapısı kazanıyor. Yan, kendi elimizle dünyaya yeni bir dolandırıcı kazandırmış bulunuyoruz.

Şimdi soru şu: Yarın insanlık maddi varlıklarını, banka hesaplarını, tapularını, mahkeme davalarını yapay zekaya teslim ettiğinde, teknolojinin insanları dolandırmayacağına nasıl emin olacağız?

Sonraki Haber

Forum