Saat okumak, yapay zeka için neden bir kabusa dönüştü?
Görsel zekalarıyla övülen yapay zeka modelleri, nasıl oluyor da sıradan bir analog saati okuma görevinde sınıfta kalıyor? İşte ilginç bir araştırma ve şaşırtan sonuçları.


Yapay zeka, son yıllarda inanılmaz yetenekler sergileyerek hikaye yazmaktan protein yapılarını tahmin etmeye, gerçekçi görseller yaratmaktan ev ödevlerini çözmeye kadar geniş bir yelpazede kullanılmaya başlandı. Ancak, her şey göründüğü kadar kusursuz değil. Yeni bir araştırma, AI’nin bazı basit görevlerde - analog bir saat okuma gibi - neredeyse komik denebilecek ölçüde zorlandığını ortaya koydu.
Edinburgh Üniversitesi’nden bir grup araştırmacı, çeşitli ortamları yorumlayabilen ve içerik üretebilen yedi çok modlu büyük dil modelini (MLLM) test etti. Çalışmalarını Nisan ayında yayınlamayı planlayan ekip, bu modellerin saat ya da takvim gibi görseller üzerinden zamanla ilgili soruları ne kadar doğru yanıtlayabildiğini inceledi. Araştırma sonuçları, AI’nin bu temel görevlerde beklenenden çok daha düşük bir başarı gösterdiğini ortaya koydu.
Araştırmacılar, makalelerinde bu sorunun önemini şöyle açıklıyor: “Görsel girdilerden zamanı yorumlama ve akıl yürütme yeteneği, olay planlamasından otonom sistemlere kadar birçok gerçek dünya uygulaması için kritik bir rol oynar.” Ancak mevcut teknolojiler daha çok nesne algılama, görüntü başlığı veya sahne analizi gibi alanlarda yoğunlaşmış durumda. Zamansal çıkarımlara yönelik araştırmalar ise hala yetersiz.
Ekip, ünlü modeller arasında yer alan OpenAI’nin GPT-4o ve GPT-o1’ini, Google DeepMind’ın Gemini 2.0’ını, Anthropic’in Claude 3.5 Sonnet’ini, Meta’nın Llama 3.2-11B-Vision-Instruct’unu, Alibaba’nın Qwen2-VL7B-Instruct’unu ve ModelBest’in MiniCPM-V-2.6’sını test etti. Modeller, farklı analog saat görselleri (örneğin Roma rakamları, farklı tasarımlar ve bazılarında saniye kolu olmayan saatler) ile karşı karşıya bırakıldı. Ayrıca on yıllık bir takvim görüntüsü üzerinden zamanla ilgili daha karmaşık sorular soruldu; örneğin, “Yeni yıl haftanın hangi gününe denk geliyor?” veya “Yılın 153’üncü günü hangisidir?” gibi...
Araştırmacılar, bu görevlerin sadece görsel tanıma değil, aynı zamanda sayısal akıl yürütme yeteneğini de gerektirdiğini vurguladı. Saat kolunun açısını algılama ya da takvimdeki gün-hücre düzenini çözümleme gibi görevler AI için kolay görünse de, sonuçlar aksini gösterdi.
Şaşırtan sonuçlar
AI modelleri, özellikle analog saatleri okuma görevinde büyük zorluklar yaşadı. Bu görevde genel doğruluk oranı %25’in altında kaldı. Roma rakamlı ve stilize kollar taşıyan saatlerde, hatta saniye kolu olmayan modellerde bile benzer şekilde kötü performans sergilendi. Araştırmacılar, bu başarısızlığın saat kollarını algılamak ve saat yüzündeki açıları yorumlamakla ilgili sorunlardan kaynaklandığını düşünüyor.
Google'ın Gemini 2.0 modeli saat okuma testinde en yüksek puanı alırken, OpenAI’nin GPT-o1 modeli takvim görevlerinde rakiplerinden daha iyi performans göstererek %80 doğruluğa ulaştı. Ancak bu oran bile, en başarılı modelin hala %20 oranında hata yaptığını gösteriyor.
Bu araştırma, AI’nin etkileyici yeteneklerine rağmen bazı temel görevlerde hala ciddi sınırlamaları olduğunu ortaya koyuyor. Saat okuma ve takvim anlama gibi görsel ve bilişsel olarak basit görünen görevlerdeki bu başarısızlık, AI’nin insan akıl yürütmesinden ne kadar uzak olduğunu bir kez daha hatırlatıyor. Gelecekteki iyileştirmelerle bu eksiklerin giderilip giderilmeyeceğini ise zaman gösterecek.