Yapay zeka araştırmacıları, insanların yaptığı gibi, yalnızca ses girişinden gelen konuşmayı anlaması için AI sistemlerini eğitme hedeflerine doğru ilerleme kaydediyor. Şu anda, AI'nın çoğunluğu yalnızca önce konuşmayı metne çevirerek tanıyabilir. Kelime hata oranlarını düşürmek ve dil desteğini artırmak açısından çok ilerleme kaydedildiği ortada.
Bununla birlikte, AI'nın sadece ses girişi yoluyla konuşmayı anlaması, bu aşamadaki büyük bir sıçrama olarak kabul ediliyor; bu nedenle MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuarı'ndaki araştırmacılar, konuşmayı metinden çok resimlerle eşleştirerek bir adım atmış durumda.
Yapay zeka sizi duyuyor
İlk bakışta fazla bir şey ifade etmiyor gibi görünse de, 'bir resim bin kelimeye bedeldir' ifadesi, etkisinin ne kadar büyük olabileceğini açıkça ortaya koyuyor. Yapay Sinir Ağları Bilgi İşlem Sistemleri konferansında araştırmacılar yöntemlerini, yazmış oldukları bir makaleye dayalı bir sunumla sergilediler.
Araştırmalarının arkasındaki fikir, birkaç sözcük tek bir ilgili resim altında gruplanabiliyorsa, AI'nın titiz bir eğitim yapmaya gerek kalmadan "muhtemel" bir çeviri yapması mümkün olabilmesi.
AI sistemleri için bir eğitim veri seti oluşturmak amacıyla, araştırmacılar 2.5 milyondan fazla görüntüye 205 farklı konuya sahip Places205 veri setini kullandı. Araştırmacılar, insanlara resimlerde ne gördüklerini söylemelerini istedi ve seslerini kayıt etti. 1.163 kişiden 120.000'den fazla kayıt toplamayı başardılar.
Daha sonra AI, her altyazıdaki kelimeleri alakalı resimlere bağlayacak şekilde eğitildi ve en uygun çeviriyi seçmek için her bir eşlemenin benzerliğini puanladı. Bir altyazı resimle alakalıysa yüksek puanı almalı, eğer değilse de puanı düşük olmalıdır.
Testte ağ, veritabanında kayıtlı bir resmi açıklayan sesli kayıtlarla beslendi ve sesli alfabe ile en iyi eşleşen on görüntüyü seçmesi istendi. Maalesef, seçilen on görüntü arasından doğru imaj oranı sadece yüzde 31.
Bu, araştırmacılar için hayal kırıklığı yaratan bir skor. Özellikle AI'yi, anlamalarına yardımcı olmak için herhangi bir metin ya da dil verisi olmaksızın kelimeleri tanıması için eğitmenin oldukça basit bir yolu olduğu düşünülürse sonuç gerçekten üzücü.
Ancak geliştirme ile birlikte bu eğitim aracı, konuşma-tanıma yazılımının farklı dillere daha çabuk adapte olmasına ve çevirmek için yeni bir eğitim aracı sunmasına yardımcı olabileceğine inanılıyor. Rosetta Stone tarafından sunulan gibi dil öğrenme yazılımı ile, resim tanımanın insan beyninde yeni dil öğrenmekle nasıl çalıştığını görebiliriz.
Araştırmanın ayrıntılarını açıklayan makalenin ortak yazarı Jim Glass, "Bu işin amacı, makineyi, insanların öğrendiği gibi öğrenmesini sağlamak" diyor.
AI'nın bu şekilde kontrol edilmeden öğrenmesini sağlamak onun fiyatına oranla etkili olmasını sağlayacak ve topluma yararlı olmasına yardımcı olacaktır. Ancak bunun olabilmesi için yapay zekanın daha çok şey öğrenmesi gerekiyor.