Geçtiğimiz hafta Google araştırma bilimcisi Fei Xia, aydınlık, açık plan bir mutfağın ortasına oturdu ve büyük bir zemin lambasına benzeyen tek kollu, tekerlekli bir robota bağlı bir dizüstü bilgisayara komut yazdı: "Acıktım." Robot hemen yakındaki bir tezgaha ilerledi, büyük bir plastik kıskaçla dikkatlice bir torba tahıllı cips aldı ve bir atıştırmalık sunmak için Xia'ya döndü.
Google'ın Mountain View, California'daki robotik laboratuvarında gerçekleştirilen bu gösteriyle ilgili en etkileyici şey, hiçbir kodlayıcının robotu Xia'nın komutuna yanıt olarak ne yapacağını anlayacak şekilde programlamamış olmasıydı. Kontrol yazılımı, web'den toplanmış milyonlarca sayfalık metin kullanarak sözlü bir ifadenin bir dizi fiziksel eyleme nasıl çevrileceğini öğrenmişti.
Bu sistem, bir kişinin komut vermek için Alexa veya Siri gibi sanal asistanlarda gerekebileceği gibi önceden onaylanmış belirli ifadeleri kullanması gerekmediği anlamına geliyor. Robota “Susadım” dediğinizde size içecek bir şeyler bulmaya çalışabilir; ona "tüh, içeceğimi döktüm" dediğinizde süngerle yanınıza gelebilir.
Google'da kıdemli bir araştırma bilimcisi olan Karol Hausman, robotun bir dökülmeyi temizlemek için sünger getirmesini de içeren gösterim sırasında, "Gerçek dünyanın çeşitliliği ile başa çıkabilmek için robotların adapte olabilmeleri ve deneyimlerinden öğrenebilmeleri gerekiyor" dedi. İnsanlarla etkileşime geçmek için makinelerin, kelimelerin farklı anlamlar üretmek için çeşitli şekillerde nasıl bir araya getirilebileceğini kavramayı öğrenmeleri gerekiyor. Hausman, "Dilin tüm inceliklerini anlamak robota kalmış" diyor.
Google'ın gösterimi, uzun süredir devam eden karmaşık ortamlarda insanlarla etkileşime girebilen robotlar geliştirme hedefine doğru etkileyici bir adımdı. Araştırmacılar, geçtiğimiz birkaç yıl içinde kitaplardan veya web'den alınan çok miktarda metni büyük makine öğrenimi modellerine beslemenin, OpenAI'nin metin oluşturucu GPT-3 dahil olmak üzere etkileyici dil becerilerine sahip programlar sağlayabileceğini keşfetti. Yazılım, çevrimiçi yazı dilinin birçok biçimini öğrenerek, metinle ilgili soruları özetleme veya yanıtlama, belirli bir konuda tutarlı makaleler oluşturma ve hatta ikna edici konuşmalar yapma becerisini elde edebilir.
Hausman'ın sergilediği robot, Google'ın şimdiye kadar duyurduğu, PaLM olarak bilinen en güçlü dil modeli tarafından destekleniyordu. Bir soruyu cevaplarken belirli bir sonuca nasıl vardığını doğal dilde açıklamak da dahil olmak üzere birçok farklı yeteneğe sahip. Aynı yaklaşım, robotun belirli bir görevi gerçekleştirmek için yürüteceği bir dizi adım oluşturmak için kullanılıyor.