Google DeepMind, robotlara video izleyerek öğrenmeyi öğretiyor

Google DeepMind’ın robotlardan sorumlu ekibi, robotlara video izleyerek öğrenmeyi öğretiyor. Ekip, Google’ın Gemini 1.5 Pro üretken yapay zeka modeliyle çalışan RT-2 robotlarının nasıl dolaşılacağını öğrenmek ve hatta varış noktasındaki istekleri yerine getirmek için videolardan nasıl bilgi alabildiğini gösteren yeni bir makale yayınladı.

Gemini 1.5 Pro modelinin uzun içerik penceresi sayesinde bir robotun yeni bir stajyer gibi eğitilmesi mümkün oluyor. Bu pencere, yapay zekanın bol miktarda bilgiyi aynı anda işlemesine imkan tanıyor. Araştırmacılar, ev veya ofis gibi belirlenmiş bir alanın video turunu çektikten sonra, robot videoyu izliyor ve çevre hakkında bilgi ediniyor.

Video turlarındaki ayrıntılar, robotun hem sözlü hem de görsel çıktıları kullanarak öğrendiği bilgilere dayanarak görevleri tamamlamasını sağlıyor. Bu çalışmanın, robotların çevreleriyle insan davranışına benzer bir şekilde nasıl etkileşime girebileceğini göstermenin etkileyici bir yolu olduğu rahatlıkla söylenebilir.

A limited context length makes it a challenge for many AI models to recall environments. 🌐

Powered with 1.5 Pro’s 1 million token context length, our robots can use human instructions, video tours, and common sense reasoning to successfully find their way around a space. pic.twitter.com/eIQbtjHCbW
— Google DeepMind (@GoogleDeepMind) July 11, 2024

Ayrıca Google DeepMind’ın paylaştığı gösterimler, nadir rastlanan tesadüfler değil. Gemini destekli robotlar, pratik testlerde yaklaşık 850 metrekarelik bir alanda çalıştı ve 50’den fazla farklı kullanıcı talimatını yüzde 90 başarı oranıyla başarıyla takip etti. Bu yüksek düzeydeki doğruluk, yapay zeka destekli robotların evde ev işlerinde veya işyerinde basit ve hatta daha karmaşık görevlerde yardımcı olmaları için pek çok olasılığın önünü açıyor.

Gemini 1.5 Pro modelinin en dikkat çekici yönlerinden biri, çok adımlı görevleri tamamlama yeteneği olabilir. DeepMind’ın araştırması, robotların buzdolabına giderek, içindekileri görsel olarak işleyerek ve ardından geri dönüp soruyu yanıtlayarak belirli bir içeceğin mevcut olup olmadığı gibi sorulara nasıl yanıt vereceklerini çözebileceğini de buldu. Bütün bir eylem dizisini planlama ve gerçekleştirme, çoğu robot için mevcut tek adımlı emir standardının ötesine geçen bir anlayış ve uygulama düzeyi sergiliyor.

Ancak bu robotun yakın zamanda satışa sunulmasını beklemeyin. Öncelikle, her bir talimatın işlenmesi 30 saniye kadar sürüyor ve bu da günlük kullanımların büyük bir çoğunluğunda eylemi kendinizin yapmanızın çok daha hızlı olacağı anlamına geliyor. Yapay zeka modeli oldukça gelişmiş olsa da, gerçek dünyadaki evlerin ve ofislerin kaosunda bir robotun gezinmesi, kontrollü bir ortamda gezinmekten çok daha zor olacaktır.

Yine de Gemini 1.5 Pro gibi yapay zeka modellerinin robot teknolojisine entegre edilmesi, bu alanda büyük bir atılımı özetliyor. Gemini veya rakipleri gibi modellerle donatılmış robotlar sağlık, nakliye ve hatta temizlik görevlerinin geleceğini değiştirebilir.