Google yapay zeka araştırmacıları, tek bir hareketsiz görüntüden insanların video görüntülerini oluşturmanın bir yolunu buldu. Bu sayede, girilen bir metinden konuşan birinin videosunu oluşturmak ya da bir kişinin ağız hareketlerini değiştirerek farklı bir dildeki ses parçasını orijinalinde konuşulanla eşleştirmek gibi şeyler yapılabiliyor.
Makaleyi yayınlayan Google araştırmacıları bu teknolojiye Vlogger diyor. Araştırmacılar, yapay zekanın bir insanın tek bir girdi görüntüsünü nasıl aldığını ve bir ses dosyası ile eşleştirmeleri için hem yüz hem de vücut hareketlerini nasıl ürettiğini gösteren çeşitli örnekler sunuyor.
Bu, teknolojinin kullanılabileceği birkaç potansiyel alandan sadece biri. Bir diğeri ise video düzenlemek, özellikle de bir video öznesinin yüz ifadelerini düzenlemek. Başka bir örnekte araştırmacılar, aynı klibin çeşitli versiyonlarını da gösteriyor. Bunların birinde kameraya konuşan bir sunucu varken, bir diğerinde sunucunun ağzı tamamen kapalı ve başka bir videoda ise gözleri kapalı. Bununla beraber en kullanışlı özelliklerden biri, yabancı dilde dublajlı bir video için ses parçasını değiştirebilmesi ve kişinin yüz hareketlerini ses parçasına göre dudak senkronizasyonu sağlaması.
Teknoloji 2 aşama kullanılarak çalışıyor: stokastik bir insandan 3 boyutlu harekete difüzyon modeli ve metinden görüntüye modelleri hem zamansal hem de uzamsal kontrollerle güçlendiren yeni bir difüzyon tabanlı mimari. GitHub sayfasına göre bu yaklaşım, insan yüzlerinin ve vücutlarının üst düzey temsilleri aracılığıyla kolayca kontrol edilebilen değişken uzunlukta yüksek kaliteli videoların oluşturulmasını sağlıyor.
2. Generation of Moving and Talking People
— EyeingAI (@EyeingAI) March 18, 2024
Here's an example on talking face generation given just a single input image and a driving audio. pic.twitter.com/hd7HKDfYkP
Elbette, teknoloji mükemmel değil. Vlogger'ın bu videoları yapay zeka kullanarak oluşturduğuna dair hala bazı emareler var. Bazı örneklerde, ağız hareketleri çok doğal değil, bu da videoyu oluşturmak için yapay zeka kullanıldığını ele veriyor. Muhtemelen zaman geçtikçe ve Google modele daha fazla materyal ekledikçe daha da iyi bir hal alacak.