Google, YouTube için gerçek zamanlı dublaj hizmetini test ediyor

Google, YouTube için kullanıma sunulması düşünülen “evrensel çevirmen” özelliğini tanıttı. Bu özellik, gerçek zamanlı olarak çeviri ve dublaj imkanı getirecek.

YouTube’a gerçek zamanlı dublaj özelliği geliyor

PaLM 2'deki yapay zeka özelliklerinin Bard da dahil olmak üzere Google ekosistemine sorunsuz bir şekilde entegre edilmesi, Google I/O 2023 etkinliğinin ana temalarından biri oldu. Ancak Google bazı özelliklerin hemen piyasaya sürülmemesi gerektiğine inanıyor. Bu arada PaLM 2, Google'ın makine öğrenimi ve yapay zeka alanındaki araştırmalarına dayanan yeni nesil büyük dil modeli olarak biliniyor.

Google I/O konuşmasında, şirketin teknoloji ve toplumdan sorumlu kıdemli başkan yardımcısı James Manyika, yanlış bilgilendirme ve bazı yapay zeka yetenekleri, yani yapay zeka yoluyla yapılabilecek dezenformasyon ilgili endişelerini dile getirdi. Manyika'nın bahsettiği şey, deepfake çalışmalarının videolarda seslendirme yapmak için kullandıkları dil modelleri.

Google, bu teknolojinin kötüye kullanılma potansiyeli olduğunu düşünerek, bazı adımlar atmayı ihmal etmemiş. Şimdilik test aşamasında prototip olarak yayınladığı “Evrensel Çevirmen” özelliği ise şimdiden geliştiriciler tarafından ilgi odağı haline gelmiş durumda.

Google'ın Evrensel Çevirmen'i, konuşmaları gerçek zamanlı olarak çevirebiliyor. Bir video izlerken başka bir dilde ne söylendiğini anında görebiliyor ve okuyabiliyorsunuz. Bunun bir nevi deneysel bir yapay zeka video dublaj hizmeti olduğunu söyleyebiliriz.

Prototip, etkinlik sırasında Arizona Eyalet Üniversitesi ile ortaklaşa oluşturulan bir çalışmadan alınan videolar aracılığıyla sergilendi. Google, ilk sonuçların umut verici olduğunu söylüyor.

Model 4 aşamada çalışıyor. İlk aşamada model, bir videodaki dudak hareketlerini tanıdığı kelimelerle eşleştiriyor. 2’inci adım, anlık konuşma üretimi sağlayan bir algoritmayı tetikliyor. Modelin 3’üncü aşaması, çeviriye yardımcı olmak için konuşan kişinin doğal konuşma hızındaki yükselme ve alçalmayı ölçen tonlamayı kullanıyor. Son olarak, stil kopyalandıktan ve konuşmacının dudak hareketlerinden ton eşleştirildikten sonra, çeviriyi oluşturmak için hepsini bir araya getiriyor.

Evrensel Çevirmen özelliği henüz küçük bir test grubu dışında kullanıma açık değil. Google bu özelliği test ettikten sonra, YouTube ve video konferans hizmeti Google Meet gibi hizmetlerde kullanıma sunabilir.