OpenAI, sadece 15 saniyelik sesi kullanarak klonlama yapabilecek

Yapay zeka ile oluşturulmuş video görüntüleri herkesin korkulu rüyası olmaya devam ediyor. Ama en azından konuşma sırasında sesteki takılmalar gerçek video ile sahte videoyu ayırt etmeyi mümkün kılabiliyordu. Ne yazık ki artık o şansımızı da kaybetmek üzereyiz.

OpenAI kısa bir süre önce Voice Engine adlı yeni bir aracın küçük ölçekli bir demosunu çalıştırdığını duyurdu. Bu demo, 15 saniyelik bir ses örneğini analiz ederek herhangi bir konuşmacıyı taklit edebilen bir ses klonlama teknolojisine aitti. Şirket, "duygusal ve gerçekçi sesler" ile "kulağa doğal gelen konuşma" ürettiğini söylüyor. Bu da yapay zeka ile deepfake videolar çağının artık geniş kitlelere açıldığının ilanı olabilir.

Teknoloji, şirketin önceden geliştirdiği "metinden konuşmaya" API'sine dayanıyor ve 2022'den beri üzerinde çalışılıyor. OpenAI, mevcut "metinden konuşmaya" API'siyle "sesli okuma" sistemini birleştirerek zaten yapay zeka ile sesler/konuşmalar üretebiliyor. Ancak şimdi yapay zekanın bir başkasının sesini dinleyip, aynı sesi taklit ederek konuşması mümkün olacak.

Konuşma bozukluklarına çare olabilir

OpenAI, bu teknolojinin okuma yardımı, dil çevirisi veya dejeneratif konuşma koşullarından mustarip olanlara yardımcı olmak için yararlı olduğunu düşündüklerini söylüyor. Ancak bu iyi niyetli bir yaklaşım. Elbette biliyoruz ki, kötü niyetli insanlar, başkalarının seslerini taklit ederek dolandırıcılıktan iftiraya kadar sayısız mağduriyet yaratmak için bu teknolojiyi seve seve kullanacaktır. Özellikle de sesi sosyal medyada halihazırda var olan kişilerin, titreyerek sarsılmaması ve anksiyete krizlerine girmemesi için hiçbir neden yok.

OpenAI şimdilik bu teknolojiyi, konuşma bozuklukları olan insanlar için kendi sesleriyle yapay konuşmalar üretmelerine yardımcı olmak için üniversitelerle geliştirmeyi planlıyor ama eninde sonunda teknolojinin halka açılacağını hepimiz biliyoruz.