Hareketsiz ve sessiz bir görüntüden ses çıkarmak artık mümkün

Görüntüdekiler ne söylüyor? Yanlarında başka biri var mı? Bir profesör, görüntülerden ve sessiz videolardan ses çıkarmanın mümkün olduğunu ortaya çıkardı.

Hareketsiz ve sessiz bir görüntüden ses çıkarmak artık mümkün

Araştırmacılar, bilimkurgu dizisi Fringe'den esinlenerek hareketsiz görüntülerden ve sessiz videolardan ses çıkarmanın bir yolunu buldular.

Dizide FBI erimiş bir cam bölmeden kaydedilmiş sesleri çıkarabiliyordu. Den of Geek bu fikri "gülünç bir sözde bilim tekniği" olarak nitelendirdi ki bu yeterince adil görünüyor. Ancak Northeastern Üniversitesi'nde elektrik ve bilgisayar mühendisliği ve bilgisayar bilimleri profesörü olan Kevin Fu bu incelemeyi gördü ve en azından görüntülerden ve sessiz videolardan ses çıkarmanın mümkün olduğunu kanıtlamaya koyuldu.

Fu, basın açıklamasında, "Birinin bir TikTok videosu hazırladığını ve videoyu sessize alıp müzik eklediğini düşünün" dedi ve devam etti: "Gerçekte ne söylediklerini hiç merak ettiniz mi? Arkalarında biri konuşuyor muydu? Aslında bunları anlayabilirsiniz."

Peki, bu nasıl olabilir?

Kameralar, görsel bilgileri yakalamayı amaçlarken, istemeden de olsa ses bilgilerini de topluyor. Neredeyse tüm kameralı telefonlarda yerleşik görüntü sabitleme teknolojisi var. Yaylar kamera lensini sıvı içinde asılı tutarken, bir elektromıknatıs kamera sarsıntısını azaltmak için kamera lensini itiyor.

Ses yakalamayı sağlayan da tam olarak bu. Kamera lensinin yakınında biri ya da bir şey ses çıkardığında, yaylar hafifçe titriyor ve ışığı çok az büküyor. Fu'ya göre "siz bakmadığınız sürece" fark edilmiyor. Bu, tek başına size yararlı bir ses sağlamıyor. Ancak modern telefon kameralarının bir başka özelliği bu sesi dinlemeye değer bir şeye dönüştürmeye yardımcı oluyor.

Fu, "Maliyeti düşürmek için günümüzde kameraların çalışma şekli temelde bir görüntünün tüm piksellerini aynı anda taramamaktır - bunu her seferinde bir satır yaparlar" diye açıklıyor ve ekliyor: "Bu, tek bir fotoğrafta yüz binlerce kez gerçekleşiyor. Bunun temel anlamı, elde edebileceğiniz frekans bilgisini, yani temelde sesin granülerliğini bin kattan fazla artırabilmenizdir."

Fotoğrafların nasıl çekildiğinin bir yan ürünü olarak yakalanan bu bilgiyi kullanarak, ışık içeren hemen hemen her fotoğraftan oldukça boğuk bir ses çıkarmak mümkün. Ekip, Side Eye adını verdikleri bir makine öğrenimi algoritması uygulayarak faydalı sesler elde edebiliyor.

Side Eye'ı eğitin ve sesleri duymasını sağlayın

Fu şöyle diyor: "Evet mi yoksa hayır mı dediğimi bilmek istiyorsanız, Side Eye'ı evet ve hayır diyen insanlar üzerinde eğitebilir ve ardından kalıplara bakabilir ve daha sonra bir görüntü aldığımda birinin evet mi yoksa hayır mı dediğini yüksek bir güvenle anlayabilirsiniz."

Sistemlerini 10 farklı akıllı telefon üzerinde test eden Fu'nun ekibi, sistemin konuşulan rakamları yüzde 80,66 doğrulukla tanıyabildiğini, kelimeleri 20 konuşmacıdan hangisinin söylediğini yüzde 91,28 doğrulukla tespit edebildiğini ve konuşmacıların cinsiyetini yüzde 99,67 doğrulukla tahmin edebildiğini görmüş.

Elbette bu durum, kötü niyetli kişilerin sesin (kasıtlı olarak) yakalanmadığı hareketsiz görüntü ve videolardan söylenenleri duyabilmesi halinde bir siber güvenlik kabusu da olabilir. Nihayetinde ekip, çıkarılan sesin yasal davalarda nasıl kullanılabileceğiyle daha çok ilgileniyor.

Fu, "Belki bir mazeret vardır ve mahkemede kabul ediliyordur. Birisi orada olduğunu ya da olmadığını kanıtlamak istiyordur," diyor ve ekliyor: "Elinizde zaman damgası bilinen doğrulanmış bir video varsa bu tekniği kullanabilirsiniz. Eğer kişinin sesini duyuyorsanız, büyük olasılıkla oradadır."

Çalışma ön baskı sunucusu arXiv'de yayınlandı ve 2023 IEEE Güvenlik ve Gizlilik Sempozyumu'nda sunuldu.