Опубликовано 14 июня 2016, 20:51

Видео дня. Ученые из МТИ разработали систему озвучки немого видео

Ученые Лаборатории информатики и искусственного интеллекта Массачусетского технологического института(МТИ) разработали алгоритм, который позволяет озвучивать беззвучные видеоролики, пишет Apparat со ссылкой на MIT News.

Учёные Лаборатории информатики и искусственного интеллекта Массачусетского технологического института разработали алгоритм, который позволяет озвучивать беззвучные видеоролики, пишет Apparat со ссылкой на MIT News.

Система создана с помощью технологии глубокого обучения и способна анализировать параметры немого видео: громкость, высоту и другие. «Для того чтобы предсказать звук видео, алгоритм смотрит на звуковые свойства каждого кадра и сравнивает их с подобными звуками в базе данных», — говорит Эндрю Оуэнс, главный автор исследования.

В ходе работы над алгоритмом учёные за несколько месяцев сняли около 1000 видео и отдельно записали 46 000 звуковых дорожек. В ролике, опубликованном официальным агентством университета, исследователи продемонстрировали подбор звука к ударам барабанной палочкой по разным поверхностям: металлу, земле, траве и другим.

Алгоритм прошёл своеобразный тест Тьюринга — в онлайн-исследовании зрители принимали фальшивую звуковую дорожку, подобранную алгоритмом, за настоящую в два раза чаще, чем оригинал. Причём респонденты чаще верили звукам ударов по траве или земле, чем «чистым» звукам ударов по металлу или дереву. А сам алгоритм отличает эти звуки в 67% случаев.

Учёные полагают, что разработка в будущем пригодится при озвучке спецэффектов в кино, а также поможет роботам лучше понимать свойства объектов. Оуэнс признаётся, что система требует доработки — сейчас алгоритм воспринимает звуки только с визуальным подтверждением.

Автор:Олег Сабитов