Нейросеть научилась рисовать лицо человека по голосу

27 мая в 15:28

Американские учёные из Массачусетского технологического института представили нейросеть Speech2Face, которая обучена воссоздавать по фотографическому изображению спектра речи человека то, как выглядит его лицо.

Нейросеть обучалась на нескольких миллионах коротких видеороликов, в которых присутствовал человеческий голос. Алгоритм VGG-Face распознавал информацию из видеодорожки для формирования изображения лица в анфас, а затем добавлял ему визуальные особенности, анализируя аудиодорожку ролика. При этом Speech2Face опиралась на три демографических показателя: пол, расу и возраст.

Фото: Tae-Hyun Oh et al. / arXiv, 2019

Результат не даёт достоверного представления о внешнем виде человека. Искусственный интеллект способен легко определить пол, однако распознать более-менее точный возраст для нейросети пока остаётся трудной задачей.

Текст: Андрей Суворов

У «Секрета фирмы» есть канал в «Яндекс.Дзене». Подписывайтесь!