Американские учёные из Массачусетского технологического института представили нейросеть Speech2Face, которая обучена воссоздавать по фотографическому изображению спектра речи человека то, как выглядит его лицо.
Нейросеть обучалась на нескольких миллионах коротких видеороликов, в которых присутствовал человеческий голос. Алгоритм VGG-Face распознавал информацию из видеодорожки для формирования изображения лица в анфас, а затем добавлял ему визуальные особенности, анализируя аудиодорожку ролика. При этом Speech2Face опиралась на три демографических показателя: пол, расу и возраст.
Результат не даёт достоверного представления о внешнем виде человека. Искусственный интеллект способен легко определить пол, однако распознать более-менее точный возраст для нейросети пока остаётся трудной задачей.
У «Секрета фирмы» есть канал в «Яндекс.Дзене». Подписывайтесь!