Говорить как Путин, чихать как Собчак. Как российская нейросеть учится клонировать голоса
Хотя актёр умер в 1980 году, за десять лет до того, как Бекмамбетов снял свой первый фильм, эта речь — не склейка и не монтаж. Голос Высоцкого звучит так реалистично благодаря искусственному интеллекту Vera Voice, который умеет синтезировать голоса знаменитостей. «Секрет фирмы» поговорил с сооснователем стартапа Stafory (сооснователь проекта Vera Voice — совместного предприятия с Тимуром Бекмамбетовым) Владимиром Свешниковым о том, как появилась нейросеть и где будет применяться новая технология.
Всё началось с Веры
Сооснователь стартапа Stafory Владимир Свешников долго совершенствовал бизнес в сфере HR (Human Resources, подбор персонала. — Прим. «Секрета»). Сперва это был маркетплейс, где с одной стороны были работодатели, а с другой — фрилансеры. Но операторы кол-центра часто болели, прогуливали и не выполняли план.
Вот даёшь им задание обзвонить 100 человек, а они делают 80 или 50 звонков. Потом слушаешь звонки, а они обзванивают не так — не по твоему скрипту, задают вопросы, которые не нужно задавать. И, собственно, робот эту проблему решил: он не болеет, не прогуливает и работает тупо по скрипту. Ни шага влево-вправо.
Робот Вера звонила и проводила интервью с соискателями. «Мы были одними из первых, кто стал делать автоматизированные звонки в России. Люди реагировали хорошо, для них это была новая технологичная штука. Был вау-эффект, суперпозитивные отзывы — но прошло два года, и количество людей, которые бросали трубку, выросло больше чем на 25%», — рассказывает Свешников.
Разработчики стали задумываться — почему так происходит? Стали анализировать звонки и поняли, что люди бросают трубку, когда слышат голос робота. На рынке есть всего несколько стандартных голосов, которые используют все. Люди слышат эти голоса и думают: так, это спам, это реклама, это банк, это коллекторы.
«Мы стали думать, как бы отстроиться от этой истории. Мы-то звоним по работе. Говорить сразу „Привет, это по работе“ — даже на слове „привет” могут бросить трубку.
Мы хотели создать уникальный голос, который бы ассоциировался только с нашими кейсами по поиску работы. Чтобы кандидат поднял трубку, услышал голос робота и понял: о, это по работе звонят, надо послушать. И никому этот голос не отдавать», — рассказывает Владимир Свешников.
$1,2 млрд — за четыре года
Специалисты по Data Science (наука о методах анализа данных. — Прим. «Секрета») данных серьёзно подошли к этой задаче. Они изучили ещё не реализованные проекты и научные исследования по синтезу речи, выбрали самые интересные и придумали, как их доработать.
«Мы посмотрели с точки зрения бизнеса: кажется, здесь есть рынок. Он растёт достаточно неплохо — ему предсказывают рост $1,7 млрд к 2023 году. Сейчас он составляет в районе $500 млн. Мы решили в формате стартапа быстро попробовать простые голоса. Какое-то качество у нас сразу получилось — и оно нас сильно вдохновило», — рассказывает Владимир Свешников.
Собчак, Познер и Путин — в одном флаконе
Проект синтеза голосов Vera Voice официально стартовал 28 октября. В первом видео нейросеть копирует речь Владимира Путина, Ксении Собчак и Владимира Познера. Во втором — говорит голосом Владимира Высоцкого.
«Уважаемые граждане России. Дорогие друзья. Сегодня я хотел бы рассказать вам об одной перспективной технологии. Наши инженеры обучили нейронную сеть говорить разными голосами», — рассказывает о проекте Vera Voice голос, почти неотличимый от голоса президента Путина.
Многие не поверили, что разработчики синтезировали голоса. «Есть много версий. Что Тимур Бекмамбетов собирается делать новый фильм и это реклама его нового фильма. Что мы просто пиарим своего робота. Что мы нарезали [речь] Путина из кусков [выступлений] — а Собчак и Познеру просто заплатили. Второе видео — с голосом Высоцкого. Тут уже меньше конспирологических теорий», — рассказывает Владимир Свешников.
Как FaceApp — только с голосами
Сперва у стартаперов была идея сделать приложение — как FaceApp или Prisma. Казалось, это идеальный вариант для масс-маркета. «Мы делали фокус-группу, давали людям побаловаться, потом смотрели, что они там синтезируют. Чаще всего они синтезировали ужасно некрасивые вещи — с матом и оскорблениями. В одном из первых комментариев к нашему видео на Youtube пользователь просит озвучить голосом Путина фразу „Я устал, я ухожу”», — говорит Владимир Свешников.
Фейки против реальности
Если, к примеру, голосом Ксении Собчак или Владимира Познера скажут какую-то глупость, это не так страшно — в основном люди подумают, что это фейк, говорит Владимир Свешников. Но другое дело, если люди захотят использовать чужой голос в каких-то конкретных целях.
«Получается, что голосом Навального можно позвать кого-то на митинг или устроить беспорядки — а потом людей арестуют. Это может повлечь реальные негативные последствия для конкретного человека. Понятно, что потом когда-нибудь разберутся — а может, и нет. И мы решили не выходить с этой технологией на массовый рынок», — объясняет Владимир Свешников.
Как работает нейросеть?
Разработчики собирают аудио из разных источников и загружают их в сервисы разметки. Затем в работу вступают асессоры: они выбирают кусочки идеальной речи без шумов и соотносят их с расшифрованным текстом. «Всё происходит онлайн. Это легко масштабировать. Мы можем завтра нанять 100 асессоров — и за пару недель сделать голоса всех знаменитостей России», — говорит Владимир Свешников.
Нейросеть слышит последовательность звуков, а потом пытается максимально точно её воспроизвести. «Модель зависит от символов — она учится синтезировать не слова, а последовательность символов. Она отлично улавливает интонацию, но может говорить абсолютно любое слово. У нас Ксения Собчак говорит про рекуррентные сверточные нейронные сети — не уверен, что она или другие спикеры произносили эту фразу хоть раз в жизни», — объясняет Владимир Свешников.
Дыхание Собчак
Сетку учат не только говорить, но и кашлять и зевать. «У нас есть модель с кучей спецсимволов, через слеш ставим кашель, через амперсанд (символ &, заменяющий, как правило, союз «и». — Прим. «Секрета») — зевок. Вдохи мы не вырезали ни у одного из спикеров. Но они неконтролируемые: модель их ставит там, где считает нужным.
Допустим, после каждого пятого слова Собчак делает вдох — я сейчас утрирую, конечно, там более сложная зависимость. Даже комментарий был в YouTube, что наша нейросеть — это фейк, потому что Собчак вздыхает. Понятно, что нейронная сеть не может вздыхать. Но с другой стороны — это тоже звук», — объясняет Владимир Свешников.
«Май нэйм из прэзидэнт»
Кинематограф — один из самых перспективных рынков для синтеза голосов. Технологией синтеза голосов уже заинтересовался Netflix. «К примеру, есть сериал, и его нужно перевести на кучу языков. Было бы круто не нанимать дублеров, а чтобы те же Бред Питт и Анджелина Джоли заговорили на русском», — говорит Владимир Свешников.
Но ближайшее время переводчики и дублеры точно не останутся без работы. Если обучить ИИ голосу на иностранном языке, он всё равно не сможет синтезировать речь на русском. «Голос Путина может зазвучать и на английском языке. Но только если написать слова кириллицей. Ну то есть: «Хэллоу, май нэйм из прэзидэнт». Но говорить русская модель будет с диким русским акцентом», — рассказывает Владимир Свешников.
Вера для билингвов
В планах Stafory — научить нейросеть справляться и с такой задачей. «Если найдём какой-то бизнес-кейс, то обязательно сделаем. Нужны примеры голосов — желательно публичных людей, которые говорят на русском и тут же на английском. Можно сетку обучать, что есть спикер, а у него есть такая переменная как language (язык. — Прим. „Секрета“). Если таких спикеров будет много, теоретически сможем кого угодно научить», — говорит Свешников.
Пока что Stafory сконцентрировалась на озвучке фильмов и рекламы. «У нас есть контракт с „Кубиком в кубе”. Делаем голос Руслана Габидуллина, думаю, в ближайшее время зарелизим. Уже есть три или четыре проекта, которые готовы его голос использовать. Обсуждаем нюансы», — рассказывает Свешников. По его словам, стартап ведёт переговоры со многими знаменитостями: некоторые из них обращаются сами, на других есть запросы от бизнеса. О ком именно идёт речь — пока не известно.
Поднять инвестиции
Точную сумму вложений в нейросеть назвать сложно, потому что стартаперы одновременно работали над Vera Voice и роботом Верой. «Но вообще это достаточно затратно. Речь идёт о десятках миллионов рублей. Во-первых, деньги нужны на серьёзных специалистов. Простому программисту с улицы будет тяжело разобраться: там несколько моделей нейронных сетей, и нужно понимать, что такое звук, волна, какие у неё характеристики», — рассказывает Владимир Свешников.
С появлением робота Вера стартап начал привлекать инвестиции. «Мы сами начинали делать маркетплейс. Тогда своих денег было миллиона два рублей. Мы несколько раз подавали заявки в разные российские акселераторы. Нас не взяли в акселератор в Карелии и в Дагестане. Во ФРИИ нас взяли далеко не сразу. А когда на нас всё же обратили внимание и мы стали активно работать над продуктом, дело пошло. Сначала получили два миллиона от ФРИИ. Потом — 15 млн, 50 млн и ещё 226 млн (от фонда и частного инвестора)»,— говорит он.
Нет значит нет
Стартап Stafory использует голос только с согласия его обладателя. Есть маркетплейс, на котором можно заказать озвучку любым голосом, — и если человек не против, текст будут озвучивать его голосом.
«Мы понимаем, что, скорее всего, появятся такие же чуваки, как мы, которые будут менее замороченными на тему морали и рисков. Они просто решат хайпануть, срубить денег и набрать пользовательскую аудиторию. Поэтому мы подготовили инструмент, который будет определять фейки. Можно будет зайти на сайт, загрузить аудио и понять, фальшивое оно или нет», — объясняет Владимир Свешников.
Классификатор, который умеет отличать фейки от оригиналов, работает на машинном обучении. «В сеть грузится куча синтезированных и оригинальных аудио, и она должна понимать, где синтез, а где оригинал. Загрузишь синтез с металлическим звоном — значит, нейросеть будет пропускать аудио без шумов», — объясняет Владимир Свешников.
Твой голос — мой голос
Пока российские законы никак не регулируют право собственности на синтезированный голос. «Нам достаточно сложно заключать контракты с селебрити и продавать голоса — потому что нет норм, которые бы это регулировали», — рассказывает Владимир Свешников. И это проблема, которую надо решать.
Есть два важных вопроса, которые предстоит решить законодателям:
Стартап Stafory планирует выступить с инициативой о регулировании рынка синтезируемых голосов.
Vera Voice в Голливуде
Ближайшие планы — выйти на рынок США. «В России клонированием голоса занимаемся мы и Сбербанк (он синтезировал голос Грефа и Станиславского). В США таких сервисов, конечно, больше: это и Amazon, и Google, и стартап Dessa, который делал голос Джо Рогана. Это известный комик, который брал интервью у Маска, когда тот курил траву. Они сделали его голос, очень круто получилось», — рассказывает Владимир Свешников.
Нейросеть Vera Voice может успешно конкурировать с американскими сетками. Только потребуется меньше данных, меньше времени и меньше затрат — а качество будет таким же, отмечает Свешников. «Их нейросети обучаются на восьми часах, минимум — на четырёх часах. А у нас Путин получился на двух. Кажется, что мы знаем, как сделать и на одном часе. Возможно, у нас получится сделать голос и на 10 минутах», — говорит он.
«Купи-ка кока-колу, Вова»
В чём основные плюсы синтеза голоса? Можно озвучить какой-то большой текст или динамическую рекламу. «Для увеличения дохода от рекламы, круто делать персонифицированную рекламу голосом знаменитости. Наша технология это позволяет. Условно, я послушал песню Шнура на Spotify, а в конце песни Шнуров мне говорит: „Слушай, а купи-ка кока-колу, Вова“. И я такой: „Опа!”»,— говорит Владимир Свешников.
Есть и социальное направление — для людей, у которых серьёзные проблемы с голосом. «Например, Стивен Хокинг — все мы знаем голос его робота. А могли бы просто знать голос Стивена Хокинга. Настоящий. У нас, кстати, есть запрос сделать голос робота Стивена Хокинга», — говорит Владимир Свешников.
Синтез ждёт перемен
Ещё одна сфера, где может применяться технология синтеза голосов, — это музыка для кафе. «У нас ребята баловались с синтезом. Перепевали песни всякими голосами. Но получается достаточно плохо. Сетка же не умеет петь. Какую-то гласную, например „е“, просто пишем несколько раз. Это звучит ужасно.
Но если в сетку поставить Pipeline, который синтезирует речь, и ещё одну сетку, которая будет учитывать ноты и тональность, — и через всё это прогнать какие-то песни, то можно научить нейросеть петь. У нас уже просили, чтобы Путин спел „Перемен!”», — говорит Владимир Свешников.
Стартап победителей
Сейчас стартап работает над контролируемым синтезом, который учитывает шесть базовых эмоций: счастье, удивление, страх, отвращение, гнев и печаль. Особенно это поможет при озвучивании аудиокниг и рекламных роликов.
«В случае с песнями когда-нибудь мы получим какой-то суперконтролируемый голос, и он начнет выигрывать на Евровидении. Уже сейчас нейросети побеждают в гейм-индустрии — в „Доте“ (Dota2) и в го.
Думаю, что с песнями будет то же самое. Нейросети могут участвовать в рэп-баттлах. Будет в шоубизнесе не группа такая-то, а стартап такой-то, который генерирует рэп», — прогнозирует Владимир Свешников.
После стольких лет? Всегда
Актёры, которые умерли, cмогут «сниматься» в кино и конкурировать с живыми. В США есть целая индустрия, которая использует голоса умерших актёров и знаменитостей. Специальные агентства создают образы, озвучивают цитаты. В России эта индустрия только зарождается.
«Есть у нас договорённости по голосу Высоцкого — с Театром на Таганке. Мы делаем комнату, в которую можно будет зайти и поговорить с Высоцким. Мы его голос уже релизили в театре. Все были очень удивлены, что голос Высоцкого зазвучал со сцены спустя столько лет», — говорит Свешников.
Планируется, что комнату откроют 25 июля — в день, когда будет 40 лет со дня смерти Высоцкого. А пока комнату готовят, низкий голос с хрипотцой звучит со сцены:
«То, что на Таганке сегодня идут спектакли по пьесам Пряжко, Ауг и Житковского, — это здорово! Современная драма должна быть на сцене всегда. А вот относительно всей этой сегодняшней дискуссии — про скринлайф, про зелёные экраны, Facebook как альтер эго, голограммы и прочие технические приблуды — нет у меня пока позиции. Но то, что я вот сейчас звучу как живой — а я и есть живой, — явно впечатляет. Удачных находок в работе. Ваш Володя».
Большей историй стартапов — в проекте «Секрета фирмы».