secretmag.ru
Истории

Алексей Кадейшвили (Vocord): «Мы как автомат Калашникова — продаём тем, кто платит»

Их алгоритмом распознавания лиц пользуются бизнес и спецслужбы
Они умеют распознавать лица в метро и магазинах

На этой неделе алгоритм по распознаванию лиц компании «Вокорд» занял первое место в авторитетном тесте Вашингтонского университета Megaface. Он распознал правильно 75,1% лиц. На втором месте — алгоритм Large компании Deepsense, созданный группой учёных и бывших разработчиков Google, Facebook и Microsoft, на третьем — Tech Шанхайского технологического университета. Российская компания N-Tech.Lab, разработавшая популярный сервис Findface, занимает четвёртое место с результатом 73,3%.

Компания «Вокорд» основана в 1999 году выпускниками МФТИ Дмитрием Заварикиным и Алексеем Кадейшвили. Она работает в пяти направлениях: распознавание лиц, автомобильных номеров, аналитика видео, хранение аудиозаписей, улучшение цифровых фото и видеоматериалов. Среди клиентов — МВД, ФСБ, «Газпром», «Мегафон», Альфа-банк и другие крупные компании. В прайс-листе на сайте сказано, что лицензия на софт системы распознавания лиц Vocord FaceControl, позволяющая подключать до десять камер и до четырёх рабочих мест операторов, обойдётся в 300 000 рублей.

По данным «СПАРК-Интерфакс», в 2014 году выручка компании составила 302 млн рублей (выручку в 2015 году компания не раскрывает). «Секрет» встретился с сооснователем и техническим директором Алексеем Кадейшвили и узнал, как «Вокорд» работает с нейронными сетями, чем алгоритмы помогают ФСБ и почему компания не стремится покорить Google и Facebook.

— В прошлом году СМИ писали, что алгоритм российских разработчиков N-Tech.Lab обошёл Google и стал первым, вас тогда в рейтинге вообще не было, а сейчас вы попали на первое место. Как так получилось?

— Надо понимать, что этот конкурс непрерывный, он не проводится в конкретный день, когда все пытаются решить какую-то задачу. Компания в любой момент может пройти тест Megaface и опубликовать свой результат. Для участия нужно скачать базу фотографий, на которой проходит тестирование, и прогнать её через свой алгоритм. Там решается вот какая задача: есть база из миллиона фотографий лиц, вам дают конкретную фотографию человека, и вы должны найти другую фотографию этого же человека в этом массиве данных.

Участник получает результат, сравнивает его с уже опубликованными и решает, публиковать или нет. Если результат устраивает, его отправляют организаторам конкурса для проверки. Если не устраивает, можно работать дальше и ничего не публиковать.

Год назад N-Tech.Lab получила отличный результат и обошла Google, у нас тогда результаты были хуже, так что смысла их публиковать мы не видели. Мы продолжали работать и теперь стали первыми. Технологии нейронных сетей, которые все используют для распознавания лиц, развиваются быстро, так что результаты часто меняются. Думаю, через пару недель к нашему результату мы сможем прибавить ещё полпроцента. Ничто не мешает тому же N-Tech.Lab опубликовать свои новые данные.

— Это самый авторитетный конкурс в области распознавания лиц?

— Думаю, да, во всяком случае наиболее репрезентативный. Тест проводится на огромной базе фотографий — это важно, потому что там, где распознавание происходит на меньшем количестве, невозможно измерить погрешности. Так что в нём участвуют все компании, которые хотят как-то заявить о себе.

— Говорят, в Израиле все эти технологии хорошо работают.

— Я часто слышу, что на секретных подземных заводах Израиля всё давно сделано, но они ничего никому не показывают. Думаю, эти слухи преувеличены. В каких-то вещах израильтяне сильны, в других не очень. Обычно компании рассказывают о выдающихся успехах, а если их нет, пытаются покрыть свою работу завесой тайны.

В тесте Megaface нет результатов Cognitech, Morphy и NEC, которые хороши в области распознавания, но я не знаю, по какой причине, — то ли они его игнорируют, то ли не получают достойных результатов. Но Cognitech, например, мы обошли по всем параметрам в закрытых тестах, хотя какое-то время использовали их алгоритм, пока у нас не было своего.

— Вы работаете на рынке много лет, у вас много продуктов, при этом N-Tech.Lab выпустила сервис Findface для поиска людей во «ВКонтакте» и о ней все узнали. Можно сказать, благодаря этому сервису люди поняли, как вообще применяется технология распознавания. Вам не хотелось создать свой продукт для массового пользователя?

— Наше решение технологически более сложное, потому что система распознаёт лица в толпе, и одна из важных составляющих — камера. То есть мы производим не только софт, но и железо. Благодаря этому мы добиваемся более высокого качества изображения, можем выделять конкретное лицо на снимке, где много лиц, это важно для наших клиентов. Если возьмёте самый лучший модуль распознавания в мире и будете использовать его с обычными камерами, вы всё равно не получите лучшего результата — думаю, наши конкуренты с этим не поспорят.

Что касается проекта Findface, мы тоже можем прикрутить технологию к базе Facebook или «ВКонтакте», но я не очень понимаю зачем. У них работают пять человек, у нас — больше сотни, мы просто не почувствуем выручку от такого рода проектов.

— Есть видеосервис MSQRD, созданный на нейронных сетях, который ничего не зарабатывал, а потом продался Facebook за миллионы долларов.

— Заработать на продаже — это стратегия стартапа. Когда вы стартап и вас ничего не держит, можно рискнуть — потеряете два года жизни в худшем случае, если сделка не состоится. Когда у вас репутация, сотрудники и клиенты, вам сложнее тратить деньги на то, чтобы понравиться Facebook. К тому же все истории из серии «удивить Google» будут конкурировать с нашими внутренними заказами. Мы работаем с реальными задачами, и у меня, как у руководителя, будет дилемма: играть в стартап или совершенствовать технологию для заказчика и решать интересные задачи. В сервисах, рассчитанных на массовую публику, важнее маркетинг, чем хорошее распознавание. Да, вы видите, что Findface находит людей, но это ощущение появляется при распознавании от 70%. В задачах, которые мы решаем, обёртка не так важна, как технология.

— Появляется много проектов вокруг нейронных сетей. При этом многие из них связаны именно с визуальным распознаванием. Что будет дальше?

— Эта технология себя не исчерпала, при этом мы понимаем, что у неё есть ограничения. Нейронные сети не смогут решать все задачи — они учатся только на больших базах примеров. Компании стали хорошо распознавать лица с помощью нейросетей благодаря базе профилей Facebook и «ВКонтакте». А есть круг задач, для которых такие базы отсутствуют, им просто неоткуда взяться.

Для работы с видео нейронные сети тоже эффективны — благодаря работе графических процессоров Nvidia вычислительные ресурсы значительно увеличились. Обучение, которое раньше занимало год, сейчас можно провести за две недели. Когда задача занимала год, за неё особо никто не брался, потому что могло не получиться. А когда это всего две недели, можно и рискнуть.

— Как нейронные сети помогают бизнесу?

— С их помощью можно решать многие коммерческие задачи. Например, лучше таргетировать рекламу и увеличивать конверсию. Там уже в удобном виде представлены данные — они оцифрованы, и их много.

Ритейлеры выпускают карты лояльности, чтобы отслеживать своих клиентов. Проблема в том, что человека с картой видно, только когда он подходит к кассе. А потом он ушёл — и больше о нём ничего не известно. C помощью нашей системы можно отслеживать людей, которые заходят в магазин, собирать статистику о том, как часто они приходят — сколько приходят повторно и сколько новых клиентов. Например, после рекламной кампании на ТВ можно смотреть, сколько новых людей посетило магазин. Плюс мы можем строить графики и сортировать людей по полу и возрасту, смотреть, какие люди приходят в зависимости от времени суток и дня недели.

Магазинам мы помогаем бороться с ворами. Для «Магнита», например, мы внедрили систему наблюдения на складах. Там не так много интеллекта, зато очень много камер. Воровать стали меньше. Для решения задачи подсчёта повторяющихся и уникальных посетителей важна точность распознавания, потому что базы огромные и на таких объёмах ошибки быстро накапливаются.

— Это не противоречит закону о персональных данных?

— Мы распознаём только лица, без фамилий и других личных данных. Конечно, мы можем сделать то же, что делает Findface, — найти для магазина человека в Facebook и «ВКонтакте», его информация есть в публичном доступе. Но это никому не нужно, пока нет систем, способных обрабатывать эту информацию. Сейчас распознавание конкретных людей интересно только правоохранительным органам. Если кто-то проломил голову, человека по фотографии можно найти в базе «ВКонтакте» и поехать в его родной город.

Алексей Кадейшвили

© © Sk.ru

— Какие ещё есть коммерческие проекты?

— У нас пять направлений работы: запись телефонных переговоров, которая нужна, например, кол-центрам, обзорное видеонаблюдение с видеоаналитикой, распознавание лиц, распознавание автомобильных номеров и анализ и улучшение цифровых фото- и видеоматериалов, проверка их подлинности. Для всех готовим отдельные продукты.

Из конкретных проектов — в «Юлмарте» недавно внедрили видеонаблюдение для оптимизации бизнес-процессов. Они много всего рассылают по почте и получают претензии, связанные с пересортицей в комплектации заказов. Для разбора претензий нужно отслеживать путь товара на каждом этапе его упаковки и отправки. Мы интегрировали видео в их ERP-систему, чтоб можно было сразу по номеру документа найти видеозапись соответствующей операции, поскольку каждая операция, произведённая с товаром, синхронизирована по времени.

— Я читала, что ваши камеры устанавливали в метро. Расскажите, чем там занимались.

— В 2013 году проходили пилотные испытания, наши камеры ставили на две станции: «Парк культуры» и «Библиотека имени Ленина». В метро направленные потоки людей — это то, что нужно для распознавания лиц в толпе. Получились хорошие результаты, все требования мы выполнили, но до внедрения дело не дошло в силу организационных проблем. Они там до сих пор ничего не сделали. Тогда сменился начальник, прошёл тендер, обиженные участники подали в суд, ну и для нас всё закончилось. Кроме того, они предлагали не те деньги, на которые можно построить хорошо работающую систему.

Главный посыл состоял в том, что нужно бороться с терроризмом. Но в чём разница между Израилем и нашим государством? Их величие не в том, что они технически развиты, а в том, что у них выстроена система. Они умеют применять технические средства на 110% и действительно стараются достигнуть безопасности.

А у нас строят «Безопасный город» (программа по внедрению информационных систем для достижения безопасности в городе, проект координирует МЧС России. — Прим. «Секрета») и говорят: поставьте нам поворотную камеру, которая будет выявлять людей и чтобы в обед она ещё бегала за пивом. Думают, что сейчас им поставят камеры и они начнут всех арестовывать. Но это лишь техническое средство, которым нужно пользоваться: вносить актуальные данные, вести оперативную работу, чтобы понимать, кого искать, и так далее. Этого никто не делает.

Когда говорят о безопасности в метро, обычно подразумевают борьбу с террористами. Но теракты, к счастью, происходят нечасто. Мелкие происшествия случаются каждый день, и в борьбе с ними наша система как раз могла помочь. Метро — это замкнутое пространство, через которое можно выходить только во входах и выходах, так что, если их перекрывают камеры, можно понимать, кто куда и откуда двигается. Для оперативников это важно.

— Как именно определяете нужных людей?

— Наши камеры записывают всё: фиксируют гигантское количество людей, все лица отправляются в базу. Когда что-то случается, мы можем взять фотографию и поискать человека системе. Это работает благодаря биометрии — из безумного потока видео алгоритм вырезает только лица, причём из каждого лица нам нужен биометрический шаблон — маленький вектор признаков. Его мы используем для поиска по базе.

— Кстати, о биометрии. Когда можно будет не стоять на границе в очередях на паспортном контроле?

— Это вопрос внедрения таких систем. Вообще, то, что у нас сейчас пограничники пытаются глазами всех распознавать, — это каменный век. Исследования давно показали, что, если речь идёт об узнавании незнакомых людей, человеку трудно понять, тот это человек или не тот. Автоматические алгоритмы с этим справляются намного лучше. Процедуру паспортного контроля можно автоматизировать. Помимо системы 2D, которую мы обычно используем, у нас есть система 3D — объёмная модель лица человека. Её прелесть в том, что, если вы к обычной камере поднесёте фотографию, она не поймёт, это настоящее лицо или фотография, а эту систему обмануть можно только как в фильме «Миссия невыполнима» — сделать маску и изменить внешний вид. Проблема в том, что паспортный контроль — это очень консервативная сфера. Так что до внедрения такой технологии ещё нужно дожить.

— За границу можно продавать вашу 3D-камеру?

— 3D-камера — это не то чтоб открытие советских учёных, о принципах триангуляции написано во всех учебниках компьютерного зрения. Но сделать систему, которая будет работать быстро и точно, — задача нетривиальная, и мы её решили. Проблема в том, что страны, у которых есть деньги, почему-то находятся в плохих отношениях с Россией. В целях безопасности там не хотят использовать российские продукты.

— Вот есть компания «Белка софт», криминалистикой занимается, работает с ФБР и американской армией.

— «Белка софт» превратилась в зарубежную компанию, у них только в Питере разработчики сидят. Продают не от лица российской компании.

— Ну и вы так можете.

— Мы и собираемся. Через две недели едем в Америку на форум Global Identity Summit во Флориде. У нас назначено несколько встреч с потенциальными партнёрами. Недавно в одной софтверной компании в Индии поставили камеры, чтобы считать рабочее время. Люди без карточек входят и выходят, камеры фиксируют их лица. Может, ещё там с кем-нибудь поработаем.

Пример работы системы распознавания лиц

— Хорошо. А не возникнет конфликта интересов: здесь работаете с ФСБ, а там — с ФБР?

— Если и возникнет, то это будет приятный конфликт. Выбор клиента — это всегда хорошо. А вообще, не думаю. Россия же продаёт нефть, и машины ФБР могут заправляться нашим топливом. У нас нет чего-то секретного, только коммерческий продукт. К тому же он помогает не наступать, а обороняться. Система не бегает и не охотится за людьми по улицам, люди сами к ней приходят.

— Что вы делаете с ФСБ?

— У нас нет каких-то секретных отделов, связанных с грифом гостайны и прочее. Никакого подземного этажа нет.

— Жалко.

— Есть мощная группа, связанная с обработкой видео. Всем нужно улучшать качество изображения, чтобы распознавать людей. У нас есть продукт «Видеоэксперт» для криминалистов, который позволяет из очень плохих фотографий вытаскивать какую-то информацию. Например, распознавать лицо человека в полной темноте. Это востребовано спецслужбами. Недавно нам принесли убитую запись, из которой нужно было вытащить лицо. Мы даже не надеялись, что получится. В итоге достали и оказалось, что в тюрьму посадили невиновного. Его после этого выпустили.

Опять же в проекте «Безопасный город» очень много камер. Но качество изображения оставляет желать лучшего. Вы представляете, что значит признать некачественными сотни тысяч недавно установленных камер?

— Камеры могут зафиксировать меня на улице, если ФСБ попросит?

— Я бы на месте ФСБ вычислял вас не по лицу, а по мобильному телефону — оттуда информацию получать намного быстрее и удобнее. Что касается лица, далеко не все камеры, которые развешаны по городу, умеют распознавать лица. Сейчас внедряются такие камеры на вокзалах и стадионах. Наши камеры на улицах распознают автомобильные номера, а не лица. Но безопасность всегда предполагает наличие слежки, так что нужно выбирать между первым и вторым. Кроме того, когда вы регистрируетесь в соцсети, вы сами себя лишаете анонимности.

— Понятно. Сколько у вас технических специалистов?

— У нас 120 человек в компании, из них 80% — технические специалисты.

— Где вы их берёте?

— Это проблема. Сейчас конкуренция большая, драка за мозги постоянная. Раньше мы старшекурсников брали, сейчас уже третьекурсников. Мы много общаемся с Физтехом, потому что сами выпускники, плюс у нас там базовая кафедра.

— Кажется, что сейчас многие студенты сами хотят запускать стартапы.

— Есть люди с предпринимательским даром — их чему ни учи, всё равно станут предпринимателями. На Физтехе есть кафедра, где заставляют заниматься наукой и предпринимательством, но я ещё ни разу не видел, чтобы у человека получалось и то и другое. Я думаю, тяга к предпринимательству заложена где-то в генетике и повлиять обучением на неё невозможно.

Государство тоже пытается продвигать стартапы. К сожалению, почти всегда, когда оно что-то задумывает, выходит не очень. В результате оно создало опухоль на теле экономики: компании стали имитировать стартапы, получать деньги и бесследно исчезать. Появилось поколение людей, которые стали профессиональными пожирателями грантов. Проблема не только в том, что деньги жалко, — эти стартапы пожирают людей, которые отвлекаются от реальных дел.

— Читала ещё, что вы работаете над распознаванием эмоций. Насколько успешно?

— Это следующее перспективное направление после распознавания лиц. Там уже одни нейросети не сработают, нужно будет привлекать дополнительные знания. Иначе придётся создать гигантскую базу с эмоциями, что в обозримом будущем сделать крайне сложно.

— Вроде в рекламе ещё лет пять назад показывали, как билборд распознаёт улыбку человека.

— Камера могла распознать эмоции человека, который стоит напротив. Мы как раз думали применять это в рекламе: показывать пол, возраст, смотреть на реакцию и в зависимости от неё менять сценарий показа. Для этого у заказчика должна быть технология, позволяющая менять показ в зависимости от эмоций человека. Пока они присматриваются.

В это направление мы инвестируем. У нас индустрия как устроена: чтобы быть конкурентоспособными, нужно сегодня заниматься продуктами, которые мы будем продавать через три-четыре года. Примерно половина разработчиков делают R&D, ведут исследования. Рано или поздно приходится конкурировать с китайцами. Когда они приходят, на направлении можно ставить крест, потому что ценовую конкуренцию с китайцами ещё никто не выигрывал. Так что нужно всё время находить более сложные вещи, которые они ещё не умеют делать. Если вы посмотрите на результаты того же Megaface, там добрая половина участников — китайские компании. Правда, нет достоверной информации о том, в каком состоянии их продукты. Потому что алгоритм может работать хорошо, но медленно, тогда его нельзя использовать в реальной жизни.

— Думаете, Китай всех победит?

— Я думаю, что китайцы станут жертвами собственного успеха. Сейчас у них миллиард людей, которые готовы работать за плошку риса. Как только уровень экономики поднимется выше, им будет этого недостаточно, и они станут соревноваться со всеми на равных.

— Читала, что вы заменили импортные комплектующие, когда курс рубля рухнул. Как сейчас справляетесь?

— Когда нам нужны были алюминиевые радиаторы охлаждения, в стране, которая вообще-то производит больше всех алюминия, их просто не было. Так что мы возили железо из Италии, причём, я почти уверен, что алюминий был наш. Потом мы поменяли конструкцию, чтобы обходиться российскими деталями. Хотя остаются комплектующие, которые заменить сложно. Хорошие сенсоры производят гиганты вроде Samsung и Sony, у них нет альтернативы. В 2014 году мы просели в выручке, в том числе на это повлияла экономика — у клиентов просто не стало денег. В этом году несмотря на то, что экономика продолжает стагнировать, мы прибавили 30% к выручке.

— В 2011 году вы стали резидентами «Сколкова». Зачем вам это понадобилось?

— В сотрудничестве с ними есть два плюса. Статус резидента даёт налоговые льготы на фонд оплаты труда, для нас это ощутимая экономия. И в 2011 году мы получили грант на 20 млн рублей, правда, нервов тогда измотали на 40. Заявка на грант «Сколкова» — хорошее упражнение. Пока мы её оформляли, у них менялись правила. Некоторые правила оказывались странными — например, нужно было расписать командировки на три года вперёд с указанием мест и длительности, стоимости билетов и проживания. Но их можно понять: требования предъявляют госорганы, которые их проверяют, так что над ними висит дамоклов меч.

— Будете бороться за участие в тендерах, которые проводят в рамках обеспечения действия «пакета Яровой»?

— Мы начинали с направления хранения аудиозаписей, которое решало одну из задач «пакета Яровой». Если коротко — мы умеем хранить всё, что ходит по проводам. Например, делаем для «Мегафона» систему борьбы с SMS-мошенничеством, там те же технологии. Но всё, что связано с «законом Яровой», очень политическая история, туда посторонних не пустят.

— Вы бы хотели?

— Мы как автомат Калашникова — продаём продукт тем, кому он действительно нужен и кто готов за это платить. А в кого он стреляет, уже не наше дело. Технически задача интересная. Другой вопрос, что закон писали люди, не знакомые с современными технологиями, квалификация этих людей не позволяет им должным образом оценить перспективы и потенциал развития технологий. Они предлагают хранить всё, и в результате искать что-либо будет очень сложно. Информации много, а ценность её крайне низкая. Эффективнее было бы индексировать данные сразу и выкидывать то, что не представляет интереса. Тогда и места это занимало бы меньше, и искать можно было бы намного быстрее.

Изображение на обложке: «Вокорд»