05 сентября 2017 года в 08:16

Зачем банку голосовые технологии

— разъясняет Михаил Ежов

Зачем банку голосовые технологии

Объём рынка верификации и идентификации голоса человека с 2012 по 2016 год увеличился с $229 до $697 млн. Такой прирост в первую очередь обеспечивают банки. Я расскажу о трёх голосовых технологиях, которые не требуют специального оборудования, упрощают работу со счетами и ускоряют оказание услуг.

Биометрия

Голосовая биометрия — это идентификация личности по голосу. Глава Сбербанка Герман Греф уверен: технология на 99,9% позволяет определить, кто именно обратился в контакт-центр или открыл приложение.

Вот как это работает: для начала система создаёт голосовой эталон — образец голоса клиента, который хранится в базе данных банка. Эталон формируется автоматически на основе данных, полученных при обращении клиента, подтвердившего свою личность, в кол-центр. Для этого нужно всего 40 секунд чистой речи. При следующих обращениях речь просто сверяется с сохранённым образцом.

Основное преимущество использования голосовой биометрии в банковской сфере — потенциальный отказ от PIN-кодов, паролей и контрольных вопросов. Если данные карты и даже пароль от аккаунта мошенники могут похитить, то голос каждого человека уникален, как отпечатки пальцев. Для записи и оценки совпадения с образцом голоса используется более 100 разных параметров.

Ещё один важный плюс — не нужно специальное оборудование: голос можно передать по любому каналу связи, от мобильного телефона до радиосети. Ничего, кроме микрофона, не понадобится. Банк узнает вас немедленно, после первой же сказанной фразы.

Голосовая биометрия переведёт проверку клиентских транзакций на автоматический контроль, сократит количество мошеннических операций и упростит идентификацию клиента. Больше не придётся при любом звонке в банк диктовать паспортные данные, ИНН или вспоминать ответ на секретный вопрос.

Пользователи мобильного приложения британского банка Barclays уже используют систему голосовой идентификации. Систему также протестировали HSBC, First Direct и Atom Bank, а банковская компания Wells Fargo даже предлагает клиентам услугу перевода средств со счёта на счёт с помощью голосовых команд. В России систему внедряют Сбербанк, ВТБ24 и Росбанк.

Объём незаконных транзакций с использованием банковских карт в России в 2016 году составил 1,08 млрд рублей. Это меньше, чем в 2015 году, когда сумма достигла 1,15 млрд рублей. В 2017 году объём мошеннических операций с банковскими картами, по прогнозам, сократится ещё сильнее — сейчас показатель составляет всего 30% от прошлого года. Развитие технологий голосовой биометрии вносит в это достижение свой вклад.

Распознавание речи

Распознавание речи не позволяет идентифицировать личность человека, зато обеспечивает удобное для клиента обращение к базам данных и сервисам посредством голосовых команд. Клиенты не ждут ответа оператора, а могут сразу получить нужную информацию. Банки используют эту технологию для автоматизации работы кол-центров.

Первое устройство для распознавания речи появилось в 1952 году — оно могло определять произнесённые человеком цифры. В 1964 году на ярмарке компьютерных технологий в Нью-Йорке корпорация IBM представила устройство Shoebox — эта машина уже могла распознавать не только цифры, но ещё и 16 слов.

Современные системы IVR (interactive voice response) используют в том числе и банки. По звонку клиента IVR-система распознаёт его голос. В ответ на голосовые команды клиент может выяснить дату и сумму ежемесячного платежа по кредиту, баланс счёта, адреса точек обслуживания. Теперь всё это можно узнать в автоматическом режиме. В США работают уже более 3000 служб речевого самообслуживания.

Важное преимущество использования голосового управления в автоматизированных кол-центрах банков — сокращение банковских расходов на работу кол-центра. Благодаря переводу части функций контактного центра на IVR-систему ВТБ24 сэкономил 500 млн рублей за два года.

Мобильное приложение нидерландского банка ING позволяет клиентам проверять баланс и осуществлять платежи с помощью голосовых команд. Barclays внедрил голосовую идентификацию клиента для разговоров со специалистами кол-центров. Аналогичную технологию задействовал российский Тинькофф-банк. Сервис использует и мексиканское подразделение Banco Santander.

Расшифровка звонков

Все беседы с представителями банков записываются для улучшения качества обслуживания. Но записать разговор недостаточно. Необходимо преобразовать каждый звонок в материал, пригодный для анализа и дальнейшей работы. Эту задачу решают системы, которые преобразуют аудиофайлы в текст. Первоначально при автоматической расшифровке речи возникало много ошибок, но современные системы используют более совершенные алгоритмы распознавания.

На сегодняшний день рекорд принадлежит компании IBM: разработчикам удалось снизить долю ошибок в компьютерном распознавании речи до 5,5%. Человек делает это с погрешностью примерно в 5%.

Сервисы по распознаванию речи в телефонных звонках позволяют анализировать и контролировать переговоры с клиентами, на каждом этапе отслеживать речь сотрудника, выявлять ошибки коммуникации и пресекать их дальнейшее возникновение. Свои решения для распознавания телефонных переговоров создали Google и Amazon — это Google Cloud Speech API и Amazon Connect. Google предлагает несколько вариантов работы с API: синхронный режим, асинхронный режим и стриминг. Он позволяет реализовать различные сценарии диалога с выбором из заранее заданного списка фраз и вариантов.

Amazon Connect с помощью потоковой технологии обработки вызовов позволяет воспроизводить инструкции, задавать вопросы, выполнять запросы к сторонним источникам информации и выбирать готовые сценарии в рамках потока. Система умеет распознавать отдельные слова и выстраивать на их основе диалог. Так, клиент банка может не ждать, пока автоответчик доберётся до интересующей его услуги. Можно сразу назвать причину обращения — например, запросить остаток на счёте, — система распознает заявку и предоставит нужную информацию. Своё решение на базе голосовых технологий предлагает и IBM. Его система Watson позволяет распознавать и глубоко исследовать текст методами семантического анализа.

Все эти сервисы полагаются на серверные решения и доступ к централизованным облачным хранилищам. Их конкурент — наша платформа Anryze, распределённая компьютерная сеть, которая предназначена для распознавания речи и развития нейронной сети с использованием искусственного интеллекта. Основное технологическое отличие — отсутствие централизованного хранения данных, как в Google или Amazon. Данные для обработки речи создают сами пользователи. Хранятся они на пользовательских компьютерах, объединённых в одноранговую сеть. Доступ к данным не зависит от стабильности работы единого сервера или серверного кластера, а следовательно, локальные сбои не отразятся на работе всей системы.

Минус нашей технологии — более низкая по сравнению с конкурентами скорость распознавания речи. Крупные корпорации используют свою новейшую технику, мы полагаемся на компьютеры участников сети. Зато стоимость распознавания текста у нас существенно дешевле: Google предлагает расшифровать минуту текста за 2,4 цента, IBM — за 2,2, Anryze — за 0,5.

Ещё один недостаток Anryze — отсутствие технологии определения спикера, которая присутствует у облачного сервиса IBM. Банку может оказаться выгоднее многофункциональное, хотя и более дорогое решение, которое позволяет не только превратить речь в текст, но и немедленно идентифицировать говорящего.

Что дальше?

Мировой рынок технологий голосовой идентификации и распознавания речи, по прогнозу Grand View Research, вырастет до $127 млрд к 2024 году. Это обеспечат перечисленные выше технологии, а также развитие автоматизированных систем, созданных на базе естественного языка, таких как Amazon Alexa.

Обсудить ()
Новости партнеров