Михаил Левиев. Каждый бизнесмен должен стать data scientist
Без этой профессии не обойтисьСпециальность data scientist называют одной из самых «сексуальных» профессий ближайшего будущего. И не только потому, что люди, умеющие работать с данными, могут претендовать на большую зарплату и невероятную популярность среди работодателей. Как у всех нормальных людей есть потребность в сексе, так и у всех нормальных компаний XXI века есть потребность в анализе данных
Специальность data scientist называют одной из самых сексуальных профессий ближайшего будущего. И не только потому, что люди, умеющие работать с данными, могут претендовать на большую зарплату и невероятную популярность среди работодателей. Как у всех нормальных людей есть потребность в сексе, так и у всех нормальных компаний XXI века есть потребность в анализе данных.
Многие компании понимают необходимость собирать данные о своей деятельности уже сейчас. Однако до сих пор большинству не удаётся использовать терабайты данных по назначению. Пару недель назад в сети прогремел скандал: американец стал зарабатывать по $250 000 в год, собирая конфиденциальную информацию о компаниях в мусорных мешках возле офисов. Очевидно, что многие компании научились получать и сохранять данные; но им, кажется, неизвестно, что делать с этой информацией дальше. Сделать информацию знанием, основанием для принятия решения, пока мало кому удалось. Хитрый американец — исключение.
Каков выход? Каждой компании нужен data scientist — специалист по анализу данных. Это человек, который отвечает за создание или развитие инфраструктуры для big data, собирает массивы данных, но главное, он отвечает за анализ этих данных, за создание алгоритмов, направленных на повышение эффективности бизнеса. Хороший data scientist должен одинаково хорошо владеть и математикой, и статистикой, и программированием, а ещё — следовать здравому смыслу и уметь мыслить нестандартно. Можно развивать собственные компетенции внутри компании или привлекать специалистов по анализу данных на аутсорсе. И хотя профессия data scientist не имеет корректного перевода на русский язык, всё больше российских вузов развивают специальные курсы и готовят кадры: ВШЭ, МГУ, МФТИ, УРФУ. Например, выпускники или студенты МФТИ, ВШЭ работают в качестве data scientists в «Авито», «Одноклассниках» и других компаниях.
Проблема в том, что эффективно использовать специалиста data scientist может предприниматель, понимающий ценность и суть его работы. Для этого нужно менять своё отношение к данным, которые генерит компания, — считать их не побочным продуктом, требующим всё больше и больше серверов (или облачных хранилищ), а стратегическим активом.
В работе с данными компании data scientist отталкивается от бизнес-задач компании. Данных много не бывает. Чем их больше, тем точнее алгоритм, так как он учитывает больше паттернов. Поэтому первое, что должен сделать руководитель компании, — определить самые важные типы данных для бизнеса и подумать, как можно инвестировать в них. Например, Amazon на раннем этапе своего развития продавала книги ниже их стоимости, тем самым привлекая клиентов. Главной целью Amazon было получение как можно большего количества данных о поведении и покупательских особенностях клиентов, чтобы улучшить рекомендательную систему. Именно она в итоге и привела американский интернет-магазин к мировому успеху. Важно создавать data-driven культуру в компании. Во-первых, data scientist может и должен работать со всеми департаментами, поскольку данные собираются по каждому направлению бизнеса. Во-вторых, при тотальной «оцифровке» информации, посчитать становится возможным все.
Безусловно, анализом данных занимаются в первую очередь крупные компании, которые ежедневно собирают терабайты данных: сотовые операторы, банки, ритейлеры. Для них повышение эффективности даже на 1% — это уже серьёзная прибыль. Как это работает? Например, моя компания «АлгоМост» оптимизировала скоринг для одного крупного российского банка. Решения о выдаче кредита принимаются на основе анализа анкеты клиента и его кредитной истории. Несмотря на детализированную анкету, полученная информация не всегда эффективно анализируется, некоторые взаимосвязи не очевидны. В среднем, по нашим данным, точность предсказания базовых моделей скоринга составляет около 60%. Использование современных инструментов анализа с добавлением информации о поведенческих признаках клиентов позволяет повышать вероятность до 70–80%.
Для решения этой задачи нужен алгоритм, который каждому клиенту приписывает вероятность возврата им кредита. Алгоритм анализирует большую таблицу, в которой по строкам записаны данные, каждый столбец соответствует некоторому признаку. Например, в одном столбце описано место проживания клиента, во втором — место работы, в третьем — образование, в четвёртом — финансовое положение клиента: количество денег на счету, число карточек определённой платёжной системы, статистика выплат по ранее взятым кредитам и т.п. Суть алгоритма в том, что он находит более эффективные взаимосвязи между данными, а точность предсказания повышается.
Однако не стоит думать, что big data — это развлечение только для больших и богатых компаний. И малый бизнес, и растущий стартап могут получить все выгоды от работы с данными. Предположим, у вас есть магазин по продаже зонтиков и небольшой опыт продаж. Ваш главный вопрос — насколько эффективна система продаж? Задайте себе первый вопрос, что я вижу в этих данных? Скорее всего, зонты покупают равномерно, но бывают всплески продаж. Кроме того, мы понимаем, что зонты почти не продаются зимой. Чем обусловлены всплески продаж? Логично предположить, что дождём или ненастьем. Берём данные по погоде и сопоставляем с показателями продаж. Корреляция чёткая. Теперь, когда взаимосвязь плохой погоды доказана через данные, используя текущий прогноз, вы уже с начала дня можете сделать рекламный плакат: «Внимание, сегодня будет дождь. Кто не хочет промокнуть, купите зонт». Дальше вам нужно будет лишь проанализировать динамику продаж с рекламным плакатом и без него и оценить эффективность инструмента.
При анализе данных очень важно не останавливаться на выводах первого уровня. Поэтому продолжаем. Проанализируем, какие зонты покупают чаще, какие реже. Допустим, у нас в ассортименте есть зонты-трости, складные зонты, детские зонты. Смотрим на их продажи и видим, что зонты-трости чаще всего покупают по выходным. Это сигнал для отдела логистики. Значит, в пятницу в магазин обязательно должны приезжать трости в достаточном количестве, а в будние дни на них можно устроить акцию-распродажу. В исследованиях данных можно идти всё глубже: выявить самые популярные цветовые гаммы, проанализировать особенности мужских и женских покупок и так далее. В результате можно создать алгоритм, который будет учитывать все особенности клиентского поведения, автоматизирует систему закупок и логистики, оптимизирует прибыльность бизнеса.
Вряд ли владелец магазина зонтиков сможет позволить себе нанять специалиста data scientist, зато он вполне может анализировать данные сам. Согласно исследованию IDC Digital Universe к 2020 году более 7 млрд людей создадут 44 триллиона гигабайтов данных на как минимум 30 млрд устройств. Поэтому каждый владелец бизнеса и топ-менеджер должен стать немного data scientist и уметь извлекать эффективную информацию для бизнеса и клиентов.