Что такое big data. Объясняем простыми словами
Источники больших данных — интернет вещей, соцсети, блоги, СМИ, показания приборов и датчиков (например, данные метеостанций), статистика, архивы, базы данных. Хранятся они в data lake — «озёрах данных» — в облачных хранилищах.
Анализ больших данных уже применяется во многих сферах — для обеспечения безопасности, диагностики и профилактики заболеваний, предсказания аварий и катастроф. В бизнесе и маркетинге на основании больших данных предсказывают поведение клиентов, оптимизируют расходы и процесс производства, оценивают платежеспособность, прогнозируют увольнение сотрудников.
Пример употребления на «Секрете»
«Вот приходите вы на приём к психиатру, он вам ставит диагноз на основе собственного субъективного мнения, а не анализа больших данных. Это должно измениться. Сфера образования, кстати, тоже меня удивляет. Мы пытаемся всех заставить учиться одним и тем же способом. Мне кажется, что большие данные могли бы повысить эффективность в сфере образования: например, если у ребёнка какие-то особые способности к обучению, мы могли бы оптимизировать и персонализировать обучение для него».
(Психолог Йорган Каллебаут — о применении больших данных.)
Нюансы
В основе описания больших данных лежит три основных характеристики (VVV):
- объём (volume) — по некоторым оценкам, к большим данным относят объёмы информации более 150 Гб в сутки;
- скорость (velocity) — скорость обработки должна быть высокой и увеличиваться при необходимости, иначе информация потеряет актуальность;
- разнообразие (variety) — сбор данных разного характера: текстовых, аудио- и видеофайлов, структурированных и неструктурированных.
История
Термин «большие данные» стал широко использоваться в 1990-е. Проблемами растущего объёма информации, однако, стали задаваться гораздо раньше. Так, в результате переписи населения в США в 1880 году получился такой объём данных, что для анализа понадобилось бы 8 лет. Тогда инженер Герман Холлерит создал табулятор, автоматически обрабатывавший числовую и буквенную информацию и выдававший результат на бумажную ленту.
Критика
Критика больших данных в основном связана с тем, что при их анализе используются непрозрачные алгоритмы, которые нельзя оценить и проверить — неясно, какие данные были учтены, почему и как сделан вывод. Кроме того, сбор, хранение и обработка больших объёмов разнообразной информации создаёт много возможностей для утечек и нарушения конфиденциальности.
Статью проверил:
Иван Ястребков, руководитель проектов «Сберсервис»