16 сентября в 21:10
2 мин.

Что такое big data. Объясняем простыми словами

Big data (англ. «большие данные») — массивы данных большого объёма и значительного многообразия, анализируемые с помощью специальных компьютерных технологий.
Что такое big data. Объясняем простыми словами

Источники больших данных — интернет вещей, соцсети, блоги, СМИ, показания приборов и датчиков (например, данные метеостанций), статистика, архивы, базы данных. Хранятся они в data lake — «озёрах данных» — в облачных хранилищах.

Анализ больших данных уже применяется во многих сферах — для обеспечения безопасности, диагностики и профилактики заболеваний, предсказания аварий и катастроф. В бизнесе и маркетинге на основании больших данных предсказывают поведение клиентов, оптимизируют расходы и процесс производства, оценивают платежеспособность, прогнозируют увольнение сотрудников.

Пример употребления на «Секрете»

«Вот приходите вы на приём к психиатру, он вам ставит диагноз на основе собственного субъективного мнения, а не анализа больших данных. Это должно измениться. Сфера образования, кстати, тоже меня удивляет. Мы пытаемся всех заставить учиться одним и тем же способом. Мне кажется, что большие данные могли бы повысить эффективность в сфере образования: например, если у ребёнка какие-то особые способности к обучению, мы могли бы оптимизировать и персонализировать обучение для него».

(Психолог Йорган Каллебаут — о применении больших данных).

Нюансы

В основе описания больших данных лежит три основных характеристики (VVV):

  • объём (volume) — по некоторым оценкам, к большим данным относят объёмы информации более 150 Гб в сутки;
  • скорость (velocity) — скорость обработки должна быть высокой и увеличиваться при необходимости, иначе информация потеряет актуальность;
  • разнообразие (variety) — сбор данных разного характера: текстовых, аудио- и видеофайлов, структурированных и неструктурированных.

История

Термин «большие данные» стал широко использоваться в 1990-е. Проблемами растущего объёма информации, однако, стали задаваться гораздо раньше. Так, в результате переписи населения в США в 1880 году получился такой объём данных, что для анализа понадобилось бы 8 лет. Тогда инженер Герман Холлерит создал табулятор, автоматически обрабатывающий числовую и буквенную информацию и выдававший результат на бумажную ленту.

Критика

Критика больших данных в основном связана с тем, что при их анализе используются непрозрачные алгоритмы, которые нельзя оценить и проверить — неясно, какие данные были учтены, почему и как сделан вывод. Кроме того, сбор, хранение и обработка больших объёмов разнообразной информации создаёт много возможностей для утечек и нарушения конфиденциальности.

Статью проверил:

Иван Ястребков

руководитель проектов «СберСервис»

Поделитесь историей своего бизнеса или расскажите читателям о вашем стартапе