VK запустил свой сервис для работы с большими данными. Что полезно знать

VK запустил сервис для работы с большими данными Cloud Spark. Доступ к нему появился на облачной платформе VK Cloud. Работает сервис на базе технологий Apache Spark и Kubernetes. С помощью инструмента можно структурировать данные из разрозненных источников для создания аналитических и предиктивных систем, моделей машинного обучения. Как утверждают, разработчики, технология позволит сократить до 60% стоимости вычислительных ресурсов при работе с большими данными.

Cloud Spark позволяет обрабатывать неструктурированные и слабоструктурированные данные из разных источников: S3, ClickHouse, Kafka и других. Сервис выполняет аналитические запросы к данным практически любого объёма, рассказали «Секрету фирмы» в VK.

Инструмент можно использовать для решений задач Data Science и аналитики. Также в компании сказали, он пригодится для разведочного анализа данных (EDA) и машинного обучения. Доступ к данным можно получить посредством SQL-запросов. Спецам по машинному обучению доступна встроенная библиотеки MLlib. Управлять сервисом можно и локального компьютера, и с JupyterHub.

«Бизнес получает масштабируемый инструмент для работы с большими данными без необходимости самостоятельно запускать, настраивать и администрировать Spark или Kubernetes», — рассказал технический менеджер продукта VK Cloud Александр Волынский.

Читайте на тему: