VK запустил свой сервис для работы с большими данными. Что полезно знать
Cloud Spark позволяет обрабатывать неструктурированные и слабоструктурированные данные из разных источников: S3, ClickHouse, Kafka и других. Сервис выполняет аналитические запросы к данным практически любого объёма, рассказали «Секрету фирмы» в VK.
Инструмент можно использовать для решений задач Data Science и аналитики. Также в компании сказали, он пригодится для разведочного анализа данных (EDA) и машинного обучения. Доступ к данным можно получить посредством SQL-запросов. Спецам по машинному обучению доступна встроенная библиотеки MLlib. Управлять сервисом можно и локального компьютера, и с JupyterHub.
«Бизнес получает масштабируемый инструмент для работы с большими данными без необходимости самостоятельно запускать, настраивать и администрировать Spark или Kubernetes», — рассказал технический менеджер продукта VK Cloud Александр Волынский.