Внедрение системы анализа больших данных РФС
- Заказчик:
- Российский Футбольный Союз
- Руководитель проекта со стороны заказчика
- Поставщик
- Российский Футбольный Союз
- Год завершения проекта
- 2021
- Сроки выполнения проекта
- Сентябрь, 2020 - Октябрь, 2021
- Масштаб проекта
- 2000 человеко-часов
- Цели
Построения аналитической системы полного цикла для сбора, хранения и обработки информации из структурированных, слабо структурированных и неструктурированных источников.
Система позволяет проводить интеграцию с различными источниками данных, в том числе возможность загружать и обрабатывать данные, доступные в сети интернет и описывающие публичные события, связанные с соревнованиями по футболу и другими аспектами предметной области.
Система позволяет хранить данные в формате источника, для обеспечения возможности разбора исторических данных, в случае потребности в ранее не используемых показателях.
Уникальность проекта
В рамках проекта ставилась задача реализовать инструмент сбора и анализа данных, не уступающий решениям, которые используются ведущими игроками Телекома, Ретейла и Банковской отрасли. В рамках проекта удалось внедрить гибкую аналитическую среду полного цикла позволяющую собирать, хранить, обрабатывать данные и визуализировать результаты через BI инструмент. Решение строится на базе облачной инфраструктуры, и распределенной экосистемы решений Apache Hadoop, что позволяет гибко управлять вычислительными ресурсами и объемом зарезервированного дискового пространства без капитальных вложений в инфраструктуру. Основной объем хранимой информации составляют данные о субъектах футбола и футбольных событиях.- Использованное ПО
В рамках реализации решения используется инфраструктура облачной среды Яндекс.Облако.
Архитектура решения включает следующие блоки:
- Система хранения и обработки первично загруженных данных на основе экосистемы Hadoop (HDFS, Spark, Hive и другие инструменты)
- Реляционная база данных MySQL
- Реализация ETL на базе pyspark и python3
- Реализация краулера на базе python3
- BI Инструмент Tableau
- Сложность реализации
Сложность реализации проекта заключалась в:
- подготовке и внедрении целостного решения, состоящего из технологических продуктов различных разработчиков
- разработке логической и физической структур реляционной базы данных, т.к. отраслевой стандарт, в отличие от многих других областей, отсутствует
- подключению технологически и структурно различных источников данных и выработка подходов к регламенту загрузки (в том числе выделению дельты изменений)
- Описание проекта
До начала проекта в компании отсутствовало хранилище данных и инструменты, позволяющие собирать и хранить информацию из различных систем. В рамках проекта ставилась цель построения системы, которая смогла бы обеспечить выполнение всего спектра задач по сбору, хранению, анализу данных и формированию отчетности.
На базе внедренного инструмента удалось реализовать следующие процессы:
1) интеграция новых источников (прямое подключение к БД, API, парсинг/краулинг)
- на данный момент произведена интеграция с 11 источниками, в том числе учетные системы РПЛ, ФНЛ1, ФНЛ2
2) хранение исторических данных, как в формате источника, так и в заранее подготовленных структурах базы данных
- на момент подачи заявки система содержит примерно 2.5 Тб данных из различных источников
3) подготовка отчетов по требованию (ad-hoc)
- процесс подготовки ad-hoc отчетности запущен, регулярно готовятся разовые отчеты для различных подразделений компании
4) разработка регулярных отчетов и BI отчетов
- в рамках проекта разработано шесть BI отчетов для различных подразделений компании
- География проекта
- Все футбольные соревнования на территории РФС