Создана платформа для построения аналитических хранилищ данных

Заказчик
Банк ВТБ (ПАО)
Руководитель проекта со стороны заказчика
ИТ-поставщик
Компания «Дататех» ГК «Иннотех»
Год завершения проекта
2023
Сроки выполнения проекта
Сентябрь, 2019 - Май, 2023
Масштаб проекта
866342 человеко-часа
Цели
  1. Спроектировать и развернуть платформу для создания аналитического хранилища данных;
  2. Спроектировать и разработать универсальный ETL Фреймворк, включая механизмы управления загрузкой на основе микросервисной архитектуры;
  3. Обеспечить в модели данных единого аналитического хранилища синергию данных оперативной, аналитической, неструктурированной информации для задач продвинутой аналитики;
  4. Реализовать отказоустойчивую, масштабируемую и геораспределенную архитектуру повышенной надежности;
  5. Реализовать ролевую модель доступа в соответствии с требованиями информационной безопасности и без необходимости настройки доступов на уровне СУБД;
  6. Создать корпоративные стандарты аналитической платформы данных, обеспечивающие унифицированные интерфейсы и правила обмена данными;
  7. Снизить общую стоимость владения.

Результаты
  1. Спроектирована и развернута платформа для создания аналитического хранилища данных;
  2. Спроектирован и разработан универсальный ETL Фреймворк, включая механизмы управления загрузкой на основе микросервисной архитектуры;
  3. Создана модель данных единого аналитического хранилища, обеспечивающая синергию данных оперативной, аналитической, неструктурированной информации для задач продвинутой аналитики;
  4. Реализована отказоустойчивая, масштабируемая и геораспределенная архитектура повышенной надежности;
  5. Реализована ролевая модель доступа в соответствии с требованиями информационной безопасности и без необходимости настройки доступов на уровне СУБД;
  6. Созданы корпоративные стандарты аналитической платформы данных, обеспечивающие унифицированные интерфейсы и правила обмена данными;
  7. Снижена общая стоимость владения.

Уникальность проекта

  1. Разработанный Банком ETL Фреймворк обеспечивает технологический суверенитет ИТ-отрасли России и может быть использован в любой отрасли и организациях любого размера для построения аналитических систем и хранилищ данных.
  2. Один из первых и крупнейших проектов в РФ по созданию платформы единого аналитического хранилища данных универсального Банка на отечественной импортозамещенной платформе Arenadata DB;
  3. Объем данных хранилища данных достиг 1 Петабайт;
  4. Спроектирована и реализована распределенная архитектура высокой надежности;
  5. Реализована микросервисная архитектуры;
  6. Полное построение на импортозамещенных технологиях с использованием стека открытого программного обеспечения;
  7. Распределенная географически команда проекта по всей России состоящая из более, чем 170 производственных команд.
Проект решает задачи импортозамещения
Да
Использованное ПО
Кластер Arenadata DB, PostgreSQL, Kafka, Prometheus, Grafana, Nginx, Airflow, Elastic search, ПАК «Сила СХД», Dremio.
Отдельно стоит выделить ETL Framework, который был написан с нуля командой проекта.

Сложность реализации
  1. Одно из первых крупных внедрений ArenadataDB;
  2. Замена практически всех компонент платформы для хранилища данных на импортозамещенный стек технологий;
  3. Огромная распределенная команда проекта;
  4. Изменение ИТ-ландашфта Банка параллельно с построением платформы аналитического хранилища данных;
  5. Унаследованные три legacy-хранилища данных;
  6. Большие объемы данных;
  7. Универсальная модель данных единого аналитического хранилища данных отличается от моделей legacy-хранилищ;
  8. Доработки и развитие функционала существующих legacy-хранилищ параллельно с проектированием и реализацией платформы единого аналитического хранилища данных;
  9. Одновременная смена используемых технологий хранений, обработки и доступа к данным, модели данных ядра хранилища потребовало дополнительного обучения и адаптации бизнес-пользователей.
Описание проекта
  1. Спроектирована и развернута универсальная аналитическая платформа для построения аналитического хранилища данных на современном импортозамещенном стеке технологий;
  2. Разработан ETL Фреймворк, который может быть использован в любой отрасли и организациях любого размера Российской Федерации;
  3. Фреймворк включает набор методик и проектных решений:
    • Функциональная и компонентная архитектуры;
    • Системная архитектура;
    • Архитектура данных;
    • Модели данных детальных слоев и витрин;
    • Алгоритмы типовых процессов
  4. Фреймворк включает в себя инструменты для автоматизации построения хранилищ данных:
    • Оркестратор процессов загрузки;
    • Менеджер вычислений и управления транзакциями в распределенных средах;
    • Библиотека типовых трансформаций и шаблонов ETL процессов;
    • Генератор кода.
  5. Фреймворк обладает следующими преимуществами:
    • Соответствует требованиям распределенной архитектуры высокой надежности;
    • Обеспечивает высокую производительность обработки и загрузки данных;
    • Базируется на микросервисной архитектуре;
    • Поддерживает историчность и версионность данных;
    • Полностью обеспечивает технологический суверенитет.
  6. Фреймворк позволяет достичь следующих преимуществ для ИТ-отрасли и организаций его использующих:
    • Максимальная скорость предоставления критически важных данных для бизнеса;
    • Снижение общей стоимости владения;
    • Сокращение time-to-market при создании и развитии хранилища данных.
  7. Разработана модель данных единого аналитического хранилища данных универсального банка, покрывающая ключевые предметные области банковской деятельности;
  8. Минимизированы нагрузка на системы поставщики данных за счет использования единой централизованной ODS платформы;
  9. Развернут функционал пользовательских песочниц для выполнения нерегламентированных запросов ad-hoc на платформах Arenadata DB и Arenadata Hadoop;
  10. Спроектирована и реализована ролевая модель доступа к данным, включающая в себя следующие режимы без необходимости настройки доступов на уровне СУБД:
    • Динамического маскирования (Dynamic Masking)
    • Безопасность на уровне строк (Row Level Security)
    • Управление доступом на основе ролей (Role-based access control, RBAC)
  11. Внедрен Модуль Управления Доступом на базе российской платформы Маяк BI и обеспечено разграничение доступа к данным с максимально гибкими правилами, отвечающими требованиям информационной безопасности, бизнеса и регуляторов;
  12. Для обеспечения доступа к данным проклассифицировано более 1,8 тыс. таблиц и 19 тысяч атрибутов, и обеспечен доступ к аналитическому хранилищу данных, включая доступ 60+ ролей, что обеспечивает более 1,5 млн. вариантов доступа к данным.
  13. Важным преимуществом платформы управления доступом является ее абсолютная прозрачность для бизнес-пользователей: пользователь не замечает её наличия, но при этом работают все правила разграничения доступа, и соблюдаются все требования информационной безопасности.

География проекта

Над реализацией проекта работала распределенная команда аналитиков и разработчиков из Калининграда, Москвы, Санкт-Петербурга, Твери, Казани, Томска, Хабаровска и многих других городов по всей России.

Над проектом работала сводная команда из более 170 производственных команд, а общее количество участников с различным уровнем вовлечения в проекте превысило 1 200 человек.

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.