Импортозамещение озера данных на платформу Arenadata Hadoop

Заказчик
Банк ВТБ (ПАО)
Руководитель проекта со стороны заказчика
ИТ-поставщик
Компания «Дататех» ГК «Иннотех», IBS, ФилИТ.
Год завершения проекта
2023
Сроки выполнения проекта
Ноябрь, 2020 - Май, 2023
Масштаб проекта
338400 человеко-часов
Цели
  1. Достигнуть полный технологический суверенитет озера данных;
  2. Сократить T2M ИТ-сервисов для бизнеса за счет унификации и стандартизации процессов разработки и внедрения единых DevOps практик;
  3. Обеспечить технологическое развитие аналитической платформы Банка без ограничений, связанных с legacy платформой Oracle BDA (Cloudera Hadoop) и другими иностранными компонентами;
  4. Увеличить вычислительные мощности пользовательского кластера более чем в два раза;
  5. Снизить общую стоимость владения.
Результаты
  1. Полностью достигнут технологический суверенитет озера данных;
  2. Сокращено T2M ИТ-сервисов для бизнеса за счет унификации и стандартизации процессов разработки и внедрения единых DevOps практик;
  3. Обеспечено технологическое развитие аналитической платформы Банка без ограничений, связанных с legacy платформой Oracle BDA (Cloudera Hadoop) и другими иностранными компонентами;
  4. Увеличены вычислительные мощности пользовательского кластера более чем в два раза;
  5. Снижена общая стоимость владения;

Уникальность проекта

  1. Один из первых и крупнейших проектов в РФ по миграции с санкционного Oracle BDA (Cloudera Hadoop) на отечественную импортозамещенную платформу Arenadata Hadoop;
  2. Миграция озера данных объемом более 6 Петабайт данных;
  3. Физическая миграция оборудования весом несколько тонн между ЦОД для обеспечения надежности и отказоустойчивости;
  4. Полное построение на импортозамещенных технологиях с использованием стека открытого программного обеспечения;
  5. Распределенная географически команда проекта по всей России состоящая из более, чем 130 производственных команд;
  6. При отказе от сотрудничества одного из вендоров в кратчайшие сроки была разработано альтернативное решение – Платформа репликации данных Hadoop Sync. По функциональности на 100% соответствует потребностям Банка;
  7. Количество потоков, количество объектов, количество транзакций;
  8. Загрузка данных из новых источников данных, реализованных в рамках цифровой трансформации Банка;
  9. Миграция и параллельное развитие legacy-решения.
Проект решает задачи импортозамещения
Да
Использованное ПО
Программное обеспечение: Arenadata Hadoop, Spark, HiveZeppelin, Airflow, RabbitMQ, PostgreSQL, FluentD, Grafana, Kibana, Elastic search, ETL framework DDF (собственная разработка), Платформа репликации Hadoop Sync (собственная разработка), OpenShift, DBeaver, RStudio, Juputer Hub.
Оборудование: ПАК Скала-ср/АДХ, Частное облако ВТБ


Сложность реализации
C учетом значительного объема решаемых задач и большого количества участников на первый план вышли задачи управления.
Именно координация, информирование и контроль потребовали значительных усилий управленческой команды. Проект был декомпозирован на ряд направлений (по сути - проектов меньшего масштаба) и представлял собой проектную программу.
Так же усложнили задачу отличия целевого технологического стека от legacy, что потребовало от производственных команд ускоренного погружения в относительно новую технологическую реализацию и породило немало трудностей, для решения которых применялись весьма нестандартные подходы.
Большое количество взаимосвязей задач загрузки данных и функционала витрин данных так же потребовали непростых компромиссов и технических решений.
Внесла свой негативный вклад пандемия COVID-19, снижавшая производительность команд непредсказуемым образом. В некоторых командах одномоментные потери сотрудников превышали 30-40%.
Ход проекта продемонстрировал важность вопросов управления данными и архитектуры данных. Так, «точечные» изменения типов данных или их структуры порождали существенный объем изменений на стороне витрин данных и их потребителей. Без должного контроля, такого рода изменения могут привести к значимому негативному влиянию на график работ и на объем бюджета.
Кроме того, проект миграции осуществлялся в условиях происходящей в Банке глобальной трансформации, что повышало риски влияния на график работ со стороны других проектов и активностей.

Описание проекта
В рамках проекта было реализовано:
  1. Развертывание программно-аппаратного комплекса Data Analysing Processing Platform (DAPP) на базе Arenadata Hadoop, включающего в себя основной кластер регламентных загрузок и расчетов, DR кластер, ИФТ и DEV среды;
  2. Перенос функционала ETL потоков загрузок и подключено к DAPP более 100 информационных систем-источников данных, как внутрибанковских, так и внешних;
  3. Миграция аналитического функционала, включая более 300 витрин данных для различных направлений;
  4. Миграция аналитического функционала искусственного интеллекта и необходимых для этого данных;
  5. Миграция пользовательского функционала, включая более 30 пользовательских песочниц, 8 прикладных BI и аналитических систем
  6. Переобучение пользователей работе с новыми импортозамещенными компонентами;
  7. Санкционное ПО WanDisco для репликации данных замещено на отечественное ПО HadoopSync собственной разработки.

География проекта

Система спроектирована для доступна из всех 66 региональных операционных офисах Банка ВТБ

В настоящий момент с системой работают сотрудники из разных городов России.

Над проектом работала сводная команда из более 130 производственных команд, обеспечив более 250 поставок, а общее количество участников с различным уровнем вовлечения в проекте превысило 1 700 человек.
Дополнительные презентации:
uy3mxkdq1sz2x9yockfo7t8h88nkciq7.pdf

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.