Создание платформы репликации данных Hadoop Sync
- Заказчик:
- Банк ВТБ (ПАО)
- Руководитель проекта со стороны заказчика
- Поставщик
- Компания "Дататех" ГК «Иннотех»
- Год завершения проекта
- 2023
- Сроки выполнения проекта
- Июнь, 2022 - Февраль, 2023
- Масштаб проекта
- 4360 человеко-часов
- Цели
- Обеспечить непрерывность бизнеса Банка в условиях санкционного давления.
- Защитить компанию от риска включения импортных продуктов в новые санкционные пакеты.
- Направить операционные расходы, предназначенные на оплату лицензий Wandisco, на создание собственного ИТ-решения.
- Обеспечить работоспособность новой системы репликации на Arenadata Hadoop.
- Обеспечить полное соответствие потребностей Банка в части хранилища данных и озера данных;
- Результаты
- Обеспечена непрерывность бизнеса Банка в условиях санкционного давления.
- Банк защищен от риска включения импортных продуктов в новые санкционные пакеты.
- Инвестиции, предназначенные на оплату лицензий Wandisco, направлены на создание собственного ИТ-решения.
- Обеспечена работоспособность новой системы репликации на Arenadata Hadoop.
- Обеспечено полное соответствие потребностей Банка в части хранилища данных и озера данных.
Уникальность проекта
- После введенных санкций в отношении ПАО ВТБ аналоги Wandisco с сопоставимыми характеристиками стали не доступны.
- Одновременно с заменой Wandisco требовалось обеспечить работу системы репликации на Arenadata Hadoop. Компания Arenadata аналог Wandisco не предоставляет, Wandisco с Arenadata Hadoop не совместим на момент начала проекта.
- Появились требования по использованию в ПАО ВТБ ПО, включенного в ЕРРП.
- Проект содержал высокие риски, т.к. разрабатываемое ПО сразу должно применяться на самом крупном хранилище данных компании.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
- Программное обеспечение: Open Source инструмент репликации данных, СУБД PostgreSQLОборудование: Open Shift (будет замена на k8s), Стандартные виртуальные серверы для СУБД PostgreSQLВспомогательные системы: Предусмотренные корпоративным ИТ-ландшафтом ВТБ системы мониторинга, сбора логов, аутентификации и авторизации
- Сложность реализации
- От успешности реализации Hadoop Sync зависел успех программы импортозамещения всей платформы данных Банка;
- Сжатые сроки на поставку первой версии решения (~4 месяцев);
- Перед началом проекта команда отсутствовала, требовалось оперативно собрать экспертов нужной квалификации;
- В Банке не было опыта создания ИТ-решений подобного класса;
- Решение сразу должно было работать на нагруженном хранилище с большим объёмом данных и большим количеством пользователей;
- Одновременно с разработкой системы репликации требовалось обеспечить её работу на новом дистрибутиве Arenadata Hadoop.
- Параллельно в компании проводится массовое импортозамещение (инфраструктура, системы управления производством ИТ-решений и т.п.)
- Описание проекта
- Hadoop Sync – это платформа для репликации данных между кластерами Hadoop с перспективой развития и репликации между различными платформами.
- После наложения санкций и запрета поставок программного обеспечения возникла срочная потребность реализовать систему репликации данных между кластерами Hadoop.
- Платформа репликации данных Hadoop Sync, заменила систему репликации данных Wandisco, которая применялась в сценариях Disaster Recovery и при перемещении нагрузки от пользователей (аналитиков данных, Data-инженеров, экспертов по наукам о данных (Data Scientist)) на выделенный кластер Hadoop.
- Создание и внедрение платформы Hadoop Sync нивелировали критичные риски:
- Потери данных в случае чрезвычайной ситуации,
- Остановки работы озера данных,
- Остановки проекта миграции озера данных на импортозамещенные технологии Arenadata Hadoop.
- При отказе Wandisco от сотрудничества в кратчайшие сроки была разработано альтернативное решение – Платформа репликации данных Hadoop Sync. По функциональности на 100% соответствует потребностям Банка;
- Для ускоренной реализации новой платформы потребовалось оперативно собрать команду с необходимой экспертизой: хранилища данных, разработчики и аналитики для Big Data, специалисты по OpenSource, эксперты Hadoop и благодаря усилиям компаний «Иннотех» и «Дататех» удалось оперативно собрать команду с требуемой экспертизой и с нуля создать новую платформу.
- Платформа представляет собой прекрасный сплав разработок
- Снижена общая стоимость владения подсистемы репликации.
- География проекта
- Система реплицирует данные в озере данных, которые доступны из всех 66 региональных операционных офисах Банка ВТБ в соответствии с ролевой моделью доступа.