Создание платформы репликации данных Hadoop Sync

Заказчик:
Банк ВТБ (ПАО)
Руководитель проекта со стороны заказчика
Поставщик
Компания "Дататех" ГК «Иннотех»
Год завершения проекта
2023
Сроки выполнения проекта
Июнь, 2022 - Февраль, 2023
Масштаб проекта
4360 человеко-часов
Цели
  1. Обеспечить непрерывность бизнеса Банка в условиях санкционного давления.
  2. Защитить компанию от риска включения импортных продуктов в новые санкционные пакеты.
  3. Направить операционные расходы, предназначенные на оплату лицензий Wandisco, на создание собственного ИТ-решения.
  4. Обеспечить работоспособность новой системы репликации на Arenadata Hadoop.
  5. Обеспечить полное соответствие потребностей Банка в части хранилища данных и озера данных;
Результаты
  1. Обеспечена непрерывность бизнеса Банка в условиях санкционного давления.
  2. Банк защищен от риска включения импортных продуктов в новые санкционные пакеты.
  3. Инвестиции, предназначенные на оплату лицензий Wandisco, направлены на создание собственного ИТ-решения.
  4. Обеспечена работоспособность новой системы репликации на Arenadata Hadoop.
  5. Обеспечено полное соответствие потребностей Банка в части хранилища данных и озера данных.

Уникальность проекта

  • После введенных санкций в отношении ПАО ВТБ аналоги Wandisco с сопоставимыми характеристиками стали не доступны.
  • Одновременно с заменой Wandisco требовалось обеспечить работу системы репликации на Arenadata Hadoop. Компания Arenadata аналог Wandisco не предоставляет, Wandisco с Arenadata Hadoop не совместим на момент начала проекта.
  • Появились требования по использованию в ПАО ВТБ ПО, включенного в ЕРРП.
  • Проект содержал высокие риски, т.к. разрабатываемое ПО сразу должно применяться на самом крупном хранилище данных компании.
Проект решает задачи импортозамещения
Да
Использованное ПО
Программное обеспечение: Open Source инструмент репликации данных, СУБД PostgreSQL
Оборудование: Open Shift (будет замена на k8s), Стандартные виртуальные серверы для СУБД PostgreSQL
Вспомогательные системы: Предусмотренные корпоративным ИТ-ландшафтом ВТБ системы мониторинга, сбора логов, аутентификации и авторизации

Сложность реализации
  1. От успешности реализации Hadoop Sync зависел успех программы импортозамещения всей платформы данных Банка;
  2. Сжатые сроки на поставку первой версии решения (~4 месяцев);
  3. Перед началом проекта команда отсутствовала, требовалось оперативно собрать экспертов нужной квалификации;
  4. В Банке не было опыта создания ИТ-решений подобного класса;
  5. Решение сразу должно было работать на нагруженном хранилище с большим объёмом данных и большим количеством пользователей;
  6. Одновременно с разработкой системы репликации требовалось обеспечить её работу на новом дистрибутиве Arenadata Hadoop.
  7. Параллельно в компании проводится массовое импортозамещение (инфраструктура, системы управления производством ИТ-решений и т.п.)
Описание проекта
  1. Hadoop Sync – это платформа для репликации данных между кластерами Hadoop с перспективой развития и репликации между различными платформами.
  2. После наложения санкций и запрета поставок программного обеспечения возникла срочная потребность реализовать систему репликации данных между кластерами Hadoop.
  3. Платформа репликации данных Hadoop Sync, заменила систему репликации данных Wandisco, которая применялась в сценариях Disaster Recovery и при перемещении нагрузки от пользователей (аналитиков данных, Data-инженеров, экспертов по наукам о данных (Data Scientist)) на выделенный кластер Hadoop.
  4. Создание и внедрение платформы Hadoop Sync нивелировали критичные риски:
    • Потери данных в случае чрезвычайной ситуации,
    • Остановки работы озера данных,
  5. Остановки проекта миграции озера данных на импортозамещенные технологии Arenadata Hadoop.
  6. При отказе Wandisco от сотрудничества в кратчайшие сроки была разработано альтернативное решение – Платформа репликации данных Hadoop Sync. По функциональности на 100% соответствует потребностям Банка;
  7. Для ускоренной реализации новой платформы потребовалось оперативно собрать команду с необходимой экспертизой: хранилища данных, разработчики и аналитики для Big Data, специалисты по OpenSource, эксперты Hadoop и благодаря усилиям компаний «Иннотех» и «Дататех» удалось оперативно собрать команду с требуемой экспертизой и с нуля создать новую платформу.
  8. Платформа представляет собой прекрасный сплав разработок
  9. Снижена общая стоимость владения подсистемы репликации.

География проекта
Система реплицирует данные в озере данных, которые доступны из всех 66 региональных операционных офисах Банка ВТБ в соответствии с ролевой моделью доступа.

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.