Хроника эпохальной аварии
Бизнес-обучение не зря строится на кейсах. В них как в капельке росы отражается все: окружающий мир, его проблемы, его герои, его системные ошибки. Можно долго писать обзоры про облачный рынок России, а можно посмотреть, что случилось с «Битрикс».
В пятницу 9 февраля 2018 года произошел сбой в работе сервиса «Битрикс 24». Это широкий функционал: управление задачами и проектами, календари, учет рабочего времени, бизнес-процессы, CRM, работа с документами, облачное хранилище для файлов, телефония. Треть российских клиентов внезапно все это теряет.
Вендор быстро выяснил, что дело в провайдере. Российский сегмент «Битрикс 24» работал на серверах «Корп Софт», у которого есть основной и резервный дата-центры. Проводились учения, подписывались договора, однако совершенно внезапно выяснилось, что один коммутатор выводит из строя оба дата-центра сразу. Такая ошибка архитектуры. Ошибку исправить или скомпенсировать не удается. Точка отказа оказалась единой.
Сергей Рыжиков, генеральный директор «1С-Битрикс», в понедельник 12 февраля сообщил через Фейсбук: «Развернуть новую структуру из трехсот серверов в России за выходные невозможно технически и организационно. Мы приняли решение в пятницу переносить все данные в Amazon в Германию. Очень сложная идея, но единственно возможная. За выходные мы развернули в Amazon новое оборудование и инфраструктуру. Все подготовили». Это к вопросу о том, насколько надо быть готовым к миграции, если используешь бизнес-критичную облачную систему. Первую половину дня понедельника проблемы продолжались по-прежнему по вине провайдера, но все же миграцию закончили. Инженеры сутки не спали.
«Мы приносим извинения нашим клиентам за доставленные проблемы. Очень сожалеем, что размеры проекта не позволили за выходные осуществить перенос данных. Даже копирование сотен терабайт информации занимает существенное время. Материться уже не помогает. «Корп Софт» потерял адекватность», — сообщил Рыжиков. Но в итоге все завершилось хорошо: не сразу конечно, но сервис снова заработал устойчиво.
Примечательно, как восприняли это клиенты и партнеры компании. Им стало плохо очень быстро. «Наш интернет-магазин не может заказы уже два дня подряд отправить. Вы нас разорите!». «Весь завод встал». Это к вопросу о том, насколько сильно зависит уже российский бизнес от ИТ.
Руководители «Битрикс» постоянно держали всех в курсе событий. Они не стали делать глобальное оповещение всех клиентов, потому что все же две трети проблем не почувствовали. Работали через соцсети с теми, кого сбой затронул, во многих случаях — персонально с каждым. Это позволило смягчить ситуацию. «Самое худшее — это не сама проблема, а неведение, что происходит и как реагировать. Немного подождем». «Всю сеть перевели на Битрикс, в ультимативном порядке. Теперь сдерживаем "огонь" с разных точек страны. Спасибо, что "главнокомандующий" держит в курсе вестей с фронта. соскакивать с Битрикса не собираемся, хотя некоторым уже хочется». Открытость и информирование о ситуации в реальном времени дали плоды: «Держитесь, ребята. Мы потерпим еще» — таким было большинство комментариев.
Всех конечно сразу очень заинтересовало, а как же требования ФЗ № 152 удовлетворять при переносе серверов в Германию. Резервирование в России баз данных и логов — таким был ответ. Во всяком случае, законность хранения данных «Битрикс» гарантирует. Клиентов интересовал вопрос легитимности не просто так, а потому что «от российского хостинга тошнит», и люди думают, а куда же деваться.
Знакомые с облачным рынком не понаслышке отметили, что переход на Amazon будет заметно дороже и придется переплачивать за трафик. Но конечно руководство «Битрикс» понимает, что лучше так, чем потерять рынок.
А что же провайдер? Чем он ответит? Битрикс несет репутационные потери и дополнительные расходы, рискует потерять клиентов. Вся «экосистема» получает простои, потери. Провайдер же может ответить только штрафом и не взять денег за эти несколько дней простоя. Спасибо большое! Одна из системных ошибок. И конечно все понимают, что поднять 300 серверов за выходные в России невозможно. Ну такой уж объем рынка, сколько выросло — столько и есть.
Сделает ли выводы «Корп Софт»? Сделают ли выводы другие провайдеры? В «Битрикс» тоже сделали некоторые выводы: в том числе создают наконец единую страницу, где в реальном времени постоянно, а не только во время экстренных ситуаций, будет выводиться информация о доступности сервиса. Хочется надеяться, что вендор и в дальнейшем будет достоин таких же отзывов, какие получил сейчас: «Когда компания относится к клиентам так же, как ваша, она заслуживает самых добрых слов. Даже в случаях кризисов».
Первоисточник: https://www.facebook.com/rsv.bitrix/posts/10215842170913214?pnref=story