Как спасти инфраструктуру от затопления

когда в серверной потоп, и вода в розетках шипит от электрического напряжения, остается только надеть резиновые сапоги и печатки потолще и идти навстречу судьбе.
Задача
устранить последствия аварии водоснабжения в здании офиса
Решение
восстановили и заменили часть оборудования, протестировали все системы инфраструктуры, восстановили потерянные данные, дали рекомендации как минимизировать ущерб от подобных ситуаций в будущем.
В здании офиса нашего клиента случалась крупная авария, прорвало трубы на верхнем этаже. В результате весь офис и серверная оказались затопленными. Авария произошла ночью, к нашему появлению воды было уже по колено. Тем не менее мы восстановили работу инфраструктуры всего за 1 день.

Ключевые моменты кейса

Восстановили работоспособность всех 8 серверов
Благодаря настроенным ранее бэкапам в облаке, сохранили все данные
В операции принимали участие 3 инженера
Заменили 3 маршрутизатора и 50 метров кабеля

Самая первая проблема, с которой мы столкнулись — электрические розетки в серверной смонтированы в полу, т.е. они оказались под водой, входить в помещение опасно для здоровья.

Мы справились в этой проблемой и вынесли всё оборудование в сухое помещение. Пришло время заняться просушиванием деталей. Не всегда ситуация безнадежная. Блоки питания после затопления не выживают, но за остальные комплектующие можно побороться. Здесь важно, чтобы не было окисления, поэтому чипсеты сразу промыли спиртом, слоты продули сжатым воздухом, все машины разобрали до мелчайших деталей и просушили. В итоге удалось восстановить пять серверов из восьми, у двух серверов сгорело часть комплектующих, один сервер сгорел полностью.

Далее занялись данными. Жесткие диски тоже достаточно уязвимы для влаги. В нашем случае вышли из строя все. Однако у этой истории счастливый финал. В рамках абонентского обслуживания ранее мы настроили копирование всех данных на резервные сервера. Благодаря этому важная корпоративная информация не была потеряна.

Aximetria
...Мы благодарны Lococo за их мгновенное реагирование и отличное выполнение своей работы...

Когда мы берем клиента на абонентское обслуживание, мы, среди прочего, составляем Disaster Recovery Plan (план восстановления после катастрофы). Под катастрофой понимается ситуация, при которой часть или все серверы организации полностью выведены из строя или уничтожены. Такой план помогает сократить время на оживление системы, сберечь нервы и деньги.

В плане содержатся инструкции по восстановлению, пароли, список лиц для оповещения, сценарии для конкретных ситуаций, дистрибутивы и устройства чтения. Также мы формируем буферный склад. Здесь хранится запасное, подменное оборудование, чтобы в критический момент не выяснилось, что комплектующие нужно сначала заказать у производителя.

Наш план восстановления включает не только пожары, потопы и подобные классические катастрофы. В нем сценарии для более частых форсмажоров типа потери базы данных, потери паролей, вход из строя почтовых серверов, потеря хранилища логов и пр.

системный администратор unix, LOCOCO
Меня частенько обвиняют в параноидальных наклонностях, что я придумываю маловероятные события и трачу время на защиту от них. Как же я горжусь тем, что не поддалась уговорам и настроила резервирование данных в другой ЦОД! Мы не потеряли ни одного байта клиентский данных.
инженер техподдержки LOCOCO
В подобных авральных ситуациях нельзя расслабляться после решения проблемы. Очень важно сделать выводы и принять меры, чтобы подобное больше не случилось. Мы дали клиенту рекомендации по оборудованию серверной средствами защиты от протечек.