Что случилось с серверами Windows?

в этом кейсе сложилось всё: внезапно упавший сервер, жесткий дедлайн, отсутствие карточек удаленного старта сервера и пандемия с ограничением перемещений. Проблема оказалась простой, но нетривиальной, и заставила отработать навыки работы в авральном режиме.
Задача
Экстренно восстановить работу сервера в офисной серверной клиента
Решение
Диагностировали проблему по логам, дополнили список инвентаризации, создали процедуры проверки на случай падения сервера, подключили удаленных пользователей к серверу.

Это клиент, у которого была своя собственная серверная в офисе. Небольшая, на одну стойку, с серверами для хранения данных, с которыми работали удаленные сотрудники.

Мы только-только пришли к ним и как раз проводили инвентаризацию: что есть, что нужно закупить по лицензиям, что нужно настроить, чтобы заработало как надо: жалоб от пользователей было очень много.

И вот внезапно на только что настроенный телеграм-бот начинают валиться сообщения от пользователей, а в трубке у меня взрывается шквал звонков от ТОПов этой компании: сервера недоступны, а завтра надо сдавать проект!

Ключевые моменты кейса

Для восстановления работы потребовался выезд инженера на место
Восстановили доступ к серверу всех удаленных сотрудников, работавших с ним через VPN
Закупили лицензии Windows Server
По результатам работы созданы новые процедуры действий при падении сервера

Пытаемся зайти на сервера удаленно — действительно, недоступны. Карточек для удаленного старта в серверах нет — надо ехать на место. Ситуация нештатная, на улице — самый разгар ковидных ограничений, и надо получать разовые пропуска на поездку, а это долго.

И вот наш инженер говорит: «ОК, я съезжу, а вы пока получайте мне пропуск. Если что — отбрыкаюсь как-нибудь, или заплатим штраф», и выезжает к ребятам в офис.

Приехал на место через тридцать минут — а там все хорошо, электричество не пропадало, просто сервера выключены. Инженер запускает их, сервера запускаются штатно и без каких-либо сообщений или жалоб на проблемы. Посмотрели — связь появилась, диски доступны, файлы на месте — и побежали спасать удаленных пользователей, у которых отвалился доступ из-за VPN, переподключать им диски и проверять все ли файлы доступны.

И буквально через час сервера внезапно опять выключились. Мы только-только все диски переподключили!

Хорошо, что инженер еще не уехал — побежал в серверную и увидел все ту же картину: электричество есть, не пропадало, а сервера — выключены.

В этот раз я уже настоял, чтобы было посмотрено в логи (да, каюсь — иногда мы учимся на своих ошибках) и вуаля! В логах было сообщение, что сервер выключился из-за отсутствия постоянной лицензии, а 180 дней тестовой уже прошли. Это была оказывается версия Windows Server 2016 Evaluation Edition.

Продлили тестовый период и добавили в список инвентаризации строку «закупить лицензии Windows Server». Ну и заодно сделали процедуру проверки «что делать, если все упало», добавив в нее строку большими буквами «ПОСМОТРЕТЬ ЧТО В ЛОГАХ!!!».

Николаенко Александр
директор по эксплуатации IT-сервисов
Бывает, что причины неполадок — из разряда «кто бы мог подумать». Тем не менее, ребята успели доделать проект, сдали его, ну а мы отточили свои знания и умения работать в авральном режиме.
инженер техподдержки LOCOCO
Давайте на чистоту — сервер падает, когда вырубается электричество. Всегда. Ну почти всегда. Это я к тому, что про лицензию думаешь в последнюю очередь. Это было неожиданно. Но теперь у меня есть первое правило клуба - всегда смотри логи.