Недавно ко мне подошёл младший коллега и спросил:
«Почему у некоторых виртуальных машин в имени приписка
_restили_restored?»
Вопрос вроде простой. На первый взгляд, эти пометки — просто указание, что машина была восстановлена из бэкапа или реплики. Да, это так. Но на самом деле за этими суффиксами стоит немного больше, чем просто техническая деталь.
Когда я вижу такую машину в списке, я вспоминаю, почему она появилась. Почти за каждой из них — сбой, ошибка, недосмотр или просто стечение обстоятельств, которое привело к необходимости восстановить сервер. И для меня такие машины — своеобразные метки на теле инфраструктуры, напоминания о реальных ситуациях, из которых мы что-то вынесли.
На пример:
Однажды мы потеряли SRV-DC01 — контроллер домена, который на тот момент был PDC. Причиной стала банальная проблема — datastore переполнился, потому что старые снепшоты не удалялись корректно. В итоге машина «упала», и пришлось срочно поднимать восстановленную копию. Мы добавили суффикс _rest, чтобы сразу видеть, что это новая инстанция, и не путать с оригиналом в документации и системах мониторинга.
Другой случай — SRV-CRM24_restored. Сервер с CRM-системой упал после неудачного обновления. В тот раз решение внедряли в спешке, и обкатку в тестовой среде посчитали «лишней тратой времени». Клиенты начали жаловаться через 10 минут после начала сбоя. DR-план сработал, но осадок остался. Суффикс — напоминание о спешке, которой могло бы не быть.
Или один из болезненных случаев — это потеря целого веб-сервиса из 8-ми узлов. Все восемь машин находились на одном и том же датасторе. Из-за физической проблемы с хранилищем мы потеряли всё: веб-серверы, базу данных, кэш, оркестратор. Восстановление заняло 12 часов а данные откатились на сутки. После этого мы пересмотрели подход к размещению и развёртыванию: теперь подобные системы распределены по нескольким хранилищам, а критичные данные дублируются по уровням.
Да, менять имя виртуальной машины в vCenter — не лучшая практика. Это может нарушить скрипты, автоматизацию, документацию. Но в таких случаях это осознанное решение. Это не про эстетику, а про историю инцидентов, которые нельзя забывать. Эти «шрамы» служат не только напоминанием мне, но и важным сигналом для других коллег: здесь когда-то было больно.
Инфраструктура — не абстрактный набор серверов. Это система, которая развивается, ошибается, учится. И важно помнить, где она уже «спотыкалась». Потому что забытые уроки обычно повторяются.
Добавить комментарий