Провайдер «Ярнет» из Ярославля раскрыл принцип работы ТСПУ от РКН при условии аварии в сетях оператора связи
По поводу ночных аварий со среды на четверг и с четверга на пятницу.
В первую ночь в основной нашей серверной на одном из двух энерговводов произошло отключение энергопитания, и входная автоматика подключила второй энерговвод. Но затем отключился и второй энерговвод.
Это редкая, но штатная ситуация: два энерговвода в наше здание приходят разными путями от разных понижающих трансформаторов, но с одной подстанции.
И если в рамках плановых работ или аварий пропадает электропитание на всей подстанции, то и у нас его тоже нет.
Но есть дизель-генератор, который той ночью автоматически запустился после того, как пропало электропитание уже на втором энерговводе.
Затем, когда электропитание от подстанции восстановилось, дизель-генератор перестал работать и на входной источник бесперебойного питания (ИБП) было подано штатное электропитание.
К сожалению, в какой-то момент из-за всех этих переключений обычно сопровождающихся элекропомехами разного вида, ИБП перестал нормально функционировать (неисправность во входных контурах) и какое-то время (около часа) «жил на аккумуляторах».
Ну а потом и они «кончились».
Дизель-генератор в это момент не работал (и не должен), так как «с его точки зрения» у нас на входных энерговводах есть электропитание.
Приехавшие на аварию инженеры не мгновенно разобрались в ситуации, но потом собрали отдельную электрическую линии мимо ИБП и обеспечили серверную электропитанием.
Меры по недопущению (или по ускорению реагирования) подобного в будущем мы, конечно, примем.
Что произошло во вторую ночь?
По закону, в сети каждого оператора, находится т.н. ТСПУ: техническое средство противодействия угрозам.
Это некий комплекс устройств, через который проходит весь трафик нашей сети (в режиме «Фильтрация»), т.е. между нашими клиентами и внешней сетью Интернет.
Для оператора это «чёрный ящик», он управляется РосКомНадзором (РКН).
Например, с его помощью блокируются всякие нежелательные сайты в интернете и т.п. без участия оператора.
Его взаимодействие с сетью оператора известно и выглядит продуманным и надёжным.
В частности, у них есть круглосуточная техподдержка, которая оперативно, в случаях жалоб оператора на неправильную работу, быстро его отключает (переводит в режим «Обход»).
Также у них есть система мониторинга, которая сама должна замечать некоторые проблемы и автоматически переводить его в режим «Обхода».
В случае пропадания электропитания, ТСПУ, после его, электропитания, возобновления, будет находиться в режиме «Обхода» до того момента, пока РКН вручную не переведёт его в штатный режим (т.е. в режим «Фильтрации»).
В целом, это довольно сложный программно-аппаратный комплекс, и, увы, он ещё «сыроватый». Т.е. не все программные ошибки в нём исправлены.
Дальше началась череда ошибок со стороны РКН и немного с нашей стороны, которая привела к новой ночной аварии.
В четверг днём РКН написал в техподдержку письмо о том, что ночью они хотят перевести ТСПУ в режим «Фильтрации». Это уже косяк: по договору должны писать совсем на другой адрес (noc@).
Техподдержка не очень поняла, о чём в этом письме написано, и не переслала письмо инженерам.
РКН не получил ответа и не должен был ничего делать: в письме чётко было написано «Прошу согласовать...». Отсутствие ответа однозначно должно быть расценено как отсутствие согласования. А мы бы его на ночь не дали. И позвонить они тоже не удосужились.
Около часа ночи они перевели ТСПУ в режим «Фильтрации». Но он не заработал нормальным образом и сам это не определил. На графике видно, что трафик падает минимум на порядок.
Вместо того, чтобы убедиться, что всё нормально, РКН всё оставил в таком нерабочем состоянии. Хотя все инструменты для проверки у них есть по определению. Но это переключение режима работы ТСПУ выполнял или недостаточно квалифицированный или слишком ленивый персонал.
Через какое-то время система мониторинга работы сети с помощью СМС разбудила инженеров и они начали разбираться. А это было сделать не так просто.
Во-первых, памятуя события прошлой ночи, были подозрения на проблемы с электропитанием.
Во-вторых, ТСПУ не «не пропускал вообще весь трафик», а задерживал только процентов 90%. И он долгое время вообще не был в списке подозреваемых.
Около трёх часов ночи ТСПУ вдруг заработал штатным образом и проработал так около часа.
Инженеры обоснованно приняли решение отложить выяснение причин проблем до утра.
Но через вышеупомянутый час ТСПУ вновь перестал нормально работать.
Опять прошло какое-то время, когда инженеры узнали о проблеме и снова начали разбираться в ситуации.
Через пару часов всё-таки стало ясно, что виноват ТСПУ, инженеры позвонили в техподдержку РКН, и те перевели его в режим «Обход» (до того, как изготовитель комплекса не разберётся с проблемой).
Почему по умолчанию РКН пытается переключать режимы ночью?
Некоторая логика в этом есть: переключение приводит к обрыву связи на несколько секунд.
И если результат гарантирован, то логично даже такой кратковременный обрыв производить в часы наименьшей загрузки.
Но это, безусловно, должен решать оператор исходя из своих реалий. Нам, увы, такой возможности не предоставили.
По итогу мы, конечно, научим техподдержку правильно реагировать на непонятные письма, а РКН – выполнять договорные обязательства.
Но прошлого не вернуть, и эти 2 ночи были не самые удачные в плане оказания услуг. Приносим извинения.
Стратегической мерой по повышению надёжности нашей сети является строительство собственного ЦОД (будет запущен в эксплуатацию в следующем году).