Провайдер «Ярнет» из Ярославля раскрыл принцип работы ТСПУ от РКН при условии аварии в сетях оператора связи

По поводу ночных аварий со среды на четверг и с четверга на пятницу.

В первую ночь в основной нашей серверной на одном из двух энерговводов произошло отключение энергопитания, и входная автоматика подключила второй энерговвод. Но затем отключился и второй энерговвод.

Это редкая, но штатная ситуация: два энерговвода в наше здание приходят разными путями от разных понижающих трансформаторов, но с одной подстанции.
И если в рамках плановых работ или аварий пропадает электропитание на всей подстанции, то и у нас его тоже нет.

Но есть дизель-генератор, который той ночью автоматически запустился после того, как пропало электропитание уже на втором энерговводе.

Затем, когда электропитание от подстанции восстановилось, дизель-генератор перестал работать и на входной источник бесперебойного питания (ИБП) было подано штатное электропитание.

К сожалению, в какой-то момент из-за всех этих переключений обычно сопровождающихся элекропомехами разного вида, ИБП перестал нормально функционировать (неисправность во входных контурах) и какое-то время (около часа) «жил на аккумуляторах».
Ну а потом и они «кончились».

Дизель-генератор в это момент не работал (и не должен), так как «с его точки зрения» у нас на входных энерговводах есть электропитание.

Приехавшие на аварию инженеры не мгновенно разобрались в ситуации, но потом собрали отдельную электрическую линии мимо ИБП и обеспечили серверную электропитанием.
Меры по недопущению (или по ускорению реагирования) подобного в будущем мы, конечно, примем.

Что произошло во вторую ночь?

По закону, в сети каждого оператора, находится т.н. ТСПУ: техническое средство противодействия угрозам.

Это некий комплекс устройств, через который проходит весь трафик нашей сети (в режиме «Фильтрация»), т.е. между нашими клиентами и внешней сетью Интернет.

Для оператора это «чёрный ящик», он управляется РосКомНадзором (РКН).

Например, с его помощью блокируются всякие нежелательные сайты в интернете и т.п. без участия оператора.

Его взаимодействие с сетью оператора известно и выглядит продуманным и надёжным.
В частности, у них есть круглосуточная техподдержка, которая оперативно, в случаях жалоб оператора на неправильную работу, быстро его отключает (переводит в режим «Обход»).
Также у них есть система мониторинга, которая сама должна замечать некоторые проблемы и автоматически переводить его в режим «Обхода».

В случае пропадания электропитания, ТСПУ, после его, электропитания, возобновления, будет находиться в режиме «Обхода» до того момента, пока РКН вручную не переведёт его в штатный режим (т.е. в режим «Фильтрации»).

В целом, это довольно сложный программно-аппаратный комплекс, и, увы, он ещё «сыроватый». Т.е. не все программные ошибки в нём исправлены.

Дальше началась череда ошибок со стороны РКН и немного с нашей стороны, которая привела к новой ночной аварии.

  1. В четверг днём РКН написал в техподдержку письмо о том, что ночью они хотят перевести ТСПУ в режим «Фильтрации». Это уже косяк: по договору должны писать совсем на другой адрес (noc@).

  2. Техподдержка не очень поняла, о чём в этом письме написано, и не переслала письмо инженерам.

  3. РКН не получил ответа и не должен был ничего делать: в письме чётко было написано «Прошу согласовать...». Отсутствие ответа однозначно должно быть расценено как отсутствие согласования. А мы бы его на ночь не дали. И позвонить они тоже не удосужились.

  4. Около часа ночи они перевели ТСПУ в режим «Фильтрации». Но он не заработал нормальным образом и сам это не определил. На графике видно, что трафик падает минимум на порядок.
    Вместо того, чтобы убедиться, что всё нормально, РКН всё оставил в таком нерабочем состоянии. Хотя все инструменты для проверки у них есть по определению. Но это переключение режима работы ТСПУ выполнял или недостаточно квалифицированный или слишком ленивый персонал.

Через какое-то время система мониторинга работы сети с помощью СМС разбудила инженеров и они начали разбираться. А это было сделать не так просто.

Во-первых, памятуя события прошлой ночи, были подозрения на проблемы с электропитанием.
Во-вторых, ТСПУ не «не пропускал вообще весь трафик», а задерживал только процентов 90%. И он долгое время вообще не был в списке подозреваемых.

Около трёх часов ночи ТСПУ вдруг заработал штатным образом и проработал так около часа.
Инженеры обоснованно приняли решение отложить выяснение причин проблем до утра.

Но через вышеупомянутый час ТСПУ вновь перестал нормально работать.

Опять прошло какое-то время, когда инженеры узнали о проблеме и снова начали разбираться в ситуации.

Через пару часов всё-таки стало ясно, что виноват ТСПУ, инженеры позвонили в техподдержку РКН, и те перевели его в режим «Обход» (до того, как изготовитель комплекса не разберётся с проблемой).

Почему по умолчанию РКН пытается переключать режимы ночью?

Некоторая логика в этом есть: переключение приводит к обрыву связи на несколько секунд.

И если результат гарантирован, то логично даже такой кратковременный обрыв производить в часы наименьшей загрузки.

Но это, безусловно, должен решать оператор исходя из своих реалий. Нам, увы, такой возможности не предоставили.

По итогу мы, конечно, научим техподдержку правильно реагировать на непонятные письма, а РКН – выполнять договорные обязательства.

Но прошлого не вернуть, и эти 2 ночи были не самые удачные в плане оказания услуг. Приносим извинения.

Стратегической мерой по повышению надёжности нашей сети является строительство собственного ЦОД (будет запущен в эксплуатацию в следующем году).