Утечка BGP-маршрута в Ростелекоме привела к нарушению связности крупнейших сетей

В результате ошибочного BGP-анонса 8870 чужих сетевых префиксов оказались перенаправлены через сеть Ростелекома, что привело к кратковременному коллапсу маршрутизации, нарушению связности сетей и проблемам с доступом к некоторым сервисам по всему миру. Проблема охватила более 200 автономных систем, принадлежащих крупным интернет-компаниям и сетям доставки контента, включая Akamai, Cloudflare, Digital Ocean, Amazon AWS, Hetzner, Level3, Facebook, Alibaba и Linode.

Ошибочный анонс был произведён Ростелекомом (AS12389) 1 апреля в 22:28 (MSK), затем был подхвачен провайдером Rascom (AS20764) и далее по цепочке распространился в Cogent (AS174) Level3 (AS3356), поле чего охватил почти всех интернет-провайдеров первого уровня (Tier-1). Сервисы мониторинга BGP оперативно уведомили Ростелеком об ошибке, поэтому инцидент продолжался около 10 минут (по другим данным последствия наблюдались около часа).

Это не первый инцидент, связанный с ошибкой на стороне Ростелекома. В 2017 году в течение 5-7 минут через Ростелеком были перенаправлены сети крупнейших финансовых сервисов, включая Visa, MasterCard. Судя по всему, в обоих инцидентах источником проблемы послужили работы, связанные с управлением трафиком, например, утечка маршрутов могла возникнуть при организации внутреннего мониторинга или зеркалирования проходящего через Ростелеком трафика определённых сервисов и CDN. Например, несколько лет назад предпринятая в Пакистане попытка заворачивания подсетей YouTube на null-интерфейс привела к появлению этих подсетей в BGP анонсах и стеканию всего трафика YouTube в Пакистан.

Интересно, что за день до этого провайдером «Новая Реальность» из г. Шумерля (AS50048) через Транстелеком было анонсировано 2658 префиксов, затрагивающих Orange, Akamai, Ростелеком и сети ещё более 300 компаний. Утечка маршрутов привела к возникновению нескольких волн перенаправлений трафика, продолжительностью несколько минут. На пике проблема охватывала до 13.5 млн IP-адресов. Заметного глобального сбоя удалось избежать благодаря применению в Транстелекоме органичений маршрутов для каждого клиента.

Подобные инциденты, вызванные ошибками персонала, возникают в глобальной Сети регулярно и будут продолжаться, пока не будут внедрены методы авторизации BGP-анонсов на основе RPKI (BGP Origin Validation, разрешает приём анонсов только от владельцев сети). До повсеместного внедрения авторизации любой оператор может анонсировать подсеть с фиктивными сведениями о длине маршрута и инициировать транзит через себя части трафика от других систем, не применяющих фильтрацию анонсов.

В качестве решения также можно применять фильтрацию на основе реестра IRR (Internet Routing Registry), который определяет автономные системы через которые допустима маршрутизация заданных префиксов. При взаимодействии с небольшими операторами для снижения последствий ошибок персонала можно ограничить максимально допустимое число принимаемых префиксов для сеансов EBGP (настройка maximum-prefix).

Источник: http://www.opennet.ru/opennews/art.shtml?num=52680