Мониторинг параметров качества VPN end-to-end

РТКОММ в интересах своих заказчиков реализует комплекс мероприятий по обеспечению их информацией о соблюдении параметров качества передачи трафика в рамках услуг VPN 3-го и 2-го уровней, а также по информированию о превышении пороговых значений параметров качества.

Для реализации мониторинга используется программный агент, встроенный в операционную систему Cisco IOS. Для обработки результатов и формирования отчетов РТКОММ применяет сертифицированную систему мониторинга «ПУЛЬС».


Подробнее о системе «Пульс»


Система мониторинга «ПУЛЬС» (далее СМ «ПУЛЬС») разработана в ОАО «РТКомм.РУ» с целью обеспечения мониторинга качества предоставляемых услуг виртуальных частных сетей (ВЧС) на базе сети IP/MPLS и предоставления Заказчикам средств контроля. СМ «ПУЛЬС» обеспечивает мониторинг доступности оборудования и параметров качества состояния сети.

В работе СМ «ПУЛЬС» используется технология IP SLA, обеспечивающей оценку количественных показателей качества передачи трафика между двумя сетевыми устройствами. При этом используется программный агент, встроенный в операционную систему Cisco IOS. СМ «ПУЛЬС» отслеживает такие параметры как

  • доступность, загрузка интерфейсов, загрузка процессора, загрузка памяти, задержка, вариация задержки (джиттер), процент потерянных пакетов – для оборудования Cisco
  • доступность, загрузка интерфейсов, загрузка процессора, загрузка памяти — для оборудования Cisco и Juniper.

Использование СМ «ПУЛЬС» обеспечивает непрерывный контроль параметров качества предоставления виртуальных частных сетей (VPN), что позволяет постоянно поддерживать высокий уровень обслуживания за счет своевременного обнаружения превышения пороговых значений параметров передачи трафика и предотвращения возможных проблем еще на стадии их возникновения.

СМ «ПУЛЬС» имеет сертификат № ОС–3–СУ–0225 от 29.09.2010 г. соответствия «Правилам применения оборудования автоматизированных систем управления и мониторинга сетей электросвязи. Часть III. Правила применения оборудования автоматизированных систем управления и мониторинга средств связи, выполняющих функции систем коммутации и маршрутизации пакетов информации», утв. приказом Министерства связи и массовых коммуникаций Российской Федерации от 12.01.2009 г., № 2. Зарегистрирован в Минюсте России 2 февраля 2009 г., регистрационный № 13240».

СМ «ПУЛЬС» состоит из нескольких функциональных блоков:

  1. Система сбора статистики, первичной обработки и сигнализации (далее Станция мониторинга);
  2. Интерактивная контрольная панель центра управления сети (далее Пульт);
  3. Система контроля и управления проектом (СКУП).

1. Станция мониторинга

Станция мониторинга отвечает за сбор метрик, прием и предварительную обработку событий, оповещение служб эксплуатации в случае выхода какого либо из контролируемых параметров за установленные предельные значения. Имеет возможности ассоциации событий с конкретным объектом, трансляции события с одного объекта на другой и механизмы базовой корреляции событий.

Станция мониторинга обеспечивает мониторинг доступности и сбор SNMP статистики для любой ВЧС Заказчика. В частности обеспечивается:

  • сбор статистики с портов коммутаторов, маршрутизаторов;
  • сбор и предоставление загрузки порта согласно профилю (cbqos);
  • автоматизированное построение конфигурации для большинства устройств;
  • поддержка расписания запланированного прекращения сервиса “planned outage”. В эти моменты устройства не опрашиваются и события недоступности не создаются.

Для устройств Сisco собирается большинство параметров содержащихся в базе CISCO-RTTMON-MIB. При конфигурировании пределов” (thresholds) функционирует гибкая фильтрация по “admin tag”.

Станция мониторинга обеспечивает обработку и фильтрацию событий поступающих с любых устройств, поддерживающих SNMP traps, syslog. К ним относится большинство типовых событий для устройств Cisco, Juniper и т.д. Событие “привязывается” к конкретному объекту. Возможна фильтрация как по oid (SNMP), так и с помощью регулярных выражений (regex) для syslog.

Станция мониторинга позволяет осуществлять гибкую настройку «пределов измерений» (thresholds), которые могут устанавливаться на любые данные, собранные опросом SNMP:

  • пределы (thresholds) могут быть относительные, абсолютные и с применением математических выражений (expression based);
  • для всех типов возможна гибкая фильтрация с помощью регулярных выражений (regex);
  • возможно создание собственных уникальных типов событий, что позволяет гибко управлять уровнями и эскалацией.

Станция мониторинга имеет развитую систему уведомлений пользователей о происходящих событиях. Основным способом уведомлений является отправка e-mail-сообщений пользователю, но существует и ряд других методов, например, отправка POST/GET-запросов на веб-сервер, отправка уведомлений по протоколу XMPP (jabber), пересылка уведомлений посредством запуска внешней программы (подобным образом можно отправить SMS-сообщение с помощью GSM-модема) и уведомления с помощью формирования SNMP traps. Существует возможность гибкой настройки извещений (notices: email, sms, sound) при обработке событий (traps, syslog) и срабатывании thresholds:

  • извещения могут быть с требованием подтверждения и с автоматическим подтверждением;
  • для каждого события и для группы событий могут быть созданы собственные типы извещений с различным приоритетом;
  • извещения могут быть адресованы как сотруднику, так и группе сотрудников;
  • существует функция расписания (сотруднику не отправляется извещение, если в данный момент он не в смене);
  • имеется развитая система эскалации. Если оператор не подтвердил получение извещения, приоритет может быть повышен и извещение будет эскалировано на назначенную группу или сотрудника.

Основные компоненты станции мониторинга

  • Poller — опрос сервисов на объекте ICMP (доступность), HTTP, FTP и т.д.;
  • Collectd — сбор метрик с устройств доступных по SNMP;
  • Threshd — контроль пороговых значений для собираемых метрик;
  • Eventd — сбор аварийных сообщений с устройств (SNMP traps);
  • Syslogd — сбор сообщений с устройств по протоколу syslog;
  • Notifd — механизм оповещения о событиях, по различным протоколам smtp, sms;
  • Discovery/capsd — механизм автоматического нахождения устройств сети и описания их конфигурации.

Оборудование Станции мониторинга

Физический сервер(ы) — сервер под управлением ОС Solaris, сетевые интерфейсы которого подключены к портам коммутатора РТКОММ в режиме trunk. На сервере сконфигурированы виртуальные машины (VM), в которые экспортированы виртуальные сетевые интерфейсы (vnic), принадлежащие определенному vlan. Такое разделение необходимо, так как внутри ВЧС Заказчиков встречается пересекающаяся адресация. В каждой VM функционирует отдельный экземпляр станции мониторинга.

Система хранения — дисковый массив, включенный в Storage Area Network (SAN) РТКОММ, доступ к которому имеют как экземпляры станции мониторинга, так и сервер приложений, на котором функционируют порталы (web frontend). На массиве расположен архив SNMP статистики в виде rrd (jrd) файлов.

2. Интерактивная контрольная панель Пульт

Пульт — инструмент визуализации состояния контролируемых объектов. Позволяет осуществлять контроль неподтвержденных или необработанных оператором событий. Содержит механизм принятия в работу, закрепления за оператором произошедшего и квалифицированного как аварийное событие. Имеет средства быстрого перехода в карточку объекта, из которой возможны:

  • контроль произошедших ранее событий;
  • первичная диагностика;
  • открытие Trouble Ticket (TT), привязанного к данному объекту;
  • создание календаря запланированных работ для исключения ложных событий;
  • создание необходимых комментариев по данному объекту для сотрудников NOC.

Пульт предоставляет следующие возможности:

  • отображать состояние объектов, превышения контрольных значений, аварийных событий и т.д. с использованием web-технологий, не требующих установки специального ПО (достаточно обычного браузера);
  • группировать объекты по заранее описанным правилам. Группировка может задаваться иерархически (в виде дерева);
  • регистрировать комментарии по объектам;
  • подтверждать нежелательное событие при приеме его в работу;
  • открывать запланированный отказ сервиса или отключать уведомления и проверку контрольных пределов.

Одним из ключевых компонентов Пульта является подсистема Минидеск (MiniDesk). Минидеск - это область пульта на которую выводятся данные по объекту, основные события для обработки, требуемые графики, а также кнопки вызова основных диагностических инструментов. Минидеск имеет механизмы открытия ТТ с привязкой к объекту, а также получения требуемой информации по ним. Ссылка на Минидеск может быть передана в письме, sms и других видах оповещений.

3. Система контроля и управления проектом (СКУП)

СКУП является источником данных по сетевой и административной части проекта. Объекты для контроля создаются в Станции мониторинга автоматически согласно адресному плану ВЧС. В случае изменений в СКУП они синхронизируются автоматически. В свою очередь Станция мониторинга предоставляет в СКУП данные о результатах мониторинга, перерывах сервиса и прочих событиях. Синхронизация в обоих направления работает непрерывно. СКУП предоставляет возможность всем заинтересованным своевременно получать информацию о состоянии проекта, возникающих проблемах и их решении.

СКУП отвечает за описание активов проекта (asset info), таких как:

  • оборудование Заказчика, использованные ресурсы РТКОММ и их конфигурация;
  • контакты Заказчика, РТКОММ, субподрядчика и т.д.;
  • параметры контракта;
  • топология сети Заказчика;
  • комментарии менеджера, Заказчика, РТКОММ, субподрядчика и т.д.
  • дополнительные параметры специфичные для проекта;
  • календарь запланированных событий отсутствия сервиса;
  • хранение ресурсов (результатов измерений) необходимых для построения исторических отчетов.

Центральная база данных, содержит информацию о проекте, данные об активах (asset info), топологию ВЧС, данные о последней миле и операторе. Формирует конфигурацию объектов в ВЧC для каждого экземпляра станции мониторинга. Наполнение портала происходит по мере согласования проекта на этапе заключения контракта посредством выгрузки универсального шаблона в формат Excel. После его заполнения и подписания контракта данные загружаются в портал через универсальный механизм обмена. Дальнейшая работа по проекту осуществляется через интерфейс портала.

Интеграция

Из СКУП в Станцию мониторинга автоматически реплицируются данные об объектах (asset info).

Из Станции мониторинга в СКУП принимается информация о текущем состоянии объектов и событиях.

Имеется возможность заполнения информации об активах проекта по ссылкам на заказы из автоматизированной системы управления заказами (OMS).

Основные функции СКУП

  • предоставление менеджеру, Заказчику и ЦУС РТКОММ данных о текущем состоянии проекта и интерфейса для их изменения;
  • универсальный экспорт/импорт в форматы CSV, Excel, параметров требующих массовых изменений;
  • репликация asset info в соответствующий экземпляр станции мониторинга;
  • получение данных о состоянии контролируемых объектов и их параметрах;
  • ограниченное управление устройствами, участвующими в контроле параметров качества (SLA), создание проб;
  • отображение и учет ТТ, соответствующего данному объекту в случае наличия такового;
  • ведение календаря плановых событий отсутствия сервиса, со стороны Заказчика и РТКОММ.

Web-интерфейс СКУП

Web-интерфейс СКУП предоставляет доступ Заказчику к информации о своей ВЧС: активы, конфигурация, адресный план, топология и т.д. Также предоставляется доступ к результатам мониторинга доступности и параметров качества, привязанным к объектам. Имеется возможность генерации различных настраиваемых отчетов и получение детализации по загрузке и параметрам качества (IP SLA).

Блок отчетности

Блок отчетности предназначен для предоставления отчетов по текущему состоянию и историческим срезам ВЧС Заказчика как на участке опорной сети, так и на “последней миле”. Данный компонент имеет доступ к необработанной статистике соответствующего экземпляра Станции мониторинга, но имеет возможность накладывать сформированную бизнес логику, для агрегирования событий, математической обработки метрик, вычисления корреляции и т.д. Данный блок включает в себя три механизма отчетов: фиксированный, интерактивный и графическое отображение состояния.

Фиксированные отчеты

Такими видами отчетов являются наиболее часто используемые виды отчетов. Они имеют заранее согласованный формат и следующие возможности:

  • устанавливать отчетные периоды: сутки, неделя, месяц, квартал, год;
  • формировать отчеты в наиболее распространенных форматах: HTML, Excel, PDF;
  • отправлять отчеты по расписанию (как менеджеру РТКОММ, так и Заказчику).

Интерактивные отчеты

Данные виды отчетов позволяют пользователю самостоятельно формировать запрос по всем необходимым из имеющихся данных по заданному объекту или группе объектов, “подсвечивать” определенные комбинации и группировать вывод по требуемым правилам.

Графическое отображение

Позволяет в удобном виде контролировать изменение состояния ВЧС и ее объектов за указанный период (по умолчанию 24 часа). Возможен переход в детализированную статистику выбранного объекта. Объекты могут быть сгруппированы по Федеральным округам, Регионам, Городам или по дополнительным специфичным признакам.



Услуга имеет 3 уровня предоставления заказчику:

  • Уровень 1. РТКОММ обеспечивает проактивный мониторинг параметров качества, в том числе открытие ТТ без участия заказчика. Заказчик информируется по электронной почте о наступлении события, приведшего к открытию ТТ, о ходе отработки ТТ и о его закрытии. Данный уровень используется при отсутствии подписанного Соглашения об уровне обслуживания (SLA).
  • Уровень 2. В дополнение к сервису, обеспечиваемому на уровне 1, заказчику предоставляются ежемесячные отчеты о соблюдении параметров качества, которые являются основанием для получения скидки к ежемесячному платежу в соответствии с SLA.
  • Уровень 3. В дополнение к сервису, обеспечиваемому на уровне 2, заказчику предоставляется возможность круглосуточного получения информации о состоянии контролируемых параметров. РТКОММ организует точку контроля параметров в виде панели мониторинга на web-странице с авторизованным доступом. По каждому контролируемому параметру формируются отчеты по контрольным интервалам времени, отображаемые на web-странице заказчика в графическом и/или табличном виде.