Заказчиком были озвучены следующие проблемы:
- Существующая служба технической поддержки ИТ инфраструктуры работает в режиме «после аварии», то есть исправляя аварийные ситуации. Как следствие – вынужденные простои большого количества сотрудников на время недоступности сервиса, высокие затраты на обеспечение требуемого SLA, сокрытие фактов предаварийного состояния критически важных объектов.
Цели проекта:
· Контроль и прозрачность соблюдения SLA
· Сокращение затрат на поддержку
· Увеличение среднего показателя доступности оборудования и сервисов до 95% суммарного времени за счет своевременного предсказания аварийных ситуаций.
Задачи проекта:
· Непрерывный мониторинг работоспособности всех объектов IT инфраструктуры
· Сбор ретроспективных данных параметров оборудования в аналитическом хранилище
· Анализ данных и выявление связей факторов и событий, создающих аварийные ситуации
· Настройка уведомлений службы техподдержки о возникновении нежелательного тренда, вызывающего аварию (настройка триггеров)
· Сбор аналитического отчета за период по наиболее критичным ситуациям, корректировка триггеров, подготовка итоговых отчетов на вышестоящий уровень.
Результаты проекта:
![✅](https://web.archive.org/web/20230131091946im_/https://static.xx.fbcdn.net/images/emoji.php/v9/tb4/2/16/2705.png)
В течение первых двух месяцев работы системы было произведено накопление данных параметров оборудования для исследования. Кроме этого, в аналитическое хранилище были загружены ретроспективные данные за год.
![✅](https://web.archive.org/web/20230131091946im_/https://static.xx.fbcdn.net/images/emoji.php/v9/tb4/2/16/2705.png)
По итогам были сформированы триггеры предупреждений трех уровней критичности. Предупреждения критичного уровня были настроены на немедленную отправку ответственным сотрудникам службы поддержки.
![✅](https://web.archive.org/web/20230131091946im_/https://static.xx.fbcdn.net/images/emoji.php/v9/tb4/2/16/2705.png)
Это позволило службе поддержки перейти на качественно новый уровень – работать не устраняя аварии, а предупреждая их.
![✅](https://web.archive.org/web/20230131091946im_/https://static.xx.fbcdn.net/images/emoji.php/v9/tb4/2/16/2705.png)
За последующие два месяца количество критических событий сократилось в 4 раза, за следующие два месяца – еще в 2 раза. Количество непредвиденных аварий оборудования снизилось до уровня, соответствующего SLA: 95% среднего времени работоспособности.
![✅](https://web.archive.org/web/20230131091946im_/https://static.xx.fbcdn.net/images/emoji.php/v9/tb4/2/16/2705.png)
Затраты на техподдержку сократились в 4 раза!
Используемые решения и технологии:
· Модуль мониторинга: Zabbix, Java, Glassfish, Postgresql, Grafana.
· Модуль аналитики: QlikSense, QlikNPrinting.
Продолжаем совместно с заказчиком успешно развивать еще один проект на базе решения - NMonitor Анализ мониторинга оборудования, сети передачи данных и сервисов