SlideShare a Scribd company logo
Путь мониторинга
модульность, гибкость, devops
Ghbdtn!
• Всеволод Поляков
• Lead DevOps Grammarly
• поддержка около 30
сервисов на Java, erlang,
python, lisp, ruby, js силами 4-
х админов
Путь мониторинга: модульность, гибкость, devops / Всеволод Поляков (Grammarly)
Чего мы хотим?
• Получать сообщения о проблемах
• Не получать сообщения когда проблем нет
• Помощь в поиске проблемы
• Предупреждение о возможных проблемах
• Не пропускать проблемы
DevOps
• Разработчики знают сервис лучше чем опсы
• Нет батлнека в опс команде
• Повышается скорость работы
Почему старое плохо?
• Свои сложные концепции
• Сложно для девелоперов
• Содержит в себе все что может пригодиться, а
может и не пригодиться
• Две системы управления конфигурацией
Метрики
• env.role.node_name.metric
• Приложение пишет метрики в statsd
• Система пишет метрики в statsd
• Агрегируем и чекаем сами, без приложения
Пожелания
• Простота добавления метрик и проверок по ним
• Должно скейлиться и не падать
• Хранить информацию по метрикам как можно
дольше
• Хранить много метрик
• Разработчики мониторят свои сервисы без
участия опсов
• Логи: 300 Gb/день
• Метрики: 120 000, обновляются раз в 10 секунд
• 300 проверок состояний
• Разработчики всех сервисов отвечают за
мониторинг
• Занятость команды админов в мониторинге
минимальна
Sensu
influx
• Маленькая база на go ~ 20mb RAM
• Локальная база на каждом сервере
• Хранилище метрик на два дня
Сбор метрик в ноде
Глобальное хранилище
скрин графаны
Логи
• Общий формат для всех сервисов: json
• Текстовый файл с logrotate
Мониторинг фронтенда
• Логи → nginx → logstash
• Метрики → nginx → агрегатор → statsd
• Плагин для логстеша, разворачивает сорсмап
Слайд по всяким штукам
• 500-е, уникальные юзеры
• разработчики сами все мониторят и просыпаются
ночью
• сравнение времени обработки чего-то в
фронтенде и на бекенде
• сквозной userID по всем сервисам
Над чем мы думаем
• Мониторинг безымянных серверов
• Хранение метрик приложений в mesoskubernetis
окружениях

More Related Content

PPTX
Путь мониторинга, DevOps club в Grammarly
PDF
Rootconf-2015 Тестируем инфраструктуру как код
PPTX
PDF
Monitoring base, golang meetup, kyiv
PPTX
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
PPTX
Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITS...
PPTX
Chef по обе стороны Bamboo / Артем Семенов (Align Technology)
PPTX
Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...
Путь мониторинга, DevOps club в Grammarly
Rootconf-2015 Тестируем инфраструктуру как код
Monitoring base, golang meetup, kyiv
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITS...
Chef по обе стороны Bamboo / Артем Семенов (Align Technology)
Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...

What's hot (20)

PPTX
LuaJIT как основа для сервера приложений - проблемы и решения / Игорь Эрлих (...
PDF
Как не положить тысячи серверов с помощью системы централизованного управлени...
PDF
Использование haproxy/iptables+etcd+confd для автоматического service discove...
PDF
Эволюция процесса деплоя в проекте — Денис Яковлев, 2ГИС
PDF
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
PDF
Эволюция процесса деплоя в проекте / Денис Яковлев (2ГИС)
PDF
Платформа для поставки счастья в команду QA
PDF
PDF
Zabbix и правильное обнаружение проблем - Алексей Владышев @ RootConf 2015
PDF
Continuous Delivery, или волшебная кнопка для релизов по запросу, Денис Яковл...
PPTX
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)
PDF
Всему своё время / Роман Ивлиев (Банки.ру)
PDF
Как devops исчерпывает себя, и что будет дальше / Кирилл Вечера (Jetware)
PDF
Порядок для скорости. Система структурирования фронтендовой части веб-приложе...
PPTX
Хорошо поддерживаемое в продакшне приложение / Николай Сивко (okmeter.io)
PPTX
Быстрый старт iOS приложения на примере iOS Почты Mail.Ru / Николай Морев (Ma...
PDF
Тестируем мобильное приложение в суровых реалиях Интернета
PPTX
Переезжаем с Zabbix на Prometheus / Василий Озеров (fevlake)
PPTX
Организация надежного резервного копирования веб-проекта. Практика и подводны...
PDF
SECON'2016. Панин Сергей, Лебедев Андрей, Храмушин Дмитрий, IT-инфраструктура...
LuaJIT как основа для сервера приложений - проблемы и решения / Игорь Эрлих (...
Как не положить тысячи серверов с помощью системы централизованного управлени...
Использование haproxy/iptables+etcd+confd для автоматического service discove...
Эволюция процесса деплоя в проекте — Денис Яковлев, 2ГИС
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
Эволюция процесса деплоя в проекте / Денис Яковлев (2ГИС)
Платформа для поставки счастья в команду QA
Zabbix и правильное обнаружение проблем - Алексей Владышев @ RootConf 2015
Continuous Delivery, или волшебная кнопка для релизов по запросу, Денис Яковл...
Миф об очень сложном Highload / Александр Горный (Mail.Ru Group)
Всему своё время / Роман Ивлиев (Банки.ру)
Как devops исчерпывает себя, и что будет дальше / Кирилл Вечера (Jetware)
Порядок для скорости. Система структурирования фронтендовой части веб-приложе...
Хорошо поддерживаемое в продакшне приложение / Николай Сивко (okmeter.io)
Быстрый старт iOS приложения на примере iOS Почты Mail.Ru / Николай Морев (Ma...
Тестируем мобильное приложение в суровых реалиях Интернета
Переезжаем с Zabbix на Prometheus / Василий Озеров (fevlake)
Организация надежного резервного копирования веб-проекта. Практика и подводны...
SECON'2016. Панин Сергей, Лебедев Андрей, Храмушин Дмитрий, IT-инфраструктура...
Ad

Viewers also liked (19)

PDF
Event-based self-healing monitoring / Кирилл Сотников (Cognician)
PPT
Casos de Exito Centurion
PPTX
DevOps Skills DevConf 2016
PPTX
Практика DevOps в крупных организациях
PPTX
DevOps - очередное красивое слово или следующая ступень эволюции?
PDF
Масштабируемый DevOps
PDF
«DevOps — это о передаче смысла» — Александр Титов, Express 42
PDF
2015 02-07 01 Игорь Родионов. DevOps
PDF
Тошнит от колец великая битва систем мониторинга, часть I, Александр Чистяков...
PPTX
верещак. построение культуры Dev ops. v0.5 copy
PDF
Карго культ инструментов в DevOps
PDF
Prometheus мониторинг микросервисных приложений / Виталий Левченко
PDF
Moscow Atlassian Meetup. «Как мы растили-растили, и наконец вырастили бамбуко...
PDF
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)
PPTX
Как проекты приходят к DevOps?
PPTX
пылаева дана, шоколад лего-скрам
PDF
Zabbix в сервисной компании  ОНЛАНТА - Zabbix Meetup Moscow
PDF
Zabbix в Badoo или о чем не пишут в мануале, Илья Аблеев (Badoo)
PDF
Лучшие практики Continuous Delivery с Docker / Дмитрий Столяров (Флант)
Event-based self-healing monitoring / Кирилл Сотников (Cognician)
Casos de Exito Centurion
DevOps Skills DevConf 2016
Практика DevOps в крупных организациях
DevOps - очередное красивое слово или следующая ступень эволюции?
Масштабируемый DevOps
«DevOps — это о передаче смысла» — Александр Титов, Express 42
2015 02-07 01 Игорь Родионов. DevOps
Тошнит от колец великая битва систем мониторинга, часть I, Александр Чистяков...
верещак. построение культуры Dev ops. v0.5 copy
Карго культ инструментов в DevOps
Prometheus мониторинг микросервисных приложений / Виталий Левченко
Moscow Atlassian Meetup. «Как мы растили-растили, и наконец вырастили бамбуко...
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)
Как проекты приходят к DevOps?
пылаева дана, шоколад лего-скрам
Zabbix в сервисной компании  ОНЛАНТА - Zabbix Meetup Moscow
Zabbix в Badoo или о чем не пишут в мануале, Илья Аблеев (Badoo)
Лучшие практики Continuous Delivery с Docker / Дмитрий Столяров (Флант)
Ad

More from Ontico (20)

PDF
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
PDF
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
PPTX
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
PDF
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
PDF
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
PDF
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PDF
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
PDF
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
PPTX
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
PPTX
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
PDF
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
PPTX
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
PPTX
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
PDF
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
PPT
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
PPTX
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
PPTX
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
PPTX
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
PPTX
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
PDF
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...

Путь мониторинга: модульность, гибкость, devops / Всеволод Поляков (Grammarly)

  • 2. Ghbdtn! • Всеволод Поляков • Lead DevOps Grammarly • поддержка около 30 сервисов на Java, erlang, python, lisp, ruby, js силами 4- х админов
  • 4. Чего мы хотим? • Получать сообщения о проблемах • Не получать сообщения когда проблем нет • Помощь в поиске проблемы • Предупреждение о возможных проблемах • Не пропускать проблемы
  • 5. DevOps • Разработчики знают сервис лучше чем опсы • Нет батлнека в опс команде • Повышается скорость работы
  • 6. Почему старое плохо? • Свои сложные концепции • Сложно для девелоперов • Содержит в себе все что может пригодиться, а может и не пригодиться • Две системы управления конфигурацией
  • 7. Метрики • env.role.node_name.metric • Приложение пишет метрики в statsd • Система пишет метрики в statsd • Агрегируем и чекаем сами, без приложения
  • 8. Пожелания • Простота добавления метрик и проверок по ним • Должно скейлиться и не падать • Хранить информацию по метрикам как можно дольше • Хранить много метрик • Разработчики мониторят свои сервисы без участия опсов
  • 9. • Логи: 300 Gb/день • Метрики: 120 000, обновляются раз в 10 секунд • 300 проверок состояний • Разработчики всех сервисов отвечают за мониторинг • Занятость команды админов в мониторинге минимальна
  • 10. Sensu
  • 11. influx • Маленькая база на go ~ 20mb RAM • Локальная база на каждом сервере • Хранилище метрик на два дня
  • 15. Логи • Общий формат для всех сервисов: json • Текстовый файл с logrotate
  • 16. Мониторинг фронтенда • Логи → nginx → logstash • Метрики → nginx → агрегатор → statsd • Плагин для логстеша, разворачивает сорсмап
  • 17. Слайд по всяким штукам • 500-е, уникальные юзеры • разработчики сами все мониторят и просыпаются ночью • сравнение времени обработки чего-то в фронтенде и на бекенде • сквозной userID по всем сервисам
  • 18. Над чем мы думаем • Мониторинг безымянных серверов • Хранение метрик приложений в mesoskubernetis окружениях