SlideShare a Scribd company logo
Артем Маринов "Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP "
Что такое Facetz DMP
• Data Management Platform • 600 млн пользователей
• Data Management Platform • 600 млн пользователей
5.5 млрд / сутки
Что такое Facetz DMP
• Прямые установки пикселя
• Поток данных от партнеров
• Оффлайн выгрузки DMP
Механизмы получения данных
Ключевые показатели
• Горизонтальная масштабируемость
• Оценка объема аудитории
• Удобство мониторинга и разработки
• Хорошая скорость реакции на события
Как было раньше
Как было раньше
Loader
Как было раньше
Loader
Analytic Engine
statistics
Partners
Ключевые показатели
• Горизонтальная масштабируемость
• Оценка объема аудитории
• Удобство мониторинга и разработки
• Хорошая скорость реакции на события
Ключевые показатели
• Горизонтальная масштабируемость
• Оценка объема аудитории
• Удобство мониторинга и разработки
• Хорошая скорость реакции на события
Ключевые показатели
• Горизонтальная масштабируемость
• Оценка объема аудитории
• Удобство мониторинга и разработки
• Хорошая скорость реакции на события
Чего мы хотим?
• Писать данные в HBase сразу
• Реагировать на события мгновенно
• Удобство мониторинга и разработки
Начинаем сегментировать сразу
• готовимся к random read
• смена workload
• максимальная плотность
хранения
Loader
bulk_load
Начинаем сегментировать сразу
• готовимся к random read
• смена workload
• максимальная плотность
хранения
• увеличиваем нагрузку
Loader
Segmentator
trigger
bulk_load
Начинаем сегментировать сразу
Loader
Segmentator
trigger
bulk_load
/ GOOGLEPartners
• готовимся к random read
• смена workload
• максимальная плотность
хранения
• увеличиваем нагрузку
Kafka — прекрасный инструмент
• Topic — набор partition
• Partition — файл(ы)
partition 1
partition 2
partition N
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
• Topic — набор partition
• Partition — файл(ы)
Kafka — прекрасный инструмент
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
Group AA: 7
A: 5
• Topic — набор partition
• Partition — файл(ы)
Kafka — прекрасный инструмент
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
Group A
Group B
A: 7
A: 5
• Topic — набор partition
• Partition — файл(ы)
B: 3
B: 8
Kafka — прекрасный инструмент
• Producers — пишут в конец
• Consumer Group — независимы
partition 1
partition 2
partition N
Producers
Consumer A
• Topic — набор partition
• Partition — файл(ы)
A: 7
A: 5 B: 3
B: 8
Group A
Consumer BGroup B
Kafka — прекрасный инструмент
Пишем данные в реальном времени
• подготовка к random write
Loader
Пишем данные в реальном времени
• подготовка к random write
• все пошло не так
• самомасштабирование
Stream-loaderLoader
Боты — зло
Планы
• Утилизация ресурсов hadoop кластера
• Точные средства хранения статистики в потоке
• Различные оптимизации по CPU
Facetz.DCA
Спасибо!
Вопросы?
Ответы?
Маринов Артем
a.marinov@datacentric.ru

More Related Content

PDF
Вадим Мадисон "Опыт разработки через микросервисы"
PDF
Сергей Аверин "Распространенные ошибки применения баз данных"
PDF
Сегментируем 600 млн. пользователей в режиме реального времени каждый день. H...
PDF
Сравнение решений по балансировке высоконагруженных систем / Евгений Пивень (...
PPTX
Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITS...
PPTX
Дизайн REST API для высокопроизводительных систем / Александр Лебедев (Новые ...
PDF
Антон Галицын
PDF
Как devops исчерпывает себя, и что будет дальше / Кирилл Вечера (Jetware)
Вадим Мадисон "Опыт разработки через микросервисы"
Сергей Аверин "Распространенные ошибки применения баз данных"
Сегментируем 600 млн. пользователей в режиме реального времени каждый день. H...
Сравнение решений по балансировке высоконагруженных систем / Евгений Пивень (...
Преждевременная оптимизация архитектуры / Евгений Потапов, Антон Баранов (ITS...
Дизайн REST API для высокопроизводительных систем / Александр Лебедев (Новые ...
Антон Галицын
Как devops исчерпывает себя, и что будет дальше / Кирилл Вечера (Jetware)

What's hot (20)

PPTX
Мастер-класс "Микросервисы: удобно, надежно, серебрянопульно" / Евгений Павло...
PPTX
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
PPTX
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
PDF
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
PPTX
smart balancing with nginx+lua / Андрей Кононов (IPONWEB)
PPTX
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)
PDF
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
PDF
Балансировка нагрузки и отказоустойчивость в Одноклассниках
PPTX
Как SRE следит за стабильностью и скоростью HeadHunter / Антон Иванов (HeadHu...
PDF
РИФ 2016, Tarantool – кейсы использования
PDF
Архитектура HAWQ / Алексей Грищенко (Pivotal)
PPTX
Денис Иванов
PPTX
Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"
PPTX
Опыт построения СХД на базе Windows Server для использования в публичном обла...
PDF
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
PDF
Эволюция процесса деплоя в проекте / Денис Яковлев (2ГИС)
PDF
Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)
PPTX
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...
PPTX
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
PPTX
Организация надежного резервного копирования веб-проекта. Практика и подводны...
Мастер-класс "Микросервисы: удобно, надежно, серебрянопульно" / Евгений Павло...
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
smart balancing with nginx+lua / Андрей Кононов (IPONWEB)
MySQL® и MongoDB® - когда что лучше использовать? / Петр Зайцев (Percona)
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Балансировка нагрузки и отказоустойчивость в Одноклассниках
Как SRE следит за стабильностью и скоростью HeadHunter / Антон Иванов (HeadHu...
РИФ 2016, Tarantool – кейсы использования
Архитектура HAWQ / Алексей Грищенко (Pivotal)
Денис Иванов
Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"
Опыт построения СХД на базе Windows Server для использования в публичном обла...
Инфраструктура распределенных приложений на nodejs / Станислав Гуменюк (Rambl...
Эволюция процесса деплоя в проекте / Денис Яковлев (2ГИС)
Android Cloud... точнее Cloud из Android / Охрименко Алексей (Acronis)
Настройка и оптимизация высоконагруженных J2EE веб-приложений / Шамим Ахмед (...
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Организация надежного резервного копирования веб-проекта. Практика и подводны...
Ad

Viewers also liked (17)

PPTX
Сергей Сверчков "Want to build a secure private cloud for IoT with high avail...
PPTX
«Практика построения высокодоступного решения на базе Cloud Foundry Paas»
PDF
Енергетичний аудит
PDF
Николай Сивко "Хорошо поддерживаемое в продакшне приложение"
PDF
Алексей Лесовский "Тюнинг Linux для баз данных. "
PDF
Артем Гавриченков "The Dark Side of Things: Distributed Denial of Service Att...
PDF
Левон Авакян "Архитектура мета игры Wargaming. Глобальная карта 2.0"
PDF
Алексей Залесов-«Управление контейнерами в облаках»
PPTX
Александр Краковецкий "Разработка интеллектуальных ботов с помощью Microsoft ...
PDF
Артем Маринов "Сегментируем 600 млн. пользователей в режиме реального времени...
PDF
Дмитрий Хоревич "Cloud native security with UAA \ Как защитить микросервисы с...
PDF
Андрей Дроздов "Создание высокопроизводительных rest api на tarantool"
PDF
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»
PDF
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»
PDF
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»
PDF
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...
PDF
Александр Ломов-«Как перестать беспокоиться и начать использовать Cloud Foundry»
Сергей Сверчков "Want to build a secure private cloud for IoT with high avail...
«Практика построения высокодоступного решения на базе Cloud Foundry Paas»
Енергетичний аудит
Николай Сивко "Хорошо поддерживаемое в продакшне приложение"
Алексей Лесовский "Тюнинг Linux для баз данных. "
Артем Гавриченков "The Dark Side of Things: Distributed Denial of Service Att...
Левон Авакян "Архитектура мета игры Wargaming. Глобальная карта 2.0"
Алексей Залесов-«Управление контейнерами в облаках»
Александр Краковецкий "Разработка интеллектуальных ботов с помощью Microsoft ...
Артем Маринов "Сегментируем 600 млн. пользователей в режиме реального времени...
Дмитрий Хоревич "Cloud native security with UAA \ Как защитить микросервисы с...
Андрей Дроздов "Создание высокопроизводительных rest api на tarantool"
Юрий Насретдинов-«Сбор логов в «облаке» в Badoo»
Андрей Светлов-«Делаем своё решение для оптимальной загрузки кластера»
Максим Барышиков-«WoT: Geographically distributed cluster of clusters»
Левон Авакян-«Эволюция кланов в Wargaming. От веб страницы на танковом портал...
Александр Ломов-«Как перестать беспокоиться и начать использовать Cloud Foundry»
Ad

Similar to Артем Маринов "Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP " (20)

PPTX
доклад на вмк 15.10.2015
PDF
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
PPTX
Мониторинг веб приложений на PHP в режиме реального времени с помощью Pinba. ...
PDF
Цикл разработки и внедрения функционала в Мамбе (Михаил Буйлов)
PDF
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
PDF
Полмиллиона юзеров в онлайне без падений: оптимизация высоконагруженного se...
PPTX
Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...
PPTX
Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...
PPTX
Прогрессивный рендеринг и Catberry.js / Михаил Реенко (2GIS / Flamp)
PDF
Владимир Русинов "Яндекс.Диск. Полет нормальный"
PDF
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
PPTX
Errors Tracker
PPTX
Про тестирование миграций
PDF
WapStart: Как показывать 200 миллионов баннеров ежедневно и быть готовым пока...
PDF
Как показывать 200 миллионов баннеров ежедневно и быть готовым показать милли...
PPTX
анатомия баннерной системы
PPTX
Автоматизация нагрузочного тестирования в связке JMeter + TeamСity + Grafana ...
PPT
Новая почта Рамблера (Андрей Шетухин)
PDF
PDF
AmberData: Dmp for clients
доклад на вмк 15.10.2015
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
Мониторинг веб приложений на PHP в режиме реального времени с помощью Pinba. ...
Цикл разработки и внедрения функционала в Мамбе (Михаил Буйлов)
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
Полмиллиона юзеров в онлайне без падений: оптимизация высоконагруженного se...
Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...
Мониторинг в высоконагруженных (и не только) проектах: сравнительный анализ с...
Прогрессивный рендеринг и Catberry.js / Михаил Реенко (2GIS / Flamp)
Владимир Русинов "Яндекс.Диск. Полет нормальный"
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
Errors Tracker
Про тестирование миграций
WapStart: Как показывать 200 миллионов баннеров ежедневно и быть готовым пока...
Как показывать 200 миллионов баннеров ежедневно и быть готовым показать милли...
анатомия баннерной системы
Автоматизация нагрузочного тестирования в связке JMeter + TeamСity + Grafana ...
Новая почта Рамблера (Андрей Шетухин)
AmberData: Dmp for clients

More from Tanya Denisyuk (13)

PPTX
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
PPTX
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...
PPTX
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...
PDF
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»
PDF
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»
PPTX
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»
PDF
Антон Щербаков, Отказоустойчивость на примере aviasales — почему даже если на...
PDF
Александр Тоболь, Кадры решают все, или стриминг видео в Одноклассниках
PDF
Денис Баталов, Принципы построения высоконагруженных сайтов на платформе АWS
PDF
Кирилл Алешин, Ламбда Архитектура на практике
PDF
Михаил Табунов, Аналитическая платформа на несколько миллиардов событий в месяц
PDF
Alvaro Videla, Building a Distributed Data Ingestion System with RabbitMQ
PDF
Антон Тюрин, Евгений Сафронов, Инфраструктура под Cocaine
Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь з...
Михаил Серченя-«Построение отказоустойчивой масштабируемой среды для WEB и бе...
Дмитрий Лазаренко-«Живая миграция и отказоустойчивость контейнеров в гибридно...
Андрей Федоренчик- «Высоконагруженная система с аналитикой на InfoBright»
Роман Иманкулов-«Быстрые и масштабируемые приложения с Sync API»
Дмитрий Дурасов-«Технологии контейнеризации в Windows Server 2016»
Антон Щербаков, Отказоустойчивость на примере aviasales — почему даже если на...
Александр Тоболь, Кадры решают все, или стриминг видео в Одноклассниках
Денис Баталов, Принципы построения высоконагруженных сайтов на платформе АWS
Кирилл Алешин, Ламбда Архитектура на практике
Михаил Табунов, Аналитическая платформа на несколько миллиардов событий в месяц
Alvaro Videla, Building a Distributed Data Ingestion System with RabbitMQ
Антон Тюрин, Евгений Сафронов, Инфраструктура под Cocaine

Артем Маринов "Сегментируем 600 млн. пользователей в режиме реального времени каждый день. HBase/Kafka на службе DMP "