SlideShare a Scribd company logo
Александр Куликов
Применение потоковых
алгоритмов для составления
портрета аудитории
2
RTB
• Ход аукциона
• Терминология
3
Нагрузка на железо
4
• 30k RPS (2.5 млрд запросов в день)
• > 250 млн профилей
• > 1 млн сайтов
• Несколько десятков серверов
• Hadoop-кластер
Что хотят заказчики?
5
• Показы
• Посещения сайтов
• Хорошие поведенческие характеристики— большое
количество посещённых страниц, долгие сессии, ...
• Конверсии — покупки, заполнения формы обратной
связи, тест-драйвы,…
Данные
6
• Базовая доступная информация: OS,
браузер, ...
• Прочая информация
Всё, что научимся добывать сами
… или найдем, где достать
Потоковые
алгоритмы – что?
7
Позволяют что-то посчитать
в условиях ограниченной памяти <<
объёма обрабатываемых данных
Потоковые
алгоритмы – зачем?
8
Хотим отслеживать показатели
здоровья системы:
• качество прогнозов
• характеристики пользовательского трафика
• … и другие
Хотим прямо сейчас
Что будем оценивать?
9
Медианы и распределения
характеристик трафика
Александр Куликов — Segmento — ICBDA2016
Распределение
11
01
12
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
150 155 160 165 165 175 180 185 190 (На самом деле плотность)
Распределение
13
Это среднее
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
150 155 160 165 170 175 180 185 190
Среднее против медианы
14
Среднее против медианы
А это — медиана
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
150 155 160 165 170 175 180
Какая разница?!
185 190
15
Time Bandits (1981, Monty Python)
Среднее против медианы
16
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
130 140 150 160 170 180 190
L
Среднее против медианы
Мотивирующий пример
– интересы трафика
17
02
Мотивирующий пример –
интересы трафика
• Умеем определять интересы пользователей
• Хотим составить портрет ЦА
18
Мотивирующий пример –
интересы трафика
19
Интересы
20
03
Интересы
21
Пётр
«Спортивные автомобили»: очень интересно
«Бары и рестораны»: интересно
«Детская одежда»: неинтересно
Интересы
22
«Спортивные автомобили»: очень интересно, неинтересно
«Бары и рестораны»: интересно, интересно
«Детская одежда»: неинтересно, очень интересно
Василий
Интересы
23
«Спортивные автомобили»: очень интересно, неинтересно
«Бары и рестораны»: интересно, интересно
«Детская одежда»: неинтересно, очень интересно
1.0
0.7
0.0
0.0
0.7
0.9
Интересы трафика
24
04
Интересы трафика
25
• Удобно рассматривать распределение
• Должно выглядеть примерно так
Бары и рестораны
Неинтересно Интересно
26
Интересы трафика
Весь траффик
Бары и рестораныТовары для детей Спортивные авто
Интересы трафика
27
Оставим только хороший
траффик —пользователей,
совершивших покупки
28
Интересы трафика
«Хороший» траффик
Бары и рестораныТовары для детей Спортивные авто
Что можно получить?
29
Эффективный тул для визуализации, сравнения,
и анализа предпочтений ЦА
Алгоритмы
оценки
распределения
30
• Автоматически
подключать/отключать сегменты
• Исследовать трафик с различных площадок
Сортировка
31
Все умеют
Работает точно
Затратна по памяти
+
-
Алгоритм
Манро-Патерсона
32
05
33
34
Алгоритм Манро-
Патерсона
Требует больше одного прохода
Требует знаний о размере выборки
За разрешённое количество
проходов даёт точное решение+
-
35
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
0 0
36
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
0 01
37
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
0 01 3
38
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
0 01 2 3
39
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
1 02 2 3
+1
40
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
1 12 2 3
+1
41
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
2 12 2 3
+1
42
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
2 31 2 2
+1
43
Алгоритм Манро-
Патерсона
1, 2, 3, 2, 3, 1, 1, 2, 2
5 ячеек памяти
2 31 2 2
+1
44
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
3 32 2 2
+1
45
Алгоритм Манро-
Патерсона
1, 3, 2, 2, 3, 1, 1, 2, 2
5 ячеек памяти
3 32 2 2
Александр Куликов — Segmento — ICBDA2016
Алгоритм
Канна-Гринвальда
47
05
48
49
Алгоритм
Канна-Гринвальда
• Использует более сложную структуру
данных, хранящую их в агрегированной
форме
• Отфильтровывает значения, поддерживая
заданную точность
50
Алгоритм
Канна-Гринвальда
Неточный, но даёт ответ с заданной погрешностью
Работает за 1 проход
+
-
51
Статьи
Selection and sorting with limited storage, Манро Дж., Патерсон М. (1980) —
://polylogblog.files.wordpress.com/2009/08/80munro-median.pdf
Space-Efficient Online Computation of Quantile Summaries, Канна С., Гринвальд М.
(2001)
http://infolab.stanford.edu/~datar/courses/cs361a/papers/quantiles.pdf
52
Реализация и железо
Python, Hadoop
HBase, Kafka, Spark
Спасибо!

More Related Content

PDF
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...
PPT
Hl2008 Spy Log Architechture 169
PPT
New SpyLOG architechture (Highload 2008)
PDF
Машинное обучение в Яндексе
PDF
"Облачный сервис персональных рекомендаций для 20 000 магазинов — алгоритмы и...
PPT
Иван Красников — K☆50 — ICBDA2016
PDF
Максим Кулиш — OWOX-Russia — ICBDA2016
PPTX
Анатолий Левенчук — Техинвест — ICBDA2016
Потоковые алгоритмы в задачах обработки больших данных / Виктор Евстратов (Se...
Hl2008 Spy Log Architechture 169
New SpyLOG architechture (Highload 2008)
Машинное обучение в Яндексе
"Облачный сервис персональных рекомендаций для 20 000 магазинов — алгоритмы и...
Иван Красников — K☆50 — ICBDA2016
Максим Кулиш — OWOX-Russia — ICBDA2016
Анатолий Левенчук — Техинвест — ICBDA2016

Viewers also liked (20)

PPTX
Андрей Калинин — Mail.Ru Group — ICBDA2016
PPTX
Станислав Семенов — Консультант по анализу данных, победитель чемпионата ICBD...
PPTX
Наталья Полковникова – Global Innovation Labs – ICBDA2016
PDF
Евгений Быков – Телум – ICBDA2016
PPT
Николай Марин — IBM — ICBDA2016
PPTX
Дмитрий Кирьянов — Полибук Мультимедиа — ICBDA2016
PPTX
Александр Яшкин – FANUC Russia – ICBDA2016
PDF
Александр Белоцерковский — Microsoft — ICBDA2016
PDF
Иван Красников | К50
PPTX
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
PDF
Конференция Юкон. Процессинг данных на лямбда архитектуре.
PPTX
Kleidung Kadetten
PDF
Разработка коммуникационной стратегии для сети магазинов электронных сигарет ...
PDF
Социальные сети: Путь к успеху
PPTX
“BIG” DATA. Аналитика и целевые предложения в украинском e-commerce глазами ...
PDF
"Военная разведка" - Корпоративная игра с офицерами и каскадерами.
PDF
Стандартные таргетинги Facebook
PDF
Реклама в Facebook: От объектов продвижения до стратегии оптимизации
PPTX
Андрей Созыкин — ИММ УрО РАН — ICDBA2016
PPTX
Социальные сети в России, зима 2015-2016
Андрей Калинин — Mail.Ru Group — ICBDA2016
Станислав Семенов — Консультант по анализу данных, победитель чемпионата ICBD...
Наталья Полковникова – Global Innovation Labs – ICBDA2016
Евгений Быков – Телум – ICBDA2016
Николай Марин — IBM — ICBDA2016
Дмитрий Кирьянов — Полибук Мультимедиа — ICBDA2016
Александр Яшкин – FANUC Russia – ICBDA2016
Александр Белоцерковский — Microsoft — ICBDA2016
Иван Красников | К50
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
Конференция Юкон. Процессинг данных на лямбда архитектуре.
Kleidung Kadetten
Разработка коммуникационной стратегии для сети магазинов электронных сигарет ...
Социальные сети: Путь к успеху
“BIG” DATA. Аналитика и целевые предложения в украинском e-commerce глазами ...
"Военная разведка" - Корпоративная игра с офицерами и каскадерами.
Стандартные таргетинги Facebook
Реклама в Facebook: От объектов продвижения до стратегии оптимизации
Андрей Созыкин — ИММ УрО РАН — ICDBA2016
Социальные сети в России, зима 2015-2016
Ad

Similar to Александр Куликов — Segmento — ICBDA2016 (20)

PDF
Anton Tsitou "Cycle ORM and Graphs"
PDF
Как жить в согласии с SOLID?
PDF
#RuPostgresLive 4: как писать и читать сложные SQL-запросы
PDF
Как читать и интерпретировать вывод команды EXPLAIN
PDF
PostgreSQL performance recipes
PPTX
С++ Optimization Techniques
PDF
2014.09.24 история небольшого успеха с PostgreSQL (Yandex)
PDF
История небольшого успеха с PostgreSQL – Владимир Бородин
PDF
Ageev
PDF
"Тестирование распределенных систем" Сатарин Андрей, Яндекс
PPTX
Система аналитики из подручных материалов
PPT
Architechture of a social network for 30M users
PPTX
Аналитика и метрики приложений 29.11.2016 г.
PPTX
BigData Week Moscow 2013 - Case: Personalization
PPTX
Big Data - первые шаги
KEY
Практика SEO: Продвижение туристических сайтов
PDF
Aлександр Зайцев, LifeStreet
PDF
05 HappyDev-lite'14 Александр Самолов. Автоматизация бирж, скорость и данные
PPT
Высоконагруженные трейдинговые системы и их тестирование (Иосиф Иткин)
Anton Tsitou "Cycle ORM and Graphs"
Как жить в согласии с SOLID?
#RuPostgresLive 4: как писать и читать сложные SQL-запросы
Как читать и интерпретировать вывод команды EXPLAIN
PostgreSQL performance recipes
С++ Optimization Techniques
2014.09.24 история небольшого успеха с PostgreSQL (Yandex)
История небольшого успеха с PostgreSQL – Владимир Бородин
Ageev
"Тестирование распределенных систем" Сатарин Андрей, Яндекс
Система аналитики из подручных материалов
Architechture of a social network for 30M users
Аналитика и метрики приложений 29.11.2016 г.
BigData Week Moscow 2013 - Case: Personalization
Big Data - первые шаги
Практика SEO: Продвижение туристических сайтов
Aлександр Зайцев, LifeStreet
05 HappyDev-lite'14 Александр Самолов. Автоматизация бирж, скорость и данные
Высоконагруженные трейдинговые системы и их тестирование (Иосиф Иткин)
Ad

More from rusbase (20)

PDF
Робоэдвайзинг
PPTX
Как чат-боты меняют банковское обслуживание
PDF
Как удаленная идентификация повлияет на бизнес модели в финансовой сфере
PDF
Как социальные сети влияют на скоринг
PDF
Искусственный интеллект в кредитном скоринге
PDF
P2P кредитование и народное поручительство
PPTX
Francis Bakos, Vitality - FinTech Russia
PDF
Руслан Юсуфов, Страхование от кибер-атак - FinTech Russia
PDF
Алексей Краснопольский, Онлайн-кассы - FinTech Russia
PPTX
Иван Беров, Digital Identity - FinTech Russia
PDF
Алексей Катрич, IoT в InsurTech - FinTech Russia
PDF
Алексей Архипов, Мастерчейн - FinTech Russia
PPTX
Максим Григорьев, Удаленная идентификация - FinTech Russia
PDF
Александр Кузьмин, PSD2 - FinTech Russia
PDF
Алексей Благирев, "Открытие" — FinTech Russia 2017
PPTX
Ханнес Чопра (Hannes Chopra) - FinTech Russia 2017
PDF
Владислав Лисицкий — Rubbles — ICBDA2016
PDF
Сергей Лоншаков — проект "Дрон сотрудник" — ICBDA2016
PDF
Антон Бут и Екатерина Огнева – Билайн – ICBDA 2016
PDF
Анатолий Климчук – ARTOX Media International – ICBDA 2016
Робоэдвайзинг
Как чат-боты меняют банковское обслуживание
Как удаленная идентификация повлияет на бизнес модели в финансовой сфере
Как социальные сети влияют на скоринг
Искусственный интеллект в кредитном скоринге
P2P кредитование и народное поручительство
Francis Bakos, Vitality - FinTech Russia
Руслан Юсуфов, Страхование от кибер-атак - FinTech Russia
Алексей Краснопольский, Онлайн-кассы - FinTech Russia
Иван Беров, Digital Identity - FinTech Russia
Алексей Катрич, IoT в InsurTech - FinTech Russia
Алексей Архипов, Мастерчейн - FinTech Russia
Максим Григорьев, Удаленная идентификация - FinTech Russia
Александр Кузьмин, PSD2 - FinTech Russia
Алексей Благирев, "Открытие" — FinTech Russia 2017
Ханнес Чопра (Hannes Chopra) - FinTech Russia 2017
Владислав Лисицкий — Rubbles — ICBDA2016
Сергей Лоншаков — проект "Дрон сотрудник" — ICBDA2016
Антон Бут и Екатерина Огнева – Билайн – ICBDA 2016
Анатолий Климчук – ARTOX Media International – ICBDA 2016

Александр Куликов — Segmento — ICBDA2016