SlideShare a Scribd company logo
Машинное обучение 
в рекламной системе 
MAIL.RU 
Игорь Кретинин
Данные и признаки 
• Пользователь: поток энергии и информации 
• Интернет: среда распространения и хранения данных (текст, картинки, видео) 
• Наши данные: логи активности пользователей в Интернете 
• Извлекаемая информация: посещённые url 
• Признаки: токены в представлении bag-of-words {token: count} 
• Трансформация TF-IDF 
• Разметка: специальные социологические исследования, контрольные группы 
пользователей, анкетирование, слежение в соц. сетях
Матрицы признаков 
• Корзина токенов как документ 
• Выборка данных о пользователях как корпус документов 
• Разреженные (sparse) матрицы большой размерности 
• Словарь токенов ~106 
• (пользователи x признаки) ~ (105 x 106) 
• Тематическое моделирование (Latent Dirichlet Allocation) сжимает 
размерность пространства признаков из словарной (~106) 
в тематическую (~103)
Тематическое моделирование 
game*0.088 mult-games.ru*0.064 igra*0.059 igri*0.046 igry*0.026 games*0.013 
igrydljadevochek2.ru*0.025 play*0.017 igroflot.ru*0.016 flashdozor.ru*0.013 playpack.ru*0.008 … 
irkutsk.drom.ru*0.346 nirvana.fm*0.105 bratsk.drom.ru*0.091 badanga.ru*0.055 
angarsk.drom.ru*0.031 ust-ilimsk.drom.ru*0.016 agentstvo-prazdnik.com*0.016 auto*0.014 … 
superjob.ru*0.353 vacancy*0.127 rabota*0.109 resume*0.065 myupdate.ru*0.051 clients*0.031 
vacancies*0.011 menedzher*0.009 services.fms.gov.ru*0.007 views*0.007 newsdoor.ru*0.007 … 
odezhda*0.174 obuv*0.141 aksessuary*0.090 detskaya*0.041 plate*0.020 zhenskaya*0.018 
tufli*0.009 kurtka*0.009 novye*0.008 shuba*0.007 sapogi*0.006 verhnyaya*0.006 … 
soccer.ru*0.211 api.oktools.ru*0.045 gooool.org*0.036 footballhd.ru*0.035 vk.flirchi.ru*0.025 euro-football. 
ru*0.024 translyaciya*0.019 players*0.019 loveradio.ru*0.018 pryamaya*0.015 … 
dojki.com*0.650 порно*0.039 женщины*0.013 зрелые*0.013 секс*0.011 жены*0.009 мамки*0.009 
чужие*0.009 молодые*0.008 девочки*0.008 домашнее*0.007 …
Машинное обучение 
• Классификация, регрессия, кластеризация (LogisticRegressor, SVM, 
RandomForest, RBM, NeuralNets) 
● Функция потерь (log, hinge, zero-one, 
huber) и регуляризация (L1, L2, 
ElasticNet) 
● Метрика качества (AUC, Precision/Recall, 
ConfusionMatrix) 
● Кросс-валидация 
● Тестирование
Бинарная классификация пользователей 
● LDA-преобразование признаков: 
уменьшение размерности 
● T-SNE сжатие в 2D 
● Классы не разделимы: нужны 
дополнительные признаки 
● Логистическая регрессия в пространстве 
токенов
Бинарная классификация: AUC ~ 0.75
Распределение пользователей h h.ru
Мультиклассовая задача
Заключение 
• Данные — признаки — классификатор — ансамбль 
• «Хорошие данные» лучше «хорошего классификатора» 
• Признаки (фичи) и их семантические связи — ключ к решению проблемы 
• Не все модели одинаково полезны 
• Важно: кросс-валидация, холд-аут, тестовая выборка 
• Шаг вперёд: глубокое обучение на основе байесовских и нейронных сетей
Спасибо за внимание!

More Related Content

PDF
Манипулятор на Ti Stellaris Launchpad, Лёша Романенко
PDF
Алексей Захаров "Архитектура Яндекс.Фоток"
PDF
Basis.js - почему я не бросил разрабатывать свой фреймворк (extended)
PDF
SQL-боттлнеки: поиск и устранение узких мест при масштабировании, Михаил Нови...
PDF
Не бойся, это всего лишь данные... просто их много
PPTX
Как устроен поиск
PDF
Быстро о быстром
PDF
Личный взгляд на Clojure
Манипулятор на Ti Stellaris Launchpad, Лёша Романенко
Алексей Захаров "Архитектура Яндекс.Фоток"
Basis.js - почему я не бросил разрабатывать свой фреймворк (extended)
SQL-боттлнеки: поиск и устранение узких мест при масштабировании, Михаил Нови...
Не бойся, это всего лишь данные... просто их много
Как устроен поиск
Быстро о быстром
Личный взгляд на Clojure

What's hot (20)

PDF
Хранение данных в iPhone. (FMDB, SQL-Persistence, CoreData)
PDF
«Произвольная смена дизайна системного скроллбара», Дмитрий Кузнецов
PDF
Как мы храним 75 млн пользователей (Денис Бирюков)
PPTX
Мастер класс по алгоритмам. Часть 1
PDF
Произвольная смена дизайна системного скроллбара
PDF
Как мы сбежали от PostgreSQL или когда реляционная БД не справляется, Куманяе...
PDF
Oracle exa2 biz_summit
PPT
занимательная информатика
PPTX
Дуров Р. - Cocos2d
PDF
Андрей Аксёнов, Sphinx Technologies Inc.
PPTX
Sphinx 2013
PPTX
Microsoft Ajax Minifier – автоматическая опитимизация JavaScript и CSS для ве...
PDF
basis.js - почему я не бросил разрабатывать свой фреймворк
PDF
DOM-шаблонизаторы – не только "быстро"
PDF
Web осень 2013 лекция 3
PDF
Незаурядная Java как инструмент разработки высоконагруженного сервера
PPT
Эффективный AJAX
PDF
WordPress Cron API
PDF
Асинхронная модульность в API Яндекс.Карт — Александр Зинчук
Хранение данных в iPhone. (FMDB, SQL-Persistence, CoreData)
«Произвольная смена дизайна системного скроллбара», Дмитрий Кузнецов
Как мы храним 75 млн пользователей (Денис Бирюков)
Мастер класс по алгоритмам. Часть 1
Произвольная смена дизайна системного скроллбара
Как мы сбежали от PostgreSQL или когда реляционная БД не справляется, Куманяе...
Oracle exa2 biz_summit
занимательная информатика
Дуров Р. - Cocos2d
Андрей Аксёнов, Sphinx Technologies Inc.
Sphinx 2013
Microsoft Ajax Minifier – автоматическая опитимизация JavaScript и CSS для ве...
basis.js - почему я не бросил разрабатывать свой фреймворк
DOM-шаблонизаторы – не только "быстро"
Web осень 2013 лекция 3
Незаурядная Java как инструмент разработки высоконагруженного сервера
Эффективный AJAX
WordPress Cron API
Асинхронная модульность в API Яндекс.Карт — Александр Зинчук
Ad

Similar to Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group) (10)

PDF
Машинное обучение в Яндексе
PDF
Введение в машинное обучение
PDF
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
PPTX
Машинное обучение для интеллектуализации ваших приложений
PDF
Машинное обучение в электронной коммерции - практика использования и подводны...
PPTX
Machine Learning as a Service
PDF
Использование машинного обучения на больших данных
PDF
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
PDF
20131105 романенко
PPTX
Применение Big Data в маркетинге
Машинное обучение в Яндексе
Введение в машинное обучение
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
Машинное обучение для интеллектуализации ваших приложений
Машинное обучение в электронной коммерции - практика использования и подводны...
Machine Learning as a Service
Использование машинного обучения на больших данных
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
20131105 романенко
Применение Big Data в маркетинге
Ad

More from Ontico (20)

PDF
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
PDF
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
PPTX
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
PDF
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
PDF
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
PDF
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PDF
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
PDF
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
PPTX
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
PPTX
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
PDF
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
PPTX
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
PPTX
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
PDF
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
PPT
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
PPTX
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
PPTX
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
PPTX
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
PPTX
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
PDF
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...

Машинное обучение в рекламной системе Mail.Ru, Игорь Кретинин (Mail.Ru Group)

  • 1. Машинное обучение в рекламной системе MAIL.RU Игорь Кретинин
  • 2. Данные и признаки • Пользователь: поток энергии и информации • Интернет: среда распространения и хранения данных (текст, картинки, видео) • Наши данные: логи активности пользователей в Интернете • Извлекаемая информация: посещённые url • Признаки: токены в представлении bag-of-words {token: count} • Трансформация TF-IDF • Разметка: специальные социологические исследования, контрольные группы пользователей, анкетирование, слежение в соц. сетях
  • 3. Матрицы признаков • Корзина токенов как документ • Выборка данных о пользователях как корпус документов • Разреженные (sparse) матрицы большой размерности • Словарь токенов ~106 • (пользователи x признаки) ~ (105 x 106) • Тематическое моделирование (Latent Dirichlet Allocation) сжимает размерность пространства признаков из словарной (~106) в тематическую (~103)
  • 4. Тематическое моделирование game*0.088 mult-games.ru*0.064 igra*0.059 igri*0.046 igry*0.026 games*0.013 igrydljadevochek2.ru*0.025 play*0.017 igroflot.ru*0.016 flashdozor.ru*0.013 playpack.ru*0.008 … irkutsk.drom.ru*0.346 nirvana.fm*0.105 bratsk.drom.ru*0.091 badanga.ru*0.055 angarsk.drom.ru*0.031 ust-ilimsk.drom.ru*0.016 agentstvo-prazdnik.com*0.016 auto*0.014 … superjob.ru*0.353 vacancy*0.127 rabota*0.109 resume*0.065 myupdate.ru*0.051 clients*0.031 vacancies*0.011 menedzher*0.009 services.fms.gov.ru*0.007 views*0.007 newsdoor.ru*0.007 … odezhda*0.174 obuv*0.141 aksessuary*0.090 detskaya*0.041 plate*0.020 zhenskaya*0.018 tufli*0.009 kurtka*0.009 novye*0.008 shuba*0.007 sapogi*0.006 verhnyaya*0.006 … soccer.ru*0.211 api.oktools.ru*0.045 gooool.org*0.036 footballhd.ru*0.035 vk.flirchi.ru*0.025 euro-football. ru*0.024 translyaciya*0.019 players*0.019 loveradio.ru*0.018 pryamaya*0.015 … dojki.com*0.650 порно*0.039 женщины*0.013 зрелые*0.013 секс*0.011 жены*0.009 мамки*0.009 чужие*0.009 молодые*0.008 девочки*0.008 домашнее*0.007 …
  • 5. Машинное обучение • Классификация, регрессия, кластеризация (LogisticRegressor, SVM, RandomForest, RBM, NeuralNets) ● Функция потерь (log, hinge, zero-one, huber) и регуляризация (L1, L2, ElasticNet) ● Метрика качества (AUC, Precision/Recall, ConfusionMatrix) ● Кросс-валидация ● Тестирование
  • 6. Бинарная классификация пользователей ● LDA-преобразование признаков: уменьшение размерности ● T-SNE сжатие в 2D ● Классы не разделимы: нужны дополнительные признаки ● Логистическая регрессия в пространстве токенов
  • 10. Заключение • Данные — признаки — классификатор — ансамбль • «Хорошие данные» лучше «хорошего классификатора» • Признаки (фичи) и их семантические связи — ключ к решению проблемы • Не все модели одинаково полезны • Важно: кросс-валидация, холд-аут, тестовая выборка • Шаг вперёд: глубокое обучение на основе байесовских и нейронных сетей