1
2
Анализ неявных
предпочтений
пользователей
Михаил Агеев
3
Emory Intelligent Information Access Lab
Mikhail
Ageev
Dmitry Lagun Eugene Agichtein
4
Цель: улучшение поисковых аннотаций
Критерии качества сниппетов
!  Readability
–  Сниппет должен быть
удобочитаемым
!  Representativeness
–  Сниппет должен показывать части документа,
которые соответствуют запросу пользователя
!  Judgeability
–  Хороший сниппет должен содержать ответ на вопрос
пользователя или указание на то, что ответ есть в
документе
5
Алгоритмы выделения сниппетов
!  Сопоставление текста документа с запросом
!  Учет местоположения текста, структуры документа
!  Текстовых факторов недостаточно!
6
Пример: траектория
зрачка глаза и
идеальный ответ!  Цель поиска
–  How many pixels must be dead on a iPad 3
before Apple will replace it?
!  Запрос
–  [how many dead pixels ipad 3 replace]
!  Фрагмент с ответом
–  iPad: 3 Dead Pixel -> Apple will replace a
new LCD for you
Идеальный сниппет!
7
Траектория курсора мыши коррелирует
с траекторией зрачка
Q. Guo and E. Agichtein. Towards
predicting web searcher gaze position
from mouse movements. // CHI,
2010.
!  Пример:
–  Find the worst drought that
happened in the history of the US
!  Запрос:
–  [worst drought in US]
The worst droughts in the history of the United States
occurred during the 1930s and 1950s, periods of time
known as 'Dust Bowl' years
Идеальный сниппет!
8
Идея: выделение сниппетов на основе
поведения пользователей
!  Поведение пользователей на найденной странице (scroll, движения
мыши) позволяет выявить фрагменты, интересующие пользователя
!  Данные о поведении можно собирать при помощи JavaScript
browser API
!  Выделение заинтересовавших пользователя фрагментов может
позволить улучшить сниппеты
9
Задачи
!  Как собрать реалистичные данные поведения
пользователей?
–  В том числе движения мыши на страницах после
SERP
!  Как по движениям мыши определить фрагменты,
заинтересовавшие пользователя?
–  Объём данных: около 400 событий на каждый просмотр
страницы
–  Разные устройства ввода и версии браузеров
–  Разные привычки пользователей
!  Как объединить данные поведения и текстовые
факторы?
10
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа
поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
11
UFindIt: инфраструктура для сбора
данныхСбор данных о поведении пользователя
!  Цель поиска: найти ответ при помощи поисковой
системы
!  Игрок находит ответ и подтверждающий URL
Участники
!  Amazon Mechanical Turk
–  HIT = игра из 12 вопросов
!  Мотивация игрока
–  Гарантированная оплата $1 за игру
–  Бонусы для 25% лучших игроков
–  Соревнование! Азарт!
!  Проверка данных: ReCaptcha + Автоматическая
проверка выполнения правил игры
12
Протоколирование: Proxy + JavaScript
!  HTTP reverse proxy
–  Пользователь использует привычный интерфейс поиска
–  HTML-ссылки преобразуются на лету
–  В каждую страницу встраивается код JavaScript для
отслеживания поведения
13
EMU.js: связь координат мыши с текстом
!  Проблема
–  Позиция мыши представлена координатами в окне браузера
–  Координаты текста зависят от разрешения экрана, версии и настроек браузера
!  Решение
–  Вычислить координаты всех слов на клиенте и сохранить на сервере
14
Структура данных
Для каждого просмотра страницы известны
!  Запрос пользователя к поисковой системе
!  URL и содержание документа
!  Координаты каждого слова в документе
!  Лог действие пользователя: движения
мыши, клики, прокрутка
!  Заданный запрос (цель поиска)
!  Ответ, который пользователь отправил
Поведенческие
факторы
Обучающая
и тестовая
выборки
Только для
экспериментов
15
Статистика по собранным данным	
  
!  Код и данные свободно доступны http://ir.mathcs.emory.edu/intent/
109 Пользователей
12 Вопросов
1,175 Поисковых сессий
3,295 Запросов
2,997 Просмотров страниц
662 Различных URL
1,454,257 Атомарных событий
707 Пар запрос-URL (сниппетов) с полным набором
данных для экспериментов
16
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа
поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
17
Предсказание интересных фрагментов
!  Текст HTML-страницы разбивается на фрагменты по пять слов
!  6 поведенческих факторов
–  Длительность нахождения курсора мыши над фрагментом
–  … рядом с фрагментом (±100px)
–  Средняя скорость курсора мыши над фрагментом
–  … рядом с фрагментом
–  Время показа фрагмента в видимой части окна просмотра (scrollbar)
–  Время показа фрагмента в середине окна просмотра
!  Предсказание вероятности интересного фрагмента
!  Метод машинного обучения: GBRT
18
Обучающее множество
!  Положительные примеры
–  Фрагменты,
пересекающиеся с
ответом пользователя
!  Отрицательные примеры
–  Все остальные фрагменты
Обучающее множество неполно:
мы ничего не знаем об остальных
фрагментах, которые пользователь
посмотрел
!  Пример
–  Вопрос: «Which metals float on
water?»
–  Ответ пользователя: «lithium,
sodium, potassium»
19
Предсказание интересных фрагментов
Чем выше
предсказанная
интересность
фрагмента (BScore),
тем больше
пересечение с
ответом пользователя
(ROUGE)
20
Наиболее важные факторы
!  DispMiddleTime – время, в течение которого фрагмент текста был
виден на экране
!  MouseOverTime – время, в течение которого курсор мыши был над
фрагментом текста
21
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
22
Генерация сниппетов: baseline
D. Metzler and T. Kanungo. Machine learned sentence selection
strategies for query-biased summarization. In SIGIR Learning to Rank
Workshop, 2008.
!  Для каждого предложения вычисляем 22 фактора
–  Точное соответствие
–  Количество найденных слов запроса и синонимов (3 фактора)
–  BM25-like (4 фактора)
–  Расстояние между словами запроса (3 фактора)
–  Длина предложения
–  Позиция в документе
–  Удобочитаемость: количество знаков пунктуации,
заглавных слов, различных слов (9 факторов)
23
Генерация сниппетов на основе поведения
!  Линейная комбинация весов предложений baseline-алгоритма
TextScore(f) и интересности фрагмента BScore(f)
!  λ влияет на покрытие и качество сниппетов
–  Слишком маленькое λ = сниппеты не отличаются от baseline
–  Слишком большое λ = риск низкого качества сниппетов
!  Эксперимент:
24
Постановка эксперимента
!  Попарная оценка сниппетов для двух алгоритмов по критериям:
–  Representativeness
Какой из сниппетов лучше отражает соответствие документа
запросу?
Необходимо прочитать документ до ответа на вопрос.
–  Readability
Какой из сниппетов лучше написан, легче читается?
–  Judgeability
Какой из сниппетов лучше помогает найти релевантный ответ и
решить, нужно ли кликать на ссылку?
25
Результаты
!  Fraction improved: доля сниппетов, улучшенных за счет учета поведения пользователей
!  Coverage: доля сниппетов, для которых сниппеты с учетом поведения отличаются от
baseline
!  При λ	
  =	
  0.7	
  статистически значимое улучшение по всем метрикам
26
Пример
Baseline
BeBS
27
План
!  Введение
!  Метод сбора данных о поведении
пользователей поисковой системы,
включающих движения мыши
!  Предсказание фрагментов документов,
заинтересовавших пользователя
!  Улучшение поисковых аннотаций
(сниппетов) на основе анализа
поведения
!  Улучшение поиска ответов на вопрос в
Web на основе анализа поведения
!  Заключение
28
Вопросно-ответный поиск
!  Поиск точного ответа на вопрос пользователя
!  Основные этапы QA (IR Approach)
–  Анализ запроса (POS Tagging, NER), классификация по типу
вопроса, формирование шаблонов ответов
–  Поиск релевантных документов – кандидатов на нахождение
ответов
–  Поиск релевантных пассажей
–  Анализ пассажей и извлечение ответов по шаблону
29
Улучшение извлечения пассажей
!  Baseline algorithm:
–  QANUS: open-source QA system from National
University of Singapore (Min Yen Kan, 2010)
!  BeQA: behavior-based QA
–  QANUS fragment score TextScore(f)
–  Интересность фрагмента BScore(f)
30
Поиск релевантных пассажей:
результаты! 
rank𝑖 - позиция первого релевантного
ответа
!  Поиск ответов по коллекции
–  All: все документы по всем вопросам
–  Clicked: все документы, которые
пользователи посещали при поиске
ответа на данный вопрос
–  Relevant: документы, про которые
известно, что в них есть правильный
ответ
31
Основные предположения
(и ограничения)
!  Эксперименты на информационных вопросах: пользователь ищет
текст ответа в документе
!  Просмотры страниц сгруппированы по информационной
потребности
–  Поведенческие факторы усредняются по всем пользователям с
одинаковой информационной потребностью
!  Данные о поведении пользователя на найденных страницах могут
быть собраны поисковой системой
–  Плагины браузера
–  Рекламные площадки
–  Счетчики посещений
32
References
!  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. Improving Search
Result Summaries By Using Searcher Behavior Data // SIGIR 2013
!  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. The Answer is
at your Fingertips: Improving Passage Retrieval for Web
Question Answering with Search Behavior Data // EMNLP 2013
!  Код и данные: http://ir.mathcs.emory.edu/intent/
33
Спасибо за
внимание
34
Михаил Агеев
Исследователь-разработчик
+7(916)607-5072
irlab@yandex-team.ru
к.ф.-м.н.

More Related Content

PDF
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
PPTX
Текстовый анализ - теория и практика
PPTX
Гайд по текстовому антиспаму
PDF
SEO эксперименты. Типы, примеры, рекомендации
PPTX
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
PPTX
Оптимизация по полочкам (Неделя Байнета 15)
PDF
Фишки из патентов Google
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
Текстовый анализ - теория и практика
Гайд по текстовому антиспаму
SEO эксперименты. Типы, примеры, рекомендации
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
Оптимизация по полочкам (Неделя Байнета 15)
Фишки из патентов Google

What's hot (12)

POT
Algorithms overview for content discovery and distribution (on russian)
PPTX
Как построить SEO CRM (Sempro 15)
PPT
информационные и информационно поисковые системы интернет
PPTX
Доклад MAD conference
PPT
Кто потеснит полнотекстовый поиск?
PPT
ИКТ в гуманитарных науках
PPT
Search systems
PPTX
Аналитика поискового продвижения (SmartFox)
PDF
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
PPTX
SEO итоги 2015 (Smartfox)
PPTX
Аналитика поведенческих факторов Яндекс/Гугл
PPTX
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
Algorithms overview for content discovery and distribution (on russian)
Как построить SEO CRM (Sempro 15)
информационные и информационно поисковые системы интернет
Доклад MAD conference
Кто потеснит полнотекстовый поиск?
ИКТ в гуманитарных науках
Search systems
Аналитика поискового продвижения (SmartFox)
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
SEO итоги 2015 (Smartfox)
Аналитика поведенческих факторов Яндекс/Гугл
«SEO-экспериментариум», выпуск 2 на MegaIndex.TV. Севальнев Дмитрий
Ad

Viewers also liked (20)

PDF
"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo
PDF
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс
PDF
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...
PDF
Nikolay
PDF
"Managing API Complexity". Matthew Flaming, Temboo
PPTX
idea rectora en arquitectura
PDF
2013 09 21 безопасность веб-приложений
PDF
Артем Кувалдин: Основы HTML
PDF
Вики синтаксис
PPTX
Вводная по ШРИ
PDF
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...
PDF
Артём Кошелев — Качество кода автотестов
PDF
Юрий Ткаченко — Разработка фронтенда для гиков
PDF
Алексей Лобанов — Как создаются Яндекс.Карты
PDF
Сергей Сергеев — Maintainer кода в большом проекте
PDF
Александр Алиев "Что такое Яндекс.API"
PDF
Владимир Гуриев, Яндекс
PDF
Евгений Вернигора, T-Sell
PPTX
Line Vision Apresentação
"xCAT: удобное администрирование дата-центра". Антон Турецкий, Badoo
"Когда загрузится страница нам нужно знать наверняка". Иван Карев, Яндекс
"Фронтенд в Яндексе: сложные сервисы, непростые решения". Елена Джетпыспаева,...
Nikolay
"Managing API Complexity". Matthew Flaming, Temboo
idea rectora en arquitectura
2013 09 21 безопасность веб-приложений
Артем Кувалдин: Основы HTML
Вики синтаксис
Вводная по ШРИ
FrontTalks: Вадим Макеев (Opera Software), «Зачем Опере Вебкит, или Опиум для...
Артём Кошелев — Качество кода автотестов
Юрий Ткаченко — Разработка фронтенда для гиков
Алексей Лобанов — Как создаются Яндекс.Карты
Сергей Сергеев — Maintainer кода в большом проекте
Александр Алиев "Что такое Яндекс.API"
Владимир Гуриев, Яндекс
Евгений Вернигора, T-Sell
Line Vision Apresentação
Ad

Similar to "Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ (20)

PDF
20120226 information retrieval raskovalov_lecture03-04
PDF
20131112федорроманенко
PDF
20111001 information retrieval raskovalov_lecture2
PDF
20131105 романенко
PDF
1. предзащита
PPT
Personilized search
PPT
Russir 2010 final
PDF
BigData и Data Science: методы и инструменты
PDF
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
PDF
Принципы работы поисковой системы
PDF
Принципы работы поисковой системы
PPTX
Алгоритм HITS - Евгений Федулов
PDF
Эффективные Алгоритмы Поиска Подобных Объектов Для Терабайтов Данных
PPTX
Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс
PPT
Почему оно не находится! / Андрей Аксенов (Sphinx)
PDF
Choister
PDF
Choister
PDF
Sphinx. настройка, эксплуатация
PDF
Савостин. Системы и методы научного поиска и мониторинга
PDF
диплом
20120226 information retrieval raskovalov_lecture03-04
20131112федорроманенко
20111001 information retrieval raskovalov_lecture2
20131105 романенко
1. предзащита
Personilized search
Russir 2010 final
BigData и Data Science: методы и инструменты
"Анализ поведения пользователей и персонализация поисковой выдачи". Юрий Усти...
Принципы работы поисковой системы
Принципы работы поисковой системы
Алгоритм HITS - Евгений Федулов
Эффективные Алгоритмы Поиска Подобных Объектов Для Терабайтов Данных
Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс
Почему оно не находится! / Андрей Аксенов (Sphinx)
Choister
Choister
Sphinx. настройка, эксплуатация
Савостин. Системы и методы научного поиска и мониторинга
диплом

More from Yandex (20)

PDF
Предсказание оттока игроков из World of Tanks
PDF
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
PDF
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
PDF
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
PDF
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
PDF
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
PDF
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
PDF
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
PDF
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
PDF
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
PDF
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
PDF
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
PDF
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
PDF
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
PDF
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
PDF
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
PDF
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
PDF
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
PDF
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
PDF
Эталонное описание фильма на основе десятков дубликатов
Предсказание оттока игроков из World of Tanks
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Эталонное описание фильма на основе десятков дубликатов

"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУ

  • 1. 1
  • 3. 3 Emory Intelligent Information Access Lab Mikhail Ageev Dmitry Lagun Eugene Agichtein
  • 4. 4 Цель: улучшение поисковых аннотаций Критерии качества сниппетов !  Readability –  Сниппет должен быть удобочитаемым !  Representativeness –  Сниппет должен показывать части документа, которые соответствуют запросу пользователя !  Judgeability –  Хороший сниппет должен содержать ответ на вопрос пользователя или указание на то, что ответ есть в документе
  • 5. 5 Алгоритмы выделения сниппетов !  Сопоставление текста документа с запросом !  Учет местоположения текста, структуры документа !  Текстовых факторов недостаточно!
  • 6. 6 Пример: траектория зрачка глаза и идеальный ответ!  Цель поиска –  How many pixels must be dead on a iPad 3 before Apple will replace it? !  Запрос –  [how many dead pixels ipad 3 replace] !  Фрагмент с ответом –  iPad: 3 Dead Pixel -> Apple will replace a new LCD for you Идеальный сниппет!
  • 7. 7 Траектория курсора мыши коррелирует с траекторией зрачка Q. Guo and E. Agichtein. Towards predicting web searcher gaze position from mouse movements. // CHI, 2010. !  Пример: –  Find the worst drought that happened in the history of the US !  Запрос: –  [worst drought in US] The worst droughts in the history of the United States occurred during the 1930s and 1950s, periods of time known as 'Dust Bowl' years Идеальный сниппет!
  • 8. 8 Идея: выделение сниппетов на основе поведения пользователей !  Поведение пользователей на найденной странице (scroll, движения мыши) позволяет выявить фрагменты, интересующие пользователя !  Данные о поведении можно собирать при помощи JavaScript browser API !  Выделение заинтересовавших пользователя фрагментов может позволить улучшить сниппеты
  • 9. 9 Задачи !  Как собрать реалистичные данные поведения пользователей? –  В том числе движения мыши на страницах после SERP !  Как по движениям мыши определить фрагменты, заинтересовавшие пользователя? –  Объём данных: около 400 событий на каждый просмотр страницы –  Разные устройства ввода и версии браузеров –  Разные привычки пользователей !  Как объединить данные поведения и текстовые факторы?
  • 10. 10 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 11. 11 UFindIt: инфраструктура для сбора данныхСбор данных о поведении пользователя !  Цель поиска: найти ответ при помощи поисковой системы !  Игрок находит ответ и подтверждающий URL Участники !  Amazon Mechanical Turk –  HIT = игра из 12 вопросов !  Мотивация игрока –  Гарантированная оплата $1 за игру –  Бонусы для 25% лучших игроков –  Соревнование! Азарт! !  Проверка данных: ReCaptcha + Автоматическая проверка выполнения правил игры
  • 12. 12 Протоколирование: Proxy + JavaScript !  HTTP reverse proxy –  Пользователь использует привычный интерфейс поиска –  HTML-ссылки преобразуются на лету –  В каждую страницу встраивается код JavaScript для отслеживания поведения
  • 13. 13 EMU.js: связь координат мыши с текстом !  Проблема –  Позиция мыши представлена координатами в окне браузера –  Координаты текста зависят от разрешения экрана, версии и настроек браузера !  Решение –  Вычислить координаты всех слов на клиенте и сохранить на сервере
  • 14. 14 Структура данных Для каждого просмотра страницы известны !  Запрос пользователя к поисковой системе !  URL и содержание документа !  Координаты каждого слова в документе !  Лог действие пользователя: движения мыши, клики, прокрутка !  Заданный запрос (цель поиска) !  Ответ, который пользователь отправил Поведенческие факторы Обучающая и тестовая выборки Только для экспериментов
  • 15. 15 Статистика по собранным данным   !  Код и данные свободно доступны http://ir.mathcs.emory.edu/intent/ 109 Пользователей 12 Вопросов 1,175 Поисковых сессий 3,295 Запросов 2,997 Просмотров страниц 662 Различных URL 1,454,257 Атомарных событий 707 Пар запрос-URL (сниппетов) с полным набором данных для экспериментов
  • 16. 16 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 17. 17 Предсказание интересных фрагментов !  Текст HTML-страницы разбивается на фрагменты по пять слов !  6 поведенческих факторов –  Длительность нахождения курсора мыши над фрагментом –  … рядом с фрагментом (±100px) –  Средняя скорость курсора мыши над фрагментом –  … рядом с фрагментом –  Время показа фрагмента в видимой части окна просмотра (scrollbar) –  Время показа фрагмента в середине окна просмотра !  Предсказание вероятности интересного фрагмента !  Метод машинного обучения: GBRT
  • 18. 18 Обучающее множество !  Положительные примеры –  Фрагменты, пересекающиеся с ответом пользователя !  Отрицательные примеры –  Все остальные фрагменты Обучающее множество неполно: мы ничего не знаем об остальных фрагментах, которые пользователь посмотрел !  Пример –  Вопрос: «Which metals float on water?» –  Ответ пользователя: «lithium, sodium, potassium»
  • 19. 19 Предсказание интересных фрагментов Чем выше предсказанная интересность фрагмента (BScore), тем больше пересечение с ответом пользователя (ROUGE)
  • 20. 20 Наиболее важные факторы !  DispMiddleTime – время, в течение которого фрагмент текста был виден на экране !  MouseOverTime – время, в течение которого курсор мыши был над фрагментом текста
  • 21. 21 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 22. 22 Генерация сниппетов: baseline D. Metzler and T. Kanungo. Machine learned sentence selection strategies for query-biased summarization. In SIGIR Learning to Rank Workshop, 2008. !  Для каждого предложения вычисляем 22 фактора –  Точное соответствие –  Количество найденных слов запроса и синонимов (3 фактора) –  BM25-like (4 фактора) –  Расстояние между словами запроса (3 фактора) –  Длина предложения –  Позиция в документе –  Удобочитаемость: количество знаков пунктуации, заглавных слов, различных слов (9 факторов)
  • 23. 23 Генерация сниппетов на основе поведения !  Линейная комбинация весов предложений baseline-алгоритма TextScore(f) и интересности фрагмента BScore(f) !  λ влияет на покрытие и качество сниппетов –  Слишком маленькое λ = сниппеты не отличаются от baseline –  Слишком большое λ = риск низкого качества сниппетов !  Эксперимент:
  • 24. 24 Постановка эксперимента !  Попарная оценка сниппетов для двух алгоритмов по критериям: –  Representativeness Какой из сниппетов лучше отражает соответствие документа запросу? Необходимо прочитать документ до ответа на вопрос. –  Readability Какой из сниппетов лучше написан, легче читается? –  Judgeability Какой из сниппетов лучше помогает найти релевантный ответ и решить, нужно ли кликать на ссылку?
  • 25. 25 Результаты !  Fraction improved: доля сниппетов, улучшенных за счет учета поведения пользователей !  Coverage: доля сниппетов, для которых сниппеты с учетом поведения отличаются от baseline !  При λ  =  0.7  статистически значимое улучшение по всем метрикам
  • 27. 27 План !  Введение !  Метод сбора данных о поведении пользователей поисковой системы, включающих движения мыши !  Предсказание фрагментов документов, заинтересовавших пользователя !  Улучшение поисковых аннотаций (сниппетов) на основе анализа поведения !  Улучшение поиска ответов на вопрос в Web на основе анализа поведения !  Заключение
  • 28. 28 Вопросно-ответный поиск !  Поиск точного ответа на вопрос пользователя !  Основные этапы QA (IR Approach) –  Анализ запроса (POS Tagging, NER), классификация по типу вопроса, формирование шаблонов ответов –  Поиск релевантных документов – кандидатов на нахождение ответов –  Поиск релевантных пассажей –  Анализ пассажей и извлечение ответов по шаблону
  • 29. 29 Улучшение извлечения пассажей !  Baseline algorithm: –  QANUS: open-source QA system from National University of Singapore (Min Yen Kan, 2010) !  BeQA: behavior-based QA –  QANUS fragment score TextScore(f) –  Интересность фрагмента BScore(f)
  • 30. 30 Поиск релевантных пассажей: результаты!  rank𝑖 - позиция первого релевантного ответа !  Поиск ответов по коллекции –  All: все документы по всем вопросам –  Clicked: все документы, которые пользователи посещали при поиске ответа на данный вопрос –  Relevant: документы, про которые известно, что в них есть правильный ответ
  • 31. 31 Основные предположения (и ограничения) !  Эксперименты на информационных вопросах: пользователь ищет текст ответа в документе !  Просмотры страниц сгруппированы по информационной потребности –  Поведенческие факторы усредняются по всем пользователям с одинаковой информационной потребностью !  Данные о поведении пользователя на найденных страницах могут быть собраны поисковой системой –  Плагины браузера –  Рекламные площадки –  Счетчики посещений
  • 32. 32 References !  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. Improving Search Result Summaries By Using Searcher Behavior Data // SIGIR 2013 !  Mikhail Ageev, Dmitry Lagun, Eugene Agichtein. The Answer is at your Fingertips: Improving Passage Retrieval for Web Question Answering with Search Behavior Data // EMNLP 2013 !  Код и данные: http://ir.mathcs.emory.edu/intent/