20111001 information retrieval raskovalov_lecture2

Современные методы улучшения
качества поиска

Яндекс
Den Raskovalov
denplusplus@yandex-team.ru
1.10.2011

Краткая история IR

1950: Боязнь научного отставания от СССР подстегивает
работы по построению мехнизированных систем поиска,
изобретению индекса цитирования

1975: Salton публикует свои основные работы (TF*IDF)

1992: Первый TREC

~2000: Индустриализация IR с широким
распространением web'а и появлением поисковых машин

2003: РОМИП

Состояние IR
● Не наука
● Близко не подошла к пониманию смысла
текста
● Роль эвристики велика, как нигде
● Накоплено и развито некоторые техники:
● Морфология
● Машинное обучение
● Обработка огромных объемов косвенных данных
(логи запросов -> синонимы)

Как происходит поиск?
● Запрос токенизируется, к словам запроса
применяется морфологический анализ,
ищутся синонимы
● Из документов индекса отбираются те,
которые с большой вероятностью отвечают
на запрос
● Для отфильтрованных документов
рассчитываются признаки (фичи)
● К признакам применяется формула, дающая
конечную оценку релевантности

Инвертированный индекс
● Позволяет для данного ключа (слова) найти
(проитерироваться) по его вхождениям
(позициям) в документы коллекции
● Есть возможность дополнительно хранить
информацию про вхождение (сегмент,
позицию)

● Получается, что все, что мы знаем про
документ, когда считаем релевантность – это
позиции слов запроса (мало?)

Инвертированный индекс,
структура и реализация
● Минимальная реализация
● Два файла:
● Key – отсортированный список слов, с
указанием, где они хранятся в inv-файле
● Inv – плоский файл с информацией о позициях
– Позиции для одного ключа идут подряд
– Позиции отсортированы по (id документа, позиции в
документе)
Читать удобно с помощью memory map

Инвертированный индекс, его
построение
● Проблема: индексатор получает документ за
документом
● Накапливать инвертированный индекс в
памяти map< string, vector<TPosition> >
● Когда памяти перестает хватать, записать
порцию инвертированного индекса на диск
● Когда документы кончатся, слить порции
инвертированного индекса с диска в один
индекс по всем документам

Инвертированный индекс:
слияние
● Идея для слияния используется та же, что и
для внешней сортировки
● Завести heap, хранящий итераторы на порции
● Записывать каждый раз в выходной файл
минимальную позицию, пока все не закончатся

Можно разработать весьма эффективные
алгоритмы сжатия инвертированного индекса
(дельта-кодирование, префиксное сжатие)

Фильтрация
● Запрос состоит из нескольких слов, какие документы считать
найденными?
● Зачем нужна? На самом деле, для оптимизации. Цель – не потерять
релевантные документы.
● Те, которые содержат слова запроса. Содержат где?
● Есть текст, есть ссылки на документ (ссылки можно трактовать, как
хорошие описания)
● [мой дядя самых чистых правил, когда не в шутку занемог]
● [скачать учебник философия вуз платон и демокрит pdf djvu torrent]
● AND?
● OR?
● Все или почти все слова запроса.

Фильтрация: кворум
Q – запрос
qi – i-ое слово запроса
w(qi) – функция веса слова
D - документ

∑ w(qi )>Quorum(Q)⋅∑ w(qi )
qi ∈ D q i ∈Q

Quorum(Q)=1−0.01(1/ √( Q −1))
∣ ∣

w(q i )=−log ( DocFreq (qi )/ SumOfFreq)

Фильтрация: идеи
● Слова в заголовках важнее, чем в остальном тексте
● Существительные важнее, чем прилагательные
● Очень редкие слова только мешают (опечатки)
● Стоп-слова (предлоги, союзы) должны иметь нулевой вес
● Иногда очень частые слова очень важны, их нельзя отбрасывать
(география) [нотариус москва]

● Решение – выбрать метрику, составить обучающую выборку,
произвести машинное обучение

Ранжирование
● Для того, что работать над качеством
ранжирования, надо уметь его измерять
(трюизм, да).
● В основе оценки качества работы любого
алгоритма лежит сравнение результатов его
работы с результатом работы человека.

Ранжирование: тексты
● До появления интернета, был только текст
документа
● ТF-IDF (Salton)
● BM25 (Robertson)
–
–
– Пенальти длинным документам
– Пенальти большому числу вхождений слова
● Морфология
● Тезаурусы (синонимы)
● BM25F - Зоны

Ранжирование: ссылки
● С появлением WWW и HTML появляются
ссылки. Зачастую они хорошо описывают
документ. Сам факт их наличия много
говорит о документе:
● LF-IDF
● LinkBM25

Ранжирование: PageRank
● Рассмотрим граф. Вершины – страницы
интернета, ребро – ссылка.
● Рассмотрим модель “блуждающей
обезьянки”.
● PageRank страницы – мера времени,
которая обезьянка проводит на странице.
● Не зависящая от запроса мера важности
страницы в интернете.

Ранжирование: клики
● Можно собирать реацкию пользователя. По
нерелевантному не кликают. На
нерелевантном не проводят время.

Ранжирование
● Одна из основных проблем ранжирования:
как научиться сочетать столь разнородные
сигналы?
● Для того, что работать над качеством
ранжирования, надо уметь его измерять
(трюизм, да).
● В основе оценки качества работы любого
алгоритма лежит сравнение результатов его
работы с результатом работы человека.

Метрики: бинарный
классификатор

Метрики: ранжирование
● Point-wise
● Например, невязка (сумма квадратов отклонение
оценок от предасказанной релевантности)
● Pair-wise
● Например, число неправильно отранжированных пар
● List-wise
● Сумма по всем запросам
– Релевантности первого документа (P1)
– Релевантности первых десяти документов (P10)
– NDCG (сумма релевантностей, нормированный на позицию
документа)

Метрики ранжирования: pFound
● В основе метрики лежит модель поведения пользователя:
● Пользователь просматривает выдачу сверху-вниз результат за
результатом
● После просмотра каждого результата пользователь может
остановить поиск:
– Текущий результат решил его поисковую задачу
– Он отчаялся
● pFound – это вероятность того, что пользователь нашел
● pView[i] = pView[i-1]*(1 – pSuccess[i – 1]))*0.85
● pFound = sum pView[i]*pSuccess[i]
● Приятное свойство: один раз собрав оценки результатов
поиска, можно оценивать результаты работы разных
алгоритмов.

Алгоритмы машинного обучения
● Метод ближайшего соседа
● SVM (попытка линейно разделить
релевантное и нерелевантное)
● Жадный перебор полиномиальной формулы

● Очень хочется пользоваться градиентным
спуском. Но как?

● Проблема в том, что pFound недифференцируем.
На помощь приходит модель Люка-Плакетта.
● После этого можно применять градиентный спуск.
● Полезный прием: bagging.
● Бустим много раз: используем жадность.
● В качестве базовых примитивов используем
“кубики” малой размерности.
● Не забудем про регуляризацию.

● В результате получаем MatrixNet.
● Ближайший аналог: TreeNet от господина
Фридмана.
● В реальном мире нужно распараллелить на
множество машин.

Машинное обучение
● С помощью машинного обучения в Яндексе
решается множество задач:
● Решение, что обходить
● Решение, что выкладывать
● Сниппеты
● Задачи производительности
● Детекция спама
● Решение о показе рекламы

Что еще?
● Множество источников (новости, блоги, товары)
● Актуальность
● Свежесть
● Непорнушность
● Дубликаты
● Разнообразие интентов
● Спам
● Подавление спама

Спасибо.

Вопросы?

20111001 information retrieval raskovalov_lecture2

More Related Content

What's hot (20)

Similar to 20111001 information retrieval raskovalov_lecture2 (20)

More from Computer Science Club (20)

20111001 information retrieval raskovalov_lecture2