Методы обработки длинных запросов поисковыми системами

Методы обработки длинных
запросов поисковыми системами

Бортаковская Мария, гр. 525

Научный руководитель:
Лукашевич Н.В.

Особенности длинных запросов
• Доля длинных запросов в Интернете составляет 10%
– За последний год средняя длина запроса увеличилась с 2.5 до 3 слов
• Многообразие типов длинных запросов
– Запрос – описание проблемы
«Найти все материалы о подготовке Германии ко II Мировой Войне»
– Запрос к вопросно-ответной системе
«Что делать, если компьютер не включается?»
– Целые предложения из документа/текста
• Длина (от 4 до 15 слов)
– В вопросно-ответных системах – более 20 слов
• Грамматика
– Длинные запросы обычно являются грамматически сложными структурами
– Встречаются и такие запросы: «Электронная плчта на яндексе»
• Частотность
– Длинные запросы повторяются очень редко

Постановка задачи
1. Изучение специфики длинных запросов и
особенностей обработки их поисковыми
системами.
2. Исследование факторов обработки
длинных запросов на материале словарных
статей Википедии.
3. Разработка программной системы по поиску
фрагментов текстов, релевантных длинным
запросам в Википедии.

Обработка длинных запросов на материале
словарных статей Википедии

• Интересные факты как база для тестирования
методов обработки длинных запросов
Вступление к одному из телесериалов социалистической
Польши написал Стенли Кубрик.
• В одной из статей находится ответ на данный интересный факт
(к какому телесериалу?)
• Результат
В частности, с большой похвалой отозвался о «Декалоге»
Стенли Кубрик, написавший вступительное слово к изданию
сценариев к этому фильму.
• Проблемы
– Слова запроса находятся в нескольких предложениях
– Использование синонимов
– Переформулировка предложений

Меры сходства запроса с предложением

• Мера Дайса
2nxy nxy - кол-во общих слов
s
nx  ny nx – кол-во лемм в строке x
ny – кол-во лемм в строке y

• Мера Жаккара
nxy – кол-во общих слов
nxy
s nx/y – есть в первой строке, но нет во второй
nx / y  ny / x  nxy
ny/x – есть во второй строке, но нет в первой

• Tf-Idf
vx  vy документ - вектор слов
s вес слова считается по tf·idf
vx  vy коэффициент сходства вычисляется по косинусу

Новый метод поиска ответов
• В разработанном методе используются:
– Мера сходства tf·idf
– Морфологический разбор слов предложения
• Изменение весов слов в предложении в зависимости от части речи
– Синтаксический разбор предложения
• Поиск грамматической основы предложения (добавление веса при
совпадении подлежащих и сказуемых запроса и предложения)
– Использование соседних предложений
• Слияние двух предложений в одно
• Поиск в соседних предложениях слов, не найденных в ключевом
Запрос: «В этом крупнейшем городе России недавно состоялась
встреча двух президентов»
Москва – крупнейший город России. В нѐм недавно состоялась
встреча Дмитрия Медведева и Виктора Януковича.
• Учет местоимений

Синтаксический разбор. Морфологический
разбор слов предложения.
• Местоимения
В предложении ищутся местоимения (его, еѐ, их, он, она, они и
пр.), и оно пополняется существительными и именами
собственными соответствующего рода из предыдущего
предложения.
Пример: Монополия – очень известная настольная игра. В нее с
удовольствием играют и взрослые, и дети.

• Изменение веса слова в зависимости от части речи
– Существительные изменяются реже, чем глаголы – при их
совпадении вес предложения увеличивается
– Не учитываются стоп-слова (союзы, предлоги)

Оценка
• MRR - Mean reciprocal rank
Q
1 1
MRR 
Q
 ranki
i 1

 Q – множество учитываемых документов в
поисковой выдаче (Q=3)
 ranki – место, на котором выдался нужный
результат
 30 запросов (~100 статей)

Различные сочетания методов
поиска фактов
0,5

0,4

0,3

0,2

0,1

0 Мера Дайса Мера Жакара Tf·Idf Мера Дайса + Tf·Idf+синт. и Tf·Idf+синт. и Tf·Idf+синт. и
разбор морф. разбор морф. разбор морф. разбор
предлож ения предл. предл. + слияние предлож ения +
предлож ений соседние
MRR предлож ения

Программа поиска ответов на длинные
запросы по Википедии

Результаты
1. Исследованы особенности длинных
запросов.
2. Изучены и реализованы методы обработки
длинных запросов, а также создан новый
метод поиска ответов на интересные факты
Википедии.
3. Разработана программная система,
позволяющая производить поиск по
длинным запросам по материалам
Википедии.

Методы обработки длинных запросов поисковыми системами

More Related Content

Viewers also liked (20)

Similar to Методы обработки длинных запросов поисковыми системами (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Методы обработки длинных запросов поисковыми системами