SlideShare a Scribd company logo
Методы обработки длинных
запросов поисковыми системами


             Бортаковская Мария, гр. 525

                 Научный руководитель:
                       Лукашевич Н.В.
Особенности длинных запросов
• Доля длинных запросов в Интернете составляет 10%
   – За последний год средняя длина запроса увеличилась с 2.5 до 3 слов
• Многообразие типов длинных запросов
   – Запрос – описание проблемы
     «Найти все материалы о подготовке Германии ко II Мировой Войне»
   – Запрос к вопросно-ответной системе
     «Что делать, если компьютер не включается?»
   – Целые предложения из документа/текста
• Длина (от 4 до 15 слов)
   – В вопросно-ответных системах – более 20 слов
• Грамматика
   – Длинные запросы обычно являются грамматически сложными структурами
   – Встречаются и такие запросы: «Электронная плчта на яндексе»
• Частотность
   – Длинные запросы повторяются очень редко
Постановка задачи
1. Изучение специфики длинных запросов и
   особенностей обработки их поисковыми
   системами.
2. Исследование факторов обработки
   длинных запросов на материале словарных
   статей Википедии.
3. Разработка программной системы по поиску
   фрагментов текстов, релевантных длинным
   запросам в Википедии.
Обработка длинных запросов на материале
          словарных статей Википедии

• Интересные факты как база для тестирования
  методов обработки длинных запросов
    Вступление к одному из телесериалов социалистической
    Польши написал Стенли Кубрик.
•   В одной из статей находится ответ на данный интересный факт
    (к какому телесериалу?)
• Результат
    В частности, с большой похвалой отозвался о «Декалоге»
    Стенли Кубрик, написавший вступительное слово к изданию
    сценариев к этому фильму.
• Проблемы
    – Слова запроса находятся в нескольких предложениях
    – Использование синонимов
    – Переформулировка предложений
Меры сходства запроса с предложением

• Мера Дайса
            2nxy                nxy - кол-во общих слов
        s
           nx  ny              nx – кол-во лемм в строке x
                                ny – кол-во лемм в строке y

• Мера Жаккара
                                nxy – кол-во общих слов
                 nxy
     s                         nx/y – есть в первой строке, но нет во второй
        nx / y  ny / x  nxy
                                ny/x – есть во второй строке, но нет в первой

• Tf-Idf
          vx  vy               документ - вектор слов
      s                        вес слова считается по tf·idf
         vx  vy                коэффициент сходства вычисляется по косинусу
Новый метод поиска ответов
• В разработанном методе используются:
  – Мера сходства tf·idf
  – Морфологический разбор слов предложения
      • Изменение весов слов в предложении в зависимости от части речи
  – Синтаксический разбор предложения
      • Поиск грамматической основы предложения (добавление веса при
        совпадении подлежащих и сказуемых запроса и предложения)
  – Использование соседних предложений
      • Слияние двух предложений в одно
      • Поиск в соседних предложениях слов, не найденных в ключевом
         Запрос: «В этом крупнейшем городе России недавно состоялась
         встреча двух президентов»
         Москва – крупнейший город России. В нѐм недавно состоялась
         встреча Дмитрия Медведева и Виктора Януковича.
      • Учет местоимений
Синтаксический разбор. Морфологический
         разбор слов предложения.
• Местоимения
  В предложении ищутся местоимения (его, еѐ, их, он, она, они и
  пр.), и оно пополняется существительными и именами
  собственными соответствующего рода из предыдущего
  предложения.
  Пример: Монополия – очень известная настольная игра. В нее с
  удовольствием играют и взрослые, и дети.

• Изменение веса слова в зависимости от части речи
  – Существительные изменяются реже, чем глаголы – при их
    совпадении вес предложения увеличивается
  – Не учитываются стоп-слова (союзы, предлоги)
Оценка
• MRR - Mean reciprocal rank
                  Q
          1           1
    MRR 
          Q
                  ranki
                 i 1

 Q – множество учитываемых документов в
  поисковой выдаче (Q=3)
 ranki – место, на котором выдался нужный
  результат
 30 запросов (~100 статей)
Различные сочетания методов
             поиска фактов
0,5

0,4

0,3

0,2

0,1

 0    Мера Дайса   Мера Жакара   Tf·Idf   Мера Дайса +   Tf·Idf+синт. и     Tf·Idf+синт. и    Tf·Idf+синт. и
                                             разбор      морф. разбор       морф. разбор      морф. разбор
                                          предлож ения       предл.       предл. + слияние   предлож ения +
                                                                           предлож ений         соседние
      MRR                                                                                     предлож ения
Программа поиска ответов на длинные
       запросы по Википедии
Результаты
1. Исследованы особенности длинных
   запросов.
2. Изучены и реализованы методы обработки
   длинных запросов, а также создан новый
   метод поиска ответов на интересные факты
   Википедии.
3. Разработана программная система,
   позволяющая производить поиск по
   длинным запросам по материалам
   Википедии.

More Related Content

PPT
Поиск информации в Интернете
PPT
Перефразировщик текста
PPTX
Концепция поисковых расширений
PPT
Russir 2010 final
PPTX
Можарова Тематические модели: учет сходства между униграммами и биграммами.
PPTX
Конкурс Родная речь 2014
PDF
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
PPT
Введение в информационный поиск
Поиск информации в Интернете
Перефразировщик текста
Концепция поисковых расширений
Russir 2010 final
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Конкурс Родная речь 2014
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Введение в информационный поиск

Viewers also liked (20)

PPT
Программные средства выявления теминологических вариантов в текстах
PDF
рогова обзор средств поддержки обучения программированию
PPT
Быстрое вычисление булевских выражений. Алгоритм Unison
PPT
Извлечение терминологических словосочетаний из текстов
PPT
Распознавание сокращений слов и словосочетаний
PDF
Экспертная система по конструированию и моделированию швейных изделий
PPT
Синтез функциональных программ при помощи метода дедуктивных таблиц
PPT
Интегрированная среда для языка Рефал
PDF
Реализация метода автоматического разрешения лексической многозначности
PDF
Программные средства поддержки словаря буквенных и морфемных паронимов
PPT
Системы автоматического составления обзорных рефератов
PPT
Система поддержки исследований семантики паремий
PPT
Программная поддержка языка лексико-синтаксических шаблонов
PDF
Извлечение информации из текста на основе автоматически сформированных шаблонах
PPT
Datr - язык представления лингвистической информации
PPT
Выявление идиоматических словосочетаний
Программные средства выявления теминологических вариантов в текстах
рогова обзор средств поддержки обучения программированию
Быстрое вычисление булевских выражений. Алгоритм Unison
Извлечение терминологических словосочетаний из текстов
Распознавание сокращений слов и словосочетаний
Экспертная система по конструированию и моделированию швейных изделий
Синтез функциональных программ при помощи метода дедуктивных таблиц
Интегрированная среда для языка Рефал
Реализация метода автоматического разрешения лексической многозначности
Программные средства поддержки словаря буквенных и морфемных паронимов
Системы автоматического составления обзорных рефератов
Система поддержки исследований семантики паремий
Программная поддержка языка лексико-синтаксических шаблонов
Извлечение информации из текста на основе автоматически сформированных шаблонах
Datr - язык представления лингвистической информации
Выявление идиоматических словосочетаний
Ad

Similar to Методы обработки длинных запросов поисковыми системами (20)

PDF
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
PPT
06 автоматические ответы на вопросы
PDF
Яндекс Малый ШАД - лингвистика в поиске
PDF
Фвтоматическая кластеризация значений многозначных слов
PPT
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
PPT
Автоматическая кластеризация близких по смыслу слов
PPT
Методы морфологического анализа текстов
PPT
Автоматический анализ текста для аннотирования изображения
PDF
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
PDF
Модули автоматической обработки текстов в проекте aot.ru
PDF
Query expansion
PPT
Алексей Колосов
PPT
Максим Литвинов
PDF
Комбинирование факторов для разрешения референции местоимений
PPT
лекция 5 тема 1
PPTX
Мищенко. Методы автоматического определения наиболее частотного значения слова.
PPT
Del test dk2011-ru
PPT
Системы аннотирования и реферирования
PPT
Объектная модель многофункциональных словарей
PPTX
Анализ запроса
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
06 автоматические ответы на вопросы
Яндекс Малый ШАД - лингвистика в поиске
Фвтоматическая кластеризация значений многозначных слов
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическая кластеризация близких по смыслу слов
Методы морфологического анализа текстов
Автоматический анализ текста для аннотирования изображения
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Модули автоматической обработки текстов в проекте aot.ru
Query expansion
Алексей Колосов
Максим Литвинов
Комбинирование факторов для разрешения референции местоимений
лекция 5 тема 1
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Del test dk2011-ru
Системы аннотирования и реферирования
Объектная модель многофункциональных словарей
Анализ запроса
Ad

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

PDF
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
PDF
Муромцев. Методы анализа социальных графов и поиска сообществ
PDF
Рой. Аспектный анализ тональности отзывов
PDF
Котиков Простые методы выделения ключевых слов и построения рефератов
PDF
Лукьяненко. Извлечение коллокаций из текста
PPTX
Иванов. Автоматизация построения предметных указателей
PPTX
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
PDF
Сапин. Интеллектуальные агенты и обучение с подкреплением
PDF
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
PDF
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
PDF
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
PDF
Савостин. Системы и методы научного поиска и мониторинга
PPTX
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
PDF
Панфилов. Корпусы текстов и принципы их создания
PDF
Муромцев. Обзор библиографических менеджеров
PDF
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
PDF
Баев Системы для обучения программированию
PDF
Тодуа. Методы разработки интерпретатора языка Рефал-2
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Муромцев. Методы анализа социальных графов и поиска сообществ
Рой. Аспектный анализ тональности отзывов
Котиков Простые методы выделения ключевых слов и построения рефератов
Лукьяненко. Извлечение коллокаций из текста
Иванов. Автоматизация построения предметных указателей
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Сапин. Интеллектуальные агенты и обучение с подкреплением
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савостин. Системы и методы научного поиска и мониторинга
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Панфилов. Корпусы текстов и принципы их создания
Муромцев. Обзор библиографических менеджеров
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Баев Системы для обучения программированию
Тодуа. Методы разработки интерпретатора языка Рефал-2

Методы обработки длинных запросов поисковыми системами

  • 1. Методы обработки длинных запросов поисковыми системами Бортаковская Мария, гр. 525 Научный руководитель: Лукашевич Н.В.
  • 2. Особенности длинных запросов • Доля длинных запросов в Интернете составляет 10% – За последний год средняя длина запроса увеличилась с 2.5 до 3 слов • Многообразие типов длинных запросов – Запрос – описание проблемы «Найти все материалы о подготовке Германии ко II Мировой Войне» – Запрос к вопросно-ответной системе «Что делать, если компьютер не включается?» – Целые предложения из документа/текста • Длина (от 4 до 15 слов) – В вопросно-ответных системах – более 20 слов • Грамматика – Длинные запросы обычно являются грамматически сложными структурами – Встречаются и такие запросы: «Электронная плчта на яндексе» • Частотность – Длинные запросы повторяются очень редко
  • 3. Постановка задачи 1. Изучение специфики длинных запросов и особенностей обработки их поисковыми системами. 2. Исследование факторов обработки длинных запросов на материале словарных статей Википедии. 3. Разработка программной системы по поиску фрагментов текстов, релевантных длинным запросам в Википедии.
  • 4. Обработка длинных запросов на материале словарных статей Википедии • Интересные факты как база для тестирования методов обработки длинных запросов Вступление к одному из телесериалов социалистической Польши написал Стенли Кубрик. • В одной из статей находится ответ на данный интересный факт (к какому телесериалу?) • Результат В частности, с большой похвалой отозвался о «Декалоге» Стенли Кубрик, написавший вступительное слово к изданию сценариев к этому фильму. • Проблемы – Слова запроса находятся в нескольких предложениях – Использование синонимов – Переформулировка предложений
  • 5. Меры сходства запроса с предложением • Мера Дайса 2nxy nxy - кол-во общих слов s nx  ny nx – кол-во лемм в строке x ny – кол-во лемм в строке y • Мера Жаккара nxy – кол-во общих слов nxy s nx/y – есть в первой строке, но нет во второй nx / y  ny / x  nxy ny/x – есть во второй строке, но нет в первой • Tf-Idf vx  vy документ - вектор слов s вес слова считается по tf·idf vx  vy коэффициент сходства вычисляется по косинусу
  • 6. Новый метод поиска ответов • В разработанном методе используются: – Мера сходства tf·idf – Морфологический разбор слов предложения • Изменение весов слов в предложении в зависимости от части речи – Синтаксический разбор предложения • Поиск грамматической основы предложения (добавление веса при совпадении подлежащих и сказуемых запроса и предложения) – Использование соседних предложений • Слияние двух предложений в одно • Поиск в соседних предложениях слов, не найденных в ключевом Запрос: «В этом крупнейшем городе России недавно состоялась встреча двух президентов» Москва – крупнейший город России. В нѐм недавно состоялась встреча Дмитрия Медведева и Виктора Януковича. • Учет местоимений
  • 7. Синтаксический разбор. Морфологический разбор слов предложения. • Местоимения В предложении ищутся местоимения (его, еѐ, их, он, она, они и пр.), и оно пополняется существительными и именами собственными соответствующего рода из предыдущего предложения. Пример: Монополия – очень известная настольная игра. В нее с удовольствием играют и взрослые, и дети. • Изменение веса слова в зависимости от части речи – Существительные изменяются реже, чем глаголы – при их совпадении вес предложения увеличивается – Не учитываются стоп-слова (союзы, предлоги)
  • 8. Оценка • MRR - Mean reciprocal rank Q 1 1 MRR  Q  ranki i 1  Q – множество учитываемых документов в поисковой выдаче (Q=3)  ranki – место, на котором выдался нужный результат  30 запросов (~100 статей)
  • 9. Различные сочетания методов поиска фактов 0,5 0,4 0,3 0,2 0,1 0 Мера Дайса Мера Жакара Tf·Idf Мера Дайса + Tf·Idf+синт. и Tf·Idf+синт. и Tf·Idf+синт. и разбор морф. разбор морф. разбор морф. разбор предлож ения предл. предл. + слияние предлож ения + предлож ений соседние MRR предлож ения
  • 10. Программа поиска ответов на длинные запросы по Википедии
  • 11. Результаты 1. Исследованы особенности длинных запросов. 2. Изучены и реализованы методы обработки длинных запросов, а также создан новый метод поиска ответов на интересные факты Википедии. 3. Разработана программная система, позволяющая производить поиск по длинным запросам по материалам Википедии.