SlideShare a Scribd company logo
Методы персонифицированного поиска информации Алексей Широков [email_address]
Традиционная задача поиска [email_address] V  — множество всех узлов гипертекста, v  — множество узлов, отобранных по запросу, q  — условия пользовательского запроса. v = ƒ(V, q)
Модернизированная задача поиска [email_address] V  — множество всех узлов гипертекста, v  — множество узлов, отобранных по запросу, q  — условия пользовательского запроса, p  — портрет пользователя. v = ƒ(V, q,  p )
Применение портрета Улучшение поисковых систем; Дополнение браузеров советующей навигационной системой; Поиск без участия пользователя с помощью обучаемых агентов; Построение социальных сетей. [email_address]
Задачи [email_address] Создать модель портрета; Выбрать метод обучения для построения портрета; Разработать методы применения портрета для улучшения поиска.
Чем различаются пользователи? [email_address] Уровень априорных знаний по теме поиска; Способность сформулировать запрос; Предпочтения по стилю изложения, оформлению, структуре, авторитетности источника; Задачи, для решения которых используются информационные ресурсы; Пол, возраст, географическая привязка.
Релевантность [email_address]  —  Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия.
Релевантность [email_address]  —  Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия. Персонификация — в различной значимости свойств для пользователя.
Две релевантности [email_address] 1. С точки зрения поисковой системы. 2. С точки зрения пользователя. Задача: сблизить эти точки зрения.
Релевантность Silvia Gabrielli, Stefano Mizzaro MIRA Conference, 1999 [1]
Портрет пользователя ПП — набор параметров и их значений, описывающих предпочтения и свойства пользователя. [email_address]
Пример ПП [email_address]
Методы построения ПП Предварительное анкетирование; Учет активности пользователя при работе  с информационными ресурсами. [email_address]
Типичный подход к построению ПП Используют готовую онтологическую структуру (Open Directory); Категории, в которые попало больше документов составляют ПП; Документ соотносится с категорией и с ПП на основе скалярного произведения. [email_address]
Построение ПП Персонификация поисковых систем; Персональные агенты; [email_address]
Явные или неявные  [2] Явные: - дополнительная нагрузка на пользователя; - не все пользователи дают оценки - нерепрезентативно; - легко интерпретировать. Неявные: - запросы, клики, время, скроллинг. - нет нагрузки на пользователя; - сложно интерпретировать. [email_address]
Персонификация поисковой системы  [3] [email_address] PageRank Topic-Sensitive PageRank
Персонификация поисковой системы  [3] [email_address] Портрет — вектор тематических предпочтений Вычисляется по истории кликов из соотношения: V(p) —  вероятность попадания  на страницу p.
Персонификация поисковой системы  [3] [email_address] PPR — Personalized PageRank: T(i)  — элемент вектора тематических предпочтений пользователя; Pr(q|T(i))  — вероятность того, что пользователь введет запрос  q , если его заинтересует тема  i . i
Персонификация поисковой системы  [3] [email_address]
Персональный агент  [4] Задача: снятие омонимии в запросе с помощью портрета пользователя, построенного по его поисковой истории. [email_address]
Информационный портрет пользователя ИПП — набор параметров и их значений, описывающих сферу интересов пользователя, интересующие его области знаний. ИПП —  вектор, элементами которого являются понятия с указанием веса, характеризующего степень интересности понятия пользователю. [email_address]
Получение пользовательской оценки [email_address] Дата оценки Имя участника эксперимента Текст запроса Ссылка на документ Фрагмент текста Оценка соответствия фрагмента запросу Журнал оценок
Программный комплекс [email_address] прокси-сервер Internet пользователь userRater sengineRater profileRater profileBuilder журнал оценок ИПП (profile)
Построение ИПП [email_address] Алгоритм  « Words » 1. Объединяем все фрагменты в супердокумент; 2. Вычисляем веса слов  w i  в супердокументе.  ИПП   — один вектор  W . Алгоритм  « Querys » 1. Объединяем в супердокументы фрагменты по одному запросу; 2. Вычисляем веса слов  w i  в супердокументах. ИПП   — набор векторов запросов (категорий).
TF*IDF i3s.utmn.ru w ij  = tf ij ×idf i idf i  = log( N/n i  ) TF  – частота термина в документе IDF  – редкость термина в коллекции
Вес слова в супердокументе [email_address] tf i   — число вхождений слова в супердокумент, r i   — средняя пользовательская оценка слова в супердокументе, ipm i   — (instances per million), среднестатистическое для русских текстов число вхождений слова на миллион.
1977  ―  Частотный словарь русского языка под ред. Л. Н. Засориной (~ миллион слов с 20-х до 60-х годов). Советский,   товарищ  чаще чем  где, здесь, ваш. Партия, революция, коммунистический  чаще чем  назад, около, лучше. 2002  ― С. А. Шаров.  (~ 16 миллионов слов c 1970 по 2002). Частотные словари [email_address]
Оценка системой персонификации [email_address] Получаем полный текст документа; Строим вектор документа  W doc ; Из ИПП берем вектор очередной категории  W profile ; По словам, входящим одновременно и в  W doc и в  W profile  вычисляем оценку сходства sim( W doc ,  W profile ); Переходим к пункту 3, пока не оценим сходство документа с каждой категорией.
Оценка документа поисковой системой [email_address] d   — номер позиции документа в линейном списке документов, возвращенных по запросу; dcount   — общее количество документов в списке.
Оценка документа поисковой системой [email_address] Если документ не проиндексирован поисковой системой, то  r sengine = 0 ; Если документ проиндексирован, но не выдан по запросу, то  r sengine =  − 1 ; Для получения линейного списка: pag=u&rd=0 ; Проиндексирован ли документ: ras=1&text=&site=<ссылка на документ> ; Проверялись только 1000 первых позиций списка результатов.
Оценка стабильности портрета [email_address] W profile1   — вектор категории портрета до добавления фрагмента; W profile2   — вектор категории портрета после добавления фрагмента. При этом: Если слово входило в  W profile1   и не входило в  W profile2 , то его вес в  W profile2   считался равным 0.
Данные для исследования [email_address] 6 человек 14 поисковых историй Средняя длина истории 42,14 фрагмента
Оценка стабильности портрета [email_address] sim words_added
Оценка стабильности портрета [email_address] sim words_added
Оценка стабильности портрета [email_address] sim words_added
Зависимость портрета от контекста [email_address] Режим целевого задания; Одна и та же поисковая система; Практически одни и те же документы.
Зависимость портрета от контекста [email_address]
Влияние на результаты поиска [email_address]
Обобщенная величина расхождения оценок [email_address] 0 — оценки совпадают; 1 — оценки противоположны.   —  оценка i-той страницы пользователем;   —  оценка i-той страницы системой без персонификации.
Расхождения оценок [email_address]
Выводы Предложенный алгоритм позволяет на 10-11 фрагменте получать стабильный ИПП; Получаемый портрет выражает индивидуальный контекст пользователя; Применяя ИПП можно улучшить работу поисковых систем. [email_address]
Метрики [email_address] Точность, полнота и их производные. Основанные на разнице векторов: diff , Average Distance Measure  [5] .
Average Distance Measure  [5] [email_address]
Average Distance Measure  [5] [email_address]
Оценка документов и фрагментов
Ссылки S. Gabrielli and S. Mizzaro.  Negotiating a multidimensional framework for relevance space. In S. W. Draper, M. D. Dunlop, I. Ruthven, and C. J. van Rijsbergen, editors, Mira 99: Evaluating interactive information retrieval - Proceedings of MIRA 1999 Conference, eWiC - electronic Workshops in Computing, pages 1-15, Glasgow, UK, 1999. The British Computer Society. Mikhail Bilenko and Pavel Dmitriev  Machine Learning Algorithms for Web-related problems (MLA).  RuSSIR'2007,  http://romip.ru/russir2007/schedule.html#mla Qiu F. Automatic identification of user interest for personalised search / F. Qiu, J.Cho // WWW'06, ACM Press. - 2006. А.В. Широков.  Разработка модели информационного портрета пользователя для персонифицированного поиска.  Отчет по итогам исследования в рамках конкурса научных проектов «Интернет-математика 2007», http://download.yandex.ru/IMAT2007/shirokov.pdf.

More Related Content

PPT
Russir 2010 final
PPTX
Word2vec для поискового движка
PPTX
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
PDF
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
PDF
Генерация вопросов к тексту
PDF
Ruwikt
PPTX
Создание репозитория вуза на платформе Dspace
PDF
Фишки из патентов Google
Russir 2010 final
Word2vec для поискового движка
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Генерация вопросов к тексту
Ruwikt
Создание репозитория вуза на платформе Dspace
Фишки из патентов Google

What's hot (13)

PPTX
Мищенко. Методы автоматического определения наиболее частотного значения слова.
PPTX
Технологический стек классификации текстов на естественных языках
PPT
Алексей Колосов
PDF
Комбинирование факторов для разрешения референции местоимений
PDF
Сбор, анализ, обработка текстовой информации
PDF
Муромцев. Методы анализа социальных графов и поиска сообществ
PDF
Запуск клуба "Поисковые системы"
PPTX
Html5 css3 занятие 2
PDF
Query expansion
PPTX
Html5 css3 занятие 3
PPTX
Html5 css3 занятие 4
POT
Algorithms overview for content discovery and distribution (on russian)
PPT
Методы автоматического аннотирования изображений
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Технологический стек классификации текстов на естественных языках
Алексей Колосов
Комбинирование факторов для разрешения референции местоимений
Сбор, анализ, обработка текстовой информации
Муромцев. Методы анализа социальных графов и поиска сообществ
Запуск клуба "Поисковые системы"
Html5 css3 занятие 2
Query expansion
Html5 css3 занятие 3
Html5 css3 занятие 4
Algorithms overview for content discovery and distribution (on russian)
Методы автоматического аннотирования изображений
Ad

Viewers also liked (20)

PPT
Guia argentina de tratamiento de la EPOC
PPT
Maleev
PPTX
Xee Me How To -- Getting started
PPTX
Hap Snap Zap Inspiratie
PPT
Economics homework on fronter
PPTX
Presentatie dag 3
PPT
потапов
PPTX
Presentatie dag 1
PPTX
Iceland 2011
PPTX
Smacad hiring asmm-2011
PPTX
Workshop Sociale Media Bingo (SPOK15)
PDF
S3 Buzz Marketing For Startups
PPTX
Sustainability 05 2011
PPTX
Workshop Mediawijsheid in de klas: de én-én aanpak
PPT
Globalisation
PPTX
Pm webinar-sep2010
PPTX
Asian 2001 05
PPTX
Ecmon 0.5
PPT
Sustaibability 01 CESA
PPTX
Mitsov
Guia argentina de tratamiento de la EPOC
Maleev
Xee Me How To -- Getting started
Hap Snap Zap Inspiratie
Economics homework on fronter
Presentatie dag 3
потапов
Presentatie dag 1
Iceland 2011
Smacad hiring asmm-2011
Workshop Sociale Media Bingo (SPOK15)
S3 Buzz Marketing For Startups
Sustainability 05 2011
Workshop Mediawijsheid in de klas: de én-én aanpak
Globalisation
Pm webinar-sep2010
Asian 2001 05
Ecmon 0.5
Sustaibability 01 CESA
Mitsov
Ad

Similar to Personilized search (20)

PDF
Принципы работы поисковой системы
PDF
Принципы работы поисковой системы
PPT
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
PPTX
Знакомство с Online Test Pad
PPT
Digitalcontent
PPT
Презентация Academ live
PPT
Система AcademLive.
PPTX
НИР "Анализ информационной деятельности территориальных органов МЧС России"
PPT
дипломная презентация по автоматизированным информационным системам
PPTX
Больше чем анализ
PPTX
Продвижение сайтов в Уфе от Андрея Буйлова
PPTX
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...
PPT
Trpo 3 создание_по2
PPTX
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт
PDF
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
PPTX
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
PPT
DBD lection 1. Intro in Database Design. In Russian.
PPTX
Автоматизированный подход к локализации корпоративных приложений
PPTX
Современное программное обеспечение в работе психолога
Принципы работы поисковой системы
Принципы работы поисковой системы
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
Знакомство с Online Test Pad
Digitalcontent
Презентация Academ live
Система AcademLive.
НИР "Анализ информационной деятельности территориальных органов МЧС России"
дипломная презентация по автоматизированным информационным системам
Больше чем анализ
Продвижение сайтов в Уфе от Андрея Буйлова
SEO-аналитика: находим, анализируем, используем, усовершенствуем - 07.11.17 -...
Trpo 3 создание_по2
«Где на самом деле начинается конверсия», Анастасия Берсенева, ТопЭксперт
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
DBD lection 1. Intro in Database Design. In Russian.
Автоматизированный подход к локализации корпоративных приложений
Современное программное обеспечение в работе психолога

More from NLPseminar (20)

PPTX
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
PPTX
Events
PPTX
Tomita
PPT
бетин
PDF
Andreev
PPTX
клышинский
PDF
конф ии и ея гаврилова
PPTX
кудрявцев V3
PPT
rubashkin
PPTX
Vlasova
PDF
Ageev
PPSX
Khomitsevich
PPTX
акинина осмоловская
PDF
Serebryakov
PPT
molchanov(promt)
PDF
белканова
PDF
Skatov
PPTX
гвоздикин
PPT
веселов
PPTX
Compreno_Starostin
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
Events
Tomita
бетин
Andreev
клышинский
конф ии и ея гаврилова
кудрявцев V3
rubashkin
Vlasova
Ageev
Khomitsevich
акинина осмоловская
Serebryakov
molchanov(promt)
белканова
Skatov
гвоздикин
веселов
Compreno_Starostin

Personilized search

  • 1. Методы персонифицированного поиска информации Алексей Широков [email_address]
  • 2. Традиционная задача поиска [email_address] V  — множество всех узлов гипертекста, v  — множество узлов, отобранных по запросу, q  — условия пользовательского запроса. v = ƒ(V, q)
  • 3. Модернизированная задача поиска [email_address] V  — множество всех узлов гипертекста, v  — множество узлов, отобранных по запросу, q  — условия пользовательского запроса, p  — портрет пользователя. v = ƒ(V, q, p )
  • 4. Применение портрета Улучшение поисковых систем; Дополнение браузеров советующей навигационной системой; Поиск без участия пользователя с помощью обучаемых агентов; Построение социальных сетей. [email_address]
  • 5. Задачи [email_address] Создать модель портрета; Выбрать метод обучения для построения портрета; Разработать методы применения портрета для улучшения поиска.
  • 6. Чем различаются пользователи? [email_address] Уровень априорных знаний по теме поиска; Способность сформулировать запрос; Предпочтения по стилю изложения, оформлению, структуре, авторитетности источника; Задачи, для решения которых используются информационные ресурсы; Пол, возраст, географическая привязка.
  • 7. Релевантность [email_address]  —  Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия.
  • 8. Релевантность [email_address]  —  Соответствие между объектами P и Q по некоторому набору свойств R. Может включать в себя S как меру соответствия. Персонификация — в различной значимости свойств для пользователя.
  • 9. Две релевантности [email_address] 1. С точки зрения поисковой системы. 2. С точки зрения пользователя. Задача: сблизить эти точки зрения.
  • 10. Релевантность Silvia Gabrielli, Stefano Mizzaro MIRA Conference, 1999 [1]
  • 11. Портрет пользователя ПП — набор параметров и их значений, описывающих предпочтения и свойства пользователя. [email_address]
  • 13. Методы построения ПП Предварительное анкетирование; Учет активности пользователя при работе с информационными ресурсами. [email_address]
  • 14. Типичный подход к построению ПП Используют готовую онтологическую структуру (Open Directory); Категории, в которые попало больше документов составляют ПП; Документ соотносится с категорией и с ПП на основе скалярного произведения. [email_address]
  • 15. Построение ПП Персонификация поисковых систем; Персональные агенты; [email_address]
  • 16. Явные или неявные [2] Явные: - дополнительная нагрузка на пользователя; - не все пользователи дают оценки - нерепрезентативно; - легко интерпретировать. Неявные: - запросы, клики, время, скроллинг. - нет нагрузки на пользователя; - сложно интерпретировать. [email_address]
  • 17. Персонификация поисковой системы [3] [email_address] PageRank Topic-Sensitive PageRank
  • 18. Персонификация поисковой системы [3] [email_address] Портрет — вектор тематических предпочтений Вычисляется по истории кликов из соотношения: V(p) —  вероятность попадания на страницу p.
  • 19. Персонификация поисковой системы [3] [email_address] PPR — Personalized PageRank: T(i)  — элемент вектора тематических предпочтений пользователя; Pr(q|T(i))  — вероятность того, что пользователь введет запрос q , если его заинтересует тема i . i
  • 21. Персональный агент [4] Задача: снятие омонимии в запросе с помощью портрета пользователя, построенного по его поисковой истории. [email_address]
  • 22. Информационный портрет пользователя ИПП — набор параметров и их значений, описывающих сферу интересов пользователя, интересующие его области знаний. ИПП —  вектор, элементами которого являются понятия с указанием веса, характеризующего степень интересности понятия пользователю. [email_address]
  • 23. Получение пользовательской оценки [email_address] Дата оценки Имя участника эксперимента Текст запроса Ссылка на документ Фрагмент текста Оценка соответствия фрагмента запросу Журнал оценок
  • 24. Программный комплекс [email_address] прокси-сервер Internet пользователь userRater sengineRater profileRater profileBuilder журнал оценок ИПП (profile)
  • 25. Построение ИПП [email_address] Алгоритм « Words » 1. Объединяем все фрагменты в супердокумент; 2. Вычисляем веса слов w i в супердокументе. ИПП   — один вектор W . Алгоритм « Querys » 1. Объединяем в супердокументы фрагменты по одному запросу; 2. Вычисляем веса слов w i в супердокументах. ИПП   — набор векторов запросов (категорий).
  • 26. TF*IDF i3s.utmn.ru w ij = tf ij ×idf i idf i = log( N/n i ) TF – частота термина в документе IDF – редкость термина в коллекции
  • 27. Вес слова в супердокументе [email_address] tf i   — число вхождений слова в супердокумент, r i   — средняя пользовательская оценка слова в супердокументе, ipm i   — (instances per million), среднестатистическое для русских текстов число вхождений слова на миллион.
  • 28. 1977 ― Частотный словарь русского языка под ред. Л. Н. Засориной (~ миллион слов с 20-х до 60-х годов). Советский, товарищ чаще чем где, здесь, ваш. Партия, революция, коммунистический чаще чем назад, около, лучше. 2002 ― С. А. Шаров. (~ 16 миллионов слов c 1970 по 2002). Частотные словари [email_address]
  • 29. Оценка системой персонификации [email_address] Получаем полный текст документа; Строим вектор документа W doc ; Из ИПП берем вектор очередной категории W profile ; По словам, входящим одновременно и в W doc и в W profile вычисляем оценку сходства sim( W doc , W profile ); Переходим к пункту 3, пока не оценим сходство документа с каждой категорией.
  • 30. Оценка документа поисковой системой [email_address] d   — номер позиции документа в линейном списке документов, возвращенных по запросу; dcount   — общее количество документов в списке.
  • 31. Оценка документа поисковой системой [email_address] Если документ не проиндексирован поисковой системой, то r sengine = 0 ; Если документ проиндексирован, но не выдан по запросу, то r sengine = − 1 ; Для получения линейного списка: pag=u&rd=0 ; Проиндексирован ли документ: ras=1&text=&site=<ссылка на документ> ; Проверялись только 1000 первых позиций списка результатов.
  • 32. Оценка стабильности портрета [email_address] W profile1   — вектор категории портрета до добавления фрагмента; W profile2   — вектор категории портрета после добавления фрагмента. При этом: Если слово входило в W profile1 и не входило в W profile2 , то его вес в W profile2 считался равным 0.
  • 33. Данные для исследования [email_address] 6 человек 14 поисковых историй Средняя длина истории 42,14 фрагмента
  • 37. Зависимость портрета от контекста [email_address] Режим целевого задания; Одна и та же поисковая система; Практически одни и те же документы.
  • 38. Зависимость портрета от контекста [email_address]
  • 39. Влияние на результаты поиска [email_address]
  • 40. Обобщенная величина расхождения оценок [email_address] 0 — оценки совпадают; 1 — оценки противоположны.   —  оценка i-той страницы пользователем;   —  оценка i-той страницы системой без персонификации.
  • 42. Выводы Предложенный алгоритм позволяет на 10-11 фрагменте получать стабильный ИПП; Получаемый портрет выражает индивидуальный контекст пользователя; Применяя ИПП можно улучшить работу поисковых систем. [email_address]
  • 43. Метрики [email_address] Точность, полнота и их производные. Основанные на разнице векторов: diff , Average Distance Measure [5] .
  • 44. Average Distance Measure [5] [email_address]
  • 45. Average Distance Measure [5] [email_address]
  • 46. Оценка документов и фрагментов
  • 47. Ссылки S. Gabrielli and S. Mizzaro. Negotiating a multidimensional framework for relevance space. In S. W. Draper, M. D. Dunlop, I. Ruthven, and C. J. van Rijsbergen, editors, Mira 99: Evaluating interactive information retrieval - Proceedings of MIRA 1999 Conference, eWiC - electronic Workshops in Computing, pages 1-15, Glasgow, UK, 1999. The British Computer Society. Mikhail Bilenko and Pavel Dmitriev Machine Learning Algorithms for Web-related problems (MLA). RuSSIR'2007, http://romip.ru/russir2007/schedule.html#mla Qiu F. Automatic identification of user interest for personalised search / F. Qiu, J.Cho // WWW'06, ACM Press. - 2006. А.В. Широков. Разработка модели информационного портрета пользователя для персонифицированного поиска. Отчет по итогам исследования в рамках конкурса научных проектов «Интернет-математика 2007», http://download.yandex.ru/IMAT2007/shirokov.pdf.