SlideShare a Scribd company logo
Построение отношений в
гибридной онтологической
сети
Пономарёв С. В.
ponomarev@corp.sputnik.ru
«Спутник»
Гибридная онтологическая сеть
Объединим в одной сети:
• частотные источники информации (достоверность < 1):
• согласованные биграммы;
• несогласованные биграммы;
• онтологическую информацию (достоверность = 1):
• Викисловарь;
• словари синонимов/ассоциаций/толковые.
В результате получим сеть из 1.4 млн. узлов (слов и
словосочетаний) с 0.6 млрд. связей между ними 64-х типов.
Пример кодирования отношений
4+4связей 6+6 связей
Итого: (4+4)*(6+6) = 96 пути от апельсина к цвету через оранжевый
Апельсин
исходящих: 4508
входящих: 6369
типов: 31
Оранжевый
исходящих: 11305
входящих: 10288
типов: 22
Цвет
исходящих: 38078
входящих: 46791
типов: 39
Отношение подобия
Поканально сравним связи двух слов:
Отношение подобия характеризуется количеством совпадающих связей у двух
узлов, сравниваемых поканально. Всего 64 канала – 64 параметра для
настройки.
Отношение подобия (взаимозаменяемость, синонимичность) – полезная
метрика, реализуемая низкими вычислительными затратами.
Обучение отношениям
«Апельсин»:
• связан с 6701 узлов;
«Помидор»:
• связан с 6671 узлов;
Узлов, с которыми имеют связи и «Апельсин» и «Помидор» 5692;
Всего возможных путей между двумя произвольными узлами сети 64*64 = 4096,
из них – между «Апельсин» и «Помидор» реализуются 26*22=572 путей.
При задании обучающей выборки в виде пары слов, имеющих заданный тип
семантических отношений, настройка весовых коэффициентов каждого из
возможных весов между узлами позволяет обучаться реализовать
заданный тип отношений.
По обучающей выборке от Организаторов обучены отношения: «синоним»,
«гиперним» и «гипоним».
Классификатор семантической
близости
Логистическая регрессия из:
Классификатор ассоциативных связей
Деревья решений по группам факторов:
• Факторы совместности (слова встречаются вместе):
• в онтологической сети (т.е. – названиях словарных статей);
• в названиях статей Википедии;
• в логах поисковых запросов;
• Частотные факторы:
• Word2Vec в режиме Skip_Grams;
• Word2Vec в режиме Bag_of_Words;
• отношения семантической близости;
• Грамматические факторы:
• несовпадение пола;
• несовпадение числа;
• несовпадение падежа.
Тестирование на корреляцию с
человеческими оценками
Результат 0.6641, 6-е место.
К сожалению, сильная ограниченность обучающей выборки по данной
дорожке (65 позиций всего), не позволила использовать методы
машинного обучения, а логистическая регрессия не показала
приемлемых результатов. Другим фактором, снизившим результаты
тестирования, является принцип построения системы только на
связях между словами, без разбора внутренней структуры слова. В
тестовой выборке присутствовали синтетические слова, например
«киновидеотеатр», которые, как показали исследования, ни разу не
встречались даже при статистической обработке больших
текстовых корпусов.
Тестирование на степень
семантической близости
Результат 0.9209, 3-е место.
Относительно высокие результаты в тестировании получены
благодаря комбинации двух методик — оценки синонимичности
слов по онтологической сети — что имеет эффект на давно
известных и распространённых словах и использования Word2Vec,
который, будучи обученным за месяц до конкурса, содержал в себе
новые слова и отношения между ними. Негативный эффект от
отсутствия в системе разбора состава слова сохранился, поскольку
для Word2Vec такие слова как «адыгеец» и «адыгейка» являются
совершенно разными, а частота их появления в поисковых запросах
— близка к нулю, что не даёт возможности установить между
словами связь.
Тестирование ассоциаций (Русский
Ассоциативный Тезаурус)
Результат 0.9277, 3-е место.
При анализе обучающей выборки, представленной Организаторами, стало
заметно, что многие ассоциации представлены в виде нескольких слов.
Типичная ассоциация из нескольких слов — это продолжение поговорки
(«слово не воробей») или широко известного названия художественного
произведения («белое солнце пустыни»). Таким образом, для предсказания
ассоциаций необходимо иметь достаточно подробный перечень поговорок,
афоризмов, названий и прочих культурных артефактов. Для этой цели
использовались названия статей Википедии и логи поисковых запросов. В
обоих источниках информации проверялось, существует или нет
словосочетание, составленное из исследуемых слов/словосочетаний и если
существует — вычислялась его удельная доля среди всех словосочетаний.
Данный подход хорошо работает на названиях фильмов и книг, поскольку
такие названия широко представлены в Википедии и логах поисковых
запросов, но указанные источники бедны поговорками и афоризмами, что и
привело к относительно невысоким результатам тестирования.
Тестирование ассоциаций
(Sociation.org)
Результат 0.9849, 1-е место.
Структура тестовых данных из Sociation.org такова, что комбинация
применявшихся подходов и источников информации оказалась
эффективной. Метод вычисления подобия, описанный ранее, по
сути своей вычисляет степень ассоциированности пары слов,
учитывая подобие структуры связей этих слов в онтологической
сети. Word2Vec также вычисляет степень ассоциированности
слов по их контекстам в поисковых запросах. При этом,
Word2Vec обеспечил отработку новых слов, появившихся
недавно, например «аватар» и «эйва».
Спасибо за внимание
Пономарёв С. В.
ponomarev@corp.sputnik.ru
«Спутник»

More Related Content

PPTX
Концепция поисковых расширений
DOC
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
PPT
Перефразировщик текста
PPTX
Word2vec для поискового движка
PPTX
Технологический стек классификации текстов на естественных языках
PDF
Query expansion
PPT
[Youdz.ru] поиск в интернете.
PPT
Автоматический анализ текста для аннотирования изображения
Концепция поисковых расширений
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
Перефразировщик текста
Word2vec для поискового движка
Технологический стек классификации текстов на естественных языках
Query expansion
[Youdz.ru] поиск в интернете.
Автоматический анализ текста для аннотирования изображения

Viewers also liked (6)

ODP
Классификация поисковых запросов
DOC
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
PPTX
Конкурс Родная речь 2014
PPT
Автоматическая голосовая служба поддержки
ODP
Word2vec для поискового движка II
PPTX
Learning by Analogy
Классификация поисковых запросов
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
Конкурс Родная речь 2014
Автоматическая голосовая служба поддержки
Word2vec для поискового движка II
Learning by Analogy
Ad

Semantic evaluation on Dialog 2015

  • 1. Построение отношений в гибридной онтологической сети Пономарёв С. В. ponomarev@corp.sputnik.ru «Спутник»
  • 2. Гибридная онтологическая сеть Объединим в одной сети: • частотные источники информации (достоверность < 1): • согласованные биграммы; • несогласованные биграммы; • онтологическую информацию (достоверность = 1): • Викисловарь; • словари синонимов/ассоциаций/толковые. В результате получим сеть из 1.4 млн. узлов (слов и словосочетаний) с 0.6 млрд. связей между ними 64-х типов.
  • 3. Пример кодирования отношений 4+4связей 6+6 связей Итого: (4+4)*(6+6) = 96 пути от апельсина к цвету через оранжевый Апельсин исходящих: 4508 входящих: 6369 типов: 31 Оранжевый исходящих: 11305 входящих: 10288 типов: 22 Цвет исходящих: 38078 входящих: 46791 типов: 39
  • 4. Отношение подобия Поканально сравним связи двух слов: Отношение подобия характеризуется количеством совпадающих связей у двух узлов, сравниваемых поканально. Всего 64 канала – 64 параметра для настройки. Отношение подобия (взаимозаменяемость, синонимичность) – полезная метрика, реализуемая низкими вычислительными затратами.
  • 5. Обучение отношениям «Апельсин»: • связан с 6701 узлов; «Помидор»: • связан с 6671 узлов; Узлов, с которыми имеют связи и «Апельсин» и «Помидор» 5692; Всего возможных путей между двумя произвольными узлами сети 64*64 = 4096, из них – между «Апельсин» и «Помидор» реализуются 26*22=572 путей. При задании обучающей выборки в виде пары слов, имеющих заданный тип семантических отношений, настройка весовых коэффициентов каждого из возможных весов между узлами позволяет обучаться реализовать заданный тип отношений. По обучающей выборке от Организаторов обучены отношения: «синоним», «гиперним» и «гипоним».
  • 7. Классификатор ассоциативных связей Деревья решений по группам факторов: • Факторы совместности (слова встречаются вместе): • в онтологической сети (т.е. – названиях словарных статей); • в названиях статей Википедии; • в логах поисковых запросов; • Частотные факторы: • Word2Vec в режиме Skip_Grams; • Word2Vec в режиме Bag_of_Words; • отношения семантической близости; • Грамматические факторы: • несовпадение пола; • несовпадение числа; • несовпадение падежа.
  • 8. Тестирование на корреляцию с человеческими оценками Результат 0.6641, 6-е место. К сожалению, сильная ограниченность обучающей выборки по данной дорожке (65 позиций всего), не позволила использовать методы машинного обучения, а логистическая регрессия не показала приемлемых результатов. Другим фактором, снизившим результаты тестирования, является принцип построения системы только на связях между словами, без разбора внутренней структуры слова. В тестовой выборке присутствовали синтетические слова, например «киновидеотеатр», которые, как показали исследования, ни разу не встречались даже при статистической обработке больших текстовых корпусов.
  • 9. Тестирование на степень семантической близости Результат 0.9209, 3-е место. Относительно высокие результаты в тестировании получены благодаря комбинации двух методик — оценки синонимичности слов по онтологической сети — что имеет эффект на давно известных и распространённых словах и использования Word2Vec, который, будучи обученным за месяц до конкурса, содержал в себе новые слова и отношения между ними. Негативный эффект от отсутствия в системе разбора состава слова сохранился, поскольку для Word2Vec такие слова как «адыгеец» и «адыгейка» являются совершенно разными, а частота их появления в поисковых запросах — близка к нулю, что не даёт возможности установить между словами связь.
  • 10. Тестирование ассоциаций (Русский Ассоциативный Тезаурус) Результат 0.9277, 3-е место. При анализе обучающей выборки, представленной Организаторами, стало заметно, что многие ассоциации представлены в виде нескольких слов. Типичная ассоциация из нескольких слов — это продолжение поговорки («слово не воробей») или широко известного названия художественного произведения («белое солнце пустыни»). Таким образом, для предсказания ассоциаций необходимо иметь достаточно подробный перечень поговорок, афоризмов, названий и прочих культурных артефактов. Для этой цели использовались названия статей Википедии и логи поисковых запросов. В обоих источниках информации проверялось, существует или нет словосочетание, составленное из исследуемых слов/словосочетаний и если существует — вычислялась его удельная доля среди всех словосочетаний. Данный подход хорошо работает на названиях фильмов и книг, поскольку такие названия широко представлены в Википедии и логах поисковых запросов, но указанные источники бедны поговорками и афоризмами, что и привело к относительно невысоким результатам тестирования.
  • 11. Тестирование ассоциаций (Sociation.org) Результат 0.9849, 1-е место. Структура тестовых данных из Sociation.org такова, что комбинация применявшихся подходов и источников информации оказалась эффективной. Метод вычисления подобия, описанный ранее, по сути своей вычисляет степень ассоциированности пары слов, учитывая подобие структуры связей этих слов в онтологической сети. Word2Vec также вычисляет степень ассоциированности слов по их контекстам в поисковых запросах. При этом, Word2Vec обеспечил отработку новых слов, появившихся недавно, например «аватар» и «эйва».
  • 12. Спасибо за внимание Пономарёв С. В. ponomarev@corp.sputnik.ru «Спутник»