SlideShare a Scribd company logo
Семинар NLP 2010




Построение машинно-
   читаемого словаря
            на основе
Русского Викисловаря

       Санкт-Петербургский институт
    информатики и автоматизации РАН


Крижановский Андрей (andrew.krizhanovsky   ... gmail.com)
Содержание

Викисловарь
 применение
 достоинства и трудности обработки

MRD, парсер и сравнение Викисловарей
Эксперимент
 Корреляция мер семантической близости

Результаты
                                         2
Цель

Сделать возможным

применение данных Викисловаря

(как лингвистического ресурса)

в различных компьютерных программах,

в задачах, связанных с обработкой текста.
Применение Викисловаря
в компьютерных программах:
 текстовые поисковые системы
  расширение / переформулировка запросов с помощью тезаурусов

 запросно-ответные системы
  распознавание запроса

в задачах:
 определение значения многозначного слова
 сравнение онтологий (ontology matching)
 автоматическое создание тезаурусов
 машинный перевод
 компьютерные игры для изучения языков
               Медиа данные (звук + иллюстрации)
Задача
Преобразования данных Викисловаря в

машинную форму, а именно:

машинно-читаемый словарь (MRD).

MRD включает:
 Данные (база данных),
 Алгоритмы и функции (API)
Викисловарь –
много-           Грамматический
функциональный   Толковый
                 Этимологический
многоязычный     Многоязычный
словарь и
тезаурус
Викисловарь = вики + ?

?   Структура статьи = f (язык, ~часть речи)
    ? Определена последовательность частей статьи
    ? Шаблоны:
      ? структурные шаблоны ({{пример|}}, {{морфо|}})
      ? словоизменений, этимологии, родств. слова,
       пометы…

Т.о. жёсткая схема даёт:
  + единообразие, системность
  + возможность автоматически анализировать текст       7
Данные Викисловаря:
     плюсы и трудности
+ Богатство                − Разная степень
  + тезаурус                 стандартизации и
   (синонимы, антонимы…)
  + фразеологизмы
                             формализации
  + этимология               (структура статьи) в
  + произношение             разных Викисловарях
  + примеры употр-ий       − Быстрый рост данных,
  + переводы                 но толпа:
  +…                         − Ручной ввод данных =>
+ Быстрый рост               − Ошибки =>
                               Парсер д.б. устойчив!
+ Интервики (доп. д.)      − Омонимия вне
+ Свободная лицензия         страницы (см. дальше)
                                                   8
Данные Викисловаря:
какие ещё статьи?
Слова
Устойчивые выражения, пословицы,
поговорки, крылатые слова, народные
приметы, загадки, скороговорки,
сокращения
Отдельные морфемы — корни, суффиксы,
приставки и т. д.
Омонимы, омографы, анаграммы,
метаграммы и рифмы
Требования к парсеру, БД
 и процессу разработки
Надёжность и устойчивость (lang=zzz, 8)
  Unit-тесты > 200, визуализация
Гибкость (раскопки форматов и правил)
  Тестирование («живая» документация)
Визуализация (Wiwordik, JavaFX)
Викисловарь ++. (рост в ширину)
  парсер = ядро + языкозависимая часть, ru + en
Инкрементальный подход (рост в глубину)
¿Интеграция?
Структура словарной

статьи в Русском

Викисловаре
Структура статьи и БД
Структура статьи и БД
Структура (толкование)




                третье значение
Внутренние ссылки (1)

# находящийся в [[работа|работе]];
предварительный, пробный, черновой
Внутренние ссылки (2): ?
Частота конкретных форм слова в словаре
 page_inflection . term_freq

Информация о ссылках / ключевых словах
толкования на другие словарные статьи
 в поиск-х алг. (поиск синонимов)

Слова, для которых есть ссылки, но нет
словарных статей – всё равно добавляются
в таблицу «page».
Семантические
   отношения
Ruwikt
[[Категория:Имя категории]]
Цель: Автоматизация оглавления, поиск
 Грамматические категории
   Часть речи
   Тип словоизменения                Вшиты
   Одушевлённость                      в
   Грамматический род               шаблоны
 Стилистические свойства
 Служебные
 Семантика
   {{categ|Работа и труд|Рабочие|lang=}}
{{Шаблонизация}}
   всей страны!
+ Шаблоны автоматически проставляются
  ботами при создании статьи
+ Централизованная смена внешнего вида
  сразу многих статей
+ Автоматизация редактирования (ботами,
  парсером), т.к. есть разметка спец-ми
  конструкциями
+ Автоматизация категоризации
  × {{сущ ru m ina}} → категории «Мужской род» и
    «Неодушевлённые»
─ Сложность освоения ☻
{{Шаблонизация}}
   Примеры
× {{-ru-}}, {{пример|}}
× Фонетические: {{transcriptions||}}, {{медиа}}
× {{морфо|под|вод|и|ть|ся}}
× Морфологические:
  × {{сущ ru}}, {{прил ru}}, {{сущ ru m ina}}, {{adv ru}}
  × {{сущ eo}}, {{прил eo}}, {{adv eo}}, {{гл eo}}
× Шаблоны библиографии
  × {{НКРЯ}}, {{Ушаков1940}}, {{Эпитет1913}}
× Технические (из Википедии):
  × {{За}}, {{wikify}}, «вавилонские шаблоны»
Быстрый поиск на
заданном языке (1)
Быстрый поиск на
   заданном языке (2)

                                  1 таблица




                                   + ещё 561 таблица




Список кодов языков: http://ru.wiktionary.org/wiki/шаблон:перев-блок
Схема БД
машинно-
читаемого
словаря
на основе
Викисловаря
              24
А
р
х
и
т
е
к
т
у
р
а
Правила извлечения текста:
     Регулярные выражения (1)

({{)-([-_a-zA-Z]{2,9})-(?:}}||.*?}})|(Q{{заголовок|E)(.*?)}}

1.   {{-ru-}} {{-en-}} {{-de-}} –> ru en de

2.   {{-de-|schwalbe}} -> de

3.   {{заголовок|ka|add=}} -> ka|add=
     {{заголовок|ka}} -> ka
Регулярные выражения (2)

1.   ====?s*Значениеs*====?s*n

2.   (?m)^==s*([^=]+?)s*==s*

      ==рабочий I==, == Существительное I ==


3.   #(REDIRECT|ПЕРЕНАПРАВЛЕНИЕ) [[(.+?)]]

     #ПЕРЕНАПРАВЛЕНИЕ [[нелётный]] -> нелётный
Перенаправления
1.       Указание основной формы слова
     •    маня -> манить
2.       Подсказка
         об ошибке
     всё-равно -> всё равно
3.       Диакритики
     •    зверье –> зверьё, coeur -> cœur
4.       Неточная кодировка
     •    лiс –> ліс (I латиница, І кириллица)
5.       Со строчной буквы на прописную
         москва -> Москва
Реализация 1

Программный код включает наработки:
 synarcher – поиск синонимов в Википедии
 wikidf – индексирование текстов Википедии
Java
База данных:
 MySQL - для разработки и тестирования
 SQLite – в скачиваемом приложении
JUnit тестирование
                                             29
Р
е
а
л
и
з
а
ц
и
я
Размеры Викисловарей




WordNet (2006): 150,000 слов, 115,000 синсетов (наборов синонимов)
Ruwikt
Кратчайший путь в
Русском Викисловаре
Корреляция мер
семантической близости
                   Корреляция мер
                   семантической
                   близости слов:
                   1) значения
                   экспертов
                   (набор 353-TC),
                   2) значения
                   вычислены
                   автоматически на
                   основе WordNet,
                   Английской
                   Википедии,
                   Русского
                   Викисловаря
Восемь самых больших
Викисловарей (янв 2010)
Результаты
Создан парсер Русского Викисловаря
  Спроектирована схема БД
  Реализован доступ к БД (API, Java)

Выполнено сравнение результатов поиска
семантически близких слов на основе
Викисловаря и тезауруса WordNet

Сайт проекта (Wiki tool kit)
  http://code.google.com/p/wikokit/
                                         36
Сделано и ещё делать
  (схема БД, парсер)
• Извлекаются (RE)              Русский Викисловарь
  – Толкование                  English Wiktionary
   – определение
   – помета, цитата, картинка   • Уровни
  – Отношение                     – Схема БД (+ table)
   (синонимы…, помета)
                                  – API Базы данных
  – Перевод
                                  – Код (+ class, RE)
  – Фонетика
   – Транскрипция, Аудио
  – Этимология
  – Фразеологизмы,
    поговорки, пословицы
  –…
Планы
Продолжить разработку MRD
 Наращивание функц-ти парсера, отладка
 + English Wiktionary

Визуализация (JavaFX)
 MRD браузер
 Игры и тесты (изучение иностранных языков)
Спасибо за внимание!




   http://ru.wiktionary.org/

More Related Content

PPT
Russir 2010 final
PDF
разработка методов извлечения информации из веб ресурсовSw
PDF
извлечение объектов и фактов из текстов
PPT
PressPortrets
PPT
Fact Extraction (ideograph)
PPTX
Html5 css3 занятие 2
PDF
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
PPTX
СУБД 2013 Лекция №1 "Введение и начало проектирования"
Russir 2010 final
разработка методов извлечения информации из веб ресурсовSw
извлечение объектов и фактов из текстов
PressPortrets
Fact Extraction (ideograph)
Html5 css3 занятие 2
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
СУБД 2013 Лекция №1 "Введение и начало проектирования"

What's hot (14)

PPTX
Tomita
PDF
кулагин поиск близких по смыслу языковых выражений
PDF
Котиков Простые методы выделения ключевых слов и построения рефератов
PPTX
Html5 css3 занятие 4
PPTX
Html5 css3 занятие 3
PPT
Извлечение знаний и фактов из текстов
PPT
Web осень 2012 лекция 5
PPTX
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений Трофименко
PDF
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
PPT
Personilized search
PDF
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...
PPTX
СУБД осень 2012 лекция 1
PPT
Поиск информации в Интернете
PPT
Введение в информационный поиск
Tomita
кулагин поиск близких по смыслу языковых выражений
Котиков Простые методы выделения ключевых слов и построения рефератов
Html5 css3 занятие 4
Html5 css3 занятие 3
Извлечение знаний и фактов из текстов
Web осень 2012 лекция 5
Переформулировки поисковых запросов в Яндексе / ноябрь 2010 / Евгений Трофименко
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Personilized search
Три вызова реляционным СУБД и новый PostgreSQL - #PostgreSQLRussia семинар по...
СУБД осень 2012 лекция 1
Поиск информации в Интернете
Введение в информационный поиск
Ad

Viewers also liked (6)

PPT
2010 x change-social_media-academy
PPTX
2011.07 marketing
PDF
Auckland Party People Supplier Info
PPT
потапов
PPT
00 summer research-global-economies
PPTX
10 Key Benefits of Local Marketing
2010 x change-social_media-academy
2011.07 marketing
Auckland Party People Supplier Info
потапов
00 summer research-global-economies
10 Key Benefits of Local Marketing
Ad

Similar to Ruwikt (20)

PPTX
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
PPTX
Современный подход к локализации на примере одного проекта
PDF
Сбор, анализ, обработка текстовой информации
PDF
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
PPTX
559646.pptx
PPT
Проблемы автоматической рубрикации текстов
PPTX
!Predictive analytics part_3
PDF
Фвтоматическая кластеризация значений многозначных слов
PDF
Комбинирование факторов для разрешения референции местоимений
PPT
Презентация PROMT для РИТ
PPT
гибридная технология перевода. юлия епифанцева. зал.4
PPT
Извлечение терминологических словосочетаний из текстов
PDF
Query expansion
PPTX
P3 ozo 1 kurs kav
PPT
Программная поддержка языка лексико-синтаксических шаблонов
PDF
Принципы работы поисковой системы
PDF
Принципы работы поисковой системы
PDF
Основы С++ (операторы, типы данных, функции)
PPT
Rgsu04
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Современный подход к локализации на примере одного проекта
Сбор, анализ, обработка текстовой информации
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
559646.pptx
Проблемы автоматической рубрикации текстов
!Predictive analytics part_3
Фвтоматическая кластеризация значений многозначных слов
Комбинирование факторов для разрешения референции местоимений
Презентация PROMT для РИТ
гибридная технология перевода. юлия епифанцева. зал.4
Извлечение терминологических словосочетаний из текстов
Query expansion
P3 ozo 1 kurs kav
Программная поддержка языка лексико-синтаксических шаблонов
Принципы работы поисковой системы
Принципы работы поисковой системы
Основы С++ (операторы, типы данных, функции)
Rgsu04

More from NLPseminar (20)

PPTX
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
PPTX
Events
PPT
бетин
PDF
Andreev
PPTX
клышинский
PDF
конф ии и ея гаврилова
PPTX
кудрявцев V3
PPT
rubashkin
PPTX
Vlasova
PDF
Ageev
PPSX
Khomitsevich
PPTX
акинина осмоловская
PDF
Serebryakov
PPT
molchanov(promt)
PDF
белканова
PDF
Skatov
PPTX
гвоздикин
PPT
веселов
PPTX
Mitsov
PPT
Maleev
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
Events
бетин
Andreev
клышинский
конф ии и ея гаврилова
кудрявцев V3
rubashkin
Vlasova
Ageev
Khomitsevich
акинина осмоловская
Serebryakov
molchanov(promt)
белканова
Skatov
гвоздикин
веселов
Mitsov
Maleev

Ruwikt

  • 1. Семинар NLP 2010 Построение машинно- читаемого словаря на основе Русского Викисловаря Санкт-Петербургский институт информатики и автоматизации РАН Крижановский Андрей (andrew.krizhanovsky ... gmail.com)
  • 2. Содержание Викисловарь применение достоинства и трудности обработки MRD, парсер и сравнение Викисловарей Эксперимент Корреляция мер семантической близости Результаты 2
  • 3. Цель Сделать возможным применение данных Викисловаря (как лингвистического ресурса) в различных компьютерных программах, в задачах, связанных с обработкой текста.
  • 4. Применение Викисловаря в компьютерных программах: текстовые поисковые системы расширение / переформулировка запросов с помощью тезаурусов запросно-ответные системы распознавание запроса в задачах: определение значения многозначного слова сравнение онтологий (ontology matching) автоматическое создание тезаурусов машинный перевод компьютерные игры для изучения языков Медиа данные (звук + иллюстрации)
  • 5. Задача Преобразования данных Викисловаря в машинную форму, а именно: машинно-читаемый словарь (MRD). MRD включает: Данные (база данных), Алгоритмы и функции (API)
  • 6. Викисловарь – много- Грамматический функциональный Толковый Этимологический многоязычный Многоязычный словарь и тезаурус
  • 7. Викисловарь = вики + ? ? Структура статьи = f (язык, ~часть речи) ? Определена последовательность частей статьи ? Шаблоны: ? структурные шаблоны ({{пример|}}, {{морфо|}}) ? словоизменений, этимологии, родств. слова, пометы… Т.о. жёсткая схема даёт: + единообразие, системность + возможность автоматически анализировать текст 7
  • 8. Данные Викисловаря: плюсы и трудности + Богатство − Разная степень + тезаурус стандартизации и (синонимы, антонимы…) + фразеологизмы формализации + этимология (структура статьи) в + произношение разных Викисловарях + примеры употр-ий − Быстрый рост данных, + переводы но толпа: +… − Ручной ввод данных => + Быстрый рост − Ошибки => Парсер д.б. устойчив! + Интервики (доп. д.) − Омонимия вне + Свободная лицензия страницы (см. дальше) 8
  • 9. Данные Викисловаря: какие ещё статьи? Слова Устойчивые выражения, пословицы, поговорки, крылатые слова, народные приметы, загадки, скороговорки, сокращения Отдельные морфемы — корни, суффиксы, приставки и т. д. Омонимы, омографы, анаграммы, метаграммы и рифмы
  • 10. Требования к парсеру, БД и процессу разработки Надёжность и устойчивость (lang=zzz, 8) Unit-тесты > 200, визуализация Гибкость (раскопки форматов и правил) Тестирование («живая» документация) Визуализация (Wiwordik, JavaFX) Викисловарь ++. (рост в ширину) парсер = ядро + языкозависимая часть, ru + en Инкрементальный подход (рост в глубину) ¿Интеграция?
  • 11. Структура словарной статьи в Русском Викисловаре
  • 14. Структура (толкование) третье значение
  • 15. Внутренние ссылки (1) # находящийся в [[работа|работе]]; предварительный, пробный, черновой
  • 16. Внутренние ссылки (2): ? Частота конкретных форм слова в словаре page_inflection . term_freq Информация о ссылках / ключевых словах толкования на другие словарные статьи в поиск-х алг. (поиск синонимов) Слова, для которых есть ссылки, но нет словарных статей – всё равно добавляются в таблицу «page».
  • 17. Семантические отношения
  • 19. [[Категория:Имя категории]] Цель: Автоматизация оглавления, поиск Грамматические категории Часть речи Тип словоизменения Вшиты Одушевлённость в Грамматический род шаблоны Стилистические свойства Служебные Семантика {{categ|Работа и труд|Рабочие|lang=}}
  • 20. {{Шаблонизация}} всей страны! + Шаблоны автоматически проставляются ботами при создании статьи + Централизованная смена внешнего вида сразу многих статей + Автоматизация редактирования (ботами, парсером), т.к. есть разметка спец-ми конструкциями + Автоматизация категоризации × {{сущ ru m ina}} → категории «Мужской род» и «Неодушевлённые» ─ Сложность освоения ☻
  • 21. {{Шаблонизация}} Примеры × {{-ru-}}, {{пример|}} × Фонетические: {{transcriptions||}}, {{медиа}} × {{морфо|под|вод|и|ть|ся}} × Морфологические: × {{сущ ru}}, {{прил ru}}, {{сущ ru m ina}}, {{adv ru}} × {{сущ eo}}, {{прил eo}}, {{adv eo}}, {{гл eo}} × Шаблоны библиографии × {{НКРЯ}}, {{Ушаков1940}}, {{Эпитет1913}} × Технические (из Википедии): × {{За}}, {{wikify}}, «вавилонские шаблоны»
  • 23. Быстрый поиск на заданном языке (2) 1 таблица + ещё 561 таблица Список кодов языков: http://ru.wiktionary.org/wiki/шаблон:перев-блок
  • 26. Правила извлечения текста: Регулярные выражения (1) ({{)-([-_a-zA-Z]{2,9})-(?:}}||.*?}})|(Q{{заголовок|E)(.*?)}} 1. {{-ru-}} {{-en-}} {{-de-}} –> ru en de 2. {{-de-|schwalbe}} -> de 3. {{заголовок|ka|add=}} -> ka|add= {{заголовок|ka}} -> ka
  • 27. Регулярные выражения (2) 1. ====?s*Значениеs*====?s*n 2. (?m)^==s*([^=]+?)s*==s* ==рабочий I==, == Существительное I == 3. #(REDIRECT|ПЕРЕНАПРАВЛЕНИЕ) [[(.+?)]] #ПЕРЕНАПРАВЛЕНИЕ [[нелётный]] -> нелётный
  • 28. Перенаправления 1. Указание основной формы слова • маня -> манить 2. Подсказка об ошибке всё-равно -> всё равно 3. Диакритики • зверье –> зверьё, coeur -> cœur 4. Неточная кодировка • лiс –> ліс (I латиница, І кириллица) 5. Со строчной буквы на прописную москва -> Москва
  • 29. Реализация 1 Программный код включает наработки: synarcher – поиск синонимов в Википедии wikidf – индексирование текстов Википедии Java База данных: MySQL - для разработки и тестирования SQLite – в скачиваемом приложении JUnit тестирование 29
  • 31. Размеры Викисловарей WordNet (2006): 150,000 слов, 115,000 синсетов (наборов синонимов)
  • 34. Корреляция мер семантической близости Корреляция мер семантической близости слов: 1) значения экспертов (набор 353-TC), 2) значения вычислены автоматически на основе WordNet, Английской Википедии, Русского Викисловаря
  • 36. Результаты Создан парсер Русского Викисловаря Спроектирована схема БД Реализован доступ к БД (API, Java) Выполнено сравнение результатов поиска семантически близких слов на основе Викисловаря и тезауруса WordNet Сайт проекта (Wiki tool kit) http://code.google.com/p/wikokit/ 36
  • 37. Сделано и ещё делать (схема БД, парсер) • Извлекаются (RE) Русский Викисловарь – Толкование English Wiktionary – определение – помета, цитата, картинка • Уровни – Отношение – Схема БД (+ table) (синонимы…, помета) – API Базы данных – Перевод – Код (+ class, RE) – Фонетика – Транскрипция, Аудио – Этимология – Фразеологизмы, поговорки, пословицы –…
  • 38. Планы Продолжить разработку MRD Наращивание функц-ти парсера, отладка + English Wiktionary Визуализация (JavaFX) MRD браузер Игры и тесты (изучение иностранных языков)
  • 39. Спасибо за внимание! http://ru.wiktionary.org/