SlideShare a Scribd company logo
ПРИМЕНЕНИЕ МОДЕЛЕЙ ГЛАГОЛЬНОГО УПРАВЛЕНИЯ И ВЕРОЯТНОСТНЫХ ПРАВИЛ ПРИ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВ Литвинов М.И. Московский институт электроники и математики, каф. ИТАС
Этапы автоматической обработки текста Графематический анализ Морфологический анализ Предсинтаксический анализ Синтаксический анализ Семантический анализ
Виды морфологической разметки Part of Speech (POS) tagging   – частеречная разметка входного текста Lemma tagging  – разметка слов входного текста с учётом всех лексических параметров Tag  (тэг)  – лемма  словоформы  с набором  морфологических категорий (например: род, число, падеж).
Уровни представления текста По В.А. Звегинцеву можно выделить следующие уровни анализа текста: Дифференциальный признак Фонема Слог Морфема Слово Словосочетание Предложение Дискурс (связанный текст)
Виды систем предсинтаксической обработки текста Вероятностные Детерминированные Гибридные
Детерминированные системы (основанные на правилах) Достоинства Относительно небольшое время на создание правил Малая вычислительная сложность Недостатки Необходимость проверять набор правил на непротиворечивость Необходимость модифицировать набор правил для каждой предметной области Требуется участие лингвистов и экспертов соответствующей предметной области
Вероятностные системы Достоинства Описывают редкие явления в естественном языке, которые не могут быть представлены с помощью правил Недостатки Требуется существенное время на создание эталонных корпусов Требуется участие большого количества квалифицированных лингвистов и инженеров Отсутствуют корпуса для узкоспециализированных предметных областей Требуется гораздо больше вычислительных ресурсов, чем для систем основанных на правилах
Вероятностные классификаторы при морфологической разметке текста  Наивный классификатор Байеса , где  F  – набор параметров, представляющих контекст,  S –  значение омонимичного слова. Скрытая Марковская модель , где  N  – порядок Марковской модели
Способы сокращения вычислений при разметке текста Упрощающие эвристики при вычислении наиболее вероятной последовательности тэгов Алгоритм  EM Алгоритм Баума-Уолша  ( частный случай  EM  алгоритма) Алгоритм А* Алгоритм  N  лучших поисков и т.д. Разбиение входного предложения на фрагменты и анализ каждого по отдельности
Выбор вероятностной модели на основе принципа максимальной энтропии Согласно принципу максимальной энтропии, вид модели  q ( x ) подбирается таким образом, чтобы максимизировать предмет энтропии   H ( q ), не делая никаких дополнительных предположений для последовательности из  N  слов, не представленных в обучающей выборке. Принцип максимальной энтропии записывается  в следующем виде:   Еще одна стандартная мера для сравнения моделей языка - это показатель связанности ( perplexity ) , который показывает среднее геометрическое количество слов, оказывающие влияние на неизвестное слово.  PP  = 2 H ( q )
Пример сглаживания вероятностей Предположим, что есть биграмма  « pig dog » ,   которая   не встречается в обучающем корпусе, но интуитивно мы хотим, чтобы такая биграмма имела шанс появиться, т.е.   (pig dog)>0 . Предположим, что есть слово  « Mateo » ,   которое встречается в обучающем корпусе только после слова  San ,  т.е.  P(w? Mateo)  =  0 , но интуитивно мы хотим, чтобы  P(w? Mateo)   >   0 .
Сглаженные вероятностные  N- граммные модели Общий вид выражения для сглаженной Марковской модели N-го порядка: , где  P ML  – оценка максимального правдоподобия  для модели предыдущего порядка (порядка  N -1), λ – положительные весовые коэффициенты. Сглаженная модель  N -го порядка определяется рекурсивно как линейная интерполяция между моделью максимального правдоподобия и сглаженной моделью порядка  N -1.  Сглаженная модель первого порядка: ,  –  частота появления слова, а  V  – размер словаря.
Другие виды вероятностных моделей Модели, основанные на классах где  c i  класс, ассоциированный со словом  w i . Машины Опорных Векторов ( Support Vector Machines)  Нейронные сети
Обзор прикладных систем морфологической разметки  Зеленков Ю.Г., Сегалович И.В., Титов В.А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог’2005., 2005. Jan Hajic, Barbora Hladka Tagging inflective languages: prediction of morphological categories for a rich, structured tagset // ACL '98 Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1, 1998 Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог’2002. В двух томах. Т.2. “Прикладные проблемы”. – Москва, Наука, 2002.
Этапы снятия омонимии в программе «Кросслятор» Проверка на сочетаемость со словами в предложении, которые априори известны Применение вероятностных лексических правил Итерационное применение вероятностных лексических правил
Гипотезы, положенные в основу метода наполнения лексической базы сочетаемости слов Следующая за единственным глаголом группа существительного относится к данному глаголу. Единственная группа существительного, расположенная перед единственным глаголом, относится к данному глаголу. В тексте на русском языке должно быть представлено достаточно большое количество неомонимичных групп. Прилагательные, стоящие между глаголом и существительным могут считаться принадлежащими существительному. Само расположение групп с большой (но не стопроцентной) вероятностью позволяет говорить о корректности определения зависимостей. Корпус текстов большого объема может гарантировать статистическую значимость результатов.
Состав лексической базы сочетаемости слов Параметры Число сочетаний млн. Гл. + сущ. 20.00 Гл. + нар. 1.05 Деепр. + сущ. 2.37 Деепр. + нар. 0.16 Прич. + сущ. 5.43 Прич. + нар. 0.28 Сущ. + прил. 4.88 Сущ.+сущ. 2.26
Пример предложения, для которого требуется провести морфологическую разметку Необходимо  поддерживать   высокую   степень   интеграции   с   деловыми   процессами   и   в   то   же   время   разделять   систему на  отдельные  части   так   чтобы   они   могли   использоваться  на  локальном уровне (знаки препинания опущены)
Биграммная модель при проверке на сочетаемость слов в базе При проверке на сочетаемость слов между собой в нашей системе используется следующая биграммная модель: l   где  означает расстояние на котором может быть неизвестное слово от известного. Обычно величина  варьируется в пределах 5-7   слов и позволяет учитывать дальнодействующие связи в предложении.  Подчиненное слово должно находиться в этом окне, предлог должен предшествовать подчиненному слову, но между ними не должно быть главного слова. Кроме того, прилагательное должно согласовываться с существительным.
Проверка на сочетаемость слов ЧАСТИ [ ЧАСТЬ |  noun  | Существительное  |   $ = 1 ] ЧАСТЬ |  noun |  Существительное  |  P = 1 ЧАСТИТЬ |  verb |  глагол  |  P = 0 ЧАСТЬ |  noun  | Существительное  РАЗДЕЛЯТЬ  ЧАСТЬ   11 VERB+NOUN ОТДЕЛЬНЫЙ  ЧАСТЬ   33 ADJ+NOUN МОЧЬ  ЧАСТЬ   49 VERB+NOUN ИСПОЛЬЗОВАТЬСЯ  ЧАСТЬ  15 VERB+NOUN ЛОКАЛЬНЫЙ  ЧАСТЬ   2 ADJ+NOUN   ЧАСТИТЬ |  verb |  глагол  0 вариантов
Вероятностные правила Правило  – это упорядоченная тройка < v i ,   v i +1 ,   v i +2 >, где  v i  = < p w ,   { pr }> – краткое описание слова,  p w  – часть речи слова, а { pr } – множество лексических параметров слова. В правиле не учитывается лексема слова, однако учитываются его лексические характеристики.  <vi -2, vi-1, vi>  - по левым соседям   <vi -1, vi, vi+1>  - по левому и правому соседу <vi , vi+1, vi+2>  - по правым соседям
Пример работы вероятностных правил Необходимо определить часть речи для слова «и» в следующем контексте:   «  деловыми   процессами   и  » И [ И | союз  |  conj |  P = 0.81 ] -=R: T2L T1L T=- И |  interj |  междометие  |  interj |  P = 0 И |  particle |  частица  |  particle |  P = 0.19 И |  conj |  союз  |  conj |  P = 0.81 Rule 1 (adj noun conj )  3134  Rule 2 (adj noun participle )  732
Разбиение предложений на фрагменты и итерационное применение правил Предположения , заложенные в основу метода разбиения предложения на фрагменты: - в русском языке около 30% словоупотреблений неомонимично. - вероятность встретить группу из двух неомонимичных слов достаточно высока, более того, она растет с длиной предложения.  - при отсутствии таких групп при поиске глобального максимума первое слово в предложении косвенно влияет и на последнее слово.  - при наличии таких групп подобная связь разрывается, и поиск глобального критерия можно вести по отдельным фрагментам предложения, что позволяет существенно повысить скорость работы алгоритма.  Оптимизация предложения как единого целого выглядит следующим образом:  где  n s  - число слов в предложении.  Критерий оптимизации для предложения при оптимизации каждого фрагмента отдельно: Где  – вероятность встретить  i -й фрагмент предложения с данным набором тэгов,  n f  – количество фрагментов в предложении,  n fi  – количество слов в  i -м фрагменте. При этом используется информация не только о правых соседях, но, и о левых тоже.
Пример разбиения предложения на фрагменты Фрагмент №1 деловыми   процессами   и   в   то   же   время   разделять Фрагмент №2 систему на  отдельные  части   так   чтобы   они   могли
Методы оценки тэггеров Precision /точность   -  процент правильных ответов из всех выданных системой : Precision = At / (At + Afa ),  где At – число правильно выданных ответов. Afa – число неправильно выданных ответов. Accurancy /покрытие  -  процент правильных ответов из всей предложенной дорожки . Accurancy =  At / (At + Afa + Afn ) , где Afn – число не выданных ответов. F-measure  – средняя гармоническая величина между полнотой и точностью F = ( 1 + В ) Precision*Accurancy / ( B*Precision + Accurancy) , где В – весовой коэффициент.
Качество работы модуля морфологической разметки Параметры Покрытие Качество Триграммы 71.50 98.21 База 71.98 96.74 Правила 77.73 95.94 Триграммы + База 72.02 96.74 Триграммы + Правила 77.73 95.94 Триграммы + База + Правила 78.03 95.60 Триграммы + Правила + Оптимизация 81.15 94.65 База + Правила 78.03 95.60 Правила + Оптимизация 81.15 94.65 База + Правила + Оптимизация 81.27 94.66 Триграммы + База + Правила + Оптимизация 81.27 94.66
Заключение Получены следующие результаты: Разработан метод автоматического сбора статистики совместного словоупотребления. Число полученных в базе сочетаний слов меньше теоретической оценки количества триграмм. Разработан метод, позволяющий размечать тексты любой предметной области Дальнейшее направление исследований – это возможность получать правила по неразмеченному корпусу текстов

More Related Content

PPT
Методы морфологического анализа текстов
PPT
Puls Russian
PPT
Rule b platf
PDF
Модули автоматической обработки текстов в проекте aot.ru
PDF
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
PPT
PPT
АОТ - Предсинтаксис
PDF
17.03 большакова
Методы морфологического анализа текстов
Puls Russian
Rule b platf
Модули автоматической обработки текстов в проекте aot.ru
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
АОТ - Предсинтаксис
17.03 большакова

What's hot (18)

PPT
лекция 5 тема 1
PDF
Introduction To Machine Translation 1
PPT
лекция 7 тема 1
PDF
занятие 3 муромцев
PPT
Speech technologies
PPT
08 машинный перевод
PDF
Метрики семантической близости с приложениями к задачам АОТ
PDF
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
PDF
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
PPT
Разрешение лексической неоднозначности
PDF
ch6.pdf
PPTX
Можарова Тематические модели: учет сходства между униграммами и биграммами.
PPT
PPT
Ontologies for Information Extraction
PPTX
Экспертные системы: лекция №5
PPTX
Мищенко. Методы автоматического определения наиболее частотного значения слова.
лекция 5 тема 1
Introduction To Machine Translation 1
лекция 7 тема 1
занятие 3 муромцев
Speech technologies
08 машинный перевод
Метрики семантической близости с приложениями к задачам АОТ
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Разрешение лексической неоднозначности
ch6.pdf
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Ontologies for Information Extraction
Экспертные системы: лекция №5
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Ad

Viewers also liked (16)

PDF
Max2013 rejected apps presentation
PDF
Maker Art: How to Create a Wonderbox
PDF
How a bunch of normal people Used Technology To Repair a Rigged Election
PDF
Social Insights from the Market
PDF
5. open innov ict-platf
PPT
«Зачем», «что» и «как» в исследовании коллокаций.
PPT
Kõnepuue
 
PPT
Lidia Pivovarova
PPTX
Retrospectiva
PPTX
применение шаблонов при выделении 2коллокаций
PPT
Roofing
PPS
God's Pharmacy
PDF
Urvalsproblemetihistoria
PDF
3. open innov organization
PPT
Coca-Cola
PDF
Madrid Alfresco Day 2015 - John Newton - Digital as the Future of Work
Max2013 rejected apps presentation
Maker Art: How to Create a Wonderbox
How a bunch of normal people Used Technology To Repair a Rigged Election
Social Insights from the Market
5. open innov ict-platf
«Зачем», «что» и «как» в исследовании коллокаций.
Kõnepuue
 
Lidia Pivovarova
Retrospectiva
применение шаблонов при выделении 2коллокаций
Roofing
God's Pharmacy
Urvalsproblemetihistoria
3. open innov organization
Coca-Cola
Madrid Alfresco Day 2015 - John Newton - Digital as the Future of Work
Ad

Similar to Максим Литвинов (20)

PPT
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
PPT
Построение правил для автоматического извлечения словосочетаний из текста
PPT
построение правил для автоматического извлечения словосочетаний из текста
PPT
Извлечение терминологических словосочетаний из текстов
PPT
Извлечение знаний и фактов из текстов
PPT
Автоматическая кластеризация близких по смыслу слов
PPT
Ontology and Text Alalize
PPT
Программные средства выявления теминологических вариантов в текстах
DOC
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
PDF
Вычислительная лексическая семантика: метрики семантической близости и их при...
PPT
Михаил Александров, Индуктивное моделирование
PPT
RussNet
PPT
лекции 3 4 тема 1
PPT
Алексей Колосов
PPT
Авиком
PDF
Комбинирование факторов для разрешения референции местоимений
PPT
Slovar pr. metodol
PPT
Механизмы обеспечения связности в системах динамической генерации текстов
PDF
Query expansion
PPT
Fact Extraction (ideograph)
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
Извлечение терминологических словосочетаний из текстов
Извлечение знаний и фактов из текстов
Автоматическая кластеризация близких по смыслу слов
Ontology and Text Alalize
Программные средства выявления теминологических вариантов в текстах
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
Вычислительная лексическая семантика: метрики семантической близости и их при...
Михаил Александров, Индуктивное моделирование
RussNet
лекции 3 4 тема 1
Алексей Колосов
Авиком
Комбинирование факторов для разрешения референции местоимений
Slovar pr. metodol
Механизмы обеспечения связности в системах динамической генерации текстов
Query expansion
Fact Extraction (ideograph)

More from Lidia Pivovarova (20)

PDF
Classification and clustering in media monitoring: from knowledge engineering...
PDF
Convolutional neural networks for text classification
PDF
Grouping business news stories based on salience of named entities
PDF
Интеллектуальный анализ текста
PPTX
AINL 2016: Yagunova
PDF
AINL 2016: Kuznetsova
PPT
AINL 2016: Bodrunova, Blekanov, Maksimov
PDF
AINL 2016: Boldyreva
PPTX
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
PDF
AINL 2016: Kozerenko
PDF
AINL 2016: Shavrina, Selegey
PDF
AINL 2016: Khudobakhshov
PDF
AINL 2016: Proncheva
PPTX
AINL 2016:
PPTX
AINL 2016: Bugaychenko
PDF
AINL 2016: Grigorieva
PDF
AINL 2016: Muravyov
PDF
AINL 2016: Just AI
PPTX
AINL 2016: Moskvichev
PDF
AINL 2016: Goncharov
Classification and clustering in media monitoring: from knowledge engineering...
Convolutional neural networks for text classification
Grouping business news stories based on salience of named entities
Интеллектуальный анализ текста
AINL 2016: Yagunova
AINL 2016: Kuznetsova
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Boldyreva
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Kozerenko
AINL 2016: Shavrina, Selegey
AINL 2016: Khudobakhshov
AINL 2016: Proncheva
AINL 2016:
AINL 2016: Bugaychenko
AINL 2016: Grigorieva
AINL 2016: Muravyov
AINL 2016: Just AI
AINL 2016: Moskvichev
AINL 2016: Goncharov

Максим Литвинов

  • 1. ПРИМЕНЕНИЕ МОДЕЛЕЙ ГЛАГОЛЬНОГО УПРАВЛЕНИЯ И ВЕРОЯТНОСТНЫХ ПРАВИЛ ПРИ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВ Литвинов М.И. Московский институт электроники и математики, каф. ИТАС
  • 2. Этапы автоматической обработки текста Графематический анализ Морфологический анализ Предсинтаксический анализ Синтаксический анализ Семантический анализ
  • 3. Виды морфологической разметки Part of Speech (POS) tagging – частеречная разметка входного текста Lemma tagging – разметка слов входного текста с учётом всех лексических параметров Tag (тэг) – лемма словоформы с набором морфологических категорий (например: род, число, падеж).
  • 4. Уровни представления текста По В.А. Звегинцеву можно выделить следующие уровни анализа текста: Дифференциальный признак Фонема Слог Морфема Слово Словосочетание Предложение Дискурс (связанный текст)
  • 5. Виды систем предсинтаксической обработки текста Вероятностные Детерминированные Гибридные
  • 6. Детерминированные системы (основанные на правилах) Достоинства Относительно небольшое время на создание правил Малая вычислительная сложность Недостатки Необходимость проверять набор правил на непротиворечивость Необходимость модифицировать набор правил для каждой предметной области Требуется участие лингвистов и экспертов соответствующей предметной области
  • 7. Вероятностные системы Достоинства Описывают редкие явления в естественном языке, которые не могут быть представлены с помощью правил Недостатки Требуется существенное время на создание эталонных корпусов Требуется участие большого количества квалифицированных лингвистов и инженеров Отсутствуют корпуса для узкоспециализированных предметных областей Требуется гораздо больше вычислительных ресурсов, чем для систем основанных на правилах
  • 8. Вероятностные классификаторы при морфологической разметке текста Наивный классификатор Байеса , где F – набор параметров, представляющих контекст, S – значение омонимичного слова. Скрытая Марковская модель , где N – порядок Марковской модели
  • 9. Способы сокращения вычислений при разметке текста Упрощающие эвристики при вычислении наиболее вероятной последовательности тэгов Алгоритм EM Алгоритм Баума-Уолша ( частный случай EM алгоритма) Алгоритм А* Алгоритм N лучших поисков и т.д. Разбиение входного предложения на фрагменты и анализ каждого по отдельности
  • 10. Выбор вероятностной модели на основе принципа максимальной энтропии Согласно принципу максимальной энтропии, вид модели q ( x ) подбирается таким образом, чтобы максимизировать предмет энтропии H ( q ), не делая никаких дополнительных предположений для последовательности из N слов, не представленных в обучающей выборке. Принцип максимальной энтропии записывается в следующем виде: Еще одна стандартная мера для сравнения моделей языка - это показатель связанности ( perplexity ) , который показывает среднее геометрическое количество слов, оказывающие влияние на неизвестное слово. PP = 2 H ( q )
  • 11. Пример сглаживания вероятностей Предположим, что есть биграмма « pig dog » , которая не встречается в обучающем корпусе, но интуитивно мы хотим, чтобы такая биграмма имела шанс появиться, т.е. (pig dog)>0 . Предположим, что есть слово « Mateo » , которое встречается в обучающем корпусе только после слова San , т.е. P(w? Mateo) = 0 , но интуитивно мы хотим, чтобы P(w? Mateo) > 0 .
  • 12. Сглаженные вероятностные N- граммные модели Общий вид выражения для сглаженной Марковской модели N-го порядка: , где P ML – оценка максимального правдоподобия для модели предыдущего порядка (порядка N -1), λ – положительные весовые коэффициенты. Сглаженная модель N -го порядка определяется рекурсивно как линейная интерполяция между моделью максимального правдоподобия и сглаженной моделью порядка N -1. Сглаженная модель первого порядка: , – частота появления слова, а V – размер словаря.
  • 13. Другие виды вероятностных моделей Модели, основанные на классах где c i класс, ассоциированный со словом w i . Машины Опорных Векторов ( Support Vector Machines) Нейронные сети
  • 14. Обзор прикладных систем морфологической разметки Зеленков Ю.Г., Сегалович И.В., Титов В.А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог’2005., 2005. Jan Hajic, Barbora Hladka Tagging inflective languages: prediction of morphological categories for a rich, structured tagset // ACL '98 Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1, 1998 Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог’2002. В двух томах. Т.2. “Прикладные проблемы”. – Москва, Наука, 2002.
  • 15. Этапы снятия омонимии в программе «Кросслятор» Проверка на сочетаемость со словами в предложении, которые априори известны Применение вероятностных лексических правил Итерационное применение вероятностных лексических правил
  • 16. Гипотезы, положенные в основу метода наполнения лексической базы сочетаемости слов Следующая за единственным глаголом группа существительного относится к данному глаголу. Единственная группа существительного, расположенная перед единственным глаголом, относится к данному глаголу. В тексте на русском языке должно быть представлено достаточно большое количество неомонимичных групп. Прилагательные, стоящие между глаголом и существительным могут считаться принадлежащими существительному. Само расположение групп с большой (но не стопроцентной) вероятностью позволяет говорить о корректности определения зависимостей. Корпус текстов большого объема может гарантировать статистическую значимость результатов.
  • 17. Состав лексической базы сочетаемости слов Параметры Число сочетаний млн. Гл. + сущ. 20.00 Гл. + нар. 1.05 Деепр. + сущ. 2.37 Деепр. + нар. 0.16 Прич. + сущ. 5.43 Прич. + нар. 0.28 Сущ. + прил. 4.88 Сущ.+сущ. 2.26
  • 18. Пример предложения, для которого требуется провести морфологическую разметку Необходимо поддерживать высокую степень интеграции с деловыми процессами и в то же время разделять систему на отдельные части так чтобы они могли использоваться на локальном уровне (знаки препинания опущены)
  • 19. Биграммная модель при проверке на сочетаемость слов в базе При проверке на сочетаемость слов между собой в нашей системе используется следующая биграммная модель: l где означает расстояние на котором может быть неизвестное слово от известного. Обычно величина варьируется в пределах 5-7 слов и позволяет учитывать дальнодействующие связи в предложении. Подчиненное слово должно находиться в этом окне, предлог должен предшествовать подчиненному слову, но между ними не должно быть главного слова. Кроме того, прилагательное должно согласовываться с существительным.
  • 20. Проверка на сочетаемость слов ЧАСТИ [ ЧАСТЬ | noun | Существительное | $ = 1 ] ЧАСТЬ | noun | Существительное | P = 1 ЧАСТИТЬ | verb | глагол | P = 0 ЧАСТЬ | noun | Существительное РАЗДЕЛЯТЬ ЧАСТЬ 11 VERB+NOUN ОТДЕЛЬНЫЙ ЧАСТЬ 33 ADJ+NOUN МОЧЬ ЧАСТЬ 49 VERB+NOUN ИСПОЛЬЗОВАТЬСЯ ЧАСТЬ 15 VERB+NOUN ЛОКАЛЬНЫЙ ЧАСТЬ 2 ADJ+NOUN ЧАСТИТЬ | verb | глагол 0 вариантов
  • 21. Вероятностные правила Правило – это упорядоченная тройка < v i ,   v i +1 ,   v i +2 >, где v i  = < p w ,   { pr }> – краткое описание слова, p w – часть речи слова, а { pr } – множество лексических параметров слова. В правиле не учитывается лексема слова, однако учитываются его лексические характеристики. <vi -2, vi-1, vi> - по левым соседям <vi -1, vi, vi+1> - по левому и правому соседу <vi , vi+1, vi+2> - по правым соседям
  • 22. Пример работы вероятностных правил Необходимо определить часть речи для слова «и» в следующем контексте: « деловыми процессами и » И [ И | союз | conj | P = 0.81 ] -=R: T2L T1L T=- И | interj | междометие | interj | P = 0 И | particle | частица | particle | P = 0.19 И | conj | союз | conj | P = 0.81 Rule 1 (adj noun conj ) 3134 Rule 2 (adj noun participle ) 732
  • 23. Разбиение предложений на фрагменты и итерационное применение правил Предположения , заложенные в основу метода разбиения предложения на фрагменты: - в русском языке около 30% словоупотреблений неомонимично. - вероятность встретить группу из двух неомонимичных слов достаточно высока, более того, она растет с длиной предложения. - при отсутствии таких групп при поиске глобального максимума первое слово в предложении косвенно влияет и на последнее слово. - при наличии таких групп подобная связь разрывается, и поиск глобального критерия можно вести по отдельным фрагментам предложения, что позволяет существенно повысить скорость работы алгоритма. Оптимизация предложения как единого целого выглядит следующим образом: где n s - число слов в предложении. Критерий оптимизации для предложения при оптимизации каждого фрагмента отдельно: Где – вероятность встретить i -й фрагмент предложения с данным набором тэгов, n f – количество фрагментов в предложении, n fi – количество слов в i -м фрагменте. При этом используется информация не только о правых соседях, но, и о левых тоже.
  • 24. Пример разбиения предложения на фрагменты Фрагмент №1 деловыми процессами и в то же время разделять Фрагмент №2 систему на отдельные части так чтобы они могли
  • 25. Методы оценки тэггеров Precision /точность - процент правильных ответов из всех выданных системой : Precision = At / (At + Afa ), где At – число правильно выданных ответов. Afa – число неправильно выданных ответов. Accurancy /покрытие - процент правильных ответов из всей предложенной дорожки . Accurancy = At / (At + Afa + Afn ) , где Afn – число не выданных ответов. F-measure – средняя гармоническая величина между полнотой и точностью F = ( 1 + В ) Precision*Accurancy / ( B*Precision + Accurancy) , где В – весовой коэффициент.
  • 26. Качество работы модуля морфологической разметки Параметры Покрытие Качество Триграммы 71.50 98.21 База 71.98 96.74 Правила 77.73 95.94 Триграммы + База 72.02 96.74 Триграммы + Правила 77.73 95.94 Триграммы + База + Правила 78.03 95.60 Триграммы + Правила + Оптимизация 81.15 94.65 База + Правила 78.03 95.60 Правила + Оптимизация 81.15 94.65 База + Правила + Оптимизация 81.27 94.66 Триграммы + База + Правила + Оптимизация 81.27 94.66
  • 27. Заключение Получены следующие результаты: Разработан метод автоматического сбора статистики совместного словоупотребления. Число полученных в базе сочетаний слов меньше теоретической оценки количества триграмм. Разработан метод, позволяющий размечать тексты любой предметной области Дальнейшее направление исследований – это возможность получать правила по неразмеченному корпусу текстов

Editor's Notes

  • #5: В работе [1] И.А. Мельчук приводит такие результаты исследований омонимии: «Омонимия же характерна лишь для низших уровней языка: омонимичных морф много, омонимия словоформ также встречается довольно часто (даже в таких флективных языках как русский), но уже омонимичные фразы в речи попадаются сравнительно редко. Представить же себе омонимичный абзац или омонимичную страницу текста очень трудно (в большинстве языков это, по всей видимости, и невозможно)». Обратим внимание, что омонимичные фразы встречаются, конечно, на практике, но зачастую являются искусственными примерами компьютерных лингвистов для проверки своих систем. В системах автоматической обработки текста используются в основном первые пять уровней. Слоги иногда используются при представлении информации в морфологических словарях.
  • #6: Доклад посвящен обзору методов, лежащих в основе вероятностных систем.
  • #8: Корпусная лингвистика Обучение с учителем, без учителя, полуобучение.
  • #9: Сказать, что по замечаниям Эрика Брилла все вероятностные модели обучаются по сути одним и тем же зависимостям, но только в несколько иной форме.
  • #18: Кратко об этом упомянуть и сказать, что об этом докладывалось в прошлом году коллегой.
  • #19: Кратко об этом упомянуть и сказать, что об этом докладывалось в прошлом году коллегой.
  • #20: Кратко об этом упомянуть и сказать, что об этом докладывалось в прошлом году коллегой.
  • #22: Здесь сказать, что детерминиронное правило – если слева от слова есть частица to , то в английском это глагол.
  • #23: Здесь сказать, что детерминиронное правило – если слева от слова есть частица to , то в английском это глагол.
  • #24: Кратко об этом упомянуть и сказать, что об этом докладывалось в прошлом году коллегой.