Open Corpora

Как и зачем мы делаем Открытый корпус


В. В. Бочаров Д. В. Грановский
Mathlingvo

14 мая 2011 г.


Жизненный цикл текста

1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены



2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы



3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности



4 Ручное снятие неоднозначности пользователями



4 Ручное снятие неоднозначности пользователями
5 Разметка доступна для просмотра и скачивания


Уровни текста
Концептуальные уровни:
1 Графематика
2 Морфология
3 Синтаксис (в отдаленных планах)
4 Семантика (в совсем отдаленных планах)
5 Something else?


Уровни текста
Концептуальные уровни:
1 Графематика
2 Морфология
3 Синтаксис (в отдаленных планах)
4 Семантика (в совсем отдаленных планах)
5 Something else?
4 иерархических уровня деления (это графематика):
1 Текст
2 Абзац
3 Предложение
4 Токен*
* некоторая последовательность символов без пробелов


Токенизация

Как разделить текст на эти единицы?
на абзацы – взять из источника



на предложения – пока вручную



на предложения – пока вручную
на токены – полуавтоматически



Токенизация должна быть:
единообразной
удобной для морфологии
Проблемы ручной токенизации:
очень трудоемко
трудно обеспечить единообразие
не все отличия видны глазами


Токенизация-2

Используем простое машинное обучение:
корпус предложений, уже разделенных на токены (внутри
текста расставлены границы)



набор бинарных характеристических функций (15 шт.)
F1 = «является ли данный символ пробелом»
...
F7 = «является ли данный символ буквой кириллицы»
...
F15 = «является ли цепочка символов от ближайшего
пробела слева до ближайшего пробела справа словарным
словом»



набор бинарных характеристических функций (15 шт.)
F1 = «является ли данный символ пробелом»
...
F7 = «является ли данный символ буквой кириллицы»
...
F15 = «является ли цепочка символов от ближайшего
пробела слева до ближайшего пробела справа словарным
словом»
вычисляем все эти функции для каждой позиции в
предложении



для каждой позиции получается двоичный вектор
Позиция 1: 001000010000000
Позиция 2: 100000100000010
...



Позиция 1: 001000010000000
Позиция 2: 100000100000010
...
для каждой позиции знаем, проходит ли в ней граница
токенов



Позиция 1: 001000010000000
Позиция 2: 100000100000010
...
токенов
для каждого двоичного вектора на корпусе вычисляется
вероятность того, что в позиции с таким вектором есть
граница токенов



Позиция 1: 001000010000000
Позиция 2: 100000100000010
...
токенов
для каждого двоичного вектора на корпусе вычисляется
вероятность того, что в позиции с таким вектором есть
граница токенов
в реальном тексте в каждой позиции тоже вычисляем
вектор и смотрим вероятность



Так выглядит обучение:



Получаемое деление – вероятностное, поэтому его нужно
проверять глазами:


Вопросы про токенизацию?


Морфология

Суть морфологического уровня:
связать токен с морфологическим словарем
или обозначить, что токен не является словом


Морфология

Суть морфологического уровня:
связать токен с морфологическим словарем
или обозначить, что токен не является словом
Зачем нужен морфологический словарь?
можно изменить конкретный разбор конкретной
словоформы во всем корпусе сразу
легче находить опечатки
в будущем можно будет добавлять лексико-семантическую
информацию, почти не меняя разметку


Морфология-2

за основу взят словарь группы АОТ



описание слова = лемма + набор форм (парадигма) +
набор граммем леммы



описание формы = текст + набор граммем формы



леммы связаны между собой связями



словарь можно редактировать



сочетаемость граммем регулируется моделью морфологии,
которая выражена в виде набора правил



сочетаемость граммем регулируется моделью морфологии,
которая выражена в виде набора правил
каждое правило имеет вид:
«Если у [леммы/формы] есть граммема А, то у
[леммы/формы] [должна быть/не должно быть/может
быть] граммема Б»



Модель нужна, чтобы отслеживать ошибки, присутствующие в
словаре изначально или вносимые редакторами.
Примеры правил:
NOUN -> NMbr (лемма -> форма, обязательно)
VERB -> ASpc (лемма -> лемма, обязательно)
indc -> TEns (форма -> форма, обязательно)
VERB -> Impe (лемма -> лемма, возможно)
Impe -> PErs (лемма -> форма, запрещено)
Всего сейчас 107 граммем и 127 правил + 218 автоматически
выведенных.



Итого в словаре бывает 5 типов ошибок:
1 неизвестная граммема
2 несовместимые граммемы
3 явно не разрешенная правилами граммема
4 отсутствует обязательная граммема
5 две формы в рамках парадигмы имеют полностью
совпадающие наборы граммем


Вопросы про морфологию?


Разрешение неоднозначности

2 этапа: (полу)автоматический (сейчас нет), ручной.



Ручное разрешение морфологической неоднозначности –
основная задача, для которой мы хотим привлекать
пользователей-разметчиков.



Ручное разрешение морфологической неоднозначности –
основная задача, для которой мы хотим привлекать
пользователей-разметчиков.
От разметчика требуется:
исключить неверные разборы, в идеальном случае –
выбрать один
или отметить, что верный разбор отсутствует


Интерфейс разрешения неоднозначности

(Here be live demonstration)


Contacts

Берем студентов на практику!

http://opencorpora.org
granovsky@opencorpora.org
bocharov@opencorpora.org

Open Corpora

More Related Content

Viewers also liked (10)

Similar to Open Corpora (6)

More from Lidia Pivovarova (20)

Open Corpora