Документ описывает создание открытого корпуса текстов, включая этапы: вычитка, морфологические интерпретации и токенизацию с использованием машинного обучения. Рассматриваются методы снятия неоднозначности и правила для морфологического анализа, а также возможности редактирования словаря. Целью является привлечение пользователей для ручного разметки данных и обеспечение доступности разметки для анализа.