SlideShare a Scribd company logo
Гибридная технология перевода Юлия Епифанцева PROMT
Машинный перевод Машинный (автоматический) перевод –  процесс   перевода текстов с одного е стественного   языка на другой с помощью к омпьютерной   программы
Основные типы систем МП Rule-based  машинный перевод  ( RBMT)  – перевод, основанный на правилах. Статистический машинный перевод ( SMT) .    Гибридные системы перевода  ( HMT)
Типы  RBMT Системы по типу  Transfer предложение на языке входа =>  морфологический, грамматический, семантический анализ => преобразование в структуру выходного языка (TRANSFER) = >   синтез выходного предложения по полученной структуре=>   предложение на языке выхода   Системы по типу  Interlingua предложение на языке входа =>  анализ входного предложения в терминах метаязыка = > синтез из метаструктуры предложения выходного языка = > предложение на языке выхода Разработка метаязыка = языконезависимое представление, наличие знаний о мире (онтологии, логики предикатов)
Компоненты  RBMT  на примере  PROMT Лингвистические базы данных - двуязычные словари - файлы имен, транслитерации - морфологические таблицы  Модуль перевода - грамматические правила - алгоритмы перевода
Двуязычные словари имеют трехуровневую структуру для настройки системы на различные предметные области : Генеральный  словарь  (от 50 до 250 тысяч статей) Специализированные  словари  (от 5 до 100 тысяч статей ;  охватывают различные тематики :  бизнес, спорт,  IT,  добыча нефти и газа, металлургия...) Пользовательские  словари  (вспомогательные, открыты для редактирования пользователю)
Словарная статья (1) Слово или выражение на входном языке Коллекция переводов (активных и неактивных) Структурированное описание различной лингвистической информации   (морфологической, синтаксической, семантической) в виде набора признаков и модификаторов
Словарная статья (2)
Словарная статья (3) Словарная настройка на примере  ‘chest’ Контекст  Перевод This is a  chest Это  грудь (комод) There is a tattoo on his  chest На его  груди  есть татуировка At the time of the  chest  examination the blood pressure may be taken Во время обследования  грудной клетки  может быть измерено давление The University  Chest  is a term used at Oxford in connection with the financial aspects of the university and its administration Университетский  фонд  – термин, использованный в Оксфорде в связи с финансовыми аспектами университета и его администрации The oak  chest  with iron lock Комод  из дуба с железным замком
Уровни анализа предложения (1) Препроцессор  Нормализация текста ( удаление повторяющихся пробелов... )  Токенизация входной цепочки ( поиск входных словоформ в словаре с сопутствующим морфологическим анализом ) Лексический анализ ( контекстный анализ, различные склейки :  имена, номера телефонов, даты...) Снятие омонимии ( определение частей речи в случаях грамматической неоднозначности ) Уровень сбора групп ( соединение лексических единиц в группы ) Анализ сложных предложений  ( выделение простых в составе сложного, синтаксическая омонимия ) Семантико-синтаксический разбор ( заполнение глагольного фрейма ) Синтез ( синтез по полученной структуре, расстановка элементов внутри группы и групп в предложении... )
Уровни анализа предложения ( 2 ) French restaurants and bars, Mr. Felise notes, are getting more popular in the USA.
Уровни анализа предложения ( 3 )
Преимущества и недостатки  RBMT Преимущества - синтаксическая и морфологическая точность, - стабильность и предсказуемость результата, - возможность настройки на предметную область. Недостатки - трудоемкость  и длительность разработки, - необходимость поддерживать и актуализировать лингвистические БД, - «машинный акцент» при переводе.
Статистический машинный перевод (1) История Принципы  SMT  разработаны еще в 1949 г. Уорреном Уивером «Вторая волна» – начало 1990-х,  IBM «Третья волна» –  Google, Microsoft, Language Weaver , Яндекс   и десятки других Статистический МП – это поиск наиболее вероятного перевода  предложения с использованием данных, полученных из параллельных корпусов.
Статистический машинный перевод (2) Сегодня  SMT  – наиболее активно разрабатываемая архитектура  MT .  Почему? Легко построить, если есть двуязычный корпус, ноль / минимум лингвистики Переносимость технологии на любые пары языков Лексическая гладкость Ограничения / недостатки: Ограниченность параллельных корпусов в природе и их  real-life  качество Плохо справляется с морфологией / синтаксисом (по сравнению с  RBMT ) Искажение информации (дублирование, пропуск или подмена информации) USA  is to blame = США не виноват Russia  is to blame = Россия виновата
Выводы Обе технологии имеют свои достоинства и недостатки,  но главное – они не решили задачу по получению качественного машинного перевода. МТ-сообщество ожидает прорыва   в качестве перевода в гибридных моделях  RBMT  +  SMT .
Гибридная технология  PROMT Объединение  RBTM  и статистических технологий лингвистический анализ входного предложения порождение вариантов перевода использование статистических технологий оценка и выбор лучшего варианта перевода с использованием Модели языка
Этапы Гибридной технологии Обучение  RBMT  на основе параллельного корпуса с использованием статистических технологий Эксплуатация на основе натренированной системы
Архитектура Гибридной технологии Параллельный корпус Модель языка Данные для  постредактирования Правила синтеза Словарь  терминологии Обучение Эксплуатация Гибридный перевод Текст на входном языке Текст на выходном языке Обучение
Обучение Параллельный корпус (необработанные данные) Выходной корпус Новый параллельный корпус  ( МП  –  перевод человеком ) Гибридная тематика перевода Параллельный корпус (прочищенные данные)   Правила синтеза Данные для постредактирования Словарь терминологии Машинный перевод входного корпуса Модель языка Входной корпус
Эксплуатация Лучший  вариант перевода Предложение на входном языке Порождение вариантов перевода Варианты перевода 1. 2. x. Применение статистического постредак- тирования  Варианты  перевода 1. 2. x. Выбор по Модели языка
Модель языка (1) Параллельный корпус (англо-русский) Корпус на входном языке ( английский ) Корпус на выходном языке ( русский ) Модель языка
Модель языка (2) Модель языка  (L anguage Model / LM )   – это набор  n- грамм моноязычного корпуса с их вероятностными характеристиками. N- грамма – это последовательность слов из предложений длины  n .
Модель языка (3)
Модель языка (4) Perplexity (PPL)  – вычисляемая для предложения «степень его искаженности» по   отношению к данной  LM.  Чем меньше  PPL , тем «естественнее» предложение. Модель языка - оценка релевантности (через  PPL)  каждого перевода по отношению к данному корпусу, - выбор лучшего варианта  среди всех порожденных.
Как работает Гибридная технология Создание терминологического словаря из параллельных текстов для  RBMT  автоматическим путем Порождение всех возможных вариантов перевода на основе - лексических вариантов - вариантов синтеза разных конструкций - применения постредактирования    выбор лучшего варианта через Модель языка
Терминологический словарь (1) Технология получения:  а) на основе параллельного  корпуса составляются таблицы  n- грамм входного корпуса вместе с вероятностями соответствий этих  n- грамм  n- граммам выходного корпуса, б) на основании парсеров для входного и выходного языков, а также частотных характеристик  из общего числа  n- грамм извлекаются релевантные для словаря единицы с некоторой грамматической информацией (например, о валентности) создается двуязычный глоссарий в) в автоматическом режиме создается словарь для  RBMT
Терминологический словарь (2)
Лексические варианты The restaurant  features a unique  space  with a cozy lounge and an eclectic blend of  music, art and sculpture . Rule-based Ресторан  представляет собой  уникальное  пространство (место )  с удобным залом и эклектичной смесью музыки, искусства и скульптуры . Hybrid Ресторан  представляет собой  уникальное  пространство  с удобным залом и эклектичной  смесью   музыки, искусства и скульптуры . ( PPL== 7 78) Ресторан  представляет собой  уникальное  место   с удобным залом и эклектичной смесью   м узыки,   искусства и скульптуры .  ( PPL= 5 22 )
Варианты синтеза конструкций (1) Rule-based:  выбор определенной модели синтеза Hybrid:  синтезирование нескольких вариантов перевода Правило синтеза: перевод конструкции  to +  инфинитив чтобы   + инфинитив для + существительное You can use the same steps  to edit the collection .  Можно использовать те же самые шаги,  чтобы  о тредактировать  коллекцию .  ( PPL=372) Можно использовать те же самые шаги  для редактирования  коллекции . ( PPL=358 )
Варианты синтеза конструкций (2) Rule-based:  выбор определенной модели синтеза Hybrid:  синтезирование нескольких вариантов перевода Правило синтеза: порядок следования подлежащего и   сказуемого. Click Browse to browse  the  path for the folder in which you want  newly created documents to be located . Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы   недавно созданные документы были расположены . ( PPL= 290) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы  были расположены недавно созданные документы .  (PPL= 274)
Данные для постредактирования (1)
Данные для постредактирования (2) Технология : на основе параллельного  корпуса выделяется таблица  n- грамм входного корпуса вместе с вероятностями соответствий этих  n- грамм  n- граммам выходного корпуса. с платежом PayPal банковским переводом     в случае платежа   PayPal посредством банковского перевода вводите банковский перевод     инициируете перевод когда Вы закончены     после окончания Вашей работы каждое усилие было приложено    были предприняты все усилия
Данные для постредактирования (3) Пример применения нескольких замен сегментов машинного переводами сегментами человеческого перевода. With PayPal payment by bank transfer, you initiate a bank transfer from your bank account to your PayPal account. С платежом PayPal банковским переводом вы вводите банковский перевод с Вашего банковского счета на ваш счет PayPal. ( PPL=95) В случае платежа PayPal посредством банковского перевода  вы инициируете перевод  с Вашего банковского счета на ваш счет PayPal.   (PPL == 7)
Исходный текст Порождение лексических вариантов Порождение вариантов синтеза Порождение вариантов постредактирования Click Browse to browse  the  path for the folder in which you want newly created documents to be located. Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были  расположены . Нажмите Browse, чтобы рассмотреть  путь к папке, в которой Вы хотите, чтобы недавно созданные документы были  размещены . Нажмите Browse, чтобы рассмотреть  путь к  папке, в которой Вы хотите, чтобы  недавно созданные документы   были расположены . Нажмите Browse, чтобы рассмотреть  путь к  папке, в которой Вы хотите, чтобы  недавно созданные документы   были размещены . Нажмите Browse, чтобы рассмотреть  путь к папке, в которой Вы хотите, чтобы  были расположены   недавно созданные документы . Нажмите Browse, чтобы рассмотреть  путь к папке, в которой Вы хотите, чтобы  были размещены   недавно созданные документы   . Нажмите Browse, чтобы рассмотреть  путь к  папке, в которой Вы хотите, чтобы  недавно созданные документы   были расположены . Нажмите Browse, чтобы рассмотреть  путь к  папке, в которой Вы хотите, чтобы  недавно созданные документы   были размещены . Нажмите Browse, чтобы рассмотреть  путь к  папке, в которой Вы хотите, чтобы  были расположены   недавно созданные документы . Нажмите Browse, чтобы рассмотреть  путь к  папке, в которой Вы хотите, чтобы  были размещены   недавно созданные документы   . Нажмите Browse  для просмотра   пути к папке , в которой Вы хотите, чтобы  недавно созданные документы   были расположены . Нажмите Browse  для просмотра пути к папке , в которой Вы хотите, чтобы  недавно созданные документы   были размещены . Нажмите Browse  для просмотра пути к папке , в которой Вы хотите, чтобы  были расположены   недавно созданные документы . Нажмите Browse  для просмотра пути к папке , в которой Вы хотите, чтобы  были размещены   недавно созданные документы   .
Оценка  LM Выбор лучшего варианта Нажмите Browse, чтобы рассмотреть  путь к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены. ( PPL=  556 ) Нажмите Browse, чтобы рассмотреть  путь к папке, в которой Вы хотите, чтобы недавно созданные документы были размещены.  (PPl =  601 ) Нажмите Browse, чтобы рассмотреть  путь к папке, в которой Вы хотите, чтобы были расположены   недавно созданные документы.  (PPl =  526 ) Нажмите Browse, чтобы рассмотреть  путь к папке, в которой Вы хотите, чтобы были размещены недавно созданные документы.  (PPl =  569 ) Нажмите Browse для просмотра   пути к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены.  (PPl =  277 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы недавно созданные документы были размещены.  (PPl =  301 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были расположены   недавно созданные документы.  (PPl =  261 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были размещены недавно созданные документы.  (PPl =  283 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были расположены   недавно созданные документы.  (PPl =  261 )
LM  Statistics
Поиск по параллельным корпусам
Выводы Преимущества  RBMT  сохраняются: - синтаксическая и морфологическая точность, - стабильность и предсказуемость результата, - возможность настройки на предметную область. Недостатки  RBMT  нивелируются за счет использования параллельных корпусов   и статистических методов - автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),  - исчезает «машинный» акцент при перевода   ( вариант ы  синтеза и постредактировани е ).
Спасибо! www.promt.ru www.translate.ru

More Related Content

PDF
Introduction To Machine Translation
DOCX
Mashinny perevod
PDF
Теория языков программирования некоторые слайды к лекциям
PPT
Stolyarov
PPTX
Машинный перевод
PDF
20140216 parallel programming_kalishenko_lecture01
PPT
лабораторная работа №7
PPT
Promt
Introduction To Machine Translation
Mashinny perevod
Теория языков программирования некоторые слайды к лекциям
Stolyarov
Машинный перевод
20140216 parallel programming_kalishenko_lecture01
лабораторная работа №7
Promt

Viewers also liked (20)

PDF
Natalia Semichastnova, Promt, itotvet
PPTX
презентация технологии машинного перевода и Soylem net
PPT
гибридная технология перевода. юлия епифанцева. зал.4
PPT
PDF
Cредства автоматизированного перевода
PDF
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
PPSX
_представление работы_улановао
PPTX
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
PDF
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
PPT
MachineTranslation
PDF
Abbyy ls technologies_ru
PDF
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
PPTX
интернет для моей специальности
PPTX
презентация система электронного перевода Soylem 3.
PPT
словари
PPT
MT as a Translator's Tool (TFR_11) - in Russian
PPT
Использование систем распознавания текстов
PPT
Компьютерные словари и системы машинного перевода текстов
Natalia Semichastnova, Promt, itotvet
презентация технологии машинного перевода и Soylem net
гибридная технология перевода. юлия епифанцева. зал.4
Cредства автоматизированного перевода
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
_представление работы_улановао
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
MachineTranslation
Abbyy ls technologies_ru
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
интернет для моей специальности
презентация система электронного перевода Soylem 3.
словари
MT as a Translator's Tool (TFR_11) - in Russian
Использование систем распознавания текстов
Компьютерные словари и системы машинного перевода текстов
Ad

Similar to Презентация PROMT для РИТ (20)

PPT
Системы автоматического синтеза речи
PDF
Распределенная статистическая система машинного перевода (Distributed statist...
PPT
molchanov(promt)
PPT
08 машинный перевод
PPT
Извлечение перевожных эквивалентов из параллельных корпусов
PDF
Ruwikt
PPT
Системы автоматического составления обзорных рефератов
PPT
Проблемы автоматической рубрикации текстов
PPT
Авиком
PDF
Lande, Jigalo
PPT
Программные средства выявления теминологических вариантов в текстах
PDF
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
PPTX
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
PPT
АОТ - Предсинтаксис
PPT
Fact Extraction (ideograph)
PPT
Распознавание сокращений слов и словосочетаний
PPT
Методы морфологического анализа текстов
PPT
Извлечение знаний и фактов из текстов
PPT
автоматическое построение оригинал макетов учебников как отч
PDF
Semantic feature machine translation system
Системы автоматического синтеза речи
Распределенная статистическая система машинного перевода (Distributed statist...
molchanov(promt)
08 машинный перевод
Извлечение перевожных эквивалентов из параллельных корпусов
Ruwikt
Системы автоматического составления обзорных рефератов
Проблемы автоматической рубрикации текстов
Авиком
Lande, Jigalo
Программные средства выявления теминологических вариантов в текстах
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
АОТ - Предсинтаксис
Fact Extraction (ideograph)
Распознавание сокращений слов и словосочетаний
Методы морфологического анализа текстов
Извлечение знаний и фактов из текстов
автоматическое построение оригинал макетов учебников как отч
Semantic feature machine translation system
Ad

Презентация PROMT для РИТ

  • 1. Гибридная технология перевода Юлия Епифанцева PROMT
  • 2. Машинный перевод Машинный (автоматический) перевод – процесс перевода текстов с одного е стественного языка на другой с помощью к омпьютерной программы
  • 3. Основные типы систем МП Rule-based машинный перевод ( RBMT) – перевод, основанный на правилах. Статистический машинный перевод ( SMT) .  Гибридные системы перевода ( HMT)
  • 4. Типы RBMT Системы по типу Transfer предложение на языке входа => морфологический, грамматический, семантический анализ => преобразование в структуру выходного языка (TRANSFER) = > синтез выходного предложения по полученной структуре=> предложение на языке выхода Системы по типу Interlingua предложение на языке входа => анализ входного предложения в терминах метаязыка = > синтез из метаструктуры предложения выходного языка = > предложение на языке выхода Разработка метаязыка = языконезависимое представление, наличие знаний о мире (онтологии, логики предикатов)
  • 5. Компоненты RBMT на примере PROMT Лингвистические базы данных - двуязычные словари - файлы имен, транслитерации - морфологические таблицы Модуль перевода - грамматические правила - алгоритмы перевода
  • 6. Двуязычные словари имеют трехуровневую структуру для настройки системы на различные предметные области : Генеральный словарь (от 50 до 250 тысяч статей) Специализированные словари (от 5 до 100 тысяч статей ; охватывают различные тематики : бизнес, спорт, IT, добыча нефти и газа, металлургия...) Пользовательские словари (вспомогательные, открыты для редактирования пользователю)
  • 7. Словарная статья (1) Слово или выражение на входном языке Коллекция переводов (активных и неактивных) Структурированное описание различной лингвистической информации (морфологической, синтаксической, семантической) в виде набора признаков и модификаторов
  • 9. Словарная статья (3) Словарная настройка на примере ‘chest’ Контекст Перевод This is a chest Это грудь (комод) There is a tattoo on his chest На его груди есть татуировка At the time of the chest examination the blood pressure may be taken Во время обследования грудной клетки может быть измерено давление The University Chest is a term used at Oxford in connection with the financial aspects of the university and its administration Университетский фонд – термин, использованный в Оксфорде в связи с финансовыми аспектами университета и его администрации The oak chest with iron lock Комод из дуба с железным замком
  • 10. Уровни анализа предложения (1) Препроцессор Нормализация текста ( удаление повторяющихся пробелов... ) Токенизация входной цепочки ( поиск входных словоформ в словаре с сопутствующим морфологическим анализом ) Лексический анализ ( контекстный анализ, различные склейки : имена, номера телефонов, даты...) Снятие омонимии ( определение частей речи в случаях грамматической неоднозначности ) Уровень сбора групп ( соединение лексических единиц в группы ) Анализ сложных предложений ( выделение простых в составе сложного, синтаксическая омонимия ) Семантико-синтаксический разбор ( заполнение глагольного фрейма ) Синтез ( синтез по полученной структуре, расстановка элементов внутри группы и групп в предложении... )
  • 11. Уровни анализа предложения ( 2 ) French restaurants and bars, Mr. Felise notes, are getting more popular in the USA.
  • 13. Преимущества и недостатки RBMT Преимущества - синтаксическая и морфологическая точность, - стабильность и предсказуемость результата, - возможность настройки на предметную область. Недостатки - трудоемкость и длительность разработки, - необходимость поддерживать и актуализировать лингвистические БД, - «машинный акцент» при переводе.
  • 14. Статистический машинный перевод (1) История Принципы SMT разработаны еще в 1949 г. Уорреном Уивером «Вторая волна» – начало 1990-х, IBM «Третья волна» – Google, Microsoft, Language Weaver , Яндекс и десятки других Статистический МП – это поиск наиболее вероятного перевода предложения с использованием данных, полученных из параллельных корпусов.
  • 15. Статистический машинный перевод (2) Сегодня SMT – наиболее активно разрабатываемая архитектура MT . Почему? Легко построить, если есть двуязычный корпус, ноль / минимум лингвистики Переносимость технологии на любые пары языков Лексическая гладкость Ограничения / недостатки: Ограниченность параллельных корпусов в природе и их real-life качество Плохо справляется с морфологией / синтаксисом (по сравнению с RBMT ) Искажение информации (дублирование, пропуск или подмена информации) USA is to blame = США не виноват Russia is to blame = Россия виновата
  • 16. Выводы Обе технологии имеют свои достоинства и недостатки, но главное – они не решили задачу по получению качественного машинного перевода. МТ-сообщество ожидает прорыва в качестве перевода в гибридных моделях RBMT + SMT .
  • 17. Гибридная технология PROMT Объединение RBTM и статистических технологий лингвистический анализ входного предложения порождение вариантов перевода использование статистических технологий оценка и выбор лучшего варианта перевода с использованием Модели языка
  • 18. Этапы Гибридной технологии Обучение RBMT на основе параллельного корпуса с использованием статистических технологий Эксплуатация на основе натренированной системы
  • 19. Архитектура Гибридной технологии Параллельный корпус Модель языка Данные для постредактирования Правила синтеза Словарь терминологии Обучение Эксплуатация Гибридный перевод Текст на входном языке Текст на выходном языке Обучение
  • 20. Обучение Параллельный корпус (необработанные данные) Выходной корпус Новый параллельный корпус ( МП – перевод человеком ) Гибридная тематика перевода Параллельный корпус (прочищенные данные) Правила синтеза Данные для постредактирования Словарь терминологии Машинный перевод входного корпуса Модель языка Входной корпус
  • 21. Эксплуатация Лучший вариант перевода Предложение на входном языке Порождение вариантов перевода Варианты перевода 1. 2. x. Применение статистического постредак- тирования Варианты перевода 1. 2. x. Выбор по Модели языка
  • 22. Модель языка (1) Параллельный корпус (англо-русский) Корпус на входном языке ( английский ) Корпус на выходном языке ( русский ) Модель языка
  • 23. Модель языка (2) Модель языка (L anguage Model / LM ) – это набор n- грамм моноязычного корпуса с их вероятностными характеристиками. N- грамма – это последовательность слов из предложений длины n .
  • 25. Модель языка (4) Perplexity (PPL) – вычисляемая для предложения «степень его искаженности» по отношению к данной LM. Чем меньше PPL , тем «естественнее» предложение. Модель языка - оценка релевантности (через PPL) каждого перевода по отношению к данному корпусу, - выбор лучшего варианта среди всех порожденных.
  • 26. Как работает Гибридная технология Создание терминологического словаря из параллельных текстов для RBMT автоматическим путем Порождение всех возможных вариантов перевода на основе - лексических вариантов - вариантов синтеза разных конструкций - применения постредактирования  выбор лучшего варианта через Модель языка
  • 27. Терминологический словарь (1) Технология получения: а) на основе параллельного корпуса составляются таблицы n- грамм входного корпуса вместе с вероятностями соответствий этих n- грамм n- граммам выходного корпуса, б) на основании парсеров для входного и выходного языков, а также частотных характеристик из общего числа n- грамм извлекаются релевантные для словаря единицы с некоторой грамматической информацией (например, о валентности) создается двуязычный глоссарий в) в автоматическом режиме создается словарь для RBMT
  • 29. Лексические варианты The restaurant features a unique space with a cozy lounge and an eclectic blend of music, art and sculpture . Rule-based Ресторан представляет собой уникальное пространство (место ) с удобным залом и эклектичной смесью музыки, искусства и скульптуры . Hybrid Ресторан представляет собой уникальное пространство с удобным залом и эклектичной смесью музыки, искусства и скульптуры . ( PPL== 7 78) Ресторан представляет собой уникальное место с удобным залом и эклектичной смесью м узыки, искусства и скульптуры . ( PPL= 5 22 )
  • 30. Варианты синтеза конструкций (1) Rule-based: выбор определенной модели синтеза Hybrid: синтезирование нескольких вариантов перевода Правило синтеза: перевод конструкции to + инфинитив чтобы + инфинитив для + существительное You can use the same steps to edit the collection . Можно использовать те же самые шаги, чтобы о тредактировать коллекцию . ( PPL=372) Можно использовать те же самые шаги для редактирования коллекции . ( PPL=358 )
  • 31. Варианты синтеза конструкций (2) Rule-based: выбор определенной модели синтеза Hybrid: синтезирование нескольких вариантов перевода Правило синтеза: порядок следования подлежащего и сказуемого. Click Browse to browse the path for the folder in which you want newly created documents to be located . Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены . ( PPL= 290) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были расположены недавно созданные документы . (PPL= 274)
  • 33. Данные для постредактирования (2) Технология : на основе параллельного корпуса выделяется таблица n- грамм входного корпуса вместе с вероятностями соответствий этих n- грамм n- граммам выходного корпуса. с платежом PayPal банковским переводом  в случае платежа PayPal посредством банковского перевода вводите банковский перевод  инициируете перевод когда Вы закончены  после окончания Вашей работы каждое усилие было приложено  были предприняты все усилия
  • 34. Данные для постредактирования (3) Пример применения нескольких замен сегментов машинного переводами сегментами человеческого перевода. With PayPal payment by bank transfer, you initiate a bank transfer from your bank account to your PayPal account. С платежом PayPal банковским переводом вы вводите банковский перевод с Вашего банковского счета на ваш счет PayPal. ( PPL=95) В случае платежа PayPal посредством банковского перевода вы инициируете перевод с Вашего банковского счета на ваш счет PayPal. (PPL == 7)
  • 35. Исходный текст Порождение лексических вариантов Порождение вариантов синтеза Порождение вариантов постредактирования Click Browse to browse the path for the folder in which you want newly created documents to be located. Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были размещены . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были размещены . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы были расположены недавно созданные документы . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы были размещены недавно созданные документы . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были размещены . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы были расположены недавно созданные документы . Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы были размещены недавно созданные документы . Нажмите Browse для просмотра пути к папке , в которой Вы хотите, чтобы недавно созданные документы были расположены . Нажмите Browse для просмотра пути к папке , в которой Вы хотите, чтобы недавно созданные документы были размещены . Нажмите Browse для просмотра пути к папке , в которой Вы хотите, чтобы были расположены недавно созданные документы . Нажмите Browse для просмотра пути к папке , в которой Вы хотите, чтобы были размещены недавно созданные документы .
  • 36. Оценка LM Выбор лучшего варианта Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены. ( PPL= 556 ) Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы недавно созданные документы были размещены. (PPl = 601 ) Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы были расположены недавно созданные документы. (PPl = 526 ) Нажмите Browse, чтобы рассмотреть путь к папке, в которой Вы хотите, чтобы были размещены недавно созданные документы. (PPl = 569 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы недавно созданные документы были расположены. (PPl = 277 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы недавно созданные документы были размещены. (PPl = 301 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были расположены недавно созданные документы. (PPl = 261 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были размещены недавно созданные документы. (PPl = 283 ) Нажмите Browse для просмотра пути к папке, в которой Вы хотите, чтобы были расположены недавно созданные документы. (PPl = 261 )
  • 39. Выводы Преимущества RBMT сохраняются: - синтаксическая и морфологическая точность, - стабильность и предсказуемость результата, - возможность настройки на предметную область. Недостатки RBMT нивелируются за счет использования параллельных корпусов и статистических методов - автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии), - исчезает «машинный» акцент при перевода ( вариант ы синтеза и постредактировани е ).