SlideShare a Scribd company logo
MTEngine
Дмитрий Кан
dmitry.kan@gmail.com


   Машинный Перевод с Применением
   Компьютерной Семантики Силами
   Комьюнити

                NLP Seminar, 29 марта 2013
                 Яндекс, Санкт-Петербург
DEMO



Пишу письмо другу.
О себе
Ведущий инженер AlphaSense Inc
Участник SemanticAnalyzer Group

Кандидат физ.-мат. наук
Диссертация о машинном переводе

Интересы в NLP: МП, семантический
анализ, анализ тональности
О чём поговорим?
● МП: история
● Основные подходы
● MTEval @ ROMIP
● Статистический МП
● Метод порождения словаря
● Лингвистический проект за 6 часов
● Выводы
Немного истории МП
Одновременное независимое патентование
МП (1933):

● Пётр Смирнов-Троянский [1]

● Georde Artsrouni (отец МП) [2]
Ещё немного истории МП
Вторая мировая война:
● Электронный компьютер (обсчёт
  баллистических выстрелов в США, взлом
  кодов)
● Алан Тьюринг: нечисловые программы
  (напр., машинный перевод)
● Weaver (1949): МП как взлом кодов
Ещё немного истории МП 2
Weaver своими (неверными) идеями
стимулировал исследования в МП
● 1952: первая конференция по МП (MIT)
● 1954: демо первой системы МП
  (русский<->английский)
● 1960: МП стимулирован Холодной войной
  США, Великобритания, Франция, Япония
  и СССР
Доклад ALPAC
Основные подходы
Interlingua vs Transfer
Треугольник Машинного Перевода
Треугольник МП в деталях
Треугольник Машинного Перевода
для MTEngine
Оценка: BLEU
MTEval and Shared Task @ ROMIP
● Org: ROMIP in cooperation with TAUS
● 8 систем МП
● 1 crowdsourced переводчик: http:
  //translatedby.com/
● test set: ~1000 предложений, 100 на
  оценку
● 11 ассессоров
● небольшое перекрытие между ними
● 28 пакетов по 36 задач
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?

SYSTEM 1: NO

В пятницу Warner Music Group, объявил,
что он был вызван в управление Нью-Йорке
генеральный   Прокурор   Элиот  Спитцер,
чтобы предоставить информацию о цифровой
музыке скачать ценообразования.
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?

SYSTEM 2: YES

В пятницу Музыкальная Группа Уорнера
объявила, что она была вызвана в суд
управлением Нью-Йорка
Генеральный    Атторней   Элиот   Спицер
предоставить         информацию        о
ценообразовании загрузки цифровой
музыки.
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?

HUMAN: NO

В   пятницу  фирма   Warner  Music  Group
заявила, что ее представители были вызваны
на допрос к генеральному прокурору Нью-
Йорка Элиоту Спитцеру (Elliot Spitzer),
чтобы дать показания о политике
ценообразования   в   сфере  онлайн-продаж
музыкальной продукции.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?

SYSTEM 1: NO

Местные жители заметили также текущих SWAT
учений    с    участием     многочисленных
государственных органов в области, в том
числе национальной Безопасности, HPD и
Калифорнийский Департамент Полиции.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?

SYSTEM 2: YES

Местные жители также заметили настоящие
учения SWAT, вовлекающие многочисленные
правительственные агентства в области,
включающие Безопасность Родины, HPD и
Пасаденское Полицейское Управление.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?

HUMAN: YES

       Местные жители также заметили
   продолжающиеся тренировки спецназа в
   местных государственных учреждениях,
      включая Министерство внутренней
 безопасности США, Полицейские управления
        городов Хьюстон и Пасадена.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?

System 1 (no reordering)

Однако, Совет не будет применять каких-
либо   дальнейших  действий,  пока   не
ЭльБарадей делает его полный отчет о 6
марта.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?

System 2 (with reordering)

Однако,   совет   не   будет   выполнять
никакого   дальнейшего  действия,   пока
ЭлБэрейдей не сделает свой полный доклад
6 марта.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?

HUMAN (with reordering)

Однако, совет не будет предпринимать
дальнейших действий, пока ЭльБарадей
(ElBaradei) не предоставит свой полный
отчет 6 марта.
MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two
languages

System 1

Гарантии были даны, что грузовик, сцена,
музыка и выступления - не говоря уже о
барабанах, танцы и протест - не будет
предотвращено   от    идти   вперед,   как
планировалось на площади прямо напротив
таможни в Circular Quay, веб-сайт сказал.
MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two languages

System 2

Гарантиям дали тот грузовик, стадию,
музыку и речи - чтобы не упомянуть, что
барабанили, танцуя, и протесту - не будут
препятствовать идти вперед как
запланировано в квадрате непосредственно
вне Таможни в Круглом Причале, веб-сайт
сказал.
MTEval and Shared Task @ ROMIP
Problem: Semantic mapping betw. two languages

Original sentence:

"Assurances have been given that truck,
stage, music and speeches - not to mention
drumming,
dancing and protest - will not be prevented
from going ahead as planned in the square
directly outside Customs House at Circular
Quay," the website said.
Проблемы crowdsourcing и MT [8]
● Низкое качество (смысл задачи, copy-
  pasting, misspelling)

● Turking machines

● Output space problems (все переводы
  верны)
MTEngine
● Crowdsourced machine translation system
● Словарные единицы семантического уровня
● нет Turking machine problem
● Перевод либо верен, либо почти верен, либо
  неверен
● Проблема низкого качества решается кросс-
  проверками
История проекта
● Август-сентябрь 2011: первая версия
● Сентябрь - октябрь 2011: работа над оценкой
  качества
● Октябрь: выложены || корпуса
● 2012: первые волонтёры (по подписке)
● Январь 2013: новый UI
● Март 2013: новые фичи каждую неделю
● Регистрация на сайте
Статистический МП
● Сказав что-то однажды, человек повторит это
  вновь (с некот. вероятностью)
● || корпус -- основа для фразовой таблицы
● P(e|f), E - English, F - French
● Теорема Байеса:
Модель языка vs Модель
перевода
Исходный язык      Целевой язык
Переводной контекстный
семантический словарь
  ● Параллельный корпус UMC (~90
    тыс. пар предложений)
  ● Максимизация апостериорной
    вероятности, совместная
    встречаемость
  ● Семантический анализ
GIZA++ ищет P(f|e)
● Модуль выравнивания слов
● Входит в состав пакета Moses
  (статистический МП)
● 86000 предложений -> 1,3млн пар слов в
  выходных данных
● Задача разрешения полисемии
● Высокий уровень избыточности данных в
  словаре
● 18,000+ на выходе
Пример выравнивания
# Sentence pair (1) source length 4 target
length 7 alignment score : 2.25315e-10

there is a book on the table
NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит
({ 1 2 }) книга ({ 3 4 })

"столе" --> "on the table"
"лежит" --> "there is"
"книга" --> "a book"
Схема генерации словаря
Словарь
ВY1>HabU(Y1:,ПРЕД:Z1) <149>--->within
ВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at
ВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->in
ВY1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout
МАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11)
<2>--->marshall
НАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at
НАY1>Direkt(Y1:,РОД:Z1) <100>--->on
НАY1>Direkt(Y1:,РОД:Z1) <69>--->for
НАY1>Direkt(Y1:,РОД:Z1) <74>--->for the
ОБРАЗ(РОД:Z1) <2>--->a way
ОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05
(МИР$1227))<1>--->global
Порождение предлогов
СГТ
● @Род - of
Автомобиль Ивана.    Car of Ivan.

● @Тв - by
Пишу рукой.    Writing by hand.

● @Дат - to
Пишу другу.   Writing to (a) friend.
Выводы
● recognition в массы (stats page, юзерпик,
  wall of fame)
● Минимум рутины!
● Переводить предложения с нуля -- очень
  затратно
● MTEngine: помоги системе перевести
  лучше и получи зачёт и уточни познания
  английского языка
● Фокус на изучении, а не || корпусе
Выводы
● UI -- формат общения
● Максимум продуманности!
● Максимум автоматизации
● Минимум багов :)
● MTEngine: Twitter bootstrap + jQuery + PHP
  + Perl + MySQL
● Быстрая реакция на запросы
  пользователей
Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation
Studies, 2001, ISBN 0-203-35979-8.
[2] Р. Г. Пиотровский: Автоматизация обработки текста,
ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] ALPAC report http://www.nap.edu/openbook.php?
record_id=9547&page=R1
Библиография
[6] Chris Callison-Burch, Philipp Koehn: Introduction to
Statistical Machine Translation, ESSLLI 2005.
[7] www.romip.ru (http://romip.ru/mteval/index.html)
[8] Ambati V. Active Learning and Crowdsourcing for
Machine Translation in Low Resource Scenarios. Carnegie
Mellon University, 2011.
[9] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-2911038
Библиография
[10] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-1
[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F.
2012. Towards an integrated crowdsourcing definition.
Journal of Information Science (in press).
[12] Callison-Burch C. 2009. Fast, Cheap, and Creative:
Evaluating Translation Quality Using Amazon’s Mechanical
Turk. Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing: Vol. 1, pp. 286-
295.
Библиография
[13] Kan D. 2011. Method for an Automatic Generation of
a Semantic-level Contextual Translational Dictionary.
Proceedings of the 6th International Conference on
Software and Data Technologies, Vol. 2, pp. 415-418.
[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-
windows.html
[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-
windows-episode-2.html
Библиография
[16] Кан Д.А. Применение теории компьютерной
семантики и статистических методов к построению
системы машинного перевода. Дисс. канд. физ. мат.
наук, СПбГУ, 2011.

More Related Content

PPTX
Машинный перевод
PDF
Процесс майнинг
PDF
"Ура, заработало!", или как аналитика помогла нам улучшить внутрисайтовый пои...
PDF
SentiScan: система автоматической разметки тональности в social media
PPTX
"Война типов: сильные против слабых" Виктор Полищук
PDF
ALMADA 2013 (computer science school by Yandex and Microsoft Research)
PDF
IR: Open source state
PPTX
#ITSubbotnik Rodionov talk - "Neural networks in JS" (Нейронные сети на JS, С...
Машинный перевод
Процесс майнинг
"Ура, заработало!", или как аналитика помогла нам улучшить внутрисайтовый пои...
SentiScan: система автоматической разметки тональности в social media
"Война типов: сильные против слабых" Виктор Полищук
ALMADA 2013 (computer science school by Yandex and Microsoft Research)
IR: Open source state
#ITSubbotnik Rodionov talk - "Neural networks in JS" (Нейронные сети на JS, С...

Viewers also liked (18)

PDF
Lucene revolution eu 2013 dublin writeup
PDF
Social spam detection by SemanticAnalyzer Group
PDF
Starget sentiment analyzer for English
PDF
Linguistic component Sentiment Analyzer for the Russian language
PDF
Semantic feature machine translation system
PDF
Solr onfitnesse learningfromberlinbuzzwords
PDF
Machine translation course program (in English)
PDF
Automatic Build Of Semantic Translational Dictionary
PDF
Introduction To Machine Translation 1
PDF
Linguistic component Lemmatizer for the Russian language
PDF
Introduction To Machine Translation
PDF
NoSQL, Apache SOLR and Apache Hadoop
PDF
Rule based approach to sentiment analysis at ROMIP 2011
PDF
Poster: Method for an automatic generation of a semantic-level contextual tra...
PDF
Linguistic component Tokenizer for the Russian language
PPTX
Rule based approach to sentiment analysis at romip’11 slides
PDF
Semantic Analysis: theory, applications and use cases
PDF
NVIDIA Deep Learning.
Lucene revolution eu 2013 dublin writeup
Social spam detection by SemanticAnalyzer Group
Starget sentiment analyzer for English
Linguistic component Sentiment Analyzer for the Russian language
Semantic feature machine translation system
Solr onfitnesse learningfromberlinbuzzwords
Machine translation course program (in English)
Automatic Build Of Semantic Translational Dictionary
Introduction To Machine Translation 1
Linguistic component Lemmatizer for the Russian language
Introduction To Machine Translation
NoSQL, Apache SOLR and Apache Hadoop
Rule based approach to sentiment analysis at ROMIP 2011
Poster: Method for an automatic generation of a semantic-level contextual tra...
Linguistic component Tokenizer for the Russian language
Rule based approach to sentiment analysis at romip’11 slides
Semantic Analysis: theory, applications and use cases
NVIDIA Deep Learning.
Ad

Similar to MTEngine: Semantic-level Crowdsourced Machine Translation (7)

PPTX
К стратегической сессии по будущему интернета
PPTX
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
PDF
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)
PDF
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
PPT
Data journalism 2013
PDF
20120226 information retrieval raskovalov_lecture03-04
PPTX
Обзор курса
К стратегической сессии по будущему интернета
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
Data journalism 2013
20120226 information retrieval raskovalov_lecture03-04
Обзор курса
Ad

MTEngine: Semantic-level Crowdsourced Machine Translation

  • 1. MTEngine Дмитрий Кан dmitry.kan@gmail.com Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити NLP Seminar, 29 марта 2013 Яндекс, Санкт-Петербург
  • 3. О себе Ведущий инженер AlphaSense Inc Участник SemanticAnalyzer Group Кандидат физ.-мат. наук Диссертация о машинном переводе Интересы в NLP: МП, семантический анализ, анализ тональности
  • 4. О чём поговорим? ● МП: история ● Основные подходы ● MTEval @ ROMIP ● Статистический МП ● Метод порождения словаря ● Лингвистический проект за 6 часов ● Выводы
  • 5. Немного истории МП Одновременное независимое патентование МП (1933): ● Пётр Смирнов-Троянский [1] ● Georde Artsrouni (отец МП) [2]
  • 6. Ещё немного истории МП Вторая мировая война: ● Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов) ● Алан Тьюринг: нечисловые программы (напр., машинный перевод) ● Weaver (1949): МП как взлом кодов
  • 7. Ещё немного истории МП 2 Weaver своими (неверными) идеями стимулировал исследования в МП ● 1952: первая конференция по МП (MIT) ● 1954: демо первой системы МП (русский<->английский) ● 1960: МП стимулирован Холодной войной США, Великобритания, Франция, Япония и СССР
  • 15. MTEval and Shared Task @ ROMIP ● Org: ROMIP in cooperation with TAUS ● 8 систем МП ● 1 crowdsourced переводчик: http: //translatedby.com/ ● test set: ~1000 предложений, 100 на оценку ● 11 ассессоров ● небольшое перекрытие между ними ● 28 пакетов по 36 задач
  • 16. MTEval and Shared Task @ ROMIP Problem: to translate or not to translate? SYSTEM 1: NO В пятницу Warner Music Group, объявил, что он был вызван в управление Нью-Йорке генеральный Прокурор Элиот Спитцер, чтобы предоставить информацию о цифровой музыке скачать ценообразования.
  • 17. MTEval and Shared Task @ ROMIP Problem: to translate or not to translate? SYSTEM 2: YES В пятницу Музыкальная Группа Уорнера объявила, что она была вызвана в суд управлением Нью-Йорка Генеральный Атторней Элиот Спицер предоставить информацию о ценообразовании загрузки цифровой музыки.
  • 18. MTEval and Shared Task @ ROMIP Problem: to translate or not to translate? HUMAN: NO В пятницу фирма Warner Music Group заявила, что ее представители были вызваны на допрос к генеральному прокурору Нью- Йорка Элиоту Спитцеру (Elliot Spitzer), чтобы дать показания о политике ценообразования в сфере онлайн-продаж музыкальной продукции.
  • 19. MTEval and Shared Task @ ROMIP Problem: to reorder or not to reorder? SYSTEM 1: NO Местные жители заметили также текущих SWAT учений с участием многочисленных государственных органов в области, в том числе национальной Безопасности, HPD и Калифорнийский Департамент Полиции.
  • 20. MTEval and Shared Task @ ROMIP Problem: to reorder or not to reorder? SYSTEM 2: YES Местные жители также заметили настоящие учения SWAT, вовлекающие многочисленные правительственные агентства в области, включающие Безопасность Родины, HPD и Пасаденское Полицейское Управление.
  • 21. MTEval and Shared Task @ ROMIP Problem: to reorder or not to reorder? HUMAN: YES Местные жители также заметили продолжающиеся тренировки спецназа в местных государственных учреждениях, включая Министерство внутренней безопасности США, Полицейские управления городов Хьюстон и Пасадена.
  • 22. MTEval and Shared Task @ ROMIP Problem: Does reordering even matter? System 1 (no reordering) Однако, Совет не будет применять каких- либо дальнейших действий, пока не ЭльБарадей делает его полный отчет о 6 марта.
  • 23. MTEval and Shared Task @ ROMIP Problem: Does reordering even matter? System 2 (with reordering) Однако, совет не будет выполнять никакого дальнейшего действия, пока ЭлБэрейдей не сделает свой полный доклад 6 марта.
  • 24. MTEval and Shared Task @ ROMIP Problem: Does reordering even matter? HUMAN (with reordering) Однако, совет не будет предпринимать дальнейших действий, пока ЭльБарадей (ElBaradei) не предоставит свой полный отчет 6 марта.
  • 25. MTEval and Shared Task @ ROMIP Problem: Semantic mapping between two languages System 1 Гарантии были даны, что грузовик, сцена, музыка и выступления - не говоря уже о барабанах, танцы и протест - не будет предотвращено от идти вперед, как планировалось на площади прямо напротив таможни в Circular Quay, веб-сайт сказал.
  • 26. MTEval and Shared Task @ ROMIP Problem: Semantic mapping between two languages System 2 Гарантиям дали тот грузовик, стадию, музыку и речи - чтобы не упомянуть, что барабанили, танцуя, и протесту - не будут препятствовать идти вперед как запланировано в квадрате непосредственно вне Таможни в Круглом Причале, веб-сайт сказал.
  • 27. MTEval and Shared Task @ ROMIP Problem: Semantic mapping betw. two languages Original sentence: "Assurances have been given that truck, stage, music and speeches - not to mention drumming, dancing and protest - will not be prevented from going ahead as planned in the square directly outside Customs House at Circular Quay," the website said.
  • 28. Проблемы crowdsourcing и MT [8] ● Низкое качество (смысл задачи, copy- pasting, misspelling) ● Turking machines ● Output space problems (все переводы верны)
  • 29. MTEngine ● Crowdsourced machine translation system ● Словарные единицы семантического уровня ● нет Turking machine problem ● Перевод либо верен, либо почти верен, либо неверен ● Проблема низкого качества решается кросс- проверками
  • 30. История проекта ● Август-сентябрь 2011: первая версия ● Сентябрь - октябрь 2011: работа над оценкой качества ● Октябрь: выложены || корпуса ● 2012: первые волонтёры (по подписке) ● Январь 2013: новый UI ● Март 2013: новые фичи каждую неделю ● Регистрация на сайте
  • 31. Статистический МП ● Сказав что-то однажды, человек повторит это вновь (с некот. вероятностью) ● || корпус -- основа для фразовой таблицы ● P(e|f), E - English, F - French ● Теорема Байеса:
  • 32. Модель языка vs Модель перевода
  • 33. Исходный язык Целевой язык Переводной контекстный семантический словарь ● Параллельный корпус UMC (~90 тыс. пар предложений) ● Максимизация апостериорной вероятности, совместная встречаемость ● Семантический анализ
  • 34. GIZA++ ищет P(f|e) ● Модуль выравнивания слов ● Входит в состав пакета Moses (статистический МП) ● 86000 предложений -> 1,3млн пар слов в выходных данных ● Задача разрешения полисемии ● Высокий уровень избыточности данных в словаре ● 18,000+ на выходе
  • 35. Пример выравнивания # Sentence pair (1) source length 4 target length 7 alignment score : 2.25315e-10 there is a book on the table NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит ({ 1 2 }) книга ({ 3 4 }) "столе" --> "on the table" "лежит" --> "there is" "книга" --> "a book"
  • 37. Словарь ВY1>HabU(Y1:,ПРЕД:Z1) <149>--->within ВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at ВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->in ВY1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout МАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2>--->marshall НАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at НАY1>Direkt(Y1:,РОД:Z1) <100>--->on НАY1>Direkt(Y1:,РОД:Z1) <69>--->for НАY1>Direkt(Y1:,РОД:Z1) <74>--->for the ОБРАЗ(РОД:Z1) <2>--->a way ОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05 (МИР$1227))<1>--->global
  • 38. Порождение предлогов СГТ ● @Род - of Автомобиль Ивана. Car of Ivan. ● @Тв - by Пишу рукой. Writing by hand. ● @Дат - to Пишу другу. Writing to (a) friend.
  • 39. Выводы ● recognition в массы (stats page, юзерпик, wall of fame) ● Минимум рутины! ● Переводить предложения с нуля -- очень затратно ● MTEngine: помоги системе перевести лучше и получи зачёт и уточни познания английского языка ● Фокус на изучении, а не || корпусе
  • 40. Выводы ● UI -- формат общения ● Максимум продуманности! ● Максимум автоматизации ● Минимум багов :) ● MTEngine: Twitter bootstrap + jQuery + PHP + Perl + MySQL ● Быстрая реакция на запросы пользователей
  • 41. Библиография [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-35979-8. [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5. [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf [5] ALPAC report http://www.nap.edu/openbook.php? record_id=9547&page=R1
  • 42. Библиография [6] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005. [7] www.romip.ru (http://romip.ru/mteval/index.html) [8] Ambati V. Active Learning and Crowdsourcing for Machine Translation in Low Resource Scenarios. Carnegie Mellon University, 2011. [9] http://www.slideshare.net/dmitrykan/introduction- to-machine-translation-2911038
  • 43. Библиография [10] http://www.slideshare.net/dmitrykan/introduction- to-machine-translation-1 [11] Estellés-Arolas, E., González Ladrón-de-Guevara, F. 2012. Towards an integrated crowdsourcing definition. Journal of Information Science (in press). [12] Callison-Burch C. 2009. Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazon’s Mechanical Turk. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Vol. 1, pp. 286- 295.
  • 44. Библиография [13] Kan D. 2011. Method for an Automatic Generation of a Semantic-level Contextual Translational Dictionary. Proceedings of the 6th International Conference on Software and Data Technologies, Vol. 2, pp. 415-418. [14] http://dmitrykan.blogspot.ru/2010/02/giza-under- windows.html [15] http://dmitrykan.blogspot.ru/2010/03/giza-under- windows-episode-2.html
  • 45. Библиография [16] Кан Д.А. Применение теории компьютерной семантики и статистических методов к построению системы машинного перевода. Дисс. канд. физ. мат. наук, СПбГУ, 2011.