SlideShare a Scribd company logo
Современные речевые технологии:   основные направления исследований  и применяемые подходы Илья Опарин
Acknowledgements В презентации использованы материалы из лекций ЦРТ Е.Корольков К.Левин Е.Лысенко Т.Пеховский И.Тампель Статьи Phoneme Based Acoustics Keyword Spotting in Informal Continuous Speech . I. Szoke, P. Schwarz, P. Matejka, L. Burget, M. Kara fi at,   J .  Cernocky
Основные направления исследований Распознавание речи Акустические модели Языковые модели Выделение ключевых слов Определение языка сообщения Идентификация диктора Синтез речи
Другие направления Шумоочистка Определение эмоционального и физического состояния Низкоскоростное кодирование речи Фоноскопические экспертизы Разделение дикторов Music Spotting
Распознавание речи Automatic Speech Recognition (ASR) Large Vocabulary Continuous Speech Recognition (LVCSR )
Распознавание речи Распознавание цифр/команд IVR- системы Command-and-Control  приложения Навигаторы Логистика Распознавание слитной речи Диктовка Голосовой блокнот Спонтанная речь Индексация речевых архивов Стенографирование Голосовые переводчики
Распознавание команд Динамическое программирование Исторически первый подход Создание шаблонов и сравнение с ними DTW (Dynamic Time Warping) Статистические модели
Распознавание слитной речи Акустические модели Оценивают акустические вероятности распознавания отдельных аллофонов Монофоны Трифоны Языковые модели Оценивают вероятности следования слов друг за другом Декодер Выявление лучшей гипотезы в сети распознавания
Общая схема
Акустические модели Статистические модели Скрытые марковские модели –  HMM (Hidden Markov Models) Смеси гауссовых распределений –  GMM (Gaussian Mixture Models) Искусственные нейронные сети  – ANN (Artificial Neural Networks) Тренировка на размеченных речевых базах Адаптация к диктору Нормализация на канал
Первичная обработка сигнала ЦОС (цифровая обработка сигнала) Параметризация сигнала Создание векторов-признаков Преобразование Фурье –  FFT (Fast Fourier Transform) MFCC (Mel-Frequency Cepstral Coefficients) PLP (Perceptual Linear Prediction)
HMM
Формула Байеса
Параметры  HMM Параметры модели  λ ( A, B,  π ) π  –  начальное распределение вероятностей A={a ij } –  вероятность перехода из состояния  q(i)  в  q ( j) B j (x) –  функция плотности вероятности состояния  s i   в пространстве признаков (вероятность эмиссии)
GMM Аппроксимация функции плотности вероятности где M – число гауссовых компонентов в распределении вероятностей, c jm  – это вес m-го компонента смеси, N(o; μ, ∑) – это гауссова функция от нескольких переменных с вектором математического ожидания μ и корреляционной матрицей ∑, которая определяется как
Моделирование распределения для 1 кепстрального коэффициента
Конкатенация  HMM
Обучение  HMM Алгоритм Баума-Уэлша ( Baum-Welch ) Разновидность  EM- алгоритма
Нейронные сети
ANN
Модели языка Оценка вероятности следования слов N- граммный подход Сложные лингвистические подходы до сих пор мало применимы Language Models (LM)
A statistical language model is simply a probability distribution  P(s)  over all possible sentences  s .   Ronald Rosenfeld
Every time I fire a linguist the performance of the recognizer improves. Fred Jelinek (IBM Speech Group)
Оценка  LM Word Error Rate (WER) Сложно сравнивать для разных  ASR  платформ Сложно выделить вклад  LM Перплексия  (Perplexity) Основана на понятии энтропии Можно оценить на основании только текста Соответствует среднему значению ветвления  LM
Правило Байеса Задача распознавания:  R = argmaxP(W|O) По правилу Байеса Так как  P(O)  константа для всех кандидатов  R = argmaxP( O|W ) P(W) P(O|W)  – Acoustic Likelihood Вычисляется акустическими моделями P(W)  – Prior Probability Вычисляется моделью языка
Характеристики модели языка Изолированная вероятность Не учитывает контекст – чисто лексическая Нужна более сложная оценка LM –  часть общей системы распознавания Должна обеспечивать улучшение распознавания Не должна замедлять работу Должна быть достаточно простой, легко параметризируемой и перестраиваемой
N- граммный подход Учет контекста Ограничиваемся левым контекстом Chain Rule:   Вычислительно невыполнимо Количество независимых параметров  n=V i Контекст ограничивается  N  непосредственными соседями
N- граммы N -непосредственных соседей слева Maximum Likelihood Estimation (MLE):  w1 w2 w3 w4 w5 w6 Триграмма  w3 w4 w5 w3 w4 – N- граммная история для  w5
Sparsity Problem Наиболее популярные значения  N  =  {2, 3, 4} Любого корпуса недостаточно для оценки всех параметров Количество парметров в  4- граммной модели  ( словарь  65K): 65 4  = 1.8×10 19 Количество реальных параметров примерно в  10 11   раз меньше И все равно слишком много Техники сглаживания и отката/интерполяции Smoothing and Backoff Если в тренировочном корпусе не встретили  N- граммы, то скорее всего это проблема маленького корпуса, а не языковой невозможности  N- граммы
Сглаживание и откат Unseen N-grams Тренировочный корпус беден Неправильное отсечение корректного кандидата Сглаживание Забирает немного вероятностной массы от  “seen” N- грамм Откат   или интерполяция Распределяет выделенную массу среди  “unseen” N- грамм Вероятности должны суммироваться в 1
Техники сглаживания Add-one Witten-Bell Good-Turing Jelinek-Mercer Kneser-Ney
Backoff Грамотное распределение вероятностной массы : Если  N- грамма  “unseen”,  используется   вероятность  “seen” (N-1)- граммы Вероятность  (N-1)- граммы берется с дискаунтом Вероятности должны суммироваться в 1 Вместо отката можно использовать интерполяцию  N- грамм разных порядков
N- граммы: за и против Введены в распознавание более 30 лет назад (Ф.Елинек) – все еще основа любой  LM Легко тренировать Робастные Учет только короткого контекста Чистая статистика без лингвистики Sparsity problem
Усовершенствования  N- грамм Немотивированные лингвистически Классовые модели Кэш-модели Topic -модели Модели триггеров Деревья решений Экспоненциальные модели Лингвистически мотивированные Частеречная информация Морфология Синтаксис Семантика Факторные модели
Морфология в моделях языка Значительное сжатие модели Меньший словарь Меньший тренировочный корпус Меньший размер модели Улучшения на втором проходе Модель теряет преимущества компактности Модель усложняется Улучшение распознавания на первом проходе В терминах  WER  – пока под вопросом Улучшение перплексии Возможно, неправильно считают Нужны очень сильные акустические модели Использование грамматической информации
Синтаксис в моделях языка “ Long-span”  синтаксические связи Контекст- целое предложение Должны быть особенно полезны для языков со свободным порядком слов Context-Free grammars Link Grammars Dependency grammars Structured Language Model (SLM)
Семантика в моделях языка Реально работает только модель Скрытого семантического анализа Latent Semantic Analysis (LSA) Основано на технике  SVD  из линейной алгебры
Putting Language Back to Language Modelling Language  modelling Модели очень сложны Нет явного общепризнанного успеха В данной области необходим прорыв
Выделение ключевых слов Keyword Spotting (KWS) Spoken Term Detection (STD)
Применяемые подходы На основе ДП На основе  KWS -сети Методы распознавания речи  HMM / GMM / ANN Фоновая модель На основе  ASR Словные латтисы Фонемные латтисы
KWS  на моделях ключевых слов
Монофонная  KWS- сеть
Трифонная  KWS- сеть
KWS  на основе  ASR –  словные латтисы Индексация звука при помощи  LVCSR- системы Поиск в словных латтисах Высокая скорость поиска Высокая надежность в случае хорошего  LVCSR Проблемы Принципиально невозможно найти ключевое слово, если оно  OOV  для системы распознавания Сильно зависит от качества  LVCSR -системы и ее ограничений
KWS  на основе  ASR  – фонемные латтисы Индексация звука при помощи системы пофонемного распознавания на фонемном уровне Поиск ключевого слова Добавление слова в соответствующее место словного латтиса Пересчет словного латтиса  LVCSR- системой Проблемы:  огромный размер фонемных латтисов Сильно зависит от качества  ASR -систем   и их ограничений
Современный уровень распознавания Распознавание команд Зависит то количества Диктовка Хорошее качество для английского Адаптация к диктору Низкий уровень шума Спонтанная речь - проблемно Адаптация моделей языка Устойчивость к шуму ( Robustness )
Распознавание языка сообщения Language Identification (LID) Language Recognition
Области применения Контакт-центры IVR- системы Службы безопасности
Применяемые подходы GMM Построение  GMM- моделей отдельных языков Фонотактический подход Phonotactic Approach Комбинация подходов Формирование общей вероятностной меры
Фонотактический подход Распознавание на фонемном уровне Использованием система фонемного распознавания для одного фиксированного языка Построение  N- граммных фонемных моделей для каждого языка Оценка фонемного латтиса, соответствующего тестовому сигналу каждой из фонотактических моделей
Идентификация диктора Speaker Identification (SID) Speaker Recognition Speaker Verification/Authentication
Идентификация/Верификация Идентификация диктора Речевые сервисы Службы безопасности Мониторинг телефонных каналов Как правило текстонезависима Верификация диктора Системы доступа  Голосовой банкинг Голосовой замок и т.п. Может быть как текстозависимой, так и текстонезависимой
Развитие идентификации Экспертные методы «В круге первом» А.Солженицына Автоматические методы Спектральный подход Исследование мест и поведения формант Основной тон Статистические модели GMM Нейросетевые подходы
Меры оценки качества Ошибка пропуска цели False Rejection Ошибка ложного срабатывания False Alarm, False Acceptance Равновероятная ошибка EER (Equal Error Rate) DET- кривые Detection Error Tradeoff
Спектральные методы Автоматическое выделение формант 3 и 4 форманты Метод «ближайшего соседа» Сравнение векторов формант Нахождение ближайшего вектора из присутствующих в базе
Distance Calculation R U R U … … … … … … … …
Статистические подходы -  GMM GMM- модели диктора Фоновая модель (модель импостера) Нормализация на канал
Базы данных Один канал записи Несколько подходов для каждого диктора Минимум 3 подхода
Модели диктора Базовый вариант GMM- модель Усовершенствования SVM Для классификации средних в  GMM NAP (Nuissance Attribute Projection) Нормализации H-norm, T-norm, Z-norm SMS (Speaker Model Synthesis) Feature Warping MLLR (Maximum Likelihood Linear Regression) Joint Factor Analysis Собственный канал ( Eigen Channel ) Собственный диктор ( Eigen Voice ) Декореллирование и уменьшение размерности векторов-признаков LDA, HLDA (Linear Discriminant Analysis)
Фоновая модель Универсальная фоновая модель  Universal Background Model  ( UBM ) Описывается большим количеством гауссиан (напр. 2048)
Модель диктора с использованием  UBM Модели диктора и  UBM  не могут существовать отдельно друг от друга Модель диктора можно получить путем адаптации  UBM MAP- адаптация Требуется много данных от диктора Серьезные вычислительные затраты  MLLR “ Быстрая ”  адаптация Eigen channel Наиболее перспективная технология
Синтез речи по тексту Text-to-Speech (TTS)  Speech Synthesis
Синтез речи Исторически первое направление   в речевых технологиях Главная цель: достижение максимальной естественности «чтения» произвольного текста
Области применения Независимое применение Слабовидящие люди Системы оповещения Чтение  SMS, e-mail , объявлений… В составе более крупных систем IVR  системы Диалоговые системы Автоматический перевод с речи на речь
Главные проблемы Разборчивость речи Задача решена Естественность речи Человек быстро теряет концентрацию, если речь неестественна Человек не склонен общаться с системой, звучащей неестественно Тест Тьюринга Компромисс между качеством, памятью и быстродействием
Системы синтеза речи - история XIII  век – Р.Бэкон 1779 – К.Краценштейн (артикуляторный синтез, 5 гласных) 1791 – В. Фон Кемпелен (модель языка и губ, синтез гласных и согласных) 1930s – VOCODER  ( управление с клавиатуры, разборчивая речь ) 40-50 -е  –  Дальнейшие механические улучшения в артикуляторной модели 1968 – первая полноценный синтез на компьютере ( Bell labs ) 70 -е  –  Первые конкатенативные синтезаторы 80 -е  –  Формантные синтезаторы ,  первые коммерческие применения  (DECTalk) 90 -е  –  Компилятивные синтезаторы с полными речевыми базами , Unit Selection 2000-е  –   Unit Selection, HMM/GMM  синтезаторы
Системы русской речи - сейчас Лучшее качество –  Unit Selection Синтезаторы   в реальном времени Относительно естественное звучание для основных европейских языков Будущее  HMM  синтез: быстрый прогресс, но изначальные ограничения модели Unit Selection : увеличение вычислительных возможностей Синтезаторы русской речи Elan ЦРТ Sacrament Loquendo
Артикуляторный синтез Модель артикуляторных движений и характеристик речевого тракта Articulatory Synthesis Крайне неестественное звучание Отсутствие индивидуальных характеристик голоса в синтезированной речи Невозможность точного динамического моделирования речевого тракта Сложность генерации сигнала возбуждения
Формантный синтез Формантный синтез = синтез по правилам   Rule-Based Synthesis Отталкиваемся от акустики Построение формант и других характеристик при помощи правил и фильтров - Неестественность и роботизированность синтезированной речи + Высокая разборчивость (даже на высоких скоростях), компактность
Компилятивный синтез  (Concatenative Synthesis) Макросинтез Дифонный/Аллофонный синтез Unit Selection
Макросинтез  (Domain-specific Synthesis) Большие целиком записанные фразы Высокое качество Мало стыков, большие речевые сегменты Но: рассогласование интонации Жесткие ограничения по области применения Нельзя синтезировать произвольный текст Вокзалы, аэропорты и т.п.
Компилятивный синтез из единиц фиксированной длины Баланс между размером звуковой базы (количество единиц) и качеством синтеза Типы единиц Фонема Не работает Дифон Учет стыков между двумя аллофонами Аллофон Полноценная контекстно-зависимая единица Слог Проблемы с увеличением размера базы Компактность речевой базы Относительно высокое качество звучания Учет индивидуальных характеристик Модификации сигнала ухудшают качество
Модификации сигнала Модификации в частотной области Повышение/понижение основного тона Моделирование интонации  Модификации во временной области Ускорение-замедление темпа Модификации энергии сигнала Моделирование интонации Любые модификации приводят к ухудшению качества сигнала
Unit Selection Основные идеи Меньше склеек – лучше качество Меньше модификаций сигнала – лучше качество Уменьшение количества склеек Укрупнение единиц Уменьшение модификаций Несколько реализаций для каждой единицы Реализации в разных интонационных конструкциях
Общая структура  TTS
Создание  TTS –  запись речевой базы Богатый голос Профессиональный диктор Заглушенная камера Аллофонный/дифонный синтез Специально подобранные слова Unit selection Несколько часов (5-10) чтения Осознанный выбор текста для чтения Общеупотребительная лексика Наличие диалогов Многоуровневая сегментация
Создание  TTS –  нормализация текста Что-о-о??!! Слава КПСС! Около 12:37 в ночь на 15.06.2007 Настоятельно рекомендую одолжить мне 100 $  до завтра 2*2=2 2 Мы любим  Microsoft г. Бобруйск – центр вселенной Это очень любопы-
Создание  TTS –  анализ текста
Создание  TTS –  анализ текста Определение места ударения и буквы  ё Морфо-грамматический словарь Омография Белок сущ., м.р., им.п., ед.ч.   бело < к сущ., ж.р., р.п., мн.ч.   бе < лок сущ., м.р., в.п., ед.ч.   бело < к сущ., ж.р., в.п., мн.ч.   бе < лок мел –  мел/мёл Правильное грамматическое согласование К 4 часам утра
Создание  TTS –  анализ текста Выделение интонационных единиц На основании пунктуации Вот и все, приехали… На основании связей в тексте Обстоятельства и причина смерти моей весьма фотогеничной матери были довольно оригинальные (пикник, молния)   Определение интонационного типа и места логического ударения На основании пунктуации Удивительно! На основании смысла текста Я считаю это ну полным бредом!
Создание  TTS -  транскриптор
Создание  TTS -  транскриптор Фонетический алфавит G-to-P (Grapheme-to-Phoneme) Молоко  ->  /m a 2  l a 1  k o0/ Редукция гласных Аканье Оглушение снег Ассимиляция сделать Выпадение солнце Фузии под столом
Создание  TTS –  модификация звука
Unit Selection - intuition Большая размеченная база Можно найти единицу, которая будет  лучшей  для синтеза из списка кандидатов  Главная проблема – найти лучшую Target Cost  – соответствие целевым параметрам Фонетический контекст F0,  ударение, позиция во фразе Concatenation Cost  – плавность перехода между соседними единицами Форманты, энергия,  F0…
Target Cost Сумма  sub-costs Ударение Позиция во фразе F0 Длительность Лексическое соответствие
Concatenation Cost Мера гладкости соединения Измеряется для двух соседних единиц Состоит из суммы  sub-costs Спектральные характеристики F0 Энергия
Total Cost
Преимущества и недостатки  US Высокое качество звучания Естественная (без модификаций) просодика Местами качество может быть плохим Плохое качество на фоне хорошего очень раздражает Большие объем вычислений Большой объем базы
HMM -синтез Основан на статистических скрытых марковских моделях Модели различных аллофонов тренируются на размеченной базе MFCC  или  PLP  коэффициенты Удобный подход для исследовательских целей Легко изменять различные параметры (напр., интонационные) и отслеживать результат
Рекомендуемая литература SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition D.Jurafsky, R.Martin The HTK book Young et al. Spoken Language Processing X .  Huang, A .  Acero & H . -W .  Hon   Statistical Methods for Speech Recognition F.Jelinek
 

More Related Content

PPT
08 машинный перевод
PPT
Разрешение лексической неоднозначности
PDF
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
PPTX
phonology Chapter 8
PPT
Системы автоматического синтеза речи
PDF
"Как Яндекс распознаёт музыку с микрофона". Евгений Крофто, Яндекс
PPT
Максим Литвинов
PPT
Методы морфологического анализа текстов
08 машинный перевод
Разрешение лексической неоднозначности
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
phonology Chapter 8
Системы автоматического синтеза речи
"Как Яндекс распознаёт музыку с микрофона". Евгений Крофто, Яндекс
Максим Литвинов
Методы морфологического анализа текстов

Similar to Speech technologies (6)

PDF
Современные средства NLP в поисковых задач - Стачка 2017
PPT
RussNet
PPT
лекции 3 4 тема 1
PPT
Презентация PROMT для РИТ
PPT
гибридная технология перевода. юлия епифанцева. зал.4
PPT
Программные средства выявления теминологических вариантов в текстах
Современные средства NLP в поисковых задач - Стачка 2017
RussNet
лекции 3 4 тема 1
Презентация PROMT для РИТ
гибридная технология перевода. юлия епифанцева. зал.4
Программные средства выявления теминологических вариантов в текстах
Ad

More from NLPseminar (20)

PPTX
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
PPTX
Events
PPTX
Tomita
PPT
бетин
PDF
Andreev
PPTX
клышинский
PDF
конф ии и ея гаврилова
PPTX
кудрявцев V3
PPT
rubashkin
PPTX
Vlasova
PDF
Ageev
PPSX
Khomitsevich
PPTX
акинина осмоловская
PDF
Serebryakov
PPT
потапов
PPT
molchanov(promt)
PDF
белканова
PDF
Skatov
PPTX
гвоздикин
PPT
веселов
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
Events
Tomita
бетин
Andreev
клышинский
конф ии и ея гаврилова
кудрявцев V3
rubashkin
Vlasova
Ageev
Khomitsevich
акинина осмоловская
Serebryakov
потапов
molchanov(promt)
белканова
Skatov
гвоздикин
веселов
Ad

Speech technologies

  • 1. Современные речевые технологии: основные направления исследований и применяемые подходы Илья Опарин
  • 2. Acknowledgements В презентации использованы материалы из лекций ЦРТ Е.Корольков К.Левин Е.Лысенко Т.Пеховский И.Тампель Статьи Phoneme Based Acoustics Keyword Spotting in Informal Continuous Speech . I. Szoke, P. Schwarz, P. Matejka, L. Burget, M. Kara fi at, J . Cernocky
  • 3. Основные направления исследований Распознавание речи Акустические модели Языковые модели Выделение ключевых слов Определение языка сообщения Идентификация диктора Синтез речи
  • 4. Другие направления Шумоочистка Определение эмоционального и физического состояния Низкоскоростное кодирование речи Фоноскопические экспертизы Разделение дикторов Music Spotting
  • 5. Распознавание речи Automatic Speech Recognition (ASR) Large Vocabulary Continuous Speech Recognition (LVCSR )
  • 6. Распознавание речи Распознавание цифр/команд IVR- системы Command-and-Control приложения Навигаторы Логистика Распознавание слитной речи Диктовка Голосовой блокнот Спонтанная речь Индексация речевых архивов Стенографирование Голосовые переводчики
  • 7. Распознавание команд Динамическое программирование Исторически первый подход Создание шаблонов и сравнение с ними DTW (Dynamic Time Warping) Статистические модели
  • 8. Распознавание слитной речи Акустические модели Оценивают акустические вероятности распознавания отдельных аллофонов Монофоны Трифоны Языковые модели Оценивают вероятности следования слов друг за другом Декодер Выявление лучшей гипотезы в сети распознавания
  • 10. Акустические модели Статистические модели Скрытые марковские модели – HMM (Hidden Markov Models) Смеси гауссовых распределений – GMM (Gaussian Mixture Models) Искусственные нейронные сети – ANN (Artificial Neural Networks) Тренировка на размеченных речевых базах Адаптация к диктору Нормализация на канал
  • 11. Первичная обработка сигнала ЦОС (цифровая обработка сигнала) Параметризация сигнала Создание векторов-признаков Преобразование Фурье – FFT (Fast Fourier Transform) MFCC (Mel-Frequency Cepstral Coefficients) PLP (Perceptual Linear Prediction)
  • 12. HMM
  • 14. Параметры HMM Параметры модели λ ( A, B, π ) π – начальное распределение вероятностей A={a ij } – вероятность перехода из состояния q(i) в q ( j) B j (x) – функция плотности вероятности состояния s i в пространстве признаков (вероятность эмиссии)
  • 15. GMM Аппроксимация функции плотности вероятности где M – число гауссовых компонентов в распределении вероятностей, c jm – это вес m-го компонента смеси, N(o; μ, ∑) – это гауссова функция от нескольких переменных с вектором математического ожидания μ и корреляционной матрицей ∑, которая определяется как
  • 16. Моделирование распределения для 1 кепстрального коэффициента
  • 18. Обучение HMM Алгоритм Баума-Уэлша ( Baum-Welch ) Разновидность EM- алгоритма
  • 20. ANN
  • 21. Модели языка Оценка вероятности следования слов N- граммный подход Сложные лингвистические подходы до сих пор мало применимы Language Models (LM)
  • 22. A statistical language model is simply a probability distribution P(s) over all possible sentences s . Ronald Rosenfeld
  • 23. Every time I fire a linguist the performance of the recognizer improves. Fred Jelinek (IBM Speech Group)
  • 24. Оценка LM Word Error Rate (WER) Сложно сравнивать для разных ASR платформ Сложно выделить вклад LM Перплексия (Perplexity) Основана на понятии энтропии Можно оценить на основании только текста Соответствует среднему значению ветвления LM
  • 25. Правило Байеса Задача распознавания: R = argmaxP(W|O) По правилу Байеса Так как P(O) константа для всех кандидатов R = argmaxP( O|W ) P(W) P(O|W) – Acoustic Likelihood Вычисляется акустическими моделями P(W) – Prior Probability Вычисляется моделью языка
  • 26. Характеристики модели языка Изолированная вероятность Не учитывает контекст – чисто лексическая Нужна более сложная оценка LM – часть общей системы распознавания Должна обеспечивать улучшение распознавания Не должна замедлять работу Должна быть достаточно простой, легко параметризируемой и перестраиваемой
  • 27. N- граммный подход Учет контекста Ограничиваемся левым контекстом Chain Rule: Вычислительно невыполнимо Количество независимых параметров n=V i Контекст ограничивается N непосредственными соседями
  • 28. N- граммы N -непосредственных соседей слева Maximum Likelihood Estimation (MLE): w1 w2 w3 w4 w5 w6 Триграмма w3 w4 w5 w3 w4 – N- граммная история для w5
  • 29. Sparsity Problem Наиболее популярные значения N = {2, 3, 4} Любого корпуса недостаточно для оценки всех параметров Количество парметров в 4- граммной модели ( словарь 65K): 65 4 = 1.8×10 19 Количество реальных параметров примерно в 10 11 раз меньше И все равно слишком много Техники сглаживания и отката/интерполяции Smoothing and Backoff Если в тренировочном корпусе не встретили N- граммы, то скорее всего это проблема маленького корпуса, а не языковой невозможности N- граммы
  • 30. Сглаживание и откат Unseen N-grams Тренировочный корпус беден Неправильное отсечение корректного кандидата Сглаживание Забирает немного вероятностной массы от “seen” N- грамм Откат или интерполяция Распределяет выделенную массу среди “unseen” N- грамм Вероятности должны суммироваться в 1
  • 31. Техники сглаживания Add-one Witten-Bell Good-Turing Jelinek-Mercer Kneser-Ney
  • 32. Backoff Грамотное распределение вероятностной массы : Если N- грамма “unseen”, используется вероятность “seen” (N-1)- граммы Вероятность (N-1)- граммы берется с дискаунтом Вероятности должны суммироваться в 1 Вместо отката можно использовать интерполяцию N- грамм разных порядков
  • 33. N- граммы: за и против Введены в распознавание более 30 лет назад (Ф.Елинек) – все еще основа любой LM Легко тренировать Робастные Учет только короткого контекста Чистая статистика без лингвистики Sparsity problem
  • 34. Усовершенствования N- грамм Немотивированные лингвистически Классовые модели Кэш-модели Topic -модели Модели триггеров Деревья решений Экспоненциальные модели Лингвистически мотивированные Частеречная информация Морфология Синтаксис Семантика Факторные модели
  • 35. Морфология в моделях языка Значительное сжатие модели Меньший словарь Меньший тренировочный корпус Меньший размер модели Улучшения на втором проходе Модель теряет преимущества компактности Модель усложняется Улучшение распознавания на первом проходе В терминах WER – пока под вопросом Улучшение перплексии Возможно, неправильно считают Нужны очень сильные акустические модели Использование грамматической информации
  • 36. Синтаксис в моделях языка “ Long-span” синтаксические связи Контекст- целое предложение Должны быть особенно полезны для языков со свободным порядком слов Context-Free grammars Link Grammars Dependency grammars Structured Language Model (SLM)
  • 37. Семантика в моделях языка Реально работает только модель Скрытого семантического анализа Latent Semantic Analysis (LSA) Основано на технике SVD из линейной алгебры
  • 38. Putting Language Back to Language Modelling Language modelling Модели очень сложны Нет явного общепризнанного успеха В данной области необходим прорыв
  • 39. Выделение ключевых слов Keyword Spotting (KWS) Spoken Term Detection (STD)
  • 40. Применяемые подходы На основе ДП На основе KWS -сети Методы распознавания речи HMM / GMM / ANN Фоновая модель На основе ASR Словные латтисы Фонемные латтисы
  • 41. KWS на моделях ключевых слов
  • 44. KWS на основе ASR – словные латтисы Индексация звука при помощи LVCSR- системы Поиск в словных латтисах Высокая скорость поиска Высокая надежность в случае хорошего LVCSR Проблемы Принципиально невозможно найти ключевое слово, если оно OOV для системы распознавания Сильно зависит от качества LVCSR -системы и ее ограничений
  • 45. KWS на основе ASR – фонемные латтисы Индексация звука при помощи системы пофонемного распознавания на фонемном уровне Поиск ключевого слова Добавление слова в соответствующее место словного латтиса Пересчет словного латтиса LVCSR- системой Проблемы: огромный размер фонемных латтисов Сильно зависит от качества ASR -систем и их ограничений
  • 46. Современный уровень распознавания Распознавание команд Зависит то количества Диктовка Хорошее качество для английского Адаптация к диктору Низкий уровень шума Спонтанная речь - проблемно Адаптация моделей языка Устойчивость к шуму ( Robustness )
  • 47. Распознавание языка сообщения Language Identification (LID) Language Recognition
  • 48. Области применения Контакт-центры IVR- системы Службы безопасности
  • 49. Применяемые подходы GMM Построение GMM- моделей отдельных языков Фонотактический подход Phonotactic Approach Комбинация подходов Формирование общей вероятностной меры
  • 50. Фонотактический подход Распознавание на фонемном уровне Использованием система фонемного распознавания для одного фиксированного языка Построение N- граммных фонемных моделей для каждого языка Оценка фонемного латтиса, соответствующего тестовому сигналу каждой из фонотактических моделей
  • 51. Идентификация диктора Speaker Identification (SID) Speaker Recognition Speaker Verification/Authentication
  • 52. Идентификация/Верификация Идентификация диктора Речевые сервисы Службы безопасности Мониторинг телефонных каналов Как правило текстонезависима Верификация диктора Системы доступа Голосовой банкинг Голосовой замок и т.п. Может быть как текстозависимой, так и текстонезависимой
  • 53. Развитие идентификации Экспертные методы «В круге первом» А.Солженицына Автоматические методы Спектральный подход Исследование мест и поведения формант Основной тон Статистические модели GMM Нейросетевые подходы
  • 54. Меры оценки качества Ошибка пропуска цели False Rejection Ошибка ложного срабатывания False Alarm, False Acceptance Равновероятная ошибка EER (Equal Error Rate) DET- кривые Detection Error Tradeoff
  • 55. Спектральные методы Автоматическое выделение формант 3 и 4 форманты Метод «ближайшего соседа» Сравнение векторов формант Нахождение ближайшего вектора из присутствующих в базе
  • 56. Distance Calculation R U R U … … … … … … … …
  • 57. Статистические подходы - GMM GMM- модели диктора Фоновая модель (модель импостера) Нормализация на канал
  • 58. Базы данных Один канал записи Несколько подходов для каждого диктора Минимум 3 подхода
  • 59. Модели диктора Базовый вариант GMM- модель Усовершенствования SVM Для классификации средних в GMM NAP (Nuissance Attribute Projection) Нормализации H-norm, T-norm, Z-norm SMS (Speaker Model Synthesis) Feature Warping MLLR (Maximum Likelihood Linear Regression) Joint Factor Analysis Собственный канал ( Eigen Channel ) Собственный диктор ( Eigen Voice ) Декореллирование и уменьшение размерности векторов-признаков LDA, HLDA (Linear Discriminant Analysis)
  • 60. Фоновая модель Универсальная фоновая модель Universal Background Model ( UBM ) Описывается большим количеством гауссиан (напр. 2048)
  • 61. Модель диктора с использованием UBM Модели диктора и UBM не могут существовать отдельно друг от друга Модель диктора можно получить путем адаптации UBM MAP- адаптация Требуется много данных от диктора Серьезные вычислительные затраты MLLR “ Быстрая ” адаптация Eigen channel Наиболее перспективная технология
  • 62. Синтез речи по тексту Text-to-Speech (TTS) Speech Synthesis
  • 63. Синтез речи Исторически первое направление в речевых технологиях Главная цель: достижение максимальной естественности «чтения» произвольного текста
  • 64. Области применения Независимое применение Слабовидящие люди Системы оповещения Чтение SMS, e-mail , объявлений… В составе более крупных систем IVR системы Диалоговые системы Автоматический перевод с речи на речь
  • 65. Главные проблемы Разборчивость речи Задача решена Естественность речи Человек быстро теряет концентрацию, если речь неестественна Человек не склонен общаться с системой, звучащей неестественно Тест Тьюринга Компромисс между качеством, памятью и быстродействием
  • 66. Системы синтеза речи - история XIII век – Р.Бэкон 1779 – К.Краценштейн (артикуляторный синтез, 5 гласных) 1791 – В. Фон Кемпелен (модель языка и губ, синтез гласных и согласных) 1930s – VOCODER ( управление с клавиатуры, разборчивая речь ) 40-50 -е – Дальнейшие механические улучшения в артикуляторной модели 1968 – первая полноценный синтез на компьютере ( Bell labs ) 70 -е – Первые конкатенативные синтезаторы 80 -е – Формантные синтезаторы , первые коммерческие применения (DECTalk) 90 -е – Компилятивные синтезаторы с полными речевыми базами , Unit Selection 2000-е – Unit Selection, HMM/GMM синтезаторы
  • 67. Системы русской речи - сейчас Лучшее качество – Unit Selection Синтезаторы в реальном времени Относительно естественное звучание для основных европейских языков Будущее HMM синтез: быстрый прогресс, но изначальные ограничения модели Unit Selection : увеличение вычислительных возможностей Синтезаторы русской речи Elan ЦРТ Sacrament Loquendo
  • 68. Артикуляторный синтез Модель артикуляторных движений и характеристик речевого тракта Articulatory Synthesis Крайне неестественное звучание Отсутствие индивидуальных характеристик голоса в синтезированной речи Невозможность точного динамического моделирования речевого тракта Сложность генерации сигнала возбуждения
  • 69. Формантный синтез Формантный синтез = синтез по правилам Rule-Based Synthesis Отталкиваемся от акустики Построение формант и других характеристик при помощи правил и фильтров - Неестественность и роботизированность синтезированной речи + Высокая разборчивость (даже на высоких скоростях), компактность
  • 70. Компилятивный синтез (Concatenative Synthesis) Макросинтез Дифонный/Аллофонный синтез Unit Selection
  • 71. Макросинтез (Domain-specific Synthesis) Большие целиком записанные фразы Высокое качество Мало стыков, большие речевые сегменты Но: рассогласование интонации Жесткие ограничения по области применения Нельзя синтезировать произвольный текст Вокзалы, аэропорты и т.п.
  • 72. Компилятивный синтез из единиц фиксированной длины Баланс между размером звуковой базы (количество единиц) и качеством синтеза Типы единиц Фонема Не работает Дифон Учет стыков между двумя аллофонами Аллофон Полноценная контекстно-зависимая единица Слог Проблемы с увеличением размера базы Компактность речевой базы Относительно высокое качество звучания Учет индивидуальных характеристик Модификации сигнала ухудшают качество
  • 73. Модификации сигнала Модификации в частотной области Повышение/понижение основного тона Моделирование интонации Модификации во временной области Ускорение-замедление темпа Модификации энергии сигнала Моделирование интонации Любые модификации приводят к ухудшению качества сигнала
  • 74. Unit Selection Основные идеи Меньше склеек – лучше качество Меньше модификаций сигнала – лучше качество Уменьшение количества склеек Укрупнение единиц Уменьшение модификаций Несколько реализаций для каждой единицы Реализации в разных интонационных конструкциях
  • 76. Создание TTS – запись речевой базы Богатый голос Профессиональный диктор Заглушенная камера Аллофонный/дифонный синтез Специально подобранные слова Unit selection Несколько часов (5-10) чтения Осознанный выбор текста для чтения Общеупотребительная лексика Наличие диалогов Многоуровневая сегментация
  • 77. Создание TTS – нормализация текста Что-о-о??!! Слава КПСС! Около 12:37 в ночь на 15.06.2007 Настоятельно рекомендую одолжить мне 100 $ до завтра 2*2=2 2 Мы любим Microsoft г. Бобруйск – центр вселенной Это очень любопы-
  • 78. Создание TTS – анализ текста
  • 79. Создание TTS – анализ текста Определение места ударения и буквы ё Морфо-грамматический словарь Омография Белок сущ., м.р., им.п., ед.ч. бело < к сущ., ж.р., р.п., мн.ч. бе < лок сущ., м.р., в.п., ед.ч. бело < к сущ., ж.р., в.п., мн.ч. бе < лок мел – мел/мёл Правильное грамматическое согласование К 4 часам утра
  • 80. Создание TTS – анализ текста Выделение интонационных единиц На основании пунктуации Вот и все, приехали… На основании связей в тексте Обстоятельства и причина смерти моей весьма фотогеничной матери были довольно оригинальные (пикник, молния) Определение интонационного типа и места логического ударения На основании пунктуации Удивительно! На основании смысла текста Я считаю это ну полным бредом!
  • 81. Создание TTS - транскриптор
  • 82. Создание TTS - транскриптор Фонетический алфавит G-to-P (Grapheme-to-Phoneme) Молоко -> /m a 2 l a 1 k o0/ Редукция гласных Аканье Оглушение снег Ассимиляция сделать Выпадение солнце Фузии под столом
  • 83. Создание TTS – модификация звука
  • 84. Unit Selection - intuition Большая размеченная база Можно найти единицу, которая будет лучшей для синтеза из списка кандидатов Главная проблема – найти лучшую Target Cost – соответствие целевым параметрам Фонетический контекст F0, ударение, позиция во фразе Concatenation Cost – плавность перехода между соседними единицами Форманты, энергия, F0…
  • 85. Target Cost Сумма sub-costs Ударение Позиция во фразе F0 Длительность Лексическое соответствие
  • 86. Concatenation Cost Мера гладкости соединения Измеряется для двух соседних единиц Состоит из суммы sub-costs Спектральные характеристики F0 Энергия
  • 88. Преимущества и недостатки US Высокое качество звучания Естественная (без модификаций) просодика Местами качество может быть плохим Плохое качество на фоне хорошего очень раздражает Большие объем вычислений Большой объем базы
  • 89. HMM -синтез Основан на статистических скрытых марковских моделях Модели различных аллофонов тренируются на размеченной базе MFCC или PLP коэффициенты Удобный подход для исследовательских целей Легко изменять различные параметры (напр., интонационные) и отслеживать результат
  • 90. Рекомендуемая литература SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition D.Jurafsky, R.Martin The HTK book Young et al. Spoken Language Processing X . Huang, A . Acero & H . -W . Hon Statistical Methods for Speech Recognition F.Jelinek
  • 91.