SlideShare a Scribd company logo
Извлечение мнений из
отзывов: простая стратегия,
которая работает

Татьяна Ерехинская



                     © Dictum Ltd. 2011
Мониторинг и анализ контента

 Измерить степень интереса аудитории
 Оценить эмоциональное восприятие
 объекта
 Получить фактическую информацию по
 свойствам объекта
 Отследить динамику изменения



                © Dictum Ltd. 2011     2 / 21
Постановка задачи
Входные данные:
 Текст с отзывом
 Объект оценки (продукт, персона,
 компания)
Выходные данные:
Оценка по шкале позитив-негатив, с
 разбивкой по темам


                   © Dictum Ltd. 2011   3 / 21
Пример


Хороший телефон, но дизайн слабоват


Телефон в целом: +5
Дизайн: -1.5
Итого: +3.5



                © Dictum Ltd. 2011    4 / 21
Семантические отношения
 Хороший телефон
 Ноутбук глючит
 Кнопка работает плохо
 Восхищен дизайном
 Экран – отстой
 Разочаровался в этой софтине


                  © Dictum Ltd. 2011   5 / 21
Отношения vs зависимости

            могу


                       сказать



       Об                               хорошее



         телефоне               только


       этом

                   © Dictum Ltd. 2011             6 / 21
Термины
 Параметры (без эмоциональной окраски)
  Функции (работать, звонить)
  Составные части объекта оценки (экран)
  Свойства объекта оценки (дизайн,
  надежность)
 Характеристики
  Позитив (хороший, удобно, преимущество)
  Негатив (отстой, глючить)


                  © Dictum Ltd. 2011        7 / 21
Рубрики




          © Dictum Ltd. 2011   8 / 21
Характеристики-перевертыши


 Быстрая зарядка
 Быстрая разрядка


⇒ Служебные рубрики для ограничения
 «области видимости»



                © Dictum Ltd. 2011    9 / 21
Вычисление весов

Хороший/плохой ±5
Суперский/отстойный ±7

W=C×K
C − вес характеристики, ∈{-7,-5,5,7}
K − вес рубрики (1 для всего объекта,
    меньше 1 для отдельных рубрик)


                  © Dictum Ltd. 2011    10 / 21
Отрицания и усилители

 Не красивый / некрасивый
 Нет глюков, без глюков
 Ни единого глюка, ничего хорошего
 Очень хороший, чуть-чуть глючит
W = C × K × I × (-1)N
N – количество отрицаний
I – коэффициент усиления
                   © Dictum Ltd. 2011   11 / 21
Усиление + отрицание

Усиление отрицания
 Очень не понравился                 -7,5
 Почти не работает                   -2,5
Отрицание усиления
 Не очень понравился                  -1,5
 Не совсем подходящий                 +0,5


                © Dictum Ltd. 2011           12 / 21
Оценочные структуры
Дерево зависимостей → граф терминов
Выделяем компоненты связности
Для каждой компоненты связности при
 необходимости разделяем однородные
 члены (тормозной и глючный девайс)




                © Dictum Ltd. 2011    13 / 21
Сложные случаи
 Глагольное отрицание
Исправили глюки
 Сравнительные конструкции
А лучше Б
А хуже Б
 Контекстное отрицание
Я не согласен, что …

                  © Dictum Ltd. 2011   14 / 21
Схема обработки
 Графематика: деление на слова и
 предложения
 Исправление опечаток
 Морфологический анализ
 Синтаксический анализ
 Разрешение анафор



                © Dictum Ltd. 2011   15 / 21
Графематика
 Разбиение входного текста на токены по
 типу символов (литеральные, пробельные,
 пунктуационные, конец предложения)
 Склейка хитрых токенов: бело-розовый,
 5.5, X-43.
 Разделение на предложения: по символам
 конца предложения или по токенам,
 обозначающим начало предложения (не
 имя собственное с большой буквы)
                © Dictum Ltd. 2011       16 / 21
Исправление опечаток


Интеграция с синтаксическим анализом


         Мне нравиться телфон
         Мне нравится телефон




                © Dictum Ltd. 2011     17 / 21
Восстановление анафор
Купил телефон. Уже разочаровался в нем.
 Поиск влево в пределах двух предложений
 подходящих сущ., с учетом согласования
 по роду и числу
 Ранжирование: частота встречаемости в
 отзыве, наличие предка-глагола,
 количество вершин в поддереве СА,
 расстояние в токенах от антецедента


                © Dictum Ltd. 2011       18 / 21
Пример


  Проблем с неразборчивостью моей речи
или речи собеседника, недостаточностью
громкости динамиков или искажениями
звукового ряда не обнаружено.




               © Dictum Ltd. 2011    19 / 21
Компания «Диктум»


 Избавляем от синтаксической
         зависимости
     Вносим гармонию в
   семантические отношения


           © Dictum Ltd. 2011   20 / 21
Контакты

Адрес:
603000 Россия, Нижний Новгород,
ул.Короленко, 19Б, оф.216
Тел (факс): +7 (831) 202-16-04
e-mail: oka@dictum.ru
web: www.dictum.ru
Skype: vladimir.okatiev

               © Dictum Ltd. 2011   21 / 21

More Related Content

PPS
Kyoto, Japan 京都
PPT
Quality Art
PDF
Participación da muller no ámbito tecnolóxico. Perspectiva dende as Titulació...
PPT
Aqqalooraq
 
PPT
Johannes Lars
 
PPT
AOD Workplace Modern Sample Final
PPT
Ooliinnguaq And Knud Peter
 
PDF
Exercici 3
Kyoto, Japan 京都
Quality Art
Participación da muller no ámbito tecnolóxico. Perspectiva dende as Titulació...
Aqqalooraq
 
Johannes Lars
 
AOD Workplace Modern Sample Final
Ooliinnguaq And Knud Peter
 
Exercici 3

Viewers also liked (10)

PPT
Peace Day
PDF
Slieveleague
PPS
Improving Personal Relationhips
PDF
Blade Runner Presentation
PDF
Charles Chaplin
PPT
A Critical Analysis Of British Mosques As An
PPT
Heartwebsites
PPS
Raffles Visitor Day! Friday 21st Sept 2007
PDF
FITC Amsterdam 2015 - keynote-adobe - We are mutants
PPT
Larsine
 
Peace Day
Slieveleague
Improving Personal Relationhips
Blade Runner Presentation
Charles Chaplin
A Critical Analysis Of British Mosques As An
Heartwebsites
Raffles Visitor Day! Friday 21st Sept 2007
FITC Amsterdam 2015 - keynote-adobe - We are mutants
Larsine
 
Ad

More from Lidia Pivovarova (20)

PDF
Classification and clustering in media monitoring: from knowledge engineering...
PDF
Convolutional neural networks for text classification
PDF
Grouping business news stories based on salience of named entities
PDF
Интеллектуальный анализ текста
PPTX
AINL 2016: Yagunova
PDF
AINL 2016: Kuznetsova
PPT
AINL 2016: Bodrunova, Blekanov, Maksimov
PDF
AINL 2016: Boldyreva
PPTX
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
PDF
AINL 2016: Kozerenko
PDF
AINL 2016: Shavrina, Selegey
PDF
AINL 2016: Khudobakhshov
PDF
AINL 2016: Proncheva
PPTX
AINL 2016:
PPTX
AINL 2016: Bugaychenko
PDF
AINL 2016: Grigorieva
PDF
AINL 2016: Muravyov
PDF
AINL 2016: Just AI
PPTX
AINL 2016: Moskvichev
PDF
AINL 2016: Goncharov
Classification and clustering in media monitoring: from knowledge engineering...
Convolutional neural networks for text classification
Grouping business news stories based on salience of named entities
Интеллектуальный анализ текста
AINL 2016: Yagunova
AINL 2016: Kuznetsova
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Boldyreva
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Kozerenko
AINL 2016: Shavrina, Selegey
AINL 2016: Khudobakhshov
AINL 2016: Proncheva
AINL 2016:
AINL 2016: Bugaychenko
AINL 2016: Grigorieva
AINL 2016: Muravyov
AINL 2016: Just AI
AINL 2016: Moskvichev
AINL 2016: Goncharov
Ad

Ерехинская диктум извлечение мнений

  • 1. Извлечение мнений из отзывов: простая стратегия, которая работает Татьяна Ерехинская © Dictum Ltd. 2011
  • 2. Мониторинг и анализ контента Измерить степень интереса аудитории Оценить эмоциональное восприятие объекта Получить фактическую информацию по свойствам объекта Отследить динамику изменения © Dictum Ltd. 2011 2 / 21
  • 3. Постановка задачи Входные данные: Текст с отзывом Объект оценки (продукт, персона, компания) Выходные данные: Оценка по шкале позитив-негатив, с разбивкой по темам © Dictum Ltd. 2011 3 / 21
  • 4. Пример Хороший телефон, но дизайн слабоват Телефон в целом: +5 Дизайн: -1.5 Итого: +3.5 © Dictum Ltd. 2011 4 / 21
  • 5. Семантические отношения Хороший телефон Ноутбук глючит Кнопка работает плохо Восхищен дизайном Экран – отстой Разочаровался в этой софтине © Dictum Ltd. 2011 5 / 21
  • 6. Отношения vs зависимости могу сказать Об хорошее телефоне только этом © Dictum Ltd. 2011 6 / 21
  • 7. Термины Параметры (без эмоциональной окраски) Функции (работать, звонить) Составные части объекта оценки (экран) Свойства объекта оценки (дизайн, надежность) Характеристики Позитив (хороший, удобно, преимущество) Негатив (отстой, глючить) © Dictum Ltd. 2011 7 / 21
  • 8. Рубрики © Dictum Ltd. 2011 8 / 21
  • 9. Характеристики-перевертыши Быстрая зарядка Быстрая разрядка ⇒ Служебные рубрики для ограничения «области видимости» © Dictum Ltd. 2011 9 / 21
  • 10. Вычисление весов Хороший/плохой ±5 Суперский/отстойный ±7 W=C×K C − вес характеристики, ∈{-7,-5,5,7} K − вес рубрики (1 для всего объекта, меньше 1 для отдельных рубрик) © Dictum Ltd. 2011 10 / 21
  • 11. Отрицания и усилители Не красивый / некрасивый Нет глюков, без глюков Ни единого глюка, ничего хорошего Очень хороший, чуть-чуть глючит W = C × K × I × (-1)N N – количество отрицаний I – коэффициент усиления © Dictum Ltd. 2011 11 / 21
  • 12. Усиление + отрицание Усиление отрицания Очень не понравился -7,5 Почти не работает -2,5 Отрицание усиления Не очень понравился -1,5 Не совсем подходящий +0,5 © Dictum Ltd. 2011 12 / 21
  • 13. Оценочные структуры Дерево зависимостей → граф терминов Выделяем компоненты связности Для каждой компоненты связности при необходимости разделяем однородные члены (тормозной и глючный девайс) © Dictum Ltd. 2011 13 / 21
  • 14. Сложные случаи Глагольное отрицание Исправили глюки Сравнительные конструкции А лучше Б А хуже Б Контекстное отрицание Я не согласен, что … © Dictum Ltd. 2011 14 / 21
  • 15. Схема обработки Графематика: деление на слова и предложения Исправление опечаток Морфологический анализ Синтаксический анализ Разрешение анафор © Dictum Ltd. 2011 15 / 21
  • 16. Графематика Разбиение входного текста на токены по типу символов (литеральные, пробельные, пунктуационные, конец предложения) Склейка хитрых токенов: бело-розовый, 5.5, X-43. Разделение на предложения: по символам конца предложения или по токенам, обозначающим начало предложения (не имя собственное с большой буквы) © Dictum Ltd. 2011 16 / 21
  • 17. Исправление опечаток Интеграция с синтаксическим анализом Мне нравиться телфон Мне нравится телефон © Dictum Ltd. 2011 17 / 21
  • 18. Восстановление анафор Купил телефон. Уже разочаровался в нем. Поиск влево в пределах двух предложений подходящих сущ., с учетом согласования по роду и числу Ранжирование: частота встречаемости в отзыве, наличие предка-глагола, количество вершин в поддереве СА, расстояние в токенах от антецедента © Dictum Ltd. 2011 18 / 21
  • 19. Пример Проблем с неразборчивостью моей речи или речи собеседника, недостаточностью громкости динамиков или искажениями звукового ряда не обнаружено. © Dictum Ltd. 2011 19 / 21
  • 20. Компания «Диктум» Избавляем от синтаксической зависимости Вносим гармонию в семантические отношения © Dictum Ltd. 2011 20 / 21
  • 21. Контакты Адрес: 603000 Россия, Нижний Новгород, ул.Короленко, 19Б, оф.216 Тел (факс): +7 (831) 202-16-04 e-mail: oka@dictum.ru web: www.dictum.ru Skype: vladimir.okatiev © Dictum Ltd. 2011 21 / 21