L5: Л5 Байесовские алгоритмы

Введение в Data Science
Занятие 4. Naive Bayes
и классификация текстов
Николай Анохин Михаил Фирулик
23 марта 2014 г.

План занятия
Обработка текстов
Naive Bayes

Data Mining vs Text Mining
Data Mining:
извлечение неочевидной
информации
Text Mining:
извлечение очевидной
информации
Трудности
Огромные объемы
Отстутсвие структуры

Задачи Text Mining
Суммаризация текста
аггрегация новостей
Классификация и кластеризация документов
категоризация, фильтрация спама, эмоции
Извлечение метаданных
определение языка, автора, тегирование
Выделение сущностей
места, люди, компании, почтовые адреса

Этапы обработки текста

Декодирование
Def.
перевод последовательности байт в последовательность символов
Распаковка
plain/.zip/.gz/...
Кодировка
ASCII/utf-8/Windows-1251/...
Формат
csv/xml/json/doc...
Кроме того: что такое документ?

Разбиение на токены
Def.
разбиение последовательности символов на части (токены),
возможно, исключая из рассмотрения некоторые символы
Наивный подход: разделить строку пробелами и выкинуть знаки
препинания
Трисия любила Нью-Йорк, поскольку любовь к Нью-Йорку
могла положительно повлиять на ее карьеру.
Проблемы:
n.anokhin@corp.mail.ru, 127.0.0.1
С++, C#
York University vs New York University
Зависимость от языка
(“Lebensversicherungsgesellschaftsangestellter”, “l’amour”)
Альтернатива: n-граммы

Разбиение на токены
>>> from nltk.tokenize import RegexpTokenizer
>>> tokenizer = RegexpTokenizer(’w+|[^ws]+’)
>>> s = u’Трисия любила Нью-Йорк, поскольку любовь
... к Нью-Йорку могла положительно повлиять на ее карьеру.’
>>> for t in tokenizer.tokenize(s)[:7]: print t + " ::",
...
Трисия :: любила :: Нью :: - :: Йорк :: , :: поскольку ::

Стоп-слова
Def.
Наиболее частые слова в языке, не содержащие никакой
информации о содержании текста
>>> from nltk.corpus import stopwords
>>> for sw in stopwords.words(’russian’)[1:20]: print sw,
...
в во не что он на я с со как а то все она так его но да ты
Проблема: “To be or not to be"

Нормализация
Def.
Приведение токенов к единому виду для того, чтобы избавиться от
поверхностной разницы в написании
Подходы
сформулировать набор правил, по которым преобразуется токен
Нью-Йорк → нью-йорк → ньюйорк → ньюиорк
явно хранить связи между токенами
машина → автомобиль, Windows → window

>>> s = u’Нью-Йорк’
>>> s1 = s.lower()
>>> print s1
нью-йорк
>>> s2 = re.sub(ur"W", "", s1, flags=re.U)
>>> print s2
ньюйорк
>>> s3 = re.sub(ur"й", u"и", s2, flags=re.U)
>>> print s3
ньюиорк

Стемминг и Лемматизация
Def.
Приведение грамматических форм слова и однокоренных слов к
единой основе (lemma):
Stemming – с помощью простых эвристических правил
Porter (1980)
5 этапов, на каждом применяется набор правил, таких как
sses → ss (caresses → caress)
ies → i (ponies → poni)
Lovins (1968)
Paice (1990)
еще 100500
Lemmatization – с использованием словарей и
морфологического анализа

Стемминг
>>> from nltk.stem.snowball import PorterStemmer
>>> s = PorterStemmer()
>>> print s.stem(’tokenization’); print s.stem(’stemming’)
token
stem
>>> from nltk.stem.snowball import RussianStemmer
>>> r = RussianStemmer()
>>> print r.stem(u’Авиация’); print r.stem(u’национальный’)
авиац
национальн
Наблюдение
для сложных языков лучше подходит лемматизация

Heap’s law
M = kTβ
, M – размер словаря, T – количество слов в корпусе
30 ≤ k ≤ 100, b ≈ 0.5

Представление документов
Boolean Model. Присутствие или отсутствие слова в документе
Bag of Words. Порядок токенов не важен
Погода была ужасная, принцесса была прекрасная.
Или все было наоборот?
Координаты
Мультиномиальные: количество токенов в документе
Числовые: взвешенное количество токенов в документе

Zipf’s law
t1, . . . , tN – токены,
отранжированные по убыванию
частоты
f1, . . . , fN – соответствующие
частоты
Закон Ципфа
fi =
c
ik
Что еще? Посещаемость сайтов,
количество друзей, население
городов...

Задача
Дана коллекция, содержащая 106
(не уникальных) токенов.
Предполагая, что частоты слов распределены по закону
fi =
c
(i + 10)2
,
оцените
количество вхождений наиболее часто встречающегося слова
количество слов, котоые встречаются минимум дважды
Подсказка:
∞
i=11
1
i2 ≈ 0.095

BoW & TF-IDF
Количество вхождений слова t в документе d
TFt,d = term−frequency(t, d)
Количество документов из N возможных, где встречается t
DFt = document−fequency(t)
IDFt = inverse−document−frequency(t) = log
N
DFt
TF-IDF
TF−IDFt,d = TFt,d × IDFt
Пример
Коллекция документов: Cersei Lannister, Tyrion Lannister
d1 = {cersei:1, tyrion:0, lannister:0}
d2 = {cersei:0, tyrion:1, lannister:0}

Байесовский классификатор
Дано
x ∈ X – описание документа d из коллекции D
Ck ∈ C, k = 1, . . . , K – целевая переменная
Теорема Байеса
P(Ck |x) =
p(x|Ck )p(Ck )
p(x)
∝ p(x|Ck )p(Ck )
Принцип Maximum A-Posteriori
CMAP = arg max
k
p(Ck |x)

Naive Bayes
Xj – токен на j-м месте в документе x, xi ∈ V – слово из словаря V
Предположения
1. conditional independence
p(Xi = xi , Xj = xj |Ck ) = p(Xi = xi |Ck )p(Xi = xi |Ck )
2. positional independence
P(Xi = xi |Ck ) = P(Xj = xi |Ck ) = P(X = xi |Ck )
Получаем
p(x|Ck ) = p(X1 = x1, . . . , X|x| = x|x||Ck ) =
|x|
i=1
p(X = xi |Ck )
Почему NB хорошо работает?
Корректная оценка дает правильное предсказание, но правильное
предсказание не требует корректной оценки

Обучение NB
train_nb(D, C):
V = словарь токенов из D
N = количество документов в D
for Ck ∈ C:
NCk
= количество документов класса Ck
p(Ck ) = NCk
/N
DCk
= документы класса Ck
for xi ∈ V :
p(X = xi |Ck ) = считаем согласно выбранному варианту
возвращаем V , p(Ck ), p(X = xi |Ck )
Алгоритмическая сложность: O(|D| |x| + |C||V |)

Применение MultinomialNB
apply_nb(d, V , p(Ck ), p(xi |Ck ), C):
x = разбиваем d на токены, используя V
for Ck ∈ C:
score(Ck |x) += log p(Ck )
for xi ∈ x:
score(Ck |x) += log p(xi |Ck ) считаем согласно выбранному
варианту
возвращаем arg max score(Ck |x)
Алгоритмическая сложность: O(|C||x|)

Задача
d Текст Класс
1 котики такие котики мимими
2 котики котики няшки мимими
3 пушистые котики мимими
4 морские котики мокрые не мимими
5 котики котики мокрые морские котики ???
С помощью алгоритма MultinomialNB вычислить p(мимими|d5)

Байесовские сети
Naive Bayes Bayes Network

Итоги
+ Генеративная модель
+ (Удивительно) неплохо работает
+ Стабилен при смещении выборки (aka concept drift)
+ Оптимальный по производительности
– Наивные предположения
– Требует отбора признаков

Определение языка текста
Определение языка на основании n-грамм
Нижний регистр, заменяем акценты на обычные буквы
Токенизация
Разбиваем документы на n-граммы
Выбор признаков
Берем топ-k признаков из каждого языка
Инициализация модели
Используем один из вариантов NB из sklearn
Анализ
Как зависит точность предсказания от n и k?

Домашнее задание 3
Байесовский классификатор
Реализовать
алгоритм Naive Bayes для задачи классификации
алгоритм Naive Bayes для задачи регрессии
Варианты: multinomial, bernoulli, gaussian
Ключевые даты
До 2014/03/29 00.00 выбрать задачу и ответственного в группе
До 2014/04/05 00.00 предоставить решение задания

Спасибо!
Обратная связь

L5: Л5 Байесовские алгоритмы

More Related Content

What's hot (20)

Viewers also liked (9)

Similar to L5: Л5 Байесовские алгоритмы (20)

More from Technosphere1 (12)

L5: Л5 Байесовские алгоритмы