Лекция №8 "Методы снижения размерности пространства"

Лекция 8
Методы снижения размерности
Владимир Гулин
12 ноября 2014 г.

Владимир Гулин
e-mail: v.gulin@corp.mail.ru
тел.: +7 (915) 416-95-75
1 / 36

Структура курса
Модуль 1
1. Задачи Data Mining (Николай Анохин)
2. Задача кластеризации и EM-алгоритм (Николай Анохин)
3. Различные алгоритмы кластеризации (Николай Анохин)H
4. Задача классификации (Николай Анохин)
5. Naive Bayes (Николай Анохин)
6. Линейные модели (Николай Анохин)
7. Метод опорных векторов (Николай Анохин)HP
Модуль 2
1. Снижение размерности пространства (Владимир Гулин)
2. Алгоритмические композиции 1 (Владимир Гулин)
3. Алгоритмические композиции 2 (Владимир Гулин)H
i
4. Нейросети, обучение с учителем (Павел Нестеров)H
5. Нейросети, обучение без учителя (Павел Нестеров)
6. Нейросети, глубокие сети (Павел Нестеров)
2 / 36

План лекции
Мотивация
Методы выделения признаков (feature extraction)
Методы отбора признаков (feature selection)
3 / 36

Мотивация
Визуализация
Скорость обучения
Качество обучения
Экономия при эксплуатации
Понимание данных и гибкость построения новых моделей
4 / 36

Проклятие размерности (curse of dimensionality)
Сложность вычислений возрастает экспоненциально
Требуется хранить огромное количество данных
Большое число признаков являются шумными
В линейных классификаторах увеличение числа признаков
приводит к мультиколлинеарности и переобучению.
Для метрических классификаторов (в пространсвах с lp нормой)
согласно закону больших чисел расстояния становятся
неинформативны.
5 / 36

Подходы к снижению размерности
Feature Extraction
Data space → Feature space
Пространство данных может быть
представлено сокращенным
количеством “эффективных”
признаков
Feature Selection
Data space → Data subspace
Отбирается некоторое
подмножество наиболее
“полезных” признаков
6 / 36

Задача выделения/синтеза признаков
Feature Extraction
Дано. N обучающих D-мерных объектов xi ∈ X, образующих
тренировочный набор данных (training data set) X.
Найти. Найти преобразование A : X → P, dim(P) = d < D,
сохранив при этом большую часть “полезной информации” об X.
Что мы рассмотрим:
PCA
ICA
Autoencoders with bottleneck
7 / 36

Principal Component Analysis
PCA (Principal Component Analysis) - анализ главных компонент. В
теории информации известен также как преобразование
Карунена-Лоева.
Суть метода:
Ищем гиперплоскость заданной
размерности, такую что ошибка
проектирования выборки на
данную гиперплоскость была бы
минимальной.
8 / 36

Будем искать преобразование в семействе линейных функций:
x = Ap + b, где
x ∈ RD
- представление объекта в исходном пространстве,
p ∈ Rd
- новые координаты объекта
b ∈ RD
, A ∈ RD×d
xj =
D
i=1
(xT
j ai )ai - исходные точки
˜xj =
d
i=1
pj,i ai +
D
i=d+1
bi ai - проекции
Тогда критерий выбора гиперплоскости имеет вид:
J =
1
N
N
j=1
xj − ˜xj
2
→ min
q,z,b
9 / 36

J =
1
N
N
j=1
xj − ˜xj
2
→ min
q,z,b
Несложно показать, что решение будет иметь вид:
pj,i = xT
j ai
bi = ¯xT
ai
где
¯x =
1
N
N
j=1
xj
R = cov(X) =
1
N
N
j=1
(xj − ¯x)T
(xj − ¯x)
ai , i = 1, . . . , d - базис из собственных векторов ковариационной
матрицы R, отвечающих d наибольших собственным значениям
λ1 ≥ λ2 ≥ . . . ≥ λd
10 / 36

Иллюстрация PCA
(a) Исходное пространство (b) Итоговое пространство
Сдвигаем начало координат в центр выборки
Поворачиваем оси, чтобы признаки не коррелировали
Избаляемся от координат с малой дисперсией
11 / 36

Альтернативная интерпретация
Максимизация дисперсии спроецированных данных
Примеры рукописных цифр из базы MNIST
12 / 36

Выбор размерности редуцированного пространства
Поскольку собственные значения ковариационной матрицы R
отсортированы в порядке убывания λ1 ≥ λ2 ≥ . . . ≥ λd
Критерий выбора размерности
будет иметь вид:
d :
d
i=1
λi
n
i=1
λi
≥ η, где η = {0.95, 0.99}
13 / 36

Связь PCA & SVD
X = UΣVT
где
U(m × m) - ортогональная матрица левых собственных векторов
(собственные вектора матрицы XXT
)
V(n × n) - ортогональная матрица правых собственных векторов
(собственные вектора матрицы XT
X )
Σ(m × n) - диагональная матрица с сингулярными числами на
главной диагонали
Матрица главных компонет может быть вычислена:
XV = UΣ
14 / 36

Применение PCA
(a) Data Visualization (b) Image procesing
(c) Prospect (d) Data compression 15 / 36

Достоиснтва и недостатки PCA
+ Алгоритм прост
+ С помощью “kernel trick”
адаптируется на нелинейный
случай (Kernel PCA)
— Проблема с вычислением
собсвенных векторов
ковариационной матрицы в
случае большого количества
данных
— Координаты объектов в
новом пространстве
определены неоднозначно
Вопрос:
При каких условиях можно использовать представление данных
в виде главных компонент для обучения?
16 / 36

Задача слепового разделения сигналов
17 / 36

Independent Component Analysis
X = AS
xj = aj,1s1 + aj,2s2 + . . . + aj,N sN , j = 1, . . . , N
xj , sk - случайные величины
X - наблюдаемые данные
A - матрица смешивания
S - неизвестный сигнал
Задача:
Оценить A и восстановить исходные сигналы S = A−1
X.
Два предположения:
si статистически независимы p(s1, s2) = p(s1)p(s2)
“Негауссовость” распределений
18 / 36

Independent Component Analysis
Схема
1. Центрируем данные xi ← (xi − ¯x) : ¯x ← 1
N
N
i=1
xi
2. “Отбеливаем” данные
X = UΣVT
, X ← UΣ−1/2
UT
X
Cov(X) = I
AAT
= I
3. Находим ортогональную матрицу A
Infomax
FastICA
JADE
19 / 36

PCA vs ICA
Геометрическая интерпретация
(a) PCA
(ортогональны)
(b) ICA
(не ортогональны)
20 / 36

PCA vs ICA
x1
x2
=
a11 a12
a21 a22
s1
s2
Сравнение PCA vs ICA на искуственном временном ряде,
смоделированном по 1000 равномерно расспределенным точкам.
21 / 36

Применение ICA
(a) EEG (b) Audio procesing
(c) Finance (d) Medical data
22 / 36

Методы основанные на автоэнкодерах
J(w) =
N
i=1
f (xi , w) − xi
2
→ min
Замечание
Если в сети всего один скрытый слой, тогда результат эквивалентен
PCA.
23 / 36

PCA vs Autoencoder
Задача визуализации тематических текстовых документов
D = 2000 - “мешок слов”
N = 4 · 105
документов
(a) PCA (b) Deep Autoencoder
24 / 36

“Бабушкин” нейрон
Andrew Ng
9-ти слойный разряженный
автоэнкодер
Асинхронный градиентный
спуск
10 млн. кадров случайно
взятых из роликов youtube
Удалось найти нейрон,
отвечающий за наличие лица
в кадре
25 / 36

Задача отбора признаков
Feature Selection
Дано. N обучающих D-мерных объектов xi ∈ X, образующих
тренировочный набор данных (training data set) X, а также каждому
xi соответсвует метка ci ∈ R.
Найти. Найти подмножество признаков F исходного признакового
пространства F = {f1, f2, . . . , fD}, содержащее наиболее
“информативные” признаки.
Что мы рассмотрим:
Переборные алгоритмы
Методы основанные на корреляции/взаимной информации
Embedded methods
26 / 36

Отбор признаков “в лоб”
Экспертный подход
Full Search (NP hard)
Жадные алгоритмы (Forward selection, Backward elimination,
Bidirectional elimination etc.)
27 / 36

Жадные алгоритмы отбора признаков
Forward selection
1 function forwardselection(F, J, n):
2 # F - original feature set
3 # J - external criterion
4 # n - parameter
5 initialize F_0 = {} # empty set
6 initialize Q = J(F_0) # compute score
7 for j in 1..D:
8 fbest = find_best_feature(J, F_j-1, F)
9 F_j = add_new_feature(F_j-1, fbest) # add feature
10 if J(F_j) < Q:
11 jbest = j
12 Q = J(F_j) # save best
13 if j - jbest >= n:
14 return F_jbest
Backward elimination
Все аналогично. Только ислючаем
28 / 36

DFS. Основные идеи:
Избегаем повторов при переборе
Если подмножество признаков бесперспективно, то не будем
пытаться его дальше наращивать.
Оценка бесперспективности:
∃j : J(F) ≥ ηJ(F∗
j ), |F| ≥ j + n
29 / 36

Итоги
Не все признаки “полезны”
Отбор признаков проводится по внешним критериям (СV)
Для сокращения перебора хороши любые эвристики
Предполагаем, что перебор по подмножествам устойчив
НАДО ПЕРЕОБУЧАТЬ АЛГОРИТМ
30 / 36

Методы основанные на корреляции/взаимной
информации
Коэффициент корреляции
r(X, Y ) =
x
(x − ¯x)
y
(y − ¯y)
x
(x − ¯x)2
y
(y − ¯y)2
Correlation feature selection (cfs)
Взаимная информация
I(X, Y ) =
x y
p(x, y) log
p(x, y)
p(x)p(y)
Minimum redundancy maximum relevance (mRMR)
31 / 36

mRMR
Идея
Будем отбирать признаки, которые имеют наибольшую
взаимную информацию с ответами
Будем штрафовать признаки за избыточность, в контексте уже
отобранных фичей
Relevance(F, c) =
1
|F|
fi ∈F
I(fi , c)
Redundancy(F) =
1
|F|2
fi ,fj ∈F
I(fi , fj )
Тогда критерий mRMR имеет вид:
mRMR = max
F
(Relevance(F, c) − Redundancy(F))
32 / 36

Embedded methods
Что мы уже знаем?
Sparse regression, LASSO
Decision Trees with pruning
Autoencoders with bottleneck
С чем нам еще предстоит познакомиться?
Regularized Random Forest (RRT)
Regularized gradient boosting
Regularized neural nets
33 / 36

О чем еще не поговорили?
Отбор признаков без учителя
Оценка качества фичей
34 / 36

Задача
Дано: Имеется набор трехмерных данных
Требуется: Построить проэкцию этих данных на плоскость
использую любую пару признаков. Вычислить pca и отобразить
данные в пространстве первых двух собственных векторов.
Пошаговая инструкция
1. Скачать и запустить шаблон кода на python
http://goo.gl/5kW1Pa
$ python pca.py -h
$ python pca.py -i 50
2. Заполнить функцию compute_pca
3. Сгенирировать многомерные данные (D > 10). Реализовать
критерий выбора размерности редуцированного пространства.
35 / 36

Лекция №8 "Методы снижения размерности пространства"

More Related Content

What's hot (20)

Viewers also liked (12)

Similar to Лекция №8 "Методы снижения размерности пространства" (20)

More from Technosphere1 (10)

Лекция №8 "Методы снижения размерности пространства"