Data Mining - lecture 6 - 2014

Харьковский национальный университет имени В. Н. Каразина
Факультет компьютерных наук
ИНТЕЛЛЕКТУАЛЬНЫЙ
АНАЛИЗ ДАННЫХ
Data Mining
Подготовил:
доцент каф. искусственного интеллекта и программного обеспечения,
к.ф.-м. н. Гахов Андрей Владимирович
2014/2015 уч. год

ЛЕКЦИЯ 4
Подготовка данных (preprocessing). Часть 2

Редукция данных (data reduction) применяется для
получения меньшего по объему представления данных,
которое сохраняет все свойства исходного набора
данных (эквивалетный набор данных).
Работа с меньшими по объему данными увеличивает
возможности анализа, в то время как результат анализа
(почти) не отличается от анализа исходных данных.
Основные методы редукции данных:
• Уменьшение размерности
• Компактное представление данных
• Сжатие данных

УМЕНЬШЕНИЕ РАЗМЕРНОСТИ
• Методы уменьшения размерности данных
направлены в первую очередь на уменьшение
количества рассматриваемых случайных
переменных или атрибутов.
• Некоторые из основных методов:
• Вейвлет-преобразования
• Метод главных компонент (PCA)
• Выделение подмножества атрибутов

ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ
• Дискретное вейвлет-преобразование (ДВП) это метод линейной
обработки сигнала, который преобразует исходный вектор X в
некоторый вектор той же длины X´, состоящий из вейвлет-
коэффициентов
• Если мы получаем вектор той же длины, тогда в чем состоит
уменьшение размерности?
• Само по себе вейвлет-преобразование не уменьшает размерность.
Однако, благодаря его свойствам, в векторе X´ можно отбросить часть
элементов (положив их равными 0), оставив только самые значимые из
них (например, большие некоторого порогового значения).
• Полученный вектор X´´ будет содержать большое количество нулевых
элементов (т.е. можно оптимизировать вычисления), а применив к нему
обратное ДВП все еще можно будет восстановить исходный вектор X
(с некоторой ошибкой)

МЕТОД ГЛАВНЫХ КОМПОНЕНТ
• Метод главных компонент (principal component analysis,
PCA) - один из основных способов уменьшения размерности
данных, потеряв наименьшее количество информации
• Для исходного набора данных D с n атрибутами (т.е.
рассматриваемого в n-мерном пространстве) PCA
производит поиск k главных компонент - n-мерных
ортогональных векторов (k≤n), чтобы величина отклонений
начальных данных была минимальна
• Метод позволяет уменьшить размерность данных путем
построения их проекции на пространство меньшей
размерности, определяемого найденным базисом из
векторов главных компонент

МЕТОД ГЛАВНЫХ КОМПОНЕНТ
• ПРИМЕР: рассмотрим набор данных с 2 атрибутами
(т.е. в 2-мерном пространстве):
x2
x1
x2
x1
p1
p1 - главная компонента
p1

ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ
• Данные могут содержать множество атрибутов,
однако важными для рассматриваемой задачи
могут быть лишь некоторые из них
• ПРИМЕР: пусть по каждому покупателю в
книжном магазине хранится 3 атрибута -
возраст, любимый жанр и номер телефона.
Очевидно, что в задаче прогнозирования
возможного спроса на новую книгу, атрибут
номер телефона не является атрибутом,
влияющим на результат

ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ
• Целью выбора подмножества атрибутов
состоит в поиске и исключению атрибутов, не
относящихся к рассматриваемой задаче или
оказывающих минимальное влияние
• Как известно, для множетва из n атрибутов
существует 2n возможных подмножества,
поэтому задача поиска оптимального
подмножества не тривиальна
• Выбор атрибута в подмножество основывается,
как правило, на некотором статистическом тесте

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ
• Данные методы заменяют исходный набор данных на
альтернативную (но меньшую по размеру) форму
представления данных.
• Основые семейства методов:
• Параметрические
• Непараметрические
• В параметрических методах строится некоторая модель,
описывающая исходный набор данных, и следовательно набор
данных может быть описан за счет параметров этой модели.
Сюда относятся регрессия и логарифмически линейная модель
• Непараметрические методы, как правило, основаны на
аггрегации данных и рассмотрении более высоких уровней
абстракции. К таким методам относятся гистограмма, методы
кластеризации, семплинг (построение выборок) и OLAP-куб

РЕГРЕССИЯ
• Регрессия позволяет по величине одного или
нескольких атрибутов находить ожидаемые
значения другого атрибута
• Линейная регрессия - это простейший
алгоритм регресии, заключающийся в
построении линейной функции, наиболее точно
(в смысле некоторой функции ошибки)
приближающей имеющиеся данные
• Линейная регрессия может быть одномерной и
многомерной

ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
• Предположим, что исходный набор данных имеет вид
• Задача линейной регрессии состоит в построении
линейной модели зависимости величин yk используя
значения xk. Для случая одной переменной такая
зависимость моделируется в виде уравнения прямой:
hθ (x) =θ 0 +θ1x
{xk , yk }, k = 1…N
• Следовательно, нам необходимо найти такие параметры
θ0 и θ1, чтобы как можно более точно выполнялось:
hθ (xk ) =θ 0 +θ1xk ≈ yk , k = 1…N

• Ошибка приближения функцией hθ(x) каждого отдельного
значения yk будет равна:
error(k,θ ) = hθ (xk )− yk
• Используя метод наименьших квадратов (МНК), ошибку
моделирования всех исходных данных функцией hθ(x)
можно оценить при помощи квадратичной функции
ошибок (функции невязки)
J θ ( ) = 1
2N
(hθ (xk )− yk )2
NΣ
k=1
• Оптимальные значений параметров θ0 и θ1 могут быть найдены
из условия минимальности общей ошибки:
∗,θ1
( ∗ ) = min
J θ 0
θ
J θ ( ) = min
θ0 ,θ1
1
2N
θ 0 +θ1xk − y( k )2
NΣ
k=1

• Решение данной задачи оптимизации может быть выполнено
по методу градиентного спуска, представляющего собой
итерационный процесс поиска экстремума функции с помощью
движения вдоль направления антиградиента
• На каждом шаге метода мы “подстраиваем” найденные
параметры по формулам
θ 0 :=θ 0 −α ∂
∂θ 0
J θ 0 ,θ1 ( ) =θ 0 −α 1
N
(θ 0 +θ1xk − yk )
NΣ
k=1
θ1 :=θ1 −α ∂
∂θ1
J θ 0 ,θ1 ( ) =θ1 −α 1
N
θ 0 +θ1xk − y( k )⋅ xk
NΣ
k=1
⎡
⎢⎢⎢⎢⎢
⎣
где α - некоторое положительное число, влияющее на скорость
сходимости метода (определяет скорость движения)

ЗАДАНИЯ
• Значения атрибутов рост (см) и вес (кг) для студентов группы имею вид:
рост вес рост вес рост вес рост вес рост вес
185 77 163 68 173 82 193 70 175 83
170 66 188 82 180 84 183 79 165 66
183 75 185 74 178 100 175 77 178 67
183 77 165 61 183 84 183 70 188 95
175 76 185 77 188 84 185 76 178 63
• Необходимо:
• вычислить коэффициенты линейной регрессии
• вычислить невязку на каждом шаге метода градиентного спуска
• построить график изменения невязки с каждым шагом метода
градиентного спуска. Что можно контролировать, наблюдая за
данным графиком?
• использовать значения α = 0.01, 1.0, 10.0 На что влияет данный
параметр?
• вычислить итоговую невязку для найденного уравнения регрессии
• построить диаграмму рассеяния и прямую линию регрессии

САМПЛИНГ
• Самплинг (samling) заключается в замене
исходного набора данных D меньшим набором
данных (выборка), выбранного случайным образом
• Преимуществом методов самплинга при редукции
данных состоит том, что цена получения выборки
пропорциональна размеру выборки (а не размеру N
исходного набора данных D)
• Другие методы редукции данных, как правило,
требуют как минимум одного полного просмотра
всех исходных данных D

МЕТОДЫ САМПЛИНГА
• Простая случайная выборка без замен
Выборка получается путем случайного выбора M наблюдений из
общего числа N наблюдений в исходном наборе данных D (M<N)
с равной вероятностью попадания в выборку каждого наблюдения
• Простая случайная выборка с заменами
Отличается от выборки без замен тем, что выбранное
наблюдение “возвращается” в исходный набор данных и может
быть выбрано еще раз
T1
T2
T3
T4
T5
T6
T7
T8
T6
T8
T3
T2
T5
T8
T5
Простая случайная выборка без замен
N=8, M=4
Простая случайная выборка с заменами T2

• Кластерная выборка
Если наблюдения в исходном наборе данных D сгруппированы
в K непересекающихся групп, тогда можно сделать выборку из
M кластеров (M<K) применив алгоритм простой случайной
выборки на уровне кластеров
• ПРИМЕР. При запросе к базе данных выдача информации
может разбиваться на страницы (например, по 100 записей),
которые и могут рассматриваться в качестве кластеров
T201
T1
T2
T3
…
T100
T901
T301
T601
T602
T603
…
T700
N=1000, K=9, M=2

• Стратифицированная выборка
Если исходный набор данных D разделен (например, по некоторому
признаку) на некоторое количество непересекающихся частей
(страт, strata), тогда можно сделать выборку из каждой страты,
применив алгоритм простой случайной выборки.
Стратифицированная выборка обеспечивает наличие в ней
представителей из каждой страты, даже если некоторые страты
достаточно малы (асимметрическое распределение)
Ford
Ford
Ford
Ford
Chevrolet
Chevrolet
Chevrolet
Chevrolet
Chevrolet
Chevrolet
Range Rover
Range Rover
T12
T57
T186
T711
T12
T215
T632
T715
T800
T803
T24
T75
Ford
Ford
Chevrolet
Chevrolet
Chevrolet
Range Rover
T12
T711
T215
T12
T632
T75

OLAP-КУБ
• OLAP (англ. online analytical processing) это
технология обработки данных, заключающаяся в
подготовке суммарной (агрегированной)
информации на основе больших массивов данных,
структурированных по многомерному принципу
• OLAP-куб (куб данных) это форма многомерного
массива данных, предназначенная для хранения и
быстрого доступа к предварительно вычисленным
и агрегированным данным

ПРИМЕР: OLAP-КУБ
2011 2012 2013 2014
год
Ф1
Ф2
Ф3
Ф4
филиал
марка
Ford
BMW
VW
Opel
119
100
182
365
Ф1 Ф2 Ф3 Ф4
Ford 50 25 35 9 119
BMW 46 52 0 2 100
VW 93 12 45 32 182
Opel 188 42 5 130 365
377 131 85 173
377
131
173
85
50
46
93
188
25
52
12
42
35
0
45
5
9
2
32
130
2D-разрез за 2014 год
2014

СЖАТИЕ ДАННЫХ
• Сжатие данных подразумевает применение некоторого
алгоритма преобразования для получения уменьшенного
(сжатого) набора данных из исходного набора
• Методы уменьшения размерности и алгоритмы
к о м п а к т н о г о п р е д с т а в л е н и я д а н н ы х м о г у т
рассматриваться также как частные случаи сжатия данных
• Существуют два в корне различающихся подхода к
сжатию данных:
• Сжатие без потерь
• Сжатие с потерями

СЖАТИЕ С ПОТЕРЯМИ И БЕЗ ПОТЕРЬ
• Сжатие без потерь предусматривает преобразование
представления набора данных таким образом, чтобы затем
можно было в точности воспроизвести первоначальный набор
данных путем обратного преобразования.
• Сжатие с потерями – это представление, которое
позволяет воспроизводить нечто «очень похожее» на
первоначальный набор данных.
• Преимущество использования методов сжатия с потерями
заключается в том, что они позволяют получать более
компактные представления данных по сравнению с методами
сжатия без потерь.
• ПРИМЕР: Алгоритм MP3 реализует сжатие аудиоданных с
потерями, а Dolby TrueHD - сжатие без потерь.

Data Mining - lecture 6 - 2014

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Data Mining - lecture 6 - 2014 (20)

More from Andrii Gakhov (20)

Data Mining - lecture 6 - 2014