SlideShare a Scribd company logo
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 4 
Подготовка данных (preprocessing). Часть 2
РЕДУКЦИЯ ДАННЫХ
Редукция данных (data reduction) применяется для 
получения меньшего по объему представления данных, 
которое сохраняет все свойства исходного набора 
данных (эквивалетный набор данных). 
Работа с меньшими по объему данными увеличивает 
возможности анализа, в то время как результат анализа 
(почти) не отличается от анализа исходных данных. 
Основные методы редукции данных: 
• Уменьшение размерности 
• Компактное представление данных 
• Сжатие данных
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
• Методы уменьшения размерности данных 
направлены в первую очередь на уменьшение 
количества рассматриваемых случайных 
переменных или атрибутов. 
• Некоторые из основных методов: 
• Вейвлет-преобразования 
• Метод главных компонент (PCA) 
• Выделение подмножества атрибутов
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ 
• Дискретное вейвлет-преобразование (ДВП) это метод линейной 
обработки сигнала, который преобразует исходный вектор X в 
некоторый вектор той же длины X´, состоящий из вейвлет- 
коэффициентов 
• Если мы получаем вектор той же длины, тогда в чем состоит 
уменьшение размерности? 
• Само по себе вейвлет-преобразование не уменьшает размерность. 
Однако, благодаря его свойствам, в векторе X´ можно отбросить часть 
элементов (положив их равными 0), оставив только самые значимые из 
них (например, большие некоторого порогового значения). 
• Полученный вектор X´´ будет содержать большое количество нулевых 
элементов (т.е. можно оптимизировать вычисления), а применив к нему 
обратное ДВП все еще можно будет восстановить исходный вектор X 
(с некоторой ошибкой)
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
МЕТОД ГЛАВНЫХ КОМПОНЕНТ 
• Метод главных компонент (principal component analysis, 
PCA) - один из основных способов уменьшения размерности 
данных, потеряв наименьшее количество информации 
• Для исходного набора данных D с n атрибутами (т.е. 
рассматриваемого в n-мерном пространстве) PCA 
производит поиск k главных компонент - n-мерных 
ортогональных векторов (k≤n), чтобы величина отклонений 
начальных данных была минимальна 
• Метод позволяет уменьшить размерность данных путем 
построения их проекции на пространство меньшей 
размерности, определяемого найденным базисом из 
векторов главных компонент
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
МЕТОД ГЛАВНЫХ КОМПОНЕНТ 
• ПРИМЕР: рассмотрим набор данных с 2 атрибутами 
(т.е. в 2-мерном пространстве): 
x2 
x1 
x2 
x1 
p1 
p1 - главная компонента 
p1
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ 
• Данные могут содержать множество атрибутов, 
однако важными для рассматриваемой задачи 
могут быть лишь некоторые из них 
• ПРИМЕР: пусть по каждому покупателю в 
книжном магазине хранится 3 атрибута - 
возраст, любимый жанр и номер телефона. 
Очевидно, что в задаче прогнозирования 
возможного спроса на новую книгу, атрибут 
номер телефона не является атрибутом, 
влияющим на результат
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ 
• Целью выбора подмножества атрибутов 
состоит в поиске и исключению атрибутов, не 
относящихся к рассматриваемой задаче или 
оказывающих минимальное влияние 
• Как известно, для множетва из n атрибутов 
существует 2n возможных подмножества, 
поэтому задача поиска оптимального 
подмножества не тривиальна 
• Выбор атрибута в подмножество основывается, 
как правило, на некотором статистическом тесте
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
• Данные методы заменяют исходный набор данных на 
альтернативную (но меньшую по размеру) форму 
представления данных. 
• Основые семейства методов: 
• Параметрические 
• Непараметрические 
• В параметрических методах строится некоторая модель, 
описывающая исходный набор данных, и следовательно набор 
данных может быть описан за счет параметров этой модели. 
Сюда относятся регрессия и логарифмически линейная модель 
• Непараметрические методы, как правило, основаны на 
аггрегации данных и рассмотрении более высоких уровней 
абстракции. К таким методам относятся гистограмма, методы 
кластеризации, семплинг (построение выборок) и OLAP-куб
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
РЕГРЕССИЯ 
• Регрессия позволяет по величине одного или 
нескольких атрибутов находить ожидаемые 
значения другого атрибута 
• Линейная регрессия - это простейший 
алгоритм регресии, заключающийся в 
построении линейной функции, наиболее точно 
(в смысле некоторой функции ошибки) 
приближающей имеющиеся данные 
• Линейная регрессия может быть одномерной и 
многомерной
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 
• Предположим, что исходный набор данных имеет вид 
• Задача линейной регрессии состоит в построении 
линейной модели зависимости величин yk используя 
значения xk. Для случая одной переменной такая 
зависимость моделируется в виде уравнения прямой: 
hθ (x) =θ 0 +θ1x 
{xk , yk }, k = 1…N 
• Следовательно, нам необходимо найти такие параметры 
θ0 и θ1, чтобы как можно более точно выполнялось: 
hθ (xk ) =θ 0 +θ1xk ≈ yk , k = 1…N
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 
• Ошибка приближения функцией hθ(x) каждого отдельного 
значения yk будет равна: 
error(k,θ ) = hθ (xk )− yk 
• Используя метод наименьших квадратов (МНК), ошибку 
моделирования всех исходных данных функцией hθ(x) 
можно оценить при помощи квадратичной функции 
ошибок (функции невязки) 
J θ ( ) = 1 
2N 
(hθ (xk )− yk )2 
NΣ 
k=1 
• Оптимальные значений параметров θ0 и θ1 могут быть найдены 
из условия минимальности общей ошибки: 
∗,θ1 
( ∗ ) = min 
J θ 0 
θ 
J θ ( ) = min 
θ0 ,θ1 
1 
2N 
θ 0 +θ1xk − y( k )2 
NΣ 
k=1
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 
• Решение данной задачи оптимизации может быть выполнено 
по методу градиентного спуска, представляющего собой 
итерационный процесс поиска экстремума функции с помощью 
движения вдоль направления антиградиента 
• На каждом шаге метода мы “подстраиваем” найденные 
параметры по формулам 
θ 0 :=θ 0 −α ∂ 
∂θ 0 
J θ 0 ,θ1 ( ) =θ 0 −α 1 
N 
(θ 0 +θ1xk − yk ) 
NΣ 
k=1 
θ1 :=θ1 −α ∂ 
∂θ1 
J θ 0 ,θ1 ( ) =θ1 −α 1 
N 
θ 0 +θ1xk − y( k )⋅ xk 
NΣ 
k=1 
⎡ 
⎢⎢⎢⎢⎢ 
⎣ 
где α - некоторое положительное число, влияющее на скорость 
сходимости метода (определяет скорость движения)
ЗАДАНИЯ 
• Значения атрибутов рост (см) и вес (кг) для студентов группы имею вид: 
рост вес рост вес рост вес рост вес рост вес 
185 77 163 68 173 82 193 70 175 83 
170 66 188 82 180 84 183 79 165 66 
183 75 185 74 178 100 175 77 178 67 
183 77 165 61 183 84 183 70 188 95 
175 76 185 77 188 84 185 76 178 63 
• Необходимо: 
• вычислить коэффициенты линейной регрессии 
• вычислить невязку на каждом шаге метода градиентного спуска 
• построить график изменения невязки с каждым шагом метода 
градиентного спуска. Что можно контролировать, наблюдая за 
данным графиком? 
• использовать значения α = 0.01, 1.0, 10.0 На что влияет данный 
параметр? 
• вычислить итоговую невязку для найденного уравнения регрессии 
• построить диаграмму рассеяния и прямую линию регрессии
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
САМПЛИНГ 
• Самплинг (samling) заключается в замене 
исходного набора данных D меньшим набором 
данных (выборка), выбранного случайным образом 
• Преимуществом методов самплинга при редукции 
данных состоит том, что цена получения выборки 
пропорциональна размеру выборки (а не размеру N 
исходного набора данных D) 
• Другие методы редукции данных, как правило, 
требуют как минимум одного полного просмотра 
всех исходных данных D
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
МЕТОДЫ САМПЛИНГА 
• Простая случайная выборка без замен 
Выборка получается путем случайного выбора M наблюдений из 
общего числа N наблюдений в исходном наборе данных D (M<N) 
с равной вероятностью попадания в выборку каждого наблюдения 
• Простая случайная выборка с заменами 
Отличается от выборки без замен тем, что выбранное 
наблюдение “возвращается” в исходный набор данных и может 
быть выбрано еще раз 
T1 
T2 
T3 
T4 
T5 
T6 
T7 
T8 
T6 
T8 
T3 
T2 
T5 
T8 
T5 
Простая случайная выборка без замен 
N=8, M=4 
Простая случайная выборка с заменами T2
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
МЕТОДЫ САМПЛИНГА 
• Кластерная выборка 
Если наблюдения в исходном наборе данных D сгруппированы 
в K непересекающихся групп, тогда можно сделать выборку из 
M кластеров (M<K) применив алгоритм простой случайной 
выборки на уровне кластеров 
• ПРИМЕР. При запросе к базе данных выдача информации 
может разбиваться на страницы (например, по 100 записей), 
которые и могут рассматриваться в качестве кластеров 
T201 
T1 
T2 
T3 
… 
T100 
T901 
T301 
T601 
T602 
T603 
… 
T700 
Простая случайная выборка без замен 
N=1000, K=9, M=2
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
МЕТОДЫ САМПЛИНГА 
• Стратифицированная выборка 
Если исходный набор данных D разделен (например, по некоторому 
признаку) на некоторое количество непересекающихся частей 
(страт, strata), тогда можно сделать выборку из каждой страты, 
применив алгоритм простой случайной выборки. 
Стратифицированная выборка обеспечивает наличие в ней 
представителей из каждой страты, даже если некоторые страты 
достаточно малы (асимметрическое распределение) 
Ford 
Ford 
Ford 
Ford 
Chevrolet 
Chevrolet 
Chevrolet 
Chevrolet 
Chevrolet 
Chevrolet 
Range Rover 
Range Rover 
T12 
T57 
T186 
T711 
T12 
T215 
T632 
T715 
T800 
T803 
T24 
T75 
Ford 
Ford 
Chevrolet 
Chevrolet 
Chevrolet 
Range Rover 
T12 
T711 
T215 
T12 
T632 
T75 
Простая случайная выборка без замен
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
OLAP-КУБ 
• OLAP (англ. online analytical processing) это 
технология обработки данных, заключающаяся в 
подготовке суммарной (агрегированной) 
информации на основе больших массивов данных, 
структурированных по многомерному принципу 
• OLAP-куб (куб данных) это форма многомерного 
массива данных, предназначенная для хранения и 
быстрого доступа к предварительно вычисленным 
и агрегированным данным
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ПРИМЕР: OLAP-КУБ 
2011 2012 2013 2014 
год 
Ф1 
Ф2 
Ф3 
Ф4 
филиал 
марка 
Ford 
BMW 
VW 
Opel 
119 
100 
182 
365 
Ф1 Ф2 Ф3 Ф4 
Ford 50 25 35 9 119 
BMW 46 52 0 2 100 
VW 93 12 45 32 182 
Opel 188 42 5 130 365 
377 131 85 173 
377 
131 
173 
85 
50 
46 
93 
188 
25 
52 
12 
42 
35 
0 
45 
5 
9 
2 
32 
130 
2D-разрез за 2014 год 
2014
СЖАТИЕ ДАННЫХ 
• Сжатие данных подразумевает применение некоторого 
алгоритма преобразования для получения уменьшенного 
(сжатого) набора данных из исходного набора 
• Методы уменьшения размерности и алгоритмы 
к о м п а к т н о г о п р е д с т а в л е н и я д а н н ы х м о г у т 
рассматриваться также как частные случаи сжатия данных 
• Существуют два в корне различающихся подхода к 
сжатию данных: 
• Сжатие без потерь 
• Сжатие с потерями
СЖАТИЕ С ПОТЕРЯМИ И БЕЗ ПОТЕРЬ 
• Сжатие без потерь предусматривает преобразование 
представления набора данных таким образом, чтобы затем 
можно было в точности воспроизвести первоначальный набор 
данных путем обратного преобразования. 
• Сжатие с потерями – это представление, которое 
позволяет воспроизводить нечто «очень похожее» на 
первоначальный набор данных. 
• Преимущество использования методов сжатия с потерями 
заключается в том, что они позволяют получать более 
компактные представления данных по сравнению с методами 
сжатия без потерь. 
• ПРИМЕР: Алгоритм MP3 реализует сжатие аудиоданных с 
потерями, а Dolby TrueHD - сжатие без потерь.

More Related Content

PDF
Data Mining - lecture 3 - 2014
PDF
Data Mining - lecture 7 - 2014
PDF
Data Mining - lecture 5 - 2014
PDF
Data Mining - lecture 4 - 2014
PDF
Data Mining - lecture 8 - 2014
PDF
Data Mining - lecture 1 - 2014
PDF
Data Mining - lecture 2 - 2014
PDF
Data mining
Data Mining - lecture 3 - 2014
Data Mining - lecture 7 - 2014
Data Mining - lecture 5 - 2014
Data Mining - lecture 4 - 2014
Data Mining - lecture 8 - 2014
Data Mining - lecture 1 - 2014
Data Mining - lecture 2 - 2014
Data mining

What's hot (20)

PPT
PPTX
0. основы r
PDF
Алгоритмы и структуры данных весна 2014 лекция 2
PDF
Алгоритмы и структуры данных осень 2013 лекция 2
PDF
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
PDF
Лекция 11. Деревья отрезков (Interval trees)
PDF
Основы языка R
PDF
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
PPTX
Алгоритмы и структуры данных весна 2014 лекция 1
PDF
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)
PPTX
Исследование операций и методы оптимизации
PDF
Lsa fca spb
PDF
Лекция 2. Алгоритмы сортировки
PDF
Лекция 3. АВЛ-деревья (AVL trees)
PDF
Лекция 4. Префиксные деревья (Tries, prefix trees)
PDF
Лекция №12 "Ограниченная машина Больцмана"
PDF
Лекция 1. Анализ эффективности алгоритмов
PDF
Лекция №8 "Методы снижения размерности пространства"
PDF
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
0. основы r
Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Лекция 11. Деревья отрезков (Interval trees)
Основы языка R
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Алгоритмы и структуры данных весна 2014 лекция 1
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)
Исследование операций и методы оптимизации
Lsa fca spb
Лекция 2. Алгоритмы сортировки
Лекция 3. АВЛ-деревья (AVL trees)
Лекция 4. Префиксные деревья (Tries, prefix trees)
Лекция №12 "Ограниченная машина Больцмана"
Лекция 1. Анализ эффективности алгоритмов
Лекция №8 "Методы снижения размерности пространства"
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Ad

Viewers also liked (20)

PDF
Tata rfi 2011_print
PPTX
Performance Based Hiring Ppt
PPT
виртуальные внутри и межкорпоративные сообщества практики
PPTX
PPT
Asta Art1 (Pp Tminimizer)
PDF
90 days projet (1)
DOC
Wielrenner Tom Dumoulin richt firma op met vriendin
PDF
SXSW Conference Tips
PPTX
РИФ+КИБ "Когда не нужен отдел юзабилити"
PPSX
Gestos manuales concurso nº3
PPT
Crisis de valores
PDF
Designing Design Workshops
PPTX
Bekannte Russlanddeutsche/Известные российские немцы
PDF
PPSX
Rami Yazje Selected Works Presentation
PDF
Peter Howes - Workforce Analytics and Planning
PDF
JJUG CCC 20150411 grails3 Spring-boot
PDF
PDF
Mobile Marketing for Health Clubs: A New Way to Acquire Members
PDF
Des conditions d'apprentissage favorables à la Mise en Activités des élèves
Tata rfi 2011_print
Performance Based Hiring Ppt
виртуальные внутри и межкорпоративные сообщества практики
Asta Art1 (Pp Tminimizer)
90 days projet (1)
Wielrenner Tom Dumoulin richt firma op met vriendin
SXSW Conference Tips
РИФ+КИБ "Когда не нужен отдел юзабилити"
Gestos manuales concurso nº3
Crisis de valores
Designing Design Workshops
Bekannte Russlanddeutsche/Известные российские немцы
Rami Yazje Selected Works Presentation
Peter Howes - Workforce Analytics and Planning
JJUG CCC 20150411 grails3 Spring-boot
Mobile Marketing for Health Clubs: A New Way to Acquire Members
Des conditions d'apprentissage favorables à la Mise en Activités des élèves
Ad

Similar to Data Mining - lecture 6 - 2014 (20)

PPTX
!Predictive analytics part_2
PPT
чернякова г.в.
PDF
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
PDF
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
PPT
Sapr web3
PPT
Прикладная эконометрика. Лекция 3.
PDF
Основы MATLAB. Численные методы
PDF
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
PDF
программа синтеза и анализа интерференционных покрытий Film manager
PDF
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...
PPTX
Big Data - первые шаги
PPT
Подобедов: Абстрактный Детерминизм
PPTX
аксиоматический подход в математике матрицы и определители
PPT
Лекция 11 Приближенные алгоритмы
PPT
FaceDetection+GenderRecognition_review
PDF
PPT
Лекция 2 Сортировки, поиск и порядковые статистики
PDF
ОПК № 5 – Составные типы данных, списки
!Predictive analytics part_2
чернякова г.в.
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Sapr web3
Прикладная эконометрика. Лекция 3.
Основы MATLAB. Численные методы
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
программа синтеза и анализа интерференционных покрытий Film manager
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...
Big Data - первые шаги
Подобедов: Абстрактный Детерминизм
аксиоматический подход в математике матрицы и определители
Лекция 11 Приближенные алгоритмы
FaceDetection+GenderRecognition_review
Лекция 2 Сортировки, поиск и порядковые статистики
ОПК № 5 – Составные типы данных, списки

More from Andrii Gakhov (20)

PDF
Let's start GraphQL: structure, behavior, and architecture
PDF
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
PDF
Too Much Data? - Just Sample, Just Hash, ...
PDF
DNS Delegation
PPTX
Implementing a Fileserver with Nginx and Lua
PPTX
Pecha Kucha: Ukrainian Food Traditions
PDF
Probabilistic data structures. Part 4. Similarity
PDF
Probabilistic data structures. Part 3. Frequency
PDF
Probabilistic data structures. Part 2. Cardinality
PDF
Вероятностные структуры данных
PDF
Recurrent Neural Networks. Part 1: Theory
PDF
Apache Big Data Europe 2015: Selected Talks
PDF
Swagger / Quick Start Guide
PDF
API Days Berlin highlights
PDF
ELK - What's new and showcases
PDF
Apache Spark Overview @ ferret
PDF
Decision Theory - lecture 1 (introduction)
PDF
Buzzwords 2014 / Overview / part2
PDF
Buzzwords 2014 / Overview / part1
PDF
Elasticsearch
Let's start GraphQL: structure, behavior, and architecture
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Too Much Data? - Just Sample, Just Hash, ...
DNS Delegation
Implementing a Fileserver with Nginx and Lua
Pecha Kucha: Ukrainian Food Traditions
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 2. Cardinality
Вероятностные структуры данных
Recurrent Neural Networks. Part 1: Theory
Apache Big Data Europe 2015: Selected Talks
Swagger / Quick Start Guide
API Days Berlin highlights
ELK - What's new and showcases
Apache Spark Overview @ ferret
Decision Theory - lecture 1 (introduction)
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part1
Elasticsearch

Data Mining - lecture 6 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 4 Подготовка данных (preprocessing). Часть 2
  • 4. Редукция данных (data reduction) применяется для получения меньшего по объему представления данных, которое сохраняет все свойства исходного набора данных (эквивалетный набор данных). Работа с меньшими по объему данными увеличивает возможности анализа, в то время как результат анализа (почти) не отличается от анализа исходных данных. Основные методы редукции данных: • Уменьшение размерности • Компактное представление данных • Сжатие данных
  • 5. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ • Методы уменьшения размерности данных направлены в первую очередь на уменьшение количества рассматриваемых случайных переменных или атрибутов. • Некоторые из основных методов: • Вейвлет-преобразования • Метод главных компонент (PCA) • Выделение подмножества атрибутов
  • 6. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ • Дискретное вейвлет-преобразование (ДВП) это метод линейной обработки сигнала, который преобразует исходный вектор X в некоторый вектор той же длины X´, состоящий из вейвлет- коэффициентов • Если мы получаем вектор той же длины, тогда в чем состоит уменьшение размерности? • Само по себе вейвлет-преобразование не уменьшает размерность. Однако, благодаря его свойствам, в векторе X´ можно отбросить часть элементов (положив их равными 0), оставив только самые значимые из них (например, большие некоторого порогового значения). • Полученный вектор X´´ будет содержать большое количество нулевых элементов (т.е. можно оптимизировать вычисления), а применив к нему обратное ДВП все еще можно будет восстановить исходный вектор X (с некоторой ошибкой)
  • 7. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ МЕТОД ГЛАВНЫХ КОМПОНЕНТ • Метод главных компонент (principal component analysis, PCA) - один из основных способов уменьшения размерности данных, потеряв наименьшее количество информации • Для исходного набора данных D с n атрибутами (т.е. рассматриваемого в n-мерном пространстве) PCA производит поиск k главных компонент - n-мерных ортогональных векторов (k≤n), чтобы величина отклонений начальных данных была минимальна • Метод позволяет уменьшить размерность данных путем построения их проекции на пространство меньшей размерности, определяемого найденным базисом из векторов главных компонент
  • 8. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ МЕТОД ГЛАВНЫХ КОМПОНЕНТ • ПРИМЕР: рассмотрим набор данных с 2 атрибутами (т.е. в 2-мерном пространстве): x2 x1 x2 x1 p1 p1 - главная компонента p1
  • 9. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ • Данные могут содержать множество атрибутов, однако важными для рассматриваемой задачи могут быть лишь некоторые из них • ПРИМЕР: пусть по каждому покупателю в книжном магазине хранится 3 атрибута - возраст, любимый жанр и номер телефона. Очевидно, что в задаче прогнозирования возможного спроса на новую книгу, атрибут номер телефона не является атрибутом, влияющим на результат
  • 10. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ • Целью выбора подмножества атрибутов состоит в поиске и исключению атрибутов, не относящихся к рассматриваемой задаче или оказывающих минимальное влияние • Как известно, для множетва из n атрибутов существует 2n возможных подмножества, поэтому задача поиска оптимального подмножества не тривиальна • Выбор атрибута в подмножество основывается, как правило, на некотором статистическом тесте
  • 11. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ • Данные методы заменяют исходный набор данных на альтернативную (но меньшую по размеру) форму представления данных. • Основые семейства методов: • Параметрические • Непараметрические • В параметрических методах строится некоторая модель, описывающая исходный набор данных, и следовательно набор данных может быть описан за счет параметров этой модели. Сюда относятся регрессия и логарифмически линейная модель • Непараметрические методы, как правило, основаны на аггрегации данных и рассмотрении более высоких уровней абстракции. К таким методам относятся гистограмма, методы кластеризации, семплинг (построение выборок) и OLAP-куб
  • 12. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ РЕГРЕССИЯ • Регрессия позволяет по величине одного или нескольких атрибутов находить ожидаемые значения другого атрибута • Линейная регрессия - это простейший алгоритм регресии, заключающийся в построении линейной функции, наиболее точно (в смысле некоторой функции ошибки) приближающей имеющиеся данные • Линейная регрессия может быть одномерной и многомерной
  • 13. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ • Предположим, что исходный набор данных имеет вид • Задача линейной регрессии состоит в построении линейной модели зависимости величин yk используя значения xk. Для случая одной переменной такая зависимость моделируется в виде уравнения прямой: hθ (x) =θ 0 +θ1x {xk , yk }, k = 1…N • Следовательно, нам необходимо найти такие параметры θ0 и θ1, чтобы как можно более точно выполнялось: hθ (xk ) =θ 0 +θ1xk ≈ yk , k = 1…N
  • 14. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ • Ошибка приближения функцией hθ(x) каждого отдельного значения yk будет равна: error(k,θ ) = hθ (xk )− yk • Используя метод наименьших квадратов (МНК), ошибку моделирования всех исходных данных функцией hθ(x) можно оценить при помощи квадратичной функции ошибок (функции невязки) J θ ( ) = 1 2N (hθ (xk )− yk )2 NΣ k=1 • Оптимальные значений параметров θ0 и θ1 могут быть найдены из условия минимальности общей ошибки: ∗,θ1 ( ∗ ) = min J θ 0 θ J θ ( ) = min θ0 ,θ1 1 2N θ 0 +θ1xk − y( k )2 NΣ k=1
  • 15. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ • Решение данной задачи оптимизации может быть выполнено по методу градиентного спуска, представляющего собой итерационный процесс поиска экстремума функции с помощью движения вдоль направления антиградиента • На каждом шаге метода мы “подстраиваем” найденные параметры по формулам θ 0 :=θ 0 −α ∂ ∂θ 0 J θ 0 ,θ1 ( ) =θ 0 −α 1 N (θ 0 +θ1xk − yk ) NΣ k=1 θ1 :=θ1 −α ∂ ∂θ1 J θ 0 ,θ1 ( ) =θ1 −α 1 N θ 0 +θ1xk − y( k )⋅ xk NΣ k=1 ⎡ ⎢⎢⎢⎢⎢ ⎣ где α - некоторое положительное число, влияющее на скорость сходимости метода (определяет скорость движения)
  • 16. ЗАДАНИЯ • Значения атрибутов рост (см) и вес (кг) для студентов группы имею вид: рост вес рост вес рост вес рост вес рост вес 185 77 163 68 173 82 193 70 175 83 170 66 188 82 180 84 183 79 165 66 183 75 185 74 178 100 175 77 178 67 183 77 165 61 183 84 183 70 188 95 175 76 185 77 188 84 185 76 178 63 • Необходимо: • вычислить коэффициенты линейной регрессии • вычислить невязку на каждом шаге метода градиентного спуска • построить график изменения невязки с каждым шагом метода градиентного спуска. Что можно контролировать, наблюдая за данным графиком? • использовать значения α = 0.01, 1.0, 10.0 На что влияет данный параметр? • вычислить итоговую невязку для найденного уравнения регрессии • построить диаграмму рассеяния и прямую линию регрессии
  • 17. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ САМПЛИНГ • Самплинг (samling) заключается в замене исходного набора данных D меньшим набором данных (выборка), выбранного случайным образом • Преимуществом методов самплинга при редукции данных состоит том, что цена получения выборки пропорциональна размеру выборки (а не размеру N исходного набора данных D) • Другие методы редукции данных, как правило, требуют как минимум одного полного просмотра всех исходных данных D
  • 18. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ МЕТОДЫ САМПЛИНГА • Простая случайная выборка без замен Выборка получается путем случайного выбора M наблюдений из общего числа N наблюдений в исходном наборе данных D (M<N) с равной вероятностью попадания в выборку каждого наблюдения • Простая случайная выборка с заменами Отличается от выборки без замен тем, что выбранное наблюдение “возвращается” в исходный набор данных и может быть выбрано еще раз T1 T2 T3 T4 T5 T6 T7 T8 T6 T8 T3 T2 T5 T8 T5 Простая случайная выборка без замен N=8, M=4 Простая случайная выборка с заменами T2
  • 19. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ МЕТОДЫ САМПЛИНГА • Кластерная выборка Если наблюдения в исходном наборе данных D сгруппированы в K непересекающихся групп, тогда можно сделать выборку из M кластеров (M<K) применив алгоритм простой случайной выборки на уровне кластеров • ПРИМЕР. При запросе к базе данных выдача информации может разбиваться на страницы (например, по 100 записей), которые и могут рассматриваться в качестве кластеров T201 T1 T2 T3 … T100 T901 T301 T601 T602 T603 … T700 Простая случайная выборка без замен N=1000, K=9, M=2
  • 20. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ МЕТОДЫ САМПЛИНГА • Стратифицированная выборка Если исходный набор данных D разделен (например, по некоторому признаку) на некоторое количество непересекающихся частей (страт, strata), тогда можно сделать выборку из каждой страты, применив алгоритм простой случайной выборки. Стратифицированная выборка обеспечивает наличие в ней представителей из каждой страты, даже если некоторые страты достаточно малы (асимметрическое распределение) Ford Ford Ford Ford Chevrolet Chevrolet Chevrolet Chevrolet Chevrolet Chevrolet Range Rover Range Rover T12 T57 T186 T711 T12 T215 T632 T715 T800 T803 T24 T75 Ford Ford Chevrolet Chevrolet Chevrolet Range Rover T12 T711 T215 T12 T632 T75 Простая случайная выборка без замен
  • 21. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ OLAP-КУБ • OLAP (англ. online analytical processing) это технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу • OLAP-куб (куб данных) это форма многомерного массива данных, предназначенная для хранения и быстрого доступа к предварительно вычисленным и агрегированным данным
  • 22. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ПРИМЕР: OLAP-КУБ 2011 2012 2013 2014 год Ф1 Ф2 Ф3 Ф4 филиал марка Ford BMW VW Opel 119 100 182 365 Ф1 Ф2 Ф3 Ф4 Ford 50 25 35 9 119 BMW 46 52 0 2 100 VW 93 12 45 32 182 Opel 188 42 5 130 365 377 131 85 173 377 131 173 85 50 46 93 188 25 52 12 42 35 0 45 5 9 2 32 130 2D-разрез за 2014 год 2014
  • 23. СЖАТИЕ ДАННЫХ • Сжатие данных подразумевает применение некоторого алгоритма преобразования для получения уменьшенного (сжатого) набора данных из исходного набора • Методы уменьшения размерности и алгоритмы к о м п а к т н о г о п р е д с т а в л е н и я д а н н ы х м о г у т рассматриваться также как частные случаи сжатия данных • Существуют два в корне различающихся подхода к сжатию данных: • Сжатие без потерь • Сжатие с потерями
  • 24. СЖАТИЕ С ПОТЕРЯМИ И БЕЗ ПОТЕРЬ • Сжатие без потерь предусматривает преобразование представления набора данных таким образом, чтобы затем можно было в точности воспроизвести первоначальный набор данных путем обратного преобразования. • Сжатие с потерями – это представление, которое позволяет воспроизводить нечто «очень похожее» на первоначальный набор данных. • Преимущество использования методов сжатия с потерями заключается в том, что они позволяют получать более компактные представления данных по сравнению с методами сжатия без потерь. • ПРИМЕР: Алгоритм MP3 реализует сжатие аудиоданных с потерями, а Dolby TrueHD - сжатие без потерь.