SlideShare a Scribd company logo
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 2 
Узнаем больше о своих данных. Часть 1
ТИПЫ АТРИБУТОВ
АТРИБУТ 
• Атрибут - это поле данных, представляющие 
характеристику или свойство объекта данных 
• Очень часто понятия атрибут, размерность, 
с в о й с т в о и л и п е р е м е н н а я применяются 
взаимозаменяемо 
• Тип атрибута определяется множеством возможных 
значений, которые может принимать данный атрибут 
• Пример: Объект данных автомобиль может иметь 
атрибуты марка, цвет и объем двигателя
НОМИНАТИВНЫЕ АТРИБУТЫ 
• Термин “номинативный” означает, что атрибут 
связан с некоторым наименованием 
• Значения номинативных атрибутов - символы или 
имена вещей 
• Как правило, значение номинативного атрибута 
представляет некую категорию, код или состояние, 
поэтому номинативные атрибуты называют также 
градационными переменными, описывающими 
категории объекта
• Значениям номинативных атрибутов можно 
поставить в соответствие некие числовые 
значения 
• Однако, т.к. номинативные атрибуты не имеют 
н и к а к о г о о т н о ш е н и я п о р я д к а ( н е 
количественные), тогда нет смысла сравнивать и 
их числовые значения 
• Номинативные атрибуты используются только для 
классификации объектов исследования по 
качественным признакам.
• Пример: Рассмотрим атрибуты объекта данных 
человек: цвет волос и семейное положение 
• Пусть возможные значения для атрибута цвет 
волос будут: черный, коричневый, белый, седой и 
рыжий. 
• Пусть возможные значения для атрибута 
семейное положение будут: замужем, не замужем 
• Оба данных атрибута являются номинативными 
атрибутами
БИНАРНЫЕ АТРИБУТЫ 
• Бинарные (дихотомические) атрибуты - это 
номинативные атрибуты, принимающие только 2 
значения: 0 (атрибут отсутствует) и 1 (атрибут 
присутствует) 
• Бинарные атрибуты называются симметричными, 
если оба значения одинаково важны и имеют один 
и тот же вес 
• Бинарные атрибуты называются асимметричными, 
если одно из значений более важно
• Пример: атрибут пол (принимает значения 
мужской и женский, которые могут быть 
представлен как 0/1) - симметрический 
бинарный атрибут 
• Пример: атрибут результат ВИЧ теста 
(принимает значения положительный и 
отрицательный) - асимметрический 
бинарный атрибут, т.к. 1 (положительный) 
является более редким и важным
ПОРЯДКОВЫЙ АТРИБУТ 
• Порядковый атрибут - это атрибут, которые 
принимает значения, позволяющие установить 
отншение порядка (лучше/хуже), но без возможности 
учета разности между величинами (лучше в 5 раз/хуже в 
5 раз). 
• Порядковые атрибуты применяются когда невозможно 
установить точное различие между принимаемыми 
значениями 
• Порядковый атрибут относится к качественным 
характеристикам
• Пример: Атрибут оценка (принимает значения A+, 
A, A-, B+ и т.д.) является пордяковым атрибутом, 
т.к. можно упорядочить значения, считая A+ лучше 
A-, однако нельзя сказать во сколько раз A+ лучше. 
• Значениям порядкового атрибута также можно 
поставить в соответствия некие числа, которые 
можно упорядочивать 
• Пример: Значения атрибута удовлетворенность 
покупателя можно представить в виде: 0 - ужасно, 
1 - плохо, 2 - нормально, 3 - хорошо, 4 - отлично
ЧИСЛЕННЫЕ АТРИБУТЫ 
• Численные атрибуты - это количественные 
характеристики, которые можно измерить и 
представить в виде целых или вещественных 
значений 
• Численные атрибуты бывают двух видов - 
интервальные атрибуты и атрибуты отношений
• Интервальные атрибуты это численные 
атрибуты, которые измеряются относительно 
некоторой шкалы 
• Значения интервального атрибута имеют порядок и 
могут быть положительными, отрицательными или 
равными 0 
• За единицу измерения интервальной переменной 
(за ее «размер») принимается одна и та же 
величина, равная интервалу между двумя соседними 
значениями 
• Интервальные атрибуты позволяют сравнивать 
разности (интервалы) между значениями
• Пример: атрибут температура воздуха, 
принимающий значения по шкале Цельсия. 
• Шкала Цельсия не имеет абсолютного нуля (точки 
отсчета), т.к. 0º - не отвечает значению “нет 
температуры” 
• Мы можем сказать, что температура в 40º на 10º 
выше, чем температура в 30º. Мы также можем 
сказать, что увеличение (разница) от 20º до 40º в 
два раза больше, чем увеличение от 30º до 40º. 
• Мы не можем сказать, что 10º в три раза холоднее, 
чем 30º
• За нуль для значений интервального 
атрибута может быть принята любая точка 
отсчета. 
• Интервальные переменные величины 
позволяют нам не только ранжировать по 
порядку измеряемые признаки, но также и 
представлять их в количественной форме и, 
кроме того, сравнивать величины разностей 
между ними.
• Атрибуты отношений - это интервальные 
атрибуты, которые имеют абсолютный ноль 
(единую точку отсчета) 
• Только для атрибутов отношений можно 
говорить, что одно значение “больше в 
столько-то раз”, чем другое 
• Пример: атрибут температура, принимающий 
значения по шкале Кельвина. Шкала Кельвина 
(в отличие от Цельсия) имеет абсолютный 
ноль (0ºK = -273.15ºC)
НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ АТРИБУТЫ 
• Дискретные атрибуты принимают конечное 
или счетное множество значений, которые 
мог у т к а к п р е д с т а в л я т ь с я , т а к и н е 
представляться как целые числа 
• Если атрибут не является дискретным, то он 
называется непрерывным. Непрерывные 
атрибуты представляются вещественными 
значениями
• Пример: а т р и б у т уровень дохода, 
принимающий значения высокий, средний и 
низкий является дискретным номинативным 
атрибутом 
• Пример: атрибут заработная плата, 
принимающая значения в некотором 
интервале значений, является непрерывным 
атрибутом отношения
БАЗОВОЕ 
СТАТИСТИЧЕСКОЕ 
ОПИСАНИЕ ДАННЫХ
ИЗМЕРЕНИЕ ЦЕНТРАЛЬНОЙ ТЕНДЕЦИИ 
• Меры центральной тенденции измеряют 
р а с положе н и е с е р е д и ны и л и ц е н т р а 
распределения данных 
• Отвечаем на вопрос: “Где располагаются 
большинство значений некоторого атрибута 
данных?” 
• Измерение центральной тенденции включает 
среднее (арифметическое), медиану и моду
СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ 
• Пусть x1, x2, … xN - множество значений 
(наблюдений) численного атрибута x 
• Средним арифметическим называется величина 
x- = x1 + x2 + … + xN 
! 
N 
• Пример: пусть атрибут зарплата принимает 
следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 
5.6, 6.0, 6.3, 7.0, 7.0, 11.0 
• Среднее арифметическое будет 69.6 / 12 = 5.8 
• Средняя зарплата составляет 5800 грн
• Иногда для управлением влиянием, важностью 
или для отображения частоты каждое 
значение xi может быть ассоциировано с 
некоторым весом wi, i=1…N 
• Взвешенное среднее (арифметическое) 
может быть вычислено по формуле: 
w1 • x1 + x- = w2 • x2 + … + wN • xN 
! w1 + w2 + … + wN
• Основной проблемой среднего (арифметического) 
я в л я е т с я б о л ь ш а я чувствительность к 
экстремальным значениям (например, аномалиям). 
Для борьбы с данной чувствительностью можно 
применять т.н. усеченное среднее 
• Усеченное среднее - это среднее значение для 
имеющегося набора данных, из которого исключены 
k% наибольших и k% наименьших значений. 
• Как правило процент удаляемых значений 
устанавливается в диапазоне от 5% до 25%.
МЕДИАНА 
• Медиана - возможное значение атрибута, которое делит 
упорядоченную по возрастанию совокупность значений этого 
атрибута на две равные части: 50% «нижних» значений будут 
иметь значение атрибута не больше, чем медиана, а 
«верхние» 50% - значения атрибута не меньше, чем медиана. 
• Медиана играет особенно важную роль для асимметричных 
данных 
• Если N - четное, тогда медиана не уникальна и равна двум 
ближайшим к центру значениям, а также любым значениям 
между ними (на практике, используют среднее 
арифметическое этих значений)
МОДА 
• Мода - это значение атрибута, которое встречается 
особенно часто 
• Мода может быть определена как для количественных, так 
и для качественных характеристик 
• Если набор данных содержит только 1 моду, он называется 
одномодальным. Различают также бимодальные, 
тримодальные и многомодальные наборы данных 
• Для одномодальных атрибутов без явной асимметрии: 
выполняется соотношение: 
среднее - мода ≈ 3 • (среднее - медиана)
среднее мода 
медиана 
мода среднее 
медиана 
медиана 
мода 
среднее 
Симметрические данные 
Асимметрические данные положительный перекос отрицаельный перекос

More Related Content

PDF
Data Mining - lecture 5 - 2014
PDF
Data Mining - lecture 1 - 2014
PDF
Data Mining - lecture 6 - 2014
PDF
Data Mining - lecture 8 - 2014
PDF
Data Mining - lecture 3 - 2014
PDF
Data Mining - lecture 7 - 2014
PDF
Data mining
PDF
Data Mining - lecture 4 - 2014
Data Mining - lecture 5 - 2014
Data Mining - lecture 1 - 2014
Data Mining - lecture 6 - 2014
Data Mining - lecture 8 - 2014
Data Mining - lecture 3 - 2014
Data Mining - lecture 7 - 2014
Data mining
Data Mining - lecture 4 - 2014

What's hot (15)

PDF
Моделирование ТПиПП
PDF
Матстатистика для HR
PDF
Лекция 2. Описательная статистика
PDF
Оценивание параметров
PPTX
матстатистика для Hr
PPT
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
PPTX
Практический курс «Основы Data Mining для всех»
PDF
Визуализация данных. Аналитическая платформа Tableau.
PPT
Разведочный анализ данных
PPT
Сглаживание временных рядов
PPT
Практический курс «Основы Data Mining»
PDF
Stat 5 alpha
PDF
Stat 4 alpha
PPTX
01 введение 2012
PPT
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Моделирование ТПиПП
Матстатистика для HR
Лекция 2. Описательная статистика
Оценивание параметров
матстатистика для Hr
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Практический курс «Основы Data Mining для всех»
Визуализация данных. Аналитическая платформа Tableau.
Разведочный анализ данных
Сглаживание временных рядов
Практический курс «Основы Data Mining»
Stat 5 alpha
Stat 4 alpha
01 введение 2012
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Ad

Viewers also liked (20)

PPT
Nilis cert in info man - rb on 'info and know' man - 1 oct 11
DOCX
Memoria de acceso aleatorio
PDF
40 rabbana
PPTX
Moving Beyond "Acts of Faith": Effective Scholarships for Equity Students
PDF
Managing serious incidents and fatal accidents - November 2016, Birmingham
PPTX
FDIC Insurance Explained
PPTX
TEGNOLOGIA DE PUNTA
PDF
10 Daily hacks to learn a New Skill (Part-2)
DOCX
Notas Excel Evaluaciones
PDF
O Serviço Social e a tradição Marxista - José Paulo Netto
PPT
Recent changes in capital market
PPTX
Pbl muskuloskeletal sken_2
ODP
Aniversaris abril
PDF
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...
PPTX
13 nights of halloween
PPTX
Persentase ilmu pengantar hukum .
PPTX
I'm happy
PDF
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...
PPTX
Chanakya quotes
PDF
Was wäre, wenn es einfach wäre?
Nilis cert in info man - rb on 'info and know' man - 1 oct 11
Memoria de acceso aleatorio
40 rabbana
Moving Beyond "Acts of Faith": Effective Scholarships for Equity Students
Managing serious incidents and fatal accidents - November 2016, Birmingham
FDIC Insurance Explained
TEGNOLOGIA DE PUNTA
10 Daily hacks to learn a New Skill (Part-2)
Notas Excel Evaluaciones
O Serviço Social e a tradição Marxista - José Paulo Netto
Recent changes in capital market
Pbl muskuloskeletal sken_2
Aniversaris abril
3 d pie chart circular puzzle with hole in center process 2 stages style 1 po...
13 nights of halloween
Persentase ilmu pengantar hukum .
I'm happy
Jose F Ruiz - Los nuevos modelos de firma electrónica - semanainformatica.com...
Chanakya quotes
Was wäre, wenn es einfach wäre?
Ad

More from Andrii Gakhov (20)

PDF
Let's start GraphQL: structure, behavior, and architecture
PDF
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
PDF
Too Much Data? - Just Sample, Just Hash, ...
PDF
DNS Delegation
PPTX
Implementing a Fileserver with Nginx and Lua
PPTX
Pecha Kucha: Ukrainian Food Traditions
PDF
Probabilistic data structures. Part 4. Similarity
PDF
Probabilistic data structures. Part 3. Frequency
PDF
Probabilistic data structures. Part 2. Cardinality
PDF
Вероятностные структуры данных
PDF
Recurrent Neural Networks. Part 1: Theory
PDF
Apache Big Data Europe 2015: Selected Talks
PDF
Swagger / Quick Start Guide
PDF
API Days Berlin highlights
PDF
ELK - What's new and showcases
PDF
Apache Spark Overview @ ferret
PDF
Decision Theory - lecture 1 (introduction)
PDF
Buzzwords 2014 / Overview / part2
PDF
Buzzwords 2014 / Overview / part1
PDF
Elasticsearch
Let's start GraphQL: structure, behavior, and architecture
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Too Much Data? - Just Sample, Just Hash, ...
DNS Delegation
Implementing a Fileserver with Nginx and Lua
Pecha Kucha: Ukrainian Food Traditions
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 2. Cardinality
Вероятностные структуры данных
Recurrent Neural Networks. Part 1: Theory
Apache Big Data Europe 2015: Selected Talks
Swagger / Quick Start Guide
API Days Berlin highlights
ELK - What's new and showcases
Apache Spark Overview @ ferret
Decision Theory - lecture 1 (introduction)
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part1
Elasticsearch

Data Mining - lecture 2 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 2 Узнаем больше о своих данных. Часть 1
  • 4. АТРИБУТ • Атрибут - это поле данных, представляющие характеристику или свойство объекта данных • Очень часто понятия атрибут, размерность, с в о й с т в о и л и п е р е м е н н а я применяются взаимозаменяемо • Тип атрибута определяется множеством возможных значений, которые может принимать данный атрибут • Пример: Объект данных автомобиль может иметь атрибуты марка, цвет и объем двигателя
  • 5. НОМИНАТИВНЫЕ АТРИБУТЫ • Термин “номинативный” означает, что атрибут связан с некоторым наименованием • Значения номинативных атрибутов - символы или имена вещей • Как правило, значение номинативного атрибута представляет некую категорию, код или состояние, поэтому номинативные атрибуты называют также градационными переменными, описывающими категории объекта
  • 6. • Значениям номинативных атрибутов можно поставить в соответствие некие числовые значения • Однако, т.к. номинативные атрибуты не имеют н и к а к о г о о т н о ш е н и я п о р я д к а ( н е количественные), тогда нет смысла сравнивать и их числовые значения • Номинативные атрибуты используются только для классификации объектов исследования по качественным признакам.
  • 7. • Пример: Рассмотрим атрибуты объекта данных человек: цвет волос и семейное положение • Пусть возможные значения для атрибута цвет волос будут: черный, коричневый, белый, седой и рыжий. • Пусть возможные значения для атрибута семейное положение будут: замужем, не замужем • Оба данных атрибута являются номинативными атрибутами
  • 8. БИНАРНЫЕ АТРИБУТЫ • Бинарные (дихотомические) атрибуты - это номинативные атрибуты, принимающие только 2 значения: 0 (атрибут отсутствует) и 1 (атрибут присутствует) • Бинарные атрибуты называются симметричными, если оба значения одинаково важны и имеют один и тот же вес • Бинарные атрибуты называются асимметричными, если одно из значений более важно
  • 9. • Пример: атрибут пол (принимает значения мужской и женский, которые могут быть представлен как 0/1) - симметрический бинарный атрибут • Пример: атрибут результат ВИЧ теста (принимает значения положительный и отрицательный) - асимметрический бинарный атрибут, т.к. 1 (положительный) является более редким и важным
  • 10. ПОРЯДКОВЫЙ АТРИБУТ • Порядковый атрибут - это атрибут, которые принимает значения, позволяющие установить отншение порядка (лучше/хуже), но без возможности учета разности между величинами (лучше в 5 раз/хуже в 5 раз). • Порядковые атрибуты применяются когда невозможно установить точное различие между принимаемыми значениями • Порядковый атрибут относится к качественным характеристикам
  • 11. • Пример: Атрибут оценка (принимает значения A+, A, A-, B+ и т.д.) является пордяковым атрибутом, т.к. можно упорядочить значения, считая A+ лучше A-, однако нельзя сказать во сколько раз A+ лучше. • Значениям порядкового атрибута также можно поставить в соответствия некие числа, которые можно упорядочивать • Пример: Значения атрибута удовлетворенность покупателя можно представить в виде: 0 - ужасно, 1 - плохо, 2 - нормально, 3 - хорошо, 4 - отлично
  • 12. ЧИСЛЕННЫЕ АТРИБУТЫ • Численные атрибуты - это количественные характеристики, которые можно измерить и представить в виде целых или вещественных значений • Численные атрибуты бывают двух видов - интервальные атрибуты и атрибуты отношений
  • 13. • Интервальные атрибуты это численные атрибуты, которые измеряются относительно некоторой шкалы • Значения интервального атрибута имеют порядок и могут быть положительными, отрицательными или равными 0 • За единицу измерения интервальной переменной (за ее «размер») принимается одна и та же величина, равная интервалу между двумя соседними значениями • Интервальные атрибуты позволяют сравнивать разности (интервалы) между значениями
  • 14. • Пример: атрибут температура воздуха, принимающий значения по шкале Цельсия. • Шкала Цельсия не имеет абсолютного нуля (точки отсчета), т.к. 0º - не отвечает значению “нет температуры” • Мы можем сказать, что температура в 40º на 10º выше, чем температура в 30º. Мы также можем сказать, что увеличение (разница) от 20º до 40º в два раза больше, чем увеличение от 30º до 40º. • Мы не можем сказать, что 10º в три раза холоднее, чем 30º
  • 15. • За нуль для значений интервального атрибута может быть принята любая точка отсчета. • Интервальные переменные величины позволяют нам не только ранжировать по порядку измеряемые признаки, но также и представлять их в количественной форме и, кроме того, сравнивать величины разностей между ними.
  • 16. • Атрибуты отношений - это интервальные атрибуты, которые имеют абсолютный ноль (единую точку отсчета) • Только для атрибутов отношений можно говорить, что одно значение “больше в столько-то раз”, чем другое • Пример: атрибут температура, принимающий значения по шкале Кельвина. Шкала Кельвина (в отличие от Цельсия) имеет абсолютный ноль (0ºK = -273.15ºC)
  • 17. НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ АТРИБУТЫ • Дискретные атрибуты принимают конечное или счетное множество значений, которые мог у т к а к п р е д с т а в л я т ь с я , т а к и н е представляться как целые числа • Если атрибут не является дискретным, то он называется непрерывным. Непрерывные атрибуты представляются вещественными значениями
  • 18. • Пример: а т р и б у т уровень дохода, принимающий значения высокий, средний и низкий является дискретным номинативным атрибутом • Пример: атрибут заработная плата, принимающая значения в некотором интервале значений, является непрерывным атрибутом отношения
  • 20. ИЗМЕРЕНИЕ ЦЕНТРАЛЬНОЙ ТЕНДЕЦИИ • Меры центральной тенденции измеряют р а с положе н и е с е р е д и ны и л и ц е н т р а распределения данных • Отвечаем на вопрос: “Где располагаются большинство значений некоторого атрибута данных?” • Измерение центральной тенденции включает среднее (арифметическое), медиану и моду
  • 21. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ • Пусть x1, x2, … xN - множество значений (наблюдений) численного атрибута x • Средним арифметическим называется величина x- = x1 + x2 + … + xN ! N • Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 • Среднее арифметическое будет 69.6 / 12 = 5.8 • Средняя зарплата составляет 5800 грн
  • 22. • Иногда для управлением влиянием, важностью или для отображения частоты каждое значение xi может быть ассоциировано с некоторым весом wi, i=1…N • Взвешенное среднее (арифметическое) может быть вычислено по формуле: w1 • x1 + x- = w2 • x2 + … + wN • xN ! w1 + w2 + … + wN
  • 23. • Основной проблемой среднего (арифметического) я в л я е т с я б о л ь ш а я чувствительность к экстремальным значениям (например, аномалиям). Для борьбы с данной чувствительностью можно применять т.н. усеченное среднее • Усеченное среднее - это среднее значение для имеющегося набора данных, из которого исключены k% наибольших и k% наименьших значений. • Как правило процент удаляемых значений устанавливается в диапазоне от 5% до 25%.
  • 24. МЕДИАНА • Медиана - возможное значение атрибута, которое делит упорядоченную по возрастанию совокупность значений этого атрибута на две равные части: 50% «нижних» значений будут иметь значение атрибута не больше, чем медиана, а «верхние» 50% - значения атрибута не меньше, чем медиана. • Медиана играет особенно важную роль для асимметричных данных • Если N - четное, тогда медиана не уникальна и равна двум ближайшим к центру значениям, а также любым значениям между ними (на практике, используют среднее арифметическое этих значений)
  • 25. МОДА • Мода - это значение атрибута, которое встречается особенно часто • Мода может быть определена как для количественных, так и для качественных характеристик • Если набор данных содержит только 1 моду, он называется одномодальным. Различают также бимодальные, тримодальные и многомодальные наборы данных • Для одномодальных атрибутов без явной асимметрии: выполняется соотношение: среднее - мода ≈ 3 • (среднее - медиана)
  • 26. среднее мода медиана мода среднее медиана медиана мода среднее Симметрические данные Асимметрические данные положительный перекос отрицаельный перекос