SlideShare a Scribd company logo
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ПЛАН КУРСА 
• Введение в Data Mining 
• Узнаем больше о своих данных 
• Подготовка данных (preprocesing) 
• Хранилища данных 
• Поиск шаблонов в данных 
• Методы классификации 
• Методы кластеризации
ВВЕДЕНИЕ В DATA MINING
ЧТО ТАКОЕ DATA MINING 
• Data mining (с англ.) - добыча данных 
• Data mining - поиск знаний (или интересных 
шаблонов и закономерностей) в данных 
• Data mining - процесс поиска интересных 
шаблонов и новых знаний из большого 
количества данных
ПРОЦЕСС ПОЛУЧЕНИЯ 
ЗНАНИЙ ИЗ ДАННЫХ 
Хранилище Data mining Шаблоны 
данных 
БД 
файлы 
Знание
ОСНОВНЫЕ ЭТАПЫ 
• Очистка данных 
удаление шумов и противоречивых данных 
• Интеграция данных 
объединение данных из различных источников данных 
• Выбор данных 
только данные, имеющие отношение к поставленной задаче 
• Трансформация данных 
представление данных в формах, удобных для анализа и аггрегаций 
• Data mining 
применение различных методов для выделение шаблонов данных 
• Изучение шаблонов 
идентификация важных шаблонов, содержащих новые знания 
• Презентация знаний 
использование визуализации и других техник представления 
полученных знаний
КАКИЕ ШАБЛОНЫ МОГУТ 
БЫТЬ НАЙДЕНЫ? 
• описательные 
Описательные шаблоны характеризуют свойства 
данных в анализируемом наборе данных 
• предсказывающие 
Предсказывающие шаблоны позволяют 
используя анализируемый набор данных делать 
предсказания для других наборов данных
ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ 
Описание некоторого класса или концепции с помощью 
краткого и выразительного набора терминов 
• Такое описание может быть получено: 
• при помощи характеризации данных, путем краткого 
представления данных рассматриваемого класса (target 
class) в общих терминах 
• путем сравнения рассматриваемого класса с одним или 
несколькими альтернативными классами - дискриминация 
данных
ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую 
задачу: Описать характеристики клиентов, 
которые потратили больше $5000. 
• Результат: возраст 40-50 лет, работающие и 
имеющие высший кредитный рейтинг
ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую задачу: 
Сравнить характеристики пользователей, покупающих 
некоторую группу товаров часто (чаще 2 раз в месяц), и 
пользователей, которые покупают очень редко (менее 3 
раз в год). 
• Результат: 80% частых покупателей данной группы 
товаров имеют возраст 20-40 лет и высшее образование, 
в то время как 60% нечастых покупателей - пенсионеры 
или люди до 18 лет и без высшего образования. При 
более детальном анализе, например, можно сказать, что 
отличия двух рассматриваемых групп - уровень дохода.
ЧАСТЫЕ ШАБЛОНЫ 
Шаблоны, которые часто встречаются в данных: 
• подмножества 
Пример: хлеб и молоко покупаются вместе 
• последовательности 
Пример: сначала покупается ноутбук, потом цифровая камера, а 
потом карта памяти 
• структурные шаблоны (могут включать в себя последовательности 
и подмножества) 
Пример: покупается ноутбук вместе с чехлом, потом сканер, 
принтер или мфу, причем если купили принтер или мфу - то 
покупается бумага ежемесячно.
ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ 
• Менеджер рассматривает такую задачу: Найти товары, 
которые часто покупаются вместе. 
• Результат: 
покупка(X, “компьютер”) => покупка(X, “ПО”) 
[supp = 1%, conf = 50%] 
т.е. 1% всех покупок включает компьютер и ПО вместе, в 
50% случаев при покупке компьютера покупается и ПО. 
• supp(A) - относительное количество случаев, когда 
правило A выполняется (support) 
• conf(A=>B) - относительное количество случаев, когда 
выполняется B после A (confidence). conf(A=>B) = p(B|A)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Классификация - процесс поиска модели 
(или функции), которая описывает и отличает 
классы или концепции в данных 
• Пример: 
возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) 
возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) 
возраст(X, “средний”) => class(X, “C”) 
возраст(X, “старый”) => class(X, “C”)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Регрессионный анализ - статистическая методология, 
используемая для численного предсказания. 
• При классификации предсказывают сатегории (дискретные и без 
определенного порядка), а модели регрессии - непрерывные 
функции 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
КЛАСТЕРНЫЙ АНАЛИЗ 
• Кластерный анализ - процесс анализа данных 
без использования информации о их классах 
(например, когда такой информации просто нет) 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
ПОИСК АНОМАЛИЙ 
• Данные могут содержать элементы, которые не 
отвечают общему поведению или модели данных 
- аномалии (outliers). 
• Пример: 
100 
40 
1
КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС 
Интересные шаблоны должны: 
• быть легко понимаемы для человека 
• быть верными и для тестовых данных с некоторой степенью 
достоверности (valid) 
• быть потенциально полезными в решении рассматриваемой 
задачи (useful) 
• нести новое знание для исследователя (novel) 
• давать возможность предпринимать дейсвие на основе 
полученного знания (actionable)
ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ 
Machine Learning 
Data Mining 
Статистика 
Базы данных 
Хранилища 
данных 
Информационный 
поиск 
Приложения 
Распознание 
шаблонов 
Визуализация 
Алгоритмы 
HP 
вычисления
СТАТИСТИКА 
• Статистика изучает вопросы сбора, анализа, интерпретации 
и презентации данных 
• Статистическая модель - это набор математических 
функций, описывающий поведение объектов в 
рассматриваемом классе в терминах случайных переменных 
и их вероятностные распределения 
• Статистические модели могут быть результатом Data 
Mining 
• Статистические методы применяются для проверки и 
обоснования результатов Data Mining
MACHINE LEARNING 
• Machine Learning рассматривает вопросы как 
компьютер может учиться (или улучшать свою 
эффективность) основываясь на данных 
• Supervised learning - обучение с учителем. 
Рассматриваются в основном задачи классификации. 
И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е 
(классифицированные) данные. 
• Unsupervised learning - самостоятельное обучение. 
Рассматриваются в основном задачи кластеризации.
ОСНОВНЫЕ ПРОБЛЕМЫ 
DATA MINING 
• Разработка методологий 
• Взаимодействие с пользователем 
• Эффективность и масштабируемость 
• Разнообразие типов данных 
• Data Mining и общество
РАЗРАБОТКА МЕТОДОЛОГИЙ 
Исследователи, разрабатывая новые методы, 
учитывают следующие аспекты: 
• Получение новых типов знаний 
• Получение данных в пространствах многих 
измерений 
• Интеграция методов из многих дисциплин 
• Обработка зашумленных и неполных данных
ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ 
Пользователь играет одну из важных ролей в 
процессе Data Mining. Основными вопросами 
исследований являются: 
• Как взаимодействовать с системой Data Mining? 
• Как интегрировать предметные знания 
пользователей в процесс Data Mining? 
• Как представить и визуализировать результаты?
ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ 
Вопросы эффективности и масштабируемости всегда 
рассматриваются при сравнении различных алгоритмов Data Mining. 
• Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о 
масштабируемыми, чтобы иметь возможность добывать 
информацию из огромного количества данных. Время выполнения 
должно быть предсказуемо, ограничено и приемлемо для 
приложений 
• Map/Reduce. Часто применяется техника разделения данных на 
части, каждая из которых обрабатывается параллельно 
несколькими процессами (с возможностью взаимодействия). 
После обработки полученные шаблоны объединяются.
ЛИТЕРАТУРА 
• https://ru.wikipedia.org/wiki/Data_mining 
• Дюк В.А., Самойленко А.П. Data Mining. Учебный 
курс 
• Ситник В. Ф., Краснюк М. Т. Інтелектуальний 
аналіз даних (дейтамайнінг): Навч. посібник. 
• J. Han, M. Kamber, J. Pei Data Mining: Concepts and 
Techniques

More Related Content

PDF
Data Mining - lecture 8 - 2014
PDF
Data mining
PDF
Data Mining - lecture 5 - 2014
PDF
Data Mining - lecture 2 - 2014
PDF
Data Mining - lecture 7 - 2014
PDF
Data Mining - lecture 6 - 2014
PDF
Data Mining - lecture 3 - 2014
PDF
Data Mining - lecture 4 - 2014
Data Mining - lecture 8 - 2014
Data mining
Data Mining - lecture 5 - 2014
Data Mining - lecture 2 - 2014
Data Mining - lecture 7 - 2014
Data Mining - lecture 6 - 2014
Data Mining - lecture 3 - 2014
Data Mining - lecture 4 - 2014

What's hot (10)

PDF
Моделирование ТПиПП
PPTX
4 azure 24 04
PPT
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
PDF
Визуализация данных. Аналитическая платформа Tableau.
PPT
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
PDF
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
PDF
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
PPTX
Практический курс «Основы Data Mining для всех»
PDF
Введение в машинное обучение
PDF
L13: Заключительная
Моделирование ТПиПП
4 azure 24 04
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Визуализация данных. Аналитическая платформа Tableau.
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Практический курс «Основы Data Mining для всех»
Введение в машинное обучение
L13: Заключительная
Ad

Viewers also liked (20)

PDF
Петров
PDF
Detecting logged in user's abnormal activity
PDF
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
PDF
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
PDF
Лекция №1 "Задачи Data Mining"
PDF
Data-driven маркетинг: programmatic и data mining
PPS
Asturiasnaturalezaviva 24 10 07 An
PDF
Test driven infrastructure development (2 - puppetconf 2013 edition)
ODP
Formula 1
PDF
Επενδυτικός Νόμος
PDF
10 errores a evitar en tu reputación online
DOC
Wat scheelt er met koning Filip?
PDF
Insider's Guide to SXSW-i
 
PDF
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
PDF
The Breaking Bad Guide to Storytelling
PPT
Quick mockup
PPTX
MADLat 2014 keynote
PDF
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...
PDF
PDF
Leveraging social media for your marketing strategy
Петров
Detecting logged in user's abnormal activity
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Science Week 2016. New Professions Lab. "Образование в области Big Data"
Лекция №1 "Задачи Data Mining"
Data-driven маркетинг: programmatic и data mining
Asturiasnaturalezaviva 24 10 07 An
Test driven infrastructure development (2 - puppetconf 2013 edition)
Formula 1
Επενδυτικός Νόμος
10 errores a evitar en tu reputación online
Wat scheelt er met koning Filip?
Insider's Guide to SXSW-i
 
A Walk Through 4 Recent Content Campaigns PubCon Las Vegas 2014
The Breaking Bad Guide to Storytelling
Quick mockup
MADLat 2014 keynote
La fiabilidad de Google en la búsqueda de información sobre seguridad del pac...
Leveraging social media for your marketing strategy
Ad

Similar to Data Mining - lecture 1 - 2014 (20)

PPT
Современные методы анализа данных
PPSX
современные методы анализа данных для бизнеса в стиле Google(2)
PPT
Байдалина472(2)
PPTX
интелектуальный анализ экономических данных в системе каркас
PDF
Применение технологии data mining для решения задач клиентской аналитики
PDF
Мастер-класс Применение технологии data mining для решения задач клиентской а...
PPT
01ia-seminar01ia-seminar01ia-seminar.ppt
PDF
39 - Базы данных. NoSQL базы данных
PPTX
Процесс анализа данных
ODP
Введение в анализ данных
PPTX
Подготовка специалистов по анализу больших данных: все аспекты
PDF
Intro to Data Mining and Machine Learning
PPTX
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
PDF
BigData и Data Science: методы и инструменты
PDF
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
PPTX
!Predictive analyticbasics part1
PDF
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
PPTX
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
PDF
Data Science Week 2016. Sberbank
Современные методы анализа данных
современные методы анализа данных для бизнеса в стиле Google(2)
Байдалина472(2)
интелектуальный анализ экономических данных в системе каркас
Применение технологии data mining для решения задач клиентской аналитики
Мастер-класс Применение технологии data mining для решения задач клиентской а...
01ia-seminar01ia-seminar01ia-seminar.ppt
39 - Базы данных. NoSQL базы данных
Процесс анализа данных
Введение в анализ данных
Подготовка специалистов по анализу больших данных: все аспекты
Intro to Data Mining and Machine Learning
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
BigData и Data Science: методы и инструменты
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
!Predictive analyticbasics part1
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Data Science Week 2016. Sberbank

More from Andrii Gakhov (20)

PDF
Let's start GraphQL: structure, behavior, and architecture
PDF
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
PDF
Too Much Data? - Just Sample, Just Hash, ...
PDF
DNS Delegation
PPTX
Implementing a Fileserver with Nginx and Lua
PPTX
Pecha Kucha: Ukrainian Food Traditions
PDF
Probabilistic data structures. Part 4. Similarity
PDF
Probabilistic data structures. Part 3. Frequency
PDF
Probabilistic data structures. Part 2. Cardinality
PDF
Вероятностные структуры данных
PDF
Recurrent Neural Networks. Part 1: Theory
PDF
Apache Big Data Europe 2015: Selected Talks
PDF
Swagger / Quick Start Guide
PDF
API Days Berlin highlights
PDF
ELK - What's new and showcases
PDF
Apache Spark Overview @ ferret
PDF
Decision Theory - lecture 1 (introduction)
PDF
Buzzwords 2014 / Overview / part2
PDF
Buzzwords 2014 / Overview / part1
PDF
Elasticsearch
Let's start GraphQL: structure, behavior, and architecture
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Too Much Data? - Just Sample, Just Hash, ...
DNS Delegation
Implementing a Fileserver with Nginx and Lua
Pecha Kucha: Ukrainian Food Traditions
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 2. Cardinality
Вероятностные структуры данных
Recurrent Neural Networks. Part 1: Theory
Apache Big Data Europe 2015: Selected Talks
Swagger / Quick Start Guide
API Days Berlin highlights
ELK - What's new and showcases
Apache Spark Overview @ ferret
Decision Theory - lecture 1 (introduction)
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part1
Elasticsearch

Data Mining - lecture 1 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ПЛАН КУРСА • Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации
  • 4. ЧТО ТАКОЕ DATA MINING • Data mining (с англ.) - добыча данных • Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных • Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных
  • 5. ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙ ИЗ ДАННЫХ Хранилище Data mining Шаблоны данных БД файлы Знание
  • 6. ОСНОВНЫЕ ЭТАПЫ • Очистка данных удаление шумов и противоречивых данных • Интеграция данных объединение данных из различных источников данных • Выбор данных только данные, имеющие отношение к поставленной задаче • Трансформация данных представление данных в формах, удобных для анализа и аггрегаций • Data mining применение различных методов для выделение шаблонов данных • Изучение шаблонов идентификация важных шаблонов, содержащих новые знания • Презентация знаний использование визуализации и других техник представления полученных знаний
  • 7. КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ? • описательные Описательные шаблоны характеризуют свойства данных в анализируемом наборе данных • предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных
  • 8. ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов • Такое описание может быть получено: • при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах • путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных
  • 9. ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000. • Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг
  • 10. ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год). • Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.
  • 11. ЧАСТЫЕ ШАБЛОНЫ Шаблоны, которые часто встречаются в данных: • подмножества Пример: хлеб и молоко покупаются вместе • последовательности Пример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти • структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.
  • 12. ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ • Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе. • Результат: покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%] т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО. • supp(A) - относительное количество случаев, когда правило A выполняется (support) • conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)
  • 13. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных • Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”) возраст(X, “старый”) => class(X, “C”)
  • 14. ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ • Регрессионный анализ - статистическая методология, используемая для численного предсказания. • При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 15. КЛАСТЕРНЫЙ АНАЛИЗ • Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет) 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 16. ПОИСК АНОМАЛИЙ • Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers). • Пример: 100 40 1
  • 17. КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС Интересные шаблоны должны: • быть легко понимаемы для человека • быть верными и для тестовых данных с некоторой степенью достоверности (valid) • быть потенциально полезными в решении рассматриваемой задачи (useful) • нести новое знание для исследователя (novel) • давать возможность предпринимать дейсвие на основе полученного знания (actionable)
  • 18. ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ Machine Learning Data Mining Статистика Базы данных Хранилища данных Информационный поиск Приложения Распознание шаблонов Визуализация Алгоритмы HP вычисления
  • 19. СТАТИСТИКА • Статистика изучает вопросы сбора, анализа, интерпретации и презентации данных • Статистическая модель - это набор математических функций, описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения • Статистические модели могут быть результатом Data Mining • Статистические методы применяются для проверки и обоснования результатов Data Mining
  • 20. MACHINE LEARNING • Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных • Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные. • Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.
  • 21. ОСНОВНЫЕ ПРОБЛЕМЫ DATA MINING • Разработка методологий • Взаимодействие с пользователем • Эффективность и масштабируемость • Разнообразие типов данных • Data Mining и общество
  • 22. РАЗРАБОТКА МЕТОДОЛОГИЙ Исследователи, разрабатывая новые методы, учитывают следующие аспекты: • Получение новых типов знаний • Получение данных в пространствах многих измерений • Интеграция методов из многих дисциплин • Обработка зашумленных и неполных данных
  • 23. ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются: • Как взаимодействовать с системой Data Mining? • Как интегрировать предметные знания пользователей в процесс Data Mining? • Как представить и визуализировать результаты?
  • 24. ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining. • Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о масштабируемыми, чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений • Map/Reduce. Часто применяется техника разделения данных на части, каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.
  • 25. ЛИТЕРАТУРА • https://ru.wikipedia.org/wiki/Data_mining • Дюк В.А., Самойленко А.П. Data Mining. Учебный курс • Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник. • J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques