SlideShare a Scribd company logo
Разработка данных и машинное обучение
Игнатов Дмитрий Игоревич♢
«Big Data Startup Accelerator Program» – развитие компетентностей в создании
инновационных продуктов и бизнесов в сфере Больших Данных
Совместная инициатива корпорации SAP и innovationStudio MSU FE
♦
НИУ ВШЭ
Факультет компьютерных наук
Департамент анализа данных и искусственного интеллекта
14 февраля 2015
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 45
План
1 Программа курса
Практикум
2 Разработка данных и машинное обучение
О терминологии
Области применения
Таксономия методов DM&ML
Тематическая экскурсия
3 Системы ML&DM, программные средства
4 Чего бы почитать и посмотреть?
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 2 / 45
План лекции
1 Программа курса
Практикум
2 Разработка данных и машинное обучение
О терминологии
Области применения
Таксономия методов DM&ML
Тематическая экскурсия
3 Системы ML&DM, программные средства
4 Чего бы почитать и посмотреть?
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 3 / 45
Программа курса
1 Введение
2 Кластеризация
3 Классификация
4 Частые множества признаков (frequent itemsets) и ассоциативные
правила
5 Рекомендательные системы и алгоритмы
6 Мультимодальная кластеризация
7 Машины опорных векторов (SVM)
8 Ансамблевые методы кластеризации*
9 Ансамблевые методы классификации*
10 Нейронные сети и генетические алгоритмы*
11 Отобор признаков. Снижение размерности. Семплирование. Аномалии в
данных.*
12 Технологии работы с Big Data.*
13 Статистический взгляд на машинное обучение*
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 4 / 45
Практикум
Сценарий 1
Домашние задания
Сценарий 2
Проект (индивидуальный или групповой)
Сценарий 3
Домашние задания + проект (индивидуальный или групповой)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 5 / 45
План лекции
1 Программа курса
Практикум
2 Разработка данных и машинное обучение
О терминологии
Области применения
Таксономия методов DM&ML
Тематическая экскурсия
3 Системы ML&DM, программные средства
4 Чего бы почитать и посмотреть?
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 6 / 45
О терминологии. KDD и Data Mining
Knowledge discovery in Databases (KDD)
KDD is the nontrivial process of identifying valid, novel, potentially useful, and
ultimately understandable patterns in data.
Fayyad, Piatetsky-Shapiro, and Smyth 1996
Data Mining
Data mining is a step in the KDD process that consists of applying data analysis
and discovery algorithms that produce a particular enumeration of patterns (or
models) over the data.
Там же
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 7 / 45
О терминологии. KDD и Data Mining
Схема процесса обнаружения знаний в данных
(Fayyad, Piatetsky-Shapiro, and Smyth 1996)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 8 / 45
О терминологии. KDD и Data Mining
[J. Han et al., Data Mining. Concepts and Techniques, 3rd Ed., 2012]
1 Data cleaning
2 Data integration
3 Data selection
4 Data transformation
5 Data mining (an essential process where intelligent methods are applied to
extract data patterns)
6 Pattern evaluation
7 Knowledge presentation
Data Mining
Data mining is the process of discovering interesting patterns and knowledge from
large amounts of data.
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 9 / 45
О терминологии. Машинное обучение
[T. Mitchell. The Discipline of Machine Learning,2006]
Основной вопрос в машинном обучении
How can we build computer systems that automatically improve with experience,
and what are the fundamental laws that govern all learning processes?
Более точно
To be more precise, we say that a machine learns with respect to a particular task
T, performance metric P, and type of experience E, if the system reliably improves
its performance P at task T, following experience E. Depending on how we
specify T, P, and E, the learning task might also be called by names such as data
mining, autonomous discovery, database updating, programming by example, etc.
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 10 / 45
О межпредметных связях
Гипотеза
Data Mining
?
= Machine Learning
Связанные дисциплины
Computer Science (Информатика)
Artificial Intelligence (Искусственный интеллект)
Pattern Recognition (Распознавание образов)
Information Retrieval (Информационный поиск)
Social Network Analysis (Анализ социальных сетей)
Теория вероятностей и математическая статистика
Дискретная математика (в т.ч. порядки и графы)
Optimization (Методы оптимизации)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 11 / 45
Области применения DM&ML
Области применения
Бизнес
Медицина
Образование
Науки о жизни
Интернет-данные
Банковское дело и финансы
...
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 12 / 45
Тренды в областях применения DM&ML
[J. Han et al., 2012]
Application exploration: e.g., counter-terrorism and mobile (wireless) data
mining
Scalable and interactive data mining methods
Integration of data mining with search engines, database systems, data
warehouse systems, and cloud computing systems
Mining social and information networks
Mining spatiotemporal, moving-objects, and cyber-physical system
Mining multimedia, text, and web data
Mining biological and biomedical data
Data mining with software engineering and system engineering
Visual and audio data mining
Distributed data mining and real-time data stream mining
Privacy protection and information security in data mining
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 13 / 45
Таксономия методов DM&ML
Машинное
обучение и
разработка
данных
Кластеризация Классификация
Обучение без
учителя
Обучение с
учителем
Ранжирование Регрессия
Поиск
«интересных»
паттернов
Отбор
признаков
Обнаружение
аномалий
Снижение
размерности
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 14 / 45
Кластеризация
Постановка задачи
Найти разбиение исходного множества объектов на группы (кластеры).
Объекты внутри одного кластера обладают высоким сходством.
Объекты из разных кластеров сильно различаются.
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 15 / 45
Кластеризация
Методы кластеризации
Метод k-средних
Иерархическая кластеризация (агломеративный и дивизимный подходы)
Спектральная кластеризация
Мультимодальная кластеризация: бикластеризация и трикластеризация.
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 16 / 45
Кластеризация
Метод k-средних
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 17 / 45
Классификация
Постановка задачи
По описанию объектов некоторого множества с известными метками
классов определить класс объектов той же природы (в том же
признаковом пространстве) с неизвестными метками.
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 18 / 45
Классификация
Деревья решений в оценке кредитного риска
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 19 / 45
Классификация
Методы классификации
Алгоритм 1-Rule
kNN классификатор (k ближайших соседей)
Наивный баейсовский классификатор (Na¨ıve Bayes сlassifier)
Деревья решений (decision trees)
Машины опорных векторов (Support Vector Machines (SVM))
ДСМ-метод (в честь Джона Стюарта Милля)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 20 / 45
Классификация
Машины опорных векторов (SVM)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 21 / 45
Регрессия
Линейная парная и множественная регрессия (Эконометрика и
математическая статистика)
Лассо-регуляризация. Логистическая регрессия как метод
классификации. (Этот курс)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 22 / 45
Поиск паттернов/зависимостей
Постановка задачи
Поиск закономерностей в данных об использовании каких-либо ресурсов.
Например, часто используемых вместе ресурсов.
Пример. support({хлеб, молоко}) = 0.7
Часто такие закономерности записываются в виде правил A −→ B
Пример. {Студент, Возраст от 16 до 25} −→ {iPhone, iPad}
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 23 / 45
Поиск паттернов/зависимостей
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 24 / 45
Ранжирование
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 25 / 45
Рекомендательные системы
http://Amazon.com
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 26 / 45
Рекомендательные системы
http://Imhonet.ru
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 27 / 45
Обучение предпочтениям
http://www.preference-learning.org/
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 28 / 45
Big Data
Технология MapReduce
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 29 / 45
Big Data
Технология MapReduce
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 30 / 45
Big Data
Проект Apache Mahout
Что такое Apache Mahout?
Apache MahoutTM
– библиотека масштабируемых методов машинного
обучения в основном по технологии MapReduce.
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 31 / 45
План лекции
1 Программа курса
Практикум
2 Разработка данных и машинное обучение
О терминологии
Области применения
Таксономия методов DM&ML
Тематическая экскурсия
3 Системы ML&DM, программные средства
4 Чего бы почитать и посмотреть?
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 32 / 45
Системы машинного обучения и анализа данных
1 Orange (freely available)
2 Weka (freely available)
3 Knime (community edition for free)
4 RapidMiner (community edition for free)
5 Deductor (бесплатная версия для обучения)
6 QuDA (freely available)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 33 / 45
Библиотеки машинного обучения и анализа данных
1 scikit-learn (freely available Machine Learning in Python)
2 MALLET –– MAchine Learning for LanguagE Toolkit (freely available)
3 Accord.NET Framework (.NET machine learning framework combined with
audio and image processing libraries completely written in C#)
4 Infer.NET (framework for running Bayesian inference in graphical models)
5 R (free software environment for statistical computing and graphics+many
packages for ML&DM)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 34 / 45
Стандарты в ML&DM
http://www.dmg.org
PMML
Язык разметки для прогнозного моделирования (Predictive Model Markup
Language — PMML) разработан Data Mining Group (DMG) на основе XML,
обеспечивает приложениям способ определения моделей машинного
обучения и Data Mining, а также обмен такими моделями между
PMML-совместимыми приложениями.
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 35 / 45
План лекции
1 Программа курса
Практикум
2 Разработка данных и машинное обучение
О терминологии
Области применения
Таксономия методов DM&ML
Тематическая экскурсия
3 Системы ML&DM, программные средства
4 Чего бы почитать и посмотреть?
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 36 / 45
Книги
P. Flach Machine Learning: The Art and Science of Algorithms that Make
Sense of Data, 2012
M. Zaki et al. Data Mining and Analysis: Fundamental Concepts and
Algorithms, 2014 (free)
J. Leskovec et al. Mining of Massive Datasets, 2014 (free)
C.M. Bishop Pattern Recognition and Machine Learning, 2006
D. Barber Bayesian Reasoning and Machine Learning, 2012 (free)
K.P. Murphy Machine Learning: a Probabilistic Perspective, 2012
T. Hastie et al. Elements of Statistical Learning, 2009 (free)
G. James et al. An Introduction to Statistical Learning with Applications in
R, 2013 (free)
J. Han et al. Data Mining. Concepts and Techniques, 2012
Т. Митчелл Machine Learning, 1997
Т. Сегаран Программируем коллективный разум, 2007 (на английском)
Барсегян А. и др. Анализ данных и процессов, 2009
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 37 / 45
Портал machinelearning.ru
http://machinelearning.ru
Лекции К.В. Воронцова. Математические методы обучения по
прецедентам (машинное обучение)
Лекции Д.П. Ветрова, Д.А. Кропотова Байесовские методы машинного
обучения, 2014
Учебник А.Г. Дьяконова. Анализ данных, обучение по прецедентам,
логические игры, системы WEKA, RapidMiner и MatLab, 2010
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 38 / 45
Лекции и книга С. Николенко
http://logic.pdmi.ras.ru/~sergey/
Игрок Что?Где?Когда?
С.Николенко, А. Тулупьев. Самообучающиеся системы 2009
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 39 / 45
Coursera: курсы и специализации
http://www.coursera.org/
Andrew Ng. Machine Learning (current)
Geoffrey Hinton. Neural Networks for Machine Learning (2012)
Jiawei Han Pattern Discovery in Data Mining (current)
Jure Leskovec et al. Mining Massive Datasets (current)
Специализации (платные сертификаты) –– состоят из отдельных курсов
(участие бесплатно)
Data Mining (current)
Data Science (current)
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 40 / 45
ИНТУИТ
http://intuit.ru
Интернет-университет информационных технологий
К.В. Воронцов Машинное обучение, 2015 (Видео к курсу на сайте ШАД)
И.А. Чубукова. Data Mining, 2006
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 41 / 45
Сообщество
IMLS – The International Machine Learning Society
Kaggle – платформа для соревнований по анализу данных
KDD Nuggets – Data Mining Community Top Resource
Open ML – Machine Learning community portal
UCI Machine Learning Repository – Репозиторий данных
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 42 / 45
Конференции
ICML – International Conference on Machine Learning
IEEE ICDM – IEEE International Conference on Data Mining
KDD – ACM SIGKDD Conference on Knowledge Discovery and Data Mining
ECML & PKDD – European Conference on Machine Learning and Principles
and Practice of Knowledge Discovery in Databases
NIPS – Neural Information Processing Systems
RecSys – The ACM conference series on Recommender Systems
ИОИ & ММРО – Серия конференций «Интеллектуализация обработки
информации»/«Математические методы распознавания образов»
АИСТ – International conference on Analysis of Images, Social Networks,
and Texts
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 43 / 45
Just for fun или шутки ради
http://dilbert.com
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 44 / 45
Вопросы и контакты
www.hse.ru/staff/dima
Спасибо!
dmitii.ignatov[at]gmail.com
(SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 45 / 45

More Related Content

DOCX
Competition
PDF
On the Family of Concept Forming Operators in Polyadic FCA
PDF
Experimental Economics and Machine Learning workshop
PDF
Putting OAC-triclustering on MapReduce
PPTX
AIST 2016 Opening Slides
PDF
Введение в рекомендательные системы. 3 case-study без NetFlix.
PDF
A One-Pass Triclustering Approach: Is There any Room for Big Data?
PDF
A lattice-based consensus clustering
Competition
On the Family of Concept Forming Operators in Polyadic FCA
Experimental Economics and Machine Learning workshop
Putting OAC-triclustering on MapReduce
AIST 2016 Opening Slides
Введение в рекомендательные системы. 3 case-study без NetFlix.
A One-Pass Triclustering Approach: Is There any Room for Big Data?
A lattice-based consensus clustering

Viewers also liked (14)

PDF
A lattice-based consensus clustering
PPTX
Boolean matrix factorisation for collaborative filtering
PPTX
NIPS 2016, Tensor-Learn@NIPS, and IEEE ICDM 2016
PDF
Pattern-based classification of demographic sequences
PDF
Sequence mining
PDF
Поиск частых множеств признаков (товаров) и ассоциативные правила
PDF
Context-Aware Recommender System Based on Boolean Matrix Factorisation
PDF
20111202 machine learning_nikolenko_lecture01
PPTX
RAPS: A Recommender Algorithm Based on Pattern Structures
PDF
Pattern Mining and Machine Learning for Demographic Sequences
PPTX
Online Recommender System for Radio Station Hosting: Experimental Results Rev...
PDF
Searching for optimal patterns in Boolean tensors
PPTX
Machine Learning and Azure Machine Learning
PPTX
Три поколения e-learning
A lattice-based consensus clustering
Boolean matrix factorisation for collaborative filtering
NIPS 2016, Tensor-Learn@NIPS, and IEEE ICDM 2016
Pattern-based classification of demographic sequences
Sequence mining
Поиск частых множеств признаков (товаров) и ассоциативные правила
Context-Aware Recommender System Based on Boolean Matrix Factorisation
20111202 machine learning_nikolenko_lecture01
RAPS: A Recommender Algorithm Based on Pattern Structures
Pattern Mining and Machine Learning for Demographic Sequences
Online Recommender System for Radio Station Hosting: Experimental Results Rev...
Searching for optimal patterns in Boolean tensors
Machine Learning and Azure Machine Learning
Три поколения e-learning
Ad

Similar to Intro to Data Mining and Machine Learning (20)

PDF
Introduction to Data Science
PDF
Введение в машинное обучение
PDF
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
PDF
Data mining
PPTX
Обучаем машины для службы людям - прикладное машинное обучение и интеллектуал...
PDF
BigData и Data Science: методы и инструменты
PDF
#АналитикаРешает - обзорная лекция про аналитику
PPT
Петрова Ксения - Data mining на практике - dmlabs.org
PPT
Байдалина472(2)
PDF
Data Mining - lecture 1 - 2014
PPTX
Машинное обучение в электронной коммерции — практика использования и подводны...
PDF
Alexander Serbul ITEM 2018
PDF
Лекция №1 "Задачи Data Mining"
PPTX
Подготовка специалистов по анализу больших данных: все аспекты
PPTX
Машинное обучение для интеллектуализации ваших приложений
PPTX
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
PPTX
2015 голограмма коллектива
PPTX
4 azure 24 04
PPTX
2015 06-16 круглый стол компетенции по большим данным
PDF
Машинное обучение в электронной коммерции - практика использования и подводны...
Introduction to Data Science
Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Data mining
Обучаем машины для службы людям - прикладное машинное обучение и интеллектуал...
BigData и Data Science: методы и инструменты
#АналитикаРешает - обзорная лекция про аналитику
Петрова Ксения - Data mining на практике - dmlabs.org
Байдалина472(2)
Data Mining - lecture 1 - 2014
Машинное обучение в электронной коммерции — практика использования и подводны...
Alexander Serbul ITEM 2018
Лекция №1 "Задачи Data Mining"
Подготовка специалистов по анализу больших данных: все аспекты
Машинное обучение для интеллектуализации ваших приложений
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
2015 голограмма коллектива
4 azure 24 04
2015 06-16 круглый стол компетенции по большим данным
Машинное обучение в электронной коммерции - практика использования и подводны...
Ad

More from Dmitrii Ignatov (11)

PDF
Interpretable Concept-Based Classification with Shapley Values
PPTX
AIST2019 – opening slides
PDF
Turning Krimp into a Triclustering Technique on Sets of Attribute-Condition P...
PDF
Personal Experiences of Publishing with Springer from both Editor and Author ...
PPTX
Aist2014
PDF
Social Learning in Networks: Extraction Deterministic Rules
PPTX
Orpailleur -- triclustering talk
PDF
CoClus ICDM Workshop talk
PPTX
Pseudo-triclustering
PPTX
Radio recommender system for FMHost
PDF
CrowDM system
Interpretable Concept-Based Classification with Shapley Values
AIST2019 – opening slides
Turning Krimp into a Triclustering Technique on Sets of Attribute-Condition P...
Personal Experiences of Publishing with Springer from both Editor and Author ...
Aist2014
Social Learning in Networks: Extraction Deterministic Rules
Orpailleur -- triclustering talk
CoClus ICDM Workshop talk
Pseudo-triclustering
Radio recommender system for FMHost
CrowDM system

Intro to Data Mining and Machine Learning

  • 1. Разработка данных и машинное обучение Игнатов Дмитрий Игоревич♢ «Big Data Startup Accelerator Program» – развитие компетентностей в создании инновационных продуктов и бизнесов в сфере Больших Данных Совместная инициатива корпорации SAP и innovationStudio MSU FE ♦ НИУ ВШЭ Факультет компьютерных наук Департамент анализа данных и искусственного интеллекта 14 февраля 2015 (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 1 / 45
  • 2. План 1 Программа курса Практикум 2 Разработка данных и машинное обучение О терминологии Области применения Таксономия методов DM&ML Тематическая экскурсия 3 Системы ML&DM, программные средства 4 Чего бы почитать и посмотреть? (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 2 / 45
  • 3. План лекции 1 Программа курса Практикум 2 Разработка данных и машинное обучение О терминологии Области применения Таксономия методов DM&ML Тематическая экскурсия 3 Системы ML&DM, программные средства 4 Чего бы почитать и посмотреть? (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 3 / 45
  • 4. Программа курса 1 Введение 2 Кластеризация 3 Классификация 4 Частые множества признаков (frequent itemsets) и ассоциативные правила 5 Рекомендательные системы и алгоритмы 6 Мультимодальная кластеризация 7 Машины опорных векторов (SVM) 8 Ансамблевые методы кластеризации* 9 Ансамблевые методы классификации* 10 Нейронные сети и генетические алгоритмы* 11 Отобор признаков. Снижение размерности. Семплирование. Аномалии в данных.* 12 Технологии работы с Big Data.* 13 Статистический взгляд на машинное обучение* (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 4 / 45
  • 5. Практикум Сценарий 1 Домашние задания Сценарий 2 Проект (индивидуальный или групповой) Сценарий 3 Домашние задания + проект (индивидуальный или групповой) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 5 / 45
  • 6. План лекции 1 Программа курса Практикум 2 Разработка данных и машинное обучение О терминологии Области применения Таксономия методов DM&ML Тематическая экскурсия 3 Системы ML&DM, программные средства 4 Чего бы почитать и посмотреть? (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 6 / 45
  • 7. О терминологии. KDD и Data Mining Knowledge discovery in Databases (KDD) KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. Fayyad, Piatetsky-Shapiro, and Smyth 1996 Data Mining Data mining is a step in the KDD process that consists of applying data analysis and discovery algorithms that produce a particular enumeration of patterns (or models) over the data. Там же (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 7 / 45
  • 8. О терминологии. KDD и Data Mining Схема процесса обнаружения знаний в данных (Fayyad, Piatetsky-Shapiro, and Smyth 1996) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 8 / 45
  • 9. О терминологии. KDD и Data Mining [J. Han et al., Data Mining. Concepts and Techniques, 3rd Ed., 2012] 1 Data cleaning 2 Data integration 3 Data selection 4 Data transformation 5 Data mining (an essential process where intelligent methods are applied to extract data patterns) 6 Pattern evaluation 7 Knowledge presentation Data Mining Data mining is the process of discovering interesting patterns and knowledge from large amounts of data. (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 9 / 45
  • 10. О терминологии. Машинное обучение [T. Mitchell. The Discipline of Machine Learning,2006] Основной вопрос в машинном обучении How can we build computer systems that automatically improve with experience, and what are the fundamental laws that govern all learning processes? Более точно To be more precise, we say that a machine learns with respect to a particular task T, performance metric P, and type of experience E, if the system reliably improves its performance P at task T, following experience E. Depending on how we specify T, P, and E, the learning task might also be called by names such as data mining, autonomous discovery, database updating, programming by example, etc. (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 10 / 45
  • 11. О межпредметных связях Гипотеза Data Mining ? = Machine Learning Связанные дисциплины Computer Science (Информатика) Artificial Intelligence (Искусственный интеллект) Pattern Recognition (Распознавание образов) Information Retrieval (Информационный поиск) Social Network Analysis (Анализ социальных сетей) Теория вероятностей и математическая статистика Дискретная математика (в т.ч. порядки и графы) Optimization (Методы оптимизации) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 11 / 45
  • 12. Области применения DM&ML Области применения Бизнес Медицина Образование Науки о жизни Интернет-данные Банковское дело и финансы ... (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 12 / 45
  • 13. Тренды в областях применения DM&ML [J. Han et al., 2012] Application exploration: e.g., counter-terrorism and mobile (wireless) data mining Scalable and interactive data mining methods Integration of data mining with search engines, database systems, data warehouse systems, and cloud computing systems Mining social and information networks Mining spatiotemporal, moving-objects, and cyber-physical system Mining multimedia, text, and web data Mining biological and biomedical data Data mining with software engineering and system engineering Visual and audio data mining Distributed data mining and real-time data stream mining Privacy protection and information security in data mining (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 13 / 45
  • 14. Таксономия методов DM&ML Машинное обучение и разработка данных Кластеризация Классификация Обучение без учителя Обучение с учителем Ранжирование Регрессия Поиск «интересных» паттернов Отбор признаков Обнаружение аномалий Снижение размерности (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 14 / 45
  • 15. Кластеризация Постановка задачи Найти разбиение исходного множества объектов на группы (кластеры). Объекты внутри одного кластера обладают высоким сходством. Объекты из разных кластеров сильно различаются. (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 15 / 45
  • 16. Кластеризация Методы кластеризации Метод k-средних Иерархическая кластеризация (агломеративный и дивизимный подходы) Спектральная кластеризация Мультимодальная кластеризация: бикластеризация и трикластеризация. (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 16 / 45
  • 17. Кластеризация Метод k-средних (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 17 / 45
  • 18. Классификация Постановка задачи По описанию объектов некоторого множества с известными метками классов определить класс объектов той же природы (в том же признаковом пространстве) с неизвестными метками. (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 18 / 45
  • 19. Классификация Деревья решений в оценке кредитного риска (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 19 / 45
  • 20. Классификация Методы классификации Алгоритм 1-Rule kNN классификатор (k ближайших соседей) Наивный баейсовский классификатор (Na¨ıve Bayes сlassifier) Деревья решений (decision trees) Машины опорных векторов (Support Vector Machines (SVM)) ДСМ-метод (в честь Джона Стюарта Милля) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 20 / 45
  • 21. Классификация Машины опорных векторов (SVM) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 21 / 45
  • 22. Регрессия Линейная парная и множественная регрессия (Эконометрика и математическая статистика) Лассо-регуляризация. Логистическая регрессия как метод классификации. (Этот курс) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 22 / 45
  • 23. Поиск паттернов/зависимостей Постановка задачи Поиск закономерностей в данных об использовании каких-либо ресурсов. Например, часто используемых вместе ресурсов. Пример. support({хлеб, молоко}) = 0.7 Часто такие закономерности записываются в виде правил A −→ B Пример. {Студент, Возраст от 16 до 25} −→ {iPhone, iPad} (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 23 / 45
  • 24. Поиск паттернов/зависимостей (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 24 / 45
  • 25. Ранжирование (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 25 / 45
  • 26. Рекомендательные системы http://Amazon.com (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 26 / 45
  • 27. Рекомендательные системы http://Imhonet.ru (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 27 / 45
  • 28. Обучение предпочтениям http://www.preference-learning.org/ (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 28 / 45
  • 29. Big Data Технология MapReduce (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 29 / 45
  • 30. Big Data Технология MapReduce (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 30 / 45
  • 31. Big Data Проект Apache Mahout Что такое Apache Mahout? Apache MahoutTM – библиотека масштабируемых методов машинного обучения в основном по технологии MapReduce. (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 31 / 45
  • 32. План лекции 1 Программа курса Практикум 2 Разработка данных и машинное обучение О терминологии Области применения Таксономия методов DM&ML Тематическая экскурсия 3 Системы ML&DM, программные средства 4 Чего бы почитать и посмотреть? (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 32 / 45
  • 33. Системы машинного обучения и анализа данных 1 Orange (freely available) 2 Weka (freely available) 3 Knime (community edition for free) 4 RapidMiner (community edition for free) 5 Deductor (бесплатная версия для обучения) 6 QuDA (freely available) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 33 / 45
  • 34. Библиотеки машинного обучения и анализа данных 1 scikit-learn (freely available Machine Learning in Python) 2 MALLET –– MAchine Learning for LanguagE Toolkit (freely available) 3 Accord.NET Framework (.NET machine learning framework combined with audio and image processing libraries completely written in C#) 4 Infer.NET (framework for running Bayesian inference in graphical models) 5 R (free software environment for statistical computing and graphics+many packages for ML&DM) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 34 / 45
  • 35. Стандарты в ML&DM http://www.dmg.org PMML Язык разметки для прогнозного моделирования (Predictive Model Markup Language — PMML) разработан Data Mining Group (DMG) на основе XML, обеспечивает приложениям способ определения моделей машинного обучения и Data Mining, а также обмен такими моделями между PMML-совместимыми приложениями. (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 35 / 45
  • 36. План лекции 1 Программа курса Практикум 2 Разработка данных и машинное обучение О терминологии Области применения Таксономия методов DM&ML Тематическая экскурсия 3 Системы ML&DM, программные средства 4 Чего бы почитать и посмотреть? (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 36 / 45
  • 37. Книги P. Flach Machine Learning: The Art and Science of Algorithms that Make Sense of Data, 2012 M. Zaki et al. Data Mining and Analysis: Fundamental Concepts and Algorithms, 2014 (free) J. Leskovec et al. Mining of Massive Datasets, 2014 (free) C.M. Bishop Pattern Recognition and Machine Learning, 2006 D. Barber Bayesian Reasoning and Machine Learning, 2012 (free) K.P. Murphy Machine Learning: a Probabilistic Perspective, 2012 T. Hastie et al. Elements of Statistical Learning, 2009 (free) G. James et al. An Introduction to Statistical Learning with Applications in R, 2013 (free) J. Han et al. Data Mining. Concepts and Techniques, 2012 Т. Митчелл Machine Learning, 1997 Т. Сегаран Программируем коллективный разум, 2007 (на английском) Барсегян А. и др. Анализ данных и процессов, 2009 (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 37 / 45
  • 38. Портал machinelearning.ru http://machinelearning.ru Лекции К.В. Воронцова. Математические методы обучения по прецедентам (машинное обучение) Лекции Д.П. Ветрова, Д.А. Кропотова Байесовские методы машинного обучения, 2014 Учебник А.Г. Дьяконова. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab, 2010 (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 38 / 45
  • 39. Лекции и книга С. Николенко http://logic.pdmi.ras.ru/~sergey/ Игрок Что?Где?Когда? С.Николенко, А. Тулупьев. Самообучающиеся системы 2009 (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 39 / 45
  • 40. Coursera: курсы и специализации http://www.coursera.org/ Andrew Ng. Machine Learning (current) Geoffrey Hinton. Neural Networks for Machine Learning (2012) Jiawei Han Pattern Discovery in Data Mining (current) Jure Leskovec et al. Mining Massive Datasets (current) Специализации (платные сертификаты) –– состоят из отдельных курсов (участие бесплатно) Data Mining (current) Data Science (current) (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 40 / 45
  • 41. ИНТУИТ http://intuit.ru Интернет-университет информационных технологий К.В. Воронцов Машинное обучение, 2015 (Видео к курсу на сайте ШАД) И.А. Чубукова. Data Mining, 2006 (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 41 / 45
  • 42. Сообщество IMLS – The International Machine Learning Society Kaggle – платформа для соревнований по анализу данных KDD Nuggets – Data Mining Community Top Resource Open ML – Machine Learning community portal UCI Machine Learning Repository – Репозиторий данных (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 42 / 45
  • 43. Конференции ICML – International Conference on Machine Learning IEEE ICDM – IEEE International Conference on Data Mining KDD – ACM SIGKDD Conference on Knowledge Discovery and Data Mining ECML & PKDD – European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases NIPS – Neural Information Processing Systems RecSys – The ACM conference series on Recommender Systems ИОИ & ММРО – Серия конференций «Интеллектуализация обработки информации»/«Математические методы распознавания образов» АИСТ – International conference on Analysis of Images, Social Networks, and Texts (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 43 / 45
  • 44. Just for fun или шутки ради http://dilbert.com (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 44 / 45
  • 45. Вопросы и контакты www.hse.ru/staff/dima Спасибо! dmitii.ignatov[at]gmail.com (SAP & innovationStudio MSU FE) Big Data Startup Accelerator Program 14.02.2015 45 / 45