SlideShare a Scribd company logo
Практическое применение 
Data Mining-технологий 
Гринчук Александр 
ООО «Нанотех» 
ИБМТ БГУ
Текущее состояние дел 
 Точно знаем надо 
 Примерно знаем почему 
 Плохо знаем как 
2
Национальные особенности 
 Банки – в аутсайдерах 
 Лидеры: телеком и игровая индустрия 
 Торговые сети: сдержанный интерес 
3
Данные 
 Собираются не для анализа 
 Собираются не всегда, когда можно 
 Собираются некачественно 
4
Проблемы 
 Малая выборка 
 Несоблюдение чистоты 
 Недооценка динамики 
 Недоверие к первым результатам 
5
«Малые» данные 
 Много для статистики 
 Мало для автоматизации 
 Пример: прогнозирование 
6
«Ручное» прогнозирование 
 Много для статистики 
 Мало для DataMining 
7
«Ручное» прогнозирование 
 Много для статистики 
 Мало для DataMining 
8
«Ручное» прогнозирование 
 Стратегия: 
 выявить шаблоны «вручную» 
 применить автоматически 
9
Несоблюдение чистоты 
 Сложность выявления 
 Сложность обработки 
 Последствия серьезнее, чем кажутся на 
первый взгляд 
10
Примеры (реальные случаи) 
 ошибки при вводе марки автомобиля: 14 (!) 
вариантов написания марки “Mercedes”. DEU 
указано вместо DAEWOO в 6-ти анкетах, все 
заемщики рассчитались с кредитом. Ошибочный 
вывод: наличие автомобиля марки DEU 
свидетельствует о высокой надежности клиента; 
 указана область проживания как БРЕСЦКАЯ (4 случая 
– все «плохие»). На практике выяснилось, что 
значимость региона не столь высока; 
 количество не столь очевидных примеров велико. 
Доля строк хотя бы с одной ошибкой, опечаткой или 
пропуском может достигать 70%. 
11
Сравним 
 Между прочим: алгоритмы 
разрабатывались для первой ситуации! 
Требования теории Банковская практика 
Образцы для исследования берутся 
в одинаковых условиях 
12 
Клиенты приходят в разное время и 
их качественный состав меняется 
Измерения производятся точно, 
результаты тщательно 
регистрируются 
Работают люди: ошибаются, 
пропускают, путают 
Отбираются образцы в пропорциях, 
отражающих реальное положение 
дел 
Есть сведения только о клиентах, 
получивших одобрение на выдачу 
кредита
Способ решения 
 Предобработка данных 
 Модификация алгоритмов 
13
Пример: квантование 
14
Недооценка динамики 
 Банки: старение кредитов 
 Отток: смешивание групп 
 Причина: из-за недостатка данных 
объединяются наблюдения за 
относительно большой промежуток 
времени 
15
Эффект старения 
 Ложное ощущение опасности, из-за роста 
доли «старых» 
16 
8% 
7% 
6% 
5% 
4% 
3% 
2% 
1% 
0% 
янв.10 
фев.10 
мар.10 
апр.10 
0 2 4 6 8 10 12 14 16
Отток клиентов 
 Три группы, не одна 
 Остались «упрямые», а не улучшилась 
ситуация 
0.7 
0.6 
0.5 
0.4 
0.3 
0.2 
17 
1 2 3 4 5 
0.1 
0 2 4 6 8 10 
0.5 
0.4 
0.3 
0.2 
0.1
Недоверие к результатам 
 Требование «обзорности» 
 Требование «привычности» 
 Результат должен «выражаться в денежных 
единицах» 
18
Ошибки 
 Заранее задаются: 
 вид результата 
 ограничения по набору данных 
 Ошибки бывают в разные стороны 
19
Пример: успеваемость 
 Факторный анализ: 2 фактора 
 Прогноз = Коэффициент0 
+Коэффициент1 × Фактор1 
+ Коэффициент2 × Фактор2 
№ Фамилия МЕНЕДЖ МАТЕМ_1 ОСЕ ЭКОН_1 ИТ МАТЕМ_2 БУХУЧЕТ ЭКОН_2 
77 … 7 2 6 4 7 6 6 7 
78 … 8 4 7 4 5 6 7 7 
79 … 6 6 7 3 5 4 7 7 
80 … 7 9 7 7 8 8 9 9 
81 … 10 5 5 7 8 9 8 8 
82 … 6 4 5 4 6 4 6 6 
83 … 7 8 6 7 8 7 10 8 
84 … 9 4 8 7 8 4 8 8 
85 … 9 10 9 9 9 9 9 9 
86 … 4 2 4 2 4 2 5 5 
20 
Входные поля Корреляция с выходными полями 
№ Поле Фактор 1 Фактор 2 
1 МЕНЕДЖ 0,842 0,083 
2 МАТЕМ_1 0,881 0,249 
3 ОСЕ 0,804 0,396 
4 ЭКОН_1 0,951 -0,172 
5 ИТ 0,784 -0,536 
6 МАТЕМ_2 0,901 -0,185 
7 БУХУЧЕТ 0,846 0,058 
8 ЭКОН_2 0,92 0,101
Отслеживание динамики 
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 
21 
2 
1,5 
1 
0,5 
0 
-0,5 
-1 
-1,5 
-2 
-2,5 
-3
Игнорирование известного 
 Результаты отличаются от соседей и 
аналогичных организаций? 
 Причина ошибка или особенности? 
 Пример: продажи мобильных телефонов, 
особенности для категории «Образование 
среднее специальное» 
22
Доведение до результата 
23
Ограничения по алгоритмам 
 Интерпретируемые 
 Проверяемые 
 Необходимость взаимопроверки 
24
Пример: деревья решений 
25
Пример: карты Кохонена 
26
Взаимная подстраховка 
27
Кластеризация и деревья решений 
28
«Госзаказ» 
 Тестирование 
 Складские задачи 
29
Тестирование 
 Применение ассоциативного анализа 
30
Платформа 
 Требования 
 Гибкость в работе 
 Удобство вместо наворотов 
 Возможность маневра 
31
Алгоритмы 
 Дерево решений 
 Логистическая регрессия 
 Самоорганизующиеся сети 
 Apriory 
 Линейная регрессия 
 Возможности комбинирования 
32
Варианты ПО 
 Deductor Studio 
 RExcel 
33
Deductor 
 Простота в освоении и «промышленная 
мощность» 
34
RExcel 
 Привычный интерфейс и алгоритмы R 
35
Заключение 
 Часто наблюдается: недостаток данных и их 
неготовность к непосредственному анализу 
 В такой ситуации предпочтительнее 
использование комбинации простых и 
прозрачных алгоритмов вместо разработки 
и применения сложных 
 Поэтому удобное ПО хотя бы с 
минимальным «джентельменским 
набором» лучше неудобных «комбайнов» 
36

More Related Content

PPT
Петрова Ксения - Data mining на практике - dmlabs.org
PDF
HR-аналитика - проверка гипотез
PDF
R for data analysis
PDF
Intro to Forecasting in R - Part 4
PPTX
10 Critical Mistakes in Data Analysis
PDF
Dsml for business.full version
PPTX
2013 Разработка программно-математического комплекса поддержки скоринга востр...
PPTX
Большие данные: как могут навредить и ка могут помочь?
Петрова Ксения - Data mining на практике - dmlabs.org
HR-аналитика - проверка гипотез
R for data analysis
Intro to Forecasting in R - Part 4
10 Critical Mistakes in Data Analysis
Dsml for business.full version
2013 Разработка программно-математического комплекса поддержки скоринга востр...
Большие данные: как могут навредить и ка могут помочь?

Similar to Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ (20)

PPTX
Автоматизация подбора: оценка кандидатов с использованием методов машинного о...
PPT
Не все метрики одинаково полезны
PPTX
Антология антифрода: переход к математическим моделям с применением элементов...
PDF
Евгений Линник. БКС. GIGO — секреты очистки данных
PPTX
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
PDF
Перечитывая Лео Бреймана
PDF
Machine Learning for Recruitment
PDF
Collaboration - результати опитування та контекст АППАУ
PDF
QUESTions - how to get clear answers to the difficult questions about project...
PDF
Predictive models for Operational analytics
PPTX
Debunking Risk Management in Software (RUS)
PPTX
PDF
Lies, deception, and manipulation. How the same data can tell completely diff...
PDF
Искусственный интеллект в кредитном скоринге
PDF
Кейсы машинного обучения в Сбербанке
PDF
12 vzor
PDF
Юзабилити ДБО исследования
PDF
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
PDF
Bacon.2018.it pro network.ba for dsml
Автоматизация подбора: оценка кандидатов с использованием методов машинного о...
Не все метрики одинаково полезны
Антология антифрода: переход к математическим моделям с применением элементов...
Евгений Линник. БКС. GIGO — секреты очистки данных
Георгий Терновский (K50) для конференции Оборот-2013 "Назначение ставок в кон...
Перечитывая Лео Бреймана
Machine Learning for Recruitment
Collaboration - результати опитування та контекст АППАУ
QUESTions - how to get clear answers to the difficult questions about project...
Predictive models for Operational analytics
Debunking Risk Management in Software (RUS)
Lies, deception, and manipulation. How the same data can tell completely diff...
Искусственный интеллект в кредитном скоринге
Кейсы машинного обучения в Сбербанке
12 vzor
Юзабилити ДБО исследования
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
Bacon.2018.it pro network.ba for dsml
Ad

More from WG_ Events (20)

PPTX
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
PPTX
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
PPTX
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
PPTX
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
PPTX
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
PPTX
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
PPTX
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
PDF
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
PPTX
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
PDF
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
PPTX
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
PPTX
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
PPT
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
PPTX
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
PPTX
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
PPTX
Алексей Алексеев ”Blitz-доклад”/ Wargaming
PDF
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
PPTX
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
PDF
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
PPTX
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargaming
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Алексей Алексеев ”Blitz-доклад”/ Wargaming
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Юркевич Алексей и Мякишев Иван - Компромиссы в Data mining - wargaming
Ad

Гринчук Александр - Практическое применение Data mining технологий-ооо «нанотех»ибмт - БГУ

  • 1. Практическое применение Data Mining-технологий Гринчук Александр ООО «Нанотех» ИБМТ БГУ
  • 2. Текущее состояние дел  Точно знаем надо  Примерно знаем почему  Плохо знаем как 2
  • 3. Национальные особенности  Банки – в аутсайдерах  Лидеры: телеком и игровая индустрия  Торговые сети: сдержанный интерес 3
  • 4. Данные  Собираются не для анализа  Собираются не всегда, когда можно  Собираются некачественно 4
  • 5. Проблемы  Малая выборка  Несоблюдение чистоты  Недооценка динамики  Недоверие к первым результатам 5
  • 6. «Малые» данные  Много для статистики  Мало для автоматизации  Пример: прогнозирование 6
  • 7. «Ручное» прогнозирование  Много для статистики  Мало для DataMining 7
  • 8. «Ручное» прогнозирование  Много для статистики  Мало для DataMining 8
  • 9. «Ручное» прогнозирование  Стратегия:  выявить шаблоны «вручную»  применить автоматически 9
  • 10. Несоблюдение чистоты  Сложность выявления  Сложность обработки  Последствия серьезнее, чем кажутся на первый взгляд 10
  • 11. Примеры (реальные случаи)  ошибки при вводе марки автомобиля: 14 (!) вариантов написания марки “Mercedes”. DEU указано вместо DAEWOO в 6-ти анкетах, все заемщики рассчитались с кредитом. Ошибочный вывод: наличие автомобиля марки DEU свидетельствует о высокой надежности клиента;  указана область проживания как БРЕСЦКАЯ (4 случая – все «плохие»). На практике выяснилось, что значимость региона не столь высока;  количество не столь очевидных примеров велико. Доля строк хотя бы с одной ошибкой, опечаткой или пропуском может достигать 70%. 11
  • 12. Сравним  Между прочим: алгоритмы разрабатывались для первой ситуации! Требования теории Банковская практика Образцы для исследования берутся в одинаковых условиях 12 Клиенты приходят в разное время и их качественный состав меняется Измерения производятся точно, результаты тщательно регистрируются Работают люди: ошибаются, пропускают, путают Отбираются образцы в пропорциях, отражающих реальное положение дел Есть сведения только о клиентах, получивших одобрение на выдачу кредита
  • 13. Способ решения  Предобработка данных  Модификация алгоритмов 13
  • 15. Недооценка динамики  Банки: старение кредитов  Отток: смешивание групп  Причина: из-за недостатка данных объединяются наблюдения за относительно большой промежуток времени 15
  • 16. Эффект старения  Ложное ощущение опасности, из-за роста доли «старых» 16 8% 7% 6% 5% 4% 3% 2% 1% 0% янв.10 фев.10 мар.10 апр.10 0 2 4 6 8 10 12 14 16
  • 17. Отток клиентов  Три группы, не одна  Остались «упрямые», а не улучшилась ситуация 0.7 0.6 0.5 0.4 0.3 0.2 17 1 2 3 4 5 0.1 0 2 4 6 8 10 0.5 0.4 0.3 0.2 0.1
  • 18. Недоверие к результатам  Требование «обзорности»  Требование «привычности»  Результат должен «выражаться в денежных единицах» 18
  • 19. Ошибки  Заранее задаются:  вид результата  ограничения по набору данных  Ошибки бывают в разные стороны 19
  • 20. Пример: успеваемость  Факторный анализ: 2 фактора  Прогноз = Коэффициент0 +Коэффициент1 × Фактор1 + Коэффициент2 × Фактор2 № Фамилия МЕНЕДЖ МАТЕМ_1 ОСЕ ЭКОН_1 ИТ МАТЕМ_2 БУХУЧЕТ ЭКОН_2 77 … 7 2 6 4 7 6 6 7 78 … 8 4 7 4 5 6 7 7 79 … 6 6 7 3 5 4 7 7 80 … 7 9 7 7 8 8 9 9 81 … 10 5 5 7 8 9 8 8 82 … 6 4 5 4 6 4 6 6 83 … 7 8 6 7 8 7 10 8 84 … 9 4 8 7 8 4 8 8 85 … 9 10 9 9 9 9 9 9 86 … 4 2 4 2 4 2 5 5 20 Входные поля Корреляция с выходными полями № Поле Фактор 1 Фактор 2 1 МЕНЕДЖ 0,842 0,083 2 МАТЕМ_1 0,881 0,249 3 ОСЕ 0,804 0,396 4 ЭКОН_1 0,951 -0,172 5 ИТ 0,784 -0,536 6 МАТЕМ_2 0,901 -0,185 7 БУХУЧЕТ 0,846 0,058 8 ЭКОН_2 0,92 0,101
  • 21. Отслеживание динамики -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 21 2 1,5 1 0,5 0 -0,5 -1 -1,5 -2 -2,5 -3
  • 22. Игнорирование известного  Результаты отличаются от соседей и аналогичных организаций?  Причина ошибка или особенности?  Пример: продажи мобильных телефонов, особенности для категории «Образование среднее специальное» 22
  • 24. Ограничения по алгоритмам  Интерпретируемые  Проверяемые  Необходимость взаимопроверки 24
  • 29. «Госзаказ»  Тестирование  Складские задачи 29
  • 30. Тестирование  Применение ассоциативного анализа 30
  • 31. Платформа  Требования  Гибкость в работе  Удобство вместо наворотов  Возможность маневра 31
  • 32. Алгоритмы  Дерево решений  Логистическая регрессия  Самоорганизующиеся сети  Apriory  Линейная регрессия  Возможности комбинирования 32
  • 33. Варианты ПО  Deductor Studio  RExcel 33
  • 34. Deductor  Простота в освоении и «промышленная мощность» 34
  • 35. RExcel  Привычный интерфейс и алгоритмы R 35
  • 36. Заключение  Часто наблюдается: недостаток данных и их неготовность к непосредственному анализу  В такой ситуации предпочтительнее использование комбинации простых и прозрачных алгоритмов вместо разработки и применения сложных  Поэтому удобное ПО хотя бы с минимальным «джентельменским набором» лучше неудобных «комбайнов» 36