SlideShare a Scribd company logo
ПРИМЕНЕНИЕ ТЕХНОЛОГИИ
    DATA MINING
  ДЛЯ РЕШЕНИЯ ЗАДАЧ
КЛИЕНТСКОЙ АНАЛИТИКИ



                        Пацера Константин
                  kostya.patsera@gmail.com
                        +38 067 220 77 16
ВОЗНИКНОВЕНИЕ DATA MINING
Тенденции в бизнесе, которые привели к возникновению Data mining
Ò   Возникновение задачи кредитных рисков

Ò   Сдвиг ориентации бизнеса от транзакционного маркетинга к маркетингу
    взаимоотношений (возникновение CRM)

Ò   Постепенное понимание, что клиенты являются активом бизнеса

Ò   Признание выгод от использования информации для предсказания событий, а не только
    следования за ними

Ò   Более широкое использование технологий для управления информацией и
    максимизации её ценности

Ò   Признание необходимости компромисса между обслуживанием клиентов и получения от
    них прибыли

Ò   Развитие индивидуальных маркетинговых подходов

                                                                                        2
ТЕХНОЛОГИЯ DATA MINING
Data mining – это процесс выявления в сырых данных ранее неизвестных,
   нетривиальных, практически полезных и доступных к интерпретации знаний,
   необходимых для принятия решений в различных сферах человеческой
   деятельности.
   Неочевидных – это обозначает, что
   найденные закономерности не
   находятся стандартными методами
   обработки информации или                              Прикладная
   экспериментальным путём.                              статистика
   Объективных – это обозначает, что
   найденные закономерности будут                  Data mining
   полностью отвечать действительности, в
   отличие от экспертной точки зрения,
   которая всегда субъективна.              Теория баз                Машинное
   Практически полезных – это                 данных                  обучение
   обозначает, что результаты имеют
   практическое применение.



                                                                                 3
ЭТАПЫ РАЗВИТИЯ АНАЛИТИКИ ПРОГРАММ
ЛОЯЛЬНОСТИ
Этап №1. Создание методологии
    É   Понятие нового клиента
    É   Понятие активного клиента
    É   Понятие ушедшего клиента
    É   Понятие вернувшегося клиента
    É   …

Этап №2. Создание отчётности

Этап №3. Сегментация и создание клиентской стратегии

Этап №4. Прогностическая аналитика
    É   Задача удержания; задача возвращения; задача привлечения
    É   Задача cross- и up-selling’а
    É   Задача выявления мошенничества
    É   Задача выбора каналов контакта с клиентами и времени контакта
    É   …

 Оценка эффективности маркетинговых кампаний

                                                                        4
СЕГМЕНТАЦИЯ КЛИЕНТОВ
Сегментация клиентов – процесс разделения клиентской базы на
сегменты (кластеры), которые не похожи между собой, но клиенты в
сегментах (кластерах) – однородные.

Типы сегментирования:
Ò С точки зрения цели сегментирования:
    É   …
    É   …
    É   …


Ò   С точки зрения процесса сегментирования: (данных для
    сегментирования!)
    É   Географические характеристики
    É   Социально-демографические характеристики
    É   Поведенческие характеристики
    É   Характеристики стиля жизни




                                                                   5
ХАРАКТЕРИСТИКИ СЕГМЕНТИРОВАНИЯ
Географические характеристики:             Поведенческие характеристики:
Ò   регионы/области                        Ò   Использование продукта
Ò   город/село                             Ò   Частота использования
Ò   размер населённого пункта              Ò   Динамические KPIs
Ò   “равнины”/“горы”                       Ò   Участие в акциях
Ò   …                                      Ò   …

Социально-демографические                  Характеристики стиля жизни:
характеристики:                            Ò   Жизненные цели/позиции
Ò   пол                                    Ò   Ценностный ряд
Ò   возраст                                Ò   Предпочтения в работе/отдыхе
Ò   образование                            Ò   Получаемая ценность от
Ò   семейное положение                         использования продукта
Ò   количество детей                       Ò   …
Ò   доход                        Как правило
Ò   наличие жилья/авто             есть! J
Ò   …                           Если и есть, то
                                  качество…                    А нужно ли ?..
 Географические, социально-демографические и поведенческие характеристики -
                              базах данных есть!
       Характеристики стиля жизни – необходимо дополнительно собирать!          6
ЦЕННОСТЬ СЕГМЕНТАЦИИ
Два глобальных результата сегментации:
1.    Понимание клиентов
2.    Отслеживание изменений в клиентских сегментах

Сегментация НЕ РЕШАЕТ:
Ò     проблему Оттока клиентов, но позволит понять причины!

Ò     Задачу cross-selling’а и up-selling’а для каждого клиента

Ò     Проблему выявления мошенников, но позволит выделить характеристики, которые могут
      быть отличными предикторами для нахождения их в клиентских базах

Ò     …

Ò     И конечно же, не увеличивает долю рынка, не уничтожает конкурента, не увеличивает
      доход компании в N раз (и не решает прочие проблемы информационного спама!)
Ò     А также проблемы личной жизни руководства J


     Сегментация клиентов должна быть в каждой компании, если речь идёт о CRM.
                    Сегментация – основа клиентской стратегии.
                                                                                          7
ПРОГНОЗИРОВАНИЕ ПОВЕДЕНИЯ КЛИЕНТОВ
Задача удержания клиентов (Churn prediction) состоит в определении
клиентов склонных к оттоку.

Задача cross-selling’а состоит в определение клиентов склонных купить продукт,
который не покупается в данный момент.

Задача up-selling’а состоит в определении клиентов склонных покупать продукт в
большем объёме либо чаще, чем в данный момент.

Задача выявление мошенничества (fraud detection) состоит в определении
клиентов, которые занимаются мошенничеством.




                                                                                 8
ПРОЦЕСС ПОСТРОЕНИЯ ПРОГНОСТИЧЕСКИХ МОДЕЛЕЙ
                                                              Логистическая регрессия
                                                              Деревья решений
  id   X1, X2, …, Xk   Y                                      Нейронные сети
                                                              Дискриминантный анализ
  1                    1                                      …
  2                    0
  …                    0
  …                    0   X1, X2, …, Xk   Y            X1, X2, …, Xk   Y   Tr
  …                    0                   0                            0   Tr
  …                    1   Выборка “0”     0            Выборка “0”     0   Tr
  …                    0                   0                            0   T
  …                    0
       База данных                         1                            1   Tr
  …                    0
                           Выборка “1”     1            Выборка “1”     1   T
  …                    1
                                           1                            1   Tr
  …                    0
  …                    0
  …                    1                                    Построение
  …                    0    Балансировка
                                                          обучающей (Tr) и
                               данных
  …                    1                                тестовой (T) выборки
  n                    0


                                       =       ,   ,…

                                                                                   9
КАКИЕ БИЗНЕС-ЗАДАЧИ РЕШАЕТ DATA MINING?
Ò   Сегментация клиентов

Ò   Удержание клиентов; Возвращение клиентов; Привлечение клиентов

Ò   Развитие клиентов и продуктов: cross- and up-selling

Ò   Увеличение отдачи от инвестиций и сокращение затрат на продвижение товаров и услуг

Ò   Идентификация клиентов, которые приносят прибыль

Ò   Оценка кредитных рисков (составление скоринговых карт и разработка скоринговых
    моделей)

Ò   Выявление случаев мошенничества, утрат и злоупотреблений

Ò   Анализ деятельности интернет-сайта

Ò   Оптимальный выбор каналов контакта с клиентом

Ò   …

                                                                                         10
СФЕРЫ ПРИМЕНЕНИЯ DATA MINING
Ò   Для решения бизнес-задач:
    Основные направления: телекоммуникационные компании, банки и финансовые
       учреждения, страховые компании, продуктовые и непродуктовые сети, компании с
       программами лояльности и/или CRM, производство, электронная коммерция,
       маркетинг, фондовые рынок и т.д.

Ò   Для решения государственных задач:
    Основные направления: поиск улиц, поиск людей, которые уклоняются от налогов,
       проверка таможенных грузов и т.д.

Ò   Для решения научных задач:
    Основные направления: медицина, биология, молекулярная генетика и генная
       инженерия, биоинформатика, астрономия и т.д.

Ò   Для решения Web-задач:
    Основные направления: поисковые системы.




                                                                                      11
ЧТО ПРЕДСТАВЛЯЕТ СОБОЙ ПРОЦЕСС DATA MINING?
Data mining базируется на методологии CRISP-DM – (стандартных
     межотраслевой процесс data mining / Cross-Industry Standard
     Process for Data mining).

Фазы CRISP-DM:
1.   Понимание бизнеса: обеспечение чёткого понимания
           бизнес-проблем.
2.   Понимание данных: определение доступных
           для исследования данных.
3.   Подготовка данных: подготовка данных
           в необходимом формате для получения
           ответов на бизнес-вопросы.
4.   Моделирование: разработка моделей, которые
           отвечают поставленным задачам.
5.   Оценивание: тестирование результатов
           на соответствие целям проекта.
6.   Внедрение: предоставление результатов проекта
           тем, кто на их основе будет принимать решения.
7.   Мониторинг качества.

                                                                   12
АНАЛИТИЧЕСКИЕ МЕТОДЫ DATA MINING
Ò   Кластерный анализ

Ò   Факторный анализ

Ò   Регрессия (линейная, логистическая, порядковая)

Ò   Деревья решений

Ò   Нейронные сети

Ò   Дискриминантный анализ

Ò   Правила ассоциаций

Ò   Правила индукций

Ò   Выявление последовательностей (последовательные ассоциации)

Ò   Поиск аномалий                                                13
ПРОГРАММНЫЕ ОБЕСПЕЧЕНИЯ, КОТОРЫЕ
ПОДДЕРЖИВАЮТ ТЕХНОЛОГИЮ DATA MINING
Ò   IBM SPSS Modeler – для работы с
    базами данных, для задач бизнес-
    анализа, бизнес-прогнозирования и
    задач Data mining.


Ò   SAS Enterprise Miner – для
    работы с базами данных, для задач
    бизнес-анализа, бизнес-
    прогнозирования и задач Data mining.


Ò   Teraminer - для работы с базами
    данных и задач Data mining.


Ò   KXEN – для задач Data mining.




                                           14
СЛОЖНОСТИ ВНЕДРЕНИЯ DATA MINING
Ò   Человеческий фактор:
    É   Квалификация пользователя и бизнес-клиентов
    É   Понимание бизнеса и понимание данных пользователем
    É   Сложность интерпретации результатов

Ò   Технологический фактор:
    É   Возможен большой процент неправильных, недостоверных или бессмысленных
        результатов

Ò   Технический фактор:
    É   Сложность подготовки данных
    É   Наличие достаточного количества репрезентативных данных

Ò   Ценовой фактор:
    É   Высокая стоимость построения хранилища данных и программного обеспечения




                                                                                   15

More Related Content

PDF
Big data, Clouds & HPC
PPTX
01 введение 2012
PDF
Матстатистика для HR
PPTX
матстатистика для Hr
PPT
Эффективность программы лояльности: чья ответственность?
PDF
Измеримая лояльность - миф или реальность?! Методика оценки эффективности
PPT
Интегрированное бизнес-решение от Австрийской почты для компаний каталожной т...
Big data, Clouds & HPC
01 введение 2012
Матстатистика для HR
матстатистика для Hr
Эффективность программы лояльности: чья ответственность?
Измеримая лояльность - миф или реальность?! Методика оценки эффективности
Интегрированное бизнес-решение от Австрийской почты для компаний каталожной т...

Viewers also liked (16)

PDF
Social CRM: играем на поле клиента
PDF
OUTERNET – будущее онлайн-маркетинга
PPTX
Необычные подходы к обычным вещам. Как мы создали экскурсии не только для тур...
PPTX
Азбука нетворкинга
PPTX
Оценка окупаемости программ лояльности - DIY
PPTX
Эффективный диалог с клиентом: работающие технологии
PPTX
Сплит-тестирование: Как удвоить эффективность вашего директ-маркетинга и не п...
PPT
Те, кому предсказано умереть, живут долго или письмо в мире электронных комму...
PPT
Сила слабых связей. Счастье, курение, ожирение и другие вирусные инфекции
PPT
Общая БД: ситуация, когда даже конкуренты выигрывают от сотрудничества
PPT
CRM для бизнеса, или CRM против бизнеса? Нужны ли бизнесу отношения с покупа...
PPTX
Возможности почтовой инфраструктуры Украины для развития бизнеса дистанционны...
PPT
Мастер-класс Законы сильного текста
PPT
Рынок почтовой логистики Украины – неоцененные возможности. Презентация резул...
PDF
Правила маркетингового движения. Часть 2. Стратегии
PDF
Программы лояльности на базе мобильного канала
Social CRM: играем на поле клиента
OUTERNET – будущее онлайн-маркетинга
Необычные подходы к обычным вещам. Как мы создали экскурсии не только для тур...
Азбука нетворкинга
Оценка окупаемости программ лояльности - DIY
Эффективный диалог с клиентом: работающие технологии
Сплит-тестирование: Как удвоить эффективность вашего директ-маркетинга и не п...
Те, кому предсказано умереть, живут долго или письмо в мире электронных комму...
Сила слабых связей. Счастье, курение, ожирение и другие вирусные инфекции
Общая БД: ситуация, когда даже конкуренты выигрывают от сотрудничества
CRM для бизнеса, или CRM против бизнеса? Нужны ли бизнесу отношения с покупа...
Возможности почтовой инфраструктуры Украины для развития бизнеса дистанционны...
Мастер-класс Законы сильного текста
Рынок почтовой логистики Украины – неоцененные возможности. Презентация резул...
Правила маркетингового движения. Часть 2. Стратегии
Программы лояльности на базе мобильного канала
Ad

Similar to Мастер-класс Применение технологии data mining для решения задач клиентской аналитики (20)

PPTX
Predictive Analytics/Data Mining – как извлечь максимум из корпоративных дан...
PDF
White Sales School - Marketing Strategy
PDF
DenReymer_presentation_for_CNewsforum_14112014
PDF
Big Data: О чем думают ваши клиенты?
PPT
Современные методы анализа данных
PDF
Аналитика клиентской базы отдела B2B-продаж: основные понятия
PPSX
современные методы анализа данных для бизнеса в стиле Google(2)
PPTX
Talent Analitycs / Bigdata HR (как показать влияние HR на бизнес показатели)
PPTX
PPT
Персональные данные организации
PPTX
Управление потенциальной аудиторией_Нетология_19062013
PDF
Лисы и Львы
PDF
Клиентский сервис Enter - ЦСИ
PDF
3 5 3_miheeva_natalia
PDF
Гайд развития мониторинга соцмедиа для компаний и агентств
PDF
Как эффективно управлять вашей потенциальной аудиторией
PDF
Презентация Александра Кириллова с конференции «BIG DATA: банки, финансовые к...
PPTX
Управление аудиторией_Нетология_26062013
PPTX
«Лисы» и «львы» российского В2В-бизнеса
PDF
Классификация лиц
Predictive Analytics/Data Mining – как извлечь максимум из корпоративных дан...
White Sales School - Marketing Strategy
DenReymer_presentation_for_CNewsforum_14112014
Big Data: О чем думают ваши клиенты?
Современные методы анализа данных
Аналитика клиентской базы отдела B2B-продаж: основные понятия
современные методы анализа данных для бизнеса в стиле Google(2)
Talent Analitycs / Bigdata HR (как показать влияние HR на бизнес показатели)
Персональные данные организации
Управление потенциальной аудиторией_Нетология_19062013
Лисы и Львы
Клиентский сервис Enter - ЦСИ
3 5 3_miheeva_natalia
Гайд развития мониторинга соцмедиа для компаний и агентств
Как эффективно управлять вашей потенциальной аудиторией
Презентация Александра Кириллова с конференции «BIG DATA: банки, финансовые к...
Управление аудиторией_Нетология_26062013
«Лисы» и «львы» российского В2В-бизнеса
Классификация лиц
Ad

More from DialogMarketingDays (14)

PDF
Нужен ли покупателям "магазин в кармане"?
PPT
МАСТЕР-КЛАСС Конверсия интернет-магазина в 48% реальность
PPT
Как продать больше и лучше с помощью онлайн каталога
PDF
Он-лайн каталог – связующее звено между эмоционально оформленным печатным кат...
PPTX
Успешная ДМ компания: как компаниям дистанционной торговли правильно посчитат...
PPT
Современные полиграфические технологии, как средство развития каталожного биз...
PPT
Непредвиденное и быстро меняющееся поведение клиентов в каталожной и интернет...
PPT
СЕМИНАР Как сэкономить на полиграфии? Практические советы и рекомендации
PPTX
Мастер-класс Смерть газет и вирусный редактор интернета
PPTX
Убить креатив или чем должен заниматься маркетолог
PPT
Сам себе почтальон ИЛИ ПРОФЕССИОНАЛЬНЫЙ ПОЧТОВЫЙ СЕРВИС? Аутсорсинг адресных ...
PDF
Стратегии поощрения: кого, за что и как поощрять
PPTX
Прогностический поведенческий таргетинг
Нужен ли покупателям "магазин в кармане"?
МАСТЕР-КЛАСС Конверсия интернет-магазина в 48% реальность
Как продать больше и лучше с помощью онлайн каталога
Он-лайн каталог – связующее звено между эмоционально оформленным печатным кат...
Успешная ДМ компания: как компаниям дистанционной торговли правильно посчитат...
Современные полиграфические технологии, как средство развития каталожного биз...
Непредвиденное и быстро меняющееся поведение клиентов в каталожной и интернет...
СЕМИНАР Как сэкономить на полиграфии? Практические советы и рекомендации
Мастер-класс Смерть газет и вирусный редактор интернета
Убить креатив или чем должен заниматься маркетолог
Сам себе почтальон ИЛИ ПРОФЕССИОНАЛЬНЫЙ ПОЧТОВЫЙ СЕРВИС? Аутсорсинг адресных ...
Стратегии поощрения: кого, за что и как поощрять
Прогностический поведенческий таргетинг

Мастер-класс Применение технологии data mining для решения задач клиентской аналитики

  • 1. ПРИМЕНЕНИЕ ТЕХНОЛОГИИ DATA MINING ДЛЯ РЕШЕНИЯ ЗАДАЧ КЛИЕНТСКОЙ АНАЛИТИКИ Пацера Константин kostya.patsera@gmail.com +38 067 220 77 16
  • 2. ВОЗНИКНОВЕНИЕ DATA MINING Тенденции в бизнесе, которые привели к возникновению Data mining Ò Возникновение задачи кредитных рисков Ò Сдвиг ориентации бизнеса от транзакционного маркетинга к маркетингу взаимоотношений (возникновение CRM) Ò Постепенное понимание, что клиенты являются активом бизнеса Ò Признание выгод от использования информации для предсказания событий, а не только следования за ними Ò Более широкое использование технологий для управления информацией и максимизации её ценности Ò Признание необходимости компромисса между обслуживанием клиентов и получения от них прибыли Ò Развитие индивидуальных маркетинговых подходов 2
  • 3. ТЕХНОЛОГИЯ DATA MINING Data mining – это процесс выявления в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных к интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Неочевидных – это обозначает, что найденные закономерности не находятся стандартными методами обработки информации или Прикладная экспериментальным путём. статистика Объективных – это обозначает, что найденные закономерности будут Data mining полностью отвечать действительности, в отличие от экспертной точки зрения, которая всегда субъективна. Теория баз Машинное Практически полезных – это данных обучение обозначает, что результаты имеют практическое применение. 3
  • 4. ЭТАПЫ РАЗВИТИЯ АНАЛИТИКИ ПРОГРАММ ЛОЯЛЬНОСТИ Этап №1. Создание методологии É Понятие нового клиента É Понятие активного клиента É Понятие ушедшего клиента É Понятие вернувшегося клиента É … Этап №2. Создание отчётности Этап №3. Сегментация и создание клиентской стратегии Этап №4. Прогностическая аналитика É Задача удержания; задача возвращения; задача привлечения É Задача cross- и up-selling’а É Задача выявления мошенничества É Задача выбора каналов контакта с клиентами и времени контакта É … Оценка эффективности маркетинговых кампаний 4
  • 5. СЕГМЕНТАЦИЯ КЛИЕНТОВ Сегментация клиентов – процесс разделения клиентской базы на сегменты (кластеры), которые не похожи между собой, но клиенты в сегментах (кластерах) – однородные. Типы сегментирования: Ò С точки зрения цели сегментирования: É … É … É … Ò С точки зрения процесса сегментирования: (данных для сегментирования!) É Географические характеристики É Социально-демографические характеристики É Поведенческие характеристики É Характеристики стиля жизни 5
  • 6. ХАРАКТЕРИСТИКИ СЕГМЕНТИРОВАНИЯ Географические характеристики: Поведенческие характеристики: Ò регионы/области Ò Использование продукта Ò город/село Ò Частота использования Ò размер населённого пункта Ò Динамические KPIs Ò “равнины”/“горы” Ò Участие в акциях Ò … Ò … Социально-демографические Характеристики стиля жизни: характеристики: Ò Жизненные цели/позиции Ò пол Ò Ценностный ряд Ò возраст Ò Предпочтения в работе/отдыхе Ò образование Ò Получаемая ценность от Ò семейное положение использования продукта Ò количество детей Ò … Ò доход Как правило Ò наличие жилья/авто есть! J Ò … Если и есть, то качество… А нужно ли ?.. Географические, социально-демографические и поведенческие характеристики - базах данных есть! Характеристики стиля жизни – необходимо дополнительно собирать! 6
  • 7. ЦЕННОСТЬ СЕГМЕНТАЦИИ Два глобальных результата сегментации: 1. Понимание клиентов 2. Отслеживание изменений в клиентских сегментах Сегментация НЕ РЕШАЕТ: Ò проблему Оттока клиентов, но позволит понять причины! Ò Задачу cross-selling’а и up-selling’а для каждого клиента Ò Проблему выявления мошенников, но позволит выделить характеристики, которые могут быть отличными предикторами для нахождения их в клиентских базах Ò … Ò И конечно же, не увеличивает долю рынка, не уничтожает конкурента, не увеличивает доход компании в N раз (и не решает прочие проблемы информационного спама!) Ò А также проблемы личной жизни руководства J Сегментация клиентов должна быть в каждой компании, если речь идёт о CRM. Сегментация – основа клиентской стратегии. 7
  • 8. ПРОГНОЗИРОВАНИЕ ПОВЕДЕНИЯ КЛИЕНТОВ Задача удержания клиентов (Churn prediction) состоит в определении клиентов склонных к оттоку. Задача cross-selling’а состоит в определение клиентов склонных купить продукт, который не покупается в данный момент. Задача up-selling’а состоит в определении клиентов склонных покупать продукт в большем объёме либо чаще, чем в данный момент. Задача выявление мошенничества (fraud detection) состоит в определении клиентов, которые занимаются мошенничеством. 8
  • 9. ПРОЦЕСС ПОСТРОЕНИЯ ПРОГНОСТИЧЕСКИХ МОДЕЛЕЙ Логистическая регрессия Деревья решений id X1, X2, …, Xk Y Нейронные сети Дискриминантный анализ 1 1 … 2 0 … 0 … 0 X1, X2, …, Xk Y X1, X2, …, Xk Y Tr … 0 0 0 Tr … 1 Выборка “0” 0 Выборка “0” 0 Tr … 0 0 0 T … 0 База данных 1 1 Tr … 0 Выборка “1” 1 Выборка “1” 1 T … 1 1 1 Tr … 0 … 0 … 1 Построение … 0 Балансировка обучающей (Tr) и данных … 1 тестовой (T) выборки n 0 = , ,… 9
  • 10. КАКИЕ БИЗНЕС-ЗАДАЧИ РЕШАЕТ DATA MINING? Ò Сегментация клиентов Ò Удержание клиентов; Возвращение клиентов; Привлечение клиентов Ò Развитие клиентов и продуктов: cross- and up-selling Ò Увеличение отдачи от инвестиций и сокращение затрат на продвижение товаров и услуг Ò Идентификация клиентов, которые приносят прибыль Ò Оценка кредитных рисков (составление скоринговых карт и разработка скоринговых моделей) Ò Выявление случаев мошенничества, утрат и злоупотреблений Ò Анализ деятельности интернет-сайта Ò Оптимальный выбор каналов контакта с клиентом Ò … 10
  • 11. СФЕРЫ ПРИМЕНЕНИЯ DATA MINING Ò Для решения бизнес-задач: Основные направления: телекоммуникационные компании, банки и финансовые учреждения, страховые компании, продуктовые и непродуктовые сети, компании с программами лояльности и/или CRM, производство, электронная коммерция, маркетинг, фондовые рынок и т.д. Ò Для решения государственных задач: Основные направления: поиск улиц, поиск людей, которые уклоняются от налогов, проверка таможенных грузов и т.д. Ò Для решения научных задач: Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия и т.д. Ò Для решения Web-задач: Основные направления: поисковые системы. 11
  • 12. ЧТО ПРЕДСТАВЛЯЕТ СОБОЙ ПРОЦЕСС DATA MINING? Data mining базируется на методологии CRISP-DM – (стандартных межотраслевой процесс data mining / Cross-Industry Standard Process for Data mining). Фазы CRISP-DM: 1. Понимание бизнеса: обеспечение чёткого понимания бизнес-проблем. 2. Понимание данных: определение доступных для исследования данных. 3. Подготовка данных: подготовка данных в необходимом формате для получения ответов на бизнес-вопросы. 4. Моделирование: разработка моделей, которые отвечают поставленным задачам. 5. Оценивание: тестирование результатов на соответствие целям проекта. 6. Внедрение: предоставление результатов проекта тем, кто на их основе будет принимать решения. 7. Мониторинг качества. 12
  • 13. АНАЛИТИЧЕСКИЕ МЕТОДЫ DATA MINING Ò Кластерный анализ Ò Факторный анализ Ò Регрессия (линейная, логистическая, порядковая) Ò Деревья решений Ò Нейронные сети Ò Дискриминантный анализ Ò Правила ассоциаций Ò Правила индукций Ò Выявление последовательностей (последовательные ассоциации) Ò Поиск аномалий 13
  • 14. ПРОГРАММНЫЕ ОБЕСПЕЧЕНИЯ, КОТОРЫЕ ПОДДЕРЖИВАЮТ ТЕХНОЛОГИЮ DATA MINING Ò IBM SPSS Modeler – для работы с базами данных, для задач бизнес- анализа, бизнес-прогнозирования и задач Data mining. Ò SAS Enterprise Miner – для работы с базами данных, для задач бизнес-анализа, бизнес- прогнозирования и задач Data mining. Ò Teraminer - для работы с базами данных и задач Data mining. Ò KXEN – для задач Data mining. 14
  • 15. СЛОЖНОСТИ ВНЕДРЕНИЯ DATA MINING Ò Человеческий фактор: É Квалификация пользователя и бизнес-клиентов É Понимание бизнеса и понимание данных пользователем É Сложность интерпретации результатов Ò Технологический фактор: É Возможен большой процент неправильных, недостоверных или бессмысленных результатов Ò Технический фактор: É Сложность подготовки данных É Наличие достаточного количества репрезентативных данных Ò Ценовой фактор: É Высокая стоимость построения хранилища данных и программного обеспечения 15