SlideShare a Scribd company logo
Интеллектуальный анализ данных для повышения
эффективности работы государственных органов
управления.
Олег Данильченко
 Что

такое прогнозная аналитика и
почему она важна?
Примеры решаемых задач для
повышения эффективности работы
государственных органов
Обзор продуктов IBM SPSS
Примеры внедрений
Применение аналитических средств обработки
данных является клучевым конкурентным
преимуществом
“В то время, когда компании во многих отраслях промышленности
предлагают похожие продукты и используют схожие технологии,
повыщение эффективности бизнес процессов является одной из
последних оставшихся точек дифференциации”
Tom
Davenport, “Competing on Analytics”
Ten Most Important Visionary Plan Elements
Interviewed CIOs could select as many as they wanted

BI/Analytics #1
инвестиции в
повышение
конкурентно
способности

86%

Business Intelligence and Analytics

80%
77%
76%

Virtualization

73%
70%

Risk Management and Compliance

71%

Mobility Solutions

66%
73%

Customer and Partner Collaboration

64%
71%

Self-Service Portals

IBM Global CIO Study 2009

63%
67%

Application Harmonization

62%
70%

Business Process Management
SOA/Web Services
Unified Communication

Low
growth

61%
68%
55%
63%
57%

High
growth
Что такое прогнозная аналитика и почему она важна?

Аналитика – это процесс, в который вовлечены
как компьютерные технологии, так и навыки
конкретных людей и который позволяет
получить знания из данных, преобразовать эти
знания в стратегии
Data Mining - это область знаний, которая
находится на пересечении науки и искусства
Прогнозная аналитика: Тенденции 2011
Тренд №1: Инновационные пути применения аналитики

Помимо стандартных методов применения аналитики
появляются новые места применения углубленной
аналитики, позволяющие организации получать
дополнительную выгоду.
Тренд №2: Данные, Данные, Данные

Новые источники данных, например, неструктурированные
текстовые данные и данные из социальных сетей .
Тренд №3: Новые методологи

Методы углублённой аналитики постоянно расширяют
область своего применения и глубину анализа. Например,
пуассоновская регрессия, анализ выживаемости, и
оптимизационные модели.
Прогнозная аналитика
Проактивные
Внедрение предиктивных моделей
действия

• Использование текущих и исторических данных
• Создание точных прогнозов
• Внедрение в бизнес процессы для повышения их
эффективности

M

время
“NOW”

Предиктивная аналитика:
• Алгоритмы автоматически находят значимые
закономерности в данных
• Использование закономерностей позволяет
принимать более эффективные решения
•“Обучение” на исторических данных –
создание предиктивных моделей

время
“NOW”

Осознание и
реакция

Традиционный BI и анализ:
• Замер исторических KPI, метрик и проч.
• Детальный анализ агрегированных данных
по запросу пользователя

KPI

KPI

KPI

время
“NOW”
Основные гипотезы аналитического
подхода
•Случайный характер исхода события
•Факторная зависимость вероятности исхода
события

•«Завтра похоже на вчера»

~
Виды data mining задач
•Направленный (directed) data mining
•Классификация
•Оценивание
•Прогнозирование

•Ненаправленный (undirected) data mining
•Группировка по сходству или поиск ассоциативных правил
•Кластеризация
•Описание и визуализация

8 из 36
Задачи data mining:
Классификация (Classification)
Задача:
Определить класс, к которому
принадлежит объект, описываемый
набором характеристик. Число классов
конечно.

9 из 36
Задачи data mining:
Прогнозирование (Forecasting)
Задача:
На основе входной информации предсказать будущие
значения различных характеристик объекта.

10 из 36
Задачи data mining:
Кластеризация (Clustering)
Задача:
Сегментировать большое количество разнородных
элементов в определенное количество схожих подгрупп
или кластеров. Признак для кластеризации заранее
неизвестен.

11 из 36
Обучающая
выборка

Выборка

Настройка модели
по обучающей
выборке
Изменение
параметров, отбор
предикторов

Тестовая
выборка
Тестирование модели

Данные
поДанные
абонентам
(CDR и др.)

Модель
Скоринг
1.Понимание бизнес-задачи
2.Понимание данных
•Какие данные доступны?
•Все ли атрибуты представлены?
•Оценка качества данных и т.д.

3.Подготовка данных
•Отбор данных
•Расчет производных показателей
•Объединение данных из разных источников

4.Моделирование
•Выбор методов
•Настройка моделей и тестирование
•Выбор лучшей модели

5.Оценка результатов
6.Внедрение моделей
Анализ данных опросов
Мониторинг общественного мнения
• Анализ социально-экономической ситуации
•

•Анализ данных нужен для выяснения ситуации в регионе и
определения проблемных сфер.

•Определение проблем, формирующих кризисную
ситуацию.
•Анализ данных необходим не только для выявления проблем
региона, но и для определения причин их возникновения.

•Анализ реакции населения на внедрение различных
федеральных и региональных программ.
•Возможность корректировки программ для повышения их
эффективности.

•Анализ экономического положения
Образование
•Планирование школьных округов. Нахождение
оптимального месторасположения новых школ, в
зависимости
•от условий района,
•демографической ситуации
•других факторов.

•Отслеживание успеваемости учащихся,
•выявление факторов способствующих повышению успеваемости.

•Администрирование
•контроль за уровнем выполнения обязательных программ
и тестов.
Здравоохранение
•Отслеживание болезней и создание
отчетов о случаях заболеваний.
• Эпидемиология - выявление причин
заболеваний и территории их
распространения, а также
контрользаболеваемости.
•Медицинская помощь - определение
профилей тех, кому часто требуется
медицинская помощь.
•Профилактика - выявление групп риска и
необходимости медицинского
вмешательства.
Стратегическое планирование
•Анализа удовлетворенности клиентов и изучения изменений
потребностей общественности.
• Оценки программ- понимания факторов успешной реализации
программы.
•Профилирования населения 1 более эффективного направления
действия программы на определенные слои населения.
• Анализа затрат - выявления наиболее эффективных программ.
• Анализа результатов выполнения программ (пример энергоэффективность)
•Прогнозирование аварийных ситуаций на объектах промышленности
Решение по выявлению мошенничества в налоговых
декларациях
•Выявление налогоплательщиков, не подавших налоговые
декларации,компаний и граждан, которые могут иметь налоговые
обязательства, но не отчитались перед налоговыми органами.
•Выбор кандидатов для проведения аудиторских проверок —
выявление налогоплательщиков, которые вероятнее всего занижают
свои налоговые обязательства.
•Управление взиманием налогов — определение эффективной
стратегии погашения налоговой задолженности для каждого
конкретного случая.
Обхор продуктов SPSS
Предиктивная аналитика: Семейства продуктов IBM SPSS
Data Collection:
–Проведение и обработка результатов
опросов
Statistics:
–Глубокая аналитика и проверка
статистических гипотез
Modeling:
–Инструмент построения предиктивных
моделей
Deployment:
–Внедрение и автоматизация применения
предиктивных моделей
–Распространение результатов анализа
Что отличает IBM SPSS Modeler?
•Простота использования / интуитивный визуальный
интерфейс
•Визуальный подход – не нужны навыки программирования
•Полный набор инструментов Data mining
•Разнообразные возможность внедрения моделей

•Автоматизация моделирования
•Автоматическая подготовка данных
•Автоматическая настройка нескольких моделей и
поддержка выбора оптимального решения
•Автоматическая сегментация

•Открытая масштабируемая архитектура
•Нет необходимости в специализированной базе данных
•Data mining в стандартных базах данных с использованием
технологии SQL pushback
•Максимальное использование IT-инфраструктуры:
многопоточность, кластеры и использование встроенных
алгоритмов
Collaboration & Deployment Services
•Управление
аналитическими ресурсами
•Централизованный репозиторий

•Автоматизация
аналитических процессов
•Создание многоэтапных заданий
•Автоматическое обновление моделей и
скоринг

•Внедрение результатов
•Автоматизация построения отчетов для
мониторинга
•Автоматическое распространение
отчетов с доступом через web-браузер
•Интеграция аналитических процессов с
другими бизнес-процессами
IBM SPSS Modeler: визуальное моделирование на основе
CRISP-DM
Анализ данных
Построение модели
Постановка задачи

23

Подготовка данных

Оценка модели

Экспорт
Predict: SPSS Modeler

Доступ к
разрозненным
источникам данных
Преобразование
входящих данных

Понимание
взаимосвязей в
данных и
визуализаци
Прогнозирование и
классификация
событий
Predict: SPSS Modeler
Анализ
неструктурированнй
информации
(блогосфера,
социальные сети)
Выгрузка
результатов
моделирования
Customer Story
Canada Revenue Agency
Predictive Analytics for Improving Collections & Compliance

Business Challenge

Identify potential cases from the non filer group that gets filtered out as low
potential during the annual load process:
•Identify those who failed to file tax returns
•Determine which ones have positive tax potential
•Take enforcement actions to obtain the missing returns and related payments

Solution

Use of SPSS predictive analytics and data mining to
•Improve workload selection, enhance workflow, detect anomalies, predict client
behavior to determine tax strategies, and increase collection rate
•Improve the ability to assess the value of non-compliance issues – specifically
missing returns –and focus on the “best ROI” workload
•Identify accounts with good tax potential that are rejecting as “low potential” thru the
current legacy business rules system

Results

•Based on a pilot conducted in 2004, estimated results for full production year
- Approx $100 million in revenue for a single tax year
SPSS Modeler
Спасибо за
внимание!

More Related Content

PDF
IBM SPSS. Аналитика на службе бизнеса
PDF
РИФ 2016, Предикативная аналитика
PDF
SAP on Big Data Russia
PDF
Предиктивная аналитика и Big Data: методы, инструменты, решения
PDF
Большие данные и бизнес-аналитика: как найти пользу?
PPT
BI Pre-Sale
PDF
Power BI для аналитики данных из 1С: практический опыт
PDF
ATK QlikView for Retail - Krasnopolsky Andrey
IBM SPSS. Аналитика на службе бизнеса
РИФ 2016, Предикативная аналитика
SAP on Big Data Russia
Предиктивная аналитика и Big Data: методы, инструменты, решения
Большие данные и бизнес-аналитика: как найти пользу?
BI Pre-Sale
Power BI для аналитики данных из 1С: практический опыт
ATK QlikView for Retail - Krasnopolsky Andrey

What's hot (20)

PDF
презентация Clever data конференция splunk октябрь 2016 v2
PPTX
Splunk overview Russian
PPTX
Что такое Big Data ?
PDF
Qlik: новый подход к бизнес-аналитике фармацевтических компаний
PDF
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
PPTX
AlgoMost presentation
PPTX
Clever_data_splunk_overview_rus
PDF
Коробочный модуль АТК ДОМИНО 8. Анализ продаж, Софт-Вест
PDF
Big Data с точки зрения конечного пользователя
PDF
ATK Qlik for Pharma: лучшие практики аналитики для фармацевтических компаний
PPTX
База знаний службы техподдержки
PDF
QlikView в GfK для синдикативных исследований фармрынка
PDF
Predictive models for Operational analytics
PDF
ATK QlikView For Microfinance: решение и опыт
PPSX
OSPconf. Big Data Forum 2015
PDF
Новая жизнь Ваших даных с PowerBI
PPTX
Konstantin Obukhov - Customer Experience Technologies
PDF
Большие Данные
PPTX
Прогнозная аналитика
PDF
Oracle big data for finance
презентация Clever data конференция splunk октябрь 2016 v2
Splunk overview Russian
Что такое Big Data ?
Qlik: новый подход к бизнес-аналитике фармацевтических компаний
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
AlgoMost presentation
Clever_data_splunk_overview_rus
Коробочный модуль АТК ДОМИНО 8. Анализ продаж, Софт-Вест
Big Data с точки зрения конечного пользователя
ATK Qlik for Pharma: лучшие практики аналитики для фармацевтических компаний
База знаний службы техподдержки
QlikView в GfK для синдикативных исследований фармрынка
Predictive models for Operational analytics
ATK QlikView For Microfinance: решение и опыт
OSPconf. Big Data Forum 2015
Новая жизнь Ваших даных с PowerBI
Konstantin Obukhov - Customer Experience Technologies
Большие Данные
Прогнозная аналитика
Oracle big data for finance
Ad

Similar to SPSS Modeler (20)

PPTX
Big Data in Supply Chain Management - Big trouble or Big opportunity?
PPT
Персональные данные организации
PDF
Презентация Tibco spotfire
PPT
Современные методы анализа данных
PDF
Профессия Data Scientist
PPTX
Как спроектировать систему сквозной аналитики
PDF
Qlik view комплексное аналитическое retail решение v4,4- для сайта (без скр...
PPT
поставщик софта Site
PPTX
AlgoMost: about
PPTX
Как спроектировать систему сквозной аналитики
PDF
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
PDF
Data-driven business: Информационная основа деятельности современной Компании
PDF
1 c kpi_businesscase
PPTX
Как избежать ошибок, которые приводят к неточности маркетинговых данных
PDF
[ФРИИ]_Исследование_прод_компетенций_2022.pdf
PPTX
AlgoMost: about
PPTX
Softline Services: Бизнес-аналитика (BI)
PPTX
Подготовка специалистов по анализу больших данных: все аспекты
PDF
QueryHunter project overview for lenovo
PDF
Обзор решения ATK Qlik for Retail
Big Data in Supply Chain Management - Big trouble or Big opportunity?
Персональные данные организации
Презентация Tibco spotfire
Современные методы анализа данных
Профессия Data Scientist
Как спроектировать систему сквозной аналитики
Qlik view комплексное аналитическое retail решение v4,4- для сайта (без скр...
поставщик софта Site
AlgoMost: about
Как спроектировать систему сквозной аналитики
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Data-driven business: Информационная основа деятельности современной Компании
1 c kpi_businesscase
Как избежать ошибок, которые приводят к неточности маркетинговых данных
[ФРИИ]_Исследование_прод_компетенций_2022.pdf
AlgoMost: about
Softline Services: Бизнес-аналитика (BI)
Подготовка специалистов по анализу больших данных: все аспекты
QueryHunter project overview for lenovo
Обзор решения ATK Qlik for Retail
Ad

SPSS Modeler

  • 1. Интеллектуальный анализ данных для повышения эффективности работы государственных органов управления. Олег Данильченко
  • 2.  Что такое прогнозная аналитика и почему она важна? Примеры решаемых задач для повышения эффективности работы государственных органов Обзор продуктов IBM SPSS Примеры внедрений
  • 3. Применение аналитических средств обработки данных является клучевым конкурентным преимуществом “В то время, когда компании во многих отраслях промышленности предлагают похожие продукты и используют схожие технологии, повыщение эффективности бизнес процессов является одной из последних оставшихся точек дифференциации” Tom Davenport, “Competing on Analytics” Ten Most Important Visionary Plan Elements Interviewed CIOs could select as many as they wanted BI/Analytics #1 инвестиции в повышение конкурентно способности 86% Business Intelligence and Analytics 80% 77% 76% Virtualization 73% 70% Risk Management and Compliance 71% Mobility Solutions 66% 73% Customer and Partner Collaboration 64% 71% Self-Service Portals IBM Global CIO Study 2009 63% 67% Application Harmonization 62% 70% Business Process Management SOA/Web Services Unified Communication Low growth 61% 68% 55% 63% 57% High growth
  • 4. Что такое прогнозная аналитика и почему она важна? Аналитика – это процесс, в который вовлечены как компьютерные технологии, так и навыки конкретных людей и который позволяет получить знания из данных, преобразовать эти знания в стратегии Data Mining - это область знаний, которая находится на пересечении науки и искусства
  • 5. Прогнозная аналитика: Тенденции 2011 Тренд №1: Инновационные пути применения аналитики Помимо стандартных методов применения аналитики появляются новые места применения углубленной аналитики, позволяющие организации получать дополнительную выгоду. Тренд №2: Данные, Данные, Данные Новые источники данных, например, неструктурированные текстовые данные и данные из социальных сетей . Тренд №3: Новые методологи Методы углублённой аналитики постоянно расширяют область своего применения и глубину анализа. Например, пуассоновская регрессия, анализ выживаемости, и оптимизационные модели.
  • 6. Прогнозная аналитика Проактивные Внедрение предиктивных моделей действия • Использование текущих и исторических данных • Создание точных прогнозов • Внедрение в бизнес процессы для повышения их эффективности M время “NOW” Предиктивная аналитика: • Алгоритмы автоматически находят значимые закономерности в данных • Использование закономерностей позволяет принимать более эффективные решения •“Обучение” на исторических данных – создание предиктивных моделей время “NOW” Осознание и реакция Традиционный BI и анализ: • Замер исторических KPI, метрик и проч. • Детальный анализ агрегированных данных по запросу пользователя KPI KPI KPI время “NOW”
  • 7. Основные гипотезы аналитического подхода •Случайный характер исхода события •Факторная зависимость вероятности исхода события •«Завтра похоже на вчера» ~
  • 8. Виды data mining задач •Направленный (directed) data mining •Классификация •Оценивание •Прогнозирование •Ненаправленный (undirected) data mining •Группировка по сходству или поиск ассоциативных правил •Кластеризация •Описание и визуализация 8 из 36
  • 9. Задачи data mining: Классификация (Classification) Задача: Определить класс, к которому принадлежит объект, описываемый набором характеристик. Число классов конечно. 9 из 36
  • 10. Задачи data mining: Прогнозирование (Forecasting) Задача: На основе входной информации предсказать будущие значения различных характеристик объекта. 10 из 36
  • 11. Задачи data mining: Кластеризация (Clustering) Задача: Сегментировать большое количество разнородных элементов в определенное количество схожих подгрупп или кластеров. Признак для кластеризации заранее неизвестен. 11 из 36
  • 12. Обучающая выборка Выборка Настройка модели по обучающей выборке Изменение параметров, отбор предикторов Тестовая выборка Тестирование модели Данные поДанные абонентам (CDR и др.) Модель Скоринг
  • 13. 1.Понимание бизнес-задачи 2.Понимание данных •Какие данные доступны? •Все ли атрибуты представлены? •Оценка качества данных и т.д. 3.Подготовка данных •Отбор данных •Расчет производных показателей •Объединение данных из разных источников 4.Моделирование •Выбор методов •Настройка моделей и тестирование •Выбор лучшей модели 5.Оценка результатов 6.Внедрение моделей
  • 14. Анализ данных опросов Мониторинг общественного мнения • Анализ социально-экономической ситуации • •Анализ данных нужен для выяснения ситуации в регионе и определения проблемных сфер. •Определение проблем, формирующих кризисную ситуацию. •Анализ данных необходим не только для выявления проблем региона, но и для определения причин их возникновения. •Анализ реакции населения на внедрение различных федеральных и региональных программ. •Возможность корректировки программ для повышения их эффективности. •Анализ экономического положения
  • 15. Образование •Планирование школьных округов. Нахождение оптимального месторасположения новых школ, в зависимости •от условий района, •демографической ситуации •других факторов. •Отслеживание успеваемости учащихся, •выявление факторов способствующих повышению успеваемости. •Администрирование •контроль за уровнем выполнения обязательных программ и тестов.
  • 16. Здравоохранение •Отслеживание болезней и создание отчетов о случаях заболеваний. • Эпидемиология - выявление причин заболеваний и территории их распространения, а также контрользаболеваемости. •Медицинская помощь - определение профилей тех, кому часто требуется медицинская помощь. •Профилактика - выявление групп риска и необходимости медицинского вмешательства.
  • 17. Стратегическое планирование •Анализа удовлетворенности клиентов и изучения изменений потребностей общественности. • Оценки программ- понимания факторов успешной реализации программы. •Профилирования населения 1 более эффективного направления действия программы на определенные слои населения. • Анализа затрат - выявления наиболее эффективных программ. • Анализа результатов выполнения программ (пример энергоэффективность) •Прогнозирование аварийных ситуаций на объектах промышленности
  • 18. Решение по выявлению мошенничества в налоговых декларациях •Выявление налогоплательщиков, не подавших налоговые декларации,компаний и граждан, которые могут иметь налоговые обязательства, но не отчитались перед налоговыми органами. •Выбор кандидатов для проведения аудиторских проверок — выявление налогоплательщиков, которые вероятнее всего занижают свои налоговые обязательства. •Управление взиманием налогов — определение эффективной стратегии погашения налоговой задолженности для каждого конкретного случая.
  • 20. Предиктивная аналитика: Семейства продуктов IBM SPSS Data Collection: –Проведение и обработка результатов опросов Statistics: –Глубокая аналитика и проверка статистических гипотез Modeling: –Инструмент построения предиктивных моделей Deployment: –Внедрение и автоматизация применения предиктивных моделей –Распространение результатов анализа
  • 21. Что отличает IBM SPSS Modeler? •Простота использования / интуитивный визуальный интерфейс •Визуальный подход – не нужны навыки программирования •Полный набор инструментов Data mining •Разнообразные возможность внедрения моделей •Автоматизация моделирования •Автоматическая подготовка данных •Автоматическая настройка нескольких моделей и поддержка выбора оптимального решения •Автоматическая сегментация •Открытая масштабируемая архитектура •Нет необходимости в специализированной базе данных •Data mining в стандартных базах данных с использованием технологии SQL pushback •Максимальное использование IT-инфраструктуры: многопоточность, кластеры и использование встроенных алгоритмов
  • 22. Collaboration & Deployment Services •Управление аналитическими ресурсами •Централизованный репозиторий •Автоматизация аналитических процессов •Создание многоэтапных заданий •Автоматическое обновление моделей и скоринг •Внедрение результатов •Автоматизация построения отчетов для мониторинга •Автоматическое распространение отчетов с доступом через web-браузер •Интеграция аналитических процессов с другими бизнес-процессами
  • 23. IBM SPSS Modeler: визуальное моделирование на основе CRISP-DM Анализ данных Построение модели Постановка задачи 23 Подготовка данных Оценка модели Экспорт
  • 24. Predict: SPSS Modeler Доступ к разрозненным источникам данных Преобразование входящих данных Понимание взаимосвязей в данных и визуализаци Прогнозирование и классификация событий
  • 26. Customer Story Canada Revenue Agency Predictive Analytics for Improving Collections & Compliance Business Challenge Identify potential cases from the non filer group that gets filtered out as low potential during the annual load process: •Identify those who failed to file tax returns •Determine which ones have positive tax potential •Take enforcement actions to obtain the missing returns and related payments Solution Use of SPSS predictive analytics and data mining to •Improve workload selection, enhance workflow, detect anomalies, predict client behavior to determine tax strategies, and increase collection rate •Improve the ability to assess the value of non-compliance issues – specifically missing returns –and focus on the “best ROI” workload •Identify accounts with good tax potential that are rejecting as “low potential” thru the current legacy business rules system Results •Based on a pilot conducted in 2004, estimated results for full production year - Approx $100 million in revenue for a single tax year