SlideShare a Scribd company logo
BA for Data Science
& Machine Learning
Гузенко Дмитрий
 Инструктор IT Education Academy
 Аналитик Luxoft
 Специалист по проектированию, разработке и
внедрению IT проектов
 24 года в ИТ
 15 лет БA
КОНТАКТНЫЕ ДАННЫЕ
fb.com/dmitry.guzenko
d.guzenko@outlook.com
ERP Ирбис
предприятие
75 / 300
implementations
ERP SiReD
5000 users
Brunei Telecom
Solution
25 Systems
АПУ, МОН,
КМДА, Антонов
Luxoft
Bank Domain
Medical
Statistic System
1992 201820122008
What we can
deliver now…
Dsml for business.full version
What we deliver? Free Time
What we can
deliver now…
Dsml for business.full version
(не)Новые технологии
Machine Learning
Data Science
(не)Новые роли
Data Scientist
Data Analyst
Who Is mr. Data Scientist
Dsml for business.full version
Specialized knowledge
 Understanding theoretical concepts of statistics/probability, data mining, machine learning
 Understanding how these theoretical concepts could be applied to real world problems
 Ability to understand the nature of business problems and see the place of analytical models in the
solution
 Knowledge and hands-on experience with one or more of the following: Matlab/Octave, R, Python
 Familiarity with the concept of HPC, parallel computing
 Knowledge and hands-on experience with one or more of the following for data analytics:
Spark/Theano/TensorFlow/Caffee
Skills and abilities
 Strong English verbal and written communication
skills
 Deep analytical skills
 Self-organization, self-management
 Ability to work independently with limited
supervision
 Ability to handle multi-tasking activities
 Ability to learn quickly
 Following academic research and trends as a
habit
 Initiative and pro-active skills and flexibility
Experience
•Track record in data analysis, data science,
artificial intelligence
Personal characteristics
•Passion for learning and education
•Business orientation
•Result orientation
Job Context
•Customer facing role
•Sole responsibility over the analytical project
•High level of responsibility
•Simultaneous handling and fast processing of
multiple tasks
•Lots of educational and self-educational
activities
•Culture of knowledge sharing
Вывод
Конец рабочего дня!!!
Вывод
BA knowledge as a base
BA + DS = новые возможности
(не)Новые инновации
Что происходит
1924 - Present 2001 - Present 2015 - Present
Data-Driven Approach
Сбор всех данных
Какие именно –
рецепта нет
Data-Driven Approach
Объединение
данных
различного типа
The Evolution of Data-Driven Company
(не)Новые возможности
Вопросы
Предсказания
Data Science — это наука о
методах анализа данных и
извлечения из них ценной
информации, знаний.
Dsml for business.full version
Dsml for business.full version
Data Science Process
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
Cross-Industry
Standard Process for
Data Mining
Brussels, 1999
CRISP-DM
Data Science Process
Business
Analysis
Development
Evaluation
Deployment Data
Business
Understanding
Data
Understanding
Data
Preparation
Modeling
Data Science Pipeline
Вывод
Вывод
Больше половины нам и так знакомо
Пока все понятно.
Dsml for business.full version
Dsml for business.full version
Dsml for business.full version
Dsml for business.full version
Dsml for business.full version
Dsml for business.full version
Принцип машинного обучения
Dsml for business.full version
Предсказания
Варианты использования
Очевидные и невероятные
Персонализация
Рекомендация
Оптимизация
Безопасность
Автоматизация
Генерация
Прикладное применение
Индустрии
На какие вопросы отвечает Data Science?
На какие вопросы отвечает Data Science?
Это A или B?
Является ли это странным?
Сколько?
Как это организовано?
Что делать дальше?
Classification
Anomaly Detection
Regression
Clustering
Recommendation
1
2
3
4
5
На какие вопросы отвечает Data Science?
Сколько? Regression
Пример 2-х мерного пространства
Характеристик много, реальное
пространство многомерное
На какие вопросы отвечает Data Science?
Сколько? Regression
•Какой доход принесет клиент?
•Какой возраст у клиента?
•Сколько стоит этот объект (недвижимости)?
•Какая оптимальная стоимость услуги?
На какие вопросы отвечает Data Science?
Сколько? Regression
•Какой объем продаж будет в следующем месяце?
•Сколько сотрудников уволится в следующем
месяце?
•Прогноз прибыли или убытков по
филиалам/направлениями/продуктам/менеджерам?
Кластеризация
Как это организовано? Clustering
На какие вопросы отвечает Data Science?
Это A или B? Classification
•Какой категории этот клиент?
•Сотрудник уволится в следующем месяце?
•Вернет ли этот клиент кредит банку: Да или Нет?
1
•Какой пол клиента?
На какие вопросы отвечает Data Science?
Является ли это странным? Anomaly Detection2
Нормально ли это сообщение внутри интернет трафика?
Могли ли вы рассчитаться кредитной картой одновременно
из двух разных мест?
Нормально ли то, что клиент летит в Египет но заказал
экскурсию в Турции?
Рекомендательная система Collaborative Filtering
Рекомендательная система Collaborative Filtering
На какие вопросы отвечает Data Science?
Что добавить еще? Recommendation
•Какой товар можно еще докупить
•Какой контент можно просмотреть еще?
•Каким клиентам еще можно предложить эту услугу?
•Рекомендация друзей, специалистов (FB, LinkedIn)?
Case: Такси Uklon
Задачи:
• Сократить время ожидания
• Повысить кол-во заказов
Бизнес модель: Клиент имеет возможность сам назначить цену поездки
Проблема: Низкий % вывоза из определенных точек города
Решение: сервис прогноза оптимальной стоимости поездки
Целевые переменные:
• Ожидаемое время прибытия
• Процент выполнения заказа, план
Case: Такси Uklon
Features:
цена, конечная точка маршрута, марка машины, место прибытия, время суток, время года
Dataset:
Size = 20 Gb;
Count = 20 000 000 поездок;
Features = 20 характеристик;
Подходы:
Кластеры: отличаются от стандартного разделения города
на административные районы
Подходы:
Создание временных групп:
Сезоны, дни недели, время в сутках
Подходы:
300 ветвей дерева принятия решений
Архитектура:
Результаты
A/B testing:
В 75% случаев клиент не торгуется
Время ожидания и KPI улучшились на 5-15%
Bank & Finances
Николай Щербина
Попасть в девяточку: как с
помощью сегментации увеличить
конверсию на 473%
Персонализация коммуникаций:
как достучаться до каждого
Поток: CRM & Лояльность
На какие вопросы отвечает Data Science?
Как это организовано? Clustering
Dsml for business.full version
Демократизация технологий
Tools for quick starting
Tools for Machine Learning
Frameworks
Value
Data Science
Project Stages
Challenges
Фокус не на алгоритм а на результат
Эксперты не хотят терять монополию на
экспертизу
Размерность спринта иногда большая
Отсутствие данных
Challenges
Данные собираются для отчетности а не для анализа
Нет чистых данных
Требования объяснить результат
Попытка повлиять на полученные предсказания
Ответственность аналитика не за инсайт а за результат
Заказчик считает что данных предостаточно
Иногда нужна не аналитика а отчетность (30 вагонов продукции)
Советы
Использовать «пилоты»
Кол-во данных может быть небольшим
• 100% данных дают 100% результат
• 20% дают 80% результат
• 4% дают 60-70% результата (проверка гипотезы)
Работаем через гипотезы
Решать задачу бизнеса
• Например, остаток кеша в банкоматах не полезен для бизнеса.
Необходимо понимать изменение стоимости пролеживания
денег, штрафы за банкомат без денег, стоимость логистики
инкассации. Т.е. термины и показатели бизнеса
Вопросы
На какие вопросы отвечает Data Science?
Что делать дальше? Recommendation5
•Для робота-пылесоса: продолжить уборку или вернуться к зарядной станции?
•Для автомобиля с автономным управлением: при желтом сигнале светофора
затормозить или ускориться?
•Для боевого дрона: внизу это колонна боевиков или это дети из школы идут?
AI in Marketing
Meet Albert™
the First Artificial Intelligence Marketing
Platform for the Enterprise
Save Time More Accurate
Desigions
Increase
Revenue
Smart
Storage
Delight
Customers
High Value
Problem
Solving
Meet Albert™
Анализ
аудитории
Аналитика и
insights
Тестирование и
оптимизация
Исполнение
кампаний
Автозакупка
медиаресурсов
Client Success Story

More Related Content

PDF
Артем Плешаков — Intency DSP — ICBDA 2015
PDF
Splunk - универсальная платформа для работы с любыми данными
PDF
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
PDF
Евгений Линник. БКС. GIGO — секреты очистки данных
PDF
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
PDF
РИФ 2016, Предикативная аналитика
PDF
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
PDF
Bacon.2018.it pro network.ba for dsml
Артем Плешаков — Intency DSP — ICBDA 2015
Splunk - универсальная платформа для работы с любыми данными
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Евгений Линник. БКС. GIGO — секреты очистки данных
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
РИФ 2016, Предикативная аналитика
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
Bacon.2018.it pro network.ba for dsml

Similar to Dsml for business.full version (20)

PPTX
Data science
PDF
Профессия Data Scientist
PPTX
Прокачиваем информационные системы с помощью data science
PDF
DataTalks #6. Погружение в науку о данных
PPTX
Данные как искусство (1).pptsdsdsdsdsdsdsdx
PPTX
Одна лекция из мира Big Data: тренды, кейсы и технологии
PPTX
!Predictive analyticbasics part1
PDF
Data Science: с чего начать опытному программисту
PDF
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
PDF
Data Science Week 2016. Sberbank
PPTX
2015 голограмма коллектива
PPTX
Ruben Melkonian "Як невеликим і середнім компаніям заробити на Data Science"
PPTX
Digest dsc#1
PDF
Анализ данных: Data Science и Data Engineering @ GeekWeekConf 2015
PDF
Andrii Belas: Turning machine learning models into stuff that actually helps ...
PDF
Stolyarevska_data_scientist
PPTX
2015 06-16 круглый стол компетенции по большим данным
PDF
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
PDF
Introduction to Data Science
PPTX
Big Data: вызовы и возможности
Data science
Профессия Data Scientist
Прокачиваем информационные системы с помощью data science
DataTalks #6. Погружение в науку о данных
Данные как искусство (1).pptsdsdsdsdsdsdsdx
Одна лекция из мира Big Data: тренды, кейсы и технологии
!Predictive analyticbasics part1
Data Science: с чего начать опытному программисту
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Data Science Week 2016. Sberbank
2015 голограмма коллектива
Ruben Melkonian "Як невеликим і середнім компаніям заробити на Data Science"
Digest dsc#1
Анализ данных: Data Science и Data Engineering @ GeekWeekConf 2015
Andrii Belas: Turning machine learning models into stuff that actually helps ...
Stolyarevska_data_scientist
2015 06-16 круглый стол компетенции по большим данным
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
Introduction to Data Science
Big Data: вызовы и возможности
Ad

Dsml for business.full version