SlideShare a Scribd company logo
DATA SCIENCE
Azimiddin
Rakhmatov
Консультант ОБСЕ
Руководитель
RBC Group Solutions
В этой сессии
Определимся:
– что такое Big Data
– что такое Data Science
– кто такой Data Science
– что такое известное неизвестное и неизвестное
известное
погрузимся немного во внутренности Data Science
в конце посмотрим кейсы Data Science по борьбе с
бедностью
Человек на луне – 1969 год
Компьютерная программа:
Дата: 1969
Память: 64Кб, Оперативная память: 2Кб
Fortran
Должна работать с 1 раза!
Космический корабль: Аполлон 11
Скорость: 3 500 км/
Масса: 13,5 тонны
Большое количество данных
Человек на луне
Расстояние 356 000 км
Никогда ранее не был
Должен вернутся назад!
Apollo 11, 1969
Задача: доставить на
луну и вернуть
человека с луны
64 Кб
Dragon Crew SpaceX
Задача: доставить и
вернуть человека с
орбиты
x100 Гб
Big Data это не большой объем данных
всегда
не только
Что такое Big Data?
это чушь
Это новомодный термин используемый отдельными IT поставщиками
для продвижения старомодных программ и оборудования
(с) Carlos Somohano / Основатель школы Data Science London
Что такое Big Data?
Volume
Variety
Velocity
Veracity
V…Академическийответ
Что такое Big Data?
это движущая сила к изменению способа сбора, хранения,
управления, анализа и визуализации данных
(с) Carlos Somohano / Основатель школы Data Science London
Нефть
Big Data = Нефть (не новая нефть)
Представьте что Данные это Нефть.
Big Data это добыча нефти, ее транспортировка в
мега-танкерах и трубопроводах и хранение в
огромных нефтехранилищах.
Это все про Big Data, отлично!
НО…
Вы должны очистить сырую нефть
и тут на сцене появляется Data Science
Наука (Искусство) о данных
Выявление чего мы не знаем о данных
Достижение предиктивного, действенного понимая данных
Создание дата продукта полезного для бизнеса
Предоставление релевантных бизнес сценариев из данных
Поддержка принятия управленческих и бизнес решений
Краткая история Data Science
VI д.н.э, I н.э. – Греки. Пирронизм, Скептицизм, Эмпиризм…
1974 – Peter Naur @UoC Datalogy Data Science
2001 – William S. Cleveland @CSU Data Science: An Action Plan …
2002 – Committee on Data for Science Technology (CODATA)
2003 – Journal of Data Science
2009 – Jeff Hammerbacher @ Facebook What does a Data Scientist Do?
2010 – Drew Conway @NYU The Data Science Venn Diagram
2010 – Hillary Mason Chris Wiggins @Dataists “
2010 – Mike Loukadis @O’Reilly “What is Data Science?”
2011 – DJ Patil @LinkedIn data scientist vs. data analyst
Data Science
Кто такой Data Scientist?
Утконос (Ornithorhynchus anatinus)
Data Scientist (Data Scientistium)
(с) Josh Wills 2012
Data science
Homo Data Scientistium
Скептичный,
Любознательный,
Характер нордический, выдержанный.
Знает машинное обучение, статистику, теорию
вероятностей.
Экспериментатор.
Умеет применять нестандартные хакерские
подходы в решении задач.
Умеет иметь дело с ИТ-инжинирингом данных.
Знает, как создавать продукты данных. Умеет
находить ответы на известные неизвестные.
Data science
Инструменты DS
• Java, R, Python… (bonus: Clojure, Haskell, Scala)
• Hadoop, HDFS MapReduce… (bonus: Spark, Storm)
• HBase, Pig Hive… (bonus: Shark, Impala, Cascalog)
• ETL, Webscrapers, Flume, Sqoop… (bonus: Hume)
• SQL, RDBMS, DW, OLAP…
• Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-learn,
pandas)
• D3.js, Gephi, ggplot2, Tableau, Flare, Shiny… SPSS, Matlab,
SAS…
• NoSQL, Mongo DB, Couchbase, Cassandra…
• And Yes! … MS-Excel: the most used, most underrated DS tool
10 вещей обязательных для DS
1 Задавать хорошие вопросы.
– Что есть что… …
– мы не знаем? ...
– мы хотели бы знать?
2 Придумывать и проверять гипотезы путем экспериментов
3 Определять и очищать актуальные данные для бизнеса
4 Структурировать и укрощать данные
5 Изучать и исследовать данные, играть с ними. Открывать
неизведанное.
6 Модели данных и алгоритмические модели
7 Понимать взаимосвязи данных
8 Обучать машину понимать данные
9 Создавать жизненные продукты данные
10 Извлекать бизнес кейсы из данных
DIKUW
Модели данных и алгоритмические
модели
Модель данных
Алгоритмическая
модель
Y  f( X, случайные
помехи, параметры)
Y  [черный ящик]
X
У нас есть понимание мира
Мы знаем как работает наша модель данных
Линейная регрессия
Логическая регрессия
Распределения
Доверительные интервалы
Независимые переменные и их применимость к модели
У нас нет понимания мира
Мир генерирует данные в черном ящике
Data Scientist
ML & AI и нейронные сети
Случайный лес, Опорные векторы,
Неизвестное мульти вариативные распределения
Итеративы
Достоверные прогнозы
Методология DS 1
Методология DS 2
Данные как продукт
…Созданный из необработанных данных
... Результат исследования и итераций
... Машина, обучаемая на данных
... Ответы на известные неизвестные или неизвестные неизвестные
… Механизм, который предоставляет непосредственную ценность для бизнеса
… Определяет вероятностное окно будущих событий
DS Борьба с бедностью – кейс 1
Определение бедности на основе данных мобильной связи
http://www.washington.edu/news/2015/11/30/uw-researchers-estimate-
poverty-and-wealth-from-cell-phone-metadata/
Индикаторы:
По сумме оплат за телефон (те, кто покупает на 10 долларов
больше времени, обычно богаче тех, кто покупает 50 центов
времени)
Ежедневный ритм звонков - звонки в дневное рабочее время
систематически отличаются от неругулярных звонков, возможно,
потому, что они, скорее всего экономически заняты.
Степень, с которой человек может сделать больше, чем принимать
телефонные звонки. Это также отражает явление, называемое
«звонок ташладим», когда более бедный человек звонит более
состоятельному другу и быстро кладет трубку, посылая сигнал, что
ему следует перезвонить.
DS Борьба с бедностью – кейс 2
Выявление бедности:
посредством анализа спутниковых снимков ночного освещения
Имеется прямая связь между ночным
освещением и благосостоянием проживающим
в данном районе населением.
http://www.jblumenstock.com/files/papers/jbl
umenstock_2016_science.pdf
DS Борьба с бедностью
World Bank Pover-T Tests challenge
https://www.drivendata.org/competitions/50/worldbank-poverty-prediction/
Исходники в git
https://github.com/drivendataorg/pover-t-
tests/tree/9a1918856c5e6ee537caed103eb80dabefb2fe44
https://datahack.analyticsvidhya.com/contest/
all/
Посмотрите хакатоны здесь
(есть очень интересные темы):
Спасибо за время

More Related Content

PPTX
Открытая лекция А. Левенчука
PPTX
А.Левенчук -- privacy и нейронет
PPTX
А.Левенчук -- киберэкспертиза: мифы и реальность
PPTX
Данные как искусство (1).pptsdsdsdsdsdsdsdx
PDF
Dsml for business.full version
PDF
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
PDF
Bacon.2018.it pro network.ba for dsml
PPTX
!Predictive analyticbasics part1
Открытая лекция А. Левенчука
А.Левенчук -- privacy и нейронет
А.Левенчук -- киберэкспертиза: мифы и реальность
Данные как искусство (1).pptsdsdsdsdsdsdsdx
Dsml for business.full version
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
Bacon.2018.it pro network.ba for dsml
!Predictive analyticbasics part1

Similar to Data science (20)

PDF
Stolyarevska_data_scientist
PDF
Профессия Data Scientist
PPTX
Одна лекция из мира Big Data: тренды, кейсы и технологии
PDF
DataTalks #6. Погружение в науку о данных
PDF
How to become a Data Scientist
PPTX
2015 голограмма коллектива
PDF
Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.
PPTX
Прокачиваем информационные системы с помощью data science
PDF
InData Labs R&D Lab Presentation
PDF
Продвинутый анализ и машинное обучение с помощью виртуализации данных
PDF
Анализ данных просто и доступно - урок 1
PDF
Чему учиться, чтобы заниматься дата-журналистикой
PDF
Григорий Бакунов (Яндекс)
PPTX
Big Data: вызовы и возможности
PPTX
2015 06-16 круглый стол компетенции по большим данным
PDF
Революция Больших Данных
PPTX
Искусственный интеллект и Big Data в бизнесе
PDF
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
PDF
Introduction to Data Science
PDF
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Stolyarevska_data_scientist
Профессия Data Scientist
Одна лекция из мира Big Data: тренды, кейсы и технологии
DataTalks #6. Погружение в науку о данных
How to become a Data Scientist
2015 голограмма коллектива
Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.
Прокачиваем информационные системы с помощью data science
InData Labs R&D Lab Presentation
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Анализ данных просто и доступно - урок 1
Чему учиться, чтобы заниматься дата-журналистикой
Григорий Бакунов (Яндекс)
Big Data: вызовы и возможности
2015 06-16 круглый стол компетенции по большим данным
Революция Больших Данных
Искусственный интеллект и Big Data в бизнесе
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Introduction to Data Science
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Ad

Data science

  • 3. В этой сессии Определимся: – что такое Big Data – что такое Data Science – кто такой Data Science – что такое известное неизвестное и неизвестное известное погрузимся немного во внутренности Data Science в конце посмотрим кейсы Data Science по борьбе с бедностью
  • 4. Человек на луне – 1969 год Компьютерная программа: Дата: 1969 Память: 64Кб, Оперативная память: 2Кб Fortran Должна работать с 1 раза! Космический корабль: Аполлон 11 Скорость: 3 500 км/ Масса: 13,5 тонны Большое количество данных Человек на луне Расстояние 356 000 км Никогда ранее не был Должен вернутся назад!
  • 5. Apollo 11, 1969 Задача: доставить на луну и вернуть человека с луны 64 Кб Dragon Crew SpaceX Задача: доставить и вернуть человека с орбиты x100 Гб
  • 6. Big Data это не большой объем данных всегда не только
  • 7. Что такое Big Data? это чушь Это новомодный термин используемый отдельными IT поставщиками для продвижения старомодных программ и оборудования (с) Carlos Somohano / Основатель школы Data Science London
  • 8. Что такое Big Data? Volume Variety Velocity Veracity V…Академическийответ
  • 9. Что такое Big Data? это движущая сила к изменению способа сбора, хранения, управления, анализа и визуализации данных (с) Carlos Somohano / Основатель школы Data Science London
  • 11. Big Data = Нефть (не новая нефть) Представьте что Данные это Нефть. Big Data это добыча нефти, ее транспортировка в мега-танкерах и трубопроводах и хранение в огромных нефтехранилищах. Это все про Big Data, отлично! НО…
  • 12. Вы должны очистить сырую нефть и тут на сцене появляется Data Science
  • 13. Наука (Искусство) о данных Выявление чего мы не знаем о данных Достижение предиктивного, действенного понимая данных Создание дата продукта полезного для бизнеса Предоставление релевантных бизнес сценариев из данных Поддержка принятия управленческих и бизнес решений
  • 14. Краткая история Data Science VI д.н.э, I н.э. – Греки. Пирронизм, Скептицизм, Эмпиризм… 1974 – Peter Naur @UoC Datalogy Data Science 2001 – William S. Cleveland @CSU Data Science: An Action Plan … 2002 – Committee on Data for Science Technology (CODATA) 2003 – Journal of Data Science 2009 – Jeff Hammerbacher @ Facebook What does a Data Scientist Do? 2010 – Drew Conway @NYU The Data Science Venn Diagram 2010 – Hillary Mason Chris Wiggins @Dataists “ 2010 – Mike Loukadis @O’Reilly “What is Data Science?” 2011 – DJ Patil @LinkedIn data scientist vs. data analyst
  • 18. Data Scientist (Data Scientistium)
  • 21. Homo Data Scientistium Скептичный, Любознательный, Характер нордический, выдержанный. Знает машинное обучение, статистику, теорию вероятностей. Экспериментатор. Умеет применять нестандартные хакерские подходы в решении задач. Умеет иметь дело с ИТ-инжинирингом данных. Знает, как создавать продукты данных. Умеет находить ответы на известные неизвестные.
  • 23. Инструменты DS • Java, R, Python… (bonus: Clojure, Haskell, Scala) • Hadoop, HDFS MapReduce… (bonus: Spark, Storm) • HBase, Pig Hive… (bonus: Shark, Impala, Cascalog) • ETL, Webscrapers, Flume, Sqoop… (bonus: Hume) • SQL, RDBMS, DW, OLAP… • Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-learn, pandas) • D3.js, Gephi, ggplot2, Tableau, Flare, Shiny… SPSS, Matlab, SAS… • NoSQL, Mongo DB, Couchbase, Cassandra… • And Yes! … MS-Excel: the most used, most underrated DS tool
  • 24. 10 вещей обязательных для DS 1 Задавать хорошие вопросы. – Что есть что… … – мы не знаем? ... – мы хотели бы знать? 2 Придумывать и проверять гипотезы путем экспериментов 3 Определять и очищать актуальные данные для бизнеса 4 Структурировать и укрощать данные 5 Изучать и исследовать данные, играть с ними. Открывать неизведанное. 6 Модели данных и алгоритмические модели 7 Понимать взаимосвязи данных 8 Обучать машину понимать данные 9 Создавать жизненные продукты данные 10 Извлекать бизнес кейсы из данных
  • 25. DIKUW
  • 26. Модели данных и алгоритмические модели Модель данных Алгоритмическая модель Y  f( X, случайные помехи, параметры) Y  [черный ящик] X У нас есть понимание мира Мы знаем как работает наша модель данных Линейная регрессия Логическая регрессия Распределения Доверительные интервалы Независимые переменные и их применимость к модели У нас нет понимания мира Мир генерирует данные в черном ящике Data Scientist ML & AI и нейронные сети Случайный лес, Опорные векторы, Неизвестное мульти вариативные распределения Итеративы Достоверные прогнозы
  • 29. Данные как продукт …Созданный из необработанных данных ... Результат исследования и итераций ... Машина, обучаемая на данных ... Ответы на известные неизвестные или неизвестные неизвестные … Механизм, который предоставляет непосредственную ценность для бизнеса … Определяет вероятностное окно будущих событий
  • 30. DS Борьба с бедностью – кейс 1 Определение бедности на основе данных мобильной связи http://www.washington.edu/news/2015/11/30/uw-researchers-estimate- poverty-and-wealth-from-cell-phone-metadata/ Индикаторы: По сумме оплат за телефон (те, кто покупает на 10 долларов больше времени, обычно богаче тех, кто покупает 50 центов времени) Ежедневный ритм звонков - звонки в дневное рабочее время систематически отличаются от неругулярных звонков, возможно, потому, что они, скорее всего экономически заняты. Степень, с которой человек может сделать больше, чем принимать телефонные звонки. Это также отражает явление, называемое «звонок ташладим», когда более бедный человек звонит более состоятельному другу и быстро кладет трубку, посылая сигнал, что ему следует перезвонить.
  • 31. DS Борьба с бедностью – кейс 2 Выявление бедности: посредством анализа спутниковых снимков ночного освещения Имеется прямая связь между ночным освещением и благосостоянием проживающим в данном районе населением. http://www.jblumenstock.com/files/papers/jbl umenstock_2016_science.pdf
  • 32. DS Борьба с бедностью World Bank Pover-T Tests challenge https://www.drivendata.org/competitions/50/worldbank-poverty-prediction/ Исходники в git https://github.com/drivendataorg/pover-t- tests/tree/9a1918856c5e6ee537caed103eb80dabefb2fe44 https://datahack.analyticsvidhya.com/contest/ all/ Посмотрите хакатоны здесь (есть очень интересные темы):