SlideShare una empresa de Scribd logo
Introducción a Data Science
19 de Agosto 2015 (12 pm GMT -5)
José L Rivera
Resumen:
En esta sesión estaremos viendo que es “Data Science”, que
necesitamos saber o aprender para poder convertirnos en un
científico de datos y estaremos viendo algunos ejemplos de usos
muy comunes usando lenguajes como Python, R y el cómo
podemos integrar estos en SQL Server y Azure . Al final de esta
charla tendrás un entendimiento más amplio de las técnicas de
manejos de datos, modelamiento, visualización y los lenguajes y
productos para poner tus proyectos en marcha
Está por comenzar:
Próximos Eventos
Conociendo los servicios
adicionales en BigData
26 de Agosto
Freddy Angarita
SQL Server Rápido y Furioso
2 de Setiembre
Alejandro Cordero
SQL como un servicio en la nube
9 de Setiembre
Warner Chaves
Moderador: Carlos Ulate
Manténgase conectado a nosotros!
Visítenos en http://globalspanish.sqlpass.org
/SpanishPASSVC
lnkd.in/dtYBzev
/user/SpanishPASSVC
/SpanishPASSVC
Introduccion a Data Science
Oportunidades de Voluntariado
PASS no pudiera existir sin personas apasionadas y
dedicadas de todas partes del mundo que dan de su
tiempo como voluntarios.
Se un voluntario ahora!!
Para identificar oportunidades locales visita
volunteer.sqlpass.org
Recuerda actualizar tu perfil en las secciones de
“MyVolunteering” y MyPASS para mas detalles.
Sigan Participando!
• Obtén tu membresía gratuita en sqlpass.org
• Linked In: http://www.sqlpass.org/linkedin
• Facebook: http://www.sqlpass.org/facebook
• Twitter: @SQLPASS
• PASS: http://www.sqlpass.org
Introducción a Data Science
19 de Agosto de 2015
Jose L Rivera, MBA
MVP | MCSE | MCSA | MCITP | MCSE
Chapter Leader – PASS Global Spanish VC
@SQLConqueror
Moderador: Carlos Ulate
Introduccion a Data Science
Agenda
• Conceptos básicos de Data Science (DS)
• Herramientas Microsoft para DS
• Herramientas OpenSource para DS
• Demos
• Q&A
Conceptos Básicos
hechos y estadísticas almacenadas para referencia o análisis
BI es un termino sombrilla que reúne a una variedad de aplicaciones
usadas para analizar la data de una empresa. Esta disciplina esta compuesta
de actividades relacionadas a minería de datos, procesamiento analítico (OLAP),
queries y reportes.
Data
Business Intelligence
Conceptos Básicos
es la extracción de conocimiento de grandes volúmenes de
datos estructurados y no estructurados mediante el uso de
técnicas de minería de datos y análisis predictivo
Data Science
Que es Data Science?
• Análisis Estadístico
• estadística inferencial
• Algoritmos
• Experimentos
• Programación
• “Hacking”
• Python, R, etc..
• Conocimiento del Negocio
• Reglas y procesos
Copyright © 2014 by Steven Geringer Raleigh, NC.
Permision is granted to use, distribute or modify this image,
Provided that this copyright notice remains intact.
Recopilación de Datos
Eventos Comportamiento Acción/Pruebas Resultado Observación Conjuntos
de Datos
• Características
• Ambiente
• Actividades
significativas al
negocio
• Medidas • Estructurada
• No Estructurada
• Semi-Estructurada
Quieres ser un Data Scientist?
Quieres ser un Data Scientist?
Resultados 2014
R vs Python
http://www.kdnuggets.com/2015/05/r-vs-python-data-science.html
Reloj de Data Science
http://www.exploringdatascience.com/the-data-science-clock/
• Destrezas básicas
• Fundamentos
• Análisis estadístico
• Machine Learning
• Text Mining/NLP
• Visualización
• Big Data
• Data Ingestion + Munging
• Herramientas
Ciclo de vida
Descubrimiento
de los datos
Preparación de
los datos
Desarrollo del
Modelo
Evaluación
Publicación
Monitoreo
SSAS Data Mining
• SQL Server 2005+
• Excel Add-in
Tipo de Algoritmo Uso Común
Clasificación
predice una o más variables discretas basadas en los otros atributos
del conjunto de datos
Regresión
predice una o más variables continuas basadas en los otros atributos
del conjunto de datos
Segmentación
divide los datos en grupos (clusters) de elementos que tiene
propiedades similares
Asociación
encuentra correlaciones entre los diferentes atributos en un conjunto
de datos
Análisis Secuencial
resume las secuencias frecuentes o episodios de los datos
SSAS Data Mining
DEMO
Excel Data Mining Add-in
R
• CRAN (versión oficial) - http://cran.r-project.org/
• 5,000+ paquetes (librerías)
• v 3.2.4
• RStudio (http://www.rstudio.com/)
• IDE para R
• Provee un experiencia integrada y simple
• Revolution Analytics (http://www.revolutionanalytics.com/)
• Otra versión de R
• Paralelismo y Rendimiento
• SQL Server 2016
Python
• Lenguaje de programación de uso general
• OOP
• Open Source - http://www.python.org/
• v 3.4.3 | 2.7.10
• Multiples IDEs
• IDLE
• Canopy
• IPython Notebook
DEMO
R en RStudio
Azure ML
• Servicio en la nube
• Algoritmos de ML
• Componentes para R y Python
• Publicación a Web-Service
DEMO
Azure Machine Learning (ML)
Recursos Adicionales
• www.r-bloggers.com/
• www.datasciencecentral.com
jose@sqlconqueror.com
Conociendo los servicios adicionales en BigData
26 de Agosto (12 pm GMT -5)
Freddy Angarita
Resúmen:
Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte
los lenguajes usados para su consumo, pero poco se hablado de los
servicios complementarios que pueden enriquecer la experiencia BigData,
conozca estos servicios y su aplicación
Próximo Evento

Más contenido relacionado

PDF
Preguntas guía de cara al examen de REDES
DOC
Características, componentes y arquitectura de los dbms.
PDF
Unidad II seguridad Fisica Lógica
PPTX
COMPUTACION EN LA NUBE
PDF
Resumen de Controles ISO 27002 - CNSD.pdf
PPTX
ORGANIZACIÓN Y DIRECCIÓN DE CENTROS INFORMÁTICOS
DOCX
Unidad 3 sistemas de información
PPTX
Amenazas y vulnerabilidades en la informática
Preguntas guía de cara al examen de REDES
Características, componentes y arquitectura de los dbms.
Unidad II seguridad Fisica Lógica
COMPUTACION EN LA NUBE
Resumen de Controles ISO 27002 - CNSD.pdf
ORGANIZACIÓN Y DIRECCIÓN DE CENTROS INFORMÁTICOS
Unidad 3 sistemas de información
Amenazas y vulnerabilidades en la informática

La actualidad más candente (20)

PDF
Politicas de-seguridad
PDF
PPTX
Introduccion bases de datos
 
PPT
Cloud Computing
PDF
Presentación-nessus
PPTX
Sistemas de información
PDF
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
PDF
Mapa mental sobre las tendencias de las redes
DOCX
Sesión13 - Archivos de Control (Oracle)
PDF
Cloud-Azure.pdf
PDF
PRACTICAS "COMANDOS Y REDES" PDF.
ODP
Active Directory
PDF
Presentación Data Center
PDF
Messagerie
PPT
Introduccion a las bases de datos
PPTX
Copias de seguridad
PPTX
Como instalar el windows server paso a paso
PPTX
Tipos de virtualizacion
PPTX
Tendencias futuras-de-los-sistemas-de-informacion
PPTX
Criptografia 1
Politicas de-seguridad
Introduccion bases de datos
 
Cloud Computing
Presentación-nessus
Sistemas de información
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Mapa mental sobre las tendencias de las redes
Sesión13 - Archivos de Control (Oracle)
Cloud-Azure.pdf
PRACTICAS "COMANDOS Y REDES" PDF.
Active Directory
Presentación Data Center
Messagerie
Introduccion a las bases de datos
Copias de seguridad
Como instalar el windows server paso a paso
Tipos de virtualizacion
Tendencias futuras-de-los-sistemas-de-informacion
Criptografia 1
Publicidad

Destacado (20)

ODP
Análisis de datos con Python
PPTX
Introducción a data science, la guía práctica para volverse data scientist
ODP
Python en ciencia Pycon Argentina 2009
PPTX
¿Conoces swift?
PPTX
Aplicaciones e impacto de la informatica en la Sociedad Actual
PDF
Análisis de datos: R vs Python
PPTX
APLICACIONES E IMPACTO D LA INFORMATICA EN LA SOCIEDAD ACTUAL
PPT
Developing iOS apps with Swift
PPTX
Impacto de las tics en la sociedad
PPTX
What is r in spanish.
PPTX
Summer school python in spanish
PDF
De los datos a las predicciones
PDF
Python + Ciencia = ♥
PPTX
Power point Impacto Social de La Informatica
PPTX
Impacto tic en_la_sociedad
DOCX
Importancia de las tic para la sociedad
PPTX
Impacto de las tics en la sociedad
PPTX
Big data para principiantes
PPTX
IMPACTO DE LAS TIC EN EL MUNDO DE HOY
Análisis de datos con Python
Introducción a data science, la guía práctica para volverse data scientist
Python en ciencia Pycon Argentina 2009
¿Conoces swift?
Aplicaciones e impacto de la informatica en la Sociedad Actual
Análisis de datos: R vs Python
APLICACIONES E IMPACTO D LA INFORMATICA EN LA SOCIEDAD ACTUAL
Developing iOS apps with Swift
Impacto de las tics en la sociedad
What is r in spanish.
Summer school python in spanish
De los datos a las predicciones
Python + Ciencia = ♥
Power point Impacto Social de La Informatica
Impacto tic en_la_sociedad
Importancia de las tic para la sociedad
Impacto de las tics en la sociedad
Big data para principiantes
IMPACTO DE LAS TIC EN EL MUNDO DE HOY
Publicidad

Similar a Introduccion a Data Science (20)

PPTX
Text Mining con R en SQL Server 2016
PPTX
Herramientas de Microsoft para el Científicos de Datos
PDF
Cómo construir tu propia data platform. From zero to hero.
PDF
PDF
Azure data lake
PPTX
Visualización de Big Data con Power View
PDF
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
PPT
Dts y analysis services 2000
PPT
Cursos Big Data Open Source
PPTX
Big Data en Azure: Azure Data Lake
PDF
Visualización de datos con Tableau Public - Comité de Investigación
PPTX
MIERCOLDSGDSGDSDZGSZAGSZDGASGDASGSDES.pptx
PDF
Azure Data Lake: integracion dentro de soluciones de inteligencia de negocios
PDF
Servicios de datos en Microsoft Azure
PPTX
BIT - Evento HOL Microsoft Azure v1
PDF
Webinar - Migración Oracle Business Intelligence a Oracle Analytics Server
PPTX
Oracle Data Mining.pptx
PPTX
Mejores Prácticas de SQL Server para implementar SharePoint Server
PPTX
GFI - APS BI Solucion Endeca (2013)
PDF
Brochure PEA DE24 (1) de la carrera de Sistemas
Text Mining con R en SQL Server 2016
Herramientas de Microsoft para el Científicos de Datos
Cómo construir tu propia data platform. From zero to hero.
Azure data lake
Visualización de Big Data con Power View
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Dts y analysis services 2000
Cursos Big Data Open Source
Big Data en Azure: Azure Data Lake
Visualización de datos con Tableau Public - Comité de Investigación
MIERCOLDSGDSGDSDZGSZAGSZDGASGDASGSDES.pptx
Azure Data Lake: integracion dentro de soluciones de inteligencia de negocios
Servicios de datos en Microsoft Azure
BIT - Evento HOL Microsoft Azure v1
Webinar - Migración Oracle Business Intelligence a Oracle Analytics Server
Oracle Data Mining.pptx
Mejores Prácticas de SQL Server para implementar SharePoint Server
GFI - APS BI Solucion Endeca (2013)
Brochure PEA DE24 (1) de la carrera de Sistemas

Más de SpanishPASSVC (20)

PPTX
Creación de un modelo de análisis predictivo en la nube
PPTX
Analizando la performance del subsistema de IO
PPTX
AlwaysON Lecciones Aprendidas
PPTX
Data Science con Microsoft R Server y SQL Server 2016
PPTX
Mejoras de Rendimiento para Replicación Transaccional
PPTX
Como leer planes de ejecución
PPTX
AlwaysOn en SQL Server 2016
PPTX
VMs de alto rendimiento para SQL Server en AWS y Azure
PDF
Tecnicas avanzadas de monitoreo
PDF
Principios de diseño para procesos de ETL
PPTX
Planeando e implementando servicios de datos con Microsoft Azure
PPTX
Mejores prácticas para SQL Server en ambientes virtualizados
PPTX
Mejores prácticas de Data Warehouse con SQL Server
PPTX
La receta de la abuela para mejores cargas de datos
PPTX
Introducción a Azure Machine Learning
PDF
Cuadros de mando el todo es más que la suma de las partes
PPTX
Automatizando la generación de Datawarehouses a través de metadatos
PPTX
Descubriendo el corazón de la optimización “Estadísticas más que un concepto”
PPTX
Administrando soluciones de Power BI
PPTX
Vista 360 grados de DataZen - Juan Alvarado
Creación de un modelo de análisis predictivo en la nube
Analizando la performance del subsistema de IO
AlwaysON Lecciones Aprendidas
Data Science con Microsoft R Server y SQL Server 2016
Mejoras de Rendimiento para Replicación Transaccional
Como leer planes de ejecución
AlwaysOn en SQL Server 2016
VMs de alto rendimiento para SQL Server en AWS y Azure
Tecnicas avanzadas de monitoreo
Principios de diseño para procesos de ETL
Planeando e implementando servicios de datos con Microsoft Azure
Mejores prácticas para SQL Server en ambientes virtualizados
Mejores prácticas de Data Warehouse con SQL Server
La receta de la abuela para mejores cargas de datos
Introducción a Azure Machine Learning
Cuadros de mando el todo es más que la suma de las partes
Automatizando la generación de Datawarehouses a través de metadatos
Descubriendo el corazón de la optimización “Estadísticas más que un concepto”
Administrando soluciones de Power BI
Vista 360 grados de DataZen - Juan Alvarado

Último (20)

PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PDF
SAP Transportation Management para LSP, TM140 Col18
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PPT
Que son las redes de computadores y sus partes
PPTX
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PPTX
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
PPTX
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
PDF
Maste clas de estructura metálica y arquitectura
PDF
Estrategia de apoyo tecnología grado 9-3
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PDF
Calidad desde el Docente y la mejora continua .pdf
PDF
Influencia-del-uso-de-redes-sociales.pdf
PPTX
Sesion 1 de microsoft power point - Clase 1
PPTX
Presentación de Redes de Datos modelo osi
PPTX
REDES INFORMATICAS REDES INFORMATICAS.pptx
PPT
introduccion a las_web en el 2025_mejoras.ppt
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
SAP Transportation Management para LSP, TM140 Col18
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Power Point Nicolás Carrasco (disertación Roblox).pptx
Zarate Quispe Alex aldayir aplicaciones de internet .docx
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
Que son las redes de computadores y sus partes
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
historia_web de la creacion de un navegador_presentacion.pptx
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
Maste clas de estructura metálica y arquitectura
Estrategia de apoyo tecnología grado 9-3
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
Calidad desde el Docente y la mejora continua .pdf
Influencia-del-uso-de-redes-sociales.pdf
Sesion 1 de microsoft power point - Clase 1
Presentación de Redes de Datos modelo osi
REDES INFORMATICAS REDES INFORMATICAS.pptx
introduccion a las_web en el 2025_mejoras.ppt

Introduccion a Data Science

  • 1. Introducción a Data Science 19 de Agosto 2015 (12 pm GMT -5) José L Rivera Resumen: En esta sesión estaremos viendo que es “Data Science”, que necesitamos saber o aprender para poder convertirnos en un científico de datos y estaremos viendo algunos ejemplos de usos muy comunes usando lenguajes como Python, R y el cómo podemos integrar estos en SQL Server y Azure . Al final de esta charla tendrás un entendimiento más amplio de las técnicas de manejos de datos, modelamiento, visualización y los lenguajes y productos para poner tus proyectos en marcha Está por comenzar: Próximos Eventos Conociendo los servicios adicionales en BigData 26 de Agosto Freddy Angarita SQL Server Rápido y Furioso 2 de Setiembre Alejandro Cordero SQL como un servicio en la nube 9 de Setiembre Warner Chaves Moderador: Carlos Ulate
  • 2. Manténgase conectado a nosotros! Visítenos en http://globalspanish.sqlpass.org /SpanishPASSVC lnkd.in/dtYBzev /user/SpanishPASSVC /SpanishPASSVC
  • 4. Oportunidades de Voluntariado PASS no pudiera existir sin personas apasionadas y dedicadas de todas partes del mundo que dan de su tiempo como voluntarios. Se un voluntario ahora!! Para identificar oportunidades locales visita volunteer.sqlpass.org Recuerda actualizar tu perfil en las secciones de “MyVolunteering” y MyPASS para mas detalles.
  • 5. Sigan Participando! • Obtén tu membresía gratuita en sqlpass.org • Linked In: http://www.sqlpass.org/linkedin • Facebook: http://www.sqlpass.org/facebook • Twitter: @SQLPASS • PASS: http://www.sqlpass.org
  • 6. Introducción a Data Science 19 de Agosto de 2015 Jose L Rivera, MBA MVP | MCSE | MCSA | MCITP | MCSE Chapter Leader – PASS Global Spanish VC @SQLConqueror Moderador: Carlos Ulate
  • 8. Agenda • Conceptos básicos de Data Science (DS) • Herramientas Microsoft para DS • Herramientas OpenSource para DS • Demos • Q&A
  • 9. Conceptos Básicos hechos y estadísticas almacenadas para referencia o análisis BI es un termino sombrilla que reúne a una variedad de aplicaciones usadas para analizar la data de una empresa. Esta disciplina esta compuesta de actividades relacionadas a minería de datos, procesamiento analítico (OLAP), queries y reportes. Data Business Intelligence
  • 10. Conceptos Básicos es la extracción de conocimiento de grandes volúmenes de datos estructurados y no estructurados mediante el uso de técnicas de minería de datos y análisis predictivo Data Science
  • 11. Que es Data Science? • Análisis Estadístico • estadística inferencial • Algoritmos • Experimentos • Programación • “Hacking” • Python, R, etc.. • Conocimiento del Negocio • Reglas y procesos Copyright © 2014 by Steven Geringer Raleigh, NC. Permision is granted to use, distribute or modify this image, Provided that this copyright notice remains intact.
  • 12. Recopilación de Datos Eventos Comportamiento Acción/Pruebas Resultado Observación Conjuntos de Datos • Características • Ambiente • Actividades significativas al negocio • Medidas • Estructurada • No Estructurada • Semi-Estructurada
  • 13. Quieres ser un Data Scientist?
  • 14. Quieres ser un Data Scientist? Resultados 2014
  • 16. Reloj de Data Science http://www.exploringdatascience.com/the-data-science-clock/ • Destrezas básicas • Fundamentos • Análisis estadístico • Machine Learning • Text Mining/NLP • Visualización • Big Data • Data Ingestion + Munging • Herramientas
  • 17. Ciclo de vida Descubrimiento de los datos Preparación de los datos Desarrollo del Modelo Evaluación Publicación Monitoreo
  • 18. SSAS Data Mining • SQL Server 2005+ • Excel Add-in Tipo de Algoritmo Uso Común Clasificación predice una o más variables discretas basadas en los otros atributos del conjunto de datos Regresión predice una o más variables continuas basadas en los otros atributos del conjunto de datos Segmentación divide los datos en grupos (clusters) de elementos que tiene propiedades similares Asociación encuentra correlaciones entre los diferentes atributos en un conjunto de datos Análisis Secuencial resume las secuencias frecuentes o episodios de los datos
  • 21. R • CRAN (versión oficial) - http://cran.r-project.org/ • 5,000+ paquetes (librerías) • v 3.2.4 • RStudio (http://www.rstudio.com/) • IDE para R • Provee un experiencia integrada y simple • Revolution Analytics (http://www.revolutionanalytics.com/) • Otra versión de R • Paralelismo y Rendimiento • SQL Server 2016
  • 22. Python • Lenguaje de programación de uso general • OOP • Open Source - http://www.python.org/ • v 3.4.3 | 2.7.10 • Multiples IDEs • IDLE • Canopy • IPython Notebook
  • 24. Azure ML • Servicio en la nube • Algoritmos de ML • Componentes para R y Python • Publicación a Web-Service
  • 28. Conociendo los servicios adicionales en BigData 26 de Agosto (12 pm GMT -5) Freddy Angarita Resúmen: Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación Próximo Evento