SlideShare una empresa de Scribd logo
Luis David Narváez
Capítulo 3: Todo genera
datos
Introducción a Internet de las cosas
2
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 3.1 Datos masivos
• Explique el concepto de datos masivos.
• Describir las fuentes de datos masivos.
• Explique los desafíos y las soluciones para el almacenamiento de datos masivos.
• Explique cómo el análisis de datos masivos se utilizan para apoyar las actividades
empresariales.
Capítulo 3: Secciones y objetivos
3
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
3.1 Datos masivos
4
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 Los datos son la información que proviene de una
variedad de fuentes, como personas, imágenes, texto,
sensores, sitios web y dispositivos de tecnología.
 Hay tres características que indican que una
organización puede estar haciendo frente a datos
masivos:
• Una gran cantidad de datos que requiere cada vez más
espacio de almacenamiento (volumen).
• Una cantidad de datos que crece exponencialmente rápido
(velocidad).
• Datos que se generan en diferentes formatos (variedad).
 Ejemplos de volúmenes de datos recopilados por los
sensores:
• Un automóvil autónomo puede generar 4000 gigabits (Gb) de
datos por día.
• Un hogar inteligente conectado puede producir 1 gigabyte (GB)
de información de la semana.
¿Qué son los datos masivos o Big Data?
¿Qué son los datos masivos o Big Data?
5
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
¿Qué son los datos masivos o Big Data?
https://www.youtube.com/watch?v=59b0rINnBuU
6
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
¿La empresa genera datos masivos?
7
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
¿La empresa genera datos masivos?
8
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
¿La empresa genera datos masivos?
9
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
¿La empresa genera datos masivos?
10
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
¿La empresa genera datos masivos?
11
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
¿La empresa genera datos masivos?
12
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 Las empresas no necesariamente
tienen que generar sus propios
datos masivos.
 Hay fuentes de conjuntos de datos
gratuitos disponibles y listas para
usar y analizar.
¿Qué son los datos masivos o Big Data?
Grandes conjuntos de datos
13
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
¿Qué son los datos masivos o Big Data?
Práctica de laboratorio: búsqueda en base de datos
14
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 Los cálculos de datos masivos de IBM
concluyen que “cada día creamos 2,5
trillones de bytes de datos”.
 Hay cinco problemas de magnitud en
cuanto al almacenamiento con los
datos masivos:
• Administración
• Seguridad
• Redundancia
• Análisis
• Acceso
¿Dónde se almacenan los datos masivos?
¿Cuáles son los desafíos de los datos masivos?
15
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 Por lo general, los datos masivos se
almacenan en varios servidores en
centros de datos.
 La computación en la niebla utiliza dispositivos
“perimetrales” o de clientes de usuarios
finales para ejecutar gran parte del
procesamiento previo y almacenamiento.
• Los datos adquiridos a partir de ese análisis de
procesamiento previo pueden introducirse en los
sistemas de las empresas para modificar los
procesos, de ser necesario.
• Las comunicaciones hacia y desde los
servidores y dispositivos es más rápida y
requiere menos ancho de banda que lo que
supondría constantemente recurrir a la nube.
¿Dónde se almacenan los datos masivos?
¿Dónde podemos almacenar los datos masivos?
16
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 La nube es una colección de centros de datos o grupos de servidores
conectados.
 Los servicios en la nube para las personas incluyen lo siguiente:
• Almacenamiento de datos, tales como imágenes, música, películas y
correos electrónicos.
• Acceso a muchas aplicaciones en lugar de descargar en el dispositivo local.
• Acceso a datos y aplicaciones en cualquier lugar, en cualquier momento y en
cualquier dispositivo.
 Los servicios en la nube para las empresas incluyen lo siguiente:
• Acceso a los datos de la organización en cualquier momento y en cualquier
lugar.
• Optimiza las operaciones de TI de una organización.
• Elimina o reduce la necesidad de equipos, mantenimiento, y administración
de TI en el sitio.
• Reduce el costo de necesidades de equipos, energía, requisitos físicos de
la planta y la capacitación del personal.
¿Dónde se almacenan los datos masivos?
La nube y la computación en la nube
17
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 El procesamiento de datos distribuidos toma el enorme
volumen de datos y lo divide en partes más pequeñas.
 Estas partes más pequeñas se distribuyen en
muchas ubicaciones para que las procesen varias
computadoras.
 Cada computadora de la arquitectura distribuida
analiza su parte del total de datos masivos
(escalabilidad horizontal).
 Hadoop se creó para manejar estos volúmenes de
datos masivos. Tiene dos características principales
que lo han transformado en el estándar de la industria:
• Escalabilidad: los tamaños de clúster más grandes mejoran
el rendimiento y proporcionan capacidades de procesamiento
de datos más altas.
• Tolerancia a fallas: Hadoop automáticamente replica los
datos a través de los clústeres.
¿Dónde se almacenan los datos masivos?
Procesamiento distribuido
18
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 El análisis de datos permite que las empresas
comprendan mejor el impacto de sus productos y
servicios, ajusten sus métodos y objetivos, y proporcionen
a sus clientes mejores productos más rápido.
 Los valores provienen de los dos tipos de datos
procesados principales: transaccionales y analíticos.
 La información transaccional se captura y se procesa
a medida que se producen eventos.
• Se utiliza para analizar informes de ventas y planes de
fabricación diarios a fin de determinar cuánto inventario
transportar.
 La información analítica permite que se realicen tareas
de análisis a nivel gerencial, como determinar si la
organización debe instalar una nueva planta de
fabricación.
Soporte de empresas con datos masivos
¿Por qué las empresas analizan datos?
19
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 Los datos se originan a partir de sensores y cualquier
elemento que se haya explorado, introducido y
publicado en Internet.
 Los datos recopilados se pueden clasificar como
estructurados o no estructurados.
 Los datos estructurados son creados por aplicaciones
que utilizan la entrada de formato "fijo", como las hojas
de cálculo. Es posible que se deban manipular en un
formato común como CSV.
 Los datos no estructurados se generan en un estilo de
“forma libre”, como audio, video, páginas web y tweets.
 Entre los ejemplos de herramientas para preparar datos
no estructurados para el procesamiento se encuentran:
• Las herramientas que «raspan la red» (web scraping) extraen
datos de páginas HTML automáticamente.
• Interfaces del programa de aplicación (API) RESTful.
Soporte de empresas con datos masivos
Fuentes de información
20
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
Soporte para empresas con datos masivos
Minería de datos
https://www.youtube.com/watch?v=QY09nSg-KBk
21
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 La minería de datos es el proceso por el cual los datos
sin procesar se transforman en información
significativa.
 Los datos sometidos a minería de datos se deben analizar
y presentar a los administradores y las personas
responsables de tomar decisiones.
 La determinación de las mejores herramientas de
visualización que se deben usar variará en función de lo
siguiente:
• Cantidad de variables
• Cantidad de puntos de datos en cada variable
• Representan los datos una línea de tiempo
• Los elementos requieren comparaciones
 Entre los gráficos populares se incluyen gráficos
circulares, de líneas, de columnas, de barras y de
dispersión.
Soporte para empresas con datos masivos
Visualización de datos
22
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
Soporte para empresas con datos masivos
Tipos de gráficos
23
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
 El análisis de datos es el proceso de inspección,
limpieza, transformación y creación de modelos de
datos para descubrir información útil.
 Tener una estrategia permite que una empresa
determine el tipo de análisis requerido y la mejor
herramienta para realizar el análisis.
 Las herramientas y aplicaciones varían desde el uso
de una hoja de cálculo de Excel o Google Analytics
para muestras de datos de pequeñas a medianas,
hasta las aplicaciones dedicadas a la manipulación
y al análisis de conjuntos de datos realmente
masivos.
 Entre los ejemplos se incluyen a Knime, OpenRefine,
Orange y RapidMiner.
Soporte de empresas con datos masivos
Análisis de datos masivos para el uso eficaz en la empresa
24
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
Soporte de empresas con datos masivos
¿Qué es Google Analytics?
https://www.youtube.com/watch?v=MV_GmTWQ7Rk
25
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
Soporte de empresas con datos masivos
Excel: pronósticos
https://www.youtube.com/watch?v=LsXDBpU4Xog&t=178s
26
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
Soporte de empresas con datos masivos
Práctica de laboratorio en Excel: pronósticos
27
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
3.2 Resumen del capítulo
28
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
Resumen del capítulo
Resumen
 Las tres características de los datos masivos son las siguientes:
• Gran cantidad de datos que requiere cada vez más espacio de almacenamiento (volumen)
• Rápido crecimiento exponencial (velocidad)
• Generados en diferentes formatos (variedad)
 La computación en la niebla utiliza dispositivos “perimetrales” o de clientes de usuarios finales para
ejecutar el procesamiento previo y almacenamiento.
• Se diseñó con el fin de mantener los datos más cerca del origen para su procesamiento previo.
 La nube es un conjunto de centros de datos o grupos de servidores conectados que ofrecen acceso a
software, almacenamiento y servicios, en cualquier lugar y en cualquier momento, mediante una interfaz
de navegador.
• Proporciona un aumento del almacenamiento de datos y reduce la necesidad de equipos de TI en el
sitio, mantenimiento y administración.
 El procesamiento de datos distribuidos toma grandes volúmenes de datos de una fuente y los divide en
partes más pequeñas, y los distribuye en muchas ubicaciones para que se procesen.
• Cada computadora de la arquitectura distribuida analiza su parte del total de datos masivos.
29
© 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.
Resumen del capítulo
Resumen (continuación)
 Las empresas obtienen valor mediante la recopilación y el análisis de datos para
comprender el impacto de los productos y servicios, ajustar los métodos y objetivos, y
proporcionar a sus clientes mejores productos con mayor rapidez.
 Los datos estructurados se crean mediante aplicaciones que utilizan entradas de formato “fijo”,
como hojas de cálculo o formularios médicos.
 Los datos no estructurados se generan en un estilo de “forma libre”, como audio, video,
páginas web y tweets.
 Ambas formas de datos deben manipularse en un formato común para su análisis.
 La minería de datos es el proceso que se utiliza para convertir los datos sin procesar en
información significativa al detectar patrones y relaciones en los grandes conjuntos de datos.
 La visualización de datos es el proceso que se utiliza para captar los datos analizados y usar
gráficos como línea, columna, barra, diagrama o dispersión para presentar la información
importante.
3.1. Datos Adquisición

Más contenido relacionado

PDF
1.1 Perspectivas e impactos
PDF
4.1. Protocolos Automotion
PPTX
4.2. Protocolos IOT seguridad datos
PDF
Seguridad en Cloud Computing
PDF
1.2. Perspectivas de Ciberseguridad
DOCX
Trabajo de word informatica- Victor Ulices Vargas,
PDF
CTRL - Seguridad & Infraestructura
PPSX
Seguridad Informática.
1.1 Perspectivas e impactos
4.1. Protocolos Automotion
4.2. Protocolos IOT seguridad datos
Seguridad en Cloud Computing
1.2. Perspectivas de Ciberseguridad
Trabajo de word informatica- Victor Ulices Vargas,
CTRL - Seguridad & Infraestructura
Seguridad Informática.

La actualidad más candente (20)

PPSX
Portafolio netBytes 2012
PDF
1.1 Fundamentos Redes Seguras
PDF
Ricardo ojeda
PPT
Audema
PPTX
Presentacion softgasa 160211
PPSX
PPT
SafeStick - aTICser v4
PDF
Redes Cisco.pdf
PPTX
Svt cloud security services - Catalogo de Servicios
PPT
IV Jornadas de Ciberseguridad en Andalucía: Modelo de Gobierno y Gestión de l...
PDF
Las 5 principales ciberamenazas en el sector financiero
PDF
Whitepaper: Principales medidas de seguridad para los teletrabajadores
PDF
BROCHURE DOBLEFACTOR
PDF
procedimiento de seguridad y proteccion
PDF
"Entornos seguros y rentables para los negocios digitales" - Juan Carlos Puen...
PDF
DNIe como acceso universal en entornos multiplataforma
PPTX
Asegurando y Acelerando la Transformación Digital – Seguridad para los Activo...
PPTX
PDF
Win Magic Spanish 2009 10 22
PDF
Soluciones de seguridad para Cloud
Portafolio netBytes 2012
1.1 Fundamentos Redes Seguras
Ricardo ojeda
Audema
Presentacion softgasa 160211
SafeStick - aTICser v4
Redes Cisco.pdf
Svt cloud security services - Catalogo de Servicios
IV Jornadas de Ciberseguridad en Andalucía: Modelo de Gobierno y Gestión de l...
Las 5 principales ciberamenazas en el sector financiero
Whitepaper: Principales medidas de seguridad para los teletrabajadores
BROCHURE DOBLEFACTOR
procedimiento de seguridad y proteccion
"Entornos seguros y rentables para los negocios digitales" - Juan Carlos Puen...
DNIe como acceso universal en entornos multiplataforma
Asegurando y Acelerando la Transformación Digital – Seguridad para los Activo...
Win Magic Spanish 2009 10 22
Soluciones de seguridad para Cloud
Publicidad

Similar a 3.1. Datos Adquisición (20)

PPTX
Capítulo 3 todo genera datos
PDF
BIG DATA - IESTP PISCO - VASQUEZ SOTO MARITZA.pdf
PDF
Big data
PPTX
Datos masivoszzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzz
PDF
¿Qué es el Big Data?
DOCX
PDF
Boletín Interoute nº20
PDF
Las Tic y las Big Data
PDF
Big Data Architecture con Pentaho
DOCX
Cloud computing
DOCX
Cloud computing
PDF
Sesión 12 semana 14
PPTX
ACTUALIDAD (Bidgoin, Blockchain, Cloud Nube, La Nube y La Fibra Óptica)
PDF
Big data
PDF
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
PPTX
Fundamentos.pptx
PDF
Profesión: Big Data
PPTX
TRABAJO DE INVESTIGACION
DOCX
Big data
PDF
Data Center
Capítulo 3 todo genera datos
BIG DATA - IESTP PISCO - VASQUEZ SOTO MARITZA.pdf
Big data
Datos masivoszzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzz
¿Qué es el Big Data?
Boletín Interoute nº20
Las Tic y las Big Data
Big Data Architecture con Pentaho
Cloud computing
Cloud computing
Sesión 12 semana 14
ACTUALIDAD (Bidgoin, Blockchain, Cloud Nube, La Nube y La Fibra Óptica)
Big data
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
Fundamentos.pptx
Profesión: Big Data
TRABAJO DE INVESTIGACION
Big data
Data Center
Publicidad

Más de David Narváez (20)

PDF
Determinantes de una Matriz - Cofactores
PDF
Medidas de posición y variabilidad - Agrupados
PDF
Medidas de posición y variabilidad - Datos Cuantitativos No Agrupados
PDF
Redes Módulo Repaso Direccionamiento IPv6
PDF
Conceptos Listas de Control de Acceso 2025
PDF
Controles de Acceso - Básicos - Configuración
PDF
Procedimientos Estadística Descriptiva - Frecuencias y Gráficas.pdf
PDF
1.2. Fundamentos Redes Seguras - INTRODUCCIÓN
PDF
ESTADÍSTICA Variables Recolección Datos.pdf
PDF
1.1 ESTADISTICA Conceptos Datos y Valores
PDF
Introducción a redes 2024 - Fundamentos de Redes LAN
PDF
PRESENTACION DE UNIDADES Y MEDICIONES.pdf
PDF
3. Procedimientos Estadística Descriptiva.pdf
PDF
1. Conceptos Datos Valores - Gamificacion.pdf
PDF
Muestreo Aleatorio - Bioestadística
PDF
Protocolos y Acceso a la Red
PDF
Procedimientos Estadística Descriptiva
PDF
Variables Recolección Datos
PDF
2. Sistema Operativo de Red.pdf
PDF
Conceptos Datos Valores - Bioestadistica.pdf
Determinantes de una Matriz - Cofactores
Medidas de posición y variabilidad - Agrupados
Medidas de posición y variabilidad - Datos Cuantitativos No Agrupados
Redes Módulo Repaso Direccionamiento IPv6
Conceptos Listas de Control de Acceso 2025
Controles de Acceso - Básicos - Configuración
Procedimientos Estadística Descriptiva - Frecuencias y Gráficas.pdf
1.2. Fundamentos Redes Seguras - INTRODUCCIÓN
ESTADÍSTICA Variables Recolección Datos.pdf
1.1 ESTADISTICA Conceptos Datos y Valores
Introducción a redes 2024 - Fundamentos de Redes LAN
PRESENTACION DE UNIDADES Y MEDICIONES.pdf
3. Procedimientos Estadística Descriptiva.pdf
1. Conceptos Datos Valores - Gamificacion.pdf
Muestreo Aleatorio - Bioestadística
Protocolos y Acceso a la Red
Procedimientos Estadística Descriptiva
Variables Recolección Datos
2. Sistema Operativo de Red.pdf
Conceptos Datos Valores - Bioestadistica.pdf

Último (20)

PPTX
ARQUITECTURA INTEGRAL EN OBRA, PRINCIPIOS BASICOS Y TERMINOS
PDF
Curso Introductorio de Cristales Liquidos
PDF
LIBRO UNIVERSITARIO SISTEMAS PRODUCTIVOS BN.pdf
PPTX
leyes de los gases Ideales. combustible refinación
PDF
LIBRO UNIVERSITARIO SOFTWARE PARA INGENIERIA BN.pdf
PDF
silabos de colegio privado para clases tema2
PDF
UD3 -Producción, distribución del aire MA.pdf
PDF
Prevención de estrés laboral y Calidad de sueño - LA PROTECTORA.pdf
PDF
METODOLOGÍA DE INVESTIGACION ACCIDENTES DEL TRABAJO.pdf
PDF
Informe Comision Investigadora Final distribución electrica años 2024 y 2025
PPTX
diego universidad convergencia e información
PDF
Presentación Ejecutiva Minimalista Azul.pdf
PDF
BROCHURE SERVICIOS CONSULTORIA ISOTEMPO 2025
PPT
357161027-seguridad-industrial-diapositivas-ppt.ppt
PPTX
Cómo Elaborar e Implementar el IPERC_ 2023.pptx
PPTX
Curso Corto de PLANTA CONCENTRADORA FREEPORT
PPTX
Electronica II, material basico de electronica II
PPTX
PPT PE 7 ASOCIACIONES HUAMANGA_TALLER DE SENSIBILIZACIÓN_20.04.025.pptx
PPTX
PPT SESIÓN 6 Los Injertos.- Micropropagación e Injertos Clonales.pptx
PDF
LIBRO UNIVERSITARIO INTELIGENCIA ALGORITMICA BN.pdf
ARQUITECTURA INTEGRAL EN OBRA, PRINCIPIOS BASICOS Y TERMINOS
Curso Introductorio de Cristales Liquidos
LIBRO UNIVERSITARIO SISTEMAS PRODUCTIVOS BN.pdf
leyes de los gases Ideales. combustible refinación
LIBRO UNIVERSITARIO SOFTWARE PARA INGENIERIA BN.pdf
silabos de colegio privado para clases tema2
UD3 -Producción, distribución del aire MA.pdf
Prevención de estrés laboral y Calidad de sueño - LA PROTECTORA.pdf
METODOLOGÍA DE INVESTIGACION ACCIDENTES DEL TRABAJO.pdf
Informe Comision Investigadora Final distribución electrica años 2024 y 2025
diego universidad convergencia e información
Presentación Ejecutiva Minimalista Azul.pdf
BROCHURE SERVICIOS CONSULTORIA ISOTEMPO 2025
357161027-seguridad-industrial-diapositivas-ppt.ppt
Cómo Elaborar e Implementar el IPERC_ 2023.pptx
Curso Corto de PLANTA CONCENTRADORA FREEPORT
Electronica II, material basico de electronica II
PPT PE 7 ASOCIACIONES HUAMANGA_TALLER DE SENSIBILIZACIÓN_20.04.025.pptx
PPT SESIÓN 6 Los Injertos.- Micropropagación e Injertos Clonales.pptx
LIBRO UNIVERSITARIO INTELIGENCIA ALGORITMICA BN.pdf

3.1. Datos Adquisición

  • 1. Luis David Narváez Capítulo 3: Todo genera datos Introducción a Internet de las cosas
  • 2. 2 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  3.1 Datos masivos • Explique el concepto de datos masivos. • Describir las fuentes de datos masivos. • Explique los desafíos y las soluciones para el almacenamiento de datos masivos. • Explique cómo el análisis de datos masivos se utilizan para apoyar las actividades empresariales. Capítulo 3: Secciones y objetivos
  • 3. 3 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. 3.1 Datos masivos
  • 4. 4 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  Los datos son la información que proviene de una variedad de fuentes, como personas, imágenes, texto, sensores, sitios web y dispositivos de tecnología.  Hay tres características que indican que una organización puede estar haciendo frente a datos masivos: • Una gran cantidad de datos que requiere cada vez más espacio de almacenamiento (volumen). • Una cantidad de datos que crece exponencialmente rápido (velocidad). • Datos que se generan en diferentes formatos (variedad).  Ejemplos de volúmenes de datos recopilados por los sensores: • Un automóvil autónomo puede generar 4000 gigabits (Gb) de datos por día. • Un hogar inteligente conectado puede producir 1 gigabyte (GB) de información de la semana. ¿Qué son los datos masivos o Big Data? ¿Qué son los datos masivos o Big Data?
  • 5. 5 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? ¿Qué son los datos masivos o Big Data? https://www.youtube.com/watch?v=59b0rINnBuU
  • 6. 6 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? ¿La empresa genera datos masivos?
  • 7. 7 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? ¿La empresa genera datos masivos?
  • 8. 8 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? ¿La empresa genera datos masivos?
  • 9. 9 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? ¿La empresa genera datos masivos?
  • 10. 10 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? ¿La empresa genera datos masivos?
  • 11. 11 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? ¿La empresa genera datos masivos?
  • 12. 12 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  Las empresas no necesariamente tienen que generar sus propios datos masivos.  Hay fuentes de conjuntos de datos gratuitos disponibles y listas para usar y analizar. ¿Qué son los datos masivos o Big Data? Grandes conjuntos de datos
  • 13. 13 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. ¿Qué son los datos masivos o Big Data? Práctica de laboratorio: búsqueda en base de datos
  • 14. 14 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  Los cálculos de datos masivos de IBM concluyen que “cada día creamos 2,5 trillones de bytes de datos”.  Hay cinco problemas de magnitud en cuanto al almacenamiento con los datos masivos: • Administración • Seguridad • Redundancia • Análisis • Acceso ¿Dónde se almacenan los datos masivos? ¿Cuáles son los desafíos de los datos masivos?
  • 15. 15 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  Por lo general, los datos masivos se almacenan en varios servidores en centros de datos.  La computación en la niebla utiliza dispositivos “perimetrales” o de clientes de usuarios finales para ejecutar gran parte del procesamiento previo y almacenamiento. • Los datos adquiridos a partir de ese análisis de procesamiento previo pueden introducirse en los sistemas de las empresas para modificar los procesos, de ser necesario. • Las comunicaciones hacia y desde los servidores y dispositivos es más rápida y requiere menos ancho de banda que lo que supondría constantemente recurrir a la nube. ¿Dónde se almacenan los datos masivos? ¿Dónde podemos almacenar los datos masivos?
  • 16. 16 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  La nube es una colección de centros de datos o grupos de servidores conectados.  Los servicios en la nube para las personas incluyen lo siguiente: • Almacenamiento de datos, tales como imágenes, música, películas y correos electrónicos. • Acceso a muchas aplicaciones en lugar de descargar en el dispositivo local. • Acceso a datos y aplicaciones en cualquier lugar, en cualquier momento y en cualquier dispositivo.  Los servicios en la nube para las empresas incluyen lo siguiente: • Acceso a los datos de la organización en cualquier momento y en cualquier lugar. • Optimiza las operaciones de TI de una organización. • Elimina o reduce la necesidad de equipos, mantenimiento, y administración de TI en el sitio. • Reduce el costo de necesidades de equipos, energía, requisitos físicos de la planta y la capacitación del personal. ¿Dónde se almacenan los datos masivos? La nube y la computación en la nube
  • 17. 17 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  El procesamiento de datos distribuidos toma el enorme volumen de datos y lo divide en partes más pequeñas.  Estas partes más pequeñas se distribuyen en muchas ubicaciones para que las procesen varias computadoras.  Cada computadora de la arquitectura distribuida analiza su parte del total de datos masivos (escalabilidad horizontal).  Hadoop se creó para manejar estos volúmenes de datos masivos. Tiene dos características principales que lo han transformado en el estándar de la industria: • Escalabilidad: los tamaños de clúster más grandes mejoran el rendimiento y proporcionan capacidades de procesamiento de datos más altas. • Tolerancia a fallas: Hadoop automáticamente replica los datos a través de los clústeres. ¿Dónde se almacenan los datos masivos? Procesamiento distribuido
  • 18. 18 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  El análisis de datos permite que las empresas comprendan mejor el impacto de sus productos y servicios, ajusten sus métodos y objetivos, y proporcionen a sus clientes mejores productos más rápido.  Los valores provienen de los dos tipos de datos procesados principales: transaccionales y analíticos.  La información transaccional se captura y se procesa a medida que se producen eventos. • Se utiliza para analizar informes de ventas y planes de fabricación diarios a fin de determinar cuánto inventario transportar.  La información analítica permite que se realicen tareas de análisis a nivel gerencial, como determinar si la organización debe instalar una nueva planta de fabricación. Soporte de empresas con datos masivos ¿Por qué las empresas analizan datos?
  • 19. 19 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  Los datos se originan a partir de sensores y cualquier elemento que se haya explorado, introducido y publicado en Internet.  Los datos recopilados se pueden clasificar como estructurados o no estructurados.  Los datos estructurados son creados por aplicaciones que utilizan la entrada de formato "fijo", como las hojas de cálculo. Es posible que se deban manipular en un formato común como CSV.  Los datos no estructurados se generan en un estilo de “forma libre”, como audio, video, páginas web y tweets.  Entre los ejemplos de herramientas para preparar datos no estructurados para el procesamiento se encuentran: • Las herramientas que «raspan la red» (web scraping) extraen datos de páginas HTML automáticamente. • Interfaces del programa de aplicación (API) RESTful. Soporte de empresas con datos masivos Fuentes de información
  • 20. 20 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. Soporte para empresas con datos masivos Minería de datos https://www.youtube.com/watch?v=QY09nSg-KBk
  • 21. 21 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  La minería de datos es el proceso por el cual los datos sin procesar se transforman en información significativa.  Los datos sometidos a minería de datos se deben analizar y presentar a los administradores y las personas responsables de tomar decisiones.  La determinación de las mejores herramientas de visualización que se deben usar variará en función de lo siguiente: • Cantidad de variables • Cantidad de puntos de datos en cada variable • Representan los datos una línea de tiempo • Los elementos requieren comparaciones  Entre los gráficos populares se incluyen gráficos circulares, de líneas, de columnas, de barras y de dispersión. Soporte para empresas con datos masivos Visualización de datos
  • 22. 22 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. Soporte para empresas con datos masivos Tipos de gráficos
  • 23. 23 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco.  El análisis de datos es el proceso de inspección, limpieza, transformación y creación de modelos de datos para descubrir información útil.  Tener una estrategia permite que una empresa determine el tipo de análisis requerido y la mejor herramienta para realizar el análisis.  Las herramientas y aplicaciones varían desde el uso de una hoja de cálculo de Excel o Google Analytics para muestras de datos de pequeñas a medianas, hasta las aplicaciones dedicadas a la manipulación y al análisis de conjuntos de datos realmente masivos.  Entre los ejemplos se incluyen a Knime, OpenRefine, Orange y RapidMiner. Soporte de empresas con datos masivos Análisis de datos masivos para el uso eficaz en la empresa
  • 24. 24 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. Soporte de empresas con datos masivos ¿Qué es Google Analytics? https://www.youtube.com/watch?v=MV_GmTWQ7Rk
  • 25. 25 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. Soporte de empresas con datos masivos Excel: pronósticos https://www.youtube.com/watch?v=LsXDBpU4Xog&t=178s
  • 26. 26 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. Soporte de empresas con datos masivos Práctica de laboratorio en Excel: pronósticos
  • 27. 27 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. 3.2 Resumen del capítulo
  • 28. 28 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. Resumen del capítulo Resumen  Las tres características de los datos masivos son las siguientes: • Gran cantidad de datos que requiere cada vez más espacio de almacenamiento (volumen) • Rápido crecimiento exponencial (velocidad) • Generados en diferentes formatos (variedad)  La computación en la niebla utiliza dispositivos “perimetrales” o de clientes de usuarios finales para ejecutar el procesamiento previo y almacenamiento. • Se diseñó con el fin de mantener los datos más cerca del origen para su procesamiento previo.  La nube es un conjunto de centros de datos o grupos de servidores conectados que ofrecen acceso a software, almacenamiento y servicios, en cualquier lugar y en cualquier momento, mediante una interfaz de navegador. • Proporciona un aumento del almacenamiento de datos y reduce la necesidad de equipos de TI en el sitio, mantenimiento y administración.  El procesamiento de datos distribuidos toma grandes volúmenes de datos de una fuente y los divide en partes más pequeñas, y los distribuye en muchas ubicaciones para que se procesen. • Cada computadora de la arquitectura distribuida analiza su parte del total de datos masivos.
  • 29. 29 © 2016 Cisco y/o sus filiales. Todos los derechos reservados. Información confidencial de Cisco. Resumen del capítulo Resumen (continuación)  Las empresas obtienen valor mediante la recopilación y el análisis de datos para comprender el impacto de los productos y servicios, ajustar los métodos y objetivos, y proporcionar a sus clientes mejores productos con mayor rapidez.  Los datos estructurados se crean mediante aplicaciones que utilizan entradas de formato “fijo”, como hojas de cálculo o formularios médicos.  Los datos no estructurados se generan en un estilo de “forma libre”, como audio, video, páginas web y tweets.  Ambas formas de datos deben manipularse en un formato común para su análisis.  La minería de datos es el proceso que se utiliza para convertir los datos sin procesar en información significativa al detectar patrones y relaciones en los grandes conjuntos de datos.  La visualización de datos es el proceso que se utiliza para captar los datos analizados y usar gráficos como línea, columna, barra, diagrama o dispersión para presentar la información importante.