SlideShare una empresa de Scribd logo
Big Data Analitics
Introducción básica para la asignatura de Informática Industrial
Rogelio Mazaeda
Eusebio de la Fuente
Bajo los términos de sistemas cíber-físicos,
digitalización, smart factories entre otros, se trata de
agrupar la irrupción desde varios años, y de forma
acelerada de una serie de tecnologías y paradigmas
que prometen modificar de forma decisiva la vida
económica y social.
Por supuesto la industria no es ajena a este proceso y
se anuncia la llegada de la cuarta revolución industrial
o Industria 4.0.
Elementos importantes de este proceso es la
existencia de los avances tecnológicos que permiten la
adquisición y procesamiento eficaz de ingentes
cantidades de datos
Introducción
Un elemento importante de este proceso es la
existencia de los avances tecnológicos que permiten la
adquisición y procesamiento eficaz de ingentes
cantidades de datos:
Introducción. Industria 4.0
• IoT: Internet de las cosas. El abaratamiento de
los elementos técnicos que permiten la
adquisición de datos de forma masiva en lugares
y condiciones que antes resultaban prohibitivas y
la capacidad de poder ser transmitidas de forma
inalámbrica (Wifi, IPV6) a los centros donde
puedan ser procesados, de forma segura (cíber-
seguridad).
Un elemento importante de este proceso es la
existencia de los avances tecnológicos que permiten la
adquisición y procesamiento eficaz de ingentes
cantidades de datos:
Introducción. Industria 4.0
• Procesamiento en la nube (cloud or fog
computing): La creación de nuevos sistemas de
negocio consistentes en brindar a las medianas
y pequeñas empresas la posibilidad de
satisfacer sus de procesamiento de datos a
empresas especializadas de manera que resulte
económicamente factible la utilización, a
demanda, de los ingentes recursos de hardware
y software requeridos.
Un elemento importante de este proceso es la
existencia de los avances tecnológicos que permiten la
adquisición y procesamiento eficaz de ingentes
cantidades de datos:
Introducción. Industria 4.0
• Big Data: Las emergencia de técnicas eficaces
de almacenamiento y procesamiento de
enormes cantidades de datos, obtenidos de
diferentes fuentes y de muy distintos formatos
en tiempo real.
• La posibilidad de extraer información útil para
la ayuda a la decisión de estos datos.
• El desarrollo y relanzamiento de métodos
basados en datos (machine learning)
El crecimiento de los datos disponibles electrónicamente se prevé explosivo. Se hacen predicciones que los
datos de las empresas llegará el 2020 a 46 zettabytes (1021) y se espera que crezca 40% anualmente.
Claramente, el manejo eficiente de esos volúmenes de datos y la extracción de información útil de los
mismos requiere de cambios muy profundos en los paradigmas, las tecnologías, y los algoritmos utilizados.
Fuentes del Big Data:
• IoT: el más importante desde el punto de vista industrial
• Medios Sociales (e-correo, facebook, etc).
• Información multimedia.
Big Data. Contexto.
Aplicaciones en
solitario
Aplicaciones en
redes locales
Aplicaciones web
Aplicaciones complejas
en el cliente
Desarrollo histórico
Datos y algoritmos
en ordenadores
Individuales.
Software de
contabilidad
Datos disponibles en
Servidores conectados
Por redes locales.
Aplicaciones de bases
de datos relacionales
(SQL)
Irrupción de Internet
Y aplicaciones clientes-
servidor web. Bases de
Datos NoSQL.
Big Data
Clientes más potentes.
Utilizables en línea y
Fuera de línea.
Cloud computing
Datos de diversas
fuentes.
Haddoop,
Map-reduce
I. Yaqoob et al., “Big data: From beginning to future,” Int. J. Inf. Manage., vol. 36, no. 6, pp. 1231–1247, 2016.
El Big Data actualmente se define a partir de sus atributos:
Big Data. Definición
R. Buyya, R. N. Calheiros, and A. V. Dastjerdi, Big Data: Principles and Paradigms. 2016.
Volumen
Definición de 3 V’s de Big Data (BD)
Variedad
Velocidad
BD
Se refiere a la enorme
cantidad de datos que llegan
por unidad de tiempo así
como a los datos que se
acumulan en los medios de
almacenamiento
Diversidad de formatos y
estructuras diferentes y
en principio
incompatibles
La velocidad a la que se
reciben los datos y la que
se requiere al interactuar
con ellos en la ayuda del
proceso de decisión
Continuan añadiendose atributos (manteniendo las V’s). Variabilidad (se refiere a la complejidad de los
datos más que a la diversidad de formatos), Visibilidad (necesidad de mostrar una visión significativa de los
datos que ayude a la decisión)
Big Data. Definición
Volumen
Definición de 4 V’s de Big Data (BD)
Variedad
Velocidad
BD
Se refiere a la enorme
cantidad de datos que llegan
por unidad de tiempo así
como a los datos que se
acumulan en los medios de
almacenamiento
Diversidad de formatos y
estructuras diferentes y
en principio
incompatibles
La velocidad a la que se
reciben los datos y la que
se requiere al interactuar
con ellos en la ayuda del
proceso de decisión
Veracidad
La veracidad de los datos es
cuestionable. Los datos
arriban con gran velocidad y
de diferentes fuentes,
frecuentemente con alto
nivel de redundancia pero
plagado de incertidumbres
R. Buyya, R. N. Calheiros, and A. V. Dastjerdi, Big Data: Principles and Paradigms. 2016.
BD hace referencia a lo que se entiende por el concepto, mientras que BDA hace énfasis en lo que se puede
lograr, desde el punto de vista pragmático con esos datos al convertirlos en información sobre la que se
pueda actuar. Se trata de encontrar patrones de “significado” en grandes volúmenes de datos. Otros
términos relacionados: Minería de datos. Relación directa con la estadística.
Elementos de BDA:
• Herramientas de Extracción Transformación y Carga (ETL: ExtractTransformLoad) con cantidades
masivas de datos.
• Machine Learning: Definida como la capacidad de dotar a los ordenadores de la capacidad de
“aprender” sin haber sido explícitamente programados para hacerlo en ningún campo específico. Se
trata de extraer “información” a partir de los “datos”.
• Cloud computing: Modelo de negocio que permite a las pequeñas empreses externalizar, a un coste
asumible, los gastos de los dos elementos anteriores, que de lo contrario serían inasumibles.
Se trata, en todo caso, de aprovechar la oportunidad y, al mismo tiempo, superar los retos que implican la
existencia de enormes volúmenes de datos de diversas fuentes (internas y externas a la organización),
diferentes formatos, grado de fiabilidad que crecen a una ritmo mucho mayor que el de las capacidades de
almacenamiento y de velocidad de procedimiento de los ordenadores, obteniendo información útil de
estos datos de una forma que sea costeable para la empresa.
Big Data (BD) vs. Big Data Analitics (BDA)
Big Data. Tecnologías
Big Data
Modo Batch:
Acceso a todos los
Datos simultáneamente
Ej: Apache Hadoop
Modo stream:
Procesa datos en tiempo
Real, en la medida en que van
Llegando.
Ej: Storm
¿Cómo sacar información valiosa de forma rápida de grandes cantidades de datos?
• Indexado: Localizar información de forma eficiente en grandes volúmenes de datos.
• Tablas hash: Una búsqueda por índice puede ser ineficiente puesto que necesita la consideración de la
base de datos completa. El uso de la técnica hash, una función que pone en correspondencia datos con
una clave, para distribuirlos de forma eficiente en varios reservorios (buckets) pre-especificados,
constituye una alternativa a considerar.
• Filtro Bloom: Determina si un elemento pertenece a un conjunto. Puede dar falsos positivos pero nunca
falsos negativos.
• Computación en paralelo: El tratamiento de la información se puede acelerar, distribuyendo la tarea en
varios segmentos y asignando estos a ordenadores separados.
Big Data. Métodos de procesamiento
Si la manipulación de los datos es una tarea exigente, aún lo es más el extraer información útil de esos
datos. Algunas técnicas utilizadas.
• Minería de Datos: Regresión, clasificación, análisis de clusters, regla de asociación del aprendizaje, etc.
Utiliza métodos de machine learning o de la estadística tradicional para extraer información de los datos.
Los métodos tradicionales deben ser constantemente revisados y mejorados para adaptarlos a las
demandas de volúmenes y velocidades de procesamiento cada vez mayores.
• Minería de Web: Descubre patrones en repositorios Web.
• Métodos de Visualización: Es un reto el cómo representar datos de muchas dimensiones de forma
gráfica con el objetivo de poder extraer conclusiones acertadas de dicha representación.
• Machine Learning: Algoritmo supervisados, no supervisado o de aprendizaje reforzado para extraer
información de los datos existentes. Mucho por avanzar a la hora de aplicarlo a BD.
• Métodos de Optimización: Optimización numérica matemática.
Big Data Analitics (BDA). Técnicas de análisis de datos
Retos en la aplicación del BD han sido identificados*:
• Manipulación de BD: Hay que hacerlo con eficiencia y es la clave de todo lo demás. Incluye procesos
conocidos (limpieza, agregación, codificación, almacenamiento y acceso) desde siempre, complicado en
BD por las 3(4) V’s y la necesidad de acudir a sistemas distribuidos, con muchas aplicaciones de diferente
naturaleza. Ej:
• Limpieza de BD: ¿Cómo garantizar la fiabilidad de datos masivos? ¿Cómo detectar ruido, errores,
incosistencias?
• Agregación: Sincronizar datos internos y externos de la empresa, en aplicaciones distribuidas con
multitud de formatos. Ej: datos de producción disponibles de sensores, con datos externos de
predicción del tiempo o de demanda de mercado con satisfacción de los consumidores, etc.
• BDA: Se necesitan algoritmos nuevos, eficientes para extraer patrones y descubrir relaciones “ocultas”
en los datos, que pueda brindar nuevas oportunidades o descubrir a tiempo potenciales peligros. Los
retos: gran cantidad de información heterogénea versus necesidad de rápida respuesta:
• Machine Learning (ML): Incorporar ML en un escenario de Data Stream (tiempo real): con
limitaciones de almacenamiento y necesidad de responder en tiempo adecuado (nótese que las
necesidades de tiempo real se relajan con respecto a lo comúnmente aceptado. Uso de Aprendizaje
Profundo (DL): ha mostrado su superioridad sobre las tradicionales redes neuronales (ANN) sin
embargo requieren el uso de muchos datos para el entrenamiento, ajuste de miles de millones de
parámetros. Uso del aprendizaje incremental (data streams).
Retos de aplicación de BD
A. Oussous, F. Z. Benjelloun, A. Ait Lahcen, and S. Belfkih, “Big Data technologies: A survey,” J. King Saud Univ. - Comput. Inf. Sci., 2017.
Apache Hadoop is una reconocida tecnología de BD*:
• Sistema de ficheros ditribuido (HDFS): No trae a memoria los datos distribuidos en otro ordenador sino
que los procesa in situ liberando capacidad de tx. en la red.
• Fiable en presencia de distribución de datos: Tolerante a fallos en sistemas distribuidos permitiendo la
replicación de los datos.
• Basado en modelo de programación Map-Reduce: Permite tratamiento efectivo de BD haciendo posible
procesamiento masivo en paralelo.
• Sistema abierto y modular: Las contribuciones de los usuarios lo convierte en un ecosistema vivo y
dinámico.
El sistema Apache Hadoop
A. Oussous, F. Z. Benjelloun, A. Ait Lahcen, and S. Belfkih, “Big Data technologies: A survey,” J. King Saud Univ. - Comput. Inf. Sci., 2017.
Modelo programación Map-reduce*:
• Map:
• Divide una tarea de gran tamaño en un conjunto de sub-tareas, creando una participación que se
representa como {llave, valor}.
• Se envía {llave, valor} a ser procesado de forma individual en los procesos Mapper distribuidos en
varios ordenadores. Cada ordenador recibe una partición, realiza el procesamiento indicado y
devuelve uno o más pares {llave, valor} intermedios.
• Se recolectan y se ordenan por llave los anteriores pares.
• Reduce: Por cada llave, la función de reducción, agrega los valores asociados a esa llave según un
procedimiento predefinido (ej: resumir, ordenar, promedio, etc). Produce uno o más pares {llave, valor}
El sistema Apache Hadoop: Map-Reduce
A. Oussous, F. Z. Benjelloun, A. Ait Lahcen, and S. Belfkih, “Big Data technologies: A survey,” J. King Saud Univ. - Comput. Inf. Sci., 2017.

Más contenido relacionado

PDF
Mineria de datos
PPTX
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
DOCX
Big data
PPTX
Big-Data-aplicado-a-los-Negocios (1).pptx
PDF
Clase No.2 - Generalidades y Tecnologias .pdf
PPTX
Cómo implementar una solución Big Data
PDF
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
PDF
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Mineria de datos
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Big data
Big-Data-aplicado-a-los-Negocios (1).pptx
Clase No.2 - Generalidades y Tecnologias .pdf
Cómo implementar una solución Big Data
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...

Similar a Conceptos de Big Data y Análisis de Datos (20)

PDF
Bigdata trabajo de investigacion
PPTX
Presentación Introducción al Análisis de Datos.pptx
PPTX
01. Introducción a la Analítica de Datos.pptx
PDF
Código de buenas prácticas en protección de datos para proyectos Big Data
PDF
Análisis de Datos.pdf
PPTX
BIG DATA APLICADO A LOS NEGOCIOS 2025 -1
PPTX
PDF
Cursos de Big Data y Machine Learning
PPTX
Mineria de Datos
PPTX
DOCX
PPT
Unidad2 Bases De Datos Para L Toma De Desiciones
PPTX
Big Data: retos y oportunidades para el turismo
PPTX
Informatica aplicada 1er corte
PDF
Clase No.1 - Introcuccion - curso BIG DATA.pdf
PPTX
BigData.pptx
PPTX
BigData.pptx
PDF
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
PPTX
BIG DATA UPCIENCIAS E INFORMATICA LIMA.pptx
PPTX
BIG DATA UNIVERSIDAD PERUANA DE CIENCIAS E INFORMATICA.pptx
Bigdata trabajo de investigacion
Presentación Introducción al Análisis de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
Código de buenas prácticas en protección de datos para proyectos Big Data
Análisis de Datos.pdf
BIG DATA APLICADO A LOS NEGOCIOS 2025 -1
Cursos de Big Data y Machine Learning
Mineria de Datos
Unidad2 Bases De Datos Para L Toma De Desiciones
Big Data: retos y oportunidades para el turismo
Informatica aplicada 1er corte
Clase No.1 - Introcuccion - curso BIG DATA.pdf
BigData.pptx
BigData.pptx
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
BIG DATA UPCIENCIAS E INFORMATICA LIMA.pptx
BIG DATA UNIVERSIDAD PERUANA DE CIENCIAS E INFORMATICA.pptx
Publicidad

Último (20)

PPT
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
PPTX
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
PDF
REPORTE DE INCIDENCIA DELICTIVA IRAPUATO 1ER SEMESTRE 2025
PDF
Presentacion Gestion de Recursos DIA 1.pdf
PDF
NORMA_1887_LEY_27269_Modificada_por_LEY_27310.pdf
PDF
S07 - Morfología urbana..........................
PPTX
Las buenas costumbres en la familiaaaaaaa
PPTX
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
PDF
6°-Básico-Matemática-Diagrama-de-tallo-y-hoja_y_probabilidades.pdf
PPTX
Inteligencia_Artificialdelosk_Mujer.pptx
DOCX
Estratégias de Ventas para WhatsApp paso a paso
PPTX
GOOGLE SHEETS IMPORTANCIA Y CARACTERISITICAS
PDF
Registro de Limpieza y Desinfección.pdf1
PDF
Presentación para empoderar a un equipo a factirar
PPT
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
PPTX
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
PDF
docsity-diapositivas-de-la-salud-mental.pdf
PPTX
fisioterapia 6 semestre - ---- serealizo
PPTX
Curriculo-de-Matematica-Un-Enfoque-por-Competencias.pptx
PPTX
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
REPORTE DE INCIDENCIA DELICTIVA IRAPUATO 1ER SEMESTRE 2025
Presentacion Gestion de Recursos DIA 1.pdf
NORMA_1887_LEY_27269_Modificada_por_LEY_27310.pdf
S07 - Morfología urbana..........................
Las buenas costumbres en la familiaaaaaaa
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
6°-Básico-Matemática-Diagrama-de-tallo-y-hoja_y_probabilidades.pdf
Inteligencia_Artificialdelosk_Mujer.pptx
Estratégias de Ventas para WhatsApp paso a paso
GOOGLE SHEETS IMPORTANCIA Y CARACTERISITICAS
Registro de Limpieza y Desinfección.pdf1
Presentación para empoderar a un equipo a factirar
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
docsity-diapositivas-de-la-salud-mental.pdf
fisioterapia 6 semestre - ---- serealizo
Curriculo-de-Matematica-Un-Enfoque-por-Competencias.pptx
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
Publicidad

Conceptos de Big Data y Análisis de Datos

  • 1. Big Data Analitics Introducción básica para la asignatura de Informática Industrial Rogelio Mazaeda Eusebio de la Fuente
  • 2. Bajo los términos de sistemas cíber-físicos, digitalización, smart factories entre otros, se trata de agrupar la irrupción desde varios años, y de forma acelerada de una serie de tecnologías y paradigmas que prometen modificar de forma decisiva la vida económica y social. Por supuesto la industria no es ajena a este proceso y se anuncia la llegada de la cuarta revolución industrial o Industria 4.0. Elementos importantes de este proceso es la existencia de los avances tecnológicos que permiten la adquisición y procesamiento eficaz de ingentes cantidades de datos Introducción
  • 3. Un elemento importante de este proceso es la existencia de los avances tecnológicos que permiten la adquisición y procesamiento eficaz de ingentes cantidades de datos: Introducción. Industria 4.0 • IoT: Internet de las cosas. El abaratamiento de los elementos técnicos que permiten la adquisición de datos de forma masiva en lugares y condiciones que antes resultaban prohibitivas y la capacidad de poder ser transmitidas de forma inalámbrica (Wifi, IPV6) a los centros donde puedan ser procesados, de forma segura (cíber- seguridad).
  • 4. Un elemento importante de este proceso es la existencia de los avances tecnológicos que permiten la adquisición y procesamiento eficaz de ingentes cantidades de datos: Introducción. Industria 4.0 • Procesamiento en la nube (cloud or fog computing): La creación de nuevos sistemas de negocio consistentes en brindar a las medianas y pequeñas empresas la posibilidad de satisfacer sus de procesamiento de datos a empresas especializadas de manera que resulte económicamente factible la utilización, a demanda, de los ingentes recursos de hardware y software requeridos.
  • 5. Un elemento importante de este proceso es la existencia de los avances tecnológicos que permiten la adquisición y procesamiento eficaz de ingentes cantidades de datos: Introducción. Industria 4.0 • Big Data: Las emergencia de técnicas eficaces de almacenamiento y procesamiento de enormes cantidades de datos, obtenidos de diferentes fuentes y de muy distintos formatos en tiempo real. • La posibilidad de extraer información útil para la ayuda a la decisión de estos datos. • El desarrollo y relanzamiento de métodos basados en datos (machine learning)
  • 6. El crecimiento de los datos disponibles electrónicamente se prevé explosivo. Se hacen predicciones que los datos de las empresas llegará el 2020 a 46 zettabytes (1021) y se espera que crezca 40% anualmente. Claramente, el manejo eficiente de esos volúmenes de datos y la extracción de información útil de los mismos requiere de cambios muy profundos en los paradigmas, las tecnologías, y los algoritmos utilizados. Fuentes del Big Data: • IoT: el más importante desde el punto de vista industrial • Medios Sociales (e-correo, facebook, etc). • Información multimedia. Big Data. Contexto. Aplicaciones en solitario Aplicaciones en redes locales Aplicaciones web Aplicaciones complejas en el cliente Desarrollo histórico Datos y algoritmos en ordenadores Individuales. Software de contabilidad Datos disponibles en Servidores conectados Por redes locales. Aplicaciones de bases de datos relacionales (SQL) Irrupción de Internet Y aplicaciones clientes- servidor web. Bases de Datos NoSQL. Big Data Clientes más potentes. Utilizables en línea y Fuera de línea. Cloud computing Datos de diversas fuentes. Haddoop, Map-reduce I. Yaqoob et al., “Big data: From beginning to future,” Int. J. Inf. Manage., vol. 36, no. 6, pp. 1231–1247, 2016.
  • 7. El Big Data actualmente se define a partir de sus atributos: Big Data. Definición R. Buyya, R. N. Calheiros, and A. V. Dastjerdi, Big Data: Principles and Paradigms. 2016. Volumen Definición de 3 V’s de Big Data (BD) Variedad Velocidad BD Se refiere a la enorme cantidad de datos que llegan por unidad de tiempo así como a los datos que se acumulan en los medios de almacenamiento Diversidad de formatos y estructuras diferentes y en principio incompatibles La velocidad a la que se reciben los datos y la que se requiere al interactuar con ellos en la ayuda del proceso de decisión
  • 8. Continuan añadiendose atributos (manteniendo las V’s). Variabilidad (se refiere a la complejidad de los datos más que a la diversidad de formatos), Visibilidad (necesidad de mostrar una visión significativa de los datos que ayude a la decisión) Big Data. Definición Volumen Definición de 4 V’s de Big Data (BD) Variedad Velocidad BD Se refiere a la enorme cantidad de datos que llegan por unidad de tiempo así como a los datos que se acumulan en los medios de almacenamiento Diversidad de formatos y estructuras diferentes y en principio incompatibles La velocidad a la que se reciben los datos y la que se requiere al interactuar con ellos en la ayuda del proceso de decisión Veracidad La veracidad de los datos es cuestionable. Los datos arriban con gran velocidad y de diferentes fuentes, frecuentemente con alto nivel de redundancia pero plagado de incertidumbres R. Buyya, R. N. Calheiros, and A. V. Dastjerdi, Big Data: Principles and Paradigms. 2016.
  • 9. BD hace referencia a lo que se entiende por el concepto, mientras que BDA hace énfasis en lo que se puede lograr, desde el punto de vista pragmático con esos datos al convertirlos en información sobre la que se pueda actuar. Se trata de encontrar patrones de “significado” en grandes volúmenes de datos. Otros términos relacionados: Minería de datos. Relación directa con la estadística. Elementos de BDA: • Herramientas de Extracción Transformación y Carga (ETL: ExtractTransformLoad) con cantidades masivas de datos. • Machine Learning: Definida como la capacidad de dotar a los ordenadores de la capacidad de “aprender” sin haber sido explícitamente programados para hacerlo en ningún campo específico. Se trata de extraer “información” a partir de los “datos”. • Cloud computing: Modelo de negocio que permite a las pequeñas empreses externalizar, a un coste asumible, los gastos de los dos elementos anteriores, que de lo contrario serían inasumibles. Se trata, en todo caso, de aprovechar la oportunidad y, al mismo tiempo, superar los retos que implican la existencia de enormes volúmenes de datos de diversas fuentes (internas y externas a la organización), diferentes formatos, grado de fiabilidad que crecen a una ritmo mucho mayor que el de las capacidades de almacenamiento y de velocidad de procedimiento de los ordenadores, obteniendo información útil de estos datos de una forma que sea costeable para la empresa. Big Data (BD) vs. Big Data Analitics (BDA)
  • 10. Big Data. Tecnologías Big Data Modo Batch: Acceso a todos los Datos simultáneamente Ej: Apache Hadoop Modo stream: Procesa datos en tiempo Real, en la medida en que van Llegando. Ej: Storm
  • 11. ¿Cómo sacar información valiosa de forma rápida de grandes cantidades de datos? • Indexado: Localizar información de forma eficiente en grandes volúmenes de datos. • Tablas hash: Una búsqueda por índice puede ser ineficiente puesto que necesita la consideración de la base de datos completa. El uso de la técnica hash, una función que pone en correspondencia datos con una clave, para distribuirlos de forma eficiente en varios reservorios (buckets) pre-especificados, constituye una alternativa a considerar. • Filtro Bloom: Determina si un elemento pertenece a un conjunto. Puede dar falsos positivos pero nunca falsos negativos. • Computación en paralelo: El tratamiento de la información se puede acelerar, distribuyendo la tarea en varios segmentos y asignando estos a ordenadores separados. Big Data. Métodos de procesamiento
  • 12. Si la manipulación de los datos es una tarea exigente, aún lo es más el extraer información útil de esos datos. Algunas técnicas utilizadas. • Minería de Datos: Regresión, clasificación, análisis de clusters, regla de asociación del aprendizaje, etc. Utiliza métodos de machine learning o de la estadística tradicional para extraer información de los datos. Los métodos tradicionales deben ser constantemente revisados y mejorados para adaptarlos a las demandas de volúmenes y velocidades de procesamiento cada vez mayores. • Minería de Web: Descubre patrones en repositorios Web. • Métodos de Visualización: Es un reto el cómo representar datos de muchas dimensiones de forma gráfica con el objetivo de poder extraer conclusiones acertadas de dicha representación. • Machine Learning: Algoritmo supervisados, no supervisado o de aprendizaje reforzado para extraer información de los datos existentes. Mucho por avanzar a la hora de aplicarlo a BD. • Métodos de Optimización: Optimización numérica matemática. Big Data Analitics (BDA). Técnicas de análisis de datos
  • 13. Retos en la aplicación del BD han sido identificados*: • Manipulación de BD: Hay que hacerlo con eficiencia y es la clave de todo lo demás. Incluye procesos conocidos (limpieza, agregación, codificación, almacenamiento y acceso) desde siempre, complicado en BD por las 3(4) V’s y la necesidad de acudir a sistemas distribuidos, con muchas aplicaciones de diferente naturaleza. Ej: • Limpieza de BD: ¿Cómo garantizar la fiabilidad de datos masivos? ¿Cómo detectar ruido, errores, incosistencias? • Agregación: Sincronizar datos internos y externos de la empresa, en aplicaciones distribuidas con multitud de formatos. Ej: datos de producción disponibles de sensores, con datos externos de predicción del tiempo o de demanda de mercado con satisfacción de los consumidores, etc. • BDA: Se necesitan algoritmos nuevos, eficientes para extraer patrones y descubrir relaciones “ocultas” en los datos, que pueda brindar nuevas oportunidades o descubrir a tiempo potenciales peligros. Los retos: gran cantidad de información heterogénea versus necesidad de rápida respuesta: • Machine Learning (ML): Incorporar ML en un escenario de Data Stream (tiempo real): con limitaciones de almacenamiento y necesidad de responder en tiempo adecuado (nótese que las necesidades de tiempo real se relajan con respecto a lo comúnmente aceptado. Uso de Aprendizaje Profundo (DL): ha mostrado su superioridad sobre las tradicionales redes neuronales (ANN) sin embargo requieren el uso de muchos datos para el entrenamiento, ajuste de miles de millones de parámetros. Uso del aprendizaje incremental (data streams). Retos de aplicación de BD A. Oussous, F. Z. Benjelloun, A. Ait Lahcen, and S. Belfkih, “Big Data technologies: A survey,” J. King Saud Univ. - Comput. Inf. Sci., 2017.
  • 14. Apache Hadoop is una reconocida tecnología de BD*: • Sistema de ficheros ditribuido (HDFS): No trae a memoria los datos distribuidos en otro ordenador sino que los procesa in situ liberando capacidad de tx. en la red. • Fiable en presencia de distribución de datos: Tolerante a fallos en sistemas distribuidos permitiendo la replicación de los datos. • Basado en modelo de programación Map-Reduce: Permite tratamiento efectivo de BD haciendo posible procesamiento masivo en paralelo. • Sistema abierto y modular: Las contribuciones de los usuarios lo convierte en un ecosistema vivo y dinámico. El sistema Apache Hadoop A. Oussous, F. Z. Benjelloun, A. Ait Lahcen, and S. Belfkih, “Big Data technologies: A survey,” J. King Saud Univ. - Comput. Inf. Sci., 2017.
  • 15. Modelo programación Map-reduce*: • Map: • Divide una tarea de gran tamaño en un conjunto de sub-tareas, creando una participación que se representa como {llave, valor}. • Se envía {llave, valor} a ser procesado de forma individual en los procesos Mapper distribuidos en varios ordenadores. Cada ordenador recibe una partición, realiza el procesamiento indicado y devuelve uno o más pares {llave, valor} intermedios. • Se recolectan y se ordenan por llave los anteriores pares. • Reduce: Por cada llave, la función de reducción, agrega los valores asociados a esa llave según un procedimiento predefinido (ej: resumir, ordenar, promedio, etc). Produce uno o más pares {llave, valor} El sistema Apache Hadoop: Map-Reduce A. Oussous, F. Z. Benjelloun, A. Ait Lahcen, and S. Belfkih, “Big Data technologies: A survey,” J. King Saud Univ. - Comput. Inf. Sci., 2017.