SlideShare una empresa de Scribd logo
Big Data.
Más que un BUZZWORD, un
universo de oportunidades.
Jhony Valderrama
{nombre, edad, carrera, área de interés}
Contenido
• Parte 1. La Era del Big Data.
• Parte 2. Infraestructura del Big Data.
• Parte 3. Analítica del Big Data.
Contenido
• Parte 1. La Era del Big Data.
– ¿En qué punto estamos?.
– Que es Big Data.
– Fuentes de Grandes Volúmenes de Datos.
– El Almacén del Big Data.
– Sectores Estratégicos del Big Data.
– La Analítica y Los científicos de Datos.
– Cloud Computing.
BigData:
“¿Enqué punto
estamos?”
Big Data ya no es una promesa ni una tendencia. Big Data
está aquí y está provocando cambios profundos en diversas
industrias. Desde el punto de vista tecnológico ya existen
sectores empresariales que han adoptado de forma masiva
proyectos y productos. El análisis de todos los datos
disponibles está convirtiéndose en un elemento de
disrupción.
Big data
¿Qué es BigData?
“Big Data se refiere a los conjuntos de datos
cuyo tamaño está mas allá de las
capacidades de las herramientas típicas de
software de bases de datos para capturar,
almacenar, gestionar y analizar”.
– Mckinsey Global Institute. 2011.
Semi-Estructurados
NoEstructurados
Estructurados
Datos que tienen bien
definidos su longitud y
su formato, como las
fechas, los números o
las cadenas de
caracteres.
Se almacenan en
tablas. Un ejemplo
son las bases de datos
relacionales y las
hojas de cálculo.
Tipos
de
Datos
Datos que no se limitan a campos
determinados, pero que contiene
marcadores para separar los diferentes
elementos.
Es una información poco regular como
para ser gestionada de una forma
estándar. Un ejemplo es el HTML, el
XML o el JSON.
Datos en el formato tal y como
fueron recolectados, carecen de
un formato específico. No se
pueden almacenar dentro de una
tabla ya que no se puede
desgranar su información a tipos
básicos de datos.
Algunos ejemplos son los PDF,
documentos multimedia, e-mails
o documentos de texto.
Tipos de Datos
Fuentes de Grandes Volúmenes de Datos.
• Datos personales.
• Datos de la web.
• Datos de los medios sociales (redes sociales, blogs, wikis).
• Datos del IoT.
• Datos de interconexión de maquinas, M2M.
• Datos industriales.
• Datos de la industria del automóvil.
• Datos de redes de telecomunicaciones.
• Datos de medios de comunicación (prensa, radio, TV, cine).
• Datos de sensores.
• Datos de videojuegos.
• Datos de GPS.
• Datos de telefonía celular (texto, datos, audio, fotos, video).
• Etc, etc………………………………………………………………….etc.
Big data
Características del
Big Data: Las 5
V’s
1. VOLUMEN:
• Terabytes, Registros, Transacciones, Tablas, Archivos.
2. VELOCIDAD:
• Por Lotes, Tiempo Próximo, Tiempo Real, Flujos.
3. VARIEDAD:
• Datos Estructurados, Semi-Estructurados, NO estructurados.
4. VERACIDAD:
• Viabilidad, Precisión, Confiabilidad.
5. VALOR:
• Costo, Rentabilidad, Eficiencia.
Fuente: A.T.Kearney | Big Data and the Creative Destruction of Today’s Business Models
Big data
Oportunidades
El científico de
datos o data
scientist.
La nueva
profesión
SEXY del siglo
XXI.
• Es una persona con habilidades
“serias” en:
– Ciencias de la computación.
– Analítica.
– Matemáticas.
– Estadística.
– Generación de tendencias.
• Además debe:
– Comprender los problemas del
negocio.
– Transformar el problema.
– Ejecutar un plan.
– Dar una solución de negocios.
¿ Donde estudio ?
Big data
Líneas de Generación
y/o Aplicación del
Conocimiento
Big data
Big data
Big data
¿Dónde encuentro trabajo?
Big data
Aplicaciones del Big Data
• La reelección de Obama
– Tras su primer mandato, el presidente de los EEUU, Barack
Obama, decidió utilizar Big Data para su reelección en 2012.
– Un centenar de personas trabajaron en el departamento de analítica
de la campaña.
– 50 estaban fijos en las oficinas centrales, otros 30 se movilizaron a lo
largo y ancho de las distintas sedes del país, y 20 estaban única y
exclusivamente centrados en la interpretación de los datos recibidos.
– Tras un primer análisis, los esfuerzos de la campaña se enfocaron en
tres aspectos: registro (recoger datos de los votantes convencidos),
persuasión (dirigirse a los dudosos de una forma eficaz) y voto del
electorado (asegurarse de que los partidarios fueran a ejercer el voto
sí o sí).
– Por primera vez, los tres equipos más importantes de las campañas
electorales: el de campo, el digital y el de comunicación, trabajaron
con una estrategia unificada con los respectivos datos de cada uno.
Big data
Aplicaciones del Big Data
• Juegos de pelota y millones de datos
– Moneyball: Rompiendo las reglas (2011).
– Ocurrió en la pretemporada de 2002 en Oakland Athletics
de las Grandes Ligas de Béisbol de los Estados Unidos. El
gerente deportivo Billy Beane, revolucionó la historia del
club y posiblemente del deporte en general tras fichar a
un joven economista, Peter Brand, que traía nuevas ideas.
– Juntos contrataron jugadores infravalorados, pero
económicamente rentables, con un criterio de selección
muy diferente. La intuición y sapiencia de los ojeadores es
sustituida por las conclusiones de los análisis de
estadísticas y números acumulados a la hora de establecer
las necesidades del equipo y los jugadores que mejor se
adaptan a éstas.
Aplicaciones del Big Data
• El Language, Interaction and Computation Laboratory (CLIC) en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la comunicación verbal
y no verbal tanto con métodos computacionales como cognitivos.
• Lineberger Comprehensive Cancer Center - Bioinformatics
Group utiliza Hadoop y HBase para analizar datos producidos por
los investigadores de The Cancer Genome Atlas(TCGA) para
soportar las investigaciones relacionadas con el cáncer.
• El PSG College of Technology, India, analiza múltiples secuencias de
proteínas para determinar los enlaces evolutivos y predecir
estructuras moleculares. La naturaleza del algoritmo y el
paralelismo computacional de Hadoop mejora la velocidad y
exactitud de estas secuencias.
Aplicaciones del Big Data
Big data
Big data
Big data
Big data
Consideraciones
• Requisitos previos.
– Elaborar una estrategia, financiación $, tiempo.
• Adquisición de datos.
– Donde consigo los datos, la calidad, ej. Kaggle.
• Privacidad.
– La intimidad de las personas.
• Seguridad.
– Que tan seguro es donde proceso los datos.
• Limitaciones de la infraestructura.
– Puedo procesar 1 TB de datos en una Raspberry Pi?
Contenido
• Parte 2. Infraestructura del Big Data.
– Comparación Arquitecturas.
– Recolección de Datos.
– Almacenamiento.
– Procesamiento.
Vs.
Arq. tradicional Arq. Big data
• Centralidad  mainframe, cpd
• BBDD relacionales
• Datos estructurados
• Alm. Convencional:
-Silos de información
-Datawarehouse
• Alta escalabilidad (Scale-Out)
• Procesamiento paralelo
• Mismo espacio almacen. y
procesadoBaja latencia
• Datos no estructurados y est.
• By-pass de datos (no silos)
• NoSQL
Comparación Arquitecturas
Comparación Arquitecturas
• Un objetivo que buscan los sistemas Big Data es la
escalabilidad, es decir, un sistema que pueda variar su
tamaño (ya sea aumentándolo o disminuyéndolo)
según las necesidades y que esto no afecte al
rendimiento general de todo el sistema.
RECOLECCIÓN DE DATOS
• Batch o por lotes: se conectan de manera
periódica a la fuente de datos buscando nueva
información. Generalmente se usan para
conectarse a sistemas de ficheros o bases de
datos, buscando cambios desde la última vez que
se conectaron.
• Una herramienta para migrar datos
periódicamente -una vez al día, por ejemplo- de
una base de datos a otra es un ejemplo de
recolección de datos por lotes.
RECOLECCIÓN DE DATOS
• Streaming o por transmisión en tiempo real:
están conectados de manera continua a la
fuente de datos, descargando información
cada vez que ésta transmite.
• Se acostumbra a usar para monitorización de
sistemas -para aumentar la seguridad y la
detección de fallos-, de conjuntos de sensores
o para conectarse a redes sociales y descargar
información en tiempo real.
ALMACENAMIENTO
• La capa de almacenamiento tiene, a grandes
rasgos, dos elementos básicos: el sistema de
archivos y la base de datos.
• Hasta hace poco los sistemas de tratamiento de
la información se centraban principalmente en las
bases de datos pero, debido a que en los sistemas
Big Data se busca la mayor variedad posible -las
bases de datos acostumbran a ser poco flexibles-,
los sistemas de archivos han cobrado mayor
importancia.
Big data
ALMACENAMIENTO HDFS
Sistema de Archivos o Ficheros HDFS
ALMACENAMIENTO - HDFS
ALMACENAMIENTO - BD SQL
• En la actualidad hay muchos lenguajes basados en SQL
como PostgreSQL, MySQL, MariaDB o SQLite; que a la
vez también son Sistemas Gestores de Bases de Datos
Relacionales o SGBDR-.
• Los lenguajes SQL se benefician de consultas muy
sencillas, parecidas al lenguaje humano, que las hacen
muy accesibles a los usuarios no expertos.
• Se aprovecha de las características del álgebra y el
cálculo relacional para efectuar con el fin de recuperar
de forma sencilla información de interés.
ALMACENAMIENTO BD SQL
• Son sistemas rápidos y ágiles pero cuando la
información almacenada supera unos límites -
normalmente alrededor de terabytes- mantener
la información estructurada tiene un coste en la
creación y mantenimiento de los índices y en el
rendimiento de las consultas.
• Son bases de datos poco flexibles ya que cuando
se crea su estructura es bastante conflictivo
realizar cambios en esta (como añadir nuevas
columnas a una tabla o cambiar el tipo de una
columna).
ALMACENAMIENTO - BD NoSQL
• Son modelos de bases de datos que no siguen el
modelo relacional -y por lo tanto usan muy poco el
lenguaje SQL.
• Aportan más flexibilidad al no requerir estructuras fijas
como las tablas.
• Responden a las necesidades de escalabilidad, ya que
al no tener que mantener los índices para los datos el
volumen de información que almacenan siempre crece
de forma horizontal (en las bases de datos SQL el
mantenimiento de índices hace que crezcan de manera
parecida a exponencial al añadir nuevos datos).
ALMACENAMIENTO - BD NoSQL
Comparativa entre SQL y NoSQL
PROCESAMIENTO
• Parallel Data Processing
• Distributed Data Processing o Cluster
• Hadoop
• Processing Workloads
– Batch
– Transactional
• Heterogeneous systems
– INTEL XEON PHI
– GPU´s
PROCESAMIENTO
• Procesamiento de datos en paralelo.
– El procesamiento de datos en paralelo consiste en la
ejecución simultánea de múltiples sub-tareas que
comprenden colectivamente una tarea más grande.
– El objetivo es reducir el tiempo de ejecución por la
división de una sola tarea más grande en varias tareas
más pequeñas que se ejecutan al mismo tiempo.
– Se consigue más típicamente dentro de los confines
de una sola máquina con varios procesadores o
núcleos.
PROCESAMIENTO
Una tarea puede ser dividida en tres sub-tareas que se ejecutan en
paralelo en tres procesadores diferentes dentro de la misma máquina.
PROCESAMIENTO
• Procesamiento de datos Distribuido y/o
Cluster.
– El procesamiento de datos distribuidos está
estrechamente relacionado con el procesamiento
de datos en paralelo en el que el mismo principio
de "divide y vencerás" se aplica.
– El procesamiento de datos distribuidos siempre se
logra a través de máquinas físicamente separados
que están conectados en red como un clúster.
Ejemplo de proceso de datos distribuido.
PROCESAMIENTO
Big data
• Hadoop
– Hadoop permite la creación de aplicaciones para
procesar grandes volúmenes de información
distribuida a través de un modelo de
programación sencillo.
– Está diseñado para ser escalable puesto que
trabaja con almacenamiento y procesamiento
local (pero distribuido), de manera que funciona
tanto para clústeres de un solo nodo como para
los que estén formados por miles.
PROCESAMIENTO
• Map tasks
– map
– combine (optional)
– partition
PROCESAMIENTO
Funcionamiento del MapReduce
• Reduce tasks
– shuffle and sort
– reduce
Un ejemplo de MapReduce en acción.
PROCESAMIENTO
PROCESAMIENTO
• Processing Workloads
– El procesamiento de la carga de trabajo en Big
Data es definido por la cantidad y la naturaleza
que son procesados en cierta cantidad de tiempo.
• Batch
• Transactional
PROCESAMIENTO
• Batch: El procesamiento en Batch o también llamado
procesamiento offline, involucra el procesamiento de
datos en lotes y usualmente tiene delays, que a su
vez resulta en respuestas de alta latencia.
• Típicamente involucran grandes cantidades de datos
con lecturas / escrituras secuenciales y forman parte
de los grupos de queries de lectura o escritura.
PROCESAMIENTO
Una carga de trabajo por lotes puede include incluir grupos de
lecturas/escritures como INSERT, SELECT, UPDATE y DELETE.
PROCESAMIENTO
• Transactional: Procesamiento transaccional es también
conocido como procesamiento en línea. Este tipo de
procesamiento sigue un enfoque en el que se procesan los
datos de forma interactiva sin delay, lo que resulta en
respuestas de baja latencia.
• Las cargas de trabajo de transacciones implican pequeñas
cantidades de datos con lecturas y escrituras aleatorias.
PROCESAMIENTO
Las cargas de trabajo del modo transaccionales tienen pocos joins y menor
latencia que en el modo Batch.
PROCESAMIENTO
• Sistemas Heterogéneos
– Esta arquitectura soporta grandes cantidades de
núcleos en un único procesador, donde la
infraestructura de apoyo (interconexión, la jerarquía
de memoria, etc.) esta diseñada para soportar altos
niveles de escalabilidad, que va más allá de la
encontrada en los computadores con varios
procesadores.
– Con el de diseño basado en varios núcleos son
posibles cientos de miles de threads (hilos o hebras)
por chip computacional.
– Estos procesadores, no poseen núcleos tan complejos
y poderosos como los de las arquitecturas Multicore.
PROCESAMIENTO
Criterio de
comparación
Multicore Manycore
Perspectivas
de
Crecimiento
Así como procesadores de un núcleo tuvieron un callejón sin
salida, se estima que este tipo de procesador seguirá el mismo
camino.
Se estima que la evolución de los computadores seguirá esta
vía.
Cantidad de
núcleos
Entre 2 y 16
La cantidad es variable, pero a nivel comercial existen
arquitecturas con más de 480 núcleos
Grado de
paralelismo
Posee paralelismo, pero en un grado menor a las arquitecturas
Manycore, debido a su acotada cantidad de núcleos
Entrega un alto grado de paralelismo, debido a la gran
cantidad de núcleos que posee.
Complejidad
de los núcleos
Posee núcleos altamente complejos, de gran capacidad y
tamaño
Posee núcleos simples, pequeños y de capacidades acotadas.
Cuadro Comparativo de las arquitecturas Multicore vs Manycore
PROCESAMIENTO
• Intel XEON PHI.
• Los coprocesadores Intel® Xeon Phi™ ofrecen hasta 61
núcleos, 244 subprocesos y 1,2 teraFLOPS de desempeño,
y vienen en una variedad de configuraciones para dar
respuesta a diversos requisitos de hardware, software,
cargas de trabajo, desempeño y eficiencia.
PROCESAMIENTO
http://www.amazon.com/
PROCESAMIENTO
• Nvidia Cuda
– Desde sus orígenes como procesadores gráficos especializados que
podían reproducir rápidamente imágenes en un monitor, se han
convertido en una tecnología a seguir cuando se necesita de un
procesamiento ultrarrápido.
– En los últimos años, cada vez las GPU´s se han unido a las CPU´s para
acelerar una amplia gama de cálculos en la denominada computación
heterogénea.
– Hoy en día, las GPU´s están incorporadas en cualquier computador de
escritorio, en clústers de computadores, e incluso en muchos de los
mayores superordenadores del mundo.
– En su rol de proveedor de grandes cantidades de poder computacional
para la computación más exigente, las GPU´s han permitido avances
en la ciencia y la ingeniería en una amplia variedad de disciplinas.
– Lo han hecho por lo que es posible que un gran número de núcleos de
computación para trabajar en paralelo, manteniendo el consumo de
potencia a unos niveles muy razonables
PROCESAMIENTO
http://www.amazon.com/
¿ COMO PROCESA FACEBOOK SUS GRANDES
CANTIDADES DE DATOS?
PROCESAMIENTO
• R// FACEBOOK BIG SUR.
Big data
Big data
Contenido
• Parte 3. Analítica del Big Data.
– Análisis Cuantitativo.
– Análisis Cualitativo.
– Minería de Datos.
– Análisis Estadístico.
– Maquinas de Aprendizaje.
– Análisis Semántico.
– Análisis Visual
Análisis Cuantitativo
• El análisis cuantitativo es una técnica de análisis
de datos que se centra en la cuantificación de los
patrones y correlaciones encontradas en los
datos.
• Sobre la base de las prácticas estadísticas, esta
técnica consiste en el análisis de un gran número
de observaciones a partir de un conjunto de
datos.
• Dado que el tamaño de la muestra es grande, los
resultados se pueden aplicar de manera
generalizada para todo el conjunto de datos.
Análisis Cuantitativo
La salida del análisis cuantitativo en naturaleza
es numérico.
Análisis Cualitativo
• El análisis cualitativo es una técnica de análisis de
datos que se centra en describir las cualidades de
datos utilizando diferentes palabras.
• Se trata de analizar una muestra más pequeña en
mayor profundidad en comparación con el
análisis de datos cuantitativos. Estos resultados
de los análisis no se pueden generalizar a todo un
conjunto de datos debido al tamaño pequeño de
la muestra.
Análisis Cualitativo
Los resultados cualitativos son de carácter descriptivo y no
generalizable a todo el conjunto de datos.
Minería de Datos
• La minería de datos, es también conocida como
el descubrimiento de datos, es una forma
especializada de análisis de datos que se dirige a
grandes conjuntos de datos.
• En relación con el análisis de grandes volúmenes
de datos (BIG DATA), la minería de datos
generalmente se refiere a las técnicas
automatizadas, basadas en software que se
desplazan a través de grandes conjuntos de datos
para identificar patrones y tendencias.
Análisis Estadístico
• El análisis estadístico utiliza métodos estadísticos
basados en fórmulas matemáticas como un medio para
analizar los datos.
• El análisis estadístico es más a menudo cuantitativo,
pero también puede ser cualitativo.
• Este tipo de análisis se utiliza comúnmente para
describir conjuntos de datos a través de resúmenes,
tales como la media, mediana, o moda de estadísticas
asociadas con el conjunto de datos.
• También puede utilizarse para inferir patrones y las
relaciones dentro del conjunto de datos, como la
regresión y correlación.
Maquinas de Aprendizaje
• Los seres humanos son buenos para reconocer
patrones y relaciones dentro de los datos.
Desafortunadamente, no podemos procesar grandes
cantidades de datos muy rápidamente. Las máquinas,
por el contrario, son muy hábiles para procesar
grandes cantidades de datos de forma rápida, pero
solo si se sabe cómo.
• Si el conocimiento humano puede ser combinado con
la velocidad de procesamiento de máquinas, las
máquinas serán capaces de procesar grandes
cantidades de datos sin necesidad de mucha
intervención humana. Este es el concepto básico de
aprendizaje de máquina.
Maquinas de Aprendizaje
Mapa conceptual del aprendizaje automático.
Big data
Análisis semántico
• Un fragmento de datos de texto o de voz puede llevar a
diferentes significados en diferentes contextos,
mientras que una oración completa puede retener su
significado, incluso si se estructura de manera
diferente.
• A fin de que las máquinas puedan extraer información
valiosa, datos de texto y de voz tienen que ser
entendidos por las máquinas en la misma forma que lo
hacen los humanos. El análisis semántico representa
las prácticas para extraer información significativa de
los datos de texto y de voz.
Análisis Visual
• El análisis visual es una forma de análisis de datos que consiste en la
representación gráfica de datos para permitir o mejorar su
percepción visual.
• Basado en la premisa de que los seres humanos pueden entender y
sacar conclusiones de gráficos más rápidamente que a partir del
texto, el análisis visual actúa como herramienta de descubrimiento
en el campo de grandes volúmenes de datos.
• El objetivo es utilizar representaciones gráficas para desarrollar una
comprensión más profunda de los datos que están siendo
analizados. En concreto, se ayuda a identificar y resaltar patrones
ocultos, correlaciones y anomalías.
• El análisis visual también está directamente relacionada con el
análisis exploratorio de datos, ya que fomenta la formulación de las
preguntas de los diferentes ángulos.
Análisis Visual
Mapas de Calor Análisis de Datos Espacial
¿Y todo esto que tiene
que ver con la materia
de Desarrollo de
Aplicaciones para
Ciudades Inteligentes?
Big data
Big data
Big data
Big data
Big data
Preguntas
Llegó la hora de levantarse y
empezar a ser activos con
Big Data, puesto que
“quedarse sentados
esperando” no es una opción
viable.
Gracias.
javalder@gmail.com
Manosala
obra.

Más contenido relacionado

PPTX
Big data 2017 final
PPTX
Big data presentacion diapositiva
PPT
Historia de la tecnologia de base de datos
PPTX
Understanding DB2 Optimizer
PPTX
Big Data ppt
PPTX
negocio electrónico vs comercio electrónico
PPTX
Tipos de usuarios en una base de datos
PPT
Master Data Management
Big data 2017 final
Big data presentacion diapositiva
Historia de la tecnologia de base de datos
Understanding DB2 Optimizer
Big Data ppt
negocio electrónico vs comercio electrónico
Tipos de usuarios en una base de datos
Master Data Management

La actualidad más candente (20)

ODP
00 introducción a Python
PPTX
Power data mdm
PPTX
2. tipos de redes
PPT
Sistemas Distribuidos. Diseño e Implementacion
PPTX
PPTX
Introduction to Big Data
PPT
DATAWAREHOUSE
PDF
Ibm db2 interview questions and answers
PPTX
Base de datos
PPTX
Tipos de consultas sql
PPTX
Unidad 1. Fundamentos de Base de Datos
PPTX
Big Data - Applications and Technologies Overview
PPT
Modelos de datos
PPTX
Ventajas y desventajas de las bdoo
PPTX
Introducción sgbd
PPTX
BIG DATA & DATA ANALYTICS
PDF
Gantt - Plan de migracion SAP Business One 8.81
PPTX
HISTORIA DE LAS BASES DE DATOS
PPT
Conceptos basicos
PDF
00 introducción a Python
Power data mdm
2. tipos de redes
Sistemas Distribuidos. Diseño e Implementacion
Introduction to Big Data
DATAWAREHOUSE
Ibm db2 interview questions and answers
Base de datos
Tipos de consultas sql
Unidad 1. Fundamentos de Base de Datos
Big Data - Applications and Technologies Overview
Modelos de datos
Ventajas y desventajas de las bdoo
Introducción sgbd
BIG DATA & DATA ANALYTICS
Gantt - Plan de migracion SAP Business One 8.81
HISTORIA DE LAS BASES DE DATOS
Conceptos basicos
Publicidad

Destacado (7)

PPTX
Internet de las cosas
PPTX
Sra. Karin Quiroga, Internet de las Cosas y Big Data: ¿hacia dónde va la Indu...
PPTX
Big Data and Internet of Things: Creating Customer Value for the Internet of ...
PPTX
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
PDF
Big Data e Internet de las Cosas: Nuevas Tecnologías para un Mundo Cambiante
PDF
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
PPTX
Smart Grid Big Data e IoT
Internet de las cosas
Sra. Karin Quiroga, Internet de las Cosas y Big Data: ¿hacia dónde va la Indu...
Big Data and Internet of Things: Creating Customer Value for the Internet of ...
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
Big Data e Internet de las Cosas: Nuevas Tecnologías para un Mundo Cambiante
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Smart Grid Big Data e IoT
Publicidad

Similar a Big data (20)

PPTX
habilidades digitales.pptTXXAVAHVXHxcvJJXv
PPTX
Aplicaciones Difusas: Evolución de las Bases de Datos
PDF
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
PDF
Conceptos en Ciencia de Datos
PPTX
01. Introducción a la Analítica de Datos.pptx
PPTX
Presentación Introducción al Análisis de Datos.pptx
PPTX
Big-Data-aplicado-a-los-Negocios (1).pptx
PPTX
Trabajo de-big-data
PDF
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
PDF
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
PPSX
Gestión de Bases de Datos
PDF
Conceptos de Big Data y Análisis de Datos
PDF
Guia n1 fundamentos de base de datos
PDF
dsddasdasdasdasdasdasdasdasdasdasdasdasdasdasd
PPTX
PROYECION DE BASES A FUTURO
PDF
Bigdata trabajo de investigacion
PDF
introduccion-al-analisis-de-datos--------
PDF
"Casos de uso del Big Data" por Wolfram Rozas
PPTX
ADM BD UNIDAD 1 CLASE 1 y 2.pptx
habilidades digitales.pptTXXAVAHVXHxcvJJXv
Aplicaciones Difusas: Evolución de las Bases de Datos
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
Conceptos en Ciencia de Datos
01. Introducción a la Analítica de Datos.pptx
Presentación Introducción al Análisis de Datos.pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
Trabajo de-big-data
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Gestión de Bases de Datos
Conceptos de Big Data y Análisis de Datos
Guia n1 fundamentos de base de datos
dsddasdasdasdasdasdasdasdasdasdasdasdasdasdasd
PROYECION DE BASES A FUTURO
Bigdata trabajo de investigacion
introduccion-al-analisis-de-datos--------
"Casos de uso del Big Data" por Wolfram Rozas
ADM BD UNIDAD 1 CLASE 1 y 2.pptx

Último (20)

PDF
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
PPTX
DOROTHEA E OREM EXPO.pptx de una teoridta importante
PDF
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
PDF
Actualización en el uso de uterotónico.pdf
PDF
RADIOGRAFIA DEL PARQUE AUTOMOTOR EN BOLIVA Y PROYECCIONES 2025-2030.pdf
PDF
EJERCICIOS RESUELTOS CON SOLVER EXCEL.pdf
PPTX
fisioterapia 6 semestre - ---- serealizo
DOCX
LAS DROGAS, SU CONSUMO Y LAS ADICCIONES.docx
PDF
Mapa mental.pdf esquema de realización en general
PPT
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
PPTX
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
PDF
Pobreza porcentual en el mundo y sistemas socioeconómicos (1945-2030).pdf
PPTX
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
PDF
Manual de presentacion de la aplicacion Plugbot
PDF
docsity-diapositivas-de-la-salud-mental.pdf
PPTX
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
PPTX
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
PPT
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
PPTX
lareformaprevisional-091013175510-phpapp01.pptx
PDF
NORMA_1887_LEY_27269_Modificada_por_LEY_27310.pdf
dhjhfjhjcnjhghhhdfhuhhchchuuhuhduhduddyhdu
DOROTHEA E OREM EXPO.pptx de una teoridta importante
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
Actualización en el uso de uterotónico.pdf
RADIOGRAFIA DEL PARQUE AUTOMOTOR EN BOLIVA Y PROYECCIONES 2025-2030.pdf
EJERCICIOS RESUELTOS CON SOLVER EXCEL.pdf
fisioterapia 6 semestre - ---- serealizo
LAS DROGAS, SU CONSUMO Y LAS ADICCIONES.docx
Mapa mental.pdf esquema de realización en general
2010_06 FSI_ASBA Pruebas de Stress de Riesgo de Crédito El Caso Peruano MLUY_...
FACTORES DE RIESGOS EN EL PERSONAL DE SALUD 2 DIAPOSITIVAS.pptx
Pobreza porcentual en el mundo y sistemas socioeconómicos (1945-2030).pdf
INDUCCION Y ORIENTACION DE LA EMPRESA VALE
Manual de presentacion de la aplicacion Plugbot
docsity-diapositivas-de-la-salud-mental.pdf
Abdomen HosAESREBBweubeehkrhkqhrkhehrjktil.pptx
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
TRATA Y TRÁFICO DE PERSONAS defensoría del pueblo
lareformaprevisional-091013175510-phpapp01.pptx
NORMA_1887_LEY_27269_Modificada_por_LEY_27310.pdf

Big data

  • 1. Big Data. Más que un BUZZWORD, un universo de oportunidades. Jhony Valderrama
  • 2. {nombre, edad, carrera, área de interés}
  • 3. Contenido • Parte 1. La Era del Big Data. • Parte 2. Infraestructura del Big Data. • Parte 3. Analítica del Big Data.
  • 4. Contenido • Parte 1. La Era del Big Data. – ¿En qué punto estamos?. – Que es Big Data. – Fuentes de Grandes Volúmenes de Datos. – El Almacén del Big Data. – Sectores Estratégicos del Big Data. – La Analítica y Los científicos de Datos. – Cloud Computing.
  • 5. BigData: “¿Enqué punto estamos?” Big Data ya no es una promesa ni una tendencia. Big Data está aquí y está provocando cambios profundos en diversas industrias. Desde el punto de vista tecnológico ya existen sectores empresariales que han adoptado de forma masiva proyectos y productos. El análisis de todos los datos disponibles está convirtiéndose en un elemento de disrupción.
  • 7. ¿Qué es BigData? “Big Data se refiere a los conjuntos de datos cuyo tamaño está mas allá de las capacidades de las herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar”. – Mckinsey Global Institute. 2011.
  • 8. Semi-Estructurados NoEstructurados Estructurados Datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo. Tipos de Datos Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Un ejemplo es el HTML, el XML o el JSON. Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.
  • 10. Fuentes de Grandes Volúmenes de Datos. • Datos personales. • Datos de la web. • Datos de los medios sociales (redes sociales, blogs, wikis). • Datos del IoT. • Datos de interconexión de maquinas, M2M. • Datos industriales. • Datos de la industria del automóvil. • Datos de redes de telecomunicaciones. • Datos de medios de comunicación (prensa, radio, TV, cine). • Datos de sensores. • Datos de videojuegos. • Datos de GPS. • Datos de telefonía celular (texto, datos, audio, fotos, video). • Etc, etc………………………………………………………………….etc.
  • 12. Características del Big Data: Las 5 V’s 1. VOLUMEN: • Terabytes, Registros, Transacciones, Tablas, Archivos. 2. VELOCIDAD: • Por Lotes, Tiempo Próximo, Tiempo Real, Flujos. 3. VARIEDAD: • Datos Estructurados, Semi-Estructurados, NO estructurados. 4. VERACIDAD: • Viabilidad, Precisión, Confiabilidad. 5. VALOR: • Costo, Rentabilidad, Eficiencia.
  • 13. Fuente: A.T.Kearney | Big Data and the Creative Destruction of Today’s Business Models
  • 16. El científico de datos o data scientist. La nueva profesión SEXY del siglo XXI.
  • 17. • Es una persona con habilidades “serias” en: – Ciencias de la computación. – Analítica. – Matemáticas. – Estadística. – Generación de tendencias. • Además debe: – Comprender los problemas del negocio. – Transformar el problema. – Ejecutar un plan. – Dar una solución de negocios.
  • 20. Líneas de Generación y/o Aplicación del Conocimiento
  • 26. Aplicaciones del Big Data • La reelección de Obama – Tras su primer mandato, el presidente de los EEUU, Barack Obama, decidió utilizar Big Data para su reelección en 2012. – Un centenar de personas trabajaron en el departamento de analítica de la campaña. – 50 estaban fijos en las oficinas centrales, otros 30 se movilizaron a lo largo y ancho de las distintas sedes del país, y 20 estaban única y exclusivamente centrados en la interpretación de los datos recibidos. – Tras un primer análisis, los esfuerzos de la campaña se enfocaron en tres aspectos: registro (recoger datos de los votantes convencidos), persuasión (dirigirse a los dudosos de una forma eficaz) y voto del electorado (asegurarse de que los partidarios fueran a ejercer el voto sí o sí). – Por primera vez, los tres equipos más importantes de las campañas electorales: el de campo, el digital y el de comunicación, trabajaron con una estrategia unificada con los respectivos datos de cada uno.
  • 28. Aplicaciones del Big Data • Juegos de pelota y millones de datos – Moneyball: Rompiendo las reglas (2011). – Ocurrió en la pretemporada de 2002 en Oakland Athletics de las Grandes Ligas de Béisbol de los Estados Unidos. El gerente deportivo Billy Beane, revolucionó la historia del club y posiblemente del deporte en general tras fichar a un joven economista, Peter Brand, que traía nuevas ideas. – Juntos contrataron jugadores infravalorados, pero económicamente rentables, con un criterio de selección muy diferente. La intuición y sapiencia de los ojeadores es sustituida por las conclusiones de los análisis de estadísticas y números acumulados a la hora de establecer las necesidades del equipo y los jugadores que mejor se adaptan a éstas.
  • 29. Aplicaciones del Big Data • El Language, Interaction and Computation Laboratory (CLIC) en conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos. • Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer. • El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del algoritmo y el paralelismo computacional de Hadoop mejora la velocidad y exactitud de estas secuencias.
  • 35. Consideraciones • Requisitos previos. – Elaborar una estrategia, financiación $, tiempo. • Adquisición de datos. – Donde consigo los datos, la calidad, ej. Kaggle. • Privacidad. – La intimidad de las personas. • Seguridad. – Que tan seguro es donde proceso los datos. • Limitaciones de la infraestructura. – Puedo procesar 1 TB de datos en una Raspberry Pi?
  • 36. Contenido • Parte 2. Infraestructura del Big Data. – Comparación Arquitecturas. – Recolección de Datos. – Almacenamiento. – Procesamiento.
  • 37. Vs. Arq. tradicional Arq. Big data • Centralidad  mainframe, cpd • BBDD relacionales • Datos estructurados • Alm. Convencional: -Silos de información -Datawarehouse • Alta escalabilidad (Scale-Out) • Procesamiento paralelo • Mismo espacio almacen. y procesadoBaja latencia • Datos no estructurados y est. • By-pass de datos (no silos) • NoSQL Comparación Arquitecturas
  • 38. Comparación Arquitecturas • Un objetivo que buscan los sistemas Big Data es la escalabilidad, es decir, un sistema que pueda variar su tamaño (ya sea aumentándolo o disminuyéndolo) según las necesidades y que esto no afecte al rendimiento general de todo el sistema.
  • 39. RECOLECCIÓN DE DATOS • Batch o por lotes: se conectan de manera periódica a la fuente de datos buscando nueva información. Generalmente se usan para conectarse a sistemas de ficheros o bases de datos, buscando cambios desde la última vez que se conectaron. • Una herramienta para migrar datos periódicamente -una vez al día, por ejemplo- de una base de datos a otra es un ejemplo de recolección de datos por lotes.
  • 40. RECOLECCIÓN DE DATOS • Streaming o por transmisión en tiempo real: están conectados de manera continua a la fuente de datos, descargando información cada vez que ésta transmite. • Se acostumbra a usar para monitorización de sistemas -para aumentar la seguridad y la detección de fallos-, de conjuntos de sensores o para conectarse a redes sociales y descargar información en tiempo real.
  • 41. ALMACENAMIENTO • La capa de almacenamiento tiene, a grandes rasgos, dos elementos básicos: el sistema de archivos y la base de datos. • Hasta hace poco los sistemas de tratamiento de la información se centraban principalmente en las bases de datos pero, debido a que en los sistemas Big Data se busca la mayor variedad posible -las bases de datos acostumbran a ser poco flexibles-, los sistemas de archivos han cobrado mayor importancia.
  • 43. ALMACENAMIENTO HDFS Sistema de Archivos o Ficheros HDFS
  • 45. ALMACENAMIENTO - BD SQL • En la actualidad hay muchos lenguajes basados en SQL como PostgreSQL, MySQL, MariaDB o SQLite; que a la vez también son Sistemas Gestores de Bases de Datos Relacionales o SGBDR-. • Los lenguajes SQL se benefician de consultas muy sencillas, parecidas al lenguaje humano, que las hacen muy accesibles a los usuarios no expertos. • Se aprovecha de las características del álgebra y el cálculo relacional para efectuar con el fin de recuperar de forma sencilla información de interés.
  • 46. ALMACENAMIENTO BD SQL • Son sistemas rápidos y ágiles pero cuando la información almacenada supera unos límites - normalmente alrededor de terabytes- mantener la información estructurada tiene un coste en la creación y mantenimiento de los índices y en el rendimiento de las consultas. • Son bases de datos poco flexibles ya que cuando se crea su estructura es bastante conflictivo realizar cambios en esta (como añadir nuevas columnas a una tabla o cambiar el tipo de una columna).
  • 47. ALMACENAMIENTO - BD NoSQL • Son modelos de bases de datos que no siguen el modelo relacional -y por lo tanto usan muy poco el lenguaje SQL. • Aportan más flexibilidad al no requerir estructuras fijas como las tablas. • Responden a las necesidades de escalabilidad, ya que al no tener que mantener los índices para los datos el volumen de información que almacenan siempre crece de forma horizontal (en las bases de datos SQL el mantenimiento de índices hace que crezcan de manera parecida a exponencial al añadir nuevos datos).
  • 50. PROCESAMIENTO • Parallel Data Processing • Distributed Data Processing o Cluster • Hadoop • Processing Workloads – Batch – Transactional • Heterogeneous systems – INTEL XEON PHI – GPU´s
  • 51. PROCESAMIENTO • Procesamiento de datos en paralelo. – El procesamiento de datos en paralelo consiste en la ejecución simultánea de múltiples sub-tareas que comprenden colectivamente una tarea más grande. – El objetivo es reducir el tiempo de ejecución por la división de una sola tarea más grande en varias tareas más pequeñas que se ejecutan al mismo tiempo. – Se consigue más típicamente dentro de los confines de una sola máquina con varios procesadores o núcleos.
  • 52. PROCESAMIENTO Una tarea puede ser dividida en tres sub-tareas que se ejecutan en paralelo en tres procesadores diferentes dentro de la misma máquina.
  • 53. PROCESAMIENTO • Procesamiento de datos Distribuido y/o Cluster. – El procesamiento de datos distribuidos está estrechamente relacionado con el procesamiento de datos en paralelo en el que el mismo principio de "divide y vencerás" se aplica. – El procesamiento de datos distribuidos siempre se logra a través de máquinas físicamente separados que están conectados en red como un clúster.
  • 54. Ejemplo de proceso de datos distribuido. PROCESAMIENTO
  • 56. • Hadoop – Hadoop permite la creación de aplicaciones para procesar grandes volúmenes de información distribuida a través de un modelo de programación sencillo. – Está diseñado para ser escalable puesto que trabaja con almacenamiento y procesamiento local (pero distribuido), de manera que funciona tanto para clústeres de un solo nodo como para los que estén formados por miles. PROCESAMIENTO
  • 57. • Map tasks – map – combine (optional) – partition PROCESAMIENTO Funcionamiento del MapReduce • Reduce tasks – shuffle and sort – reduce
  • 58. Un ejemplo de MapReduce en acción. PROCESAMIENTO
  • 59. PROCESAMIENTO • Processing Workloads – El procesamiento de la carga de trabajo en Big Data es definido por la cantidad y la naturaleza que son procesados en cierta cantidad de tiempo. • Batch • Transactional
  • 60. PROCESAMIENTO • Batch: El procesamiento en Batch o también llamado procesamiento offline, involucra el procesamiento de datos en lotes y usualmente tiene delays, que a su vez resulta en respuestas de alta latencia. • Típicamente involucran grandes cantidades de datos con lecturas / escrituras secuenciales y forman parte de los grupos de queries de lectura o escritura.
  • 61. PROCESAMIENTO Una carga de trabajo por lotes puede include incluir grupos de lecturas/escritures como INSERT, SELECT, UPDATE y DELETE.
  • 62. PROCESAMIENTO • Transactional: Procesamiento transaccional es también conocido como procesamiento en línea. Este tipo de procesamiento sigue un enfoque en el que se procesan los datos de forma interactiva sin delay, lo que resulta en respuestas de baja latencia. • Las cargas de trabajo de transacciones implican pequeñas cantidades de datos con lecturas y escrituras aleatorias.
  • 63. PROCESAMIENTO Las cargas de trabajo del modo transaccionales tienen pocos joins y menor latencia que en el modo Batch.
  • 64. PROCESAMIENTO • Sistemas Heterogéneos – Esta arquitectura soporta grandes cantidades de núcleos en un único procesador, donde la infraestructura de apoyo (interconexión, la jerarquía de memoria, etc.) esta diseñada para soportar altos niveles de escalabilidad, que va más allá de la encontrada en los computadores con varios procesadores. – Con el de diseño basado en varios núcleos son posibles cientos de miles de threads (hilos o hebras) por chip computacional. – Estos procesadores, no poseen núcleos tan complejos y poderosos como los de las arquitecturas Multicore.
  • 65. PROCESAMIENTO Criterio de comparación Multicore Manycore Perspectivas de Crecimiento Así como procesadores de un núcleo tuvieron un callejón sin salida, se estima que este tipo de procesador seguirá el mismo camino. Se estima que la evolución de los computadores seguirá esta vía. Cantidad de núcleos Entre 2 y 16 La cantidad es variable, pero a nivel comercial existen arquitecturas con más de 480 núcleos Grado de paralelismo Posee paralelismo, pero en un grado menor a las arquitecturas Manycore, debido a su acotada cantidad de núcleos Entrega un alto grado de paralelismo, debido a la gran cantidad de núcleos que posee. Complejidad de los núcleos Posee núcleos altamente complejos, de gran capacidad y tamaño Posee núcleos simples, pequeños y de capacidades acotadas. Cuadro Comparativo de las arquitecturas Multicore vs Manycore
  • 66. PROCESAMIENTO • Intel XEON PHI. • Los coprocesadores Intel® Xeon Phi™ ofrecen hasta 61 núcleos, 244 subprocesos y 1,2 teraFLOPS de desempeño, y vienen en una variedad de configuraciones para dar respuesta a diversos requisitos de hardware, software, cargas de trabajo, desempeño y eficiencia.
  • 68. PROCESAMIENTO • Nvidia Cuda – Desde sus orígenes como procesadores gráficos especializados que podían reproducir rápidamente imágenes en un monitor, se han convertido en una tecnología a seguir cuando se necesita de un procesamiento ultrarrápido. – En los últimos años, cada vez las GPU´s se han unido a las CPU´s para acelerar una amplia gama de cálculos en la denominada computación heterogénea. – Hoy en día, las GPU´s están incorporadas en cualquier computador de escritorio, en clústers de computadores, e incluso en muchos de los mayores superordenadores del mundo. – En su rol de proveedor de grandes cantidades de poder computacional para la computación más exigente, las GPU´s han permitido avances en la ciencia y la ingeniería en una amplia variedad de disciplinas. – Lo han hecho por lo que es posible que un gran número de núcleos de computación para trabajar en paralelo, manteniendo el consumo de potencia a unos niveles muy razonables
  • 70. ¿ COMO PROCESA FACEBOOK SUS GRANDES CANTIDADES DE DATOS?
  • 74. Contenido • Parte 3. Analítica del Big Data. – Análisis Cuantitativo. – Análisis Cualitativo. – Minería de Datos. – Análisis Estadístico. – Maquinas de Aprendizaje. – Análisis Semántico. – Análisis Visual
  • 75. Análisis Cuantitativo • El análisis cuantitativo es una técnica de análisis de datos que se centra en la cuantificación de los patrones y correlaciones encontradas en los datos. • Sobre la base de las prácticas estadísticas, esta técnica consiste en el análisis de un gran número de observaciones a partir de un conjunto de datos. • Dado que el tamaño de la muestra es grande, los resultados se pueden aplicar de manera generalizada para todo el conjunto de datos.
  • 76. Análisis Cuantitativo La salida del análisis cuantitativo en naturaleza es numérico.
  • 77. Análisis Cualitativo • El análisis cualitativo es una técnica de análisis de datos que se centra en describir las cualidades de datos utilizando diferentes palabras. • Se trata de analizar una muestra más pequeña en mayor profundidad en comparación con el análisis de datos cuantitativos. Estos resultados de los análisis no se pueden generalizar a todo un conjunto de datos debido al tamaño pequeño de la muestra.
  • 78. Análisis Cualitativo Los resultados cualitativos son de carácter descriptivo y no generalizable a todo el conjunto de datos.
  • 79. Minería de Datos • La minería de datos, es también conocida como el descubrimiento de datos, es una forma especializada de análisis de datos que se dirige a grandes conjuntos de datos. • En relación con el análisis de grandes volúmenes de datos (BIG DATA), la minería de datos generalmente se refiere a las técnicas automatizadas, basadas en software que se desplazan a través de grandes conjuntos de datos para identificar patrones y tendencias.
  • 80. Análisis Estadístico • El análisis estadístico utiliza métodos estadísticos basados en fórmulas matemáticas como un medio para analizar los datos. • El análisis estadístico es más a menudo cuantitativo, pero también puede ser cualitativo. • Este tipo de análisis se utiliza comúnmente para describir conjuntos de datos a través de resúmenes, tales como la media, mediana, o moda de estadísticas asociadas con el conjunto de datos. • También puede utilizarse para inferir patrones y las relaciones dentro del conjunto de datos, como la regresión y correlación.
  • 81. Maquinas de Aprendizaje • Los seres humanos son buenos para reconocer patrones y relaciones dentro de los datos. Desafortunadamente, no podemos procesar grandes cantidades de datos muy rápidamente. Las máquinas, por el contrario, son muy hábiles para procesar grandes cantidades de datos de forma rápida, pero solo si se sabe cómo. • Si el conocimiento humano puede ser combinado con la velocidad de procesamiento de máquinas, las máquinas serán capaces de procesar grandes cantidades de datos sin necesidad de mucha intervención humana. Este es el concepto básico de aprendizaje de máquina.
  • 82. Maquinas de Aprendizaje Mapa conceptual del aprendizaje automático.
  • 84. Análisis semántico • Un fragmento de datos de texto o de voz puede llevar a diferentes significados en diferentes contextos, mientras que una oración completa puede retener su significado, incluso si se estructura de manera diferente. • A fin de que las máquinas puedan extraer información valiosa, datos de texto y de voz tienen que ser entendidos por las máquinas en la misma forma que lo hacen los humanos. El análisis semántico representa las prácticas para extraer información significativa de los datos de texto y de voz.
  • 85. Análisis Visual • El análisis visual es una forma de análisis de datos que consiste en la representación gráfica de datos para permitir o mejorar su percepción visual. • Basado en la premisa de que los seres humanos pueden entender y sacar conclusiones de gráficos más rápidamente que a partir del texto, el análisis visual actúa como herramienta de descubrimiento en el campo de grandes volúmenes de datos. • El objetivo es utilizar representaciones gráficas para desarrollar una comprensión más profunda de los datos que están siendo analizados. En concreto, se ayuda a identificar y resaltar patrones ocultos, correlaciones y anomalías. • El análisis visual también está directamente relacionada con el análisis exploratorio de datos, ya que fomenta la formulación de las preguntas de los diferentes ángulos.
  • 86. Análisis Visual Mapas de Calor Análisis de Datos Espacial
  • 87. ¿Y todo esto que tiene que ver con la materia de Desarrollo de Aplicaciones para Ciudades Inteligentes?
  • 94. Llegó la hora de levantarse y empezar a ser activos con Big Data, puesto que “quedarse sentados esperando” no es una opción viable. Gracias. javalder@gmail.com Manosala obra.