SlideShare una empresa de Scribd logo
"The world is one big
data problem."
Rodrigo García
“Errors using inadequate data are much
less than those using no data at all”
Charles Babbage.
Big Data no se refiere a alguna cantidad en
específico.
Además del gran volumen de información, esta
existe en una gran variedad de datos que
pueden ser representados de diversas maneras
en todo el mundo. Junto a Velocidad hacen las
3 V del Big Data.
“Big data is not about the data”
Gary King.
“ With big data, researchers have brought
cherry-picking to an industrial level.”
Nassim N. Taleb
La falacia de prueba incompleta, supresión de pruebas, o por su designación
en inglés cherry picking (seleccionar lo mejor de algo, o bien, seleccionar lo
peor de algo, o bien, seleccionar algo "a la medida"), es la acción de citar
casos individuales o datos que parecen confirmar la verdad de una cierta
posición o proposición, a la vez que se ignora una importante cantidad de
evidencias de casos relacionados o información que puede contradecir la
proposición.
Actualmente se posee demasiadas variables, pero poca información por
variable, por lo que las relaciones crecen demasiado, más rápido que la
información real. En otras palabras: Big Data puede significar más información,
pero también significa falsa información.
"Big Data is not a substitute for Big Ideas"
Joseph Coughlin
Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es
la que se debe analizar?, sin embargo, el cuestionamiento debería estar
enfocado hacia ¿qué problema es el que se está tratando de resolver?
"Big Data is not a substitute for Big Ideas"
Joseph Coughlin
Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase
para analizar datos producidos por los investigadores de The Cancer Genome
Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer.
El PSG College of Technology, India, analiza múltiples secuencias de proteínas para
determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del
algoritmo y el paralelismo computacional de Hadoop mejora la velocidad y exactitud de
estas secuencias.
La Universidad de Maryland es una de las seis universidades que colaboran en la iniciativa
académica de cómputo en la nube de IBM/Google. Sus investigaciones incluyen
proyectos en la lingüística computacional (machine translation), modelado del lenguaje,
bioinformática, análisis de correo electrónico y procesamiento de imágenes.
"The world is one big data problem."
Andrew McAfee
Los 11.5 millones de
documentos enviados al
Süddeutsche Zeitung y al
International Consortium of
Investigative Journalists (ICIJ)
incluían 5 millones de emails,
3 millones de archivos de
database, 2 millones de
PDFs, 1 millón de imágenes,
230 mil documentos de texto
y más de 2 mil archivos no
calificados.
"The world is one big data problem."
Andrew McAfee
El ICIJ contrató a la firma de
analytics Nuix, quienes utilizan
una herramienta de
indexación que extrae textos y
metadatos de los documentos,
para luego poder hacer
consultas y encontrar la
relación entre datos.
El proceso que tomó 2
semanas en hacer de la data
algo consultable para
encontrar conexiones,
patrones y relaciones.
"The world is one big data problem."
Andrew McAfee
Los Panama Papers son una muestra del camino a seguir. Ahora es posible
recolectar y analizar información más rápido que nunca mediante el uso de
métodos del machine learning, como el deep learning.
Información no estructurada, como textos en posteos social media, emails,
notas, etc., representan una gran oportunidad para los negocios que puedan
aprovecharlos.
Aún hay margen para futuras revelaciones cuando los periodistas e
investigadores consigan añadir más criterios de búsqueda y encontrar
nuevas relaciones entre los nombres y los datos.
“Big data is like teenage sex: everyone
talks about it, nobody really knows how
to do it, everyone thinks everyone else is
doing it, so everyone claims they are
doing it…”
Dan Ariely
GRACIAS!
Rodrigo García
rodrigo.garcia@globallogic.com

Más contenido relacionado

PPTX
big data
PDF
Ensayo argumentativo
DOC
Kertas kerja pt35
PPTX
PDF
Como hablar en público
PDF
MS_Learning_Transcript.PDF
PDF
TDC Perspektiv - Tema om IT-Sikkerhed
PPTX
MAGMM DESIGN One A2 Digital Presentation
big data
Ensayo argumentativo
Kertas kerja pt35
Como hablar en público
MS_Learning_Transcript.PDF
TDC Perspektiv - Tema om IT-Sikkerhed
MAGMM DESIGN One A2 Digital Presentation

Destacado (9)

PDF
BitFinex Hack Overview
DOCX
report
DOCX
Steve Stephens Epic Go Live and Credentialed Trainer Resume
PDF
Resume pablo fernandez 2016
PPTX
Unit 1 The Gilded Age
PPTX
Must Familiarity Breed Erotic Boredom?
PDF
Paper id 37201517
DOCX
La seguridad ciudadana
PPTX
Arquitectura 140126175649-phpapp01
BitFinex Hack Overview
report
Steve Stephens Epic Go Live and Credentialed Trainer Resume
Resume pablo fernandez 2016
Unit 1 The Gilded Age
Must Familiarity Breed Erotic Boredom?
Paper id 37201517
La seguridad ciudadana
Arquitectura 140126175649-phpapp01
Publicidad

Similar a Rodrigo García - Tex 2016 - The world is one big data problem (20)

PDF
Big Data y su impacto en la Inteligencia de Negocios
PDF
Presentación - Taller virtual de manejo de bases de datos, 12 sep 2013
PDF
Big data, NoSQL y tendencias en Bases de Datos 2018.
PDF
Big Data y la Innovación Global en Servicios Actual y Futura
PDF
Big Data y la innovación Global en Servicios Actual y Futura
PPTX
Gestión de datos abiertos búsqueda, recolección, tratamiento y visualización ...
DOCX
PDF
Tópicos de Big Data - Introducción
PPTX
Big data y Redes Sociales
PPTX
Fundamentos.pptx
PDF
¿Qué es el Big Data?
PDF
Conceptos en Ciencia de Datos
PPTX
PDF
Tema1
PDF
"Educación y datos masivos (Big Data)" - Fernando Santamaria
PDF
"Educación y datos masivos (Big Data)" - Fernando Santamaria
PDF
Educación y datos masivos (Big Data)
PPTX
Analitica del Aprendizaje
PDF
Text mining para historiadores de arte
Big Data y su impacto en la Inteligencia de Negocios
Presentación - Taller virtual de manejo de bases de datos, 12 sep 2013
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y Futura
Gestión de datos abiertos búsqueda, recolección, tratamiento y visualización ...
Tópicos de Big Data - Introducción
Big data y Redes Sociales
Fundamentos.pptx
¿Qué es el Big Data?
Conceptos en Ciencia de Datos
Tema1
"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria
Educación y datos masivos (Big Data)
Analitica del Aprendizaje
Text mining para historiadores de arte
Publicidad

Último (20)

PPTX
Sesion 1 de microsoft power point - Clase 1
PPTX
Presentacion de Alba Curso Auditores Internos ISO 19011
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
PDF
MANUAL de recursos humanos para ODOO.pdf
PDF
Distribucion de frecuencia exel (1).pdf
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
PDF
CyberOps Associate - Cisco Networking Academy
DOCX
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
PPTX
Curso de generación de energía mediante sistemas solares
PPTX
El uso de las TIC en la vida cotidiana..
DOCX
Guía 5. Test de orientación Vocacional 2.docx
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
PDF
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PDF
Estrategia de Apoyo de Daylin Castaño (5).pdf
PPTX
ccna: redes de nat ipv4 stharlling cande
PDF
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
Sesion 1 de microsoft power point - Clase 1
Presentacion de Alba Curso Auditores Internos ISO 19011
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
Historia Inteligencia Artificial Ana Romero.pptx
MANUAL de recursos humanos para ODOO.pdf
Distribucion de frecuencia exel (1).pdf
informe_fichas1y2_corregido.docx (2) (1).pdf
CyberOps Associate - Cisco Networking Academy
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
Curso de generación de energía mediante sistemas solares
El uso de las TIC en la vida cotidiana..
Guía 5. Test de orientación Vocacional 2.docx
Documental Beyond the Code (Dossier Presentación - 2.0)
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
Power Point Nicolás Carrasco (disertación Roblox).pptx
Estrategia de Apoyo de Daylin Castaño (5).pdf
ccna: redes de nat ipv4 stharlling cande
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx

Rodrigo García - Tex 2016 - The world is one big data problem

  • 1. "The world is one big data problem." Rodrigo García
  • 2. “Errors using inadequate data are much less than those using no data at all” Charles Babbage. Big Data no se refiere a alguna cantidad en específico. Además del gran volumen de información, esta existe en una gran variedad de datos que pueden ser representados de diversas maneras en todo el mundo. Junto a Velocidad hacen las 3 V del Big Data.
  • 3. “Big data is not about the data” Gary King.
  • 4. “ With big data, researchers have brought cherry-picking to an industrial level.” Nassim N. Taleb La falacia de prueba incompleta, supresión de pruebas, o por su designación en inglés cherry picking (seleccionar lo mejor de algo, o bien, seleccionar lo peor de algo, o bien, seleccionar algo "a la medida"), es la acción de citar casos individuales o datos que parecen confirmar la verdad de una cierta posición o proposición, a la vez que se ignora una importante cantidad de evidencias de casos relacionados o información que puede contradecir la proposición. Actualmente se posee demasiadas variables, pero poca información por variable, por lo que las relaciones crecen demasiado, más rápido que la información real. En otras palabras: Big Data puede significar más información, pero también significa falsa información.
  • 5. "Big Data is not a substitute for Big Ideas" Joseph Coughlin Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué problema es el que se está tratando de resolver?
  • 6. "Big Data is not a substitute for Big Ideas" Joseph Coughlin Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer. El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del algoritmo y el paralelismo computacional de Hadoop mejora la velocidad y exactitud de estas secuencias. La Universidad de Maryland es una de las seis universidades que colaboran en la iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones incluyen proyectos en la lingüística computacional (machine translation), modelado del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de imágenes.
  • 7. "The world is one big data problem." Andrew McAfee Los 11.5 millones de documentos enviados al Süddeutsche Zeitung y al International Consortium of Investigative Journalists (ICIJ) incluían 5 millones de emails, 3 millones de archivos de database, 2 millones de PDFs, 1 millón de imágenes, 230 mil documentos de texto y más de 2 mil archivos no calificados.
  • 8. "The world is one big data problem." Andrew McAfee El ICIJ contrató a la firma de analytics Nuix, quienes utilizan una herramienta de indexación que extrae textos y metadatos de los documentos, para luego poder hacer consultas y encontrar la relación entre datos. El proceso que tomó 2 semanas en hacer de la data algo consultable para encontrar conexiones, patrones y relaciones.
  • 9. "The world is one big data problem." Andrew McAfee Los Panama Papers son una muestra del camino a seguir. Ahora es posible recolectar y analizar información más rápido que nunca mediante el uso de métodos del machine learning, como el deep learning. Información no estructurada, como textos en posteos social media, emails, notas, etc., representan una gran oportunidad para los negocios que puedan aprovecharlos. Aún hay margen para futuras revelaciones cuando los periodistas e investigadores consigan añadir más criterios de búsqueda y encontrar nuevas relaciones entre los nombres y los datos.
  • 10. “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…” Dan Ariely GRACIAS! Rodrigo García rodrigo.garcia@globallogic.com

Notas del editor

  • #3: http://es.slideshare.net/BernardMarr/big-data-best-quotes/3-Big_data_is_notabout_the http://www.brightcomputing.com/Blog/bid/200074/Correlation-Causation-and-Big-Data
  • #4: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ http://www.wired.com/2013/02/big-data-means-big-errors-people/
  • #5: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ http://www.wired.com/2013/02/big-data-means-big-errors-people/
  • #6: http://www.di.ens.fr/users/longo/files/BigData-Calude-LongoAug21.pdf