SlideShare una empresa de Scribd logo
BIG DATA: Extraer y visualizar grandes volúmenes de datos



                        Visualizaciones en tiempo real
                                 sobre Twitter
                              Fernando Zunino                  Pauline Morrison Fell
                              @fzunino                         @polinmf


Thursday, June 21, 12
Acerca de Zauber
                        •    Somos una boutique de software y lab con base en Argentina y
                             Estados Unidos que provee servicios a una alta gama de líderes
                             de la industria y startups de internet en América Latina y Silicon
                             Valley.

                        •    Nos especializamos en proyectos de Consumer Web, Social
                             Analytics y Big Data. Combinamos nuestros servicios de
                             desarrollo boutique con un laboratorio de I+D para desarrollar
                             nuevos emprendimientos y productos.



                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Nuestra experiencia con Twitter APIs


     Al Jazeera - Twitter Dashboard                        CABA - Elecciones legislativas 2011          JSConfAr - Visualizing Tweets




     Coca Cola - Social World Cup                          La Nacion - Elecciones presidenciales 2011   Zauberlabs - Tweet Discover



                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Análisis de
                                                                                     audiencias
                                                                                       online

                             Value insights on social audiences and conversations

         Plataforma online que:
              •         Procesa social media data a gran escala para entregar
                        reportes en tiempo real

              •         Identifica patrones demográficos y de comportamiento
                        de seguidores y conversaciones en Twitter

              •         Usa ML y NLP para entregar perfiles sociales aumentados
                        con información nueva respecto de APIs existentes o
                        perfiles de usuarios.
         Diseñada para:
              •         Investigación de mercado online
              •         Monitoreo de marcas en tiempo real
              •         ROI en Social Media
              •         Estrategias en Social Media



                         Visualizaciones en tiempo real sobre Twitter
                         Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Visualizacio-
                                                                                     nes animadas
                                                                                      de Twitter

                          Build your own Twitter real-time visualizations

        Plataforma online que permite:

              •         Construir infografías animadas sobre temas
                        en Twitter

              •         Enriquecer noticias con contenido social

              •         Ofrecer una segunda pantalla para un programa de TV

              •         Aumentar la participación en un evento

              •         Cubrir el buzz en eventos grandes o internacionales

         Diseñada para:

              •         Periodistas, Bloggers, Directores de Contenido,
                        Marketeers, Organizadores de Eventos, Emisoras



                         Visualizaciones en tiempo real sobre Twitter
                         Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Cómo lo construimos
      FRONTEND                                                                       BACKEND

                                                                                                     Storm

                                                                                                               Oozie



      INFRAESTRUCTURA                                                                TWITTER API


                                                                                                   Rest API
                             ELB, EC2, S3                                                           Streaming API
                         Elastic Map Reduce
                        Route53, CloudWatch




                         Visualizaciones en tiempo real sobre Twitter
                         Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Desafíos tecnológicos

                        •    Límites API Twitter

                        •    Big Data

                        •    Manejo de datos no estructurados

                        •    Inferencia de atributos ocultos




                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Límites API Twitter

                        •    Rest API limitada a 350 requests por ahora por IP

                        •    Streaming API (statuses/filter) está limitada si tweets exceden el
                             1% del Firehose
                            •    Partners de Twitter (Gnip, DataSift) pueden ser una opción para
                                 obtener un acceso mayor




                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Big Data
                            •    Twitter en #
                                     •    400M tweets por dia (http://www.theverge.com/
                                          2012/6/6/3069424/twitter-400-million-total-daily-tweets)
                                     •    140M usuarios activos (http://blog.twitter.com/2012/03/twitter-
                                          turns-six.html)

                            •    Generación de estadísticas en tiempo real
                                     •    Stream Processing => Storm

                            •    Generación de estadísticas sobre los usuarios
                                     •    Batch Processing => Hadoop (Map Reduce, Pig)


                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Manejo de datos no estructurados
                           •    Ubicación

                               •     5% de tweets utilizan GeoLocation API

                               •     72% Ingresan datos de ubicación en forma no
                                     estructurada

                               •     Utilizamos técnicas de NLP e Information Retrieval
                                     para detectar ubicación




                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Inferencia de atributos ocultos
                                •     Datos demográficos de usuarios no están presentes

                                       •     Tipo de Usuario

                                           •    Hombre/Mujer/Compañia

                                       •     Rango etario

                                •     Machine Learning al rescate!

                                       •     Se utilizan técnicas de aprendizaje supervisado para
                                             detectar dichos atributos


                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Demos


                 Rio+20                                                             Malvinas




                  Boca vs Universidad de Chile                                      Elecciones en Mexico

                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12
Gracias!




                                                             Preguntas?
                        Visualizaciones en tiempo real sobre Twitter
                        Big Data: Extraer y visualizar grandes volúmenes de datos
Thursday, June 21, 12

Más contenido relacionado

PDF
Big Data Introducción
PPTX
Social Media Day Buenos Aires 2012: Zauber
PPTX
Anatomía de un proyecto de Big Data
PDF
The Data Republic
PPTX
De la web 2.0 al Social Media
PDF
Semana de la Ciencia 2014 (Martínez-Prieto)
PPT
Axicom twitter 9th june 2010
PDF
1. Introducción Big Data
Big Data Introducción
Social Media Day Buenos Aires 2012: Zauber
Anatomía de un proyecto de Big Data
The Data Republic
De la web 2.0 al Social Media
Semana de la Ciencia 2014 (Martínez-Prieto)
Axicom twitter 9th june 2010
1. Introducción Big Data

Similar a Big Data : Extraer y visualizar grandes volúmenes de datos (20)

PDF
BIG DATA.pdf LAURA SOFIA GUARNIZO CABRERA
PPT
SocialBro: Cómo sacar el máximo partido a tus contactos de Twitter
PDF
Redes Sociales, Facebook Vs. Twitter
PPT
Presentación BigDataMachine para Marketing
PPTX
Big Data para analizar las redes sociales
PDF
Big data, Inteligencia Artificial y Redes Sociales en la investigación
PDF
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
PDF
Innovación mediante TIC aplicada con redes sociales y crowdsourcing
PPTX
Big data con SQL Server 2014
PDF
APLICACION DEL CROWDSOURCING EN LAS EMPRESAS: "Es facil obtener ayuda a trave...
PPTX
Web 2.0
 
PDF
Big Data para Dummies
PDF
BIGDATA NUEVAS FUENTES DE INFORMACION TRABAJO
PDF
HIPI-III BIG DATA, ¿Qué es Big Data?,..
PPTX
Empresas con BDOO
PDF
Revista Mundo Contact Septiembre 2012
PDF
Gestión de redes sociales en bibliotecas
PPTX
herramientas tic
PPTX
herramientas tic
BIG DATA.pdf LAURA SOFIA GUARNIZO CABRERA
SocialBro: Cómo sacar el máximo partido a tus contactos de Twitter
Redes Sociales, Facebook Vs. Twitter
Presentación BigDataMachine para Marketing
Big Data para analizar las redes sociales
Big data, Inteligencia Artificial y Redes Sociales en la investigación
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
Innovación mediante TIC aplicada con redes sociales y crowdsourcing
Big data con SQL Server 2014
APLICACION DEL CROWDSOURCING EN LAS EMPRESAS: "Es facil obtener ayuda a trave...
Web 2.0
 
Big Data para Dummies
BIGDATA NUEVAS FUENTES DE INFORMACION TRABAJO
HIPI-III BIG DATA, ¿Qué es Big Data?,..
Empresas con BDOO
Revista Mundo Contact Septiembre 2012
Gestión de redes sociales en bibliotecas
herramientas tic
herramientas tic
Publicidad

Último (20)

PPTX
Curso de generación de energía mediante sistemas solares
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
PPTX
Presentacion de Alba Curso Auditores Internos ISO 19011
PPTX
Tema 1 Taller de tecnologia y proceso tecnologico.pptx
DOCX
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
DOCX
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
PPTX
la-historia-de-la-medicina Edna Silva.pptx
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
PDF
0007_PPT_DefinicionesDeDataMining_201_v1-0.pdf
DOCX
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
PPT
Protocolos de seguridad y mecanismos encriptación
PDF
MANUAL de recursos humanos para ODOO.pdf
PDF
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
DOCX
Guía 5. Test de orientación Vocacional 2.docx
PDF
Taller tecnológico Michelle lobo Velasquez
DOCX
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
PPTX
El uso de las TIC en la vida cotidiana..
PDF
Distribucion de frecuencia exel (1).pdf
PPTX
modulo seguimiento 1 para iniciantes del
PDF
NREN - red nacional de investigacion y educacion en LATAM y Europa: Caracteri...
Curso de generación de energía mediante sistemas solares
Historia Inteligencia Artificial Ana Romero.pptx
Presentacion de Alba Curso Auditores Internos ISO 19011
Tema 1 Taller de tecnologia y proceso tecnologico.pptx
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
la-historia-de-la-medicina Edna Silva.pptx
Documental Beyond the Code (Dossier Presentación - 2.0)
0007_PPT_DefinicionesDeDataMining_201_v1-0.pdf
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
Protocolos de seguridad y mecanismos encriptación
MANUAL de recursos humanos para ODOO.pdf
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
Guía 5. Test de orientación Vocacional 2.docx
Taller tecnológico Michelle lobo Velasquez
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
El uso de las TIC en la vida cotidiana..
Distribucion de frecuencia exel (1).pdf
modulo seguimiento 1 para iniciantes del
NREN - red nacional de investigacion y educacion en LATAM y Europa: Caracteri...
Publicidad

Big Data : Extraer y visualizar grandes volúmenes de datos

  • 1. BIG DATA: Extraer y visualizar grandes volúmenes de datos Visualizaciones en tiempo real sobre Twitter Fernando Zunino Pauline Morrison Fell @fzunino @polinmf Thursday, June 21, 12
  • 2. Acerca de Zauber • Somos una boutique de software y lab con base en Argentina y Estados Unidos que provee servicios a una alta gama de líderes de la industria y startups de internet en América Latina y Silicon Valley. • Nos especializamos en proyectos de Consumer Web, Social Analytics y Big Data. Combinamos nuestros servicios de desarrollo boutique con un laboratorio de I+D para desarrollar nuevos emprendimientos y productos. Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 3. Nuestra experiencia con Twitter APIs Al Jazeera - Twitter Dashboard CABA - Elecciones legislativas 2011 JSConfAr - Visualizing Tweets Coca Cola - Social World Cup La Nacion - Elecciones presidenciales 2011 Zauberlabs - Tweet Discover Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 4. Análisis de audiencias online Value insights on social audiences and conversations Plataforma online que: • Procesa social media data a gran escala para entregar reportes en tiempo real • Identifica patrones demográficos y de comportamiento de seguidores y conversaciones en Twitter • Usa ML y NLP para entregar perfiles sociales aumentados con información nueva respecto de APIs existentes o perfiles de usuarios. Diseñada para: • Investigación de mercado online • Monitoreo de marcas en tiempo real • ROI en Social Media • Estrategias en Social Media Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 5. Visualizacio- nes animadas de Twitter Build your own Twitter real-time visualizations Plataforma online que permite: • Construir infografías animadas sobre temas en Twitter • Enriquecer noticias con contenido social • Ofrecer una segunda pantalla para un programa de TV • Aumentar la participación en un evento • Cubrir el buzz en eventos grandes o internacionales Diseñada para: • Periodistas, Bloggers, Directores de Contenido, Marketeers, Organizadores de Eventos, Emisoras Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 6. Cómo lo construimos FRONTEND BACKEND Storm Oozie INFRAESTRUCTURA TWITTER API Rest API ELB, EC2, S3 Streaming API Elastic Map Reduce Route53, CloudWatch Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 7. Desafíos tecnológicos • Límites API Twitter • Big Data • Manejo de datos no estructurados • Inferencia de atributos ocultos Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 8. Límites API Twitter • Rest API limitada a 350 requests por ahora por IP • Streaming API (statuses/filter) está limitada si tweets exceden el 1% del Firehose • Partners de Twitter (Gnip, DataSift) pueden ser una opción para obtener un acceso mayor Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 9. Big Data • Twitter en # • 400M tweets por dia (http://www.theverge.com/ 2012/6/6/3069424/twitter-400-million-total-daily-tweets) • 140M usuarios activos (http://blog.twitter.com/2012/03/twitter- turns-six.html) • Generación de estadísticas en tiempo real • Stream Processing => Storm • Generación de estadísticas sobre los usuarios • Batch Processing => Hadoop (Map Reduce, Pig) Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 10. Manejo de datos no estructurados • Ubicación • 5% de tweets utilizan GeoLocation API • 72% Ingresan datos de ubicación en forma no estructurada • Utilizamos técnicas de NLP e Information Retrieval para detectar ubicación Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 11. Inferencia de atributos ocultos • Datos demográficos de usuarios no están presentes • Tipo de Usuario • Hombre/Mujer/Compañia • Rango etario • Machine Learning al rescate! • Se utilizan técnicas de aprendizaje supervisado para detectar dichos atributos Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 12. Demos Rio+20 Malvinas Boca vs Universidad de Chile Elecciones en Mexico Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12
  • 13. Gracias! Preguntas? Visualizaciones en tiempo real sobre Twitter Big Data: Extraer y visualizar grandes volúmenes de datos Thursday, June 21, 12