SlideShare una empresa de Scribd logo
Octubre.2016
Taller de introducción a técnicas
de Text Mining en Twitter con R
@Legado y @zigiella
Índice 1. Quiénes somos
2. Contexto
3. Qué es R
4. Los datos textuales
5. Cómo obtener información de estos datos 
6. Demo en R
a) Preprocesado
b) Stemming
c) Inspeccionar palabras frecuentes
d) Asociaciones
e) Plot de asociaciones
f) Nube de palabras
g) Clúster
i. Dendograma
ii. K-means  
7. Interpretación y conclusiones
8. Anexo 1: Conectarse a Twitter
9. Anexo 2: Instalar paquetes necesarios
QUIÉNES
SOMOS
¡Hola!
Consultor Freelance
@Legado
Juandy
● Jefe de campamento y algo friki.
● Escritor frustrado (por ahora).
● Viajero por necesidad.
● Jugador de fútbol americano.
● Filólogo.
@Legado
@zigiella
INGENIERÍA
INFORMÁTICA
DATA
MANAGEMENT
& ANALYTICS
PSICOLOGÍA
ExecutiveMBA
EMPRENDEDURÍA
BUSINESS
MANAGEMENT
MARKETING
ADVERTISING
Bea
● Nativa digital de la generación X!
● Tech+Digital+Business.
● Aprendizaje non stop.
● Retos non stop.
● Me gusta que los planes salgan
bien.
@zigiella
CONTEXTO
Dónde, qué, por qué y eso...
Taller de Text Mining en Twitter con R
TRANSFORMACIÓN
DIGITAL
BIG DATA
CULTURA
DATA DRIVEN
EL DATO
VALOR
TOMA DE
DECISIONES
TRANSVERSAL
RBreve introducción breve
● Software de análisis de datos.
● Ciencia, medicina, psicología, economía,...
● Gratuito, libre y de código abierto.
● Gran comunidad.
● Muchos paquetes.
● Bla, bla, bla,...
● Fin de la intro breve.
Origen: DataCamp
Taller de Text Mining en Twitter con R
LA TEORÍA
Comencemos a entender
Datos textuales – Qué son
Datos textuales –
Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales –
Qué son
Datos textuales – Qué son
Datos textuales – Qué son
Datos textuales –
Qué son
Datos textuales – Qué son
Voice to text
Datos textuales – Qué son
Focus groups
Libros
Investigaciones
Documentos oficiales
Texto …
CASOS DE USO REALES
¿Pero esto es útil?
Caso de uso real
MARCA DE
BEBIDAS
MARCA DE
COCHES
E-COMMERCE
DE MODA
Caso de uso real
Necesitamos conectar con las tendencias en
nuestro e-commerce
Scrapping
Frecuencia
Asociación
Topics
Descripciones
Etiquetas
Taxonomía
Posicionamiento
E-COMMERCE
DE MODA
Caso de uso real
Necesitamos conocer a tiempo posibles amenazas
hacia la marca
Salud
Medio ambiente
Nutrición
Bulos
Sistema de
alerta
temprana
MARCA DE
BEBIDAS
Caso de uso real
MARCA DE
COCHES
Necesitamos encontrar la forma de volver a
conectar con la audiencia: conocer sus nuevos
territorios e intereses, y descubrir insights para
trabajar la reconexión.
Caso de uso real
Movilidad
Medios de transporte
Sensaciones
Problemas
MARCA DE
COCHES
EL NEGOCIO
Herramientas
El negocio
El negocio
30.000€
y
50.000€
Anuales
Wordcloud
Ásociación
Topics en líneas
temporales
Clustering
Gratis
Un buen comienzo
TALLER PRÁCTICO
Ya es la hora de hacer cositas en R...
Se trata de un ejercicio de iniciación a las técnicas de Text Mining.
Tenemos un dataset compuesto de un conjunto de tweets recién extraídos de Twitter y
vamos a tratar de averiguar qué temas tratan.
El esquema del proceso a realizar es el siguiente:
Conjunto
de tweets
Preproceso
Creación
de Corpus
Creación
Matriz
Términos
Docs
Análisis
¡¡¡Al final, a la
máquina le damos
números!!!
Taller de Text Mining en Twitter con R
Corpus
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Minería
Corpus
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Minería
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Tweet
Preprocesado
Minería
Pasar texto a
minúsculas
Quitar todo aquello que
no es útil en el análisis
Quitar signos de
puntuación
Quitar
números
Quitar
expresiones
Stemming
Preprocesado
Preprocesado - Stemming
Arbolado
Arboleda
Arbóreo
Arbolitos
Árbol
Stemming
Taller de Text Mining en Twitter con R
Taller de Text Mining en Twitter con R
Taller de Text Mining en Twitter con R
¡Son matrices
con mucho
“sparsity”!
Asociación
Árbol ipsum dolor incendio amet, consectetur adipiscing elit. Praesent vestibulum magna
sed ante tempus iaculis. Maecenas vitae nisl quam. Integer augue nisi, lacinia in neque sit
amet, interdum congue odio. In neque magna, mattis sit amet nisi id, cursus ullamcorper
felis. Aenean pharetra porttitor ipsum ut tincidunt. Sed condimentum purus ut leo mattis,
quis pretium nunc rhoncus. Ut accumsan orci at orci venenatis, vitae Bosque dui congue.
Nulla magna quam, accumsan ac tincidunt id, cursus in massa. Etiam nec eros sit amet eros
fringilla varius. Vestibulum ac purus venenatis, malesuada est vitae, molestie dui. Nulla
eget neque sit amet odio semper mollis et ornare justo. Etiam lacinia, purus at semper
tincidunt, libero metus venenatis sapien, sed convallis quam elit vel sapien. Vivamus porta
dictum augue ut ornare.
Pellentesque luctus, purus non fringilla ornare, velit est volutpat nulla, eget tempus tellus
eros ac ligula. Etiam nulla Arboleda, ultrices vel mauris incendio, mollis ornare massa. Sed
aliquam vulputate consectetur. Ut lacinia dignissim nisl vitae consequat. Donec posuere,
dui et placerat varius, libero enim laoreet est, quis posuere purus neque nec libero. Nunc
aliquet sapien nec convallis rhoncus. Donec ac metus leo.
¡EMpezamos a
saber de qué va
la cosa!
Igual “USEFUL” no aporta
valor al resultado y debería
haberla quitado antes
(momento stopwords)...
visualizar es super potente
para darse cuenta de
cosas… :)
SE ven cosas interesantes
cuando buscamos los
términos que más se
relacionan con unos en
concreto...
una sencilla visualización
superpotente!
Taller de Text Mining en Twitter con R
Taller de Text Mining en Twitter con R
Clusterización - Clúster
Agrupación
(Habitualmente por similitud
o por cercanía)
Dendograma – Clúster
por orden jerárquico
Taller de Text Mining en Twitter con R
Taller de Text Mining en Twitter con R
CONCLUSIONES
¿Dónde está el valor verdadero?
INTERPRETACIÓN
Y DEBATE DE RESULTADOS
¡el dato no habla por
nosotros!
¡nosotros hablamos
por el dato!
¡GRACIAS
Y HASTA PRONTO!
@zigiella @Legado
ANEXO 1
Conectarse a Twitter con R
PASO 1: Para poder conectarnos
a Twitter desde R necesitamos
tener una cuenta en Twitter y
estar logineados.
Entonces debemos acceder a
https://apps.twitter.com y crear
una app:
Rellenaremos un sencillo
formulario indicando cuatro
cosas. Mirad el ejemplo.
PASO 2: Si todo ha ido bien
estaremos en la página de la
app. Iremos al menú “Keys and
Access Tokens y crearemos
nuestros tokens:
El resultado será similar al que
ves y tendrás tus credeciales:
Api Key
Api Secret
Access Token
Access Token Secret
Ya podemos ejecutar código R
para obtener tweets. Este
ejemplo es una pequeña
muestra.
Tendremos que poner
nuestras credenciales en el
código.
Cuando hagamos setup nos
hará una pregunta:
Responderemos “Yes” y
continuaremos.
:)
ANEXO 2
Instalar paquetes necesarios en R
Taller de Text Mining en Twitter con R
¡GRACIAS DE NUEVO!
@zigiella @Legado

Más contenido relacionado

PDF
Nuevos hábitos de consumo => Reinventando servicios, pensando en el usuario (...
PDF
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
PDF
Data Science, Big Data, Machine Learning, ecosistema de conceptos
PDF
Introducción a Aprendizaje de Maquina
PDF
Algorithmic Transparency
PPTX
Machine learning
PPTX
Introducción a Azure Machine Learning
PPTX
La Práctica de Machine Learning en la empresa
Nuevos hábitos de consumo => Reinventando servicios, pensando en el usuario (...
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Data Science, Big Data, Machine Learning, ecosistema de conceptos
Introducción a Aprendizaje de Maquina
Algorithmic Transparency
Machine learning
Introducción a Azure Machine Learning
La Práctica de Machine Learning en la empresa

Destacado (20)

PDF
Twitter + Lambda Architecture (Spark, Kafka, FLume, Cassandra) + Machine Lear...
PPTX
Minería de textos sacar más partido de las preguntas abiertas
PPTX
Minería y visualización de texto
PPSX
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
PPTX
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vella
PPT
Dell social media analysis jun jul copia
PPTX
Que es Azure Machine Learning 2015
PPT
Twiter trabajo
PPTX
Data Mining Curso, PeruStat - 2014-II Lima, Perú
PPSX
Metodologia para el analisis de redes sociales
PDF
Deep Learning + R by Gabriel Valverde
PDF
Articulo revista amai
PPTX
Ejercicio En Weka
PPTX
Data mining
PPTX
PPTX
Las bases del análisis del sentimiento en redes sociales
PPT
¿Que es el Text Mining?
PPSX
Cassandra and Riak at BestBuy.com
PDF
5 text mining la ultima palabra yesenia glez pearson
PPT
Minería de datos en redes sociales
Twitter + Lambda Architecture (Spark, Kafka, FLume, Cassandra) + Machine Lear...
Minería de textos sacar más partido de las preguntas abiertas
Minería y visualización de texto
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vella
Dell social media analysis jun jul copia
Que es Azure Machine Learning 2015
Twiter trabajo
Data Mining Curso, PeruStat - 2014-II Lima, Perú
Metodologia para el analisis de redes sociales
Deep Learning + R by Gabriel Valverde
Articulo revista amai
Ejercicio En Weka
Data mining
Las bases del análisis del sentimiento en redes sociales
¿Que es el Text Mining?
Cassandra and Riak at BestBuy.com
5 text mining la ultima palabra yesenia glez pearson
Minería de datos en redes sociales
Publicidad

Similar a Taller de Text Mining en Twitter con R (20)

PPTX
Presentación Introducción al Text Mining e IA.pptx
PPTX
Text Mining con R en PowerBI - Global Spanish
PDF
Curs 2.7. Análisis de datos de redes sociales
PDF
Categorización de usuarios de Twitter
PPT
Online reputation managment. Twitter
ODP
Minería de datos (práctica twitter)
PDF
Como usar Twitter en las empresas
PDF
Resumen automático en Twitter
PPTX
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
PPT
Maestros del tweet - Spa Mencey
PPTX
Big data: a data sicentist view
PPTX
Introducción a data science, la guía práctica para volverse data scientist
PDF
Unidad2 espiralapers
DOCX
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
PDF
Medir la actividad en Twitter
PDF
Bájate miles de tuits y cuenta una historia
PDF
Data wrangling en R para programadores SQL
PPTX
Espo ed
PDF
My tools @ridehf
Presentación Introducción al Text Mining e IA.pptx
Text Mining con R en PowerBI - Global Spanish
Curs 2.7. Análisis de datos de redes sociales
Categorización de usuarios de Twitter
Online reputation managment. Twitter
Minería de datos (práctica twitter)
Como usar Twitter en las empresas
Resumen automático en Twitter
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
Maestros del tweet - Spa Mencey
Big data: a data sicentist view
Introducción a data science, la guía práctica para volverse data scientist
Unidad2 espiralapers
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Medir la actividad en Twitter
Bájate miles de tuits y cuenta una historia
Data wrangling en R para programadores SQL
Espo ed
My tools @ridehf
Publicidad

Más de Beatriz Martín @zigiella (7)

PDF
Hola, Kraken. IA generativa - @zigiella - Julio 2023.pdf
PDF
MENOS METAVERSO Y MÁS WEB3 (v1)
PDF
Qué Metaverso ni qué Metaversa (y web3)
PDF
Machine learning: camino a Skynet #Bilbostack2018
PPTX
Deja de decir: "En mi máquina sí funciona"
PDF
Cómo evitar que se vaya al carajo tu implantación de agile
PDF
Cultura organizacional y Liderazgo
Hola, Kraken. IA generativa - @zigiella - Julio 2023.pdf
MENOS METAVERSO Y MÁS WEB3 (v1)
Qué Metaverso ni qué Metaversa (y web3)
Machine learning: camino a Skynet #Bilbostack2018
Deja de decir: "En mi máquina sí funciona"
Cómo evitar que se vaya al carajo tu implantación de agile
Cultura organizacional y Liderazgo

Último (20)

PDF
Mapa mental.pdf esquema de realización en general
PPTX
Precio optimo de venta para un emprendimiento familiar
PDF
Los 10 mayores Fondos Soberanos de Riqueza (2025).pdf
PPTX
Presentacion Capacitacion RC y RG (5).pptx
PDF
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
PDF
MOVIMIENTO DE TIERRA Y ASFALTO.pdf 2025A
PPTX
EXPOSICIÓN 2021.pptxhgdfshdghsdgshdghsds
PPTX
ESTRADA ORDEN INTERNO 111111111111111111
PDF
Presentacion Gestion de Recursos DIA 1.pdf
PDF
Pobreza porcentual en el mundo y sistemas socioeconómicos (1945-2030).pdf
PPTX
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
PPTX
DOROTHEA E OREM EXPO.pptx de una teoridta importante
PPTX
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
PDF
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
PPTX
fisioterapia 6 semestre - ---- serealizo
PDF
INFORME ESPECIAL BICENTENARIO DE BOLIVIA.pdf
PDF
Registro de Limpieza y Desinfección.pdf1
PDF
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
PDF
Pobreza por origen racial y zonas socialistas (1980, 2025 y 2030).pdf
PPTX
lareformaprevisional-091013175510-phpapp01.pptx
Mapa mental.pdf esquema de realización en general
Precio optimo de venta para un emprendimiento familiar
Los 10 mayores Fondos Soberanos de Riqueza (2025).pdf
Presentacion Capacitacion RC y RG (5).pptx
MORFOLOGIA (ASPECTO FORMACION DE PALABRAS).pdf
MOVIMIENTO DE TIERRA Y ASFALTO.pdf 2025A
EXPOSICIÓN 2021.pptxhgdfshdghsdgshdghsds
ESTRADA ORDEN INTERNO 111111111111111111
Presentacion Gestion de Recursos DIA 1.pdf
Pobreza porcentual en el mundo y sistemas socioeconómicos (1945-2030).pdf
EPCE_EXCEL 365 CURSO DE ENTRENAMIENTO.pptx
DOROTHEA E OREM EXPO.pptx de una teoridta importante
Embarazo en adolescentes ksjsjjdkxkxkxkxxj
MAPAMENTALLa tendencia pedagógica basada en competencias hacia una.pdf
fisioterapia 6 semestre - ---- serealizo
INFORME ESPECIAL BICENTENARIO DE BOLIVIA.pdf
Registro de Limpieza y Desinfección.pdf1
PRESENTACION DE LA ASIGNATURA materiales no convencionales.pdf
Pobreza por origen racial y zonas socialistas (1980, 2025 y 2030).pdf
lareformaprevisional-091013175510-phpapp01.pptx

Taller de Text Mining en Twitter con R