Resumen automático
en Twitter
JORGE GÁLVEZ GAJARDO

MAGISTER EN INGENIERÍA INFORMÁTICA
Contenido


Introducción



Problema



Objetivos



Marco Teórico


Twitter



Resúmenes automáticos de texto



Procesamiento de lenguaje natural



Metodología propuesta



Resultados y discusiones



Conclusiones



Trabajo futuro
Introducción
Introducción


Era de la información y las telecomunicaciones



Crecimiento de Internet y redes sociales



Facebook, Twitter, MySpace, Orkut, Foursquare, Flickr, Fotolog,
Instagram, Tumblr…



Microblog



Twitter



Temas del momento
Problema
Problema al resumir Microblog


Textos de a lo más 140 caracteres.



Variedad de temas tratados en los mensajes



Frecuencia de actualización



Múltiples intereses de los usuarios comentando



Lenguaje informal



Diferentes finalidades de los mensajes (conversaciones,
comentarios o compartir noticias)



Es posible definir como texto a un mensaje o al conjunto de
mensajes analizados.
Problema


Demostrar si existe la posibilidad de identificar un
mensaje en Twitter que represente a un conjunto mayor
de mensajes asociados a un tema especifico
Objetivos
Objetivos


Seleccionar un conjunto de tweets resumen que sean
representativos de un conjunto mayor de tweets relacionados a un
término en común de manera automática


Construir un corpus compuesto por mensajes de Twitter



Determinar representación de los mensajes



Probar técnicas de selección



Estimar la representatividad de los tweets resúmenes
Marco Teórico
Twitter
Twitter


Es un servicio de microblogging



230 millones de usuarios activos



500 millones de tweets son enviados diariamente



Del total de tweets que se comparten:


40% son sin sentido



38% son conversaciones



9% son RT (mensajes repetidos)



5% son promociones



4% son basura (spam)



4% son noticias
Twitter


Fue usada para organizar protestas


Revolución egipcia de 2011



Revolución tunecina



Protestas electorales en irán de 2009



En Chile, consigue un auge a partir del Terremoto de 2010



Es usada para seguimiento de eventos, charlas, generar entrevistas,
llevar a una segunda pantalla programas de televisión
Resúmenes automáticos de texto
Resúmenes automáticos de texto


Nace en los años 60 en algunas bibliotecas de USA



Restricciones en el volumen de almacenamiento



30 años evolucionando las distintas técnicas hasta el surgimiento de
Internet.



Hoy existe mayor capacidad de almacenamiento



Surge el problema de filtrar la abundante información disponible
Resúmenes automáticos de texto


Dos enfoques para generar un resumen automático:


Extracción: considera las fuentes como un conjunto de frases y
considera criterios de selección para obtener los fragmentos más
importantes



Abstracción: se analiza el texto con mayor profundidad para poder
comprenderlo y generar un resumen a partir de la información
analizada en la fuente
Resúmenes automáticos de texto


Evaluación de forma empírica debido al juicio que puede emitir un
humano.



Evaluación humana no es viable



Puede existir más de un resumen correcto



Se hace necesaria la combinación de diferentes métodos de
evaluación para garantizar una mínima calidad en el resumen.
Resúmenes automáticos de texto


Algunas técnicas de evaluación


Medir el nivel de compresión, entre el resumen generado y la fuente original.



Evaluar el nivel de relación entre la información del resumen generado y de
la fuente original.



Calcular el solapamiento entre el resumen y la fuente original mediante
ROUGE (Recall oriented understudy for Gisting Evaluation)
Procesamiento de lenguaje natural
Procesamiento de lenguaje natural


Procesamiento estadístico




Se asigna un peso a cada término en función de su importancia.





Cada documento está descrito por un conjunto de palabras denominadas
términos índice
No se toma en consideración el orden, la estructura o el significado de las
palabras.

Procesamiento lingüístico


Se aplican distintas técnicas que codifican de forma explicita el
conocimiento lingüístico.



Lo documentos son analizados a partir de distintos niveles lingüísticos.
Procesamiento estadístico


Consta de dos etapas:


Preprocesado: se prepara el documento, como eliminar elementos que no
serán objetos de análisis, normalización o lematización.



Parametrización: consiste en asignar un peso a cada uno de los términos

Preprocesado

Parametrización
Preprocesado


Se eliminan palabras sin significado como artículos, pronombres,
preposiciones, etc.



Se pueden reducir palabras a su raíz.



Normalizar textos.



N gramas


Es una sub secuencia de n elementos de una secuencia dada



Es posible adaptarlo a silabas, letras o palabras.



N es el número de unidades que se tiene en cuenta



Los valores de n, pueden variar entre 2 y 7
Parametrización


Booleano: asigna el peso de 1 si la palabra está en el documento y
0 en caso contrario



Frecuencia de término: asigna el número de veces que el termino
se encuentra en el documento



TF-IDF: asigna un peso a la palabra en el documento en
proporciona al numero de ocurrencias de la palabra en el
documento y en proporción inversa al numero de documentos de
la colección.
Metodología
Metodología

Corpus:

Extracción de un
conjunto de mensajes
asociados a un término.

Representación:

Procesamiento de los
mensajes mediante dos
técnicas propuestas

Selección:

Determinar el
conjunto de mensajes que
mejor representa un
conjunto mayor.
Corpus
Corpus


Se recolectó durante 10 días información referente a 5 temas



Para cada tema se almacenaron 500 tweets diariamente.
NOMBRE DEL TEMA

TÉRMINOS ASOCIADOS

Allamand

Allamand

Bachelet

Bachelet

Longueira

Longueira

Enriquez-Ominami

“Enriquez Ominami”, MarcoPorChile

Claude

Claude
Propuestas de representación
Propuestas de representación


𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕



N-Gramas más Hacker News
Propuesta de representación
𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Representación
𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕

Preprocesado

•Eliminar Stop Words

Parametrización

• 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕


Existen dos formas para definir un documento:


Un único documento que tome en cuenta todos los tweets




Cada tweet como un documento




TF se calcula fácilmente, sin embargo hace perder la componente IDF ya
que sólo se dispone de un único documento
TF tendrá poco peso debido a que cada tweet contiene pocas palabras y
casi nunca se repite

𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕


TF se calcula utilizando todos los tweets como un gran documento



IDF se calcula tomando en cuenta que cada tweet es un documento
distinto.
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕


Cada palabra del tweet tiene un peso



El pesos del tweet será la sumatoria de las palabras que contenga



Se obtiene el tweet con mayor peso y se selecciona como el tweet
resumen del tema.
Propuesta de representación N-Grama
más Hacker News
Representación N-Grama más
Hacker News
Representación N-Grama
más Hacker News

Preprocesado

•N-Grama

Parametrización

• Frecuencia
•Hacker
News
Representación N-Grama más
Hacker News


Se agrupan las secuencias de palabras de cada tweet



A través del algoritmo hacker news se obtiene el grama con mayor
puntaje



Se selecciona el tweet resumen utilizando 𝑡𝑓𝑠𝑒𝑡 𝑥 𝑖𝑑𝑓𝑡𝑤𝑒𝑒𝑡 sobre el
conjunto de tweets que contienen el grama.
Algoritmo Hacker News


Es un algoritmo pensado en resaltar las tendencias del momento

Puntaje =

𝑃−1
(𝑇+2) 𝐺



Donde:



P son los puntos del artículo.



T el tiempo desde que apareció (en horas).



G la gravedad (1,8 por defecto).
Algoritmo Hacker News
Puntaje =

𝑃−1
(𝑇+2) 𝐺
Resultados
Resultados


Se presentan resultados utilizando la técnica 𝑡𝑓𝑠𝑒𝑡 𝑥 𝑖𝑑𝑓𝑡𝑤𝑒𝑒𝑡 y luego
se valida que los tweets elegidos representen a un conjunto mayor
del corpus analizado.



Se presentan resultados utilizando la técnica n-grama más hacker
news ordenando los gramas importantes en relación al puntaje
otorgado por el algoritmo hacker news. Luego del conjunto de
tweets que contienen el grama, se obtiene el tweet más importante
utilizando 𝑡𝑓𝑠𝑒𝑡 𝑥 𝑖𝑑𝑓𝑡𝑤𝑒𝑒𝑡
Resultados de propuesta de
representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Peso

Cantidad de tweets Tweet
representativos

0.220
0.096

1636
489

0.088

163

0.074

155

0.057

115

0.056

86

Longueira o allamand?
RT @MisterEKY: En encuentro PROA V Región para acompañar a
nuestro
tremendo
candidato
RN
Andrés
@allamand.
@AllamandPdte #firmecontigo
Andrés Allamand siendo senador promovió los cultivos
transgénicos y Michelle Bachelet envió al Congreso...
http://t.co/zDcrKuWVAs
RT @Fr_parisi: Allamand habla del Impuesto específico a los
combustibles (nosotros hace mucho) pero se atreverá cobrarle a
las mineras?
Jovino Novoa dice en el Que Pasa que el responsable de la caida
de Golborne se llama ANDRES ALLAMAND!!!.
El pc apoya a la candidata sin programa,"derrotar a la derecha"
pero entre allamand, longeira y bachelet no hay mucha
diferencia.
Similitud entre cadenas de texto


Es posible calcular la similitud entre dos cadenas como la similitud
de dos vectores en un espacio que posee un producto interior en el
que se evalúa el valor del coseno del ángulo correspondido entre
ellos.
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
0,25

Peso

0,2
0,15
0,1
0,05
0
Tweets

2644

5000
Discusiones a resultados obtenidos
con propuesta de representación
𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Tema

Cantidad de tweets

Porcentaje del total

Allamand

2.644

52.9%

Bachelet

2.490

49,8%

Claude

4.082

81,6%

Enriquez-Ominami

1.974

39,5%

Longueira

2.567

51,3%
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Tweet
Marcel Claude ! :)
Longueira o allamand?
#longueira
@estadonacional Todos a
votar por el SI y el NO de
Bachelet
@marcoporchile tu no

Cantidad de tweets
representativos

Tema

3681
1636
885
802

Claude
Allamand
Longueira
Bachelet

784

Enriquez-Ominami
Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕


Al obtener 6 tweets es posible representar al 50% del corpus en los
temas Allamand, Bachelet y Longueira por lo que se evita leer la
mitad del corpus



Al existir temas muy homogéneos, como Claude, es posible
representar a un porcentaje mayor de tweets



Al existir temas muy heterogéneos, como Henriquez-Ominami, no
entrega buenos resultados la representatividad.



Debe limitarse la cantidad de palabras del tweet resumen elegido.
Resultados de propuesta de
representación N-Grama más
Hacker News
Representación N-Grama más
Hacker News
Puntaje HN

Grama

0.343

Delta Tiempo
(horas)
25.5

Repeticiones del
grama
139

especifico-a

0.216

18.5

52

allamand-presento

0.154

93

565

andres-allamand

0.049

92.2

177

a-los

0.044

76.5

116

los-combustibles

0.043

17

10

el-impuesto

0.013

39

12

en-arica
Discusiones a resultados obtenidos
con propuesta de representación
N-Grama más Hacker News
Representación N-Gramas y
Hacker News
BI-Grama

especifico-a

139

allamand-presento

52

andres-allamand

565

a-los

177

los-combustibles

116

el-impuesto

10

en-arica

12

ALLAMAND
Número de veces encontrados en el
conjunto de tweets
Representación N-Gramas y
Hacker News
Bi-Grama
enacional-ningunea
efren_osorio-enacional
de-estudiantes
a-longueira
longueira-como
a-los
no-a

LONGUEIRA
Número de veces encontrados en el
conjunto de tweets
12
11
13
230
14
111
64
Representación N-Gramas y
Hacker News


Al utilizar bi-gramas sería interesante hacer pruebas removiendo
stop words



Al comparar gramas, no se toma en cuenta los tweets que dicen lo
mismo pero escrito de otra forma



Al trabajar con tweets es importante ponderar el peso con un
algoritmo como hacker news. Se ve reflejado en que el algoritmo
detecta los temas mas comentados de las ultimas horas.
Conclusiones
Conclusiones


Se requiere de distintas técnicas de manejo de corpus en bases de
datos no estructuradas.



Al encontrar comentario escritos formal y coloquialmente es
necesario generar un análisis lingüístico para obtener mejores
resultados.



Al ser Twitter una plataforma que entrega información en tiempo
real, es importante trabajar con un algoritmo que pondere el
tiempo.



Al ser un tema de investigación muy reciente, se requiere de
métricas estándares para medir la efectividad de los distintos
algoritmos propuestos
Trabajo futuro
Trabajo futuro


Construir un benchmark que permita comparar resultados
obtenidos con distinto preprocesado y parametrización en las dos
técnicas propuestas.
Trabajo futuro
Representación
𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕

Preprocesado

•Eliminar Stop Words
•Utilizar raíz
•Utilizar n-gramas

Parametrización

• 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
•Hacker news
•Frecuencia
Trabajo futuro
Representación N-Grama
más Hacker News

Preprocesado

• Eliminar Stop Words
• Utilizar raíz
• Utilizar n-gramas

Parametrización

• 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎
•Hacker News
• 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
Gracias..!

Más contenido relacionado

PDF
Análisis automático de comentarios generados por múltiples usuarios de Twitte...
PPTX
Clasificación de Textos
PPTX
Análisis de sentido en textos
PPTX
pseint instalacion y declaracion de Variables
PPTX
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
DOCX
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
PPTX
Evaluación de diferentes estrategias de muestreo para tratar el problema de ...
DOCX
Fase 4_Grupo xx.docx
Análisis automático de comentarios generados por múltiples usuarios de Twitte...
Clasificación de Textos
Análisis de sentido en textos
pseint instalacion y declaracion de Variables
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Evaluación de diferentes estrategias de muestreo para tratar el problema de ...
Fase 4_Grupo xx.docx

Similar a Resumen automático en Twitter (20)

PPT
Incremental Methods for Context-Based Web Retrieval
PPTX
Elementos del Lenguaje de Programación.pptx
DOC
Jessik
DOC
Jessik
PPT
Visio 2011 Umap - presentación
PPT
Visio 2011 Umap
PDF
Atix03
DOCX
Tecnologia 11-7.docx
KEY
Escribir en Trecho Web
PDF
Introduccion a Machine Learning
DOCX
Mapakaren
PPTX
Tecnicas redaccionsintesisrpg
PPT
Bases de datos_conceptos
PDF
Cuándo usar las diferentes herramientas de analítica de texto - Meaningcloud
PPTX
Aplicaciones de text mining para gestión de información.
PPTX
Reporte de lectura
Incremental Methods for Context-Based Web Retrieval
Elementos del Lenguaje de Programación.pptx
Jessik
Jessik
Visio 2011 Umap - presentación
Visio 2011 Umap
Atix03
Tecnologia 11-7.docx
Escribir en Trecho Web
Introduccion a Machine Learning
Mapakaren
Tecnicas redaccionsintesisrpg
Bases de datos_conceptos
Cuándo usar las diferentes herramientas de analítica de texto - Meaningcloud
Aplicaciones de text mining para gestión de información.
Reporte de lectura
Publicidad

Último (20)

PDF
ciencia_tecnologia_sociedad Mitcham Carl. (1994)..pdf
PDF
Ernst Cassirer - Antropologia Filosofica.pdf
PDF
Como Potenciar las Emociones Positivas y Afrontar las Negativas Ccesa007.pdf
DOCX
Fisiopatologia bdjdbd resumen de cierta parte
PDF
Uso de la Inteligencia Artificial en la IE.pdf
PDF
ACERTIJO EL CONJURO DEL CAZAFANTASMAS MATEMÁTICO. Por JAVIER SOLIS NOYOLA
PDF
La lluvia sabe por qué: una historia sobre amistad, resiliencia y esperanza e...
PDF
RM2025 - FUNDAMENTOS TEÓRICOS - PEDIATRÍA.pdf
PDF
Las Matematicas y el Pensamiento Cientifico SE3 Ccesa007.pdf
PDF
Cuaderno_Castellano_6°_grado.pdf 000000000000000001
PDF
Manual del Gobierno Escolar -MINEDUC.pdf
DOCX
Programa_Sintetico_Fase_4.docx 3° Y 4°..
PDF
Jodorowsky, Alejandro - Manual de Psicomagia.pdf
PDF
Iniciación Al Aprendizaje Basado En Proyectos ABP Ccesa007.pdf
DOCX
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - TERCER GRADO.docx
PDF
KOF-2022-espanol-mar-27-11-36 coke.pdf tv
PDF
Lo que hacen los Mejores Profesores de la Universidad - Ken Bain Ccesa007.pdf
PPTX
4. Qué es un computador PARA GRADO CUARTO.pptx
PDF
Modelo Educativo SUB 2023versión final.pdf
DOCX
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - CUARTO GRADO.docx
ciencia_tecnologia_sociedad Mitcham Carl. (1994)..pdf
Ernst Cassirer - Antropologia Filosofica.pdf
Como Potenciar las Emociones Positivas y Afrontar las Negativas Ccesa007.pdf
Fisiopatologia bdjdbd resumen de cierta parte
Uso de la Inteligencia Artificial en la IE.pdf
ACERTIJO EL CONJURO DEL CAZAFANTASMAS MATEMÁTICO. Por JAVIER SOLIS NOYOLA
La lluvia sabe por qué: una historia sobre amistad, resiliencia y esperanza e...
RM2025 - FUNDAMENTOS TEÓRICOS - PEDIATRÍA.pdf
Las Matematicas y el Pensamiento Cientifico SE3 Ccesa007.pdf
Cuaderno_Castellano_6°_grado.pdf 000000000000000001
Manual del Gobierno Escolar -MINEDUC.pdf
Programa_Sintetico_Fase_4.docx 3° Y 4°..
Jodorowsky, Alejandro - Manual de Psicomagia.pdf
Iniciación Al Aprendizaje Basado En Proyectos ABP Ccesa007.pdf
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - TERCER GRADO.docx
KOF-2022-espanol-mar-27-11-36 coke.pdf tv
Lo que hacen los Mejores Profesores de la Universidad - Ken Bain Ccesa007.pdf
4. Qué es un computador PARA GRADO CUARTO.pptx
Modelo Educativo SUB 2023versión final.pdf
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - CUARTO GRADO.docx
Publicidad

Resumen automático en Twitter

  • 1. Resumen automático en Twitter JORGE GÁLVEZ GAJARDO MAGISTER EN INGENIERÍA INFORMÁTICA
  • 2. Contenido  Introducción  Problema  Objetivos  Marco Teórico  Twitter  Resúmenes automáticos de texto  Procesamiento de lenguaje natural  Metodología propuesta  Resultados y discusiones  Conclusiones  Trabajo futuro
  • 4. Introducción  Era de la información y las telecomunicaciones  Crecimiento de Internet y redes sociales  Facebook, Twitter, MySpace, Orkut, Foursquare, Flickr, Fotolog, Instagram, Tumblr…  Microblog  Twitter  Temas del momento
  • 6. Problema al resumir Microblog  Textos de a lo más 140 caracteres.  Variedad de temas tratados en los mensajes  Frecuencia de actualización  Múltiples intereses de los usuarios comentando  Lenguaje informal  Diferentes finalidades de los mensajes (conversaciones, comentarios o compartir noticias)  Es posible definir como texto a un mensaje o al conjunto de mensajes analizados.
  • 7. Problema  Demostrar si existe la posibilidad de identificar un mensaje en Twitter que represente a un conjunto mayor de mensajes asociados a un tema especifico
  • 9. Objetivos  Seleccionar un conjunto de tweets resumen que sean representativos de un conjunto mayor de tweets relacionados a un término en común de manera automática  Construir un corpus compuesto por mensajes de Twitter  Determinar representación de los mensajes  Probar técnicas de selección  Estimar la representatividad de los tweets resúmenes
  • 12. Twitter  Es un servicio de microblogging  230 millones de usuarios activos  500 millones de tweets son enviados diariamente  Del total de tweets que se comparten:  40% son sin sentido  38% son conversaciones  9% son RT (mensajes repetidos)  5% son promociones  4% son basura (spam)  4% son noticias
  • 13. Twitter  Fue usada para organizar protestas  Revolución egipcia de 2011  Revolución tunecina  Protestas electorales en irán de 2009  En Chile, consigue un auge a partir del Terremoto de 2010  Es usada para seguimiento de eventos, charlas, generar entrevistas, llevar a una segunda pantalla programas de televisión
  • 15. Resúmenes automáticos de texto  Nace en los años 60 en algunas bibliotecas de USA  Restricciones en el volumen de almacenamiento  30 años evolucionando las distintas técnicas hasta el surgimiento de Internet.  Hoy existe mayor capacidad de almacenamiento  Surge el problema de filtrar la abundante información disponible
  • 16. Resúmenes automáticos de texto  Dos enfoques para generar un resumen automático:  Extracción: considera las fuentes como un conjunto de frases y considera criterios de selección para obtener los fragmentos más importantes  Abstracción: se analiza el texto con mayor profundidad para poder comprenderlo y generar un resumen a partir de la información analizada en la fuente
  • 17. Resúmenes automáticos de texto  Evaluación de forma empírica debido al juicio que puede emitir un humano.  Evaluación humana no es viable  Puede existir más de un resumen correcto  Se hace necesaria la combinación de diferentes métodos de evaluación para garantizar una mínima calidad en el resumen.
  • 18. Resúmenes automáticos de texto  Algunas técnicas de evaluación  Medir el nivel de compresión, entre el resumen generado y la fuente original.  Evaluar el nivel de relación entre la información del resumen generado y de la fuente original.  Calcular el solapamiento entre el resumen y la fuente original mediante ROUGE (Recall oriented understudy for Gisting Evaluation)
  • 20. Procesamiento de lenguaje natural  Procesamiento estadístico   Se asigna un peso a cada término en función de su importancia.   Cada documento está descrito por un conjunto de palabras denominadas términos índice No se toma en consideración el orden, la estructura o el significado de las palabras. Procesamiento lingüístico  Se aplican distintas técnicas que codifican de forma explicita el conocimiento lingüístico.  Lo documentos son analizados a partir de distintos niveles lingüísticos.
  • 21. Procesamiento estadístico  Consta de dos etapas:  Preprocesado: se prepara el documento, como eliminar elementos que no serán objetos de análisis, normalización o lematización.  Parametrización: consiste en asignar un peso a cada uno de los términos Preprocesado Parametrización
  • 22. Preprocesado  Se eliminan palabras sin significado como artículos, pronombres, preposiciones, etc.  Se pueden reducir palabras a su raíz.  Normalizar textos.  N gramas  Es una sub secuencia de n elementos de una secuencia dada  Es posible adaptarlo a silabas, letras o palabras.  N es el número de unidades que se tiene en cuenta  Los valores de n, pueden variar entre 2 y 7
  • 23. Parametrización  Booleano: asigna el peso de 1 si la palabra está en el documento y 0 en caso contrario  Frecuencia de término: asigna el número de veces que el termino se encuentra en el documento  TF-IDF: asigna un peso a la palabra en el documento en proporciona al numero de ocurrencias de la palabra en el documento y en proporción inversa al numero de documentos de la colección.
  • 25. Metodología Corpus: Extracción de un conjunto de mensajes asociados a un término. Representación: Procesamiento de los mensajes mediante dos técnicas propuestas Selección: Determinar el conjunto de mensajes que mejor representa un conjunto mayor.
  • 27. Corpus  Se recolectó durante 10 días información referente a 5 temas  Para cada tema se almacenaron 500 tweets diariamente. NOMBRE DEL TEMA TÉRMINOS ASOCIADOS Allamand Allamand Bachelet Bachelet Longueira Longueira Enriquez-Ominami “Enriquez Ominami”, MarcoPorChile Claude Claude
  • 29. Propuestas de representación  𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕  N-Gramas más Hacker News
  • 30. Propuesta de representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
  • 31. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 Preprocesado •Eliminar Stop Words Parametrización • 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
  • 32. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕  Existen dos formas para definir un documento:  Un único documento que tome en cuenta todos los tweets   Cada tweet como un documento   TF se calcula fácilmente, sin embargo hace perder la componente IDF ya que sólo se dispone de un único documento TF tendrá poco peso debido a que cada tweet contiene pocas palabras y casi nunca se repite 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕  TF se calcula utilizando todos los tweets como un gran documento  IDF se calcula tomando en cuenta que cada tweet es un documento distinto.
  • 33. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕  Cada palabra del tweet tiene un peso  El pesos del tweet será la sumatoria de las palabras que contenga  Se obtiene el tweet con mayor peso y se selecciona como el tweet resumen del tema.
  • 34. Propuesta de representación N-Grama más Hacker News
  • 35. Representación N-Grama más Hacker News Representación N-Grama más Hacker News Preprocesado •N-Grama Parametrización • Frecuencia •Hacker News
  • 36. Representación N-Grama más Hacker News  Se agrupan las secuencias de palabras de cada tweet  A través del algoritmo hacker news se obtiene el grama con mayor puntaje  Se selecciona el tweet resumen utilizando 𝑡𝑓𝑠𝑒𝑡 𝑥 𝑖𝑑𝑓𝑡𝑤𝑒𝑒𝑡 sobre el conjunto de tweets que contienen el grama.
  • 37. Algoritmo Hacker News  Es un algoritmo pensado en resaltar las tendencias del momento Puntaje = 𝑃−1 (𝑇+2) 𝐺  Donde:  P son los puntos del artículo.  T el tiempo desde que apareció (en horas).  G la gravedad (1,8 por defecto).
  • 38. Algoritmo Hacker News Puntaje = 𝑃−1 (𝑇+2) 𝐺
  • 40. Resultados  Se presentan resultados utilizando la técnica 𝑡𝑓𝑠𝑒𝑡 𝑥 𝑖𝑑𝑓𝑡𝑤𝑒𝑒𝑡 y luego se valida que los tweets elegidos representen a un conjunto mayor del corpus analizado.  Se presentan resultados utilizando la técnica n-grama más hacker news ordenando los gramas importantes en relación al puntaje otorgado por el algoritmo hacker news. Luego del conjunto de tweets que contienen el grama, se obtiene el tweet más importante utilizando 𝑡𝑓𝑠𝑒𝑡 𝑥 𝑖𝑑𝑓𝑡𝑤𝑒𝑒𝑡
  • 41. Resultados de propuesta de representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
  • 42. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 Peso Cantidad de tweets Tweet representativos 0.220 0.096 1636 489 0.088 163 0.074 155 0.057 115 0.056 86 Longueira o allamand? RT @MisterEKY: En encuentro PROA V Región para acompañar a nuestro tremendo candidato RN Andrés @allamand. @AllamandPdte #firmecontigo Andrés Allamand siendo senador promovió los cultivos transgénicos y Michelle Bachelet envió al Congreso... http://t.co/zDcrKuWVAs RT @Fr_parisi: Allamand habla del Impuesto específico a los combustibles (nosotros hace mucho) pero se atreverá cobrarle a las mineras? Jovino Novoa dice en el Que Pasa que el responsable de la caida de Golborne se llama ANDRES ALLAMAND!!!. El pc apoya a la candidata sin programa,"derrotar a la derecha" pero entre allamand, longeira y bachelet no hay mucha diferencia.
  • 43. Similitud entre cadenas de texto  Es posible calcular la similitud entre dos cadenas como la similitud de dos vectores en un espacio que posee un producto interior en el que se evalúa el valor del coseno del ángulo correspondido entre ellos.
  • 44. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 0,25 Peso 0,2 0,15 0,1 0,05 0 Tweets 2644 5000
  • 45. Discusiones a resultados obtenidos con propuesta de representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕
  • 46. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 Tema Cantidad de tweets Porcentaje del total Allamand 2.644 52.9% Bachelet 2.490 49,8% Claude 4.082 81,6% Enriquez-Ominami 1.974 39,5% Longueira 2.567 51,3%
  • 47. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 Tweet Marcel Claude ! :) Longueira o allamand? #longueira @estadonacional Todos a votar por el SI y el NO de Bachelet @marcoporchile tu no Cantidad de tweets representativos Tema 3681 1636 885 802 Claude Allamand Longueira Bachelet 784 Enriquez-Ominami
  • 48. Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕  Al obtener 6 tweets es posible representar al 50% del corpus en los temas Allamand, Bachelet y Longueira por lo que se evita leer la mitad del corpus  Al existir temas muy homogéneos, como Claude, es posible representar a un porcentaje mayor de tweets  Al existir temas muy heterogéneos, como Henriquez-Ominami, no entrega buenos resultados la representatividad.  Debe limitarse la cantidad de palabras del tweet resumen elegido.
  • 49. Resultados de propuesta de representación N-Grama más Hacker News
  • 50. Representación N-Grama más Hacker News Puntaje HN Grama 0.343 Delta Tiempo (horas) 25.5 Repeticiones del grama 139 especifico-a 0.216 18.5 52 allamand-presento 0.154 93 565 andres-allamand 0.049 92.2 177 a-los 0.044 76.5 116 los-combustibles 0.043 17 10 el-impuesto 0.013 39 12 en-arica
  • 51. Discusiones a resultados obtenidos con propuesta de representación N-Grama más Hacker News
  • 52. Representación N-Gramas y Hacker News BI-Grama especifico-a 139 allamand-presento 52 andres-allamand 565 a-los 177 los-combustibles 116 el-impuesto 10 en-arica 12 ALLAMAND Número de veces encontrados en el conjunto de tweets
  • 53. Representación N-Gramas y Hacker News Bi-Grama enacional-ningunea efren_osorio-enacional de-estudiantes a-longueira longueira-como a-los no-a LONGUEIRA Número de veces encontrados en el conjunto de tweets 12 11 13 230 14 111 64
  • 54. Representación N-Gramas y Hacker News  Al utilizar bi-gramas sería interesante hacer pruebas removiendo stop words  Al comparar gramas, no se toma en cuenta los tweets que dicen lo mismo pero escrito de otra forma  Al trabajar con tweets es importante ponderar el peso con un algoritmo como hacker news. Se ve reflejado en que el algoritmo detecta los temas mas comentados de las ultimas horas.
  • 56. Conclusiones  Se requiere de distintas técnicas de manejo de corpus en bases de datos no estructuradas.  Al encontrar comentario escritos formal y coloquialmente es necesario generar un análisis lingüístico para obtener mejores resultados.  Al ser Twitter una plataforma que entrega información en tiempo real, es importante trabajar con un algoritmo que pondere el tiempo.  Al ser un tema de investigación muy reciente, se requiere de métricas estándares para medir la efectividad de los distintos algoritmos propuestos
  • 58. Trabajo futuro  Construir un benchmark que permita comparar resultados obtenidos con distinto preprocesado y parametrización en las dos técnicas propuestas.
  • 59. Trabajo futuro Representación 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 Preprocesado •Eliminar Stop Words •Utilizar raíz •Utilizar n-gramas Parametrización • 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕 •Hacker news •Frecuencia
  • 60. Trabajo futuro Representación N-Grama más Hacker News Preprocesado • Eliminar Stop Words • Utilizar raíz • Utilizar n-gramas Parametrización • 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 •Hacker News • 𝒕𝒇 𝒔𝒆𝒕 𝒙 𝒊𝒅𝒇 𝒕𝒘𝒆𝒆𝒕