SlideShare una empresa de Scribd logo
Aplicaciones de 
text mining para 
gestión de información. 
Sebastián Alvarado 
Psicólogo | Magíster en Procesamiento y Gestión de Información 
Centro de Innovación en Tecnologías de Información para Aplicaciones Sociales (CITIAPS) 
Universidad de Santiago de Chile 
cl.linkedin.com/in/saav123/ 
sebastian.alvarado.v@usach.cl
Qmee: 
http://bit.ly/100Wvhq
Contexto 
 Se espera que para el 2020 la cantidad total de información digital 
aumente desde los actuales 3.2 zettabytes a 40 zettabytes. 
 1 ZB= 103 EB = 106 PB = 109 TB = 1012 GB = 1015 MB = 1018 kB = 1021 
bytes. 
 Cada minuto enviamos 204 millones de mails, 1,8 millones de likes en 
FB, 278 mil tweets, y subimos 200 mil fotos a FB. 
 En Estados Unidos se crearán 1,9 millones de empleos relacionados 
con TICs para proyectos de Big Data; cada uno de ellos será apoyado 
por 3 empleos fuera del ámbito directo de las TIC, sumando un total 
de 6 millones de empleos gracias al Big Data. 
Bernard Marr 
http://linkd.in/11uKNMk
Text Mining 
 Text Mining = Text Data Mining = Text Analytics = Minería de Textos 
 Procedimiento mediante el cual se deriva nueva información a partir de 
fuentes de datos textuales. 
 Integración de métodos y técnicas de Lingüística, Estadística, 
Aprendizaje de Máquina
Ámbito de aplicación 
 Largas colecciones de texto cuya lectura y análisis 
requieran más tiempo que el disponible por una o un 
conjunto de personas.
Tareas y aplicaciones 
Resumen 
automático 
de textos 
Detección 
de fraude 
Modelación 
de tópicos 
Análisis de 
sentimientos 
Clasificación 
de textos
Clasificación de textos 
 Asignación de un documento a una CLASE 
 Algunas restricciones: 
 Pueden pertenecer a 1 clase o más de 1 
 Se puede resolver como una pertenencia (1) a una clase y una no 
pertenencia (0) a las demás clases 
 Hard categorization v/s ranking categorization
Clasificación de textos 
 Asignación de un documento a una CLASE 
 Enfoque manual v/s automático
Clasificación de textos 
 Asignación de un documento a una CLASE 
 Enfoque manual v/s automático 
Predefinida Desconocida
Clasificación de textos 
 Asignación de un documento a una CLASE 
 Enfoque manual v/s automático 
Predefinida Desconocida 
Aprendizaje 
supervisado 
(Clasificación) 
Aprendizaje no 
supervisado 
(Clustering)
De texto a datos 
 Enfoque de Bag of words (bolsa de palabras) 
 No importa el orden de las palabras ni la gramática
De texto a datos 
 Bag of words 
 Gramática no es relevante 
 N-gram: una subsecuencia de n elementos de una secuencia dada. 
 Bi-gram, tri-gram, four-gram 
 Normalización: 
 Minúsculas, stemming, lemma 
 Stopword list 
 Palabras que no aportan información
Word vector (de símbolos a números) 
 Cada término recibe un valor
Word vector (de símbolos a números) 
 Ocurrencia de términos: 1 – 0 
 Frecuencia de términos: 
 tf(i) = el número de veces que apareció en un documento alguna palabra 
o n-gram 
 Frecuencia inversa de términos 
 Idf(i) = total de documentos dividido por el número de documentos que 
contienen el término 
 Tf-idf = Tf*idf
Word vector (de símbolos a números) 
 Ocurrencia de términos: 1 – 0 
 Frecuencia de términos: 
 tf(i) = el número de veces que apareció en un documento alguna palabra 
o n-gram 
 Frecuencia inversa de términos 
 Idf(i) = total de documentos dividido por el número de documentos que 
contienen el término 
 Tf-idf = Tf*idf
Word vector (de símbolos a números) 
 Ocurrencia de términos: 1 – 0 
 Frecuencia de términos: 
 tf(i) = el número de veces que apareció en un documento alguna palabra o n-gram 
 Frecuencia inversa de términos 
 Idf(i) = total de documentos dividido por el número de documentos que contienen 
el término 
 Tf-idf = Tf*idf
Machine Learning 
Classificación 
Algoritmos de 
aprendizaje 
supervisado 
k-NN 
Bayesiano 
Decision Tree 
SVM 
Algoritmos de 
aprendizaje no 
supervisado 
Jerárquicos 
Divisivo 
Aglomerativo 
Particionales 
K-means 
Bisecting K-means 
Kohonens 
Algoritmos de 
aprendizaje 
semisupervisado 
Co-training 
Expectation- 
Maximization 
Basado en grafo
Esquema general 
 Modelo de Bird, Klein & Loper (2007)
Aplicaciones para gestión de información 
Análisis de opiniones en 
período de elecciones el 
2007 en EE.UU. 
Franz Wanner et al., 2009 
http://bit.ly/1w8vX8O
Aplicaciones para gestión de información 
Interfaz de text mining de TAKMI. 
A: Número de documentos que devolvió 
la búsqueda. 
B: Títulos de documentos relevantes. 
C: Distribución de conceptos que han 
sido extraídos de esos documentos. 
D: Estadísticas de los conceptos. 
Marti A. Hearst, 2009
Aplicaciones para gestión de información 
Relaciones entre entidades 
extraídas del sistema Jigsaw. 
Las entidades seleccionadas en 
amarillo; entidades conectadas 
indicadas con líneas y color 
anaranjado; color más oscuro 
representa una conexión más 
fuerte. 
Marti A. Hearst, 2009
Aplicaciones para gestión de información 
La interfaz del sistema TRIST respondiendo 
a una búsqueda relacionada a la gripe 
aviar. Izquierda: querys ejecutadas, 
historial de querys, panel de dimensiones. 
Centro: dimensiones con resultados 
categorizados y visor de documentos. 
Derecha: panel de entidades. 
Marti A. Hearst, 2009
Aplicaciones para gestión de información 
Ejemplo de marcado 
automático en una 
entrevista. 
Louise Corti & Arofan Gregory, 2011
Aplicaciones para gestión de información 
Sistema VOSviewer. Mapa 
de calor del Journal of the 
American Society for 
Information Science and 
Technology. El color de un 
término indica el índice de 
citación promedio de las 
publicaciones en que el 
término ocurrió. 
http://www.vosviewer.com/maps/term_maps/
Aplicaciones para gestión de información 
Sistema BILBO 
(Bibliographical Robot). 
Detecta, identifica, analiza 
y codifica referencias 
bibliográficas en los 
artículos (título, revista, 
año y lugar de publicación 
de cada referencia). 
http://oep.hypotheses.org/
¡Muchas gracias! 
www.citiaps.cl 
cl.linkedin.com/in/saav123/

Más contenido relacionado

PPT
904 base de datos
PPTX
Sistemas de recuperación de informacion.cap 21
PDF
Analisis de sentimiento
PDF
Web Mining
PDF
Data Science
DOCX
Quimica unidad 2 elementos quimicos y su clasificación
PDF
Recuperación de Información y el modelo de Espacio Vectorial
904 base de datos
Sistemas de recuperación de informacion.cap 21
Analisis de sentimiento
Web Mining
Data Science
Quimica unidad 2 elementos quimicos y su clasificación
Recuperación de Información y el modelo de Espacio Vectorial

Similar a Aplicaciones de text mining para gestión de información. (20)

PPTX
Poggi analytics - tm - 1b
PDF
Anécdotas sobre proyectos de Humanidades Digitales
PDF
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
PPTX
Teoria de la informacion
PPTX
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
DOC
2018 informacion en internet - mio - copia
PPTX
Big Data, casos, tecnologias y aplicaciones reales
PDF
Actividad software vantage point (1)
PPTX
Workshop Manipulacion de Datos con R
PDF
"Educación y datos masivos (Big Data)" - Fernando Santamaria
PDF
Educación y datos masivos (Big Data)
PDF
"Educación y datos masivos (Big Data)" - Fernando Santamaria
PDF
Resumen automático en Twitter
DOC
Dato,Conocimiento E Informacion
PPTX
Trabajo final curso big data
PDF
Eva mendez servicios-de-informacion-socialesysemanticos-web30
PPTX
Bases de datos en Access y modelo e-r de bd
PDF
Analisis de datos 2
PDF
¿Representan los Datos de Medios Sociales a Chile?
Poggi analytics - tm - 1b
Anécdotas sobre proyectos de Humanidades Digitales
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Teoria de la informacion
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
2018 informacion en internet - mio - copia
Big Data, casos, tecnologias y aplicaciones reales
Actividad software vantage point (1)
Workshop Manipulacion de Datos con R
"Educación y datos masivos (Big Data)" - Fernando Santamaria
Educación y datos masivos (Big Data)
"Educación y datos masivos (Big Data)" - Fernando Santamaria
Resumen automático en Twitter
Dato,Conocimiento E Informacion
Trabajo final curso big data
Eva mendez servicios-de-informacion-socialesysemanticos-web30
Bases de datos en Access y modelo e-r de bd
Analisis de datos 2
¿Representan los Datos de Medios Sociales a Chile?
Publicidad

Último (20)

PDF
6 a,b) Obesidad y Anorexia nerviosa util.pdf
PPTX
Perfiil_Biofisico_Fetal.___perinatologia
PPTX
clase # 22 EDUCACION SEXUAL.pptx para mi
PPTX
Diabetes mellitus tipo y sus complicaciones
PPTX
Control Prenatal de las madres embarazadas
PDF
El método experimental Panorama de la experimentación
PDF
Presentación sobre DENGUE.pdf (enfermedad tropical)
PPTX
Clase 34. Macromoleculas OBS-TMED.pptx
PPTX
6. Electrofisiologia de la membrana celular.pptx
PPTX
PRESENTACION PARENTALkkkkkk NICOLAS.pptx
PPTX
civilizacion de roma antigua vvvvvvvvvv
PPTX
Lupus eritematoso SLE, características y clasificación
PPTX
Abscesos y Fístulas Anales- cirugia general
PPTX
anestesia para cirugía laparoscópica.pptx
PDF
enfermedades tropicales: fiebre amarilla.pdf
PPTX
GENÉTICA GENERAL - DEFINICIÓN, HISTORIA Y EVOLUCIÓN
PPTX
clase membranas celulares Bachi.pptx
PPTX
Traumatismo craneoencefálico........pptx
PDF
anatomi del cuello.pptx_20250806_153255_0000.pdf
PPTX
4. Otitis media aguda y secretora - 2024.pptx
6 a,b) Obesidad y Anorexia nerviosa util.pdf
Perfiil_Biofisico_Fetal.___perinatologia
clase # 22 EDUCACION SEXUAL.pptx para mi
Diabetes mellitus tipo y sus complicaciones
Control Prenatal de las madres embarazadas
El método experimental Panorama de la experimentación
Presentación sobre DENGUE.pdf (enfermedad tropical)
Clase 34. Macromoleculas OBS-TMED.pptx
6. Electrofisiologia de la membrana celular.pptx
PRESENTACION PARENTALkkkkkk NICOLAS.pptx
civilizacion de roma antigua vvvvvvvvvv
Lupus eritematoso SLE, características y clasificación
Abscesos y Fístulas Anales- cirugia general
anestesia para cirugía laparoscópica.pptx
enfermedades tropicales: fiebre amarilla.pdf
GENÉTICA GENERAL - DEFINICIÓN, HISTORIA Y EVOLUCIÓN
clase membranas celulares Bachi.pptx
Traumatismo craneoencefálico........pptx
anatomi del cuello.pptx_20250806_153255_0000.pdf
4. Otitis media aguda y secretora - 2024.pptx
Publicidad

Aplicaciones de text mining para gestión de información.

  • 1. Aplicaciones de text mining para gestión de información. Sebastián Alvarado Psicólogo | Magíster en Procesamiento y Gestión de Información Centro de Innovación en Tecnologías de Información para Aplicaciones Sociales (CITIAPS) Universidad de Santiago de Chile cl.linkedin.com/in/saav123/ sebastian.alvarado.v@usach.cl
  • 3. Contexto  Se espera que para el 2020 la cantidad total de información digital aumente desde los actuales 3.2 zettabytes a 40 zettabytes.  1 ZB= 103 EB = 106 PB = 109 TB = 1012 GB = 1015 MB = 1018 kB = 1021 bytes.  Cada minuto enviamos 204 millones de mails, 1,8 millones de likes en FB, 278 mil tweets, y subimos 200 mil fotos a FB.  En Estados Unidos se crearán 1,9 millones de empleos relacionados con TICs para proyectos de Big Data; cada uno de ellos será apoyado por 3 empleos fuera del ámbito directo de las TIC, sumando un total de 6 millones de empleos gracias al Big Data. Bernard Marr http://linkd.in/11uKNMk
  • 4. Text Mining  Text Mining = Text Data Mining = Text Analytics = Minería de Textos  Procedimiento mediante el cual se deriva nueva información a partir de fuentes de datos textuales.  Integración de métodos y técnicas de Lingüística, Estadística, Aprendizaje de Máquina
  • 5. Ámbito de aplicación  Largas colecciones de texto cuya lectura y análisis requieran más tiempo que el disponible por una o un conjunto de personas.
  • 6. Tareas y aplicaciones Resumen automático de textos Detección de fraude Modelación de tópicos Análisis de sentimientos Clasificación de textos
  • 7. Clasificación de textos  Asignación de un documento a una CLASE  Algunas restricciones:  Pueden pertenecer a 1 clase o más de 1  Se puede resolver como una pertenencia (1) a una clase y una no pertenencia (0) a las demás clases  Hard categorization v/s ranking categorization
  • 8. Clasificación de textos  Asignación de un documento a una CLASE  Enfoque manual v/s automático
  • 9. Clasificación de textos  Asignación de un documento a una CLASE  Enfoque manual v/s automático Predefinida Desconocida
  • 10. Clasificación de textos  Asignación de un documento a una CLASE  Enfoque manual v/s automático Predefinida Desconocida Aprendizaje supervisado (Clasificación) Aprendizaje no supervisado (Clustering)
  • 11. De texto a datos  Enfoque de Bag of words (bolsa de palabras)  No importa el orden de las palabras ni la gramática
  • 12. De texto a datos  Bag of words  Gramática no es relevante  N-gram: una subsecuencia de n elementos de una secuencia dada.  Bi-gram, tri-gram, four-gram  Normalización:  Minúsculas, stemming, lemma  Stopword list  Palabras que no aportan información
  • 13. Word vector (de símbolos a números)  Cada término recibe un valor
  • 14. Word vector (de símbolos a números)  Ocurrencia de términos: 1 – 0  Frecuencia de términos:  tf(i) = el número de veces que apareció en un documento alguna palabra o n-gram  Frecuencia inversa de términos  Idf(i) = total de documentos dividido por el número de documentos que contienen el término  Tf-idf = Tf*idf
  • 15. Word vector (de símbolos a números)  Ocurrencia de términos: 1 – 0  Frecuencia de términos:  tf(i) = el número de veces que apareció en un documento alguna palabra o n-gram  Frecuencia inversa de términos  Idf(i) = total de documentos dividido por el número de documentos que contienen el término  Tf-idf = Tf*idf
  • 16. Word vector (de símbolos a números)  Ocurrencia de términos: 1 – 0  Frecuencia de términos:  tf(i) = el número de veces que apareció en un documento alguna palabra o n-gram  Frecuencia inversa de términos  Idf(i) = total de documentos dividido por el número de documentos que contienen el término  Tf-idf = Tf*idf
  • 17. Machine Learning Classificación Algoritmos de aprendizaje supervisado k-NN Bayesiano Decision Tree SVM Algoritmos de aprendizaje no supervisado Jerárquicos Divisivo Aglomerativo Particionales K-means Bisecting K-means Kohonens Algoritmos de aprendizaje semisupervisado Co-training Expectation- Maximization Basado en grafo
  • 18. Esquema general  Modelo de Bird, Klein & Loper (2007)
  • 19. Aplicaciones para gestión de información Análisis de opiniones en período de elecciones el 2007 en EE.UU. Franz Wanner et al., 2009 http://bit.ly/1w8vX8O
  • 20. Aplicaciones para gestión de información Interfaz de text mining de TAKMI. A: Número de documentos que devolvió la búsqueda. B: Títulos de documentos relevantes. C: Distribución de conceptos que han sido extraídos de esos documentos. D: Estadísticas de los conceptos. Marti A. Hearst, 2009
  • 21. Aplicaciones para gestión de información Relaciones entre entidades extraídas del sistema Jigsaw. Las entidades seleccionadas en amarillo; entidades conectadas indicadas con líneas y color anaranjado; color más oscuro representa una conexión más fuerte. Marti A. Hearst, 2009
  • 22. Aplicaciones para gestión de información La interfaz del sistema TRIST respondiendo a una búsqueda relacionada a la gripe aviar. Izquierda: querys ejecutadas, historial de querys, panel de dimensiones. Centro: dimensiones con resultados categorizados y visor de documentos. Derecha: panel de entidades. Marti A. Hearst, 2009
  • 23. Aplicaciones para gestión de información Ejemplo de marcado automático en una entrevista. Louise Corti & Arofan Gregory, 2011
  • 24. Aplicaciones para gestión de información Sistema VOSviewer. Mapa de calor del Journal of the American Society for Information Science and Technology. El color de un término indica el índice de citación promedio de las publicaciones en que el término ocurrió. http://www.vosviewer.com/maps/term_maps/
  • 25. Aplicaciones para gestión de información Sistema BILBO (Bibliographical Robot). Detecta, identifica, analiza y codifica referencias bibliográficas en los artículos (título, revista, año y lugar de publicación de cada referencia). http://oep.hypotheses.org/
  • 26. ¡Muchas gracias! www.citiaps.cl cl.linkedin.com/in/saav123/