SlideShare una empresa de Scribd logo
TEXT MINING
Juan Azcurra
Text Mining
… is the discovery by computer of new,
previously unknown information, by
automatically extracting information from
different written resources.
Untangling Text Data Mining
Marti Hearst, 1999
Importancia de Text Mining
 Grandes cantidades de información en formato
textual (fuera de las tradicionales bases de
datos).
 Necesidad de información más sofisticada.
 Detectar sentimientos respecto a un producto,
candidato político, en medios de comunicación
colectivos (foros, blogs, redes sociales, etc.)
 Respuestas a preguntas vs. recuperación de
información.
 Resumen de documentos vs. listados.
 Explicitar la estructura conceptual de los documentos
de cierto tipo.
Aplicaciones de Text Mining
Procesamiento de Lenguaje
Natural
 La mayoría del texto no tiene estructura,
cuanto mayor estructura tenga para analizar
podré encontrar relaciones entre partes del
texto.
 Poder ir de preguntas en lenguaje natural a
respuestas concretas:
 “¿Quién fue el primer presidente luego del
retorno de la democracia?
 Preguntas: ¿Quién? ¿Presidente? ¿De qué o dónde?
¿Retorno de la democracia?
 Respuesta: Ricardo Alfonsín (persona)
Nivel de análisis del lenguaje
 Estructura fonética: manera en que los
sonidos son creados (reconocimiento de voz).
 Estructura morfológica: analizar como las
palabras se forman y derivan a partir de
unidades más pequeñas (triangulación =
triangul (raiz) + ación (sufijo de sustantivo
abstracto).
 Estructura sintáctica: describen la
organización gramatical de las palabras en
una frase (sustantivo  frase nominal 
sujeto).
Análisis gramático
 Saber la función sintáctica de una palabra
permite identificar de que se está hablando y
como se relacionan los objetos nombrados.
 El sustantivo en el sujeto determina quien lleva
a cabo la acción.
 El adjetivo determina como es el sujeto.
 El verbo determina la acción.
 El objeto directo determina a quién se lo hace.
Análisis gramático: POS
Tagging
 POS (Part-of-speech) tagging es asignar a
cada palabra un tag que identifique la función
sintáctica de la palabra en un token.
 En análisis de sentimiento u opinión los
adjetivos calificativos incluye la opinión y el
adverbio derca del adjetivo da una idea de
firmeza.
 En named-entity recognition los sustantivos
son el centro de las entidades.
 En question answering algunos adverbios
(quién, cómo, dónde) dan pistas de que tipos de
respuestas se esperan.
Análisis gramático: POS
Tagging
Problemas
 Establecer el género en castellano es
complicado:
 pasta – pasto
 foco – foca
 raya – rayo
 Los sufijos de aumentativo/disminutivo causan
ambigüedades
 visa – visita
 pavo - pavote
Collocations - Bigramas
 Colocación: dos o más palabras que
corresponden al nombre de algo o a una
manera de llamar a las cosas.
 “ciencia ficción”, “disco rígido”, “buenos aires".
 El significado no se deduce de las partes
(ejemplo “yerba mala”).
Mineria de Opinion
 La Mineria de Opinión (o análisis de
sentimiento) se refiere al uso de
procesamiento de lenguaje natural, análisis de
textos y lingüistica computacional para
identificar y extraer información subjetiva de
fuentes de información.
Partes de una opinión
13
 Componentes de una opinión:
 Opinador/a: Una persona u organización que
expresa una opinión especifica sobre un objeto
en particular.
 Objeto: Sobre qué se opina.
 Opinión: Un punto de vista, postura, o valoración
de un objeto por parte de un opinador. Una
opinión puede ser positiva, negativa, o neutra.
Tareas en Opinion mining 1/2
14
 A nivel de Documento:
 Objetivo: sentiment classification de críticas
 Clases: positiva, negativa y neutral
 Presunción: cada documento (o crítica) se enfoca en
un solo objeto.
 A Nivel de Sentencia:
 Objetivo 1: identificar frases que contienen una
opinión
 Clases: objetiva / subjetiva (con opinión)
 Objetivo 2: sentiment classification de frases
 Clases: positiva, negativa y neutral
 Presunción: Una frase contiene solo una opinión.
Tareas en Opinion mining 2/2
15
A Nivel de Feature:
 Tarea 1: Identificar y extraer las features que
marcan comentarios en cada documento o
párrafo.
 Tarea 2: Determinar si las las features están
asociadas a opiniones positivas, negativas o
neutrales.
 Tarea 3: Agrupar features en sinónimos.
 Producir un resumen de varias opiniones a partir de
los features.
 Opinion holders: Identificar a los opinion holders
es también útil (ej. Quién escribió un artículo).
Diferentes formatos de críticas
16
 Formato 1 - Pros, Cons y crítica detallada: El
autor describe Pros y Cons separadamente y
además escribe una crítica detallada
(Epinions.com).
 Formato 2 - Pros and Cons: El autor describe
sólo Pros y Cons, separadamente.
(C|net.com).
 Formato 3 - Libre: El autor escribe libremente,
sin separación de Pros y Cons.
17
Extracción de Información
Análisis de sentimiento – Opinión
Atributos:
• Zoom
• Peso y Tamaño
• Bateria
• Fácil de usar
• Precio
Peso y Tamaño:
• Liviana y compacta para transportar.
• Es posible guardarla en cualquier bolso.
• La camara es muy liviana y endeble, es necesario tratarla con mucho
cuidado.
✔
Zoom
Peso y
Tamaño
Bateria
Fácil de usar
Precio
✔
✗
Resumen visual y comparación
19
Extracción de Información
Asunto: Reunión mensual
Fecha: 23 de Octubre
Para: Juan Perez
Informamos que la reunión mensual se realizará
mañana en Sala A de 10 a 11.30 hs.
Crear entrada en Calendario
Evento: Reunión
Mensual
Fecha: 24/10
Lugar: Sala A
Inicio: 10:00
Fin: 11:30
Flujo del proceso
Extracción de
Textos
•Obtención de la
información
relevante.
Tokenización
•Separación del
texto en términos
elementales.
Eliminación
de stopwords
•Términos que no
dan relevancia al
análisis.
Lematización
•Búsqueda de la
raíz de cada
término.
Cálculos
(Frecuencia,
TF-IDF)
•Frecuencia de
aparición del
término en el
documento.
Matriz de
cálculos
•Generación de la
matríz final con el
cálculo por
término para
aplicar Data
Mining.
Análisis de Sentimiento: Twitter

Más contenido relacionado

PDF
Rúbrica comprensión lectora.
PDF
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
ODP
Presentación Guadalajara #Tecnopoliticay15M
PDF
5 text mining la ultima palabra yesenia glez pearson
PPTX
Text mining
PDF
Articulo revista amai
PPTX
Data mining
Rúbrica comprensión lectora.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Presentación Guadalajara #Tecnopoliticay15M
5 text mining la ultima palabra yesenia glez pearson
Text mining
Articulo revista amai
Data mining

Destacado (20)

PPTX
PDF
Text Mining
 
PPT
¿Que es el Text Mining?
PPT
4.4 text mining
PPTX
PPT
Big Data & Text Mining
PPTX
Minig text and audiovisual data
PDF
Campus Party2010
PPSX
Aplicação de text mining
PDF
Introducción al Data Mining
PDF
Data Mining en Forman
PDF
Relación Entre Big Data, Data Mining y Estadística
PPTX
Mineria de Datos_parte V
PPT
Data Mining Snoop Consulting Arg
PPTX
Data Mining
PPTX
Text Analytics Presentation
PPTX
Mineria de Datos Parte I
PDF
OUTDATED Text Mining 1/5: Introduction
Text Mining
 
¿Que es el Text Mining?
4.4 text mining
Big Data & Text Mining
Minig text and audiovisual data
Campus Party2010
Aplicação de text mining
Introducción al Data Mining
Data Mining en Forman
Relación Entre Big Data, Data Mining y Estadística
Mineria de Datos_parte V
Data Mining Snoop Consulting Arg
Data Mining
Text Analytics Presentation
Mineria de Datos Parte I
OUTDATED Text Mining 1/5: Introduction
Publicidad

Similar a Introducción a Text Mining (16)

PPTX
Text mining
PDF
Minería de opiniones
PDF
Opinion Mining #datafestAr
PPTX
Opinion mining
PPTX
Poggi analytics - sentiment - 1
PDF
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
PPTX
Las bases del análisis del sentimiento en redes sociales
PDF
Opinion Mining
PDF
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIO
PPTX
Poggi analytics - tm - 1b
PPT
I summit utpl-conferencia
PPTX
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
PPTX
Minería de Texto (Text mining)
PPTX
Natural language processing
PPTX
Aplicaciones de text mining para gestión de información.
PPTX
TOminer-1.2
Text mining
Minería de opiniones
Opinion Mining #datafestAr
Opinion mining
Poggi analytics - sentiment - 1
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
Las bases del análisis del sentimiento en redes sociales
Opinion Mining
Análisis de Sentimientos sobre un Corpus en Español - ASAI 2013 JAIIO
Poggi analytics - tm - 1b
I summit utpl-conferencia
24 Horas Pass Spanish - minería de texto y análisis de sentimiento(cognitive...
Minería de Texto (Text mining)
Natural language processing
Aplicaciones de text mining para gestión de información.
TOminer-1.2
Publicidad

Más de Juan Azcurra (14)

PPTX
Gestión de la Calidad en Proyectos
PPTX
Gestión del Alcance en los Proyectos
PPTX
Fundamentos de Administración de Proyectos
PPTX
Elasticsearch
PDF
Introducción a Business Intelligence
PPTX
NoSQL - MongoDB
PPTX
Web Link Analysis
PPTX
Web Log Analysis - AWK
PPTX
Web Usage Mining
PPTX
Web Usage Mining - Temas Avanzados
PPTX
Web Content Mining - Information Retrieval
PPTX
Web Content Mining - Datos estructurados
PPTX
Introducción a Web Mining
PPTX
Introducción a Big Data
Gestión de la Calidad en Proyectos
Gestión del Alcance en los Proyectos
Fundamentos de Administración de Proyectos
Elasticsearch
Introducción a Business Intelligence
NoSQL - MongoDB
Web Link Analysis
Web Log Analysis - AWK
Web Usage Mining
Web Usage Mining - Temas Avanzados
Web Content Mining - Information Retrieval
Web Content Mining - Datos estructurados
Introducción a Web Mining
Introducción a Big Data

Último (20)

PPT
El-Gobierno-Electrónico-En-El-Estado-Bolivia
PDF
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PDF
taller de informática - LEY DE OHM
PPTX
REDES INFORMATICAS REDES INFORMATICAS.pptx
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PPTX
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPTX
Sesion 1 de microsoft power point - Clase 1
PDF
Estrategia de apoyo tecnología grado 9-3
PDF
Calidad desde el Docente y la mejora continua .pdf
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PDF
Maste clas de estructura metálica y arquitectura
PDF
SAP Transportation Management para LSP, TM140 Col18
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PPTX
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
PDF
CyberOps Associate - Cisco Networking Academy
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PPTX
Presentación de Redes de Datos modelo osi
El-Gobierno-Electrónico-En-El-Estado-Bolivia
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
taller de informática - LEY DE OHM
REDES INFORMATICAS REDES INFORMATICAS.pptx
Influencia-del-uso-de-redes-sociales.pdf
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
Sesion 1 de microsoft power point - Clase 1
Estrategia de apoyo tecnología grado 9-3
Calidad desde el Docente y la mejora continua .pdf
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
Maste clas de estructura metálica y arquitectura
SAP Transportation Management para LSP, TM140 Col18
historia_web de la creacion de un navegador_presentacion.pptx
IA de Cine - Como MuleSoft y los Agentes estan redefiniendo la realidad
CyberOps Associate - Cisco Networking Academy
Power Point Nicolás Carrasco (disertación Roblox).pptx
Presentación de Redes de Datos modelo osi

Introducción a Text Mining

  • 2. Text Mining … is the discovery by computer of new, previously unknown information, by automatically extracting information from different written resources. Untangling Text Data Mining Marti Hearst, 1999
  • 3. Importancia de Text Mining  Grandes cantidades de información en formato textual (fuera de las tradicionales bases de datos).  Necesidad de información más sofisticada.  Detectar sentimientos respecto a un producto, candidato político, en medios de comunicación colectivos (foros, blogs, redes sociales, etc.)  Respuestas a preguntas vs. recuperación de información.  Resumen de documentos vs. listados.  Explicitar la estructura conceptual de los documentos de cierto tipo.
  • 5. Procesamiento de Lenguaje Natural  La mayoría del texto no tiene estructura, cuanto mayor estructura tenga para analizar podré encontrar relaciones entre partes del texto.  Poder ir de preguntas en lenguaje natural a respuestas concretas:  “¿Quién fue el primer presidente luego del retorno de la democracia?  Preguntas: ¿Quién? ¿Presidente? ¿De qué o dónde? ¿Retorno de la democracia?  Respuesta: Ricardo Alfonsín (persona)
  • 6. Nivel de análisis del lenguaje  Estructura fonética: manera en que los sonidos son creados (reconocimiento de voz).  Estructura morfológica: analizar como las palabras se forman y derivan a partir de unidades más pequeñas (triangulación = triangul (raiz) + ación (sufijo de sustantivo abstracto).  Estructura sintáctica: describen la organización gramatical de las palabras en una frase (sustantivo  frase nominal  sujeto).
  • 7. Análisis gramático  Saber la función sintáctica de una palabra permite identificar de que se está hablando y como se relacionan los objetos nombrados.  El sustantivo en el sujeto determina quien lleva a cabo la acción.  El adjetivo determina como es el sujeto.  El verbo determina la acción.  El objeto directo determina a quién se lo hace.
  • 8. Análisis gramático: POS Tagging  POS (Part-of-speech) tagging es asignar a cada palabra un tag que identifique la función sintáctica de la palabra en un token.  En análisis de sentimiento u opinión los adjetivos calificativos incluye la opinión y el adverbio derca del adjetivo da una idea de firmeza.  En named-entity recognition los sustantivos son el centro de las entidades.  En question answering algunos adverbios (quién, cómo, dónde) dan pistas de que tipos de respuestas se esperan.
  • 10. Problemas  Establecer el género en castellano es complicado:  pasta – pasto  foco – foca  raya – rayo  Los sufijos de aumentativo/disminutivo causan ambigüedades  visa – visita  pavo - pavote
  • 11. Collocations - Bigramas  Colocación: dos o más palabras que corresponden al nombre de algo o a una manera de llamar a las cosas.  “ciencia ficción”, “disco rígido”, “buenos aires".  El significado no se deduce de las partes (ejemplo “yerba mala”).
  • 12. Mineria de Opinion  La Mineria de Opinión (o análisis de sentimiento) se refiere al uso de procesamiento de lenguaje natural, análisis de textos y lingüistica computacional para identificar y extraer información subjetiva de fuentes de información.
  • 13. Partes de una opinión 13  Componentes de una opinión:  Opinador/a: Una persona u organización que expresa una opinión especifica sobre un objeto en particular.  Objeto: Sobre qué se opina.  Opinión: Un punto de vista, postura, o valoración de un objeto por parte de un opinador. Una opinión puede ser positiva, negativa, o neutra.
  • 14. Tareas en Opinion mining 1/2 14  A nivel de Documento:  Objetivo: sentiment classification de críticas  Clases: positiva, negativa y neutral  Presunción: cada documento (o crítica) se enfoca en un solo objeto.  A Nivel de Sentencia:  Objetivo 1: identificar frases que contienen una opinión  Clases: objetiva / subjetiva (con opinión)  Objetivo 2: sentiment classification de frases  Clases: positiva, negativa y neutral  Presunción: Una frase contiene solo una opinión.
  • 15. Tareas en Opinion mining 2/2 15 A Nivel de Feature:  Tarea 1: Identificar y extraer las features que marcan comentarios en cada documento o párrafo.  Tarea 2: Determinar si las las features están asociadas a opiniones positivas, negativas o neutrales.  Tarea 3: Agrupar features en sinónimos.  Producir un resumen de varias opiniones a partir de los features.  Opinion holders: Identificar a los opinion holders es también útil (ej. Quién escribió un artículo).
  • 16. Diferentes formatos de críticas 16  Formato 1 - Pros, Cons y crítica detallada: El autor describe Pros y Cons separadamente y además escribe una crítica detallada (Epinions.com).  Formato 2 - Pros and Cons: El autor describe sólo Pros y Cons, separadamente. (C|net.com).  Formato 3 - Libre: El autor escribe libremente, sin separación de Pros y Cons.
  • 17. 17
  • 18. Extracción de Información Análisis de sentimiento – Opinión Atributos: • Zoom • Peso y Tamaño • Bateria • Fácil de usar • Precio Peso y Tamaño: • Liviana y compacta para transportar. • Es posible guardarla en cualquier bolso. • La camara es muy liviana y endeble, es necesario tratarla con mucho cuidado. ✔ Zoom Peso y Tamaño Bateria Fácil de usar Precio ✔ ✗
  • 19. Resumen visual y comparación 19
  • 20. Extracción de Información Asunto: Reunión mensual Fecha: 23 de Octubre Para: Juan Perez Informamos que la reunión mensual se realizará mañana en Sala A de 10 a 11.30 hs. Crear entrada en Calendario Evento: Reunión Mensual Fecha: 24/10 Lugar: Sala A Inicio: 10:00 Fin: 11:30
  • 21. Flujo del proceso Extracción de Textos •Obtención de la información relevante. Tokenización •Separación del texto en términos elementales. Eliminación de stopwords •Términos que no dan relevancia al análisis. Lematización •Búsqueda de la raíz de cada término. Cálculos (Frecuencia, TF-IDF) •Frecuencia de aparición del término en el documento. Matriz de cálculos •Generación de la matríz final con el cálculo por término para aplicar Data Mining.