MINERÍA Y VISUALIZACIÓN DE TEXTOEdwin Fabián Maza S.Estudiante de la UTPLISUMMIT 2010
INTRODUCCIÓNEn la actualidad se busca analizar el texto existente en todo su ámbito y para ello se requiere de procedimientos automáticos para: extraer los temas, determinar en el texto la localización de las rupturas, visualizar la proximidad entre documentos y/o entre términos, indexar los documentos, construir bases de documentos para una interrogación automática a lo posterior.
Búsqueda de información VS Extracción de informaciónBúsqueda de información: Es un tratamiento global de un gran nuero de documentos, búsqueda de temas, construcción de una tipología de los documentos.Extracción de información: consiste en la búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base).
Tipos de textos analizadosLos tipos de textos analizados se pueden realizar entre:Encuestas de opiniónEncuestas de satisfacción de clientelaEntrevistas semi-abiertas en estudios de clientelaRevistas de prensaVigilia tecnológica: resúmenes de artículos contenidos en las bases científicas, patentes, entre otras.
Métodos de análisisPara ello se pueden identificar dos puntos importantes como son:La codificación: se debe conocer como se codifica el corpus, esta transforma el corpus en una tabla que se puede analizar mediante métodos estadísticosLa distancia: el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre elementos (entrevistados, categorías de entrevistados, palabras, entre otros.)
¿Porquéesdificil?La minería de textos se ve compleja o difícil para su análisis debido a la conformación de:TítulosImágenesTablasGraficasTexto seguroEs difícil la visualización del texto como por ejemplo: la presencia de un objeto extraño se puede interpretar de varias formas como: alucinación, nave extraterrestre, platillo volador, OVNI
Lingüística computacional y procesamiento de textosEsta ciencia ha ayudado para tratar de aplicar métodos computacionales en el estudio del lenguaje natural. Por lo que es ha combinado dos importantes ciencias, la lingüística que el estudio de leyes del lenguaje humano, y la inteligencia artificial que investiga métodos computacionales para el manejo de sistemas complejos.
La solución tradicional de este problema consiste en construir un procesador lingüístico construido por diferentes módulos independientes.
Tipos de minería de textos Web (Web Mining)La Web Mining nos ayuda a descubrir información, encontrar documentados relacionados, mostrar temáticas, averiguar el grado de satisfacción de recursos web, etc. Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos.
Tipos de minería de textos Web (Web Mining)Web contentmining (minería de contenido web)Web structuremining (minería de estructura web)Web usagemining (minería de uso web)
HERRAMIENTAS DE MINERÍA DE TEXTOWekaRapidMinerLenguaje RPentahoGATEBases de datos de artículos técnicos.biotechmedlinechemicalabstractregistry
REFERENCIAS[1] Minería de Textos Web Recuperación y organización de la información Disponible en http://mineria-textos-web.awardspace.com/[2] Explotación minera del texto Disponible en http://enciclopediaespana.com/Explotación_minera_del_texto.html[3] Explotación minera del texto http://www.worldlingo.com/ma/enwiki/es/Text_mining[4] Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica BécueBertaut[5] Minería de texto: Un nuevo reto computacional Manuel Montes-y-Gómez Centro de Investigación en Computación, Instituto Politécnico Nacional.

Más contenido relacionado

PPTX
Informacion en internet
PPT
Internet
PDF
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...
PPTX
Estrategias de aprendizaje.
DOCX
Proyecto final articulo revista.
PPTX
Resumen de informatica
PPTX
Competencia en el manejo de información
PPTX
Competencia en el manejo de información
Informacion en internet
Internet
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...
Estrategias de aprendizaje.
Proyecto final articulo revista.
Resumen de informatica
Competencia en el manejo de información
Competencia en el manejo de información

La actualidad más candente (7)

PPTX
Ficha tecnico pedagogica
PPTX
Informatica
ODP
Impacto web
PPTX
Minería de Texto (Text mining)
PPTX
Herramientas para la busqueda
DOCX
Taller articulo de revista
PPTX
Informática Jurídica
Ficha tecnico pedagogica
Informatica
Impacto web
Minería de Texto (Text mining)
Herramientas para la busqueda
Taller articulo de revista
Informática Jurídica
Publicidad

Similar a Minería y visualización de texto (20)

PPTX
BÚSQUEDA de fuentes confiables con TIC.pptx
PPT
Indización automatizada
PDF
Metadatos
PPTX
Explotación y visualización de datos de investigación en Humanidades por Gime...
PDF
¿Cómo buscar información científica?
PPTX
Ontología
PPT
Estrategia de busqueda 2003
PDF
Monografia ontologias - Primera Aproximación
PDF
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
DOCX
Tarea 10 de infotecnologia.
PDF
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.
PDF
Ontología cis
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PDF
Tesis_doctoral_Jose_Pino_Diaz.
DOCX
Preguntas generadoras
DOCX
Preguntas generadoras
BÚSQUEDA de fuentes confiables con TIC.pptx
Indización automatizada
Metadatos
Explotación y visualización de datos de investigación en Humanidades por Gime...
¿Cómo buscar información científica?
Ontología
Estrategia de busqueda 2003
Monografia ontologias - Primera Aproximación
Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a...
Tarea 10 de infotecnologia.
Procesamiento de lenguaje natural y Analítica de Texto - Primera parte.
Ontología cis
Minig text and audiovisual data
Minig text and audiovisual data
Minig text and audiovisual data
Minig text and audiovisual data
Minig text and audiovisual data
Tesis_doctoral_Jose_Pino_Diaz.
Preguntas generadoras
Preguntas generadoras
Publicidad

Más de Ewing Ma (19)

PPT
Servicio de calidad
PPT
Servicio de calidad
PPT
DISPOSITIVOS DE CAPA 2 DEL MODELO OSI
PPT
open innovation
PPT
cuestiones de repaso capitulo 20
PPT
cuestiones de repaso
PPT
Algoritmo congruencial aditivo
PPT
Pruebas de Uniformidad
PPT
Ejercicio 7.3
PPT
Diagnostico de Mainboard
PPT
resolución del ejecicio del capitulo 18
PPT
Ejercicio Del Capitulo 18
PPT
Cuestiones de repaso capitulo 18
PPT
CASO DE ESTUDIO DE EASYDRIVE
PPT
Cuestiones de repado capitulo 17
PPT
Cuestiones de estudio del capitulo 15
PPT
University Accommodation
PPT
Caso de estudio EasyDrive School of Motoring
PPT
Cuestiones de Repaso Capitulo 16
Servicio de calidad
Servicio de calidad
DISPOSITIVOS DE CAPA 2 DEL MODELO OSI
open innovation
cuestiones de repaso capitulo 20
cuestiones de repaso
Algoritmo congruencial aditivo
Pruebas de Uniformidad
Ejercicio 7.3
Diagnostico de Mainboard
resolución del ejecicio del capitulo 18
Ejercicio Del Capitulo 18
Cuestiones de repaso capitulo 18
CASO DE ESTUDIO DE EASYDRIVE
Cuestiones de repado capitulo 17
Cuestiones de estudio del capitulo 15
University Accommodation
Caso de estudio EasyDrive School of Motoring
Cuestiones de Repaso Capitulo 16

Último (20)

PPTX
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
PDF
Manual del Gobierno Escolar -MINEDUC.pdf
PDF
Modelo Educativo SUB 2023versión final.pdf
PDF
Didáctica de las literaturas infantiles.
PDF
Las Matematicas y el Pensamiento Cientifico SE3 Ccesa007.pdf
PDF
NOM-020-SSA-2025.pdf Para establecimientos de salud y el reconocimiento de l...
PPTX
BIZANCIO. EVOLUCIÓN HISTORICA, RAGOS POLÍTICOS, ECONOMICOS Y SOCIALES
PDF
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
PDF
KOF-2022-espanol-mar-27-11-36 coke.pdf tv
PDF
Ficha de Atencion a Padres de Familia IE Ccesa007.pdf
PDF
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
PDF
RM2025 - FUNDAMENTOS TEÓRICOS - PEDIATRÍA.pdf
PDF
Estadística Aplicada a la Psicología y Ciencias de la Salud Ccesa.pdf
DOCX
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - CUARTO GRADO.docx
PDF
Lo que hacen los Mejores Profesores de la Universidad - Ken Bain Ccesa007.pdf
PDF
Introduccion a la Investigacion Cualitativa FLICK Ccesa007.pdf
PDF
ACERTIJO EL CONJURO DEL CAZAFANTASMAS MATEMÁTICO. Por JAVIER SOLIS NOYOLA
PDF
TALLER DE ESTADISTICA BASICA para principiantes y no tan basicos
PDF
LIBRO 2-SALUD Y AMBIENTE-4TO CEBA avanzado.pdf
PDF
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf
LAS MIGRACIONES E INVASIONES Y EL INICIO EDAD MEDIA
Manual del Gobierno Escolar -MINEDUC.pdf
Modelo Educativo SUB 2023versión final.pdf
Didáctica de las literaturas infantiles.
Las Matematicas y el Pensamiento Cientifico SE3 Ccesa007.pdf
NOM-020-SSA-2025.pdf Para establecimientos de salud y el reconocimiento de l...
BIZANCIO. EVOLUCIÓN HISTORICA, RAGOS POLÍTICOS, ECONOMICOS Y SOCIALES
Como usar el Cerebro en las Aulas SG2 NARCEA Ccesa007.pdf
KOF-2022-espanol-mar-27-11-36 coke.pdf tv
Ficha de Atencion a Padres de Familia IE Ccesa007.pdf
La Inteligencia Emocional - Fabian Goleman TE4 Ccesa007.pdf
RM2025 - FUNDAMENTOS TEÓRICOS - PEDIATRÍA.pdf
Estadística Aplicada a la Psicología y Ciencias de la Salud Ccesa.pdf
TEXTO DE TRABAJO DE EDUCACION RELIGIOSA - CUARTO GRADO.docx
Lo que hacen los Mejores Profesores de la Universidad - Ken Bain Ccesa007.pdf
Introduccion a la Investigacion Cualitativa FLICK Ccesa007.pdf
ACERTIJO EL CONJURO DEL CAZAFANTASMAS MATEMÁTICO. Por JAVIER SOLIS NOYOLA
TALLER DE ESTADISTICA BASICA para principiantes y no tan basicos
LIBRO 2-SALUD Y AMBIENTE-4TO CEBA avanzado.pdf
Mi Primer Millon - Poissant - Godefroy Ccesa007.pdf

Minería y visualización de texto

  • 1. MINERÍA Y VISUALIZACIÓN DE TEXTOEdwin Fabián Maza S.Estudiante de la UTPLISUMMIT 2010
  • 2. INTRODUCCIÓNEn la actualidad se busca analizar el texto existente en todo su ámbito y para ello se requiere de procedimientos automáticos para: extraer los temas, determinar en el texto la localización de las rupturas, visualizar la proximidad entre documentos y/o entre términos, indexar los documentos, construir bases de documentos para una interrogación automática a lo posterior.
  • 3. Búsqueda de información VS Extracción de informaciónBúsqueda de información: Es un tratamiento global de un gran nuero de documentos, búsqueda de temas, construcción de una tipología de los documentos.Extracción de información: consiste en la búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base).
  • 4. Tipos de textos analizadosLos tipos de textos analizados se pueden realizar entre:Encuestas de opiniónEncuestas de satisfacción de clientelaEntrevistas semi-abiertas en estudios de clientelaRevistas de prensaVigilia tecnológica: resúmenes de artículos contenidos en las bases científicas, patentes, entre otras.
  • 5. Métodos de análisisPara ello se pueden identificar dos puntos importantes como son:La codificación: se debe conocer como se codifica el corpus, esta transforma el corpus en una tabla que se puede analizar mediante métodos estadísticosLa distancia: el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre elementos (entrevistados, categorías de entrevistados, palabras, entre otros.)
  • 6. ¿Porquéesdificil?La minería de textos se ve compleja o difícil para su análisis debido a la conformación de:TítulosImágenesTablasGraficasTexto seguroEs difícil la visualización del texto como por ejemplo: la presencia de un objeto extraño se puede interpretar de varias formas como: alucinación, nave extraterrestre, platillo volador, OVNI
  • 7. Lingüística computacional y procesamiento de textosEsta ciencia ha ayudado para tratar de aplicar métodos computacionales en el estudio del lenguaje natural. Por lo que es ha combinado dos importantes ciencias, la lingüística que el estudio de leyes del lenguaje humano, y la inteligencia artificial que investiga métodos computacionales para el manejo de sistemas complejos.
  • 8. La solución tradicional de este problema consiste en construir un procesador lingüístico construido por diferentes módulos independientes.
  • 9. Tipos de minería de textos Web (Web Mining)La Web Mining nos ayuda a descubrir información, encontrar documentados relacionados, mostrar temáticas, averiguar el grado de satisfacción de recursos web, etc. Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos.
  • 10. Tipos de minería de textos Web (Web Mining)Web contentmining (minería de contenido web)Web structuremining (minería de estructura web)Web usagemining (minería de uso web)
  • 11. HERRAMIENTAS DE MINERÍA DE TEXTOWekaRapidMinerLenguaje RPentahoGATEBases de datos de artículos técnicos.biotechmedlinechemicalabstractregistry
  • 12. REFERENCIAS[1] Minería de Textos Web Recuperación y organización de la información Disponible en http://mineria-textos-web.awardspace.com/[2] Explotación minera del texto Disponible en http://enciclopediaespana.com/Explotación_minera_del_texto.html[3] Explotación minera del texto http://www.worldlingo.com/ma/enwiki/es/Text_mining[4] Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica BécueBertaut[5] Minería de texto: Un nuevo reto computacional Manuel Montes-y-Gómez Centro de Investigación en Computación, Instituto Politécnico Nacional.