SlideShare una empresa de Scribd logo
Minería de datos y de textos Dr. Jesús Tramullas Dpto. CC. de la Documentación
Planteamiento Existen ingentes volúmenes de información estructurada, sobre actividades de todo tipo desarrolladas a lo largo de periodos de tiempo En esta información acumulada podrían rastrearse asociaciones y patrones no apreciables directamente Es necesario aplicar técnicas matemáticas con plataformas informáticas para poder identificar las posibles relaciones Estas relaciones pueden mostrar formas de conocimiento derivadas del dominio que haya sido objeto de tratamiento
Problemas El análisis manual de datos es caro, consume muchos recursos en especialistas, dinero y tiempo Necesidad de formular hipótesis, probar, y ajustar, y volver a probar Necesidad de tomar en consideración un número cada vez mayor de parámetros, y de las relaciones existentes entre ellos El análisis estadístico tipo OLAP (On Line Analytic Proccesing) debe completarse con otras técnicas para patrones y búsquedas
Definición Proceso no trivial de identificar patrones válidos, nuevos, útiles y comprensibles en los datos Actualmente se prefiere hablar de  Knowledge Discovery  (descubrimiento de conocimiento), entendiendo que conocimiento es una verdad sobre un dominio, representado mediante un lenguaje formal. KDD:  Knowledge Discovery in Databases Se trata del proceso completo, de todas las fases, necesarias para encontrar el conocimiento oculto en los datos. La minería de datos definiría a la parte central del proceso global
Aplicaciones En todos los dominios posibles KDD es útil cuando muchas dimensiones son relevantes al problema planteado, y cuando deben estudiarse muchos subgrupos Cinco propósitos principales: predicción, descripción, explicación, optimización y exploración
El proceso de KDD Iniciativa CRISP-DM,  CRoss-Industry Standard Process for Data Mining : Comprensión del negocio Comprensión de los datos Preparación de los datos Modelado Evaluación Deployment
Fases, 1 Comprensión del negocio: determinar los objetivos del negocio y la situación del mismo, establecer los objetivos del proceso de KDD. Comprensión de los datos: recopilación inicial de datos, descripción de las propiedades de los datos, exploración de datos y verificación de calidad Preparación de los datos: selección de datos, limpieza, construcción de nuevos datos, integración y formato definitivo
Fases, 2 Modelado: selección de técnica de modelado, diseño del test, construcción del modelo, assess del modelo Evaluación: evaluación del resultado, de acuerdo con los objetivos del negocio, revisión de resultados, nuevas fases Deployment: estrategia de aplicación de resultados, plan de monitorización y control, informe final, revisión del proyecto
Tareas y métodos, 1 Clasificación: descubrimiento de árboles de decisión, reglas de decisión, clasificación bayesiana, aproximaciones de “vecino más próximo”, regresión, redes neuronales, clasificación multicriterio Descubrimiento de reglas: rought set, reglas características, de asociación, programación de lógica inductiva Descubrimiento de subgrupos: análisis de desviación, de cambio, métodos drill-down
Tareas y métodos, 2 Fitting de ecuaciones: buscadores de ecuaciones, análisis de regresión multidimensional Clustering: clustering numérico y clustering conceptual Redes probabilísticas y causales Análisis espacial Escalabilidad Métodos paralelos
Minería de textos Enormes volúmenes de información textual organizados en documentos, internamente poco estructurados Aplicación de la minería de datos /KDD Mayor volumen de parámetros y variables que en la información de datos Mayormente utilizada en la organización y clasificación del contenido de los espacios de información digital
Definición La minería de textos puede definirse como una forma especial de minería de datos, o KDD, que se aplica a grandes volúmenes de ficheros de texto no estructurado Su objetivo es analizar un texto o  los textos de una colección para seleccionar textos relevantes o extraer partes
Disciplinas relacionadas Lingüística computacional Extracción de información Lingüística estadística Recuperación de información Reconocimiento de patrones Reducción de features Clasificación Análisis cluster
Aplicaciones de la minería de texto Búsqueda de información: búsquedas más avanzadas, centradas en conceptos, ofrecer alternativas Extracción de información: ofrecer conceptos o frases de documentos para decidir la relevancia, o formar nuevos documentos Análisis de colecciones de texto: revisión de colecciones. Tareas de categorización (previas) y de clasificación/clustering (automática)
Minería del web Aplicación de las técnicas de minería a la información textual del web Detectar patrones de organización de información y de comportamiento de usuario: Análisis de logs Análisis de estructura hipertextual Clasificación de documentos Secuencias de navegación Trabajo en colaboración

Más contenido relacionado

PDF
Three Big Data Case Studies
PDF
CRISP-DM - Agile Approach To Data Mining Projects
PPTX
Modernize & Automate Analytics Data Pipelines
PPTX
Data Analytics
PPTX
Data Science Project Lifecycle and Skill Set
PDF
Data science - An Introduction
DOCX
Components of a Data-Warehouse
PDF
A Data Management Maturity Model Case Study
Three Big Data Case Studies
CRISP-DM - Agile Approach To Data Mining Projects
Modernize & Automate Analytics Data Pipelines
Data Analytics
Data Science Project Lifecycle and Skill Set
Data science - An Introduction
Components of a Data-Warehouse
A Data Management Maturity Model Case Study

La actualidad más candente (20)

PPTX
Data governance
PDF
Data Science - Part V - Decision Trees & Random Forests
PPTX
DATASCIENCE vs BUSINESS INTELLIGENCE.pptx
PPTX
Application statistics in software engineering
PPT
Data Architecture for Data Governance
PDF
Data Engineering
PDF
Analytics ROI Best Practices
PPTX
Building a Big Data Pipeline
PDF
Introduction to R Graphics with ggplot2
PPTX
SSAS Tabular model importance and uses
PPTX
decision tree regression
PPTX
Data mining concepts and work
PPT
Introduction to Data Mining
PPTX
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...
PDF
Data Architecture for Solutions.pdf
PPT
Big Data
PDF
Introduction to Data Governance
PPTX
Introduction of Data Science
PDF
DMBOK and Data Governance
PDF
Top 8 Data Science Tools | Open Source Tools for Data Scientists | Edureka
Data governance
Data Science - Part V - Decision Trees & Random Forests
DATASCIENCE vs BUSINESS INTELLIGENCE.pptx
Application statistics in software engineering
Data Architecture for Data Governance
Data Engineering
Analytics ROI Best Practices
Building a Big Data Pipeline
Introduction to R Graphics with ggplot2
SSAS Tabular model importance and uses
decision tree regression
Data mining concepts and work
Introduction to Data Mining
How Dell Used Neo4j Graph Database to Redesign Their Pricing-as-a-Service Pla...
Data Architecture for Solutions.pdf
Big Data
Introduction to Data Governance
Introduction of Data Science
DMBOK and Data Governance
Top 8 Data Science Tools | Open Source Tools for Data Scientists | Edureka
Publicidad

Destacado (20)

PPT
Mineria De Datos
PPT
Mineria de Datos
PPSX
Aplicación de aprendizaje automático en minería de datos
PPT
Componente de weka (mineria datos ing. software)
PPTX
Mineria de datos
PPTX
Mineria de Datos Parte I
PDF
Minería de Datos
PPT
OpenAnalytics - Minería de datos por Diego García (Unican)
PDF
Minería de datos
PDF
Presentación Minería de Datos
PPT
Minería de datos en redes sociales
PPTX
Minería de datos
PPT
Minería de datos Presentación
PDF
Minería de Datos: Qué significa realmente y ejemplos de utilización
PPTX
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
PPTX
Presentacion data mining (mineria de datos)- base de datos
PDF
Minería de datos
PPTX
Mineria de datos secuenciales
PPTX
Mineria de datos
PPTX
ASOCIASION
 
Mineria De Datos
Mineria de Datos
Aplicación de aprendizaje automático en minería de datos
Componente de weka (mineria datos ing. software)
Mineria de datos
Mineria de Datos Parte I
Minería de Datos
OpenAnalytics - Minería de datos por Diego García (Unican)
Minería de datos
Presentación Minería de Datos
Minería de datos en redes sociales
Minería de datos
Minería de datos Presentación
Minería de Datos: Qué significa realmente y ejemplos de utilización
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Presentacion data mining (mineria de datos)- base de datos
Minería de datos
Mineria de datos secuenciales
Mineria de datos
ASOCIASION
 
Publicidad

Similar a Minería de datos y textos (20)

PDF
ANÁLISIS DE DATOS (inteligencia de negocios).pdf
DOCX
Mineria de datos
PPTX
1.2.1 Metodologías orientadas a datos.pptx
PDF
Mineria de datos
PPT
kdd-y-tc3a9cnicas-de-minerc3ada-de-datos.ppt
PPT
Business Intelligence Tecnicas de metodología KDD
PDF
Introducción al Data Mining
DOC
Marisela labrador
DOCX
Mineria de datos ok
PPTX
3 Semana2 2024xxxxxxxxxxxxxxxxxxxxx.pptx
PDF
La minería de datos en el proceso de KDD
PPTX
Guías de Implementación tarea.pptx
PPTX
Session01.pptx
PDF
Mineria y modelado de datos
PDF
Inteligencia de los Negocios en la Empresa Moderna
PPTX
MIERCOLDSGDSGDSDZGSZAGSZDGASGDASGSDES.pptx
PDF
Minería de datos
ANÁLISIS DE DATOS (inteligencia de negocios).pdf
Mineria de datos
1.2.1 Metodologías orientadas a datos.pptx
Mineria de datos
kdd-y-tc3a9cnicas-de-minerc3ada-de-datos.ppt
Business Intelligence Tecnicas de metodología KDD
Introducción al Data Mining
Marisela labrador
Mineria de datos ok
3 Semana2 2024xxxxxxxxxxxxxxxxxxxxx.pptx
La minería de datos en el proceso de KDD
Guías de Implementación tarea.pptx
Session01.pptx
Mineria y modelado de datos
Inteligencia de los Negocios en la Empresa Moderna
MIERCOLDSGDSGDSDZGSZAGSZDGASGDASGSDES.pptx
Minería de datos

Más de Jesús Tramullas (20)

PDF
Temas y métodos de investigación en Ciencia de la Información
PDF
Breve panorama del relato de ciencia ficción español en la década de 1970
PPTX
El diseño de la herramienta.wiki.transficcion.eu
PDF
Lo que no se documenta no existe. Introducción a la elaboración de documentac...
PDF
No solo de software libre vive la cultura libre
PPTX
Organización y descripción de información en wikis semánticos: Wikibase, Sema...
PDF
Cámaras en las trincheras: la cobertura de los fotógrafos de la Guerra Civil ...
PDF
Nuestra imaginación es la que ve y no los ojos: Wikipedia y la memoria de la ...
PPTX
PPTX
Desarrollo de colecciones de patrimonio cultural en entornos colaborativos
PPTX
Análisis de tipos de descripción de fotografía antigua en Wikimedia Commons
PPTX
Perspectivas para la publicación académica en entornos digitales: colaborar p...
ODP
2. Introducción a la gestión de contenidos / Content Management 101
PPT
Wikipedia como herramienta para la elaboración de artículos de referencia par...
PPTX
Wikipedia Categories on Research: Towards a Qualitiative Review of Uses and A...
PPTX
Use of Wikipedia categories on information retrieval: a brief research
PPT
Cómo difundir los trabajos académicos
ODP
9. Software colaborativo
ODP
8. Bibliotecas digitales
ODP
7. Repositorios digitales
Temas y métodos de investigación en Ciencia de la Información
Breve panorama del relato de ciencia ficción español en la década de 1970
El diseño de la herramienta.wiki.transficcion.eu
Lo que no se documenta no existe. Introducción a la elaboración de documentac...
No solo de software libre vive la cultura libre
Organización y descripción de información en wikis semánticos: Wikibase, Sema...
Cámaras en las trincheras: la cobertura de los fotógrafos de la Guerra Civil ...
Nuestra imaginación es la que ve y no los ojos: Wikipedia y la memoria de la ...
Desarrollo de colecciones de patrimonio cultural en entornos colaborativos
Análisis de tipos de descripción de fotografía antigua en Wikimedia Commons
Perspectivas para la publicación académica en entornos digitales: colaborar p...
2. Introducción a la gestión de contenidos / Content Management 101
Wikipedia como herramienta para la elaboración de artículos de referencia par...
Wikipedia Categories on Research: Towards a Qualitiative Review of Uses and A...
Use of Wikipedia categories on information retrieval: a brief research
Cómo difundir los trabajos académicos
9. Software colaborativo
8. Bibliotecas digitales
7. Repositorios digitales

Último (20)

PPTX
Sesion 1 de microsoft power point - Clase 1
PPT
introduccion a las_web en el 2025_mejoras.ppt
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
PPTX
Propuesta BKP servidores con Acronis1.pptx
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PPTX
modulo seguimiento 1 para iniciantes del
PPTX
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
PPTX
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
PPTX
El uso de las TIC en la vida cotidiana..
PDF
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PDF
capacitación de aire acondicionado Bgh r 410
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PDF
Diapositiva proyecto de vida, materia catedra
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
Estrategia de Apoyo de Daylin Castaño (5).pdf
PPTX
Presentacion de Alba Curso Auditores Internos ISO 19011
PDF
CyberOps Associate - Cisco Networking Academy
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
Sesion 1 de microsoft power point - Clase 1
introduccion a las_web en el 2025_mejoras.ppt
Documental Beyond the Code (Dossier Presentación - 2.0)
Propuesta BKP servidores con Acronis1.pptx
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
modulo seguimiento 1 para iniciantes del
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
El uso de las TIC en la vida cotidiana..
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
capacitación de aire acondicionado Bgh r 410
Power Point Nicolás Carrasco (disertación Roblox).pptx
Diapositiva proyecto de vida, materia catedra
Influencia-del-uso-de-redes-sociales.pdf
Estrategia de Apoyo de Daylin Castaño (5).pdf
Presentacion de Alba Curso Auditores Internos ISO 19011
CyberOps Associate - Cisco Networking Academy
informe_fichas1y2_corregido.docx (2) (1).pdf

Minería de datos y textos

  • 1. Minería de datos y de textos Dr. Jesús Tramullas Dpto. CC. de la Documentación
  • 2. Planteamiento Existen ingentes volúmenes de información estructurada, sobre actividades de todo tipo desarrolladas a lo largo de periodos de tiempo En esta información acumulada podrían rastrearse asociaciones y patrones no apreciables directamente Es necesario aplicar técnicas matemáticas con plataformas informáticas para poder identificar las posibles relaciones Estas relaciones pueden mostrar formas de conocimiento derivadas del dominio que haya sido objeto de tratamiento
  • 3. Problemas El análisis manual de datos es caro, consume muchos recursos en especialistas, dinero y tiempo Necesidad de formular hipótesis, probar, y ajustar, y volver a probar Necesidad de tomar en consideración un número cada vez mayor de parámetros, y de las relaciones existentes entre ellos El análisis estadístico tipo OLAP (On Line Analytic Proccesing) debe completarse con otras técnicas para patrones y búsquedas
  • 4. Definición Proceso no trivial de identificar patrones válidos, nuevos, útiles y comprensibles en los datos Actualmente se prefiere hablar de Knowledge Discovery (descubrimiento de conocimiento), entendiendo que conocimiento es una verdad sobre un dominio, representado mediante un lenguaje formal. KDD: Knowledge Discovery in Databases Se trata del proceso completo, de todas las fases, necesarias para encontrar el conocimiento oculto en los datos. La minería de datos definiría a la parte central del proceso global
  • 5. Aplicaciones En todos los dominios posibles KDD es útil cuando muchas dimensiones son relevantes al problema planteado, y cuando deben estudiarse muchos subgrupos Cinco propósitos principales: predicción, descripción, explicación, optimización y exploración
  • 6. El proceso de KDD Iniciativa CRISP-DM, CRoss-Industry Standard Process for Data Mining : Comprensión del negocio Comprensión de los datos Preparación de los datos Modelado Evaluación Deployment
  • 7. Fases, 1 Comprensión del negocio: determinar los objetivos del negocio y la situación del mismo, establecer los objetivos del proceso de KDD. Comprensión de los datos: recopilación inicial de datos, descripción de las propiedades de los datos, exploración de datos y verificación de calidad Preparación de los datos: selección de datos, limpieza, construcción de nuevos datos, integración y formato definitivo
  • 8. Fases, 2 Modelado: selección de técnica de modelado, diseño del test, construcción del modelo, assess del modelo Evaluación: evaluación del resultado, de acuerdo con los objetivos del negocio, revisión de resultados, nuevas fases Deployment: estrategia de aplicación de resultados, plan de monitorización y control, informe final, revisión del proyecto
  • 9. Tareas y métodos, 1 Clasificación: descubrimiento de árboles de decisión, reglas de decisión, clasificación bayesiana, aproximaciones de “vecino más próximo”, regresión, redes neuronales, clasificación multicriterio Descubrimiento de reglas: rought set, reglas características, de asociación, programación de lógica inductiva Descubrimiento de subgrupos: análisis de desviación, de cambio, métodos drill-down
  • 10. Tareas y métodos, 2 Fitting de ecuaciones: buscadores de ecuaciones, análisis de regresión multidimensional Clustering: clustering numérico y clustering conceptual Redes probabilísticas y causales Análisis espacial Escalabilidad Métodos paralelos
  • 11. Minería de textos Enormes volúmenes de información textual organizados en documentos, internamente poco estructurados Aplicación de la minería de datos /KDD Mayor volumen de parámetros y variables que en la información de datos Mayormente utilizada en la organización y clasificación del contenido de los espacios de información digital
  • 12. Definición La minería de textos puede definirse como una forma especial de minería de datos, o KDD, que se aplica a grandes volúmenes de ficheros de texto no estructurado Su objetivo es analizar un texto o los textos de una colección para seleccionar textos relevantes o extraer partes
  • 13. Disciplinas relacionadas Lingüística computacional Extracción de información Lingüística estadística Recuperación de información Reconocimiento de patrones Reducción de features Clasificación Análisis cluster
  • 14. Aplicaciones de la minería de texto Búsqueda de información: búsquedas más avanzadas, centradas en conceptos, ofrecer alternativas Extracción de información: ofrecer conceptos o frases de documentos para decidir la relevancia, o formar nuevos documentos Análisis de colecciones de texto: revisión de colecciones. Tareas de categorización (previas) y de clasificación/clustering (automática)
  • 15. Minería del web Aplicación de las técnicas de minería a la información textual del web Detectar patrones de organización de información y de comportamiento de usuario: Análisis de logs Análisis de estructura hipertextual Clasificación de documentos Secuencias de navegación Trabajo en colaboración