SlideShare una empresa de Scribd logo
Minería de Datos Integrantes del Equipo: Cerón Reyes María de los Ángeles Gómez Díaz Haydeé Bases de Datos Junio 2010
Introducción Día a día generamos información y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el  generar información, nos puede ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos.
¿Qué es Minería de Datos? - La extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de datos.   (1) La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (2)
Proceso de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son: 1. La Determinación de los Objetivos. Trata sobre la delimitación de los objetivos que el cliente desea  2. Pre procesamiento de los Datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y transformación de las bases de datos.
Determinación del Modelo. Se comienza realizando unos análisis estadísticos de los datos y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación.  Según los objetivos planteados y la tarea que debe llevarse a cabo son los algoritmos a utilizarse. 4.  Análisis de los Resultados. Verifica si los resultados obtenidos son coherentes con los obtenidos por el análisis y la visualización gráfica. Y el cliente determina si le aporta nuevos conocimientos que le permita la toma de decisiones. Proceso de Minería de Datos
Principales Características de MD Explorar los datos que se encuentran en las profundidades de las bases de datos, o almacenes de datos, que algunas veces contienen información  almacenada durante varios años. •  El entorno de la minería de datos suele tener una arquitectura cliente-servidor. •  Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos  archivados. •  Las herramientas de la minería de datos se combinan fácilmente y pueden  analizarse y procesarse rápidamente. •  La minería de datos produce cinco tipos de información: —  Asociaciones. —  Secuencias. —  Clasificaciones. —  Agrupamientos. —  Pronósticos.
Aplicaciones de Minería de Datos
¿Qué es el proceso de KDD? Extracción de Conocimiento en Bases de Datos Es la extracción automatizada de conocimiento o patrones interesantes, no triviales, implícitos, previamente desconocidos, potencialmente útiles y predictivos de la información de grandes Bases de Datos.(3) El proceso de KDD consiste en usar métodos de minería de datos(algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con preprocesamientos  y post-procesamientos.
Fases del KDD
Fases del KDD Determinar las fuentes de información . Diseñar el esquema de un almacén de datos (Data Warehouse): que consiga unificar de manera operativa toda la información recogida. Implantación del almacén de datos: que permita la navegación y visualización previa de sus datos, para decidir qué aspectos puede interesar que sean estudiados.  •  Selección, limpieza y transformación de los datos que se van a analizar: la selección incluye tanto una división o fusión horizontal (filas) como vertical (atributos).La limpieza y prepocesamiento de datos se logra diseñando una estrategia adecuada para manejar errores, valores incompletos, secuencias de tiempo, etc. Seleccionar y aplicar el método de minería de datos apropiado: esto incluye la selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento o clustering, regresión, etc. La transformación de los datos al formato requerido por el algoritmo específico de minería de datos.
Fases del KDD Evaluación, interpretación, transformación y representación de los patrones  extraídos, i nterpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias.  Difusión y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema lo cual puede incluir resolver conflictos  existentes.  El conocimiento se obtiene para realizar acciones o la toma de decisiones.
TÉCNICAS DE DATA MINING IMPLANTAR MODELO DE DATA MINING DATOS PROBLEMAS Estadística  o Inteligencia Artificial ALGORITMOS No estático
Con el modelado se construye un modelo en una situación donde se conoce la respuesta y luego se aplica en otra situación de la cual se desconoce la respuesta.
CLASIFICACION DE ALGORITMOS DE MINERIA DE DATOS
Descripción Normalmente esta técnica es usada para análisis preliminar de los datos (resumen, características de los datos,  etc.).  Describir un comportamiento en una base de datos compleja para aumentar el conocimiento y entendimiento sobre gente, productos, procesos etc.  (–Visualización – Diferenciación) Establecer que las mujeres presentan menor siniestralidad en seguros de automóvil que los hombres •  Identificar las características de personas que apoya uno u otro partido político
Ejemplo ‏ Gestión de personal de una empresa: ¿Qué clases de empleados hay contratados? Datos: Modelo generado: Minería de datos Grupo 1 : Sin niños y en una casa alquilada. Bajo número de uniones. Muchos días enfermos Grupo 2 : Sin niños y con coche. Alto número de uniones. Pocos días enfermos. Más mujeres y en una casa alquilada Grupo 3 : Con niños, casados y con coche. Más hombres y normalmente propietarios de casa. Bajo número de uniones
Predicción ALGORITMOS DE MINERIA DE DATOS
Árboles de decisión SE SELECCIONA EL NODO RAIZ Y ESTE SE DIVIDE DE ACUERDO A LOS VALORES DEL ATRIBUTO RAIZ
> $5000   <=$5000 M  F   >35  <= 35 0  Casado  Soltera  F  M  >=4  >4 0  1  0  1  0  1 If (Ingreso=>5000  AND Genero=F AND Estado = Soltera  Then  P(Coche)=1  Representan reglas donde atributos independientes determinan los valores finales. En estos árboles cada nodo representa una propiedad que puede tomar diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones finales.  Nos pueden servir para tareas como: Clasificación en general y validaciones  Usadas donde se deben tomar decisiones a partir de varias alternativas Son útiles en problemas de alta dimensionalidad y pequeño numero de valores para cada atributo.  Modelo predictivo generado Árboles de decisión Ingreso Ingreso Genero Edad Genero Antigüedad
Árboles de decisión
Árboles de decisión Agente comercial: ¿Debo conceder una hipoteca a un cliente? Datos: Modelo generado: Minería de datos If  Defaulter-accounts > 0  then  Returns-credit = no If  Defaulter-accounts = 0  and  [(Salary > 2500)  or  (Credit-p > 10)]  then  Returns-credit = yes
Ejemplo ‏ Tienda de TV: ¿Cuántas televisiones planas se venderán el próximo mes? Datos:  Modelo generado: Minería de datos Modelo lineal : número de televisiones para el próximo mes V(month) flatTV  = 0.62 V(Month-1) flat-TV  + 0.33 V(Month-2) flat-TV  + 0.12 V(Month-1) DVD-Recorder  – 0.05
Exploración ALGORITMOS DE MINERIA DE DATOS
Neural Network (Redes neuronales) Al igual que los árboles de decisión, este algoritmo también resuelve problemas de clasificación y regresión. Puede ser adecuado para detectar patrones no lineales, difícilmente descriptibles por medio de reglas.  Se usa como alternativa al algoritmo de arboles de decisión Nos pueden servir para tareas como:  Las mismas tareas que los árboles de decisión. Regresiones (similar a la clasificación, pero predice una magnitud continua). Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen, procesamiento de lenguaje natural, predicción y optimización.
Segmentación Separación de los datos en subgrupos o clases interesantes  Se usan algoritmos de clustering, SOM(sef-organización), EM(expectation maximización), K-means etc. Sirve sobre todo para buscar elementos afines dentro de un conjunto.  Por ejemplo, podemos usarlo para saber que en una población hay hombres y mujeres jóvenes solteros,  hombres mayores solteros, hombres y mujeres mayores casados... pero no mujeres mayores solteras. Nos puede servir para: Segmentar un mercado. Validaciones (las entradas que no pertenecen a un cluster,  pueden ser &quot;outliners&quot; o elementos anómalos). ALGORITMOS DE MINERIA DE DATOS
Algoritmo de Naive Bayes Este algoritmo busca correlaciones entre atributos y pertenece a la clasificación de dependencias .  Cuando no tenemos muy claro qué atributo se puede predecir en función de otros, una técnica muy habitual es tratar de utilizar el algoritmo de Naive Bayes tratando de predecir el valor de todos los atributos en función de todos los atributos (un &quot;todos contra todos&quot;).  El resultado de esta  correlaciones suele ser un modelo en el que tenemos más o menos claro qué vamos a poder predecir en esos datos. Ventaja:  se entrena muy rápido Desventaja: No es muy preciso.  Se usa para:  Exploración inicial de los dato ALGORITMOS DE MINERIA DE DATOS
Análisis de Canasta  (Market Basket Analysis) Reglas de Asociación
Análisis de Canasta  Ejemplo  Un ejemplo tradicional de minería de datos es el relacionado con una búsqueda en una bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del proceso se dio como resultado la siguiente: Si edad < 35;  y sexo = masculino;  y dia = jueves  entonces compras incluyen  pañales;  y cerveza  Esto sirvió para que empresa tomara medidas relacionada con la ubicación de ciertos productos en sitios comunes.
Análisis de Canasta (Market Basket Analysis) Los hábitos de compra de los clientes pueden ser representados a través de asociaciones o correlaciones entre los diferentes productos que compran en sus “canastas”. Cliente 1: Arroz, puré, bebida Cliente 2: Arroz, helado, pan Cliente 1: Arroz, bebida, cerveza
Análisis de Canasta: Indicadores
Análisis de Canasta: Indicadores Confiabilidad (confidence ) :  Indica el porcentaje de transacciones que llevan el antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el antecedente. Ejemplo:  {arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Confianza (cerveza   puré)= 1/2=50% Esta relación señala el vínculo entre ambos productos (probabilidad condicional). Pero, qué pasa en el siguiente caso: Confianza(helado   arroz)=1/1= 100% ¿Quiere decir que hay una fuerte relación entre estos productos?
Análisis de Canasta: Indicadores Ganancia (gain or Improvement ) :  puntaje que representa el aumento en la probabilidad de selección del consecuente, al ser comprado en conjunto con el antecedente. Ganancia (A  B)=Confianza(A  B)/Importancia Relativa(B) Ejemplo:  {arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Ganancia(helado   arroz)=1/1= 1 Ganancia(bebida   puré)=0,5/0,3= 1,5 Con estos indicadores podemos entender las relaciones entre clientes
Ejemplo Supermercado: ¿Cuándo los clientes compran huevos, también compran aceite? Datos: Modelo generado: Minería de datos Eggs -> Oil: Confianza = 75%, Soporte = 37%
Las relaciones entre productos permiten apoyar decisiones como: Armado de Pack’s (Consulta de Canasta) Entre 2 productos de alta rotación de distintas categorías pero del mismo proveedor + un producto de baja rotación y alto margen. Entre 2 productos de alta rotación de categorías y proveedores distintos + un producto de baja rotación y alto margen. Descuentos: Políticas agresivas para productos que se venden juntos, con alta confiabilidad Relaciones entre proveedores y sus productos Identificación de preferencias y gustos de los clientes Reforzar esas preferencias Incentivar a otros clientes a tomar estas preferencias Se encuentran relaciones entre productos de distintas categorías por ejemplo: Detergente con Yogurt, Detergente con Leche o Yogurt con Mayonesa Anticipar cambios en las preferencias de los clientes y actuar oportunamente Aumento en las ventas de la cadena Beneficios para el Supermercado :
Herramientas de software Existen muchas herramientas de software para el desarrollo de modelos de minería de datos tanto libres como comerciales como, por ejemplo: KNIME SPSS Clementine (software) SAS Enterprise Miner RapidMiner Weka KXEN Orange
Herramienta Weka La Weka ( Gallirallus australis) es un ave originaria de Nueva Zelanda. Esta Gallinácea en peligro  de extinción es famosa por su curiosidad y agresividad. De aspecto pardo y tamaño similar a una gallina, las wekas se alimentan fundamentalmente de insectos y frutos. Weka es un software programado en Java que est á  orientado a la extracci ó n de conocimientos desde bases de datos con grandes cantidades de informaci ó n.
Herramienta Weka Características principales de Weka: Está disponible libremente bajo la  licencia pública General de GNU. Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma.  Contiene una extensa colección de técnicas para preprocesamiento de datos y modelado.  Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.
Herramienta Weka
Herramienta Weka
Referencias (1)http://www.daedalus.es/mineria-de-datos/ (2)(Molina y otros, 2001) - (3)http://www.monografias.com/trabajos55/mineria-de-datos/mineria-de-datos.shtm -(4)http://www.uccor.edu.ar/paginas/seminarios/Cursos/DM-Medicine/Clase1-FIUNER.pdf -(5)http://www.microsoft.com/business/smb/es-es/tecnologia/data_mining.mspx  -(6) http://www.tecnicas.com/conceptos/data-mining/metodos.aspx -(7)http://www.scielo.org.co/scielo.php?pid=S0120-56092009000100008&script=sci_arttext -(8)http://www.youtube.com/watch?v=-aPU13W7Xvw&NR=1&feature=fvwp -(9)http://www.youtube.com/watch?v=CBLRKqHoAIs&NR=1 http://ccc.inaoep.mx/~emorales/Cursos/KDD03/node7.html
Preguntas
Gracias!!!!

Más contenido relacionado

DOCX
Mineria de datos
PDF
Minería de datos
PPTX
Machine Learning.pptx
PDF
Integridad Y Seguridad En Las Bases De Datos
PPT
Modelo de datos
PPTX
Presentacion data mining (mineria de datos)- base de datos
DOCX
Metodologías para el desarrollo de sistemas
PPTX
Proyecto De Base De Datos
Mineria de datos
Minería de datos
Machine Learning.pptx
Integridad Y Seguridad En Las Bases De Datos
Modelo de datos
Presentacion data mining (mineria de datos)- base de datos
Metodologías para el desarrollo de sistemas
Proyecto De Base De Datos

La actualidad más candente (20)

PPT
Redes Neuronales
DOCX
Bases de datos distribuidas heterogéneas
PPTX
Tipos sistemas de información
DOCX
Instalacion de un (SGBD)sistema gestor de base de datos.
PDF
Historia delas bases de datos orientada a objetos.
PPTX
Tecnicas de busqueda en inteligencia artificial
PPTX
Reglas de Codd
PPTX
Cuadro comparativo de herramientas de control de calidad
PPTX
Software caja negra y caja blanca
PPTX
Técnicas de minería de datos
PPTX
Arquitectura de Bases de Datos Oracle
PPTX
Sistema Operativo Distribuido
PPTX
Componentes de sgbd
PDF
Politicas de Seguridad Informática
PPT
Sistemas de Gestión de Bases de datos
PPTX
Presentación Modelo de Datos
PPSX
Sistemas De Información Gerencial
PDF
Diccionario de datos en los sistemas de información
PDF
DB1 Unidad 7: Desnormalizacion
DOCX
Benchmarking unidad v
Redes Neuronales
Bases de datos distribuidas heterogéneas
Tipos sistemas de información
Instalacion de un (SGBD)sistema gestor de base de datos.
Historia delas bases de datos orientada a objetos.
Tecnicas de busqueda en inteligencia artificial
Reglas de Codd
Cuadro comparativo de herramientas de control de calidad
Software caja negra y caja blanca
Técnicas de minería de datos
Arquitectura de Bases de Datos Oracle
Sistema Operativo Distribuido
Componentes de sgbd
Politicas de Seguridad Informática
Sistemas de Gestión de Bases de datos
Presentación Modelo de Datos
Sistemas De Información Gerencial
Diccionario de datos en los sistemas de información
DB1 Unidad 7: Desnormalizacion
Benchmarking unidad v
Publicidad

Similar a Mineria de Datos (20)

PDF
Mineria y modelado de datos
PPTX
Big data & data mining
PDF
Semana 8 - Mineria de Datos - Proceso KDD
PDF
Minería de datos
PDF
MINERIA DE DATOS enfocado a ml cun 2024.pdf
PDF
Introducción al Data Mining
PPTX
Mineria de datos
PPTX
Exposicion mineria de datos - Franklin Rodríguez
PDF
Mineria de datos
DOCX
Conceptos de minería de datos
PPTX
1.2.1 Metodologías orientadas a datos.pptx
PPT
Introduccion a mineria de datos
PPT
MD: Clase9
PDF
SEMANA4_APUNTE_S4.pdf
PPT
Data Mining Snoop Consulting Arg
DOC
Marisela labrador
PPT
Inteligencia de Negocios
PPTX
Mineria de datos
PDF
aplicaciones de minería de datos
Mineria y modelado de datos
Big data & data mining
Semana 8 - Mineria de Datos - Proceso KDD
Minería de datos
MINERIA DE DATOS enfocado a ml cun 2024.pdf
Introducción al Data Mining
Mineria de datos
Exposicion mineria de datos - Franklin Rodríguez
Mineria de datos
Conceptos de minería de datos
1.2.1 Metodologías orientadas a datos.pptx
Introduccion a mineria de datos
MD: Clase9
SEMANA4_APUNTE_S4.pdf
Data Mining Snoop Consulting Arg
Marisela labrador
Inteligencia de Negocios
Mineria de datos
aplicaciones de minería de datos
Publicidad

Último (20)

PPTX
Administración se srevidores de apliaciones
PPTX
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPTX
Presentación de Redes de Datos modelo osi
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PDF
Aristoteles-y-su-forma-de-entender-el-conocimiento-y-las-personas.pdf
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PDF
SAP Transportation Management para LSP, TM140 Col18
PDF
ACTIVIDAD 2.pdf j
PPT
Que son las redes de computadores y sus partes
PDF
La electricidad y la electrónica .pdf n
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
DOCX
Trabajo colaborativo Grupo #2.docxmkkkkkkl
PDF
Maste clas de estructura metálica y arquitectura
PDF
diagrama de pareto.pdf valerie giraldo diaz
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PPTX
Yogurt de tocosh (1).pptx preparacion receta
PDF
Temas y subtemas de las fichas 1 y 2.pdf
PPTX
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
Administración se srevidores de apliaciones
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
Presentación de Redes de Datos modelo osi
historia_web de la creacion de un navegador_presentacion.pptx
Aristoteles-y-su-forma-de-entender-el-conocimiento-y-las-personas.pdf
Presentación PASANTIAS AuditorioOO..pptx
SAP Transportation Management para LSP, TM140 Col18
ACTIVIDAD 2.pdf j
Que son las redes de computadores y sus partes
La electricidad y la electrónica .pdf n
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
Zarate Quispe Alex aldayir aplicaciones de internet .docx
Trabajo colaborativo Grupo #2.docxmkkkkkkl
Maste clas de estructura metálica y arquitectura
diagrama de pareto.pdf valerie giraldo diaz
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
Yogurt de tocosh (1).pptx preparacion receta
Temas y subtemas de las fichas 1 y 2.pdf
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx

Mineria de Datos

  • 1. Minería de Datos Integrantes del Equipo: Cerón Reyes María de los Ángeles Gómez Díaz Haydeé Bases de Datos Junio 2010
  • 2. Introducción Día a día generamos información y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el generar información, nos puede ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos.
  • 3. ¿Qué es Minería de Datos? - La extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de datos. (1) La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (2)
  • 4. Proceso de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son: 1. La Determinación de los Objetivos. Trata sobre la delimitación de los objetivos que el cliente desea 2. Pre procesamiento de los Datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y transformación de las bases de datos.
  • 5. Determinación del Modelo. Se comienza realizando unos análisis estadísticos de los datos y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo son los algoritmos a utilizarse. 4. Análisis de los Resultados. Verifica si los resultados obtenidos son coherentes con los obtenidos por el análisis y la visualización gráfica. Y el cliente determina si le aporta nuevos conocimientos que le permita la toma de decisiones. Proceso de Minería de Datos
  • 6. Principales Características de MD Explorar los datos que se encuentran en las profundidades de las bases de datos, o almacenes de datos, que algunas veces contienen información almacenada durante varios años. • El entorno de la minería de datos suele tener una arquitectura cliente-servidor. • Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos archivados. • Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. • La minería de datos produce cinco tipos de información: — Asociaciones. — Secuencias. — Clasificaciones. — Agrupamientos. — Pronósticos.
  • 8. ¿Qué es el proceso de KDD? Extracción de Conocimiento en Bases de Datos Es la extracción automatizada de conocimiento o patrones interesantes, no triviales, implícitos, previamente desconocidos, potencialmente útiles y predictivos de la información de grandes Bases de Datos.(3) El proceso de KDD consiste en usar métodos de minería de datos(algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con preprocesamientos y post-procesamientos.
  • 10. Fases del KDD Determinar las fuentes de información . Diseñar el esquema de un almacén de datos (Data Warehouse): que consiga unificar de manera operativa toda la información recogida. Implantación del almacén de datos: que permita la navegación y visualización previa de sus datos, para decidir qué aspectos puede interesar que sean estudiados. • Selección, limpieza y transformación de los datos que se van a analizar: la selección incluye tanto una división o fusión horizontal (filas) como vertical (atributos).La limpieza y prepocesamiento de datos se logra diseñando una estrategia adecuada para manejar errores, valores incompletos, secuencias de tiempo, etc. Seleccionar y aplicar el método de minería de datos apropiado: esto incluye la selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento o clustering, regresión, etc. La transformación de los datos al formato requerido por el algoritmo específico de minería de datos.
  • 11. Fases del KDD Evaluación, interpretación, transformación y representación de los patrones extraídos, i nterpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. Difusión y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema lo cual puede incluir resolver conflictos existentes. El conocimiento se obtiene para realizar acciones o la toma de decisiones.
  • 12. TÉCNICAS DE DATA MINING IMPLANTAR MODELO DE DATA MINING DATOS PROBLEMAS Estadística o Inteligencia Artificial ALGORITMOS No estático
  • 13. Con el modelado se construye un modelo en una situación donde se conoce la respuesta y luego se aplica en otra situación de la cual se desconoce la respuesta.
  • 14. CLASIFICACION DE ALGORITMOS DE MINERIA DE DATOS
  • 15. Descripción Normalmente esta técnica es usada para análisis preliminar de los datos (resumen, características de los datos, etc.). Describir un comportamiento en una base de datos compleja para aumentar el conocimiento y entendimiento sobre gente, productos, procesos etc. (–Visualización – Diferenciación) Establecer que las mujeres presentan menor siniestralidad en seguros de automóvil que los hombres • Identificar las características de personas que apoya uno u otro partido político
  • 16. Ejemplo ‏ Gestión de personal de una empresa: ¿Qué clases de empleados hay contratados? Datos: Modelo generado: Minería de datos Grupo 1 : Sin niños y en una casa alquilada. Bajo número de uniones. Muchos días enfermos Grupo 2 : Sin niños y con coche. Alto número de uniones. Pocos días enfermos. Más mujeres y en una casa alquilada Grupo 3 : Con niños, casados y con coche. Más hombres y normalmente propietarios de casa. Bajo número de uniones
  • 17. Predicción ALGORITMOS DE MINERIA DE DATOS
  • 18. Árboles de decisión SE SELECCIONA EL NODO RAIZ Y ESTE SE DIVIDE DE ACUERDO A LOS VALORES DEL ATRIBUTO RAIZ
  • 19. > $5000 <=$5000 M F >35 <= 35 0 Casado Soltera F M >=4 >4 0 1 0 1 0 1 If (Ingreso=>5000 AND Genero=F AND Estado = Soltera Then P(Coche)=1 Representan reglas donde atributos independientes determinan los valores finales. En estos árboles cada nodo representa una propiedad que puede tomar diversos valores, cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones finales. Nos pueden servir para tareas como: Clasificación en general y validaciones Usadas donde se deben tomar decisiones a partir de varias alternativas Son útiles en problemas de alta dimensionalidad y pequeño numero de valores para cada atributo. Modelo predictivo generado Árboles de decisión Ingreso Ingreso Genero Edad Genero Antigüedad
  • 21. Árboles de decisión Agente comercial: ¿Debo conceder una hipoteca a un cliente? Datos: Modelo generado: Minería de datos If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
  • 22. Ejemplo ‏ Tienda de TV: ¿Cuántas televisiones planas se venderán el próximo mes? Datos: Modelo generado: Minería de datos Modelo lineal : número de televisiones para el próximo mes V(month) flatTV = 0.62 V(Month-1) flat-TV + 0.33 V(Month-2) flat-TV + 0.12 V(Month-1) DVD-Recorder – 0.05
  • 23. Exploración ALGORITMOS DE MINERIA DE DATOS
  • 24. Neural Network (Redes neuronales) Al igual que los árboles de decisión, este algoritmo también resuelve problemas de clasificación y regresión. Puede ser adecuado para detectar patrones no lineales, difícilmente descriptibles por medio de reglas. Se usa como alternativa al algoritmo de arboles de decisión Nos pueden servir para tareas como: Las mismas tareas que los árboles de decisión. Regresiones (similar a la clasificación, pero predice una magnitud continua). Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen, procesamiento de lenguaje natural, predicción y optimización.
  • 25. Segmentación Separación de los datos en subgrupos o clases interesantes Se usan algoritmos de clustering, SOM(sef-organización), EM(expectation maximización), K-means etc. Sirve sobre todo para buscar elementos afines dentro de un conjunto. Por ejemplo, podemos usarlo para saber que en una población hay hombres y mujeres jóvenes solteros,  hombres mayores solteros, hombres y mujeres mayores casados... pero no mujeres mayores solteras. Nos puede servir para: Segmentar un mercado. Validaciones (las entradas que no pertenecen a un cluster, pueden ser &quot;outliners&quot; o elementos anómalos). ALGORITMOS DE MINERIA DE DATOS
  • 26. Algoritmo de Naive Bayes Este algoritmo busca correlaciones entre atributos y pertenece a la clasificación de dependencias . Cuando no tenemos muy claro qué atributo se puede predecir en función de otros, una técnica muy habitual es tratar de utilizar el algoritmo de Naive Bayes tratando de predecir el valor de todos los atributos en función de todos los atributos (un &quot;todos contra todos&quot;). El resultado de esta correlaciones suele ser un modelo en el que tenemos más o menos claro qué vamos a poder predecir en esos datos. Ventaja: se entrena muy rápido Desventaja: No es muy preciso. Se usa para: Exploración inicial de los dato ALGORITMOS DE MINERIA DE DATOS
  • 27. Análisis de Canasta (Market Basket Analysis) Reglas de Asociación
  • 28. Análisis de Canasta Ejemplo Un ejemplo tradicional de minería de datos es el relacionado con una búsqueda en una bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del proceso se dio como resultado la siguiente: Si edad < 35; y sexo = masculino; y dia = jueves entonces compras incluyen pañales; y cerveza Esto sirvió para que empresa tomara medidas relacionada con la ubicación de ciertos productos en sitios comunes.
  • 29. Análisis de Canasta (Market Basket Analysis) Los hábitos de compra de los clientes pueden ser representados a través de asociaciones o correlaciones entre los diferentes productos que compran en sus “canastas”. Cliente 1: Arroz, puré, bebida Cliente 2: Arroz, helado, pan Cliente 1: Arroz, bebida, cerveza
  • 30. Análisis de Canasta: Indicadores
  • 31. Análisis de Canasta: Indicadores Confiabilidad (confidence ) : Indica el porcentaje de transacciones que llevan el antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el antecedente. Ejemplo: {arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Confianza (cerveza  puré)= 1/2=50% Esta relación señala el vínculo entre ambos productos (probabilidad condicional). Pero, qué pasa en el siguiente caso: Confianza(helado  arroz)=1/1= 100% ¿Quiere decir que hay una fuerte relación entre estos productos?
  • 32. Análisis de Canasta: Indicadores Ganancia (gain or Improvement ) : puntaje que representa el aumento en la probabilidad de selección del consecuente, al ser comprado en conjunto con el antecedente. Ganancia (A  B)=Confianza(A  B)/Importancia Relativa(B) Ejemplo: {arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Ganancia(helado  arroz)=1/1= 1 Ganancia(bebida  puré)=0,5/0,3= 1,5 Con estos indicadores podemos entender las relaciones entre clientes
  • 33. Ejemplo Supermercado: ¿Cuándo los clientes compran huevos, también compran aceite? Datos: Modelo generado: Minería de datos Eggs -> Oil: Confianza = 75%, Soporte = 37%
  • 34. Las relaciones entre productos permiten apoyar decisiones como: Armado de Pack’s (Consulta de Canasta) Entre 2 productos de alta rotación de distintas categorías pero del mismo proveedor + un producto de baja rotación y alto margen. Entre 2 productos de alta rotación de categorías y proveedores distintos + un producto de baja rotación y alto margen. Descuentos: Políticas agresivas para productos que se venden juntos, con alta confiabilidad Relaciones entre proveedores y sus productos Identificación de preferencias y gustos de los clientes Reforzar esas preferencias Incentivar a otros clientes a tomar estas preferencias Se encuentran relaciones entre productos de distintas categorías por ejemplo: Detergente con Yogurt, Detergente con Leche o Yogurt con Mayonesa Anticipar cambios en las preferencias de los clientes y actuar oportunamente Aumento en las ventas de la cadena Beneficios para el Supermercado :
  • 35. Herramientas de software Existen muchas herramientas de software para el desarrollo de modelos de minería de datos tanto libres como comerciales como, por ejemplo: KNIME SPSS Clementine (software) SAS Enterprise Miner RapidMiner Weka KXEN Orange
  • 36. Herramienta Weka La Weka ( Gallirallus australis) es un ave originaria de Nueva Zelanda. Esta Gallinácea en peligro de extinción es famosa por su curiosidad y agresividad. De aspecto pardo y tamaño similar a una gallina, las wekas se alimentan fundamentalmente de insectos y frutos. Weka es un software programado en Java que est á orientado a la extracci ó n de conocimientos desde bases de datos con grandes cantidades de informaci ó n.
  • 37. Herramienta Weka Características principales de Weka: Está disponible libremente bajo la licencia pública General de GNU. Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma. Contiene una extensa colección de técnicas para preprocesamiento de datos y modelado. Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.
  • 40. Referencias (1)http://www.daedalus.es/mineria-de-datos/ (2)(Molina y otros, 2001) - (3)http://www.monografias.com/trabajos55/mineria-de-datos/mineria-de-datos.shtm -(4)http://www.uccor.edu.ar/paginas/seminarios/Cursos/DM-Medicine/Clase1-FIUNER.pdf -(5)http://www.microsoft.com/business/smb/es-es/tecnologia/data_mining.mspx -(6) http://www.tecnicas.com/conceptos/data-mining/metodos.aspx -(7)http://www.scielo.org.co/scielo.php?pid=S0120-56092009000100008&script=sci_arttext -(8)http://www.youtube.com/watch?v=-aPU13W7Xvw&NR=1&feature=fvwp -(9)http://www.youtube.com/watch?v=CBLRKqHoAIs&NR=1 http://ccc.inaoep.mx/~emorales/Cursos/KDD03/node7.html