SlideShare una empresa de Scribd logo
INTRODUCCIÓN PRÁCTICA A LA MINERÍA DE DATOS
WEKA Waikato Environment for Knowledge Analysis
Características Software Libre desarrollado en Java Técnicas: Preprocesado Clasificación  Agrupamiento Asociación Visualización
Opciones Explorer :   Es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis implementados sobre los ficheros de entrada, una ejecución independiente por cada prueba. Experimenter:  esta opción permite definir experimentos más complejos, con objeto de ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y comparar estadísticamente los resultados  Simple CLI: la interfaz "Command-Line :  Interfaz" es simplemente una ventana de comandos java para ejecutar las clases de WEKA KnowledgeFlow:  esta opción es una novedad de WEKA 3-4 que permite llevar a cabo las mismas acciones del "Explorer", con una configuración totalmente gráfica, inspirada en herramientas de tipo "data-flow" para seleccionar componentes y conectarlos en un proyecto de minería de datos
Weka Explorer
Open File Formato ARFF( Attribute-Relation File Format) Carga de los datos Archivos de Texto  Bases de Datos (JDBC) Dirección URL (Servidor
Formato ARFF Estructura del Archivo texto (extensión .arff) % comentarios @relation NOMBRE_RELACION @attribute r1 real @attribute i1 integer @attribute s1 {v1_s1, v2_s1,…vn_s1} … @data DATOS
Formato ARFF
Pre-procesado de los datos Esta es la primera parte por la que se debe pasar antes de realizar ninguna otra operación, ya que se precisan datos para poder llevar a cabo cualquier análisis. Filtros de atributos Filtros de selección  (remove) Filtros de discretización (Filtro Discretiza R (#atribut) Filtros de instancias Filtro AddExpression ( (a3^3.4)*a1+sqrt(floor(tan(a4)))
Pre-procesado de los datos Filtros de atributos
Visualización La herramienta de visualización de WEKA permite presentar gráficas 2D que relacionen pares de atributos, con la opción de utilizar además los colores para añadir información de un tercer atributo.
Clasificación Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuestro gusto, para ello pulsaremos sobre el botón  Choose dentro del área  Classifier.  Una vez pulsado se desplegará un árbol que nos permitirá seleccionar el clasificador deseado. Una vez seleccionado aparecerá, en la etiqueta contigua al botón  Choose,  el filtro seleccionado y los argumentos con los que se ejecutará. Esta información es muy útil si queremos utilizar el interfaz de consola ya que podremos configurar nuestro filtro con la interfaz y luego obtener el resultado apto para línea de mandato.
Clasificación la aplicación de algoritmos de clasificación a diferentes problemas de predicción de atributos definidos sobre los datos de entrada en este ejemplo.  El problema de clasificación siempre se realiza sobre un atributo simbólico , en el caso de utilizar un atributo numérico se precisa por tanto  discretizarlo  antes en intervalos que representarán los valores de clase. Clasificador “OneR”:  Este es uno de los clasificadores más sencillos y rápidos, aunque en ocasiones sus resultados son sorprendentemente buenos en comparación con algoritmos mucho más complejos. Simplemente selecciona el atributo que mejor “explica” la clase de salida. Si hay atributos numéricos, busca los umbrales para hacer reglas con mejor tasa de aciertos
Clasificación Clasificador como árbol de decisión: J48 El algoritmo J48 de WEKA es una implementación del algoritmo C4.5, uno de los algoritmos de minería de datos que más se ha utilizado en multitud de aplicaciones. No vamos a entrar en los detalles de todos los parámetros de configuración, dejándolo para el lector interesado en los detalles de este algoritmo, y únicamente resaltaremos uno de los más importantes, el factor de confianza para la poda, confidence level, puesto que influye notoriamente en el tamaño y capacidad de predicción del árbol construido.
Clasificación
Asociación Los algoritmos de asociación permiten la búsqueda automática de reglas que  relacionan conjuntos de atributos entre sí. Son algoritmos no supervisados, en el sentido de que no existen relaciones conocidas a priori con las que contrastar la validez de los resultados, sino que se evalúa si esas reglas son estadísticamente significativas.
Asociación El principal algoritmo de asociación implementado en WEKA es el algoritmo  "Apriori".  Este algoritmo  unicamente puede buscar reglas entre atributos simbólicos, razón por la que se requiere haber  d discretizado todos los atributos numéricos.
AGrupamiento La opción  Cluster del  Experimenter  nos permite aplicar algoritmos de agrupamiento de instancias a nuestros datos. Estos algoritmos buscan grupos de instancias con características "similares", según un criterio de comparación entre valores de atributos de las instancias definidos en los algoritmos discretizado todos los atributos numéricos.
AGrupamiento Agrupamiento numérico En primer lugar utilizaremos el algoritmo de agrupamiento K-medias, por ser uno de los más veloces y eficientes, si bien uno de los más limitados. Este algoritmo precisa únicamente del número de categorías similares en las que queremos dividir el conjunto de datos
KnowledgeFlow
Referencias DR. NICOLAS KEMPER VALVERDE Universidad Nacional Autónoma de México

Más contenido relacionado

PPSX
PDF
Tutorial weka
PDF
Ejercicio weka
PPTX
Weka (pentaho data mining)
PDF
Mineria de datos en weka
PPTX
Ejercicio En Weka
PPT
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...
PPT
Árboles de Decisión en Weka
Tutorial weka
Ejercicio weka
Weka (pentaho data mining)
Mineria de datos en weka
Ejercicio En Weka
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...
Árboles de Decisión en Weka

La actualidad más candente (20)

PPS
Aprendiendo a usar epi info
PPTX
Tutorial epiinfo introduccion_-_crear_vistas_-_carlos_ramirez
DOCX
Introducción a epi info
PPTX
Estadistica aplicada a la investigacion cientifica
DOC
Como utilizar epi info
PPTX
CONTROL JTABLE CON BASE DE DATOS
PPS
Aprendiendo A Usar Epi Info
PPTX
Definiciones basicas de spss
DOCX
PROCEDIMIENTOS ALMACNEADOS Y DISPARADORES - Informe de los videos
PPTX
Tarea del seminario 4
PPTX
Programa estadístico SPSS Equipo 2
PPTX
Programa estadístico SPSS Equipo 3
PPTX
Jtableconbasededatos
PPT
Curso Introductorio al SPSS
PPTX
Grupo N°14 Guanoluisa Johana
PPT
1 2 5 Modelando Clases
 
Aprendiendo a usar epi info
Tutorial epiinfo introduccion_-_crear_vistas_-_carlos_ramirez
Introducción a epi info
Estadistica aplicada a la investigacion cientifica
Como utilizar epi info
CONTROL JTABLE CON BASE DE DATOS
Aprendiendo A Usar Epi Info
Definiciones basicas de spss
PROCEDIMIENTOS ALMACNEADOS Y DISPARADORES - Informe de los videos
Tarea del seminario 4
Programa estadístico SPSS Equipo 2
Programa estadístico SPSS Equipo 3
Jtableconbasededatos
Curso Introductorio al SPSS
Grupo N°14 Guanoluisa Johana
1 2 5 Modelando Clases
 
Publicidad

Destacado (20)

PPTX
Mineria de Datos Parte I
PPSX
Aplicación de aprendizaje automático en minería de datos
PPTX
Mineria de Datos_parte V
PPT
Minería de datos y textos
PPTX
Mineria de datos
PDF
Minería de Datos
PPTX
Open Analytics - Minería de Datos con Knime
PPT
OpenAnalytics - Minería de datos por Diego García (Unican)
PDF
Minería de datos
PDF
Presentación Minería de Datos
PPT
Minería de datos en redes sociales
PPT
Ejemplo de Aplicaciones en Weka
PPTX
Minería de datos
PPT
Minería de datos Presentación
PDF
Minería de Datos: Qué significa realmente y ejemplos de utilización
PPTX
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
PPT
Mineria de Datos
PPTX
Presentacion data mining (mineria de datos)- base de datos
PDF
Minería de datos
PPT
IEncontroMinDados
Mineria de Datos Parte I
Aplicación de aprendizaje automático en minería de datos
Mineria de Datos_parte V
Minería de datos y textos
Mineria de datos
Minería de Datos
Open Analytics - Minería de Datos con Knime
OpenAnalytics - Minería de datos por Diego García (Unican)
Minería de datos
Presentación Minería de Datos
Minería de datos en redes sociales
Ejemplo de Aplicaciones en Weka
Minería de datos
Minería de datos Presentación
Minería de Datos: Qué significa realmente y ejemplos de utilización
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Mineria de Datos
Presentacion data mining (mineria de datos)- base de datos
Minería de datos
IEncontroMinDados
Publicidad

Similar a Componente de weka (mineria datos ing. software) (20)

PDF
Examen final
DOCX
2 preprocesado
PPTX
Libro de recetas.pptx
PPT
Analisis requisito expo desa
PPT
Analisis requisito expo desa
PPT
Analisis requisito expo desa
PPT
Analisis requisito
PPT
Analisis requisito
PPTX
SQLSaturday Guatemala - SOS de Alto de rendimiento con Window Functions
PDF
Manual del Software Arena.
PPTX
Framework .NET 3.5 09 Depuración, monitorización y pruebas
PPTX
Reporting Services
PPTX
desarrollo de software
DOCX
Glosario java
PDF
Diccionario de datos en los sistemas de información
PPTX
Datos y algoritmos
PDF
MÉTRICAS PARA ASEGURAR LA CALIDAD DEL SOFTWARE
PPTX
ESTRUCTURA DE DATOS.pptx
PPTX
Planificacion de proyecto de software
PPTX
Conceptos basicos de analisis y diseño
Examen final
2 preprocesado
Libro de recetas.pptx
Analisis requisito expo desa
Analisis requisito expo desa
Analisis requisito expo desa
Analisis requisito
Analisis requisito
SQLSaturday Guatemala - SOS de Alto de rendimiento con Window Functions
Manual del Software Arena.
Framework .NET 3.5 09 Depuración, monitorización y pruebas
Reporting Services
desarrollo de software
Glosario java
Diccionario de datos en los sistemas de información
Datos y algoritmos
MÉTRICAS PARA ASEGURAR LA CALIDAD DEL SOFTWARE
ESTRUCTURA DE DATOS.pptx
Planificacion de proyecto de software
Conceptos basicos de analisis y diseño

Último (20)

DOCX
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias
PDF
Salcedo, J. et al. - Recomendaciones para la utilización del lenguaje inclusi...
PDF
ciencias-1.pdf libro cuarto basico niños
PDF
Lección 6 Escuela Sab. A través del mar rojo.pdf
DOCX
UNIDAD DE APRENDIZAJE 5 AGOSTO tradiciones
PDF
Salvese Quien Pueda - Andres Oppenheimer Ccesa007.pdf
PDF
Gasista de unidades unifuncionales - pagina 23 en adelante.pdf
PDF
DI, TEA, TDAH.pdf guía se secuencias didacticas
PPTX
caso clínico iam clinica y semiología l3.pptx
PDF
Escuelas Desarmando una mirada subjetiva a la educación
PDF
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
PDF
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
PDF
Híper Mega Repaso Histológico Bloque 3.pdf
DOCX
Tarea De El Colegio Coding For Kids 1 y 2
PDF
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
PDF
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
PDF
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
PDF
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
PPTX
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
PDF
Escuela Sabática 6. A través del Mar Rojo.pdf
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias
Salcedo, J. et al. - Recomendaciones para la utilización del lenguaje inclusi...
ciencias-1.pdf libro cuarto basico niños
Lección 6 Escuela Sab. A través del mar rojo.pdf
UNIDAD DE APRENDIZAJE 5 AGOSTO tradiciones
Salvese Quien Pueda - Andres Oppenheimer Ccesa007.pdf
Gasista de unidades unifuncionales - pagina 23 en adelante.pdf
DI, TEA, TDAH.pdf guía se secuencias didacticas
caso clínico iam clinica y semiología l3.pptx
Escuelas Desarmando una mirada subjetiva a la educación
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
Híper Mega Repaso Histológico Bloque 3.pdf
Tarea De El Colegio Coding For Kids 1 y 2
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
Escuela Sabática 6. A través del Mar Rojo.pdf

Componente de weka (mineria datos ing. software)

  • 1. INTRODUCCIÓN PRÁCTICA A LA MINERÍA DE DATOS
  • 2. WEKA Waikato Environment for Knowledge Analysis
  • 3. Características Software Libre desarrollado en Java Técnicas: Preprocesado Clasificación Agrupamiento Asociación Visualización
  • 4. Opciones Explorer : Es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis implementados sobre los ficheros de entrada, una ejecución independiente por cada prueba. Experimenter: esta opción permite definir experimentos más complejos, con objeto de ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y comparar estadísticamente los resultados Simple CLI: la interfaz "Command-Line : Interfaz" es simplemente una ventana de comandos java para ejecutar las clases de WEKA KnowledgeFlow: esta opción es una novedad de WEKA 3-4 que permite llevar a cabo las mismas acciones del "Explorer", con una configuración totalmente gráfica, inspirada en herramientas de tipo "data-flow" para seleccionar componentes y conectarlos en un proyecto de minería de datos
  • 6. Open File Formato ARFF( Attribute-Relation File Format) Carga de los datos Archivos de Texto Bases de Datos (JDBC) Dirección URL (Servidor
  • 7. Formato ARFF Estructura del Archivo texto (extensión .arff) % comentarios @relation NOMBRE_RELACION @attribute r1 real @attribute i1 integer @attribute s1 {v1_s1, v2_s1,…vn_s1} … @data DATOS
  • 9. Pre-procesado de los datos Esta es la primera parte por la que se debe pasar antes de realizar ninguna otra operación, ya que se precisan datos para poder llevar a cabo cualquier análisis. Filtros de atributos Filtros de selección (remove) Filtros de discretización (Filtro Discretiza R (#atribut) Filtros de instancias Filtro AddExpression ( (a3^3.4)*a1+sqrt(floor(tan(a4)))
  • 10. Pre-procesado de los datos Filtros de atributos
  • 11. Visualización La herramienta de visualización de WEKA permite presentar gráficas 2D que relacionen pares de atributos, con la opción de utilizar además los colores para añadir información de un tercer atributo.
  • 12. Clasificación Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuestro gusto, para ello pulsaremos sobre el botón Choose dentro del área Classifier. Una vez pulsado se desplegará un árbol que nos permitirá seleccionar el clasificador deseado. Una vez seleccionado aparecerá, en la etiqueta contigua al botón Choose, el filtro seleccionado y los argumentos con los que se ejecutará. Esta información es muy útil si queremos utilizar el interfaz de consola ya que podremos configurar nuestro filtro con la interfaz y luego obtener el resultado apto para línea de mandato.
  • 13. Clasificación la aplicación de algoritmos de clasificación a diferentes problemas de predicción de atributos definidos sobre los datos de entrada en este ejemplo. El problema de clasificación siempre se realiza sobre un atributo simbólico , en el caso de utilizar un atributo numérico se precisa por tanto discretizarlo antes en intervalos que representarán los valores de clase. Clasificador “OneR”: Este es uno de los clasificadores más sencillos y rápidos, aunque en ocasiones sus resultados son sorprendentemente buenos en comparación con algoritmos mucho más complejos. Simplemente selecciona el atributo que mejor “explica” la clase de salida. Si hay atributos numéricos, busca los umbrales para hacer reglas con mejor tasa de aciertos
  • 14. Clasificación Clasificador como árbol de decisión: J48 El algoritmo J48 de WEKA es una implementación del algoritmo C4.5, uno de los algoritmos de minería de datos que más se ha utilizado en multitud de aplicaciones. No vamos a entrar en los detalles de todos los parámetros de configuración, dejándolo para el lector interesado en los detalles de este algoritmo, y únicamente resaltaremos uno de los más importantes, el factor de confianza para la poda, confidence level, puesto que influye notoriamente en el tamaño y capacidad de predicción del árbol construido.
  • 16. Asociación Los algoritmos de asociación permiten la búsqueda automática de reglas que relacionan conjuntos de atributos entre sí. Son algoritmos no supervisados, en el sentido de que no existen relaciones conocidas a priori con las que contrastar la validez de los resultados, sino que se evalúa si esas reglas son estadísticamente significativas.
  • 17. Asociación El principal algoritmo de asociación implementado en WEKA es el algoritmo "Apriori". Este algoritmo unicamente puede buscar reglas entre atributos simbólicos, razón por la que se requiere haber d discretizado todos los atributos numéricos.
  • 18. AGrupamiento La opción Cluster del Experimenter nos permite aplicar algoritmos de agrupamiento de instancias a nuestros datos. Estos algoritmos buscan grupos de instancias con características "similares", según un criterio de comparación entre valores de atributos de las instancias definidos en los algoritmos discretizado todos los atributos numéricos.
  • 19. AGrupamiento Agrupamiento numérico En primer lugar utilizaremos el algoritmo de agrupamiento K-medias, por ser uno de los más veloces y eficientes, si bien uno de los más limitados. Este algoritmo precisa únicamente del número de categorías similares en las que queremos dividir el conjunto de datos
  • 21. Referencias DR. NICOLAS KEMPER VALVERDE Universidad Nacional Autónoma de México