SlideShare una empresa de Scribd logo
Weka (Pentaho Data
Mining).
Diana Esmeralda Alvarenga Mendoza. USIS014411.
Max Fuentes Paredes. SMIS109610.
Rosa Migdalia Mejía Pineda. USIS010911.
Carlos Mauricio Salgado Reyes. USIS049211
¿Qué es Weka?
 LA Weka (Gallirallus australis) es un ave endémica de Nueva Zelanda. Esta
Gallinácea en peligro de extinción es famosa por su curiosidad y agresividad.
De aspecto pardo y tamaño similar a una gallina las wekas se alimentan
fundamentalmente de insectos y frutos.
 Este ave da nombre a un conjunto de librerías JAVA para la extracción de
conocimientos desde bases de datos. Es un software ha sido desarrollado en la
universidad de Waikato (Nueva Zelanda) bajo licencia GPL lo cual ha
impulsado que sea una de las suites más utilizadas en el área en los últimos
años. Además Weka contiene las herramientas necesarias para realizar
transformaciones sobre los datos, tareas de clasificación, regresión,
clustering, asociación y visualización. Weka está diseñado como una
herramienta orientada a la extensibilidad por lo que una de las propiedades
más interesantes de este software, es su facilidad para añadir extensiones,
modificar métodos etc.
¿Qué significan sus siglas (Weka)?
 Waikato Environment for Knowledge Analysis (Waikato Entorno para el Análisis
del Conocimiento)
 1. Cabecera. Se define el nombre de la relación. Su formato es el siguiente:
@relation <nombre-de-la-relación>
Donde <nombre-de-la-relación> es de tipo String*. Si dicho nombre contiene
algún espacio será necesario expresarlo entrecomillado.
 2. Declaraciones de atributos. En esta sección se declaran los atributos que
compondrán nuestro archivo junto a su tipo. La sintaxis es la siguiente:
@attribute <nombre-del-atributo> <tipo>
Nativamente Weka trabaja con un formato denominado arff, acrónimo de
Atribute Relation File Format. Este formato está compuesto por una estructura
claramente diferenciada en tres partes:
Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso
anterior. Weka acepta diversos tipos, estos son:
a) NUMERIC Expresa números reales*.
b) INTEGER Expresa números enteros.
c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato
entrecomillada.
 La etiqueta de formato está compuesta por caracteres separadores (guiones y/o espacios) y
unidades de tiempo:
dd Día.
MM Mes.
yyyy Año.
HH Horas.
mm Minutos.
ss Segundos.
 d) STRING Expresa cadenas de texto, con las restricciones del tipo String comentadas
anteriormente.
 e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por
comas los posibles valores (caracteres o cadenas de caracteres) que puede tomar el atributo.
Por ejemplo, si tenemos un atributo que indica el tiempo podría definirse:
@attribute tiempo {soleado,lluvioso,nublado}
 3. Sección de datos. Declaramos los datos que componen la relación
separando entre comas los atributos y con saltos de línea las relaciones.
@data
4,3.2
Aunque éste es el modo “completo" es posible definir los datos de una forma
abreviada (sparse data). Si tenemos una muestra en la que hay muchos datos
que sean 0 podemos expresar los datos prescindiendo de los elementos que
son nulos, rodeando cada una de las filas entre llaves y situando delante de
cada uno de los datos el número de atributo**.
 Un ejemplo de esto es el siguiente
@data
{1 4, 3 3}
En este caso hemos prescindido de los atributos 0 y 2 (como mínimo) y
asignamos al atributo
1 el valor 4 y al atributo 3 el valor 3.
VENTAJAS.
 Extensa colección de algoritmos de Máquinas de conocimiento.
 Nos permite ubicar patrones de comportamiento de la información a procesar
de tal manera que es de gran ayuda en la toma de decisiones.
 Está disponible libremente bajo la licencia pública general de GNU.
 Es muy portable porque está completamente implementado en Java y puede
correr en casi cualquier plataforma.
 Contiene una extensa colección de técnicas para pre-procesamiento de datos
y modelado.
DESVENTAJAS.
 Existe poca documentación sobre el uso de Weka dirigida al usuario.
 Un área importante que actualmente no cubren los algoritmos incluidos en
Weka es el modelado de secuencia.
Instalación.
 Descargar la versión de Weka; en este caso es la weka-3-7-12jre-x64
Weka (pentaho data mining)
Sitio de descarga.
 http://community.pentaho.com/projects/data-mining/
Desarrolladores.
 Por la universidad de Waikato (Nueva Zelanda)

Más contenido relacionado

PDF
SAP HANA SPS09 - HANA IM Services
PPTX
screencast y bases de datos
PDF
Tutorial weka
PPT
Ejemplo de Aplicaciones en Weka
PPTX
Minería de datos con WEKA para el diagnóstico preventivo de cáncer
ODP
Actividad N 08
PPT
Dichosos los tolerantes
PPT
Palermo Digital DC - Tip Nº 0
SAP HANA SPS09 - HANA IM Services
screencast y bases de datos
Tutorial weka
Ejemplo de Aplicaciones en Weka
Minería de datos con WEKA para el diagnóstico preventivo de cáncer
Actividad N 08
Dichosos los tolerantes
Palermo Digital DC - Tip Nº 0

Destacado (20)

PPT
PDF
CARTA A MIS COMPAÑEROS Y COMPAÑERAS
PPT
Pinaristas,constructores de paz
PPTX
Mendoza miery teran_presentacionfinal
PPTX
Computadoras
PDF
Revista escolar santillana
PDF
Manual word 2003
PPT
Jornada Bibarnabloc 2012
DOCX
Segunda novela la caida de la noche parsial2
PPTX
Capsula 13 oct
PPT
Universidad nacional2003
DOCX
Cta1 programacion anual
PDF
Emprendimiento y liderazgo_martin_mejia (1)
PPT
Reportaje
PDF
Hoja de respuestas ex 05 laura
PPT
Presentacion power ciencias naturales 2011
DOCX
Angelina
PDF
Explicación de url herramientas telematicas
DOC
Guia seguridad en el laboratorio oscar
DOCX
Syllabus toxicología (1)
CARTA A MIS COMPAÑEROS Y COMPAÑERAS
Pinaristas,constructores de paz
Mendoza miery teran_presentacionfinal
Computadoras
Revista escolar santillana
Manual word 2003
Jornada Bibarnabloc 2012
Segunda novela la caida de la noche parsial2
Capsula 13 oct
Universidad nacional2003
Cta1 programacion anual
Emprendimiento y liderazgo_martin_mejia (1)
Reportaje
Hoja de respuestas ex 05 laura
Presentacion power ciencias naturales 2011
Angelina
Explicación de url herramientas telematicas
Guia seguridad en el laboratorio oscar
Syllabus toxicología (1)
Publicidad

Similar a Weka (pentaho data mining) (20)

PDF
PPTX
Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de...
PDF
Evaluacion final
DOCX
Base de datos objeto
DOCX
Trabajo base de datos
PPTX
Informatica
DOCX
Omar unidad 07 base de datos
PPTX
Trabajo de famas 2011
PPTX
Trabajo de famas 2011
DOCX
Base de datos
PDF
DOCX
Base De Datos
PPT
ESTRUCTURA DE DATOS PRESENTACION COMP.ppt
PPTX
Componentes y Librerías - Tópicos avanzados de programación.
PPTX
Diapositiva estructura de datos unidad 1
DOCX
Diccionario de datos Unefa
PPTX
Estructuras de Datos - Presentación.pptx
PPTX
Oracle database
Capitulo 27 (XML: Lenguaje de mercado extendible) y Capítulo 28 (Conceptos de...
Evaluacion final
Base de datos objeto
Trabajo base de datos
Informatica
Omar unidad 07 base de datos
Trabajo de famas 2011
Trabajo de famas 2011
Base de datos
Base De Datos
ESTRUCTURA DE DATOS PRESENTACION COMP.ppt
Componentes y Librerías - Tópicos avanzados de programación.
Diapositiva estructura de datos unidad 1
Diccionario de datos Unefa
Estructuras de Datos - Presentación.pptx
Oracle database
Publicidad

Último (20)

PDF
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
PDF
COMPLETO__PROYECTO_VIVAN LOS NIÑOS Y SUS DERECHOS_EDUCADORASSOS.pdf
PDF
TRAUMA_Y_RECUPERACION consecuencias de la violencia JUDITH HERMAN
PDF
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
PDF
Metodologías Activas con herramientas IAG
PDF
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
PDF
Didactica de la Investigacion Educativa SUE Ccesa007.pdf
PDF
OK OK UNIDAD DE APRENDIZAJE 5TO Y 6TO CORRESPONDIENTE AL MES DE AGOSTO 2025.pdf
PDF
Escuelas Desarmando una mirada subjetiva a la educación
PDF
Híper Mega Repaso Histológico Bloque 3.pdf
PDF
biología es un libro sobre casi todo el tema de biología
PDF
Romper el Circulo de la Creatividad - Colleen Hoover Ccesa007.pdf
PDF
Integrando la Inteligencia Artificial Generativa (IAG) en el Aula
PDF
Conecta con la Motivacion - Brian Tracy Ccesa007.pdf
PDF
DI, TEA, TDAH.pdf guía se secuencias didacticas
PDF
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
PDF
Salcedo, J. et al. - Recomendaciones para la utilización del lenguaje inclusi...
PDF
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
PDF
Fundamentos_Educacion_a_Distancia_ABC.pdf
DOCX
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
COMPLETO__PROYECTO_VIVAN LOS NIÑOS Y SUS DERECHOS_EDUCADORASSOS.pdf
TRAUMA_Y_RECUPERACION consecuencias de la violencia JUDITH HERMAN
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
Metodologías Activas con herramientas IAG
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
Didactica de la Investigacion Educativa SUE Ccesa007.pdf
OK OK UNIDAD DE APRENDIZAJE 5TO Y 6TO CORRESPONDIENTE AL MES DE AGOSTO 2025.pdf
Escuelas Desarmando una mirada subjetiva a la educación
Híper Mega Repaso Histológico Bloque 3.pdf
biología es un libro sobre casi todo el tema de biología
Romper el Circulo de la Creatividad - Colleen Hoover Ccesa007.pdf
Integrando la Inteligencia Artificial Generativa (IAG) en el Aula
Conecta con la Motivacion - Brian Tracy Ccesa007.pdf
DI, TEA, TDAH.pdf guía se secuencias didacticas
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
Salcedo, J. et al. - Recomendaciones para la utilización del lenguaje inclusi...
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
Fundamentos_Educacion_a_Distancia_ABC.pdf
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias

Weka (pentaho data mining)

  • 1. Weka (Pentaho Data Mining). Diana Esmeralda Alvarenga Mendoza. USIS014411. Max Fuentes Paredes. SMIS109610. Rosa Migdalia Mejía Pineda. USIS010911. Carlos Mauricio Salgado Reyes. USIS049211
  • 2. ¿Qué es Weka?  LA Weka (Gallirallus australis) es un ave endémica de Nueva Zelanda. Esta Gallinácea en peligro de extinción es famosa por su curiosidad y agresividad. De aspecto pardo y tamaño similar a una gallina las wekas se alimentan fundamentalmente de insectos y frutos.  Este ave da nombre a un conjunto de librerías JAVA para la extracción de conocimientos desde bases de datos. Es un software ha sido desarrollado en la universidad de Waikato (Nueva Zelanda) bajo licencia GPL lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años. Además Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, asociación y visualización. Weka está diseñado como una herramienta orientada a la extensibilidad por lo que una de las propiedades más interesantes de este software, es su facilidad para añadir extensiones, modificar métodos etc.
  • 3. ¿Qué significan sus siglas (Weka)?  Waikato Environment for Knowledge Analysis (Waikato Entorno para el Análisis del Conocimiento)
  • 4.  1. Cabecera. Se define el nombre de la relación. Su formato es el siguiente: @relation <nombre-de-la-relación> Donde <nombre-de-la-relación> es de tipo String*. Si dicho nombre contiene algún espacio será necesario expresarlo entrecomillado.  2. Declaraciones de atributos. En esta sección se declaran los atributos que compondrán nuestro archivo junto a su tipo. La sintaxis es la siguiente: @attribute <nombre-del-atributo> <tipo> Nativamente Weka trabaja con un formato denominado arff, acrónimo de Atribute Relation File Format. Este formato está compuesto por una estructura claramente diferenciada en tres partes:
  • 5. Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. Weka acepta diversos tipos, estos son: a) NUMERIC Expresa números reales*. b) INTEGER Expresa números enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entrecomillada.  La etiqueta de formato está compuesta por caracteres separadores (guiones y/o espacios) y unidades de tiempo: dd Día. MM Mes. yyyy Año. HH Horas. mm Minutos. ss Segundos.  d) STRING Expresa cadenas de texto, con las restricciones del tipo String comentadas anteriormente.  e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres) que puede tomar el atributo. Por ejemplo, si tenemos un atributo que indica el tiempo podría definirse: @attribute tiempo {soleado,lluvioso,nublado}
  • 6.  3. Sección de datos. Declaramos los datos que componen la relación separando entre comas los atributos y con saltos de línea las relaciones. @data 4,3.2 Aunque éste es el modo “completo" es posible definir los datos de una forma abreviada (sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de las filas entre llaves y situando delante de cada uno de los datos el número de atributo**.  Un ejemplo de esto es el siguiente @data {1 4, 3 3} En este caso hemos prescindido de los atributos 0 y 2 (como mínimo) y asignamos al atributo 1 el valor 4 y al atributo 3 el valor 3.
  • 7. VENTAJAS.  Extensa colección de algoritmos de Máquinas de conocimiento.  Nos permite ubicar patrones de comportamiento de la información a procesar de tal manera que es de gran ayuda en la toma de decisiones.  Está disponible libremente bajo la licencia pública general de GNU.  Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma.  Contiene una extensa colección de técnicas para pre-procesamiento de datos y modelado.
  • 8. DESVENTAJAS.  Existe poca documentación sobre el uso de Weka dirigida al usuario.  Un área importante que actualmente no cubren los algoritmos incluidos en Weka es el modelado de secuencia.
  • 9. Instalación.  Descargar la versión de Weka; en este caso es la weka-3-7-12jre-x64
  • 11. Sitio de descarga.  http://community.pentaho.com/projects/data-mining/
  • 12. Desarrolladores.  Por la universidad de Waikato (Nueva Zelanda)