Minería de datos multimedia
Brayan Diaz Reyes
Facatativa Cundinamarca
Universidad de Cundinamarca
brayandr05@gmail.com
Resumen- Debido a la gran cantidad de información existente y
datos digitales de todo tipo surgen la necesidad de buscar
extracción de información y convertirla en conocimiento con este
trabajo se busca dar a conocer la Minería de Datos Multimedia,
en que se puede llegar a usar la minería de datos, y cuáles son sus
aportes importantes a nivel mundial.
Palabras Clave: información, y datos digitales, conocimiento,
Minería de Datos, la Minería de Datos Multimedia.
Abstract- Due to the large amount of existing information and
digital data of all kinds, the need to search for information to
extract it and turn it into knowledge with this work is to
disseminate information about Multimedia Data Mining, in
which it is possible to use the information. data mining, and what
are your important contributions around the world.
Keywords: information and digital data, knowledge, data
mining, multimedia data mining
I. INTRODUCCIÓN
La gestión del conocimiento se refiere al conjunto de
procesos desarrollados para crear, organizar, almacenar y
transferir el conocimiento en las organizaciones. El objetivo
principal de la Minería de Datos es la extracción de
conocimiento implícito en grandes bases de datos. Minería de
Datos tiene un papel fundamental en el proceso para convertir
lo implícito en conocimiento explícito y en las diferentes
etapas de gestión del conocimiento en las organizaciones. En
una revisión sobre las aplicaciones de la minería de datos, se
puede encontrar gran variedad de áreas como el sector salud,
finanzas, banca, educación, biología, entre otras. Estas
aplicaciones son realizadas en su gran mayoría sobre datos
estructurados, es decir, datos organizados en bases de datos.
De igual manera, las metodologías y plataformas para minería
han centrado sus esfuerzos sobre minería de datos
estructurados.
II. MINERÍA DE DATOS MULTIMEDIA
La mineria de Datos multimedia es una rama de la mineria de
datos que se basa en el extracion de conocimiento implicito,
relaciones de datos multimedia (numeros, imágenes,
video,audio, etc…), la mineria de Datos Multimedia puede ser
representada, procesada, almacenada y trasmitida en formato
digital. La Mineria de Datos permite encontrar información
escondida en los datos que no siempre resulta aparente, ya que,
dado el gigantesco volumen de datos existentes, gran parte de
ese volumen nunca será analizado. La minería de datos es un
proceso de identificación de información relevante extraída de
grandes volúmenes de datos, con el objetivo de descubrir
patrones y tendencias estructurando la información obtenida de
un modo comprensible para su posterior utilización.
A. Bases de Datos Multimedia
Los Sistemas de Bases de Datos Multimedia se
caracterizan por almacenar, además de texto y otros datos
discretos, información de Audio y Vídeo, permitiendo su
manipulación y recuperación.
Para proporcionar esta funcionalidad, los sistemas de bases
de datos multimedia requieren una tecnología propia de
almacenamiento y un sistema de ficheros
B. Herramientas de datos multimedia
Las herramientas de minería de datos empleadas en el
proceso de extracción de conocimiento se pueden clasificar en
dos grandes grupos:
• Técnicas de verificación: el sistema se limita a
comprobar hipótesis suministrada por el usuario
• Método de descubrimiento: Se encuentran patrones
potencialmente interesantes de forma automática,
incluyendo todas las técnicas de predicción
Existen algunas herramientas diseñadas para extraer
conocimientos desde bases de datos que contienen grandes
cantidades de información. Las más populares de estas
herramientas son SPSS Clementine y Weka.
1. Clementine
Se centra en la integración de data mining con otros procesos
y sistemas de negocio que ayuden a entregar inteligencia
predictiva en un tiempo eficiente durante las operaciones de
negocio diarias. La funcionalidad abierta de data mining en
bases de datos que posee Clementine permite que muchos de
los procesos de data mining se realicen en entornos que
mejoran tanto el rendimiento como el despliegue de los
resultados de data mining
2. Weka
Soporta varias tareas estándar de minería de datos,
especialmente, reprocesamiento de datos, clustering,
clasificación, regresión, visualización, y selección. Todas las
técnicas de Weka se fundamentan en la asunción de que los
datos están disponibles en un fichero plano (flan file) o una
relación, en la que cada registro de datos está descrito por un
número fijo de atributos (normal-mente numéricos o
nominales, aunque también se soportan otros tipos). Weka
también proporciona acceso a bases de datos vía SQL gracias
a la conexión JDBC (Java Database Connectivity) y puede
procesar el resultado devuelto por una consulta hecha a la
base de datos. No puede realizar minería de datos multi-
relacional, pero existen aplicaciones que pueden convertir una
colección de tablas relacionadas de una base de datos en una
única tabla que ya puede ser procesada con Weka.
C. Caso de minería de datos multimedia
Predicción de anormalidades en mamografías
La mamografía es un examen médico que consiste en tomar
una radiografía de los senos con el fin de detectar signos de
cáncer. Mediante este examen es posible detectar micro
calcificaciones que son pequeños depósitos de calcio que
pueden indicar la presencia de cáncer de seno. Para este caso
de estudio se utilizó la base de datos Mamography Image
Analyze Society (MIAS), que es una sociedad inglesa que se
dedica a la investigación de las mamografías. Esta base de
datos [16] incluye exámenes de ambos senos de 161 pacientes
para un total de 322 imágenes. Las anormalidades consisten en
una pequeña masa que muestra presencia de cáncer maligno.
Los diagnósticos de la base de datos MIAS han sido realizados
por radiólogos expertos. Se presentan dos mamografías
seleccionadas de la base de datos MIAS. El examen de la
izquierda corresponde a un caso diagnosticado como normal,
mientras que el examen de la derecha presenta una
anormalidad que ha sido encerrada con fines ilustrativos.
A continuación, se describe la aplicación de la metodología
MAM para este caso de estudio. En la etapa de
preprocesamiento de multimedia, las imágenes de esta base de
datos se encuentran en formato PGM. Este formato no es
compatible con la plataforma; por este motivo fue necesario
realizar una etapa de conversión de las imágenes del formato
PGM al formato JPG compatible con la plataforma. En la etapa
de indexación de multimedia, se realiza la extracción de
características de cada una de las imágenes. Las características
extraídas deben permitir la identificación de las imágenes en
las dos clases que se pretende clasificar: diagnóstico normal y
diagnóstico anormal. En las imágenes seleccionadas se observa
que las mamografías con diagnóstico anormal presentan
algunas masas con una textura, forma y colores
representativos. Por esta razón se optó por extraer
simultáneamente características de color, forma y textura.
En la etapa de preparación de datos estructurados, se
selecciona la variable objetivo, la cual indica la existencia de
anormalidades.
En la etapa de modelamiento analítico, para tareas de
clasificación la plataforma ofrece dos técnicas: máquinas de
soporte vectorial y árboles de decisión. Para cada una de estas
técnicas se crearon modelos analíticos, utilizando el 70% de
los datos para la etapa de entrenamiento y un 30% para la etapa
de evaluación.
En la etapa de evaluación, el modelo que presentó un mejor
resultado utiliza la técnica de árboles de decisión con un 86%
de instancias clasificadas correctamente. En la tabla 4 se
presenta la matriz de confusión generada, de donde la precisión
indica que el 90% de anormalidades reconocidas estaban
correctas, es decir, que se tuvieron el 10% de falsos positivos.
La cobertura indica que se reconocieron 75% de
anormalidades, es decir, que 25% de las anormalidades no
fueron reconocidas. Finalmente, el área ROC indica un
desempeño general del 85.6%, lo cual lo posiciona en un buen
clasificador
.
III. CONCLUSIONES
Se concluyo que la minería de datos multimedia se puede
ver en casi todo lo que conocemos hoy en día debido a la gran
cantidad de datos que tenemos hoy en día y la necesidad de
generar conocimiento para utilizar de una manera adecuada
dichos datos
REFERENCIAS
[1]https://www.youtube.com/watch?v=svoD9Fq-Kcw&t=23s
[2] http://eprints.rclis.org/14884/
[3]http://www.scielo.org.co/pdf/rium/v16n31/1692-3324-rium-16-31-
00125.pdf
[4]https://www.icemd.com/digital-knowledge/articulos/mineria-datos-
proceso-areas-se-puede-aplica/
[5] https://www.ricardo-barbosa.com/es/importancia-de-datos-mineria-en-
hoy-negocios-mundo/
[6] http://www.redalyc.org/jatsRepo/750/75055115007/html/index.html

Más contenido relacionado

DOCX
Mineria de datos
DOC
Marisela labrador
PDF
Mineria de datos
PDF
Mineria de datos
DOCX
Mineria de datos ok
PPTX
Presentacion data mining (mineria de datos)- base de datos
PDF
BIG DATA (MACRODATOS).pdf
PDF
Mineria de datos
Mineria de datos
Marisela labrador
Mineria de datos
Mineria de datos
Mineria de datos ok
Presentacion data mining (mineria de datos)- base de datos
BIG DATA (MACRODATOS).pdf
Mineria de datos

Similar a Electiva2 (20)

PPT
Mineria De Datos
PPTX
Mineria de datos
PDF
Ca732ov
PPT
Minería de Datos Aplicado a la EPH Encuesta Permanente de Hogares
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PPTX
Minig text and audiovisual data
PDF
Minería de Datos. Introducción
PDF
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
PDF
Minería de Datos: Conceptos y Tendencias
PDF
Mineria de datos-una_introduccion
PPT
Mineria de datos
DOCX
Monografia Data Mining
DOCX
Apoyo de la mineria de datos a la vt
PDF
Mineria y modelado de datos
PPTX
Manejo De Datos
PPSX
2023-T4-Analisis_Datos.ppsx
PPT
Datawarehouse y Datamining
Mineria De Datos
Mineria de datos
Ca732ov
Minería de Datos Aplicado a la EPH Encuesta Permanente de Hogares
Minig text and audiovisual data
Minig text and audiovisual data
Minig text and audiovisual data
Minig text and audiovisual data
Minig text and audiovisual data
Minería de Datos. Introducción
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
Minería de Datos: Conceptos y Tendencias
Mineria de datos-una_introduccion
Mineria de datos
Monografia Data Mining
Apoyo de la mineria de datos a la vt
Mineria y modelado de datos
Manejo De Datos
2023-T4-Analisis_Datos.ppsx
Datawarehouse y Datamining
Publicidad

Último (20)

PPTX
ccna: redes de nat ipv4 stharlling cande
PDF
capacitación de aire acondicionado Bgh r 410
PDF
Distribucion de frecuencia exel (1).pdf
DOCX
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
PPTX
Control de calidad en productos de frutas
PDF
Taller tecnológico Michelle lobo Velasquez
PPT
Protocolos de seguridad y mecanismos encriptación
PDF
Estrategia de apoyo valentina lopez/ 10-3
PDF
TRABAJO DE TECNOLOGIA.pdf...........................
PPTX
la-historia-de-la-medicina Edna Silva.pptx
PPTX
Tema 1 Taller de tecnologia y proceso tecnologico.pptx
PDF
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
PDF
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
DOCX
Guía 5. Test de orientación Vocacional 2.docx
PPTX
Presentación final ingenieria de metodos
DOCX
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
PDF
NREN - red nacional de investigacion y educacion en LATAM y Europa: Caracteri...
PPTX
ccna: redes de nat ipv4 stharlling cande
ccna: redes de nat ipv4 stharlling cande
capacitación de aire acondicionado Bgh r 410
Distribucion de frecuencia exel (1).pdf
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
Control de calidad en productos de frutas
Taller tecnológico Michelle lobo Velasquez
Protocolos de seguridad y mecanismos encriptación
Estrategia de apoyo valentina lopez/ 10-3
TRABAJO DE TECNOLOGIA.pdf...........................
la-historia-de-la-medicina Edna Silva.pptx
Tema 1 Taller de tecnologia y proceso tecnologico.pptx
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
Documental Beyond the Code (Dossier Presentación - 2.0)
Historia Inteligencia Artificial Ana Romero.pptx
Guía 5. Test de orientación Vocacional 2.docx
Presentación final ingenieria de metodos
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
NREN - red nacional de investigacion y educacion en LATAM y Europa: Caracteri...
ccna: redes de nat ipv4 stharlling cande
Publicidad

Electiva2

  • 1. Minería de datos multimedia Brayan Diaz Reyes Facatativa Cundinamarca Universidad de Cundinamarca brayandr05@gmail.com Resumen- Debido a la gran cantidad de información existente y datos digitales de todo tipo surgen la necesidad de buscar extracción de información y convertirla en conocimiento con este trabajo se busca dar a conocer la Minería de Datos Multimedia, en que se puede llegar a usar la minería de datos, y cuáles son sus aportes importantes a nivel mundial. Palabras Clave: información, y datos digitales, conocimiento, Minería de Datos, la Minería de Datos Multimedia. Abstract- Due to the large amount of existing information and digital data of all kinds, the need to search for information to extract it and turn it into knowledge with this work is to disseminate information about Multimedia Data Mining, in which it is possible to use the information. data mining, and what are your important contributions around the world. Keywords: information and digital data, knowledge, data mining, multimedia data mining I. INTRODUCCIÓN La gestión del conocimiento se refiere al conjunto de procesos desarrollados para crear, organizar, almacenar y transferir el conocimiento en las organizaciones. El objetivo principal de la Minería de Datos es la extracción de conocimiento implícito en grandes bases de datos. Minería de Datos tiene un papel fundamental en el proceso para convertir lo implícito en conocimiento explícito y en las diferentes etapas de gestión del conocimiento en las organizaciones. En una revisión sobre las aplicaciones de la minería de datos, se puede encontrar gran variedad de áreas como el sector salud, finanzas, banca, educación, biología, entre otras. Estas aplicaciones son realizadas en su gran mayoría sobre datos estructurados, es decir, datos organizados en bases de datos. De igual manera, las metodologías y plataformas para minería han centrado sus esfuerzos sobre minería de datos estructurados. II. MINERÍA DE DATOS MULTIMEDIA La mineria de Datos multimedia es una rama de la mineria de datos que se basa en el extracion de conocimiento implicito, relaciones de datos multimedia (numeros, imágenes, video,audio, etc…), la mineria de Datos Multimedia puede ser representada, procesada, almacenada y trasmitida en formato digital. La Mineria de Datos permite encontrar información escondida en los datos que no siempre resulta aparente, ya que, dado el gigantesco volumen de datos existentes, gran parte de ese volumen nunca será analizado. La minería de datos es un proceso de identificación de información relevante extraída de grandes volúmenes de datos, con el objetivo de descubrir patrones y tendencias estructurando la información obtenida de un modo comprensible para su posterior utilización. A. Bases de Datos Multimedia Los Sistemas de Bases de Datos Multimedia se caracterizan por almacenar, además de texto y otros datos discretos, información de Audio y Vídeo, permitiendo su manipulación y recuperación. Para proporcionar esta funcionalidad, los sistemas de bases de datos multimedia requieren una tecnología propia de almacenamiento y un sistema de ficheros B. Herramientas de datos multimedia Las herramientas de minería de datos empleadas en el proceso de extracción de conocimiento se pueden clasificar en dos grandes grupos: • Técnicas de verificación: el sistema se limita a comprobar hipótesis suministrada por el usuario • Método de descubrimiento: Se encuentran patrones potencialmente interesantes de forma automática, incluyendo todas las técnicas de predicción Existen algunas herramientas diseñadas para extraer conocimientos desde bases de datos que contienen grandes cantidades de información. Las más populares de estas herramientas son SPSS Clementine y Weka. 1. Clementine Se centra en la integración de data mining con otros procesos y sistemas de negocio que ayuden a entregar inteligencia predictiva en un tiempo eficiente durante las operaciones de negocio diarias. La funcionalidad abierta de data mining en bases de datos que posee Clementine permite que muchos de los procesos de data mining se realicen en entornos que mejoran tanto el rendimiento como el despliegue de los resultados de data mining 2. Weka Soporta varias tareas estándar de minería de datos, especialmente, reprocesamiento de datos, clustering, clasificación, regresión, visualización, y selección. Todas las técnicas de Weka se fundamentan en la asunción de que los datos están disponibles en un fichero plano (flan file) o una relación, en la que cada registro de datos está descrito por un número fijo de atributos (normal-mente numéricos o nominales, aunque también se soportan otros tipos). Weka también proporciona acceso a bases de datos vía SQL gracias a la conexión JDBC (Java Database Connectivity) y puede procesar el resultado devuelto por una consulta hecha a la base de datos. No puede realizar minería de datos multi- relacional, pero existen aplicaciones que pueden convertir una colección de tablas relacionadas de una base de datos en una única tabla que ya puede ser procesada con Weka.
  • 2. C. Caso de minería de datos multimedia Predicción de anormalidades en mamografías La mamografía es un examen médico que consiste en tomar una radiografía de los senos con el fin de detectar signos de cáncer. Mediante este examen es posible detectar micro calcificaciones que son pequeños depósitos de calcio que pueden indicar la presencia de cáncer de seno. Para este caso de estudio se utilizó la base de datos Mamography Image Analyze Society (MIAS), que es una sociedad inglesa que se dedica a la investigación de las mamografías. Esta base de datos [16] incluye exámenes de ambos senos de 161 pacientes para un total de 322 imágenes. Las anormalidades consisten en una pequeña masa que muestra presencia de cáncer maligno. Los diagnósticos de la base de datos MIAS han sido realizados por radiólogos expertos. Se presentan dos mamografías seleccionadas de la base de datos MIAS. El examen de la izquierda corresponde a un caso diagnosticado como normal, mientras que el examen de la derecha presenta una anormalidad que ha sido encerrada con fines ilustrativos. A continuación, se describe la aplicación de la metodología MAM para este caso de estudio. En la etapa de preprocesamiento de multimedia, las imágenes de esta base de datos se encuentran en formato PGM. Este formato no es compatible con la plataforma; por este motivo fue necesario realizar una etapa de conversión de las imágenes del formato PGM al formato JPG compatible con la plataforma. En la etapa de indexación de multimedia, se realiza la extracción de características de cada una de las imágenes. Las características extraídas deben permitir la identificación de las imágenes en las dos clases que se pretende clasificar: diagnóstico normal y diagnóstico anormal. En las imágenes seleccionadas se observa que las mamografías con diagnóstico anormal presentan algunas masas con una textura, forma y colores representativos. Por esta razón se optó por extraer simultáneamente características de color, forma y textura. En la etapa de preparación de datos estructurados, se selecciona la variable objetivo, la cual indica la existencia de anormalidades. En la etapa de modelamiento analítico, para tareas de clasificación la plataforma ofrece dos técnicas: máquinas de soporte vectorial y árboles de decisión. Para cada una de estas técnicas se crearon modelos analíticos, utilizando el 70% de los datos para la etapa de entrenamiento y un 30% para la etapa de evaluación. En la etapa de evaluación, el modelo que presentó un mejor resultado utiliza la técnica de árboles de decisión con un 86% de instancias clasificadas correctamente. En la tabla 4 se presenta la matriz de confusión generada, de donde la precisión indica que el 90% de anormalidades reconocidas estaban correctas, es decir, que se tuvieron el 10% de falsos positivos. La cobertura indica que se reconocieron 75% de anormalidades, es decir, que 25% de las anormalidades no fueron reconocidas. Finalmente, el área ROC indica un desempeño general del 85.6%, lo cual lo posiciona en un buen clasificador . III. CONCLUSIONES Se concluyo que la minería de datos multimedia se puede ver en casi todo lo que conocemos hoy en día debido a la gran cantidad de datos que tenemos hoy en día y la necesidad de generar conocimiento para utilizar de una manera adecuada dichos datos REFERENCIAS [1]https://www.youtube.com/watch?v=svoD9Fq-Kcw&t=23s [2] http://eprints.rclis.org/14884/ [3]http://www.scielo.org.co/pdf/rium/v16n31/1692-3324-rium-16-31- 00125.pdf [4]https://www.icemd.com/digital-knowledge/articulos/mineria-datos- proceso-areas-se-puede-aplica/ [5] https://www.ricardo-barbosa.com/es/importancia-de-datos-mineria-en- hoy-negocios-mundo/ [6] http://www.redalyc.org/jatsRepo/750/75055115007/html/index.html