SlideShare una empresa de Scribd logo
Universidad Nacional de Trujillo – Ing. Informática


   ALGORITMO Á GIL USANDO LÁ TICES PARA LA DETECCIÓ N DEL
           MINADO DE PATRONES SECUENCIALES

     Salvador Amaya Raisa                    Sánchez Siccha Celeny                         Tung Meihsiu
    raisali_1@hotmail.com                   celymar_15@hotmail.com                  meihsiutung@hotmail.com


                                          PANORAMA GENERAL

RESUMEN:
  Los patrones secuenciales tienen muchos usos aplicados a diferentes campos, se ha convertido en una de las
aplicaciones más importantes en la minerí de datos. El problema surgido en estudios anteriores de los patrones
                                         a
secuenciales es la generación de demasiados candidatos que resultan durante el proceso, obteniendo un cálculo del
coste y tiempo de pasada cada vez mayor. En este trabajo se describe un mejor algoritmo, Algoritmo Á gil para
aliviar este problema. El algoritmo explora la base de datos secuencial una vez para luego construir la estructura de
látice que es la representación cuasi-comprimida base de datos original.


ABSTRACT:
  Sequential Patterns has many diverse applications in many fields recently. And it has become one of the most
important issues of Data Mining. The major problem in previous studies of mining sequential patterns is too many
candidates sequences has been generated during the mining process, costing computing power and increasing
runtime. In this paper we propose a new algorithm to alleviate this problem. The better algorithm scan sequential
database only once to construct the lattice structure which is a quasi-compressed data representation of original
sequential database.


Palabras claves: patrones secuenciales, minerí de datos, estructuras de látices.
                                              a



1. INTRODUCCIÓ N

      Las secuencias frecuentes son una tarea importante de minerí de datos, desde el punto de
                                                                  a

   vista de las aplicaciones, incluyendo los patrones de aprendizaje, los patrones de acceso a la

   Web, Análisis del comportamiento de los clientes y otros relacionados con el tiempo de

   proceso de datos. El problema puede ser el estado secuencial de los patrones, es decir

   descubrir subsecuencias frecuentes como patrones secuencial en una base de datos.

      Hay muchos estudios previos de la minerí en patrones secuenciales de manera eficiente.
                                              a

   La mayorí enfocado a los estudios previos de la minerí en patrones secuenciales, las
            a                                            a


Á lgebra Universal para Ciencias de la Computación
Universidad Nacional de Trujillo – Ing. Informática


   secuencias de tiempo relacionadas, son adoptadas a priori como principio que indican que

   cualquier super-secuencia de una infrecuente es también infrecuente.

      El principio apriori, se basa en el método de generación y reducción; la primera exploración

   trata de encontrar todos las frecuencias, como una secuencia que es ensamblada para generar

   la segunda secuencia de candidatos. Aquellos candidatos que no cumplan el soporte mínimo

   se reducirán en el proceso; esto se repetirá hasta que no se generen más candidatos.

      La minerí a priori-como método aplicado en patrones secuenciales ha sufrido varios
               a

   inconvenientes como:

    - genera un conjunto enorme de candidatos de una secuencia de base de datos.

    - la poca eficiencia del tiempo debido a múltiples exploraciones de la secuencia base de

   datos.

      Con el algoritmo que se desarrollara en este trabajo se busca terminar con los problemas

   generados con otros métodos; por lo que el Algoritmo Á gil tiene como objetivos reducir los

   tiempos de exploración, reducir el espacio de búsqueda y el mínimo requisito de la memoria

   para buscar secuencias frecuentes, y también obtener el máximo número de secuencias

   frecuentes en la ejecución a través de un algoritmo basado en la estructura de látice.



2. ESTADO DEL ARTE

      Los algoritmos para detección del minado de patrones secuenciales se pueden agrupar en

   dos categorí Una categorí es algoritmo basado en Apriori, como GSP, SPADE, la otra
               as.          a

   categorí es algoritmo basado en el crecimiento de patrones, como PrefixSpan.
           a

      Srikant y Agrawal propusieron el algoritmo GSP (Patrón Secuencial Generalizado), el

   algoritmo realiza múltiples pases sobre la base de datos. En el primer pase todos los ítems

   simples (1-secuencias) son contados para encontrar cuales son frecuentes. A partir de los

   ítems frecuentes, un conjunto de 2-secuencias candidatas es formado y su soporte es contado

   en el otro pase por la base de datos y este proceso es repetido hasta que no se encuentren

Á lgebra Universal para Ciencias de la Computación                                          Pág. 2
Universidad Nacional de Trujillo – Ing. Informática


   nuevas secuencias frecuentes. El algoritmo GSP presenta como desventaja la gran cantidad de

   secuencias candidatas que genera, unido a los múltiples pases que necesita realizar por la base

   de datos, lo cual resulta ineficiente para la minerí de largos patrones secuenciales. Zaki
                                                       a

   propuso SPADE (Sequential Pattern Discovery using Equivalence classes), a diferencia que

   los algoritmos basados en A priori, mina todas las secuencias frecuentes en solo tres pases.

   Usa una lista de identificadores con formato vertical, sobre esta lista pueden ser enumeradas

   todas las secuencias frecuentes mediante simples uniones temporales. Utiliza un enfoque de

   látice, para descomponer el espacio de búsqueda original en clases pequeñas. El algoritmo

   SPADE supera al GSP, al introducir importantes optimizaciones que reducen el consumo de

   memoria y mejoran su eficiencia, sin embargo el SPADE se base en listas que contienen

   información sobre la localización de los patrones en las secuencias y las repeticiones

   consecutivas conllevan a un desfavorable crecimiento del tamaño de estas litas de ocurrencia

   y por lo tanto aumenta el tiempo total de extracción.

      Por otro lado, Pei propuso un algoritmo basado en el crecimiento de patrones, PrefixSpan

   se basa en la construcción recursiva de patrones. La ventaja de PrefixSpan es el uso de bases

   de datos proyectadas, para así lograr bases de datos mucho más pequeños en el próximo nivel,

   que el algoritmo pueda procesar con mayor rapidez, pero la construcción de bases de datos

   proyectadas es de mayor costo, en cuanto a tiempo y espacio, de este algoritmo.


3. BIBLIOGRAFÍA
    R. Agrawal, R. Srikant. Mining sequential patterns. IEEE Computer Society: In Proc. Of the 11 th
      International Conference on Data Engineering (ICDE’ 95). Taipei, Taiwan, March, 1995.
    R.J. Bayardo. Efficiently mining long patterns from databases. In Proc. 1998 ACM-SIGMOD Int.
      Conf. Management of Data, Seattle, WA. June 1998
    M. J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences. Journal Machine
      Learning, 2001.
    J.Pei, J. Han, H.Pinto, Q.Chen, U.Dayal. PrefixSpan: mining sequential patterns efficiently by
      prefix-projected pattern growth. In Proc. of 2001 International Conference on Data Engineering,
      2001.

Á lgebra Universal para Ciencias de la Computación                                             Pág. 3

Más contenido relacionado

PPTX
Algoritmo agil
PPTX
SQLite
PPTX
Mineria De Datos Secuenciales
PPTX
Mineria de datos secuenciales
PPT
Complejidad de Algoritmos
PDF
Vector4 4
PPTX
PDF
Mineria de datos-una_introduccion
Algoritmo agil
SQLite
Mineria De Datos Secuenciales
Mineria de datos secuenciales
Complejidad de Algoritmos
Vector4 4
Mineria de datos-una_introduccion

Similar a Algoritmo agil (20)

PPTX
Mineria de datos
PPTX
Mineria de datos
PDF
Algoritmos por-omor-azuaje2
PDF
Estructuras de datos osvaldo cairo
PDF
Algoritmos II_2020.pdf
DOC
Trabajo Final[1]
DOC
Trabajo Final[1]
PDF
Arreglos
PPTX
concepto de estructuras de datos
PDF
Teoría De La Complejidad Algoritmica
PPTX
Bases de datos de informatica
PPTX
Rc alfredo rodriguez_pptx
PPTX
Rc alfredo rodriguez_pptx
PDF
Minería de secuencias de datos
PPTX
Exposicion1
PPTX
Base de datos
PPTX
Base de datos
PPTX
Presentacion Listas, Colas, Pilas
PPTX
Data mining
PPTX
Data mining
Mineria de datos
Mineria de datos
Algoritmos por-omor-azuaje2
Estructuras de datos osvaldo cairo
Algoritmos II_2020.pdf
Trabajo Final[1]
Trabajo Final[1]
Arreglos
concepto de estructuras de datos
Teoría De La Complejidad Algoritmica
Bases de datos de informatica
Rc alfredo rodriguez_pptx
Rc alfredo rodriguez_pptx
Minería de secuencias de datos
Exposicion1
Base de datos
Base de datos
Presentacion Listas, Colas, Pilas
Data mining
Data mining
Publicidad

Último (20)

PDF
taller de informática - LEY DE OHM
PDF
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PPTX
Presentación de Redes de Datos modelo osi
PDF
SAP Transportation Management para LSP, TM140 Col18
PPTX
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPT
introduccion a las_web en el 2025_mejoras.ppt
PDF
Estrategia de apoyo tecnología miguel angel solis
PDF
Estrategia de apoyo tecnología grado 9-3
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PDF
Maste clas de estructura metálica y arquitectura
PPTX
Propuesta BKP servidores con Acronis1.pptx
PPTX
REDES INFORMATICAS REDES INFORMATICAS.pptx
PDF
CyberOps Associate - Cisco Networking Academy
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
taller de informática - LEY DE OHM
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
Influencia-del-uso-de-redes-sociales.pdf
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
Presentación de Redes de Datos modelo osi
SAP Transportation Management para LSP, TM140 Col18
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
introduccion a las_web en el 2025_mejoras.ppt
Estrategia de apoyo tecnología miguel angel solis
Estrategia de apoyo tecnología grado 9-3
historia_web de la creacion de un navegador_presentacion.pptx
Power Point Nicolás Carrasco (disertación Roblox).pptx
Presentación PASANTIAS AuditorioOO..pptx
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
Maste clas de estructura metálica y arquitectura
Propuesta BKP servidores con Acronis1.pptx
REDES INFORMATICAS REDES INFORMATICAS.pptx
CyberOps Associate - Cisco Networking Academy
Zarate Quispe Alex aldayir aplicaciones de internet .docx
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
Publicidad

Algoritmo agil

  • 1. Universidad Nacional de Trujillo – Ing. Informática ALGORITMO Á GIL USANDO LÁ TICES PARA LA DETECCIÓ N DEL MINADO DE PATRONES SECUENCIALES Salvador Amaya Raisa Sánchez Siccha Celeny Tung Meihsiu raisali_1@hotmail.com celymar_15@hotmail.com meihsiutung@hotmail.com PANORAMA GENERAL RESUMEN: Los patrones secuenciales tienen muchos usos aplicados a diferentes campos, se ha convertido en una de las aplicaciones más importantes en la minerí de datos. El problema surgido en estudios anteriores de los patrones a secuenciales es la generación de demasiados candidatos que resultan durante el proceso, obteniendo un cálculo del coste y tiempo de pasada cada vez mayor. En este trabajo se describe un mejor algoritmo, Algoritmo Á gil para aliviar este problema. El algoritmo explora la base de datos secuencial una vez para luego construir la estructura de látice que es la representación cuasi-comprimida base de datos original. ABSTRACT: Sequential Patterns has many diverse applications in many fields recently. And it has become one of the most important issues of Data Mining. The major problem in previous studies of mining sequential patterns is too many candidates sequences has been generated during the mining process, costing computing power and increasing runtime. In this paper we propose a new algorithm to alleviate this problem. The better algorithm scan sequential database only once to construct the lattice structure which is a quasi-compressed data representation of original sequential database. Palabras claves: patrones secuenciales, minerí de datos, estructuras de látices. a 1. INTRODUCCIÓ N Las secuencias frecuentes son una tarea importante de minerí de datos, desde el punto de a vista de las aplicaciones, incluyendo los patrones de aprendizaje, los patrones de acceso a la Web, Análisis del comportamiento de los clientes y otros relacionados con el tiempo de proceso de datos. El problema puede ser el estado secuencial de los patrones, es decir descubrir subsecuencias frecuentes como patrones secuencial en una base de datos. Hay muchos estudios previos de la minerí en patrones secuenciales de manera eficiente. a La mayorí enfocado a los estudios previos de la minerí en patrones secuenciales, las a a Á lgebra Universal para Ciencias de la Computación
  • 2. Universidad Nacional de Trujillo – Ing. Informática secuencias de tiempo relacionadas, son adoptadas a priori como principio que indican que cualquier super-secuencia de una infrecuente es también infrecuente. El principio apriori, se basa en el método de generación y reducción; la primera exploración trata de encontrar todos las frecuencias, como una secuencia que es ensamblada para generar la segunda secuencia de candidatos. Aquellos candidatos que no cumplan el soporte mínimo se reducirán en el proceso; esto se repetirá hasta que no se generen más candidatos. La minerí a priori-como método aplicado en patrones secuenciales ha sufrido varios a inconvenientes como: - genera un conjunto enorme de candidatos de una secuencia de base de datos. - la poca eficiencia del tiempo debido a múltiples exploraciones de la secuencia base de datos. Con el algoritmo que se desarrollara en este trabajo se busca terminar con los problemas generados con otros métodos; por lo que el Algoritmo Á gil tiene como objetivos reducir los tiempos de exploración, reducir el espacio de búsqueda y el mínimo requisito de la memoria para buscar secuencias frecuentes, y también obtener el máximo número de secuencias frecuentes en la ejecución a través de un algoritmo basado en la estructura de látice. 2. ESTADO DEL ARTE Los algoritmos para detección del minado de patrones secuenciales se pueden agrupar en dos categorí Una categorí es algoritmo basado en Apriori, como GSP, SPADE, la otra as. a categorí es algoritmo basado en el crecimiento de patrones, como PrefixSpan. a Srikant y Agrawal propusieron el algoritmo GSP (Patrón Secuencial Generalizado), el algoritmo realiza múltiples pases sobre la base de datos. En el primer pase todos los ítems simples (1-secuencias) son contados para encontrar cuales son frecuentes. A partir de los ítems frecuentes, un conjunto de 2-secuencias candidatas es formado y su soporte es contado en el otro pase por la base de datos y este proceso es repetido hasta que no se encuentren Á lgebra Universal para Ciencias de la Computación Pág. 2
  • 3. Universidad Nacional de Trujillo – Ing. Informática nuevas secuencias frecuentes. El algoritmo GSP presenta como desventaja la gran cantidad de secuencias candidatas que genera, unido a los múltiples pases que necesita realizar por la base de datos, lo cual resulta ineficiente para la minerí de largos patrones secuenciales. Zaki a propuso SPADE (Sequential Pattern Discovery using Equivalence classes), a diferencia que los algoritmos basados en A priori, mina todas las secuencias frecuentes en solo tres pases. Usa una lista de identificadores con formato vertical, sobre esta lista pueden ser enumeradas todas las secuencias frecuentes mediante simples uniones temporales. Utiliza un enfoque de látice, para descomponer el espacio de búsqueda original en clases pequeñas. El algoritmo SPADE supera al GSP, al introducir importantes optimizaciones que reducen el consumo de memoria y mejoran su eficiencia, sin embargo el SPADE se base en listas que contienen información sobre la localización de los patrones en las secuencias y las repeticiones consecutivas conllevan a un desfavorable crecimiento del tamaño de estas litas de ocurrencia y por lo tanto aumenta el tiempo total de extracción. Por otro lado, Pei propuso un algoritmo basado en el crecimiento de patrones, PrefixSpan se basa en la construcción recursiva de patrones. La ventaja de PrefixSpan es el uso de bases de datos proyectadas, para así lograr bases de datos mucho más pequeños en el próximo nivel, que el algoritmo pueda procesar con mayor rapidez, pero la construcción de bases de datos proyectadas es de mayor costo, en cuanto a tiempo y espacio, de este algoritmo. 3. BIBLIOGRAFÍA  R. Agrawal, R. Srikant. Mining sequential patterns. IEEE Computer Society: In Proc. Of the 11 th International Conference on Data Engineering (ICDE’ 95). Taipei, Taiwan, March, 1995.  R.J. Bayardo. Efficiently mining long patterns from databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data, Seattle, WA. June 1998  M. J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences. Journal Machine Learning, 2001.  J.Pei, J. Han, H.Pinto, Q.Chen, U.Dayal. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. In Proc. of 2001 International Conference on Data Engineering, 2001. Á lgebra Universal para Ciencias de la Computación Pág. 3