Algoritmo agil

Universidad Nacional de Trujillo – Ing. Informática

ALGORITMO Á GIL USANDO LÁ TICES PARA LA DETECCIÓ N DEL
MINADO DE PATRONES SECUENCIALES

Salvador Amaya Raisa Sánchez Siccha Celeny Tung Meihsiu
raisali_1@hotmail.com celymar_15@hotmail.com meihsiutung@hotmail.com

PANORAMA GENERAL

RESUMEN:
Los patrones secuenciales tienen muchos usos aplicados a diferentes campos, se ha convertido en una de las
aplicaciones más importantes en la minerí de datos. El problema surgido en estudios anteriores de los patrones
a
secuenciales es la generación de demasiados candidatos que resultan durante el proceso, obteniendo un cálculo del
coste y tiempo de pasada cada vez mayor. En este trabajo se describe un mejor algoritmo, Algoritmo Á gil para
aliviar este problema. El algoritmo explora la base de datos secuencial una vez para luego construir la estructura de
látice que es la representación cuasi-comprimida base de datos original.

ABSTRACT:
Sequential Patterns has many diverse applications in many fields recently. And it has become one of the most
important issues of Data Mining. The major problem in previous studies of mining sequential patterns is too many
candidates sequences has been generated during the mining process, costing computing power and increasing
runtime. In this paper we propose a new algorithm to alleviate this problem. The better algorithm scan sequential
database only once to construct the lattice structure which is a quasi-compressed data representation of original
sequential database.

Palabras claves: patrones secuenciales, minerí de datos, estructuras de látices.
a

1. INTRODUCCIÓ N

Las secuencias frecuentes son una tarea importante de minerí de datos, desde el punto de
a

vista de las aplicaciones, incluyendo los patrones de aprendizaje, los patrones de acceso a la

Web, Análisis del comportamiento de los clientes y otros relacionados con el tiempo de

proceso de datos. El problema puede ser el estado secuencial de los patrones, es decir

descubrir subsecuencias frecuentes como patrones secuencial en una base de datos.

Hay muchos estudios previos de la minerí en patrones secuenciales de manera eficiente.
a

La mayorí enfocado a los estudios previos de la minerí en patrones secuenciales, las
a a

Á lgebra Universal para Ciencias de la Computación


secuencias de tiempo relacionadas, son adoptadas a priori como principio que indican que

cualquier super-secuencia de una infrecuente es también infrecuente.

El principio apriori, se basa en el método de generación y reducción; la primera exploración

trata de encontrar todos las frecuencias, como una secuencia que es ensamblada para generar

la segunda secuencia de candidatos. Aquellos candidatos que no cumplan el soporte mínimo

se reducirán en el proceso; esto se repetirá hasta que no se generen más candidatos.

La minerí a priori-como método aplicado en patrones secuenciales ha sufrido varios
a

inconvenientes como:

- genera un conjunto enorme de candidatos de una secuencia de base de datos.

- la poca eficiencia del tiempo debido a múltiples exploraciones de la secuencia base de

datos.

Con el algoritmo que se desarrollara en este trabajo se busca terminar con los problemas

generados con otros métodos; por lo que el Algoritmo Á gil tiene como objetivos reducir los

tiempos de exploración, reducir el espacio de búsqueda y el mínimo requisito de la memoria

para buscar secuencias frecuentes, y también obtener el máximo número de secuencias

frecuentes en la ejecución a través de un algoritmo basado en la estructura de látice.

2. ESTADO DEL ARTE

Los algoritmos para detección del minado de patrones secuenciales se pueden agrupar en

dos categorí Una categorí es algoritmo basado en Apriori, como GSP, SPADE, la otra
as. a

categorí es algoritmo basado en el crecimiento de patrones, como PrefixSpan.
a

Srikant y Agrawal propusieron el algoritmo GSP (Patrón Secuencial Generalizado), el

algoritmo realiza múltiples pases sobre la base de datos. En el primer pase todos los ítems

simples (1-secuencias) son contados para encontrar cuales son frecuentes. A partir de los

ítems frecuentes, un conjunto de 2-secuencias candidatas es formado y su soporte es contado

en el otro pase por la base de datos y este proceso es repetido hasta que no se encuentren

Á lgebra Universal para Ciencias de la Computación Pág. 2


nuevas secuencias frecuentes. El algoritmo GSP presenta como desventaja la gran cantidad de

secuencias candidatas que genera, unido a los múltiples pases que necesita realizar por la base

de datos, lo cual resulta ineficiente para la minerí de largos patrones secuenciales. Zaki
a

propuso SPADE (Sequential Pattern Discovery using Equivalence classes), a diferencia que

los algoritmos basados en A priori, mina todas las secuencias frecuentes en solo tres pases.

Usa una lista de identificadores con formato vertical, sobre esta lista pueden ser enumeradas

todas las secuencias frecuentes mediante simples uniones temporales. Utiliza un enfoque de

látice, para descomponer el espacio de búsqueda original en clases pequeñas. El algoritmo

SPADE supera al GSP, al introducir importantes optimizaciones que reducen el consumo de

memoria y mejoran su eficiencia, sin embargo el SPADE se base en listas que contienen

información sobre la localización de los patrones en las secuencias y las repeticiones

consecutivas conllevan a un desfavorable crecimiento del tamaño de estas litas de ocurrencia

y por lo tanto aumenta el tiempo total de extracción.

Por otro lado, Pei propuso un algoritmo basado en el crecimiento de patrones, PrefixSpan

se basa en la construcción recursiva de patrones. La ventaja de PrefixSpan es el uso de bases

de datos proyectadas, para así lograr bases de datos mucho más pequeños en el próximo nivel,

que el algoritmo pueda procesar con mayor rapidez, pero la construcción de bases de datos

proyectadas es de mayor costo, en cuanto a tiempo y espacio, de este algoritmo.

3. BIBLIOGRAFÍA
 R. Agrawal, R. Srikant. Mining sequential patterns. IEEE Computer Society: In Proc. Of the 11 th
International Conference on Data Engineering (ICDE’ 95). Taipei, Taiwan, March, 1995.
 R.J. Bayardo. Efficiently mining long patterns from databases. In Proc. 1998 ACM-SIGMOD Int.
Conf. Management of Data, Seattle, WA. June 1998
 M. J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences. Journal Machine
Learning, 2001.
 J.Pei, J. Han, H.Pinto, Q.Chen, U.Dayal. PrefixSpan: mining sequential patterns efficiently by
prefix-projected pattern growth. In Proc. of 2001 International Conference on Data Engineering,
2001.

Á lgebra Universal para Ciencias de la Computación Pág. 3

Algoritmo agil

Más contenido relacionado

Similar a Algoritmo agil (20)

Último (20)

Algoritmo agil