SlideShare una empresa de Scribd logo
2
Lo más leído
4
Lo más leído
5
Lo más leído
Identificando Patrones de Predicción y Clasificación de Alarmas por Alto Spread en
un Sistema de Combustión de Turbina a Gas
Roberto Prieto Morales
Ingeniero de Proyectos de Tecnología de la Información
Magíster en Ingeniería Informática UCN
Antofagasta, Chile
robertoprieto@vtr.net
Claudio Meneses Villegas
Departamento de Ingeniería de Sistemas y Computación
Universidad Católica del Norte
Antofagasta, Chile
cmeneses@ucn.cl
Abstract— En este artículo se analizan y modelan datos
operacionales de un sistema de combustión de turbina a gas,
para clasificar y predecir la condición de “alarma por alto
spread”. Esta condición de alarma indica que la combustión de
la turbina no está siendo uniforme, lo cual puede llevar
eventualmente a la deformación de la turbina. Con la
generación de patrones de predicción y clasificación, se busca
anticiparse a la activación de la alarma por alto spread en el
sistema de combustión de la turbina, con lo cual se podría
evitar o disminuir la indisponibilidad de la turbina. Mediante
el entrenamiento de algoritmos de redes neuronales y árboles
de decisión se obtuvieron dos modelos de clasificación y un
modelo predictivo, los cuales fueron evaluados
cuantitativamente y en base a la percepción de los usuarios,
siendo los modelos de árbol mejor evaluados en este último
aspecto.
Keywords- Alarma por Alto Spread; Sistema Combustión de
Turbina a Gas; Identificación de Patrones en Sistemas de
Combustión
I. INTRODUCCIÓN
Actualmente las organizaciones están inmersas en un
mercado muy competitivo, por lo que es importante para
ellas, que sus ejecutivos posean información relevante y
oportuna a la hora de tomar decisiones. Dentro de las
herramientas que ocupan las organizaciones para apoyar la
toma de decisiones, está la minería de datos.
Fayad (1996), define minería de datos como la búsqueda
de patrones relevantes y de regularidades importantes en
grades almacenes de datos [11]. Por otro lado, Michalski
(1998) se refiere a minería de datos inteligente como la
aplicación de métodos de aprendizaje automático u otros
métodos similares, para descubrir y enumerar patrones
presentes en los datos [12]. El aprendizaje automático es el
área de la Ingeniería Informática, que estudia y desarrolla
algoritmos que implementan distintos modelos de
aprendizaje, y lo aplican en la resolución de problemas
prácticos [16].
La minería de datos, se presenta como una etapa dentro
de un proceso más amplio, que se refiere a la aplicación de
algoritmos específicos para la extracción de patrones desde
datos. Dicha etapa es parte del proceso de descubrimiento de
conocimiento desde los datos, conocido como proceso KDD
(Knowledge Discovery in Databases).
El término KDD fue acuñado por Piatetsky Shapiro
(1989) [1] para enfatizar que el “conocimiento” es el
producto final del descubrimiento accionado por los datos.
El conocimiento extraído, es muy valioso para las
organizaciones a la hora de tomar decisiones. Para tomar
decisiones correctas, confiables y acertadas se debe contar
con la información adecuada [7].
Este artículo describe la aplicación de un proceso
metodológico basado en la guía CRISP-DM (Cross Industry
Standard Process for Data Mining), para la resolución de un
problema operacional de alto impacto en una Central
Generadora de Electricidad.
La aplicación de la metodología CRISP-DM en una
Central Generadora de Electricidad busca entregar
información a la empresa para apoyar la toma de decisiones.
En términos concretos, se busca anticiparse al problema de la
activación de la protección por alto spread del sistema de
combustión de la TG (Turbina a Gas).
El resto del artículo está estructurado como se indica a
continuación. La sección II describe el problema y su
contexto. En la sección III se describe la metodología
empleada en el desarrollo del trabajo. Las secciones IV y V
describen los datos utilizados, su selección y transformación,
respectivamente. La sección VI presenta y analiza los
modelos de predicción y clasificación obtenidos. Finalmente,
se presentan las conclusiones y trabajo futuro.
II. SISTEMA DE COMBUSTION DE TURBINA A GAS
El presente caso de estudio se llevó a cabo en una Central
Generadora de Electricidad perteneciente al SING (Sistema
Interconectado del Norte Grande), cuya matriz energética es
gas y petróleo. Esta Central Generadora, posee dentro de sus
objetivos tener la máxima disponibilidad posible para todas
sus TG.
Por lo anterior, resulta imperioso para la organización
trabajar en evitar fallas en sus TG, que puedan producir
alguna indisponibilidad de las TG en la generación eléctrica.
En lo relacionado al sistema especifico objeto del
estudio, éste corresponde a la turbina a gas, la cual es la
principal máquina para generar electricidad que posee la
organización. Esta turbina está compuesta por los sistemas
de escape, enfriamiento y combustión.
En la Figura 1 [9], se puede apreciar las principales
partes de la TG, separadas en dos partes, generación a gas y
generación a energía.
Figura 1. Corte longitudinal de la Turbina a gas. 1. generador de gas, 2.
generador de energía, 3. álabe de turbina de potencia, 4. poder tobera
turbina, 5. generador de turbina de gas cuchilla, 6. revestimiento de
combustión, 7. impulsor del compresor, 8. el generador de estructuras.
El sistema de combustión de la turbina está compuesto
por catorce cámaras de combustión, las cuales están
dispuestas simétricamente alrededor del rotor de la turbina.
Periódicamente se registran mediciones de variables
asociadas a la temperatura de las cámaras del sistema de
combustión. Dichas temperaturas deben mantenerse
uniformes, debido a que una alta diferencia de temperatura
entre las cámaras de combustión, significaría que no se está
produciendo una combustión eficiente y segura.
Por lo anterior, implicaría que se podría provocar una
deformación en la estructura de la turbina, además de una
pérdida de eficiencia en la capacidad de generación de
electricidad.
El Sistema de Control Distribuido DCS (Distributed
Control System) monitorea y controla el funcionamiento de
la TG. En el DCS se encuentra configurada una protección
por alto spread en el sistema de combustión, la cual opera al
identificar una alta diferencia de temperatura entre las
cámaras de combustión de la TG.
La protección actúa en primera instancia alarmando el
alto spread. El sólo surgimiento de esta alarma, implica una
disminución en la capacidad de generación en la TG, debido
a que no son uniformes las fuerzas que hacen girar el eje del
generador. En segunda instancia la alarma por alto spread,
opera deteniendo el funcionamiento de la turbina, lo cual
implica una indisponibilidad de la TG, conllevando a una
pérdida de confianza ante sus clientes y la comunidad.
III. ASPECTOS METODOLÓGICOS DEL DESARROLLO DEL
PROYECTO
El proyecto se abordó adoptando la guía CRISP-DM como
marco de desarrollo del trabajo, el cual se instanció para este
caso particular.
A. Guía Metodológica CRISP-DM
CRISP-DM en esencia corresponde a un modelo de
proceso que proporciona un marco para el desarrollo de
proyectos en el ámbito de Data Mining [8]. El cual, está
siendo desarrollado por un consorcio de los principales
usuarios y proveedores de minería de datos.
Este modelo de referencia, proporciona una visión
general del ciclo de vida de un proyecto de minería de datos,
el cual contiene las fases de un proyecto, sus tareas
respectivas, y sus salidas.
El ciclo de vida de un proyecto de minería de datos se
divide en seis fases que se muestran en la Figura 2.
La secuencia de las fases no es estricta, y en la práctica es
un proceso iterativo. Las flechas indican sólo las secuencias
y las dependencias más importantes entre las fases.
Figura 2. Fases del modelo de proceso CRISP-DM para el desarrollo de
proyectos de minería de datos. (Fuente: http://www.crisp-dm.org/).
B. Instanciación de la Guía CRISP-DM
La guía CRISP-DM corresponde a un proceso genérico,
el cual requiere ser instanciado para cada tipo de proyecto de
data mining. A continuación se presenta la adaptación de
CRISP-DM al problema particular descrito en la sección II y
su aplicación.
La Figura 3 muestra las tareas desarrolladas para el
problema analizado.
Figura 3. Secuencia de tareas desarrolladas
1) Entendimiento del negocio
El objetivo de negocio que se persigue con la realización
del proyecto es mejorar el indicador de disponibilidad de la
TG, mediante la aplicación de técnicas y herramientas de
minería de datos.
Específicamente, se busca contribuir a maximizar la
confiabilidad de arranque, minimizar salidas forzadas, lograr
disponibilidad de acuerdo a programa de mantenimiento,
disponibilidad media equivalente (92%), cumplir con la
duración de los mantenimientos mayores.
Por lo anterior, se desea evitar las fallas o
indisponibilidad de la TG por un tiempo prolongado, tal
que, no se ponga en riesgo los contratos vigentes, y lograr
menor índice de falla en el SING.
Desde el punto de vista técnico, los objetivos al aplicar
las técnicas de minería de datos en esta situación particular,
son generar patrones de predicción y clasificación, para
apoyar la toma de decisiones, asociadas a evitar la activación
de la protección por alto spread en el sistema de combustión
de la TG.
La Turbina a Gas, es un motor térmico rotativo de flujo
continuo que se caracteriza por presentar una baja relación
peso-potencia y una velocidad de giro muy elevada. La TG
está compuesta por los sub sistemas de combustión,
enfriamiento y escape.
Se utiliza para la generación eléctrica, ya que la
combustión generada al incinerar gas, hace que los gases
calientes al escapar hagan girar el rotor del alternador de la
TG, con lo cual se produce inducción, la cual se trasforma en
energía eléctrica.
A continuación en la Figura 4 [10], se muestra el
esquema de funcionamiento de la TG para generar
electricidad.
Figura 4. Esquema de funcionamiento de turbina a gas.
En la Figura 5 se describen en mayor detalle los
pasos de la secuencia de funcionamiento de una TG.
Figura 5. Secuencia de funcionamiento de turbina a gas.
2) Descripción del problema
El sub sistema de combustión de la TG se compone por
catorce cámaras de combustión, en donde se incinera el gas
natural o petróleo diesel, estas cámaras se encuentran
distribuidas simétricamente alrededor del rotor de la TG.
Existe una protección configurada en el DCS, esta se
produce por alto spread en el sistema de combustión de la
TG. Esta protección se calcula empíricamente tomando
como datos entre otros, las temperaturas de las cámaras de
combustión de la TG. La activación de dicha protección
implica que no se está produciendo una combustión
uniforme entre las cámaras de combustión.
Lo anterior, conlleva a una disminución de la generación
de electricidad de la TG, es decir que con la misma cantidad
de combustible se genera menos carga eléctrica que en una
situación óptima. Además, la generación de electricidad con
una combustión no uniforme entre las cámaras provoca
daños en la estructura de la TG, deformando sus piezas.
Actualmente, cuando opera la alarma por un alto spread
el operador disminuye la potencia eléctrica de la TG, hasta
encontrar la causa y corregir el problema.
Se propone analizar los datos patrones de predicción y
clasificación, para anticipar la operación de la protección por
alto spread en el sistema de combustión de la TG.
Existe antecedente de aplicación de técnica de minería de
datos en Centrales de Generación Eléctrica para identificar
otras fallas en equipos [14].
IV. ENTENDIMIENTO DE LOS DATOS
Para la realizar la solución de minería de datos propuesta,
es necesario contar con registros históricos, que posibiliten
la creación de patrones.
La Central, tiene implementada la plataforma industrial
de gestión de información “PI SYSTEM”. Esta plataforma
está compuesta por software, que permiten mostrar datos de
proceso en tiempo real y almacenarlos en una base de datos
propietaria.
La TG está compuesta por los sub sistemas escape,
enfriamiento y combustión, también existen señalen que
influyen en la generación eléctrica como los equipos
auxiliares, aparte de las señales propias de la generación
eléctrica como la potencia eléctrica y la frecuencia.
Según el usuario del negocio como el alto spread se
origina en el sub sistema de combustión de la TG, se
seleccionaron todas las señales de ese sub sistema, aparte de
señales que dependen directamente de la activación de la
alarma por alto spread, como la potencia eléctrica y la
frecuencia.
La inclusión de cualquier otra variable adicional no
tendría relación con el alto spread de la TG. Por lo cual, sólo
produciría ruido en la elaboración de los modelos.
Al conjunto de datos resultante, se agregó manualmente
el atributo clase. Este atributo corresponde a la activación de
la alarma por alto spread en el sistema de combustión de la
TG. Dicho atributo es de tipo numérico, codificándose como
el valor 0 para condición sin alarma y 1 para condición con
alarma.
Para el presente caso de estudio, se seleccionaron
registros históricos a partir de enero del 2008 y hasta
diciembre del 2010. Por lo cual, el conjunto de datos final
seleccionado por el usuario del negocio, incluye 54 variables,
todas de tipo numérica. En la tabla 1 se muestra un resumen
del conjunto de datos seleccionado.
Característica Valor
Total atributos: 54
Total Instancias: 23430
Tipo de atributos: Numérico
Total Instancias erróneas: 382
Tabla 1. Resumen del conjunto de datos
En la Figura 6 se describe la tabla de hechos del conjunto
de variables seleccionadas.
Figura 6. Tabla de hecho.
El conjunto obtenido de datos posee únicamente variables
de tipo numérico, correspondiente a valores de variables de
proceso como temperaturas de las cámaras de combustión,
presión, intensidad de la llama, etc.
En la Tabla 2, se describe una caracterización de algunos
atributos del conjunto de datos.
Nombre
atributos
Valores de variables
Instanc
ias
distinta
s
Media Desviac
ión
estánda
r
moda mínim
o
máxim
o
UNOADLN_M
ODE_GAS
16 0.04 0.486 0 0 9
UNOAFD_INT
ENS_2
3630 102.718 75.307 2012 0 231.24
5
UNOAFD_INT
ENS_3
1405 94.448 382.94
5
844 0 5708
UNOAFD_INT
ENS_4
1041 72.332 398.40
2
613 0 3822
UNOAFD_INT
ENS_5
15285 61.929 42.372 14253 0 162.66
8
UNOAFLUPSP 7005 0.315 0.899 5756 0 12.401
UNOAFPG3 5114 0.22 1.581 4578 0 39.306
UNOAPLPDPL 2310 0.037 0.281 1821 0 6.286
UNOAPLSDPL 1660 0.042 0.273 1232 0 8.082
UNOATTRF1 5698 27.619 83.892 4154 0 1154.3
3
UNOATTRXB 3358 7.31 19.405 2013 0 611.21
9
UNOATTXD1_
1
4442 16.772 46.329 3065 0 614.83
8
UNOATTXD1_
10
4360 16.364 45.691 2996 0 615.24
4
UNOATTXD1_
11
4655 16.682 44.216 3277 0 614.83
8
class 2 - - - - -
Tabla 2. Caracterización del conjunto de datos.
La figura 7 muestra la relación de variables entre la
temperatura de combustión de la cámara número 5 (eje X), y
la temperatura de los gases de la cámara de combustión (eje
Y) medidas en grados Celsius.
Este gráfico muestra que existe una relación directamente
proporcional, es decir a mayor temperatura de combustión,
mayor es la temperatura de gases de escape. Lo que implica,
que se está realizando una combustión óptima en la cámara
N° 5, ya que, que los inyectores de combustibles no se
encuentran sucios y la cámara de combustión aún no necesita
ser lavada para sacar los residuos de la combustión adheridos
a ella.
Figura 7. Gráfico temperatura de gases.
En la figura 8 se representa la relación de variables entre
la diferencia de temperatura de las cámaras de combustión
N° 5 y N° 10 (eje X), y la temperatura de la turbina (eje Y)
medida en grados Celsius.
En este gráfico se aprecia que se encuentra delimitado el
valor máximo para la diferencia de temperatura entre
cámaras de combustión. Para el periodo de tiempo dado la
diferencia de temperatura entre las cámaras de combustión
N° 5 y N° 10 mayoritariamente fue baja, independiente de la
temperatura de la turbina. Lo que implica, que para un
funcionamiento normal de la TG, necesariamente debe
existir una baja diferencia de temperatura entre las cámaras
de combustión.
Figura 8. Gráfico diferencias de temperatura.
La tabla 3 describe la matriz de correlación para los
atributos más relevantes relacionados con el atributo clase.
Atributos Valor correlación
Primero Segundo
Unoafd_intens_5 Unoafsr_control -0.002
Unoafd_intens_5 Unoal83llbm -0.002
Unoafd_intens_5 Class 0.112
Unoafsr_control Class -0.018
Unoal83llbm Class -0.018
Tabla 3. Matriz de correlación de variables.
Las relaciones entre variables descritas en la Tabla 3,
corresponden en su gran mayoría a correlación negativa
débil. Excepto, la relación entre la temperatura de
combustión de la cámara N° 5 y la variable clase. Esta
relación es una correlación positiva débil. Por lo cual, la
variable ‘Unoafd_intens_5’ está más correlacionada con el
valor de la variable clase que el resto de las otras variables.
V. TRANSFORMACIÓN Y SELECCIÓN DE DATOS
La calidad de los datos es un factor importante en el
éxito de la minería de datos en una tarea determinada. Por lo
cual, es una etapa relevante dentro del modelo de proceso
CRISP-DM. La selección de atributos es el proceso de
identificar y eliminar la mayor cantidad de información
irrelevante y redundante [2].
Para el presente caso de estudio, se realizó una limpieza
de los registros erróneos, eliminando dichos registros. Estos
eran producto de fallas en la captura de las señales. Además
se verificó la integridad de los datos, no encontrando
problemas de este tipo.
Dado que existe una gran cantidad de atributos
(cincuenta y cuatro) se aplicó una técnica para evaluar a
priori su importancia y disminuir el número de atributos,
dejando sólo los más relevantes. A continuación se detalla la
técnica utilizada de atributo evaluador y método de
búsqueda, para reducir el número de atributo del conjunto de
datos.
• Atributo evaluador CfsSubsetEval [3], este método
evalúa un subconjunto de atributos considerando la
habilidad predictiva individual de cada variable, así
como el grado de redundancia entre ellas.
• Método de búsqueda BestFirst [3], este algoritmo
de búsqueda, trata de expandir el nodo
más próximo al objetivo, percibiendo que
probablemente conduzca rápidamente a una
solución. El algoritmo BestFirst puede comenzar su
búsqueda por el conjunto vacío de atributos y de
búsqueda hacía adelante, o empezar con todo el
conjunto de atributos y búsqueda hacia tras, o
empezar en cualquier momento y buscar en ambas
direcciones (enfoque híbrido).
En la tabla 4, se detallan los resultados obtenidos de la
aplicación de la técnica de selección de atributos BestFirst.
Resultados aplicación técnica selección de atributos BestFirst
Inicio establecido: Sin atributos.
Dirección de búsqueda: Hacia adelante.
Búsqueda de rancio: Después de 5 expansiones de
nodos.
Número de subconjuntos de evaluación: 410
Mérito del mejor subconjunto: 0.113
Tabla 4. Resumen resultados BestFirst.
La aplicación de esta técnica obtuvo como resultado
una disminución de atributos de 54 a 4. La Tabla 5 detalla
los atributos seleccionados.
la
c
m
[
a
p
s
u
lo
p
d
a
á
ll
h
u
u
e
e
a
p
g
u
g
c
lo
c
s
n
m
t
a
p
Variable
UNOAFD_INTE
UNOAFSR_CO
UNOAL83LLB
Class
VI. MO
Existen an
a performanc
clasificación. C
más adecuado,
15]. Además
antecedentes d
problema parti
sistema de com
Para el p
usuario del neg
os analice y
problema plant
de árbol de dec
Los árbol
aprendizaje de
árboles están
lamados nodo
homogéneos re
Las redes
utilizadas por
ubicación y se
entrada y salid
eficaz para el re
El algoritm
algoritmo C 4.
posee el máx
ganancia, com
utiliza los atr
generando una
El algoritm
corregir en el á
os datos de
complejidad en
El algorit
sigmoidales qu
no lineales para
minimizan el
emprana.
El overfitt
algoritmo busc
particular, usan
D
ENS_5 Te
N
ONTROL Te
M In
Pr
Tabla 5. Atribu
ODELOS DE CLA
ntecedentes de
ce de un c
Concluyendo qu
, es altamente
s, se debe
de aplicación
icular de la a
mbustión de la T
presente caso
gocio tenga mo
escoja el mo
teado. Para lo
cisión y red neu
les de decisión
clasificación
compuesto p
os terminales
especto a una v
s neuronales
r muchos inv
everidad de d
da. Ya que, p
econocimiento
mo J48 es la i
5. Este algorit
ximo de info
mo criterio de
ributos que m
rama por cada
mo RepTree p
árbol de decisi
entrenamiento
n el proceso de
tmo Multilaye
ue se emplean
a todas las capa
sobreajuste c
ting o sobrea
ca las mejores
ndo un conju
Descripción
emperatura cámar
N° 5
emperatura de con
ntensidad de la llam
rotección
utos seleccionados
ASIFICACIÓN Y
estudios, en el
conjunto de
ue la elección
e dependiente
considerar q
de minería d
alarma por alt
TG.
de estudio, s
odelos de vario
odelo que mej
cual, se aplic
uronal artificial
n son una téc
supervisada, p
por segmentos
u hojas. E
variable de dest
artificiales (A
vestigadores
distintos tipos
proporcionan
o de patrones [1
implementación
tmo J48, elig
ormación rela
la mejor div
mejor diferen
a salida.
presenta una p
ión los efectos
. El árbol po
clasificación.
er Perceptron
como activaci
as. Estas funcio
con un métod
ajuste se prod
s variables par
unto de datos
ra de combustión
ntrol de la turbina
ma cámara N° 8
PREDICCIÓN
l cual se compa
algoritmos
de del algoritm
de la aplicaci
que no exist
de datos para
to spread en
se desea que
os tipos, para q
jor soluciona
arán las técnic
l.
cnica sencilla
pero exitosa. L
s más pequeñ
stos nodos s
tino [17].
ANN) han si
para identific
de variables
una herramien
18].
n para Weka d
e el atributo q
acionada con
visión. Adem
ncia las salid
poda rápida pa
de los ruidos
odado reduce
posee funcion
ión de funcion
ones sigmoida
do de detecci
duce cuando
ra un modelo
limitado, pue
ara
de
mo
ión
ten
el
un
el
que
el
cas
de
Los
ños
son
ido
car
de
nta
del
que
la
más,
das,
ara
en
la
nes
nes
les
ión
un
en
ede
sobre a
del mod
Pa
sobreaj
clasific
ANN
seleccio
A. Alg
Este
multica
tipo fe
propaga
paralela
denomi
con la
capa po
Las
Percept
funcion
regular
Por lo
mapeo
En
artificia
variable
y una n
de los
predicc
La
ajustan
estado
funcion
datos d
su fase
El a
mecani
salidas
los resu
correcto
datos d
El m
siguien
ajustar los dato
delo sobre los
ra la reducir
uste, en el pre
cadores RepTr
Multilayer
onados se encu
goritmo Multila
e algoritmo e
apa. Según Rum
eedforward con
ación, son un
a, en donde,
inadas neurona
capa anterior d
osterior hacia d
s principales c
tron son su ca
nales a partir
ridades en los d
cual, son mu
no lineal [19].
la Figura 9, se
al generada. En
es a la capa de
neurona en la s
ocho pesos si
ción.
Figura 9. Est
ANN empieza
do dichos val
en donde es
nal dentro de
de entrada y el
de aprendizaje
ajuste de los c
ismo de retro p
hacia las capa
ultados obtenid
o entregado po
de entrenamient
mecanismo de
nte [4]:
os, resultando
datos de prueb
la complejida
esente caso de
ree y J48, ad
Perceptron.
uentran disponi
ayer Perceptron
es una ANN
menlhart (1986
n aprendizaje
n tipo de estr
varias pequeñ
as, están masi
de donde recib
donde la transm
aracterísticas d
apacidad para
de ejemplos
datos, a través,
uy adecuados
muestra la estr
n donde se apre
entrada, dos n
salida. Además
inápticos gene
tructura de la red n
a con unos pe
lores iterativam
s capaz de d
los objetivos p
conjunto de d
e.
oeficientes, se
propagación de
as ocultas, par
dos de la salid
or el vector que
to.
proceso forma
un rendimien
ba [20].
d y evitar el
e estudio se oc
demás del Alg
Los tres
ibles en Weka.
n
(red neuronal
6) las ANN mu
por algoritmo
ructura de co
ñas unidades
ivamente inter
ben información
miten [5].
del algoritmo
aprender las
s, descubrir p
, de la auto org
para de prob
ructura de la re
ecia el ingreso
neuronas en la c
s se ilustra la d
erados por el m
neuronal articifial.
esos aleatorios
mente, hasta ll
determinar un
preestablecidos
datos de entrena
realiza por m
l error desde la
ra posteriorme
da de la red co
e contiene el c
al para cada neu
nto inferior
exceso de
cuparán los
goritmo de
algoritmos
.
l artificial)
ulticapas de
o de retro
omputación
de cálculo
rconectadas
n, y con la
Multilayer
relaciones
patrones y
ganización.
blemas de
ed neuronal
de las tres
capa oculta
distribución
modelo de
y aprende
legar a un
na relación
s entre los
amiento en
medio de un
as capas de
ente cotejar
on el valor
conjunto de
urona es el
E
p
s
p
d
f
r
c
c
in
C
E
En donde,
producto esca
sinápticos.
es el vector d
es el vector d
El subíndice
es un valor
para disminuir e
La función
de la neurona,
función
El resultado
rango [0,1]. La
cada neurona d
capa, en donde
ndependientes,
C. Algoritmo J
El algoritm
Esta impleme
es la salid
alar entre el
 
de pesos sinápt
de entradas a la
e m indica el nú
r denominado
el sesgo.
transforma e
en la mayoría
o de esta func
a salida de cad
de la capa sig
e la entrada es
, tal como se a
J48
mo J48 es una
entación gene
da de la neur
vector traspu
ticos.
a neurona.
úmero de entra
umbral que p
el escalar resul
de los casos co
ción produce s
da neurona, es
guiente, except
s el vector c
aprecia en la Fi
Figura
aplicación del
era árboles d
(1)
rona, es
uesto de pes
(2)
(3)
adas a la neuron
permite ajustar
tante en la sali
orresponde a u
sigmoid
(4)
alidas dentro d
una entrada pa
to en la prime
con las variab
gura 9.
10: Árbol Gráfico
l algoritmo C4
de decisión.
)
el
sos
na,
rse
ida
una
dal.  
del
ara
era
les
El m
Percept
pondera
de entr
Esta va
spread
variable
B. Alg
El a
patrón
aplicac
un árbo
El f
dos fas
que se
la segu
ejemplo
Para
paráme
En
el algor
la part
cambio
que cor
o generado por el a
4.5.
El
algoritm
decisió
algoritm
los atri
modelo predict
tron entregó c
aciones de pes
rada y empíric
ariable clase e
en el sistema
es de entrada e
goritmo Rep Tr
algoritmo RepT
de clasificaci
ión de dicho a
ol de clasificaci
funcionamiento
ses, en la prim
sobreajuste a l
unda fase se
os que no parti
a la aplicació
etros por defect
la Figura 10 se
ritmo Rep Tre
te no relacion
o en la rama d
rresponden a la
algoritmo Rep Tree
mo J48 ocupa
n para los
mo, utiliza en l
ibutos que mej
tivo elaborado
como resultado
sos. Estos peso
camente determ
es la que indic
a de combustió
en particular.
ee
Tree se utiliza p
ón, obteniendo
algoritmo una r
ión.
o del algoritmo
mera fase se cre
los datos usado
poda el conj
ciparon en el a
n de este alg
tos en la constr
e muestra el ár
e. La rama izq
nada con la c
derecha del árb
a alarma.
e.
a una técnica
árboles de
la elaboración
jor diferencia
por algoritmo
o la generació
os ponderan la
minan la vari
ca si se produ
ón de la TG,
para la elabora
o como result
representación
o RepTree se co
ea un conjunto
os para el apre
njunto de regl
aprendizaje [3].
goritmo se util
rucción el mode
rbol gráfico ge
quierda del árb
condición de a
bol están los i
a voraz para
clasificación
del árbol de cl
las salidas, cr
Multilayer
ón de ocho
as variables
able clase.
uce el alto
para unas
ación de un
tado de la
gráfica de
ompone de
o de reglas
ndizaje, en
las usando
.
lizaron los
elo.
enerado por
bol muestra
alarma, en
indicadores
inducir la
[6]. Este
asificación
reando una
r
lo
c
p
g
c
la
m
in
m
r
U
c
d
c
A
a
e
o
a
B
R
rama por cada
os miembros p
con dicha clase
Para la apl
parámetros por
En la Figur
generado. En
clasificación de
a condición de
Fi
Para la con
minería de da
nstancias para
métricas de r
resumen en la T
Variable
Coeficiente
correlación
Media de
absoluto
Raiz de
cuadrado
Error abso
relativo
Raiz de
relativo cuadra
Número
instancias
Una vez ob
clasificación, s
del potencial g
continuación se
A. Modelo de p
El modelo
artificial, permi
específicos de
operacionalmen
activación de la
B. Modelo de c
El modelo
Rep Tree clasif
salida [13]. Ad
poseen la mis
e [3].
licación de es
r defectos en la
ra 11, se mue
la rama der
e instancias rela
alarma.
igura 11: Árbol Gr
VII. RE
nstrucción de
atos generados
a entrenamient
rendimiento d
Tabla 6.
MultiLa
Percept
de 0.739
error 0.004
error 0.049
oluto 39.3034
error
ado
69.3076
de 1171
Tabla 6: Resum
btenidos los
e requirió la e
grado de inte
e resume esta e
predicción ANN
de predicción
ite indicar si op
e las variable
nte no es una
a alarma.
clasificación R
de clasificació
fica la operaci
demás, termina
ma clase, etiq
ste algoritmo
a construcción e
estra el patrón
recha del árb
acionadas con e
áfico generado por
ESULTADOS
cada uno de
s, se ocupó
to y un 5% p
e cada mode
Algoritm
ayer
tron
RepTr
95 0.8158
45 0.0047
95 0.0483
4 % 41.5828
6 % 67.6879
1 1171
men de resultados
modelos de
evaluación del
erés en cada u
evaluación.
NN
generado por
pera o no la ala
es de entrada
a ayuda para
Rep Tree
ón elaborado
ón de la alarm
a la rama si tod
quetando la ram
se utilizaron l
el modelo.
de clasificaci
bol, describe
el surgimiento
r el algoritmo J48.
los modelos
un 95% de
para prueba. L
elo generado
mos
ree J48
8 0.7992
7 0.0043
3 0.0443
8 % 37.6059 %
9 % 61.9838 %
1171
de modelos.
e predicción
usuario respec
uno de ellos.
r la red neuron
arma para valor
a. Por lo qu
anticiparse a
por el algoritm
ma, a partir de
dos
ma
los
ión
la
de
de
las
Las
se
%
%
y
cto
A
nal
res
ue,
la
mo
un
rango d
Pero, a
que el
aportan
C. Mod
El m
clasific
Tambié
rango d
La dife
a la cla
modelo
cliente.
Es
Cu
A
o
Po
A
El m
atributo
combus
porque
las cua
tempera
se enc
también
cuando
alto sp
intensid
número
Con
se cuen
tener la
la prote
la TG,
la utiliz
debería
cumplim
mejorar
A p
acción
condici
el mode
modelo
es, iden
de una
de valores espe
demás presenta
árbol de clasif
n a la clasificac
delo de clasific
modelo de cla
cación similar a
én clasifica la
de valores espe
erencia es que p
asificación de l
o que es claro
Criterio
comprensible
umple con la
función
Ayuda a los
objetivos del
negocio
otencialmente
útil
Aprobado
Tabl
modelo de clas
o que es la in
stión número c
en el sistema
ales 3 poseen
atura, en el cas
uentra más c
n poseen term
o se produce u
pread, se man
dad en la tem
o cinco.
VIII. CONC
los patrones d
nta con inform
as señales clav
ección por alto
para así evitar
zación de esta
a aumentar la
miento a los
r la confiabilid
partir del trab
futura la ge
iones de operac
elo de minería
o de clasificació
ntificar anticipa
alarma que per
ecíficos para u
a un modelo co
ficación gener
ción de la alarm
cación J48
asificación J48
al generado po
operación de
ecíficos para u
poda las ramas
la alarma. Por
y visualmente
MultiLayer
Perceptron
Sí
Sí
No
Sí
No
la 7: Resumen de a
sificación de J
ntensidad de la
cinco. Según e
de combustió
n termocuplas
so de la cámar
ercana a las
mocuplas. Esto
una alta difere
nifiesta dicha
mperatura de la
CLUSIONES Y TR
de predicción y
mación para s
ves, cuando se
o spread del si
r la activación
información p
a disponibilida
objetivos de
dad ante sus cli
bajo desarrolla
eneración de
ción de la plant
de datos gener
ón, se proceder
adamente el sur
rmita evitar el d
una variable en
onfuso para el
rado posee ram
ma.
, presenta un
or el algoritmo
la alarma, a p
una variable en
s del árbol que
lo anterior, se
e aceptable po
Algoritmos
RepTree
No
Sí
Sí
Sí
No
aceptación de los m
J48, se basa s
a llama de la
el usuario esto
ón existen 14 c
s, para la me
a número cinc
otras dos cám
o explicaría e
encia de tempe
a diferencia c
a cámara de c
RABAJO FUTUR
y clasificación
saber qué valo
produce la act
istema de com
de dicha prote
para tomar dec
ad de la TG
la empresa, a
ientes.
ado se identi
una simulació
ta. Esto permit
rado. Una vez v
rá a su implanta
rgimiento de la
disparo de la tu
particular.
cliente, ya
mas que no
modelo de
Rep Tree.
artir de un
particular.
no aportan
obtiene un
or parte del
J48
Sí
Sí
Sí
Sí
Sí
modelos.
sólo en un
cámara de
se explica
cámaras de
edición de
o es la que
maras que
el por qué
eratura por
con mayor
combustión
RO
generados,
ores deben
tivación de
mbustión de
cción. Con
cisiones, se
G para dar
además de
fica como
ón de las
tiría validar
validado el
ación. Esto
a condición
urbina.
IX. AGRADECIMIENTOS
Este trabajo fue realizado en el marco del desarrollo de
un caso de estudio en la asignatura de minería de datos 1 del
programa de Magíster en Ingeniería Informática de la UCN.
X. GLOSARIO DE TÉRMINOS
Alternador: Máquina eléctrica generadora de corriente
alterna.
Alto Spread TG: Es cuando se produce una alta diferencia
de temperatura entre las cámaras de combustión de la
turbina a gas.
Cámara de combustión: Consiste en un recipiente al cual
ingresa aire comprimido, al que se le añade combustible y se
quema en forma ininterrumpida.
Disponibilidad: Se produce cuando una turbina está
declarada al controlador del SING, como utilizable para
producir electricidad.
Matriz Energética: Son los posibles combustibles que
ocupa una Central para generar electricidad.
PI System: El estándar de la industria en la infraestructura
de la empresa para la gestión de datos en tiempo real y
eventos.
Potencia eléctrica: Es la velocidad con que se agota la
energía.
Rotor: Parte giratoria de una turbina.
SING: Agrupación de Centrales Generadoras de
Electricidad que se encuentran ubicadas entre las ciudades
de Arica y Antofagasta.
Salidas forzadas: Es la interrupción intempestiva de la
turbina por falla o defecto de esta o cualquier otro motivo.
Sistema de Control Distribuido: Es un concepto en donde
la filosofía del equipo se define como la distribución
geográfica del control, enlazada por una red de
comunicaciones, cuyo destino es centralizar un cuadro de
control central.
Turbina a Gas: Es un motor térmico rotativo de flujo
continuo que se caracteriza por presentar una baja relación
peso-potencia y una velocidad de giro muy elevada
XI. REFERENCIAS
[1] U.M. Fayyad, G. Piatetsky-Sapiro, and P. Smyth. 1991. From data
mining to knowledge discovery in databases. Editors, Advances in
Knowledge Discovery and Data Mining, page 39. AAAI Press,
(1997).
[2] Mark A. Hall, Geoffrey Holmes. 2003. Benchmarking Attribute
Selection Techniques for Discrete Class Data Mining. IEEE
transactions on knowledge and data engineering, vol. 15, NO. 3.
[3] I.H. Witten, E. Frank. (2005). Data Mining: practical machine
learning tools and techniques 2nd. Edition. Morgan Kaufmann.
[4] D. Rumelhart, G. Hinton, and R. Williams. 1986. Learning
representation by error propagation, In D.E. Rumelhart and J.L.
Mclelland, editors, Paralled Distributed Procession (Cambridge, MA:
MIT Press).
[5] Abrahart, R.J., See, L. y Kneale, P.E. 2001. Investigating the role of
saliency analysis with a neural network rainfall-runoff model. Journal
of Computers and Geosciences, 27: 921-928.
[6] Soman, T. and Bobbie, P.O. 2005. Classification of Arrhythmia Using
Machine Learning Techniques. Southern Polytechnic State University
(SPSU) 1100 S. Marietta Parkway, Marietta, GA 30060, USA.
[7] Elizabeth Vitt, Michael Luckevich, Stacia Misner. 2002. Making
Better Business Intelligence Decisions Faster. editors Microsoft
Press.
[8] R. Wirth, J. Hipp. 2000. CRISP-DM: Towards a standard process
model for data mining, in: Proceedings of the 4th International
Conference on the Practical Applications of Knowledge Discovery
and Data Mining, Manchester, UK, 2000, pp. 29-39.
[9] Min Tae Kim, Si Woo Lee. 2012. Application of in situ oxidation-
resistant coating technology to a home-made 100 kW class gas
turbine an its performance analysis. Applied Thermal Engineering,
Volume 40, Pages 304–310.
[10] Frank J. Brooks. 2001. GE Gas Turbine Performance Characteristics.
GE Power Systems Schenectady, NY GER-3567H.
[11] M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and
Ramasamy Uthurusamy. 1996. Advances in Knowledge Discovery
and Data Mining. San Mateo, AAAI Press, EE.UU.
[12] Michalski, R.S., Bratko, I., Kubat M. 1998. Machine Learning
andData Mining. Methods and Applications. Wiley & Sons Ltd.,
EE.UU.
[13] S.G. Jolandan, H Mobli, H Ahmadi, M Omid, S.S. Mohtasebi. 2012.
Fuzzy-Rule-Based Faults Classification of Gearbox Tractor.
Department of Agricultural Machinery Engineering, faculty of
Agricultural Engineering and technology University of Tehran, Karaj,
Iran.
[14] Christina Athanasopoulou, Vasilis Chatziathanasiou and Ioannis
Petridis. 2007. Utilizing data mining algorithms for identification and
reconstruction of sensor faults: a Thermal Power Plant case study.
University of Thessaloniki.
[15] Vedrana Vidulin, Mitja Luštrek, Matjaž Gams. 2007. Comparison of
the performance of genre classifiers trained by different machine
learning algorithms. Department of Intelligent Systems. Jožef Stefan
Institute. Jamova 39, 1000 Ljubljana, Slovenia.
[16] Michalski, R. S. 1983. A Theory and Methodology of Inductive
Learning. En Michalski, R. S., Carbonell, J. G., Mitchell, T. M.
(eds.). Machine Learning: An Artificial Intelligence Approach, Vol. I.
Morgan-Kauffman, EE.UU.
[17] Jun Li, Shunyi Zhang, Yanqing Lu, Junrong Yan. 2008. Real-time
P2P Traffic Identification. Nanjing University of Posts and
Telecommunication, Nanjing, JiangSu, China. Zhejiang Wanli
University, Ningbo, Zhejiang, China.
[18] Prechelt L. 1998. Early stopping — but when? In. Orr GB, Muller
OR, editors. Neural networks: Tricks of the trade. Berlin: Springer-
Verlag Telos.
[19] Ayman Ahmed Seleemah. 2012. A multilayer perceptron for
predicting the ultimate shear strength of reinforced concrete beams.
Journal of Civil Engineering and Construction Technology Vol. 3(2),
pp. 64-79.
[20] U.M. Fayyad, G. P. Shapiro and P. Smyth. 1996. The KDD process
for extracting useful knowledge from volumes from data.
Communication of ACM, Vol. 39(11).

Más contenido relacionado

PDF
A Simple Approach To Short-Circuit Calculations by Cooper Bussmann (Ellis Pat...
PPTX
Power System Analysis unit - I
PDF
F.M.E.C.A pdf
PPT
Functions and performance requirements of excitation systems
PDF
PLC Arduino: Estudio y construcción de una plataforma para el control de maqu...
PDF
Transient stability analysis
PDF
Prueba eléctrica de motores y generadores eléctricos - Calidad de Energía el...
PPTX
Induction Motors.pptx
A Simple Approach To Short-Circuit Calculations by Cooper Bussmann (Ellis Pat...
Power System Analysis unit - I
F.M.E.C.A pdf
Functions and performance requirements of excitation systems
PLC Arduino: Estudio y construcción de una plataforma para el control de maqu...
Transient stability analysis
Prueba eléctrica de motores y generadores eléctricos - Calidad de Energía el...
Induction Motors.pptx

La actualidad más candente (13)

PPTX
Generator Protection
PDF
electronica-industrial-moderna-5ta-edicion-timothy-j.-maloney.pdf.pdf
PPT
General Maintenance
PDF
Rutinas de mantenimiento predictivo con operadores
PDF
Maquinas electricas-y-tecnicas-modernas-de-control-cap-3
PPTX
Dc motor- load characteristics
PDF
voltage stability by compensating reactive power
PPTX
Maintenance
PPT
02 1 synchronous-machines
PPTX
Transformer relays trips alarms.pptx
PPTX
Beyond Predictive and Preventive Maintenance
PDF
MACHINES AND MECHANISMS APPLIED KINEMATIC ANALYSIS Fourth Edition David H. My...
PPT
Generator Protection
electronica-industrial-moderna-5ta-edicion-timothy-j.-maloney.pdf.pdf
General Maintenance
Rutinas de mantenimiento predictivo con operadores
Maquinas electricas-y-tecnicas-modernas-de-control-cap-3
Dc motor- load characteristics
voltage stability by compensating reactive power
Maintenance
02 1 synchronous-machines
Transformer relays trips alarms.pptx
Beyond Predictive and Preventive Maintenance
MACHINES AND MECHANISMS APPLIED KINEMATIC ANALYSIS Fourth Edition David H. My...
Publicidad

Similar a Alto spread (20)

PDF
Implementación Industrial de un Estimador de Estado
PDF
Auditoría energética Planta Táchira
PDF
Rabines lara franco_diseño_implementación_sistema_monitoreo_parámetros
PDF
T05y06 Optimizacio Flotacion
PDF
23_Etraducido.pdf
PDF
602-Texto del artículo-2451-1-10-20161030.pdf
PPTX
Poryecto SOREMC.pptx.....................
DOCX
Contabilidad en scada
PDF
Revistairimnumero9 rcm3
PDF
TM1 Best practices
PDF
Articulo Wavelet
PDF
Articulo Wavelet
PDF
Monitorización continua de seguridad en redes de control industrial utilizand...
PDF
43756342 green-data-center
PPTX
PDF
MAPLA 2014 - Mejora de la disponibilidad en fundición de cobre - HATCH Team
DOCX
Proyecto final modulo calidad
PDF
Dimensionamiento de energia para data center
PDF
01.introduccion metricauml
PDF
Costos de infraestructura de centros de datos
Implementación Industrial de un Estimador de Estado
Auditoría energética Planta Táchira
Rabines lara franco_diseño_implementación_sistema_monitoreo_parámetros
T05y06 Optimizacio Flotacion
23_Etraducido.pdf
602-Texto del artículo-2451-1-10-20161030.pdf
Poryecto SOREMC.pptx.....................
Contabilidad en scada
Revistairimnumero9 rcm3
TM1 Best practices
Articulo Wavelet
Articulo Wavelet
Monitorización continua de seguridad en redes de control industrial utilizand...
43756342 green-data-center
MAPLA 2014 - Mejora de la disponibilidad en fundición de cobre - HATCH Team
Proyecto final modulo calidad
Dimensionamiento de energia para data center
01.introduccion metricauml
Costos de infraestructura de centros de datos
Publicidad

Último (20)

DOCX
Cumplimiento normativo y realidad laboral
PPT
357161027-seguridad-industrial-diapositivas-ppt.ppt
PDF
LIBRO UNIVERSITARIO INTELIGENCIA ALGORITMICA BN.pdf
PDF
Matriz_Seguimiento_Estu_Consult_2024_ACT.pdf
PPTX
Presentacion_Palcoma_Alta energia solar eolica
PPTX
MODULO 1.SEGURIDAD Y SALUD CONCEPTOS GENERALES.pptx
PDF
Pensamiento Politico Siglo XXI Peru y Mundo.pdf
PPTX
clase MICROCONTROLADORES ago-dic 2019.pptx
PPTX
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
PDF
fulguracion-medicina-legal-418035-downloable-2634665.pdf lesiones por descarg...
PPT
tema DISEÑO ORGANIZACIONAL UNIDAD 1 A.ppt
PPT
Sustancias Peligrosas de empresas para su correcto manejo
PDF
Prevención de estrés laboral y Calidad de sueño - LA PROTECTORA.pdf
PPTX
MODULO 2. METODOLOGIAS PARA ANALISIS DE RIESGOS 2da Parte.pptx
PDF
LIBRO UNIVERSITARIO SISTEMAS PRODUCTIVOS BN.pdf
DOCX
CONCEPTOS BASICOS DE LA PROGRAMACION STEP
PDF
SISTEMAS DE PUESTA A TIERRA: Una introducción a los fundamentos de los sistem...
PPTX
Presentación - Taller interpretación iso 9001-Solutions consulting learning.pptx
PPTX
GEOLOGIA, principios , fundamentos y conceptos
PDF
Primera formulación de cargos de la SEC en contra del CEN
Cumplimiento normativo y realidad laboral
357161027-seguridad-industrial-diapositivas-ppt.ppt
LIBRO UNIVERSITARIO INTELIGENCIA ALGORITMICA BN.pdf
Matriz_Seguimiento_Estu_Consult_2024_ACT.pdf
Presentacion_Palcoma_Alta energia solar eolica
MODULO 1.SEGURIDAD Y SALUD CONCEPTOS GENERALES.pptx
Pensamiento Politico Siglo XXI Peru y Mundo.pdf
clase MICROCONTROLADORES ago-dic 2019.pptx
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
fulguracion-medicina-legal-418035-downloable-2634665.pdf lesiones por descarg...
tema DISEÑO ORGANIZACIONAL UNIDAD 1 A.ppt
Sustancias Peligrosas de empresas para su correcto manejo
Prevención de estrés laboral y Calidad de sueño - LA PROTECTORA.pdf
MODULO 2. METODOLOGIAS PARA ANALISIS DE RIESGOS 2da Parte.pptx
LIBRO UNIVERSITARIO SISTEMAS PRODUCTIVOS BN.pdf
CONCEPTOS BASICOS DE LA PROGRAMACION STEP
SISTEMAS DE PUESTA A TIERRA: Una introducción a los fundamentos de los sistem...
Presentación - Taller interpretación iso 9001-Solutions consulting learning.pptx
GEOLOGIA, principios , fundamentos y conceptos
Primera formulación de cargos de la SEC en contra del CEN

Alto spread

  • 1. Identificando Patrones de Predicción y Clasificación de Alarmas por Alto Spread en un Sistema de Combustión de Turbina a Gas Roberto Prieto Morales Ingeniero de Proyectos de Tecnología de la Información Magíster en Ingeniería Informática UCN Antofagasta, Chile robertoprieto@vtr.net Claudio Meneses Villegas Departamento de Ingeniería de Sistemas y Computación Universidad Católica del Norte Antofagasta, Chile cmeneses@ucn.cl Abstract— En este artículo se analizan y modelan datos operacionales de un sistema de combustión de turbina a gas, para clasificar y predecir la condición de “alarma por alto spread”. Esta condición de alarma indica que la combustión de la turbina no está siendo uniforme, lo cual puede llevar eventualmente a la deformación de la turbina. Con la generación de patrones de predicción y clasificación, se busca anticiparse a la activación de la alarma por alto spread en el sistema de combustión de la turbina, con lo cual se podría evitar o disminuir la indisponibilidad de la turbina. Mediante el entrenamiento de algoritmos de redes neuronales y árboles de decisión se obtuvieron dos modelos de clasificación y un modelo predictivo, los cuales fueron evaluados cuantitativamente y en base a la percepción de los usuarios, siendo los modelos de árbol mejor evaluados en este último aspecto. Keywords- Alarma por Alto Spread; Sistema Combustión de Turbina a Gas; Identificación de Patrones en Sistemas de Combustión I. INTRODUCCIÓN Actualmente las organizaciones están inmersas en un mercado muy competitivo, por lo que es importante para ellas, que sus ejecutivos posean información relevante y oportuna a la hora de tomar decisiones. Dentro de las herramientas que ocupan las organizaciones para apoyar la toma de decisiones, está la minería de datos. Fayad (1996), define minería de datos como la búsqueda de patrones relevantes y de regularidades importantes en grades almacenes de datos [11]. Por otro lado, Michalski (1998) se refiere a minería de datos inteligente como la aplicación de métodos de aprendizaje automático u otros métodos similares, para descubrir y enumerar patrones presentes en los datos [12]. El aprendizaje automático es el área de la Ingeniería Informática, que estudia y desarrolla algoritmos que implementan distintos modelos de aprendizaje, y lo aplican en la resolución de problemas prácticos [16]. La minería de datos, se presenta como una etapa dentro de un proceso más amplio, que se refiere a la aplicación de algoritmos específicos para la extracción de patrones desde datos. Dicha etapa es parte del proceso de descubrimiento de conocimiento desde los datos, conocido como proceso KDD (Knowledge Discovery in Databases). El término KDD fue acuñado por Piatetsky Shapiro (1989) [1] para enfatizar que el “conocimiento” es el producto final del descubrimiento accionado por los datos. El conocimiento extraído, es muy valioso para las organizaciones a la hora de tomar decisiones. Para tomar decisiones correctas, confiables y acertadas se debe contar con la información adecuada [7]. Este artículo describe la aplicación de un proceso metodológico basado en la guía CRISP-DM (Cross Industry Standard Process for Data Mining), para la resolución de un problema operacional de alto impacto en una Central Generadora de Electricidad. La aplicación de la metodología CRISP-DM en una Central Generadora de Electricidad busca entregar información a la empresa para apoyar la toma de decisiones. En términos concretos, se busca anticiparse al problema de la activación de la protección por alto spread del sistema de combustión de la TG (Turbina a Gas). El resto del artículo está estructurado como se indica a continuación. La sección II describe el problema y su contexto. En la sección III se describe la metodología empleada en el desarrollo del trabajo. Las secciones IV y V describen los datos utilizados, su selección y transformación, respectivamente. La sección VI presenta y analiza los modelos de predicción y clasificación obtenidos. Finalmente, se presentan las conclusiones y trabajo futuro. II. SISTEMA DE COMBUSTION DE TURBINA A GAS El presente caso de estudio se llevó a cabo en una Central Generadora de Electricidad perteneciente al SING (Sistema Interconectado del Norte Grande), cuya matriz energética es gas y petróleo. Esta Central Generadora, posee dentro de sus objetivos tener la máxima disponibilidad posible para todas sus TG. Por lo anterior, resulta imperioso para la organización trabajar en evitar fallas en sus TG, que puedan producir alguna indisponibilidad de las TG en la generación eléctrica. En lo relacionado al sistema especifico objeto del estudio, éste corresponde a la turbina a gas, la cual es la principal máquina para generar electricidad que posee la organización. Esta turbina está compuesta por los sistemas de escape, enfriamiento y combustión. En la Figura 1 [9], se puede apreciar las principales partes de la TG, separadas en dos partes, generación a gas y generación a energía.
  • 2. Figura 1. Corte longitudinal de la Turbina a gas. 1. generador de gas, 2. generador de energía, 3. álabe de turbina de potencia, 4. poder tobera turbina, 5. generador de turbina de gas cuchilla, 6. revestimiento de combustión, 7. impulsor del compresor, 8. el generador de estructuras. El sistema de combustión de la turbina está compuesto por catorce cámaras de combustión, las cuales están dispuestas simétricamente alrededor del rotor de la turbina. Periódicamente se registran mediciones de variables asociadas a la temperatura de las cámaras del sistema de combustión. Dichas temperaturas deben mantenerse uniformes, debido a que una alta diferencia de temperatura entre las cámaras de combustión, significaría que no se está produciendo una combustión eficiente y segura. Por lo anterior, implicaría que se podría provocar una deformación en la estructura de la turbina, además de una pérdida de eficiencia en la capacidad de generación de electricidad. El Sistema de Control Distribuido DCS (Distributed Control System) monitorea y controla el funcionamiento de la TG. En el DCS se encuentra configurada una protección por alto spread en el sistema de combustión, la cual opera al identificar una alta diferencia de temperatura entre las cámaras de combustión de la TG. La protección actúa en primera instancia alarmando el alto spread. El sólo surgimiento de esta alarma, implica una disminución en la capacidad de generación en la TG, debido a que no son uniformes las fuerzas que hacen girar el eje del generador. En segunda instancia la alarma por alto spread, opera deteniendo el funcionamiento de la turbina, lo cual implica una indisponibilidad de la TG, conllevando a una pérdida de confianza ante sus clientes y la comunidad. III. ASPECTOS METODOLÓGICOS DEL DESARROLLO DEL PROYECTO El proyecto se abordó adoptando la guía CRISP-DM como marco de desarrollo del trabajo, el cual se instanció para este caso particular. A. Guía Metodológica CRISP-DM CRISP-DM en esencia corresponde a un modelo de proceso que proporciona un marco para el desarrollo de proyectos en el ámbito de Data Mining [8]. El cual, está siendo desarrollado por un consorcio de los principales usuarios y proveedores de minería de datos. Este modelo de referencia, proporciona una visión general del ciclo de vida de un proyecto de minería de datos, el cual contiene las fases de un proyecto, sus tareas respectivas, y sus salidas. El ciclo de vida de un proyecto de minería de datos se divide en seis fases que se muestran en la Figura 2. La secuencia de las fases no es estricta, y en la práctica es un proceso iterativo. Las flechas indican sólo las secuencias y las dependencias más importantes entre las fases. Figura 2. Fases del modelo de proceso CRISP-DM para el desarrollo de proyectos de minería de datos. (Fuente: http://www.crisp-dm.org/). B. Instanciación de la Guía CRISP-DM La guía CRISP-DM corresponde a un proceso genérico, el cual requiere ser instanciado para cada tipo de proyecto de data mining. A continuación se presenta la adaptación de CRISP-DM al problema particular descrito en la sección II y su aplicación. La Figura 3 muestra las tareas desarrolladas para el problema analizado.
  • 3. Figura 3. Secuencia de tareas desarrolladas 1) Entendimiento del negocio El objetivo de negocio que se persigue con la realización del proyecto es mejorar el indicador de disponibilidad de la TG, mediante la aplicación de técnicas y herramientas de minería de datos. Específicamente, se busca contribuir a maximizar la confiabilidad de arranque, minimizar salidas forzadas, lograr disponibilidad de acuerdo a programa de mantenimiento, disponibilidad media equivalente (92%), cumplir con la duración de los mantenimientos mayores. Por lo anterior, se desea evitar las fallas o indisponibilidad de la TG por un tiempo prolongado, tal que, no se ponga en riesgo los contratos vigentes, y lograr menor índice de falla en el SING. Desde el punto de vista técnico, los objetivos al aplicar las técnicas de minería de datos en esta situación particular, son generar patrones de predicción y clasificación, para apoyar la toma de decisiones, asociadas a evitar la activación de la protección por alto spread en el sistema de combustión de la TG. La Turbina a Gas, es un motor térmico rotativo de flujo continuo que se caracteriza por presentar una baja relación peso-potencia y una velocidad de giro muy elevada. La TG está compuesta por los sub sistemas de combustión, enfriamiento y escape. Se utiliza para la generación eléctrica, ya que la combustión generada al incinerar gas, hace que los gases calientes al escapar hagan girar el rotor del alternador de la TG, con lo cual se produce inducción, la cual se trasforma en energía eléctrica. A continuación en la Figura 4 [10], se muestra el esquema de funcionamiento de la TG para generar electricidad. Figura 4. Esquema de funcionamiento de turbina a gas. En la Figura 5 se describen en mayor detalle los pasos de la secuencia de funcionamiento de una TG. Figura 5. Secuencia de funcionamiento de turbina a gas. 2) Descripción del problema El sub sistema de combustión de la TG se compone por catorce cámaras de combustión, en donde se incinera el gas natural o petróleo diesel, estas cámaras se encuentran distribuidas simétricamente alrededor del rotor de la TG. Existe una protección configurada en el DCS, esta se produce por alto spread en el sistema de combustión de la TG. Esta protección se calcula empíricamente tomando como datos entre otros, las temperaturas de las cámaras de combustión de la TG. La activación de dicha protección implica que no se está produciendo una combustión uniforme entre las cámaras de combustión. Lo anterior, conlleva a una disminución de la generación de electricidad de la TG, es decir que con la misma cantidad de combustible se genera menos carga eléctrica que en una situación óptima. Además, la generación de electricidad con una combustión no uniforme entre las cámaras provoca daños en la estructura de la TG, deformando sus piezas.
  • 4. Actualmente, cuando opera la alarma por un alto spread el operador disminuye la potencia eléctrica de la TG, hasta encontrar la causa y corregir el problema. Se propone analizar los datos patrones de predicción y clasificación, para anticipar la operación de la protección por alto spread en el sistema de combustión de la TG. Existe antecedente de aplicación de técnica de minería de datos en Centrales de Generación Eléctrica para identificar otras fallas en equipos [14]. IV. ENTENDIMIENTO DE LOS DATOS Para la realizar la solución de minería de datos propuesta, es necesario contar con registros históricos, que posibiliten la creación de patrones. La Central, tiene implementada la plataforma industrial de gestión de información “PI SYSTEM”. Esta plataforma está compuesta por software, que permiten mostrar datos de proceso en tiempo real y almacenarlos en una base de datos propietaria. La TG está compuesta por los sub sistemas escape, enfriamiento y combustión, también existen señalen que influyen en la generación eléctrica como los equipos auxiliares, aparte de las señales propias de la generación eléctrica como la potencia eléctrica y la frecuencia. Según el usuario del negocio como el alto spread se origina en el sub sistema de combustión de la TG, se seleccionaron todas las señales de ese sub sistema, aparte de señales que dependen directamente de la activación de la alarma por alto spread, como la potencia eléctrica y la frecuencia. La inclusión de cualquier otra variable adicional no tendría relación con el alto spread de la TG. Por lo cual, sólo produciría ruido en la elaboración de los modelos. Al conjunto de datos resultante, se agregó manualmente el atributo clase. Este atributo corresponde a la activación de la alarma por alto spread en el sistema de combustión de la TG. Dicho atributo es de tipo numérico, codificándose como el valor 0 para condición sin alarma y 1 para condición con alarma. Para el presente caso de estudio, se seleccionaron registros históricos a partir de enero del 2008 y hasta diciembre del 2010. Por lo cual, el conjunto de datos final seleccionado por el usuario del negocio, incluye 54 variables, todas de tipo numérica. En la tabla 1 se muestra un resumen del conjunto de datos seleccionado. Característica Valor Total atributos: 54 Total Instancias: 23430 Tipo de atributos: Numérico Total Instancias erróneas: 382 Tabla 1. Resumen del conjunto de datos En la Figura 6 se describe la tabla de hechos del conjunto de variables seleccionadas. Figura 6. Tabla de hecho. El conjunto obtenido de datos posee únicamente variables de tipo numérico, correspondiente a valores de variables de proceso como temperaturas de las cámaras de combustión, presión, intensidad de la llama, etc. En la Tabla 2, se describe una caracterización de algunos atributos del conjunto de datos. Nombre atributos Valores de variables Instanc ias distinta s Media Desviac ión estánda r moda mínim o máxim o UNOADLN_M ODE_GAS 16 0.04 0.486 0 0 9 UNOAFD_INT ENS_2 3630 102.718 75.307 2012 0 231.24 5 UNOAFD_INT ENS_3 1405 94.448 382.94 5 844 0 5708 UNOAFD_INT ENS_4 1041 72.332 398.40 2 613 0 3822 UNOAFD_INT ENS_5 15285 61.929 42.372 14253 0 162.66 8 UNOAFLUPSP 7005 0.315 0.899 5756 0 12.401 UNOAFPG3 5114 0.22 1.581 4578 0 39.306 UNOAPLPDPL 2310 0.037 0.281 1821 0 6.286 UNOAPLSDPL 1660 0.042 0.273 1232 0 8.082 UNOATTRF1 5698 27.619 83.892 4154 0 1154.3 3 UNOATTRXB 3358 7.31 19.405 2013 0 611.21 9 UNOATTXD1_ 1 4442 16.772 46.329 3065 0 614.83 8 UNOATTXD1_ 10 4360 16.364 45.691 2996 0 615.24 4 UNOATTXD1_ 11 4655 16.682 44.216 3277 0 614.83 8 class 2 - - - - - Tabla 2. Caracterización del conjunto de datos. La figura 7 muestra la relación de variables entre la temperatura de combustión de la cámara número 5 (eje X), y la temperatura de los gases de la cámara de combustión (eje Y) medidas en grados Celsius.
  • 5. Este gráfico muestra que existe una relación directamente proporcional, es decir a mayor temperatura de combustión, mayor es la temperatura de gases de escape. Lo que implica, que se está realizando una combustión óptima en la cámara N° 5, ya que, que los inyectores de combustibles no se encuentran sucios y la cámara de combustión aún no necesita ser lavada para sacar los residuos de la combustión adheridos a ella. Figura 7. Gráfico temperatura de gases. En la figura 8 se representa la relación de variables entre la diferencia de temperatura de las cámaras de combustión N° 5 y N° 10 (eje X), y la temperatura de la turbina (eje Y) medida en grados Celsius. En este gráfico se aprecia que se encuentra delimitado el valor máximo para la diferencia de temperatura entre cámaras de combustión. Para el periodo de tiempo dado la diferencia de temperatura entre las cámaras de combustión N° 5 y N° 10 mayoritariamente fue baja, independiente de la temperatura de la turbina. Lo que implica, que para un funcionamiento normal de la TG, necesariamente debe existir una baja diferencia de temperatura entre las cámaras de combustión. Figura 8. Gráfico diferencias de temperatura. La tabla 3 describe la matriz de correlación para los atributos más relevantes relacionados con el atributo clase. Atributos Valor correlación Primero Segundo Unoafd_intens_5 Unoafsr_control -0.002 Unoafd_intens_5 Unoal83llbm -0.002 Unoafd_intens_5 Class 0.112 Unoafsr_control Class -0.018 Unoal83llbm Class -0.018 Tabla 3. Matriz de correlación de variables. Las relaciones entre variables descritas en la Tabla 3, corresponden en su gran mayoría a correlación negativa débil. Excepto, la relación entre la temperatura de combustión de la cámara N° 5 y la variable clase. Esta relación es una correlación positiva débil. Por lo cual, la variable ‘Unoafd_intens_5’ está más correlacionada con el valor de la variable clase que el resto de las otras variables. V. TRANSFORMACIÓN Y SELECCIÓN DE DATOS La calidad de los datos es un factor importante en el éxito de la minería de datos en una tarea determinada. Por lo cual, es una etapa relevante dentro del modelo de proceso CRISP-DM. La selección de atributos es el proceso de identificar y eliminar la mayor cantidad de información irrelevante y redundante [2]. Para el presente caso de estudio, se realizó una limpieza de los registros erróneos, eliminando dichos registros. Estos eran producto de fallas en la captura de las señales. Además se verificó la integridad de los datos, no encontrando problemas de este tipo. Dado que existe una gran cantidad de atributos (cincuenta y cuatro) se aplicó una técnica para evaluar a priori su importancia y disminuir el número de atributos, dejando sólo los más relevantes. A continuación se detalla la técnica utilizada de atributo evaluador y método de búsqueda, para reducir el número de atributo del conjunto de datos. • Atributo evaluador CfsSubsetEval [3], este método evalúa un subconjunto de atributos considerando la habilidad predictiva individual de cada variable, así como el grado de redundancia entre ellas. • Método de búsqueda BestFirst [3], este algoritmo de búsqueda, trata de expandir el nodo más próximo al objetivo, percibiendo que probablemente conduzca rápidamente a una solución. El algoritmo BestFirst puede comenzar su búsqueda por el conjunto vacío de atributos y de búsqueda hacía adelante, o empezar con todo el conjunto de atributos y búsqueda hacia tras, o empezar en cualquier momento y buscar en ambas direcciones (enfoque híbrido). En la tabla 4, se detallan los resultados obtenidos de la aplicación de la técnica de selección de atributos BestFirst. Resultados aplicación técnica selección de atributos BestFirst Inicio establecido: Sin atributos. Dirección de búsqueda: Hacia adelante. Búsqueda de rancio: Después de 5 expansiones de nodos. Número de subconjuntos de evaluación: 410 Mérito del mejor subconjunto: 0.113 Tabla 4. Resumen resultados BestFirst. La aplicación de esta técnica obtuvo como resultado una disminución de atributos de 54 a 4. La Tabla 5 detalla los atributos seleccionados.
  • 6. la c m [ a p s u lo p d a á ll h u u e e a p g u g c lo c s n m t a p Variable UNOAFD_INTE UNOAFSR_CO UNOAL83LLB Class VI. MO Existen an a performanc clasificación. C más adecuado, 15]. Además antecedentes d problema parti sistema de com Para el p usuario del neg os analice y problema plant de árbol de dec Los árbol aprendizaje de árboles están lamados nodo homogéneos re Las redes utilizadas por ubicación y se entrada y salid eficaz para el re El algoritm algoritmo C 4. posee el máx ganancia, com utiliza los atr generando una El algoritm corregir en el á os datos de complejidad en El algorit sigmoidales qu no lineales para minimizan el emprana. El overfitt algoritmo busc particular, usan D ENS_5 Te N ONTROL Te M In Pr Tabla 5. Atribu ODELOS DE CLA ntecedentes de ce de un c Concluyendo qu , es altamente s, se debe de aplicación icular de la a mbustión de la T presente caso gocio tenga mo escoja el mo teado. Para lo cisión y red neu les de decisión clasificación compuesto p os terminales especto a una v s neuronales r muchos inv everidad de d da. Ya que, p econocimiento mo J48 es la i 5. Este algorit ximo de info mo criterio de ributos que m rama por cada mo RepTree p árbol de decisi entrenamiento n el proceso de tmo Multilaye ue se emplean a todas las capa sobreajuste c ting o sobrea ca las mejores ndo un conju Descripción emperatura cámar N° 5 emperatura de con ntensidad de la llam rotección utos seleccionados ASIFICACIÓN Y estudios, en el conjunto de ue la elección e dependiente considerar q de minería d alarma por alt TG. de estudio, s odelos de vario odelo que mej cual, se aplic uronal artificial n son una téc supervisada, p por segmentos u hojas. E variable de dest artificiales (A vestigadores distintos tipos proporcionan o de patrones [1 implementación tmo J48, elig ormación rela la mejor div mejor diferen a salida. presenta una p ión los efectos . El árbol po clasificación. er Perceptron como activaci as. Estas funcio con un métod ajuste se prod s variables par unto de datos ra de combustión ntrol de la turbina ma cámara N° 8 PREDICCIÓN l cual se compa algoritmos de del algoritm de la aplicaci que no exist de datos para to spread en se desea que os tipos, para q jor soluciona arán las técnic l. cnica sencilla pero exitosa. L s más pequeñ stos nodos s tino [17]. ANN) han si para identific de variables una herramien 18]. n para Weka d e el atributo q acionada con visión. Adem ncia las salid poda rápida pa de los ruidos odado reduce posee funcion ión de funcion ones sigmoida do de detecci duce cuando ra un modelo limitado, pue ara de mo ión ten el un el que el cas de Los ños son ido car de nta del que la más, das, ara en la nes nes les ión un en ede sobre a del mod Pa sobreaj clasific ANN seleccio A. Alg Este multica tipo fe propaga paralela denomi con la capa po Las Percept funcion regular Por lo mapeo En artificia variable y una n de los predicc La ajustan estado funcion datos d su fase El a mecani salidas los resu correcto datos d El m siguien ajustar los dato delo sobre los ra la reducir uste, en el pre cadores RepTr Multilayer onados se encu goritmo Multila e algoritmo e apa. Según Rum eedforward con ación, son un a, en donde, inadas neurona capa anterior d osterior hacia d s principales c tron son su ca nales a partir ridades en los d cual, son mu no lineal [19]. la Figura 9, se al generada. En es a la capa de neurona en la s ocho pesos si ción. Figura 9. Est ANN empieza do dichos val en donde es nal dentro de de entrada y el de aprendizaje ajuste de los c ismo de retro p hacia las capa ultados obtenid o entregado po de entrenamient mecanismo de nte [4]: os, resultando datos de prueb la complejida esente caso de ree y J48, ad Perceptron. uentran disponi ayer Perceptron es una ANN menlhart (1986 n aprendizaje n tipo de estr varias pequeñ as, están masi de donde recib donde la transm aracterísticas d apacidad para de ejemplos datos, a través, uy adecuados muestra la estr n donde se apre entrada, dos n salida. Además inápticos gene tructura de la red n a con unos pe lores iterativam s capaz de d los objetivos p conjunto de d e. oeficientes, se propagación de as ocultas, par dos de la salid or el vector que to. proceso forma un rendimien ba [20]. d y evitar el e estudio se oc demás del Alg Los tres ibles en Weka. n (red neuronal 6) las ANN mu por algoritmo ructura de co ñas unidades ivamente inter ben información miten [5]. del algoritmo aprender las s, descubrir p , de la auto org para de prob ructura de la re ecia el ingreso neuronas en la c s se ilustra la d erados por el m neuronal articifial. esos aleatorios mente, hasta ll determinar un preestablecidos datos de entrena realiza por m l error desde la ra posteriorme da de la red co e contiene el c al para cada neu nto inferior exceso de cuparán los goritmo de algoritmos . l artificial) ulticapas de o de retro omputación de cálculo rconectadas n, y con la Multilayer relaciones patrones y ganización. blemas de ed neuronal de las tres capa oculta distribución modelo de y aprende legar a un na relación s entre los amiento en medio de un as capas de ente cotejar on el valor conjunto de urona es el
  • 7. E p s p d f r c c in C E En donde, producto esca sinápticos. es el vector d es el vector d El subíndice es un valor para disminuir e La función de la neurona, función El resultado rango [0,1]. La cada neurona d capa, en donde ndependientes, C. Algoritmo J El algoritm Esta impleme es la salid alar entre el   de pesos sinápt de entradas a la e m indica el nú r denominado el sesgo. transforma e en la mayoría o de esta func a salida de cad de la capa sig e la entrada es , tal como se a J48 mo J48 es una entación gene da de la neur vector traspu ticos. a neurona. úmero de entra umbral que p el escalar resul de los casos co ción produce s da neurona, es guiente, except s el vector c aprecia en la Fi Figura aplicación del era árboles d (1) rona, es uesto de pes (2) (3) adas a la neuron permite ajustar tante en la sali orresponde a u sigmoid (4) alidas dentro d una entrada pa to en la prime con las variab gura 9. 10: Árbol Gráfico l algoritmo C4 de decisión. ) el sos na, rse ida una dal.   del ara era les El m Percept pondera de entr Esta va spread variable B. Alg El a patrón aplicac un árbo El f dos fas que se la segu ejemplo Para paráme En el algor la part cambio que cor o generado por el a 4.5. El algoritm decisió algoritm los atri modelo predict tron entregó c aciones de pes rada y empíric ariable clase e en el sistema es de entrada e goritmo Rep Tr algoritmo RepT de clasificaci ión de dicho a ol de clasificaci funcionamiento ses, en la prim sobreajuste a l unda fase se os que no parti a la aplicació etros por defect la Figura 10 se ritmo Rep Tre te no relacion o en la rama d rresponden a la algoritmo Rep Tree mo J48 ocupa n para los mo, utiliza en l ibutos que mej tivo elaborado como resultado sos. Estos peso camente determ es la que indic a de combustió en particular. ee Tree se utiliza p ón, obteniendo algoritmo una r ión. o del algoritmo mera fase se cre los datos usado poda el conj ciparon en el a n de este alg tos en la constr e muestra el ár e. La rama izq nada con la c derecha del árb a alarma. e. a una técnica árboles de la elaboración jor diferencia por algoritmo o la generació os ponderan la minan la vari ca si se produ ón de la TG, para la elabora o como result representación o RepTree se co ea un conjunto os para el apre njunto de regl aprendizaje [3]. goritmo se util rucción el mode rbol gráfico ge quierda del árb condición de a bol están los i a voraz para clasificación del árbol de cl las salidas, cr Multilayer ón de ocho as variables able clase. uce el alto para unas ación de un tado de la gráfica de ompone de o de reglas ndizaje, en las usando . lizaron los elo. enerado por bol muestra alarma, en indicadores inducir la [6]. Este asificación reando una
  • 8. r lo c p g c la m in m r U c d c A a e o a B R rama por cada os miembros p con dicha clase Para la apl parámetros por En la Figur generado. En clasificación de a condición de Fi Para la con minería de da nstancias para métricas de r resumen en la T Variable Coeficiente correlación Media de absoluto Raiz de cuadrado Error abso relativo Raiz de relativo cuadra Número instancias Una vez ob clasificación, s del potencial g continuación se A. Modelo de p El modelo artificial, permi específicos de operacionalmen activación de la B. Modelo de c El modelo Rep Tree clasif salida [13]. Ad poseen la mis e [3]. licación de es r defectos en la ra 11, se mue la rama der e instancias rela alarma. igura 11: Árbol Gr VII. RE nstrucción de atos generados a entrenamient rendimiento d Tabla 6. MultiLa Percept de 0.739 error 0.004 error 0.049 oluto 39.3034 error ado 69.3076 de 1171 Tabla 6: Resum btenidos los e requirió la e grado de inte e resume esta e predicción ANN de predicción ite indicar si op e las variable nte no es una a alarma. clasificación R de clasificació fica la operaci demás, termina ma clase, etiq ste algoritmo a construcción e estra el patrón recha del árb acionadas con e áfico generado por ESULTADOS cada uno de s, se ocupó to y un 5% p e cada mode Algoritm ayer tron RepTr 95 0.8158 45 0.0047 95 0.0483 4 % 41.5828 6 % 67.6879 1 1171 men de resultados modelos de evaluación del erés en cada u evaluación. NN generado por pera o no la ala es de entrada a ayuda para Rep Tree ón elaborado ón de la alarm a la rama si tod quetando la ram se utilizaron l el modelo. de clasificaci bol, describe el surgimiento r el algoritmo J48. los modelos un 95% de para prueba. L elo generado mos ree J48 8 0.7992 7 0.0043 3 0.0443 8 % 37.6059 % 9 % 61.9838 % 1171 de modelos. e predicción usuario respec uno de ellos. r la red neuron arma para valor a. Por lo qu anticiparse a por el algoritm ma, a partir de dos ma los ión la de de las Las se % % y cto A nal res ue, la mo un rango d Pero, a que el aportan C. Mod El m clasific Tambié rango d La dife a la cla modelo cliente. Es Cu A o Po A El m atributo combus porque las cua tempera se enc también cuando alto sp intensid número Con se cuen tener la la prote la TG, la utiliz debería cumplim mejorar A p acción condici el mode modelo es, iden de una de valores espe demás presenta árbol de clasif n a la clasificac delo de clasific modelo de cla cación similar a én clasifica la de valores espe erencia es que p asificación de l o que es claro Criterio comprensible umple con la función Ayuda a los objetivos del negocio otencialmente útil Aprobado Tabl modelo de clas o que es la in stión número c en el sistema ales 3 poseen atura, en el cas uentra más c n poseen term o se produce u pread, se man dad en la tem o cinco. VIII. CONC los patrones d nta con inform as señales clav ección por alto para así evitar zación de esta a aumentar la miento a los r la confiabilid partir del trab futura la ge iones de operac elo de minería o de clasificació ntificar anticipa alarma que per ecíficos para u a un modelo co ficación gener ción de la alarm cación J48 asificación J48 al generado po operación de ecíficos para u poda las ramas la alarma. Por y visualmente MultiLayer Perceptron Sí Sí No Sí No la 7: Resumen de a sificación de J ntensidad de la cinco. Según e de combustió n termocuplas so de la cámar ercana a las mocuplas. Esto una alta difere nifiesta dicha mperatura de la CLUSIONES Y TR de predicción y mación para s ves, cuando se o spread del si r la activación información p a disponibilida objetivos de dad ante sus cli bajo desarrolla eneración de ción de la plant de datos gener ón, se proceder adamente el sur rmita evitar el d una variable en onfuso para el rado posee ram ma. , presenta un or el algoritmo la alarma, a p una variable en s del árbol que lo anterior, se e aceptable po Algoritmos RepTree No Sí Sí Sí No aceptación de los m J48, se basa s a llama de la el usuario esto ón existen 14 c s, para la me a número cinc otras dos cám o explicaría e encia de tempe a diferencia c a cámara de c RABAJO FUTUR y clasificación saber qué valo produce la act istema de com de dicha prote para tomar dec ad de la TG la empresa, a ientes. ado se identi una simulació ta. Esto permit rado. Una vez v rá a su implanta rgimiento de la disparo de la tu particular. cliente, ya mas que no modelo de Rep Tree. artir de un particular. no aportan obtiene un or parte del J48 Sí Sí Sí Sí Sí modelos. sólo en un cámara de se explica cámaras de edición de o es la que maras que el por qué eratura por con mayor combustión RO generados, ores deben tivación de mbustión de cción. Con cisiones, se G para dar además de fica como ón de las tiría validar validado el ación. Esto a condición urbina.
  • 9. IX. AGRADECIMIENTOS Este trabajo fue realizado en el marco del desarrollo de un caso de estudio en la asignatura de minería de datos 1 del programa de Magíster en Ingeniería Informática de la UCN. X. GLOSARIO DE TÉRMINOS Alternador: Máquina eléctrica generadora de corriente alterna. Alto Spread TG: Es cuando se produce una alta diferencia de temperatura entre las cámaras de combustión de la turbina a gas. Cámara de combustión: Consiste en un recipiente al cual ingresa aire comprimido, al que se le añade combustible y se quema en forma ininterrumpida. Disponibilidad: Se produce cuando una turbina está declarada al controlador del SING, como utilizable para producir electricidad. Matriz Energética: Son los posibles combustibles que ocupa una Central para generar electricidad. PI System: El estándar de la industria en la infraestructura de la empresa para la gestión de datos en tiempo real y eventos. Potencia eléctrica: Es la velocidad con que se agota la energía. Rotor: Parte giratoria de una turbina. SING: Agrupación de Centrales Generadoras de Electricidad que se encuentran ubicadas entre las ciudades de Arica y Antofagasta. Salidas forzadas: Es la interrupción intempestiva de la turbina por falla o defecto de esta o cualquier otro motivo. Sistema de Control Distribuido: Es un concepto en donde la filosofía del equipo se define como la distribución geográfica del control, enlazada por una red de comunicaciones, cuyo destino es centralizar un cuadro de control central. Turbina a Gas: Es un motor térmico rotativo de flujo continuo que se caracteriza por presentar una baja relación peso-potencia y una velocidad de giro muy elevada XI. REFERENCIAS [1] U.M. Fayyad, G. Piatetsky-Sapiro, and P. Smyth. 1991. From data mining to knowledge discovery in databases. Editors, Advances in Knowledge Discovery and Data Mining, page 39. AAAI Press, (1997). [2] Mark A. Hall, Geoffrey Holmes. 2003. Benchmarking Attribute Selection Techniques for Discrete Class Data Mining. IEEE transactions on knowledge and data engineering, vol. 15, NO. 3. [3] I.H. Witten, E. Frank. (2005). Data Mining: practical machine learning tools and techniques 2nd. Edition. Morgan Kaufmann. [4] D. Rumelhart, G. Hinton, and R. Williams. 1986. Learning representation by error propagation, In D.E. Rumelhart and J.L. Mclelland, editors, Paralled Distributed Procession (Cambridge, MA: MIT Press). [5] Abrahart, R.J., See, L. y Kneale, P.E. 2001. Investigating the role of saliency analysis with a neural network rainfall-runoff model. Journal of Computers and Geosciences, 27: 921-928. [6] Soman, T. and Bobbie, P.O. 2005. Classification of Arrhythmia Using Machine Learning Techniques. Southern Polytechnic State University (SPSU) 1100 S. Marietta Parkway, Marietta, GA 30060, USA. [7] Elizabeth Vitt, Michael Luckevich, Stacia Misner. 2002. Making Better Business Intelligence Decisions Faster. editors Microsoft Press. [8] R. Wirth, J. Hipp. 2000. CRISP-DM: Towards a standard process model for data mining, in: Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining, Manchester, UK, 2000, pp. 29-39. [9] Min Tae Kim, Si Woo Lee. 2012. Application of in situ oxidation- resistant coating technology to a home-made 100 kW class gas turbine an its performance analysis. Applied Thermal Engineering, Volume 40, Pages 304–310. [10] Frank J. Brooks. 2001. GE Gas Turbine Performance Characteristics. GE Power Systems Schenectady, NY GER-3567H. [11] M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy. 1996. Advances in Knowledge Discovery and Data Mining. San Mateo, AAAI Press, EE.UU. [12] Michalski, R.S., Bratko, I., Kubat M. 1998. Machine Learning andData Mining. Methods and Applications. Wiley & Sons Ltd., EE.UU. [13] S.G. Jolandan, H Mobli, H Ahmadi, M Omid, S.S. Mohtasebi. 2012. Fuzzy-Rule-Based Faults Classification of Gearbox Tractor. Department of Agricultural Machinery Engineering, faculty of Agricultural Engineering and technology University of Tehran, Karaj, Iran. [14] Christina Athanasopoulou, Vasilis Chatziathanasiou and Ioannis Petridis. 2007. Utilizing data mining algorithms for identification and reconstruction of sensor faults: a Thermal Power Plant case study. University of Thessaloniki. [15] Vedrana Vidulin, Mitja Luštrek, Matjaž Gams. 2007. Comparison of the performance of genre classifiers trained by different machine learning algorithms. Department of Intelligent Systems. Jožef Stefan Institute. Jamova 39, 1000 Ljubljana, Slovenia. [16] Michalski, R. S. 1983. A Theory and Methodology of Inductive Learning. En Michalski, R. S., Carbonell, J. G., Mitchell, T. M. (eds.). Machine Learning: An Artificial Intelligence Approach, Vol. I. Morgan-Kauffman, EE.UU. [17] Jun Li, Shunyi Zhang, Yanqing Lu, Junrong Yan. 2008. Real-time P2P Traffic Identification. Nanjing University of Posts and Telecommunication, Nanjing, JiangSu, China. Zhejiang Wanli University, Ningbo, Zhejiang, China. [18] Prechelt L. 1998. Early stopping — but when? In. Orr GB, Muller OR, editors. Neural networks: Tricks of the trade. Berlin: Springer- Verlag Telos. [19] Ayman Ahmed Seleemah. 2012. A multilayer perceptron for predicting the ultimate shear strength of reinforced concrete beams. Journal of Civil Engineering and Construction Technology Vol. 3(2), pp. 64-79. [20] U.M. Fayyad, G. P. Shapiro and P. Smyth. 1996. The KDD process for extracting useful knowledge from volumes from data. Communication of ACM, Vol. 39(11).