SlideShare una empresa de Scribd logo
Gene Classification
Issues and Challenges for
Relational Learning


Autor: Jorge Soro Doménech
Asignatura: Minería de Datos Relacionales   1
Master: MISMFSI
INDICE
1.    ABSTRACCIÓN
2.    MOTIVACIÓN Y INTRODUCCIÓN
3.    DATOS Y PROPIEDADES DEL DOMINIO
4.    MÉTODO Y RETOS
     4.1. Problemas
     4.2. Soluciones potenciales
5.    RESULTADOS EXPERIMENTALES
     5.1. Enfoque
     5.2. Conjuntos ordenados y secuencias: Aprendizaje
          sobre la segunda estructura
     5.3. Similitud y relaciones inciertas
     5.4. Actuaciones a través de clases
6.    RESUMEN Y CONCLUSIONES
7.    BIBLIOGRAFÍA                                        2
1. ABSTRACCIÓN
                 3
1. ABSTRACCIÓN
• Se presenta la investigación del comportamiento que se aplica a las
  técnicas estadísticas del aprendizaje relacional, en particular la
  proposicionalización, que interesa y desafía al mundo real en el
  dominio funcional de la clasificación genética del “Yeast Genome
  Sach-haromyces Cerevisiae”.

• El principal objetivo es identificar y describir la estructura del
  dominio y las propiedades estadísticas de este.

• Se discute en términos generales las diferentes propiedades del
  dominio en el mundo real y se exploran los diferentes enfoques que
  conducen a un sistema Framework que es usado para el aprendizaje
  relacional, este es Automated Construction Of Relational Attributes
  (ACORA).
                                                                        4
2. MOTIVACIÓN Y
INTRODUCCIÓN
                  5
2. MOTIVACIÓN Y INTRODUCCIÓN
• El campo del aprendizaje multi-relacional ha progresado
  considerablemente en la última década debido a la gran actividad en
  la investigación.

• Sin embargo, todavía se tiene que demostrar que las herramientas
  disponibles puedan manejar una gran cantidad de problemas del
  mundo real que implican ruido, escasez y datos complejos.

• En el año 2005, en la Inductive Logic Programming Conference (ILP)
  se introdujo un reto que consistía en la evaluación del aprendizaje
  relacional con las técnicas existentes dado un conjunto de datos
  genéticos (Yeast genoma).


                                                                        6
2. MOTIVACIÓN Y INTRODUCCIÓN
• El conjunto de datos genéticos tiene un número de propiedades que
  pueden ser usadas como punto de referencia:
  • disponibilidad pública,
  • gran interés científico,
  • un tamaño razonable,
  • predicabilidad limitada con margen de mejora,
  • y retos en las propiedades estructurales.




                                                                      7
3. DATOS Y
PROPIEDADES DEL
DOMINIO
                  8
3. DATOS Y PROPIEDADES DEL DOMINIO

• La estructura relacional, en particular la del dominio de la
  genética, tiene múltiples orígenes:
  • la complejidad de la estructura del objeto de interés (los genes).

  • la cantidad de información producida por la variedad de
    experimentos del genoma, tales como la secuencia del genoma.

• La información obtenida es fácilmente representada en una
  base de datos relacional.




                                                                         9
3. DATOS Y PROPIEDADES DEL DOMINIO
• La primera tabla Functional Class Annotation consiste en las
  anotaciones funcionales de algunos de los genes basadas en un
  esquema de clasificación jerárquica funcional llamado Fun-Cat.




• Las clases se organizan en arboles Fun-Cat y es posible que un gen tenga
  múltiples etiquetas de clase a través de los árboles.
                                                                             10
3. DATOS Y PROPIEDADES DEL DOMINIO
• La segunda tabla Yeast-Yeast Homology contiene información sobre
  la similitud entre los genes del genoma Yeast.




• Por otra parte, cabe destacar el Basic Local Alignment Search Tool
  (BLAST) es un software que es capaz de comparar una secuencia
  (ADN o proteína) con una gran cantidad de secuencias que se
  encuentren en una base de datos.
• Es importante tener en cuenta que las puntuaciones de similitud
  están disponibles sólo para algunos pares de genes y la ausencia de
  una puntuación no implica un cero o infinito.                         11
3. DATOS Y PROPIEDADES DEL DOMINIO

• El tercer origen de datos Yeast-SwissProt Homology es similar
  a las puntuaciones de similitud entre los genes Yeast y las
  proteínas en el SwissProt .




• Añadiendo a las puntuaciones de similitud anteriores (Tabla
  3), se tiene la Tabla 4, que representa el conjunto de
  características de las proteínas.

                                                                  12
3. DATOS Y PROPIEDADES DEL DOMINIO

• El cuarto y último origen de datos es la estructura secundaria
  que representa el conjunto de datos en el cual se proporciona
  la estructura secundaria de las proteínas sintetizadas de cada
  uno de los genes en el genoma Yeast.
• Esta estructura secundaria está representada por una
  secuencia de tres símbolos a (alfa), b (beta) y c (hélice)
  correspondiente a los componentes estructurales indicados
  entre paréntesis.




                                                                   13
3. DATOS Y PROPIEDADES DEL DOMINIO

• La siguiente figura muestra la estructura secundaria de la
  proteína generada por uno de los Yeast gens.
• De cada una de estas secuencias de la proteína, se representa
  el orden de aparición, el tipo y la longitud de la sección, como
  en la Tabla 5.




                                                                     14
3. DATOS Y PROPIEDADES DEL DOMINIO
• Podemos identificar una serie de propiedades:

  • Weighted links: Las dos tablas de Homology (2 y 3) no capturan
    una relación bien definida entre pares de un objeto (es decir, si
    existe relación o no).




                                                                        15
3. DATOS Y PROPIEDADES DEL DOMINIO
 • Sparse data: Un estudio en las tablas de Homology revela un alto
   grado de dispersión. Algunos genes tienen muchas entradas,
   otros muchos sólo una.

 • Ordered data: Las bases de datos relacionales sólo tienen una
   interpretación establecida. El orden se expresa por la
   introducción de un campo numérico que realiza un seguimiento
   de la posición relativa.

 • Multiple class-hierarchies: La particular estructura de la clase de
   este dominio genético no es una propiedad relacional.



                                                                         16
4.MÉTODO Y RETOS
                   17
4.MÉTODO Y RETOS
• Muchos enfoques relacionales parecen adecuados para el
  aprendizaje la tarea de clasificación en el dominio de la genética.

• Utilizamos un enfoque de proposicionalización que construye las
  características de la información en las tablas.

• El algoritmo utiliza una amplitud de búsqueda (la profundidad
  deseada se ajusta por el usuario) sobre todas las posibles
  combinaciones en los atributos de identificación a partir de la tabla
  de destino.

• Para cada combinación, se agregan todos los conjuntos de atributos
  de forma independiente usando operadores tradicionales de
  congregación como el promedio y el recuento, así como la
  distribución de los atributos en las clases.                            18
4.1. PROBLEMAS
• En la estructura secundaria, si las filas son tratadas como
  ejemplos aleatorios y cada una de ellas tiene sus tres atributos
  agregados independientemente, las actuales secuencias se
  pierden.
• Por tanto, la representación viola ambos asuntos: los campos
  de la tabla son claramente independientes y las filas no son
  ejemplos aleatorios.




                                                                     19
4.1. PROBLEMAS
• En la propiedad de Similarity deberíamos esperar que un par
  de genes con puntuación similar tengan proteínas que
  dispongan de la misma funcionalidad.
• En la class-conditional la independencia de la distancia del
  atributo y el identificador del objeto oculta algún significado.
• En resumen, el dominio tiene una tabla con todas las
  características de las proteínas. Cada característica es
  claramente mas relevante si la similitud entre el objeto y el
  gen corresponde en las referencias.


                                                                     20
4.2. SOLUCIONES POTENCIALES
• Si se puede hacer una predicción de un objeto nuevo que
  nunca se ha visto, entonces se puede decir que es similar a los
  objetos previamente ya vistos.
• Podemos seguir uno de los siguientes enfoques para hacer
  frente a los supuestos y las propiedades del dominio:
  • Cambiar las hipótesis,
  • Cambiar la representación del dominio para ajustar los supuestos,




                                                                        21
5. RESULTADOS
EXPERIMENTALES
                 22
5. RESULTADOS EXPERIMENTALES
• El principal foco de estudio es el de las características de los de
  dominios y no la complejidad de la tarea de clasificación.

• Por lo tanto, se ha seleccionado inicialmente una tarea de
  clasificación binaria, que implica la identificación de genes que
  sintetizan las proteínas implicadas en el transporte celular (clase 20).

• Todos los resultados que se obtienen son sólo ejemplos.




                                                                             23
5.1 ENFOQUE
• Inicialmente, vamos a fingir que no sabemos nada acerca del dominio
  principal y del significado de los campos de la base de datos.
• En particular, no haremos caso de la falta de correspondencia entre la
  semántica del dominio y los supuestos del método.
• Los resultados de estos experimentos se muestran en la Tabla 6.




                                                                           24
5.2. CONJUNTOS ORDENADOS Y SECUENCIAS:
APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA
• Consideramos un ejemplo de una estructura secundaria con una secuencia
  de información del gen ytq0045.
• ACORA puede extraer de la segunda estructura el numero total de
  componentes, el numero de componentes de a,b,c y la duración media.
• La estructura secundaria de la correspondiente proteína es:

• Dónde       denota n repeticiones de la letra z. Esta información es obtenida
  a partir de la siguiente tabla:




                                                                                  25
5.2. CONJUNTOS ORDENADOS Y SECUENCIAS:
APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA
• El rendimiento obtenido de los modelos usando la representación
  de la estructura secundaria es mostrado en la siguiente tabla.




                                                                    26
5.3. SIMILITUD Y RELACIONES INCIERTAS

• Consideramos de tres enfoques diferentes a tener en cuenta:
  1. Seleccionar los pares sólo cuando el marcador esta por
     debajo de una nota de corte.
  2. Seleccionar para cada gen de un subconjunto que
     representa los n objetos con menor puntuación.
  3. El tratamiento de la puntuación de similitud como
     probabilidad.




                                                                27
5.3. SIMILITUD Y RELACIONES INCIERTAS

• Los resultados de los experimentos se muestran en la tabla 10.
  Incluye en particular las propiedades del objeto y las etiquetas de
  las clases de otros Yeast gens de entrenamiento (10,20,50).
• Se puede ver una clara mejora que en la tabla 6. La precisión y el
  rango han aumentado significativamente.




                                                                        28
5.4. ACTUACIÓNES A TRAVES DE CLASES
• Finalmente se presenta en la
  siguiente tabla el resultado de las
  hipótesis para todas la clases,
  utilizando toda la información
  disponible.
• Los rangos (AUC) van desde 0.641
  (para la clase 32) hasta 0,93 (para la
  clase 38).
• También vemos una fuerte inclinación
  de los prior de clase que van desde
  0,653 para la mayoría de los común
  de la clase 01 a 0,973 para la clase
  por lo común 38.
• Ambas características pueden tener
  un fuerte impacto para la evaluación
  y el desempeño del análisis.
                                           29
6. RESUMEN Y
CONCLUSIONES
               30
6. RESUMEN Y CONCLUSIONES

• El objetivo de esta presentación es motivar la discusión de las
  actuales limitaciones de los enfoques de modelado relacional.
  Las limitaciones están relacionadas con las propiedades de
  dominio específico y en particular, causadas por violaciones de
  los distintos supuestos de independencia.

• Las propiedades son comunes a una gran variedad de ámbitos y
  es necesaria una mayor atención.

• Como objetivo secundario, se motiva a más investigadores a
  considerar este conjunto de datos genéticos, como una
  plataforma para realizar las comparaciones de rendimiento.

• Trabajar mas este dominio podría contribuir a una mejor
                                                                    31
  comprensión de las capacidades relacionales de los enfoques de
  aprendizaje.
7. BIBLIOGRAFÍA
                  32
7.BIBLIOGRAFÍA
1.   S. F. Altschul, T.L. Madden, A.A. Schaer, J. Zhang,Z. Zhang, W. Miller,
     and D.J. Lipman. Gapped blast and psi-blast: a new generation of
     protein database search programs. Nucleic Acids Research,
     25:3389{3402, 1997.
2.   A. Bairoch and R. Apweiler. The swiss-prot protein sequence database
     and its supplement trembl. Nucleic Acids Research, 28:45{48, 2000.
3.   A.P. Bradley. The use of the area under the ROC curve in the
     evaluation of machine learning algorithms. Pattern Recognition,
     30(7):1145{1159, 1997.
4.   A. Clare and King R.D. Data mining the yeast genome in a lazy
     functional language. In Practical Aspects of Declarative Languages
     (PADL'03), 2003.
5.   L. Dehaspe and L. De Raedt. DLAB: A declarative language bias
     formalism. In International Syposium on Methodologies for Intelligent
     Systems, pages 613{622, 1996.                                             33
7.BIBLIOGRAFÍA
6.   D. Jensen and J. Neville. Linkage and autocorrelation cause feature
     selection bias in relational learning. In Proceedings of the 19th
     International Conference on Machine Learning (ICML), 2002.
7.   D. Jensen, J. Neville, and B. Gallagher. Why collective inference
     improves relational classication. In Proceedings of the 10th
     International Conference on Knowledge Discovery and Data Mining
     (KDD), pages 593{598, 2004.
8.   S.A. Macskassy and F. Provost. A simple relational classier. In
     Proceedings of the Workshop on Multi-Relational Data Mining (KDD),
     2003.
9.   S.H. Muggleton. Stochastic logic programs. In Proceedings of the 5th
     International Workshop on Inductive Logic Programming, page 29.
     Department of Computer Science, Katholieke Universiteit Leuven,
     1995.
10. M. Ouali and R.D. King. Cascaded multiple classiers for secondary       34
    structure prediction. Protein Science, (9):1162{1176, 2000.
7.BIBLIOGRAFÍA
11. C. Perlich and F. Provost. Aggregation-based feature invention and
    relational concept classes. In Proceedings of the Ninth ACM
    International Conference on Knowledge Discovery and Data
    Mining (KDD), 2003.
12. C. Perlich and F. Provost. ACORA: Distribution-based aggregation
    for relational learning from identier attributes. Forthcoming in
    Journal of Machine Learning, 2005.
13. K. Ross, D. Ashwin, and S. Dehaspe. WARMR: A data mining tool
    for chemical data. Journal of Computer Aided Molecular Design,
    (15):173{181, 2001.
14. A. Ruepp, A. Zollner, D. Maier, K. Albermann, J. Hani, M. Mokrejs, I.
    Tetko, U. Guldener, G. Mannhaupt, M. Munsterkotter, and HW.
    Mewes. The funcat, a functional annotation scheme for systematic
    classication of proteins from whole genomes. Nucleic Acids
    Research, 32:5539{5545, 2004.                                           35

Más contenido relacionado

PPT
Teoria celular y organelos celulares
PPSX
Mitosis ppt
PPT
Mitosis Y Meiosis
PPS
PPTX
teoría de pavlov
PPT
Bioinformatica present
PDF
Mi proyecto de pre-tesis
PPTX
Data Science vs networkn adaptarse Science.pptx
Teoria celular y organelos celulares
Mitosis ppt
Mitosis Y Meiosis
teoría de pavlov
Bioinformatica present
Mi proyecto de pre-tesis
Data Science vs networkn adaptarse Science.pptx

Similar a Gene classification (20)

ODP
Bio4j
PDF
CC_019_art_4.pdf
PDF
Antologia de probabilidad y estadistica
PDF
Memoria Exploración y Análisis de Datos
PPTX
Molinari ana
PDF
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
PDF
prediccion_genes.pdf
DOCX
PPT
Las multiples caras de la bioinformatica
PDF
Curso Vigo. Servicios bibliotecarios de apoyo a la investigación
PDF
Sesion R
PDF
Guia de ejercicios.
DOCX
Ejercicio de metodos estadisticos.docx
PDF
2011 minitab-15
PDF
Introduccion a la bioinformatica
PPT
Medidas difusas para comparación de TFBSs.
PDF
5.3 Nuevas Aplicaciones en la identificacion genetica.pdf
PDF
Fast comparison of microbial genomes using the Chaos Games Representation for...
PPT
9. bioinformatica bases de datos.
DOCX
Bioinformatica
Bio4j
CC_019_art_4.pdf
Antologia de probabilidad y estadistica
Memoria Exploración y Análisis de Datos
Molinari ana
Nuevo enfoque de aprendizajesemi-supervisado para la identificaciónde secuenci...
prediccion_genes.pdf
Las multiples caras de la bioinformatica
Curso Vigo. Servicios bibliotecarios de apoyo a la investigación
Sesion R
Guia de ejercicios.
Ejercicio de metodos estadisticos.docx
2011 minitab-15
Introduccion a la bioinformatica
Medidas difusas para comparación de TFBSs.
5.3 Nuevas Aplicaciones en la identificacion genetica.pdf
Fast comparison of microbial genomes using the Chaos Games Representation for...
9. bioinformatica bases de datos.
Bioinformatica
Publicidad

Más de Jorge Soro (8)

PDF
6. SPARK.pdf
PPTX
Introducción Bussines Intelligence
PDF
Guia farmacoterapeutica cartel
PDF
Guía farmacoterapéutica
PDF
Hierarchical Delta Debugging
PDF
Presentacion android mistela&tweets
PPTX
Mobility and security
PDF
The human gene mutation database
6. SPARK.pdf
Introducción Bussines Intelligence
Guia farmacoterapeutica cartel
Guía farmacoterapéutica
Hierarchical Delta Debugging
Presentacion android mistela&tweets
Mobility and security
The human gene mutation database
Publicidad

Último (20)

PPTX
Curso de generación de energía mediante sistemas solares
PDF
capacitación de aire acondicionado Bgh r 410
PPTX
Mecanismos-de-Propagacion de ondas electromagneticas
PPTX
Presentación de Redes de Datos modelo osi
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
PDF
Estrategia de Apoyo de Daylin Castaño (5).pdf
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PPTX
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
PDF
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
DOCX
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PDF
CyberOps Associate - Cisco Networking Academy
DOCX
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
DOCX
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
PPTX
Propuesta BKP servidores con Acronis1.pptx
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
Curso de generación de energía mediante sistemas solares
capacitación de aire acondicionado Bgh r 410
Mecanismos-de-Propagacion de ondas electromagneticas
Presentación de Redes de Datos modelo osi
informe_fichas1y2_corregido.docx (2) (1).pdf
Estrategia de Apoyo de Daylin Castaño (5).pdf
Power Point Nicolás Carrasco (disertación Roblox).pptx
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
Zarate Quispe Alex aldayir aplicaciones de internet .docx
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
Influencia-del-uso-de-redes-sociales.pdf
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
CyberOps Associate - Cisco Networking Academy
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
Propuesta BKP servidores con Acronis1.pptx
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN

Gene classification

  • 1. Gene Classification Issues and Challenges for Relational Learning Autor: Jorge Soro Doménech Asignatura: Minería de Datos Relacionales 1 Master: MISMFSI
  • 2. INDICE 1. ABSTRACCIÓN 2. MOTIVACIÓN Y INTRODUCCIÓN 3. DATOS Y PROPIEDADES DEL DOMINIO 4. MÉTODO Y RETOS 4.1. Problemas 4.2. Soluciones potenciales 5. RESULTADOS EXPERIMENTALES 5.1. Enfoque 5.2. Conjuntos ordenados y secuencias: Aprendizaje sobre la segunda estructura 5.3. Similitud y relaciones inciertas 5.4. Actuaciones a través de clases 6. RESUMEN Y CONCLUSIONES 7. BIBLIOGRAFÍA 2
  • 4. 1. ABSTRACCIÓN • Se presenta la investigación del comportamiento que se aplica a las técnicas estadísticas del aprendizaje relacional, en particular la proposicionalización, que interesa y desafía al mundo real en el dominio funcional de la clasificación genética del “Yeast Genome Sach-haromyces Cerevisiae”. • El principal objetivo es identificar y describir la estructura del dominio y las propiedades estadísticas de este. • Se discute en términos generales las diferentes propiedades del dominio en el mundo real y se exploran los diferentes enfoques que conducen a un sistema Framework que es usado para el aprendizaje relacional, este es Automated Construction Of Relational Attributes (ACORA). 4
  • 6. 2. MOTIVACIÓN Y INTRODUCCIÓN • El campo del aprendizaje multi-relacional ha progresado considerablemente en la última década debido a la gran actividad en la investigación. • Sin embargo, todavía se tiene que demostrar que las herramientas disponibles puedan manejar una gran cantidad de problemas del mundo real que implican ruido, escasez y datos complejos. • En el año 2005, en la Inductive Logic Programming Conference (ILP) se introdujo un reto que consistía en la evaluación del aprendizaje relacional con las técnicas existentes dado un conjunto de datos genéticos (Yeast genoma). 6
  • 7. 2. MOTIVACIÓN Y INTRODUCCIÓN • El conjunto de datos genéticos tiene un número de propiedades que pueden ser usadas como punto de referencia: • disponibilidad pública, • gran interés científico, • un tamaño razonable, • predicabilidad limitada con margen de mejora, • y retos en las propiedades estructurales. 7
  • 8. 3. DATOS Y PROPIEDADES DEL DOMINIO 8
  • 9. 3. DATOS Y PROPIEDADES DEL DOMINIO • La estructura relacional, en particular la del dominio de la genética, tiene múltiples orígenes: • la complejidad de la estructura del objeto de interés (los genes). • la cantidad de información producida por la variedad de experimentos del genoma, tales como la secuencia del genoma. • La información obtenida es fácilmente representada en una base de datos relacional. 9
  • 10. 3. DATOS Y PROPIEDADES DEL DOMINIO • La primera tabla Functional Class Annotation consiste en las anotaciones funcionales de algunos de los genes basadas en un esquema de clasificación jerárquica funcional llamado Fun-Cat. • Las clases se organizan en arboles Fun-Cat y es posible que un gen tenga múltiples etiquetas de clase a través de los árboles. 10
  • 11. 3. DATOS Y PROPIEDADES DEL DOMINIO • La segunda tabla Yeast-Yeast Homology contiene información sobre la similitud entre los genes del genoma Yeast. • Por otra parte, cabe destacar el Basic Local Alignment Search Tool (BLAST) es un software que es capaz de comparar una secuencia (ADN o proteína) con una gran cantidad de secuencias que se encuentren en una base de datos. • Es importante tener en cuenta que las puntuaciones de similitud están disponibles sólo para algunos pares de genes y la ausencia de una puntuación no implica un cero o infinito. 11
  • 12. 3. DATOS Y PROPIEDADES DEL DOMINIO • El tercer origen de datos Yeast-SwissProt Homology es similar a las puntuaciones de similitud entre los genes Yeast y las proteínas en el SwissProt . • Añadiendo a las puntuaciones de similitud anteriores (Tabla 3), se tiene la Tabla 4, que representa el conjunto de características de las proteínas. 12
  • 13. 3. DATOS Y PROPIEDADES DEL DOMINIO • El cuarto y último origen de datos es la estructura secundaria que representa el conjunto de datos en el cual se proporciona la estructura secundaria de las proteínas sintetizadas de cada uno de los genes en el genoma Yeast. • Esta estructura secundaria está representada por una secuencia de tres símbolos a (alfa), b (beta) y c (hélice) correspondiente a los componentes estructurales indicados entre paréntesis. 13
  • 14. 3. DATOS Y PROPIEDADES DEL DOMINIO • La siguiente figura muestra la estructura secundaria de la proteína generada por uno de los Yeast gens. • De cada una de estas secuencias de la proteína, se representa el orden de aparición, el tipo y la longitud de la sección, como en la Tabla 5. 14
  • 15. 3. DATOS Y PROPIEDADES DEL DOMINIO • Podemos identificar una serie de propiedades: • Weighted links: Las dos tablas de Homology (2 y 3) no capturan una relación bien definida entre pares de un objeto (es decir, si existe relación o no). 15
  • 16. 3. DATOS Y PROPIEDADES DEL DOMINIO • Sparse data: Un estudio en las tablas de Homology revela un alto grado de dispersión. Algunos genes tienen muchas entradas, otros muchos sólo una. • Ordered data: Las bases de datos relacionales sólo tienen una interpretación establecida. El orden se expresa por la introducción de un campo numérico que realiza un seguimiento de la posición relativa. • Multiple class-hierarchies: La particular estructura de la clase de este dominio genético no es una propiedad relacional. 16
  • 18. 4.MÉTODO Y RETOS • Muchos enfoques relacionales parecen adecuados para el aprendizaje la tarea de clasificación en el dominio de la genética. • Utilizamos un enfoque de proposicionalización que construye las características de la información en las tablas. • El algoritmo utiliza una amplitud de búsqueda (la profundidad deseada se ajusta por el usuario) sobre todas las posibles combinaciones en los atributos de identificación a partir de la tabla de destino. • Para cada combinación, se agregan todos los conjuntos de atributos de forma independiente usando operadores tradicionales de congregación como el promedio y el recuento, así como la distribución de los atributos en las clases. 18
  • 19. 4.1. PROBLEMAS • En la estructura secundaria, si las filas son tratadas como ejemplos aleatorios y cada una de ellas tiene sus tres atributos agregados independientemente, las actuales secuencias se pierden. • Por tanto, la representación viola ambos asuntos: los campos de la tabla son claramente independientes y las filas no son ejemplos aleatorios. 19
  • 20. 4.1. PROBLEMAS • En la propiedad de Similarity deberíamos esperar que un par de genes con puntuación similar tengan proteínas que dispongan de la misma funcionalidad. • En la class-conditional la independencia de la distancia del atributo y el identificador del objeto oculta algún significado. • En resumen, el dominio tiene una tabla con todas las características de las proteínas. Cada característica es claramente mas relevante si la similitud entre el objeto y el gen corresponde en las referencias. 20
  • 21. 4.2. SOLUCIONES POTENCIALES • Si se puede hacer una predicción de un objeto nuevo que nunca se ha visto, entonces se puede decir que es similar a los objetos previamente ya vistos. • Podemos seguir uno de los siguientes enfoques para hacer frente a los supuestos y las propiedades del dominio: • Cambiar las hipótesis, • Cambiar la representación del dominio para ajustar los supuestos, 21
  • 23. 5. RESULTADOS EXPERIMENTALES • El principal foco de estudio es el de las características de los de dominios y no la complejidad de la tarea de clasificación. • Por lo tanto, se ha seleccionado inicialmente una tarea de clasificación binaria, que implica la identificación de genes que sintetizan las proteínas implicadas en el transporte celular (clase 20). • Todos los resultados que se obtienen son sólo ejemplos. 23
  • 24. 5.1 ENFOQUE • Inicialmente, vamos a fingir que no sabemos nada acerca del dominio principal y del significado de los campos de la base de datos. • En particular, no haremos caso de la falta de correspondencia entre la semántica del dominio y los supuestos del método. • Los resultados de estos experimentos se muestran en la Tabla 6. 24
  • 25. 5.2. CONJUNTOS ORDENADOS Y SECUENCIAS: APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA • Consideramos un ejemplo de una estructura secundaria con una secuencia de información del gen ytq0045. • ACORA puede extraer de la segunda estructura el numero total de componentes, el numero de componentes de a,b,c y la duración media. • La estructura secundaria de la correspondiente proteína es: • Dónde denota n repeticiones de la letra z. Esta información es obtenida a partir de la siguiente tabla: 25
  • 26. 5.2. CONJUNTOS ORDENADOS Y SECUENCIAS: APRENDIZAJE SOBRE LA SEGUNDA ESTRUCTURA • El rendimiento obtenido de los modelos usando la representación de la estructura secundaria es mostrado en la siguiente tabla. 26
  • 27. 5.3. SIMILITUD Y RELACIONES INCIERTAS • Consideramos de tres enfoques diferentes a tener en cuenta: 1. Seleccionar los pares sólo cuando el marcador esta por debajo de una nota de corte. 2. Seleccionar para cada gen de un subconjunto que representa los n objetos con menor puntuación. 3. El tratamiento de la puntuación de similitud como probabilidad. 27
  • 28. 5.3. SIMILITUD Y RELACIONES INCIERTAS • Los resultados de los experimentos se muestran en la tabla 10. Incluye en particular las propiedades del objeto y las etiquetas de las clases de otros Yeast gens de entrenamiento (10,20,50). • Se puede ver una clara mejora que en la tabla 6. La precisión y el rango han aumentado significativamente. 28
  • 29. 5.4. ACTUACIÓNES A TRAVES DE CLASES • Finalmente se presenta en la siguiente tabla el resultado de las hipótesis para todas la clases, utilizando toda la información disponible. • Los rangos (AUC) van desde 0.641 (para la clase 32) hasta 0,93 (para la clase 38). • También vemos una fuerte inclinación de los prior de clase que van desde 0,653 para la mayoría de los común de la clase 01 a 0,973 para la clase por lo común 38. • Ambas características pueden tener un fuerte impacto para la evaluación y el desempeño del análisis. 29
  • 31. 6. RESUMEN Y CONCLUSIONES • El objetivo de esta presentación es motivar la discusión de las actuales limitaciones de los enfoques de modelado relacional. Las limitaciones están relacionadas con las propiedades de dominio específico y en particular, causadas por violaciones de los distintos supuestos de independencia. • Las propiedades son comunes a una gran variedad de ámbitos y es necesaria una mayor atención. • Como objetivo secundario, se motiva a más investigadores a considerar este conjunto de datos genéticos, como una plataforma para realizar las comparaciones de rendimiento. • Trabajar mas este dominio podría contribuir a una mejor 31 comprensión de las capacidades relacionales de los enfoques de aprendizaje.
  • 33. 7.BIBLIOGRAFÍA 1. S. F. Altschul, T.L. Madden, A.A. Schaer, J. Zhang,Z. Zhang, W. Miller, and D.J. Lipman. Gapped blast and psi-blast: a new generation of protein database search programs. Nucleic Acids Research, 25:3389{3402, 1997. 2. A. Bairoch and R. Apweiler. The swiss-prot protein sequence database and its supplement trembl. Nucleic Acids Research, 28:45{48, 2000. 3. A.P. Bradley. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 30(7):1145{1159, 1997. 4. A. Clare and King R.D. Data mining the yeast genome in a lazy functional language. In Practical Aspects of Declarative Languages (PADL'03), 2003. 5. L. Dehaspe and L. De Raedt. DLAB: A declarative language bias formalism. In International Syposium on Methodologies for Intelligent Systems, pages 613{622, 1996. 33
  • 34. 7.BIBLIOGRAFÍA 6. D. Jensen and J. Neville. Linkage and autocorrelation cause feature selection bias in relational learning. In Proceedings of the 19th International Conference on Machine Learning (ICML), 2002. 7. D. Jensen, J. Neville, and B. Gallagher. Why collective inference improves relational classication. In Proceedings of the 10th International Conference on Knowledge Discovery and Data Mining (KDD), pages 593{598, 2004. 8. S.A. Macskassy and F. Provost. A simple relational classier. In Proceedings of the Workshop on Multi-Relational Data Mining (KDD), 2003. 9. S.H. Muggleton. Stochastic logic programs. In Proceedings of the 5th International Workshop on Inductive Logic Programming, page 29. Department of Computer Science, Katholieke Universiteit Leuven, 1995. 10. M. Ouali and R.D. King. Cascaded multiple classiers for secondary 34 structure prediction. Protein Science, (9):1162{1176, 2000.
  • 35. 7.BIBLIOGRAFÍA 11. C. Perlich and F. Provost. Aggregation-based feature invention and relational concept classes. In Proceedings of the Ninth ACM International Conference on Knowledge Discovery and Data Mining (KDD), 2003. 12. C. Perlich and F. Provost. ACORA: Distribution-based aggregation for relational learning from identier attributes. Forthcoming in Journal of Machine Learning, 2005. 13. K. Ross, D. Ashwin, and S. Dehaspe. WARMR: A data mining tool for chemical data. Journal of Computer Aided Molecular Design, (15):173{181, 2001. 14. A. Ruepp, A. Zollner, D. Maier, K. Albermann, J. Hani, M. Mokrejs, I. Tetko, U. Guldener, G. Mannhaupt, M. Munsterkotter, and HW. Mewes. The funcat, a functional annotation scheme for systematic classication of proteins from whole genomes. Nucleic Acids Research, 32:5539{5545, 2004. 35