SlideShare una empresa de Scribd logo
Nuevos enfoques en el análisis de datos de microarrays Javier Pérez Florido Departamento de Arquitectura y Tecnología de Computadores, Universidad de Granada [email_address]
Índice de contenidos Un poco de historia ¿Qué es un microarray y para qué sirve? Tecnologías de microarray más conocidas. Análisis de microarrays Pre-procesamiento Ejemplo: Chronic Lymphocytic Leukemia (CLL) data Trabajos relacionados
Un poco de historia A finales de los años 80, cuatro científicos , Stephen Fodor, Michael Pirrung, Leighton Read y Lubert Stryer, desarrollaron una revolucionaria tecnología para la determinación y cuantificación de ADN en una muestra. Esta tecnología, desembocó en la primera plataforma de microarrays de ADN: Genechip de Affymetrix.
¿Para qué sirve un microarray? Nos permite observar la expresión de miles de genes del genoma de un organismo. Identificar genes que producen ciertas enfermedades mediante la comparación de los niveles de expresión entre células sanas y células que están desarrollando ciertos tipos de enfermedades.
¿Qué es un microarray? Consiste en un gran número de moléculas de ADN ordenadas sobre un sustrato sólido, formando una matriz de secuencias en dos dimensiones. Estos fragmentos (sondas) de material genético de una sola hebra pueden ser: Secuencias cortas (oligonucleótidos) Secuencias de mayor tamaño (cDNA sintetizado a partir del mRNA) Productos PCR (Polymerase Chain Reaction) Los ácidos nucleicos de las muestras a analizar se marcan por diversos métodos (fluorescentes, enzimáticos, etc.) y se incuban/vierten sobre el panel de sondas -> hibridación de secuencias homólogas
¿Qué es un microarray? Durante la hibridación, las muestras de material genético marcadas se unirán a sus complementarias inmovilizadas en el chip. Tras el lavado del microarray, el escáner identifica y cuantifica el ADN hibridado y las herramientas informáticas, permitirán interpretar y analizar  los datos obtenidos.
¿Qué es un microarray? Aplicaciones: Análisis de expresión génica. Detección de mutaciones y polimorfismos. Secuenciación. Seguimiento de terapia. Medicina preventiva. Toxicología de fármacos. Diagnóstico molecular ...
¿Qué es un microarray? Tecnologías más conocidas: Spotted cDNA arrays (Brown/Botstein) Short oligonucleotide arrays (Affymetrix) Illumina Bead Arrays
Spotted cDNA arrays La razón de las intensidades rojas y verdes para cada “spot” es indicativo de la abundancia relativa de la correspondiente sonda de ADN en las dos muestras diana. M=log2( A / B )=log2( A )-log2( B ). Casos: M>0: gen sobre-expresado en la muestra verde. M=0: gen expresado equitativamente en ambas muestras. M<0: gen sobre-expresado en la muestra roja.
Short oligonucleotide arrays - Affymetrix Cada gen o porción de gen se representa por 11-20 pares de sondas. Cada par de sondas consiste en dos oligonucleótidos (PM,MM)  de 25 bases de longitud. “ Perfect Match (PM)”: 25  bases complementarias a una secuencia referencia de interés (parte de un gen) “ Mismatch (MM)”: =PM excepto la base en la posición 13 (G<->C, A<->T) Conjunto de pares de sondas: colección de pares de sondas (PM-MM) (11 a 20) relacionadas con un gen común o fracción de gen. El propósito de las sondas MM es medir la hibridación no específica y el ruido de fondo.
Short oligonucleotide arrays - Affymetrix
Short oligonucleotide arrays - Affymetrix
Illumina Bead Arrays
Análisis de microarrays Análisis de calidad de los microarrays. Pre-procesamiento: depende de la plataforma y trata de reducir la variabilidad técnica sin alterar la variabilidad biológica de los datos Análisis estadístico: selección de los genes expresados diferencialmente Mann Whitney U test, Student’s t-test Agrupación de genes en clusters de acuerdo con la similitud en los patrones de expresión o clasificación: Clustering jerárquico, k-means, SOM Support Vector Machines (SVMs), K-Nearest-Neighbour (K-NN), Classification trees Mapeo de genes a términos GO (Gene Ontology) -> procesos biológicos, componentes celulares o funciones moleculares de los genes seleccionados.
Análisis de microarrays  Bioconductor ( www.bioconductor.org ), basado en el lenguaje de programación R ( http://www.R-project.org ) es la herramienta referencia para el análisis de microarrays con un repertorio completo de paquetes para cada etapa de análisis de microarrays.  Bioconductor es un proyecto de  código abierto Paquetes: Análisis de calidad:  affy, simpleaffy, affyPLM, affyqcreport, arrayqualitymetrics Pre-procesamiento:  affy, affyPLM, limma, vsn Detección de genes expresados diferencialmente:  limma, siggenes, multtest Agrupamiento:  hopach, cluster, kohonen, class, som.  Clasificación:  class, e1071, MASS, rpart Análisis GO:  GOstats, GO … y muchos  más
Análisis de microarrays Análisis de calidad de los microarrays. Pre-procesamiento: depende de la plataforma y trata de reducir la variabilidad técnica sin alterar la variabilidad biológica de los datos Análisis estadístico: selección de los genes expresados diferencialmente Mann Whitney U test, Student’s t-test Agrupación de genes en clusters de acuerdo con la similitud en los patrones de expresión o clasificación: Clustering jerárquico, k-means, SOM Support Vector Machines (SVMs) Mapeo de genes a términos GO (Gene Ontology) -> procesos biológicos, componentes celulares o funciones moleculares de los genes seleccionados.
Pre-procesamiento en microarrays Experimento de microarrays: Variaciones biológicas: heterogeneidad del tejido, polimorfismo genético, cambios en el nivel de mRNA entre células/individuos ->  de interés: variación real entre experimentos. Variaciones técnicas: preparación de muestras, hibridación, etc ->  pueden tener un impacto negativo en la calidad de los datos -> enmascarar variaciones biológicas
Pre-procesamiento en Affymetrix Corrección de ruido de fondo ( Background ) Elimina ruido de fondo de las imágenes obtenidas por los escáneres.  Normalización Reduce las diferencias no biológicas entre chips y normaliza la intensidad de la señal de los arrays para permitir la comparación entre ellos. Corrección de PM Ajuste de la señal dada por los PMs para tener en cuenta la señal no específica (MMs) Sumarización Combinar las intensidades de todos los probes (11-20) de un probeset para producir un valor de expresión de un gen.
Pre-procesamiento en Affymetrix-Bioconductor Para cada etapa del pre-procesamiento existen métodos específicos También existen métodos que realizan el pre-procesamiento completo: expresso  del paquete  affy rma  del paquete  affy threestep  del paquete  affyPLM gcrma  del paquete  affyPLM mas5  del paquete  affy vsnrma  del paquete  vsn
Ejemplo: CLL data usando Bioconductor y R CLL (Chronic Lymphocytic Leukemia) data.  Este paquete contiene 24 muestras depositadas en microarrays HG-U95Av2 que son clasificadas como  progresivas  o  estables  de acuerdo al estado de la enfermedad.
Ejemplo CLL data
Ejemplo: CLL data
Ejemplo: CCL data - Boxplot
Ejemplo CLL data - Histograma
Pre-procesamiento en Affymetrix Corrección de ruido de fondo ( Background ) Elimina ruido de fondo de las imágenes obtenidas por los escáneres.  Normalización Reduce las diferencias no biológicas entre chips y normaliza la intensidad de la señal de los arrays para permitir la comparación entre ellos. Corrección de PM Ajuste de la señal dada por los PMs para tener en cuenta la señal no específica (MMs) Sumarización Combinar las intensidades de todos los probes (11-20) de un probeset para producir un valor de expresión de un gen.
Pre-procesamiento en Affymetrix Métodos de normalización más conocidos: Constant, contrasts, invariantset, loess, qsspline, quantiles. En este ejemplo utilizaremos  quantiles ( paquete  affy) : Rápido y conceptualmente sencillo. El objetivo es dar a cada array la misma distribución.
CLL data – normalización con  quantiles Antes Después
CLL data – normalización con  quantiles Antes Después
Trabajos desarrollados relacionados con el pre-procesamiento de Affymetrix J.P.Florido et al.,  On selecting the best pre-processing method for Affymetrix Genechips,  Lecture Notes in Computer Science, vol.1, nº5517 (International Work Conference on Artificial Neural Networks, IWANN 2009, Bioinformatics special session) Estudio del rendimiento de cinco métodos de pre-preprocesamiento (RMA, GCRMA, MAS5, dChip y VSN) y dos personalizados en términos de: Variabilidad de los datos  Similitud de distribuciones (Kolmogorov-Smirnov test)  Coeficiente de correlación de Spearman … entre réplicas de microarrays en una variedad de ejemplos.
Trabajos desarrollados relacionados con el pre-procesamiento de Affymetrix Conclusiones: Variance Stabilization Method (VSN) y Robust Multichip Average (RMA) son los que mejores resultados arrojan
Gracias

Más contenido relacionado

PPTX
PDF
1 d inmunoensayos
PPTX
Regulacion expresion genica
PPTX
Prueba PCR (Reacción en cadena de la polimerasa)
PPTX
Proteoma Humano y El futuro de la medicina
PPTX
TÉCNICAS DE BIOLOGÍA MOLECULAR
PPTX
CARACTERIZACIÓN FENOTÍPICA Y FÍSICA DE DNA RECOMBINANTE
 
PPTX
Exones e intrones, importancia de la maduracion del RNA
1 d inmunoensayos
Regulacion expresion genica
Prueba PCR (Reacción en cadena de la polimerasa)
Proteoma Humano y El futuro de la medicina
TÉCNICAS DE BIOLOGÍA MOLECULAR
CARACTERIZACIÓN FENOTÍPICA Y FÍSICA DE DNA RECOMBINANTE
 
Exones e intrones, importancia de la maduracion del RNA

La actualidad más candente (20)

PPS
PCR en tiempo real
PPT
Genoma Humano
PPT
1. regulacion de la expresion genica
PPTX
hematíes dismórficos Italo Moisés Saldaña.pptx
PDF
Enfermedad de Huntington
PPTX
REACCION EN CADENA DE LA POLIMERASA
PPTX
Práctica2 grupos sanguíneos
PPTX
Método ELISA
PDF
5 inmunoensayos
PPTX
Genetica bacteriana
PPTX
FLOCULACION
PPTX
FUNDAMENTOS DE LA PCR
PPTX
Clasificacion de virus por material genetico y Baltimore
PPT
Reacción en cadena de la polimerasa
PPT
Ácido peryodico schiff (PAS)
PDF
Inmunohematología
PDF
Diagnostico Molecular De Las Enfermedades Pdf
PPTX
Secuenciación de ADN
PCR en tiempo real
Genoma Humano
1. regulacion de la expresion genica
hematíes dismórficos Italo Moisés Saldaña.pptx
Enfermedad de Huntington
REACCION EN CADENA DE LA POLIMERASA
Práctica2 grupos sanguíneos
Método ELISA
5 inmunoensayos
Genetica bacteriana
FLOCULACION
FUNDAMENTOS DE LA PCR
Clasificacion de virus por material genetico y Baltimore
Reacción en cadena de la polimerasa
Ácido peryodico schiff (PAS)
Inmunohematología
Diagnostico Molecular De Las Enfermedades Pdf
Secuenciación de ADN
Publicidad

Similar a Nuevos enfoques en el análisis de datos de microarrays. (20)

PPTX
Genómica
PPT
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
PPT
FusterMolla.PPT
PDF
Transcriptomica PDF
DOCX
Bioinformatica
PPT
CDRM- INHRR-Secuenciación y Bioinformática-Nov2023.ppt
PDF
Clase-2-Herram-y-tecnol-biol-mol-16abril2018.pdf
PPT
Las multiples caras de la bioinformatica
PPT
Teoría sobre la prediccion de genessssss
PPT
Introducción a biologia molecular
PPTX
clase althabefoiti sobre el secuenciamiento del DNA
PPTX
MICROARREGLOS-genetica medica -biologia molecular
PPTX
LA DTECCION DE ABERRACIONES CROMOSOMICAS
PDF
5 herramienta aprendizaje algoritmos geneticos entorno matlab
PDF
Estructura y definición del genoma humano .pdf
PDF
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...
PDF
secuenciacion masiva en pacientes con trasplanate medula
PPTX
Ciencias ómicas
PDF
Utilización de Marcadores.pdf
PPT
Next generation sequencing -patologo friendly
Genómica
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
FusterMolla.PPT
Transcriptomica PDF
Bioinformatica
CDRM- INHRR-Secuenciación y Bioinformática-Nov2023.ppt
Clase-2-Herram-y-tecnol-biol-mol-16abril2018.pdf
Las multiples caras de la bioinformatica
Teoría sobre la prediccion de genessssss
Introducción a biologia molecular
clase althabefoiti sobre el secuenciamiento del DNA
MICROARREGLOS-genetica medica -biologia molecular
LA DTECCION DE ABERRACIONES CROMOSOMICAS
5 herramienta aprendizaje algoritmos geneticos entorno matlab
Estructura y definición del genoma humano .pdf
INFORME DE LA PRACTICA N 04 ANALISIS DE SECUENCIAS DE ADN Y USO DEL BANCO DE ...
secuenciacion masiva en pacientes con trasplanate medula
Ciencias ómicas
Utilización de Marcadores.pdf
Next generation sequencing -patologo friendly
Publicidad

Más de Alberto Labarga (20)

PDF
El Salto Communities - EditorsLab 2017
PDF
Shokesu - Premio Nobel de Literatura a Bob Dylan
PDF
Genome visualization challenges
PDF
SocialLearning: descubriendo contenidos educativos de manera colaborativa
PDF
Hacksanfermin 2015 :: Dropcoin Street
PDF
hacksanfermin 2015 :: Parking inteligente
PDF
jpd5 big data
PDF
Vidas Contadas :: Visualizar 2015
PDF
Periodismo de datos y visualización de datos abiertos #siglibre9
PDF
myHealthHackmedicine
PDF
Big Data y Salud
PDF
Arduino: Control de motores
PDF
Entrada/salida analógica con Arduino
PDF
Práctica con Arduino: Simon Dice
PDF
Entrada/Salida digital con Arduino
PDF
Presentación Laboratorio de Fabricación Digital UPNA 2014
PDF
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014
PDF
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...
PDF
Introducción a la impresión 3D
PDF
Vidas Contadas
El Salto Communities - EditorsLab 2017
Shokesu - Premio Nobel de Literatura a Bob Dylan
Genome visualization challenges
SocialLearning: descubriendo contenidos educativos de manera colaborativa
Hacksanfermin 2015 :: Dropcoin Street
hacksanfermin 2015 :: Parking inteligente
jpd5 big data
Vidas Contadas :: Visualizar 2015
Periodismo de datos y visualización de datos abiertos #siglibre9
myHealthHackmedicine
Big Data y Salud
Arduino: Control de motores
Entrada/salida analógica con Arduino
Práctica con Arduino: Simon Dice
Entrada/Salida digital con Arduino
Presentación Laboratorio de Fabricación Digital UPNA 2014
Conceptos de electrónica - Laboratorio de Fabricación Digital UPNA 2014
Introducción a la plataforma Arduino - Laboratorio de Fabricación Digital UPN...
Introducción a la impresión 3D
Vidas Contadas

Último (20)

PDF
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
PDF
CyberOps Associate - Cisco Networking Academy
PPTX
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
PDF
capacitación de aire acondicionado Bgh r 410
PDF
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
PDF
TRABAJO DE TECNOLOGIA.pdf...........................
PDF
Distribucion de frecuencia exel (1).pdf
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
DOCX
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
PPTX
Curso de generación de energía mediante sistemas solares
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PPTX
Presentacion de Alba Curso Auditores Internos ISO 19011
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
ccna: redes de nat ipv4 stharlling cande
PPTX
unidad 3 tecnología 8° básico: planificación y elaboración de un objeto
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
DOCX
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
PPT
Protocolos de seguridad y mecanismos encriptación
PPTX
Sesion 1 de microsoft power point - Clase 1
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
CyberOps Associate - Cisco Networking Academy
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
capacitación de aire acondicionado Bgh r 410
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
TRABAJO DE TECNOLOGIA.pdf...........................
Distribucion de frecuencia exel (1).pdf
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
TRABAJO GRUPAL (5) (1).docxsjjsjsksksksksk
Curso de generación de energía mediante sistemas solares
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
Presentacion de Alba Curso Auditores Internos ISO 19011
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
ccna: redes de nat ipv4 stharlling cande
unidad 3 tecnología 8° básico: planificación y elaboración de un objeto
Historia Inteligencia Artificial Ana Romero.pptx
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
Protocolos de seguridad y mecanismos encriptación
Sesion 1 de microsoft power point - Clase 1
informe_fichas1y2_corregido.docx (2) (1).pdf

Nuevos enfoques en el análisis de datos de microarrays.

  • 1. Nuevos enfoques en el análisis de datos de microarrays Javier Pérez Florido Departamento de Arquitectura y Tecnología de Computadores, Universidad de Granada [email_address]
  • 2. Índice de contenidos Un poco de historia ¿Qué es un microarray y para qué sirve? Tecnologías de microarray más conocidas. Análisis de microarrays Pre-procesamiento Ejemplo: Chronic Lymphocytic Leukemia (CLL) data Trabajos relacionados
  • 3. Un poco de historia A finales de los años 80, cuatro científicos , Stephen Fodor, Michael Pirrung, Leighton Read y Lubert Stryer, desarrollaron una revolucionaria tecnología para la determinación y cuantificación de ADN en una muestra. Esta tecnología, desembocó en la primera plataforma de microarrays de ADN: Genechip de Affymetrix.
  • 4. ¿Para qué sirve un microarray? Nos permite observar la expresión de miles de genes del genoma de un organismo. Identificar genes que producen ciertas enfermedades mediante la comparación de los niveles de expresión entre células sanas y células que están desarrollando ciertos tipos de enfermedades.
  • 5. ¿Qué es un microarray? Consiste en un gran número de moléculas de ADN ordenadas sobre un sustrato sólido, formando una matriz de secuencias en dos dimensiones. Estos fragmentos (sondas) de material genético de una sola hebra pueden ser: Secuencias cortas (oligonucleótidos) Secuencias de mayor tamaño (cDNA sintetizado a partir del mRNA) Productos PCR (Polymerase Chain Reaction) Los ácidos nucleicos de las muestras a analizar se marcan por diversos métodos (fluorescentes, enzimáticos, etc.) y se incuban/vierten sobre el panel de sondas -> hibridación de secuencias homólogas
  • 6. ¿Qué es un microarray? Durante la hibridación, las muestras de material genético marcadas se unirán a sus complementarias inmovilizadas en el chip. Tras el lavado del microarray, el escáner identifica y cuantifica el ADN hibridado y las herramientas informáticas, permitirán interpretar y analizar los datos obtenidos.
  • 7. ¿Qué es un microarray? Aplicaciones: Análisis de expresión génica. Detección de mutaciones y polimorfismos. Secuenciación. Seguimiento de terapia. Medicina preventiva. Toxicología de fármacos. Diagnóstico molecular ...
  • 8. ¿Qué es un microarray? Tecnologías más conocidas: Spotted cDNA arrays (Brown/Botstein) Short oligonucleotide arrays (Affymetrix) Illumina Bead Arrays
  • 9. Spotted cDNA arrays La razón de las intensidades rojas y verdes para cada “spot” es indicativo de la abundancia relativa de la correspondiente sonda de ADN en las dos muestras diana. M=log2( A / B )=log2( A )-log2( B ). Casos: M>0: gen sobre-expresado en la muestra verde. M=0: gen expresado equitativamente en ambas muestras. M<0: gen sobre-expresado en la muestra roja.
  • 10. Short oligonucleotide arrays - Affymetrix Cada gen o porción de gen se representa por 11-20 pares de sondas. Cada par de sondas consiste en dos oligonucleótidos (PM,MM) de 25 bases de longitud. “ Perfect Match (PM)”: 25 bases complementarias a una secuencia referencia de interés (parte de un gen) “ Mismatch (MM)”: =PM excepto la base en la posición 13 (G<->C, A<->T) Conjunto de pares de sondas: colección de pares de sondas (PM-MM) (11 a 20) relacionadas con un gen común o fracción de gen. El propósito de las sondas MM es medir la hibridación no específica y el ruido de fondo.
  • 14. Análisis de microarrays Análisis de calidad de los microarrays. Pre-procesamiento: depende de la plataforma y trata de reducir la variabilidad técnica sin alterar la variabilidad biológica de los datos Análisis estadístico: selección de los genes expresados diferencialmente Mann Whitney U test, Student’s t-test Agrupación de genes en clusters de acuerdo con la similitud en los patrones de expresión o clasificación: Clustering jerárquico, k-means, SOM Support Vector Machines (SVMs), K-Nearest-Neighbour (K-NN), Classification trees Mapeo de genes a términos GO (Gene Ontology) -> procesos biológicos, componentes celulares o funciones moleculares de los genes seleccionados.
  • 15. Análisis de microarrays Bioconductor ( www.bioconductor.org ), basado en el lenguaje de programación R ( http://www.R-project.org ) es la herramienta referencia para el análisis de microarrays con un repertorio completo de paquetes para cada etapa de análisis de microarrays. Bioconductor es un proyecto de código abierto Paquetes: Análisis de calidad: affy, simpleaffy, affyPLM, affyqcreport, arrayqualitymetrics Pre-procesamiento: affy, affyPLM, limma, vsn Detección de genes expresados diferencialmente: limma, siggenes, multtest Agrupamiento: hopach, cluster, kohonen, class, som. Clasificación: class, e1071, MASS, rpart Análisis GO: GOstats, GO … y muchos más
  • 16. Análisis de microarrays Análisis de calidad de los microarrays. Pre-procesamiento: depende de la plataforma y trata de reducir la variabilidad técnica sin alterar la variabilidad biológica de los datos Análisis estadístico: selección de los genes expresados diferencialmente Mann Whitney U test, Student’s t-test Agrupación de genes en clusters de acuerdo con la similitud en los patrones de expresión o clasificación: Clustering jerárquico, k-means, SOM Support Vector Machines (SVMs) Mapeo de genes a términos GO (Gene Ontology) -> procesos biológicos, componentes celulares o funciones moleculares de los genes seleccionados.
  • 17. Pre-procesamiento en microarrays Experimento de microarrays: Variaciones biológicas: heterogeneidad del tejido, polimorfismo genético, cambios en el nivel de mRNA entre células/individuos -> de interés: variación real entre experimentos. Variaciones técnicas: preparación de muestras, hibridación, etc -> pueden tener un impacto negativo en la calidad de los datos -> enmascarar variaciones biológicas
  • 18. Pre-procesamiento en Affymetrix Corrección de ruido de fondo ( Background ) Elimina ruido de fondo de las imágenes obtenidas por los escáneres. Normalización Reduce las diferencias no biológicas entre chips y normaliza la intensidad de la señal de los arrays para permitir la comparación entre ellos. Corrección de PM Ajuste de la señal dada por los PMs para tener en cuenta la señal no específica (MMs) Sumarización Combinar las intensidades de todos los probes (11-20) de un probeset para producir un valor de expresión de un gen.
  • 19. Pre-procesamiento en Affymetrix-Bioconductor Para cada etapa del pre-procesamiento existen métodos específicos También existen métodos que realizan el pre-procesamiento completo: expresso del paquete affy rma del paquete affy threestep del paquete affyPLM gcrma del paquete affyPLM mas5 del paquete affy vsnrma del paquete vsn
  • 20. Ejemplo: CLL data usando Bioconductor y R CLL (Chronic Lymphocytic Leukemia) data. Este paquete contiene 24 muestras depositadas en microarrays HG-U95Av2 que son clasificadas como progresivas o estables de acuerdo al estado de la enfermedad.
  • 23. Ejemplo: CCL data - Boxplot
  • 24. Ejemplo CLL data - Histograma
  • 25. Pre-procesamiento en Affymetrix Corrección de ruido de fondo ( Background ) Elimina ruido de fondo de las imágenes obtenidas por los escáneres. Normalización Reduce las diferencias no biológicas entre chips y normaliza la intensidad de la señal de los arrays para permitir la comparación entre ellos. Corrección de PM Ajuste de la señal dada por los PMs para tener en cuenta la señal no específica (MMs) Sumarización Combinar las intensidades de todos los probes (11-20) de un probeset para producir un valor de expresión de un gen.
  • 26. Pre-procesamiento en Affymetrix Métodos de normalización más conocidos: Constant, contrasts, invariantset, loess, qsspline, quantiles. En este ejemplo utilizaremos quantiles ( paquete affy) : Rápido y conceptualmente sencillo. El objetivo es dar a cada array la misma distribución.
  • 27. CLL data – normalización con quantiles Antes Después
  • 28. CLL data – normalización con quantiles Antes Después
  • 29. Trabajos desarrollados relacionados con el pre-procesamiento de Affymetrix J.P.Florido et al., On selecting the best pre-processing method for Affymetrix Genechips, Lecture Notes in Computer Science, vol.1, nº5517 (International Work Conference on Artificial Neural Networks, IWANN 2009, Bioinformatics special session) Estudio del rendimiento de cinco métodos de pre-preprocesamiento (RMA, GCRMA, MAS5, dChip y VSN) y dos personalizados en términos de: Variabilidad de los datos Similitud de distribuciones (Kolmogorov-Smirnov test) Coeficiente de correlación de Spearman … entre réplicas de microarrays en una variedad de ejemplos.
  • 30. Trabajos desarrollados relacionados con el pre-procesamiento de Affymetrix Conclusiones: Variance Stabilization Method (VSN) y Robust Multichip Average (RMA) son los que mejores resultados arrojan