Identifica¸c˜ao de s´ıtios de liga¸c˜ao de
fatores de transcri¸c˜ao com a
integra¸c˜ao de dados epigen´eticos
Eduardo Gade Gusm˜ao
Centro de Inform´atica
Universidade Federal de Pernambuco
Disserta¸c˜ao de Mestrado
Ciˆencia da Computa¸c˜ao
Outubro 2012
Identifica¸c˜ao de s´ıtios de liga¸c˜ao de
fatores de transcri¸c˜ao com a
integra¸c˜ao de dados epigen´eticos
Disserta¸c˜ao apresentada ao Centro de In-
form´atica da Universidade Federal de Pernam-
buco, como parte dos requisitos necess´arios
para obten¸c˜ao do t´ıtulo de Mestre em Ciˆencia
da Computa¸c˜ao.
Eduardo Gade Gusm˜ao
Centro de Inform´atica
Universidade Federal de Pernambuco
Orientador
Ivan Gesteira Costa Filho
Co-orientador
Marcilio Carlos Pereira de Souto
Disserta¸c˜ao de Mestrado
Ciˆencia da Computa¸c˜ao
Outubro 2012
Disserta¸c˜ao submetida ao corpo docente do programa de p´os-gradua¸c˜ao do Centro de
Inform´atica da Universidade Federal de Pernambuco como parte dos requisitos necess´arios
para obten¸c˜ao do grau de mestre em Ciˆencia da Computa¸c˜ao.
Aprovado:
Katia Silva Guimar˜aes – Centro de Inform´atica - UFPE
Ana Maria Benko Iseppon – Departamento de Gen´etica - UFPE
Paulo Gustavo Soares da Fonseca – Centro de Inform´atica - UFPE
IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE
TRANSCRIC¸ ˜AO COM A INTEGRAC¸ ˜AO DE DADOS EPIGEN´ETICOS.
Por
Eduardo Gade Gusm˜ao
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE INFORM´ATICA
Cidade Universit´aria – Tels. (81) 2126-8414 – Fax: (81) 2126-8410.
RECIFE – BRASIL
Outubro – 2012
iii
Agradecimentos
Agrade¸co primeiramente `a minha fam´ılia, em especial `a minha m˜ae Christiani Gade
Gusm˜ao, por fornecer todo o apoio necess´ario, permitindo dar continuidade a este
projeto de pesquisa. Desde momentos necess´arios de lazer at´e pedidos de revis˜ao
gramatical n˜ao remunerados, eles sempre estiveram presentes e fizeram toda a dife-
ren¸ca.
Agrade¸co ao meu orientador Dr. Ivan Gesteira Costa Filho pelos ensinamentos, su-
gest˜oes, dicas e ajudas. Seu interesse em meu trabalho e disponibilidade para sanar
d´uvidas foram cruciais para a completude deste estudo. Agrade¸co tamb´em ao meu
co-orientador Dr. Marc´ılio Carlos Pereira de Souto e `a Dra. Tha´ıs Gaudencio do
Rˆego pelos ensinamentos paralelos e expans˜ao da minha vis˜ao sobre a ´area da bioin-
form´atica. Tamb´em reservo um agradecimento especial ao Dr. Christoph Dieterich
por contribui¸c˜ao no desenho experimental do trabalho; e aos membros da banca,
Dra. Katia Silva Guimar˜aes, Dra. Ana Maria Benko Iseppon e Dr. Paulo Gustavo
Soares da Fonseca, que me deram a honra de poder mostrar o trabalho realizado.
Agrade¸co tamb´em aos professores e funcion´arios do Centro de Inform´atica, que me
passaram valiosos ensinamentos e trabalharam para manter uma estrutura digna de
um centro de referˆencia em computa¸c˜ao.
Agrade¸co `as institui¸c˜oes FACEPE, CNPq e CAPES. Em especial `a FACEPE, pelo
aux´ılio financeiro na forma de bolsa de mestrado. Ao CNPq e `a CAPES, pelos
aux´ılios financeiros relativos `a infra-estrutura.
Gostaria tamb´em de agradecer aos meus colegas Gilderlˆanio Santana de Ara´ujo,
Paulo Ricardo da Silva Soares, Felipe K¨uhner Cˆamara dos Santos, Nelson Gutem-
berg Rocha da Silva, Jo˜ao Rufino da Costa Neto, Yane Wanderley dos Santos, Diogo
da Silva Severo, Everson Ver´ıssimo da Silva, Arthur Felipe Melo Alvim, Fl´avia Ro-
berta Barbosa de Ara´ujo, Pablo Andretta Jaskowiak, Andr´e Kunio de Oliveira Tiba,
Luciano Soares de Souza, Rebecca Cristina Linhares de Carvalho e Kalil Ara´ujo
Bispo. Os debates em ambiente de trabalho ou momentos de lazer permitiram meu
crescimento em todos os sentidos. Por fim, agrade¸co ao meu amigo e companheiro
Eduardo Henrique Farias de Carvalho por me fornecer o suporte necess´ario para que
eu conseguisse completar todas as etapas deste trabalho e do curso de p´os gradua¸c˜ao.
iv
Dedico este trabalho `a minha fam´ılia, que me forneceu todo o apoio necess´ario
para o meu crescimento em todos os aspectos e ao orientador Ivan Gesteira Costa
Filho, por estar presente em todos os momentos de d´uvida e incentivar meu
interesse na carreira acadˆemica.
v
Resumo
A identifica¸c˜ao de elementos cis-regulat´orios no DNA ´e crucial para o entendimento
das redes regulat´orias que governam diversos mecanismos celulares tais como dife-
rencia¸c˜ao celular, desenvolvimento ou apoptose. Entretanto, essa tarefa ´e bastante
complexa, dada a grande quantidade de diferentes fatores de transcri¸c˜ao no genoma
humano. Atualmente, s˜ao estimados 1.500 fatores que podem se ligar, diretamente
ou indiretamente, em m´ultiplos loci genˆomicos. O procedimento computacional
padr˜ao para a detec¸c˜ao de tais regi˜oes consiste no uso de matrizes de pontua¸c˜ao,
que s˜ao representa¸c˜oes probabil´ısticas da afinidade de liga¸c˜ao desses fatores em deter-
minadas sequˆencias de DNA. Por´em tal abordagem resulta em um grande n´umero de
falsos positivos pelo fato de n˜ao ser poss´ıvel distinguir entre regi˜oes ativas e inativas
e pelos motivos estruturais serem pequenos e degenerados. Esses problemas tˆem sido
superados atrav´es da considera¸c˜ao de caracter´ısticas epigen´eticas. A ideia b´asica ´e
que algumas regi˜oes da cromatina encontram-se densamente empacotadas em uma
estrutura fechada, n˜ao permitindo liga¸c˜ao de prote´ınas reguladoras; enquanto ou-
tros s´ıtios est˜ao menos empacotados (cromatina descondensada), permitindo tais
liga¸c˜oes. Pesquisas atuais mostram que fontes de dados capazes de sinalizar tais
regi˜oes descondensadas, tais como digest˜ao de DNase I (obtida atrav´es de DNase-
seq) e modifica¸c˜oes de histonas (obtidas atrav´es de ChIP-seq), podem melhorar a
detec¸c˜ao de s´ıtios de liga¸c˜ao dos fatores de transcri¸c˜ao.
Neste trabalho, ´e proposta a constru¸c˜ao de um modelo escondido de Markov cont´ınuo
bivariado com objetivo de integrar fontes de dados epigen´eticas para avaliar se h´a
melhora nos resultados, em rela¸c˜ao `a predi¸c˜oes realizadas com o m´etodo compu-
tacional padr˜ao ou atrav´es da utiliza¸c˜ao de fontes de dados epigen´eticas de forma
individual. Al´em disso, uma nova forma de estima¸c˜ao de parˆametros para tal modelo
foi desenvolvida, removendo a necessidade de se realizar procedimentos tradicionais
custosos. Foi observado que o modelo proposto melhora significativamente a sensi-
bilidade, com pouco ou nenhum efeito negativo na especificidade, em compara¸c˜ao
com modelos existentes baseados em cromatina descondensada apenas.
Palavras-chave: S´ıtios de Liga¸c˜ao de Fatores de Transcri¸c˜ao; DNase-seq; ChIP-
seq; Modifica¸c˜oes de Histonas; Modelos Escondidos de Markov.
vi
Abstract
The identification of cis-regulatory elements on DNA is crucial for the understan-
ding of the complex regulatory networks that orchestrate diverse cell mechanisms
such as differentiation, development and apoptosis. However, this task is very com-
plex, given the great number of different transcription factors in the human genome.
Currently, it is believed that there are around 1,500 factors, each of which can bind
directly or indirectly to multiple loci. The standard computational approach for
the detection of such regions consists in using Position Weight Matrices, which are
probabilistic representations of the factor’s binding affinities, to search the genome
for regions likely to be binding sites. However, such approach results in a very high
number of false positive hits, since it cannot distinguish between active / inactive
binding sites and also because motifs are usually small and degenerate. To overcome
these problems, recent techniques are being based on epigenetic features. The main
idea is that some regions of the chromatin are densely packed in a closed structure,
preventing the binding of regulatory proteins, while other regions are less packed
(open chromatin), allowing such binding. Current research shows that data sources
that are capable of signaling open regions, such as DNase I digestion (obtained by
DNase-seq) and histone modifications (obtained by ChIP-seq) can improve trans-
cription factor binding sites prediction.
In this work, a continuous bivariate hidden Markov model is proposed which is
capable of integrating epigenetic data sources, in order to evaluate if the results can
be improved when compared to standard computational approaches or to single data
source approaches. Besides that, a novel technique to estimate the parameters of
the model was developed, making costly traditional procedures no longer necessary.
It was observed that the proposed model significantly improves the sensitivity with
low or no negative effect on the specificity when compared to open chromatin-only
models.
Keywords: Transcription Factor Binding Sites; DNase-seq; ChIP-seq; Histone
Modifications; Hidden Markov Models.
vii
Sum´ario
Lista de Figuras x
Lista de Tabelas xi
Gloss´ario xii
1 Introdu¸c˜ao 1
1.1 Motiva¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Contribui¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Contextualiza¸c˜ao Biol´ogica 7
2.1 Conceitos B´asicos em Biologia Molecular . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 DNA e RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Prote´ınas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3 Estrutura da Cromatina . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.4 Dogma Central da Biologia Molecular . . . . . . . . . . . . . . . . . . . . 13
2.2 Regula¸c˜ao Gˆenica em Eucariotos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Maquinaria Regulat´oria Proximal . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Elementos Regulat´orios Transcricionais . . . . . . . . . . . . . . . . . . . 21
2.2.2.1 N´ucleo do Promotor . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2.2 Elementos Promotores Proximais . . . . . . . . . . . . . . . . . . 22
2.2.2.3 Amplificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2.4 Silenciadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2.5 Insuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2.6 Regi˜oes de Controle de Locus . . . . . . . . . . . . . . . . . . . . 24
2.3 Identifica¸c˜ao de S´ıtios de Liga¸c˜ao de Fatores de Transcri¸c˜ao . . . . . . . . . . . . 24
2.3.1 DNase I Footprinting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.2 Imunoprecipita¸c˜ao da Cromatina . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3 Motif Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Solu¸c˜ao Epigen´etica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
viii
2.4.1 Conceitos e Elementos Epigen´eticos . . . . . . . . . . . . . . . . . . . . . 33
2.4.2 M´etodos de Obten¸c˜ao de Dados Epigen´eticos . . . . . . . . . . . . . . . . 35
2.4.3 Gera¸c˜ao de Sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.5 Revis˜ao da Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Modelos Escondidos de Markov 42
3.1 Modelos Escondidos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 M´etodos de Predi¸c˜ao Baseados em HMMs . . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 Algoritmo de Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.2 Probabilidade Posterior . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Estima¸c˜ao de Parˆametros em HMMs . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4 Metodologia 53
4.1 Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Motif Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 An´alises de Enriquecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 Processamento dos Sinais Epigen´eticos . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5 Footprinting com HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.6 Estima¸c˜ao de Parˆametros e Aplica¸c˜ao dos HMMs . . . . . . . . . . . . . . . . . . 62
4.7 Gold Standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.8 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5 Resultados e Discuss˜ao 66
5.1 An´alise dos Sinais Epigen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Acur´acia do Modelo Proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 Tempo de Execu¸c˜ao e Armazenamento . . . . . . . . . . . . . . . . . . . . . . . . 85
5.4 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6 Conclus˜ao 88
6.1 Objetivos Atingidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2 Dificuldades e Limita¸c˜oes de Escopo . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Referˆencias 91
ix
Lista de Figuras
2.1 C´elula eucari´otica animal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Estrutura do DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Compara¸c˜ao entre as estruturas moleculares da prote´ına e do DNA . . . . . . . . 11
2.4 Vis˜ao global da estrutura da cromatina . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Dogma central da Biologia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Etapas do processo de transcri¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Diferentes tipos de elementos cis-atuantes . . . . . . . . . . . . . . . . . . . . . . 19
2.8 Maquinaria transcricional eucari´otica . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.9 Funcionamento dos elementos regulat´orios distais . . . . . . . . . . . . . . . . . . 22
2.10 Esquema do m´etodo DNase I Footprinting . . . . . . . . . . . . . . . . . . . . . . 28
2.11 Esquema do m´etodo ChIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.12 M´etodo para gerar PWMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.13 Elementos epigen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.14 Modifica¸c˜oes de histonas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.15 Gera¸c˜ao de Sinais Genˆomicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1 Esquema de um modelo escondido de Markov . . . . . . . . . . . . . . . . . . . . 44
4.1 Fases do processo experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Modifica¸c˜ao dos sinais ao longo do processamento . . . . . . . . . . . . . . . . . . 60
4.3 HMM que utiliza dados de DNase-seq apenas . . . . . . . . . . . . . . . . . . . . 61
4.4 Modelagem do HMM e exemplo de aplica¸c˜ao . . . . . . . . . . . . . . . . . . . . 62
5.1 An´alise das melhores regi˜oes de MPBS para o CTCF . . . . . . . . . . . . . . . . 68
5.2 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.1 . . . . . . . . . . . . . . 70
5.3 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.2 . . . . . . . . . . . . . . 71
5.4 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado Pt. 1 . 73
5.5 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado Pt. 2 . 74
5.6 Exemplo de uma regi˜ao com resultados melhorados pelo modelo proposto . . . . 84
5.7 Exemplo do problema das previs˜oes amplas . . . . . . . . . . . . . . . . . . . . . 85
x
Lista de Tabelas
2.1 Impacto das modifica¸c˜oes de histonas na estrutura da cromatina e express˜ao gˆenica 36
4.1 Fontes dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Sinais epigen´eticos e fatores estudados . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1 Quantidade de footprints encontrados com cada modelo . . . . . . . . . . . . . . 76
5.2 Resultados para o fator ATF3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.3 Resultados para o fator CTCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4 Resultados para o fator CTCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.5 Resultados para o fator GABP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.6 Resultados para o fator GABP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.7 Resultados para o fator REST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.8 Resultados para o fator REST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.9 Compara¸c˜ao da sensibilidade e especificidade entre o modelo pr´evio e o proposto 82
5.10 Tempo de execu¸c˜ao e mem´oria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.11 Espa¸co necess´ario para armazenamento . . . . . . . . . . . . . . . . . . . . . . . 86
xi
Gloss´ario
Acetila¸c˜ao Rea¸c˜ao que introduz um grupo funcional
acetila em um composto orgˆanico.
ATP Adenosina Trifosfato; nucleot´ıdeo res-
pons´avel pelo armazenamento de energia
em suas liga¸c˜oes qu´ımicas, utilizado em
rea¸c˜oes que exigem tal energia.
Biopython Conjunto de bibliotecas para a lingua-
gem Python contendo implementa¸c˜oes de
diversas ferramentas biol´ogicas necess´arias
em v´arias ´areas de bioinform´atica.
bp Base Pair (pares de bases); representa um
par de bases (nucleot´ıdeos) no DNA, isto
´e, uma coordenada genˆomica.
BRE TFIIB-Recognition Element; elemento
presente no n´ucleo do promotor de alguns
genes relacionado com a forma¸c˜ao do com-
plexo pr´e-inicia¸c˜ao.
ChIP Chromatin Immunoprecipitation (imu-
noprecipita¸c˜ao da cromatina); t´ecnica
biol´ogica para recuperar regi˜oes genˆomicas
onde uma prote´ına de interesse est´a ligada,
atrav´es da imunoprecipita¸c˜ao da mesma
utilizando um anticorpo (ou outros mate-
riais).
ChIP-chip Chromatin Immunoprecipitation fol-
lowed by chip (imunoprecipita¸c˜ao da cro-
matina seguida de chip); t´ecnica biol´ogica
para identificar regi˜oes genˆomicas onde
uma prote´ına de interesse est´a ligada
atrav´es da realiza¸c˜ao de ChIP seguida
de experimentos com tiling arrays.
ChIP-seq Chromatin Immunoprecipitation followed
by massive sequencing (imunoprecipita¸c˜ao
da cromatina seguida de sequenciamento
massivo); t´ecnica biol´ogica para identificar
regi˜oes genˆomicas onde uma prote´ına de
interesse est´a ligada atrav´es da realiza¸c˜ao
de ChIP seguida de sequenciamento mas-
sivo dos fragmentos genˆomicos recupera-
dos.
DCE Downstream Core Elements; elemento
presente no n´ucleo do promotor de alguns
genes relacionado com a forma¸c˜ao do com-
plexo pr´e-inicia¸c˜ao.
DNase-chip DNase I digestion followed by chip (di-
gest˜ao por DNase I seguida de chip);
t´ecnica biol´ogica para identifica¸c˜ao de
regi˜oes de cromatina descondensada
atrav´es da clivagem do DNA com a endo-
nuclease DNase I seguida de experimentos
com tiling arrays.
DNase-seq DNase I digestion followed by massive se-
quencing (digest˜ao por DNase I seguida
de sequenciamento massivo); t´ecnica
biol´ogica para identifica¸c˜ao de regi˜oes de
cromatina descondensada atrav´es da cliva-
gem do DNA com a endonuclease DNase I
seguida de sequenciamento massivo dos
fragmentos genˆomicos recuperados.
DNase I Desoxirribonuclease I; endonuclease codi-
ficada pelo gene DNASE1 capaz de clivar
o DNA em v´arias diferentes condi¸c˜oes.
dNTP desoxirribonucleot´ıdeo trifosfato;
monˆomero do DNA em seu formato com
trˆes grupos fosfato, necess´arios para pro-
duzir a energia suficiente para a intera¸c˜ao
com a macromol´ecula de DNA.
EDTA Ethylenediamine Tetraacetic Acid (´acido
etilenodiamino tetra-ac´etico); composto
orgˆanico que age como agente quelante,
formando complexos muito est´aveis com
diversos ´ıons met´alicos. Das v´arias uti-
liza¸c˜oes destaca-se o controle em experi-
mentos de ChIP.
EM Expectation Maximization (maximiza¸c˜ao
da esperan¸ca); Algoritmo iterativo com
objetivo de encontrar a estimativa de
parˆametros de m´axima verossimilhan¸ca
xii
utilizando dados sem r´otulos (isto ´e, n˜ao
se sabe a classe dos padr˜oes).
ENCODE Encyclopedia of DNA Elements; Inicia-
tiva dentro do programa Genome Browser
da Universidade da Calif´ornia em Santa
Cruz que disponibiliza diversas faixas de
dados relativos `a genˆomica funcional.
Endonuclease Classe de prote´ınas que clivam as
liga¸c˜oes fosfodi´ester dentro de uma cadeia
de DNA.
FAIRE Formaldehyde-Assisted Identification of
Regulatory Elements; t´ecnica biol´ogica
para identifica¸c˜ao de regi˜oes de cromatina
descondensada atrav´es de um protocolo
menos denso do que o do DNase-seq.
FMR1 Fragile X Mental Retardation 1; gene
respons´avel pela codifica¸c˜ao da prote´ına
FMRP, comumente encontrada no c´erebro
e essencial para o desenvolvimento cogni-
tivo e reprodu¸c˜ao em fˆemeas.
Fosforila¸c˜ao Rea¸c˜ao que introduz um grupo funcio-
nal fosfato em um composto orgˆanico.
GHMM General Hidden Markov Model Library;
Biblioteca dispon´ıvel em C e em Python
que implementa de forma eficiente HMMs
com emiss˜oes discretas ou cont´ınuas.
GTF General Transcription Factors (fatores de
transcri¸c˜ao gerais); conjunto de prote´ınas
que, junto com a RNA polimerase e o me-
diador, constituem o aparato b´asico para
que a transcri¸c˜ao ocorra em n´ıvel basal em
eucariotos.
HMM Hidden Markov Model (modelo escondido
de Markov); t´ecnica para modelagem es-
tat´ıstica de s´eries temporais baseada em
processos estoc´asticos de Markov.
HS DNase I Hypersensitive Sites (s´ıtios hiper-
sens´ıveis `a DNase I); regi˜oes no DNA que
permitem a clivagem atrav´es da endonu-
clease DNase I.
Inr Elemento Iniciador; elemento presente no
n´ucleo do promotor de alguns genes rela-
cionado com a forma¸c˜ao do complexo pr´e-
inicia¸c˜ao.
LCR Locus Control Regions; regi˜ao composta
por v´arios elementos cis-atuantes distais
cuja composi¸c˜ao representa a sua funcio-
nalidade regulat´oria.
MACS Model-based Analysis for ChIP-Seq; Fer-
ramenta utilizada para analisar (processar
e encontrar picos) dados de ChIP-seq.
Metila¸c˜ao Rea¸c˜ao que introduz um grupo funcional
metila em um composto orgˆanico.
Microarray Microarranjo; t´ecnica experimental
para medir n´ıveis de express˜ao gˆenica (ou
alguns outros atributos) que utiliza um
chip que cont´em diversos fragmentos de
DNA que representam regi˜oes de interesse
(genes ou exons, por exemplo).
MM Motif Matching; t´ecnica computacional
que utiliza representa¸c˜oes probabil´ısticas
de motifs (PFMs, PSSMs ou PWMs) para
atribuir um grau de afinidade para regi˜oes
genˆomicas a respeito da probabilidade de
um fator de transcri¸c˜ao se ligar `aquela
regi˜ao
Motif padr˜ao frequente ou assinatura; sequˆencia
genˆomica ou proteˆomica com padr˜ao reco-
nhec´ıvel e que tenha significado biol´ogico.
MPBS Motif Predicted Binding Sites (s´ıtios de
liga¸c˜ao preditos atrav´es de motifs); termo
utilizado para referenciar s´ıtios de liga¸c˜ao
de fatores de transcri¸c˜ao preditos atrav´es
de motif matching.
MPSS Massively Parallel Signature Sequencing;
abordagem utilizada para identificar e
quantificar transcritos de mRNA presen-
tes em uma amostra.
MTE Motif Ten Element; elemento presente no
n´ucleo do promotor de alguns genes rela-
cionado com a forma¸c˜ao do complexo pr´e-
inicia¸c˜ao.
PCR Polymerase Chain Reaction (rea¸c˜ao em
cadeia da polimerase); m´etodo de ampli-
fica¸c˜ao (de cria¸c˜ao de m´ultiplas c´opias) de
DNA.
xiii
PFM Position Frequency Matrix (matriz de
frequˆencia de posi¸c˜ao); representa¸c˜ao ma-
tricial de um motif onde as linhas repre-
sentam os nucleot´ıdeos e as colunas repre-
sentam as posi¸c˜oes do motif.
PIC Transcription Preinitiation Complex
(complexo pr´e-inicia¸c˜ao de transcri¸c˜ao);
complexo de prote´ınas montados na regi˜ao
promotora necess´arias para a transcri¸c˜ao.
PSSM Position Specific Scoring Matrix (matri-
zes de pontua¸c˜ao espec´ıfica por posi¸c˜ao);
neste trabalho est´a sendo utilizado como
sinˆonimo de PWM.
PWM Position Weight Matrix (matrizes de peso
de posi¸c˜ao); representa¸c˜ao matricial lo-
gar´ıtmica de um motif criada atrav´es de
uma PFM.
Python Linguagem de programa¸c˜ao de alto n´ıvel,
interpretada, imperativa, orientada a ob-
jetos, de tipagem dinˆamica e forte. Uti-
lizada para analisar os dados, aplicar os
m´etodos e gerar os gr´aficos em todo o pro-
jeto.
rNTP ribonucleot´ıdeo trifosfato; monˆomero do
RNA em seu formato com trˆes grupos fos-
fato, necess´arios para produzir a energia
suficiente para a intera¸c˜ao com a macro-
mol´ecula de RNA.
SNP Single Nucleotide Polymorphism (poli-
morfismos de ´unico nucleot´ıdeo); varia¸c˜oes
pontuais (em apenas um nucleot´ıdeo) no
genoma.
STAMP Ferramenta computacional utilizada para,
entre outras funcionalidades, encontrar
evidˆencias de motifs de fatores de trans-
cri¸c˜ao em pequenos fragmentos de DNA a
partir de reposit´orios inteiros de PWMs.
TF Transcription Factor (fator de trans-
cri¸c˜ao); elementos regulat´orios trans-
atuantes. S˜ao prote´ınas que se ligam em
regi˜oes espec´ıficas no genoma para regular
a transcri¸c˜ao de um ou mais genes.
TFBS Transcription Factor Binding Site (s´ıtio
de liga¸c˜ao de fatores de transcri¸c˜ao); ele-
mentos regulat´orios cis-atuantes. S˜ao as
regi˜oes onde os fatores de transcri¸c˜ao se
ligam.
Tiling array t´ecnica experimental semelhante ao
microarranjo, por´em neste caso os frag-
mentos de DNA no chip representam
regi˜oes cont´ıguas no genoma dada uma ja-
nela e deslocamento espec´ıfico.
TSS Transcription Start Site (s´ıtios de in´ıcio
de transcri¸c˜ao); s´ıtio onde a transcri¸c˜ao se
inicia.
Ubiquitina¸c˜ao Marca¸c˜ao atrav´es de mol´eculas ubi-
quitina.
xiv
1
Introdu¸c˜ao
1.1 Motiva¸c˜ao
Em outubro de 1990, iniciou-se o chamado Projeto Genoma Humano com o objetivo, na ´epoca
extraordin´ario, de sequenciar o genoma humano completo. Dessa ´epoca at´e os dias de hoje, as
tecnologias de sequenciamento avan¸caram de forma muito r´apida. Para se ter uma ideia, em
Setembro de 2001 o custo para sequenciar 1Mb de sequˆencia de DNA era cerca de $5.300,00
(totalizando aproximadamente $95.300.000,00 por genoma humano); Enquanto em Julho de
2011 o custo para 1Mb era $0,12 (fazendo um total aproximado de $10.500,00 por genoma
humano) [DNA Sequencing Consortiums, 2012]. O Projeto Genoma Humano levou 13 anos para
ser completado, por´em hoje em dia somos capazes de sequenciar o genoma humano completo
com cerca de 3,194 bilh˜oes de pares de bases (bp, do Inglˆes Base Pairs) em apenas trˆes dias.
H´a algum tempo atr´as, achava-se que, de posse do genoma completo de um dado orga-
nismo, se poderia determinar com exatid˜ao seu fen´otipo, sua suscetibilidade a doen¸cas, fornecer
diagn´osticos com alta precis˜ao e que os tratamentos para doen¸cas complexas como o cˆancer
evoluiriam a ponto de curarem a maior parte das ocorrˆencias. Por´em percebeu-se que a simples
defini¸c˜ao da sequˆencia de nucleot´ıdeos que comp˜oem o genoma n˜ao ´e suficiente para explicar
os diversos processos regulat´orios e metab´olicos que ocorrem nos organismos dos seres vivos.
Tais processos fazem parte de uma complexa cadeia de eventos que podem sim ocorrer no n´ıvel
genˆomico e regulat´orio: transcricional, p´os-transcricional, traducional ou p´os-traducional.
A execu¸c˜ao correta dos processos biol´ogicos tais como desenvolvimento, prolifera¸c˜ao, enve-
lhecimento, diferencia¸c˜ao e apoptose requer um conjunto de passos preciso e cuidadosamente
orquestrado que depende da express˜ao espacial e temporal dos genes apropriada. Isso resulta
no fato de que a desregula¸c˜ao da express˜ao gˆenica muitas vezes ´e relacionada a doen¸cas [Rosen-
bloom et al., 2011]. Na era da p´os-genˆomica, as aten¸c˜oes est˜ao se voltando para o entendimento
1
1. INTRODUC¸ ˜AO
de como os genes codificantes de prote´ınas (cerca de 20.000 – 25.000 em humanos) e seus pro-
dutos funcionam, principalmente sobre como seus padr˜oes de express˜ao espacial e temporal s˜ao
estabelecidos tanto no n´ıvel celular quanto considerando o organismo como um todo [Maston
et al., 2006].
Para entender esses mecanismos moleculares que governam os padr˜oes de express˜ao gˆenica
em uma escala global, ´e importante identificar os elementos regulat´orios envolvidos nessas ati-
vidades. Exemplos desses componentes s˜ao elementos regulat´orios trans-atuantes (ou fatores
de transcri¸c˜ao (TFs, do Inglˆes Transcription Factors)), cis-atuantes (tais como silenciadores,
amplificadores e insuladores) e fatores epigen´eticos (tais como modifica¸c˜oes de histonas, remo-
delamento da cromatina e metila¸c˜ao do DNA), cada um deles participando para que a express˜ao
gˆenica ocorra de forma apropriada em processos biol´ogicos espec´ıficos para cada c´elula, comuns
entre alguns grupos de c´elulas ou ub´ıquos (presentes em todas as c´elulas do organismo) [Maston
et al., 2006; Rosenbloom et al., 2011].
A identifica¸c˜ao desses elementos, em especial os elementos regulat´orios cis-atuantes nos quais
os fatores de transcri¸c˜ao se ligam, pode ser uma tarefa bastante complexa, j´a que ´e estimado
que existam mais que 1500 diferentes fatores de transcri¸c˜ao no genoma humano [Boyle et al.,
2011]. Al´em disso, s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao (TFBSs, do Inglˆes Transcription
Factor Binding Sites), com seus padr˜oes frequentes ou assinaturas (em Inglˆes, motifs), s˜ao
pequenos, com tamanhos geralmente variando entre 6 – 12 bp dos quais n˜ao mais que 4 – 6
bp ditam a especificidade da liga¸c˜ao [Maston et al., 2006]. Al´em disso, apenas um subconjunto
deles est´a ativo durante um determinado estado da c´elula, com os elementos deste subconjunto
variando bastante entre diferentes tipos celulares [Cuellar-Partida et al., 2012]. Tamb´em s˜ao
fatores complicadores o fato de que v´arios fatores de transcri¸c˜ao tˆem m´ultiplos s´ıtios de liga¸c˜ao
poss´ıveis (com diferentes motifs) e a existˆencia de fatores que se ligam a DNA indiretamente,
juntamente com outro fator ou complexo proteico [Alberts, 2007].
A abordagem computacional padr˜ao para a identifica¸c˜ao de TFBSs – Motif Matching (MM)
– utiliza representa¸c˜oes probabil´ısticas das afinidades dos s´ıtios de liga¸c˜ao, seguido de um pro-
cedimento estat´ıstico para detectar regi˜oes genˆomicas com uma alta probabilidade de serem
s´ıtios de liga¸c˜ao para um fator em particular [Stormo, 2000]. N˜ao obstante, motif matching ´e
um m´etodo altamente sens´ıvel ao poder estat´ıstico do algoritmo que est´a sendo utilizado para
realizar tal procedimento e da qualidade da representa¸c˜ao probabil´ıstica do motif utilizada.
V´arias desvantagens e impraticabilidades podem ser citadas como: (1) esse m´etodo ´e incapaz
de distinguir entre regi˜oes ativas e inativas; (2) os motifs geralmente s˜ao pequenos (sendo f´acil
encontrar por acaso regi˜oes que n˜ao s˜ao s´ıtios de liga¸c˜ao) ou degenerados (especificidade de
liga¸c˜ao muito pequena) [Boyle et al., 2011; Maston et al., 2006]; (3) representa¸c˜oes de motifs
s˜ao dif´ıceis de serem geradas e existe uma quantidade muito pequena de fatores com tais repre-
senta¸c˜oes dispon´ıveis em reposit´orios curados [Boyle et al., 2011]; (4) a identifica¸c˜ao de s´ıtios
2
1.1. MOTIVAC¸ ˜AO
de liga¸c˜ao de fatores que se ligam ao DNA de forma indireta ´e dif´ıcil, dado que eles n˜ao tˆem
motifs bem definidos. A abordagem padr˜ao para identifica¸c˜ao de TFBSs s˜ao os experimentos
de DNase I Footprinting utilizando DNase I como agente de clivagem, que ´e um m´etodo de alta
acur´acia e alta resolu¸c˜ao [Gross & Garrard, 1988; Keene et al., 1981]. Por´em este m´etodo ´e
altamente t´ecnico e s´o consegue analisar < 1Kb por experimento o tornando impratic´avel em
estudos pangenˆomicos (em Inglˆes, genome-wide), isto ´e, estudos cuja amplitude da an´alise ´e o
genoma inteiro [Boyle et al., 2011; Lodish et al., 2007].
Novas tecnologias surgiram para suprir as dificuldades de aplica¸c˜ao dos m´etodos tradicionais.
As principais t´ecnicas para identifica¸c˜ao de TFBSs atualmente s˜ao as abordagens baseadas em
imunoprecipita¸c˜ao, seguidas de an´alises em tiling arrays (ChIP-chip) [Buck & Lieb, 2004] ou de
sequenciamento em grande escala (ChIP-seq) [Park, 2009]. Por´em tais t´ecnicas s˜ao condicionais
(espec´ıficas para as condi¸c˜oes em que as c´elulas est˜ao), falham para alguns fatores de transcri¸c˜ao
em particular por motivos diversos e s˜ao experimentalmente e financeiramente custosas [Park,
2009]. O principal problema dessas t´ecnicas est´a no fato de que elas fornecem um mapa geral
(isto ´e, pangenˆomico) dos s´ıtios de liga¸c˜ao apenas para um fator espec´ıfico por experimento.
Em estudos que analisam apenas um ou poucos destes fatores de transcri¸c˜ao, essas t´ecnicas
quase sempre s˜ao aplicadas por gerarem resultados com alta acur´acia e boa resolu¸c˜ao. Por´em
caso o objetivo seja criar um mapa de todos os poss´ıveis s´ıtios de liga¸c˜ao para uma c´elula num
determinado momento, o n´umero total de fatores de transcri¸c˜ao poss´ıveis juntamente com o alto
custo e dificuldades t´ecnicas fazem com que ChIP-chip e ChIP-seq tenham pouco uso pr´atico.
Tecnologias baseadas na jun¸c˜ao de experimentos baseados em clivagem a partir da enzima de
restri¸c˜ao DNase I com an´alises em tiling arrays (DNase-chip) [Crawford et al., 2006a] ou sequen-
ciamento em alta escala (DNase-seq) [Crawford et al., 2004; Song & Crawford, 2010] est˜ao se
mostrando particularmente ´uteis para atingir o objetivo de caracterizar todos os s´ıtios de liga¸c˜ao
de uma determinada linha celular em escala genˆomica. Apesar da acur´acia deste estudo ser ex-
tremamente dependente da t´ecnica computacional e estat´ıstica associada `a an´alise dos padr˜oes
de clivagem da DNase I, sua alta resolu¸c˜ao est´a dando possibilidade a estudos bem sucedidos
[Boyle et al., 2008a, 2011; Crawford et al., 2004, 2006b]. Est´a se tornando comum a utiliza¸c˜ao
destas t´ecnicas para gerar mapas, a n´ıvel genˆomico, de regi˜oes de cromatina descondensada, em
diversos tipos de c´elulas humanas expandindo nossos conhecimentos de diferencia¸c˜ao celular ou
simplesmente aumentando a quantidade de elementos regulat´orios com suporte de evidˆencias
[Song & Crawford, 2010]. Por´em as t´ecnicas baseadas em DNase I n˜ao fornecem a informa¸c˜ao de
quais s˜ao os fatores de transcri¸c˜ao que se ligam nos locais encontrados. Al´em disso, as t´ecnicas
estat´ısticas utilizadas est˜ao atingindo um grau de complexidade bastante elevado e mostrando
que ainda existem grandes quantidades de falsos positivos ou falsos negativos dependendo da
situa¸c˜ao [Boyle et al., 2011; Cuellar-Partida et al., 2012; Pique-Regi et al., 2011].
3
1. INTRODUC¸ ˜AO
Al´em do uso de m´etodos baseados em DNase I, pesquisas recentes tˆem focado na busca
de padr˜oes espec´ıficos de modifica¸c˜oes p´os-traducionais (tais como acetila¸c˜ao ou metila¸c˜ao) em
prote´ınas chamadas histonas em diferentes tipos celulares e dados diversos padr˜oes de express˜ao
gˆenica. De fato, muitos desses estudos tˆem mostrado claros padr˜oes (assinaturas) na cromatina
e tˆem sugerido a aplica¸c˜ao destes resultados na identifica¸c˜ao de elementos regulat´orios [Barski
et al., 2007; Ernst & Kellis, 2010; Heintzman et al., 2007; Hon et al., 2009; Spivakov & Fisher,
2007]. Em particular, as modifica¸c˜oes de histonas H3K4me2, H3K4me3, H3K9ac, H3K27ac e a
histona variante H2A.Z s˜ao ´otimos marcadores de regi˜oes onde a cromatina se encontra em um
estado menos enovelado (cromatina descondensada). Portanto, a presen¸ca destes marcadores
epigen´eticos ´e capaz de delimitar regi˜oes ricas em s´ıtios de liga¸c˜ao de elementos regulat´orios
[Barski et al., 2007; Ramsey et al., 2010; Schones & Zhao, 2008].
Alguns estudos atuais tˆem investigado a possibilidade de integra¸c˜ao de diferentes meto-
dologias biol´ogicas como ChIP-seq ou ChIP-chip para padr˜oes de histonas ou DNase-chip e
DNase-seq com metodologias computacionais e probabil´ısticas, aplicadas diretamente ao con-
texto da identifica¸c˜ao de elementos regulat´orios [Cuellar-Partida et al., 2012; Pique-Regi et al.,
2011; Won et al., 2010]. Al´em disso, estudos que comparam diferentes padr˜oes epigen´eticos,
fora de algum contexto espec´ıfico, fornecem conceitos importantes que devem ser considerados
durante a cria¸c˜ao de uma metodologia aplicada a um problema espec´ıfico [Shu et al., 2011]
Cientistas est˜ao entrando em consenso de que, no contexto de identifica¸c˜ao de s´ıtios de
liga¸c˜ao para fatores de transcri¸c˜ao a n´ıvel genˆomico, abordagens que agregam diferentes tipos de
informa¸c˜ao atingem os objetivos de forma mais acurada e confi´avel do que a aplica¸c˜ao de t´ecnicas
individuais [Lassig, 2007]. Neste trabalho, v´arias fontes de dados epigen´eticos provenientes de
experimentos de identifica¸c˜ao de cromatina descondensada com DNase-seq e modifica¸c˜oes de
histonas com ChIP-seq ser˜ao integradas utilizando uma abordagem probabil´ıstica baseada em
modelos escondidos de Markov multivariados com emiss˜oes representando fun¸c˜oes gaussianas.
Para que os resultados sejam positivos, uma metodologia ser´a claramente definida envolvendo
o tratamento dos diferentes tipos de dados, implementa¸c˜ao de t´ecnicas especiais para que as
cadeias de Markov n˜ao tenham problemas num´ericos associados a dimensionalidade e quantidade
de exemplos e verifica¸c˜ao da acur´acia do modelo sem nenhum tipo de vi´es resultante da aplica¸c˜ao
das t´ecnicas escolhidas.
1.2 Contribui¸c˜oes
A contribui¸c˜ao deste projeto consiste na constru¸c˜ao de um modelo escondido de Markov biva-
riado cont´ınuo capaz de predizer s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao em humanos. Este
modelo ser´a alimentado sempre com dados de cromatina descondensada e uma espec´ıfica modi-
fica¸c˜ao de histona, de um conjunto maior de modifica¸c˜oes. Para que este modelo seja constru´ıdo,
4
1.3. ESTRUTURA DO DOCUMENTO
an´alises dos padr˜oes m´edios simples ao redor de regi˜oes de TFBS experimentalmente determi-
nadas ser˜ao realizadas. Determinados tais padr˜oes, o modelo ´e constru´ıdo, treinado (isto ´e, seus
parˆametros s˜ao estimados) e testado. Com base em um conjunto de valida¸c˜ao bem definido na
literatura ´e poss´ıvel avaliar tal modelo de forma eficaz.
Al´em da constru¸c˜ao de um novo modelo capaz de integrar fontes de dados epigen´eticas, um
novo algoritmo de estima¸c˜ao de parˆametros ser´a proposto. A motiva¸c˜ao para a cria¸c˜ao deste
algoritmo est´a no fato de que os m´etodos presentes na literatura, na amplitude pesquisada,
utilizavam dados provenientes da aplica¸c˜ao de t´ecnicas biol´ogicas custosas como base para o
treinamento. De forma simples, estes conjuntos representam as informa¸c˜oes biologicamente va-
lidadas a respeito de s´ıtios de liga¸c˜ao. Constantemente tais dados eram obtidos em estudos mais
antigos na literatura, resultando em conjuntos de treinamento pequenos e que, em v´arios casos,
n˜ao correspondiam `as regi˜oes mais interessantes de se aplicar o treinamento. Portanto, o novo
m´etodo de treinamento se baseia exclusivamente na aplica¸c˜ao de uma ferramenta computacional
para avalia¸c˜ao de motifs chamada STAMP [Mahony & Benos, 2007].
Atrav´es da metodologia proposta, pretende-se verificar se modelos integrativos conseguem
melhorar a acur´acia em compara¸c˜ao a modelos que utilizam apenas cromatina descondensada
como base preditiva, com base nos fatos: (1) Existem diversos locais observados com baixo sinal
de digest˜ao de DNase I por´em com alta concentra¸c˜ao de s´ıtios de liga¸c˜ao ativos (falso negativos)
e (2) algumas regi˜oes hipersens´ıveis `a DNase I n˜ao apresentam s´ıtios de liga¸c˜ao (falso positivos).
Nossa hip´otese ´e que sinais de histonas, como uma fonte de dados adicionais, contribuir˜ao para
resolver algumas dessas ambiguidades.
1.3 Estrutura do Documento
No cap´ıtulo seguinte ser˜ao realizadas as principais defini¸c˜oes biol´ogicas necess´arias para o enten-
dimento deste projeto de pesquisa. Ap´os uma breve introdu¸c˜ao revisando os conceitos b´asicos de
biologia molecular (direcionado a leitores com embasamento puramente computacional), ser˜ao
abordados temas como: regula¸c˜ao gˆenica, elementos regulat´orios (cis-atuantes e trans-atuantes)
e epigen´etica. Tamb´em ser˜ao revisados os principais m´etodos computacionais, estat´ısticos e
biol´ogicos que contˆem alguma rela¸c˜ao com a proposta deste trabalho. Finalmente, trabalhos
relacionados ser˜ao brevemente descritos na ´ultima se¸c˜ao desse cap´ıtulo, tra¸cando sempre um
paralelo com a abordagem proposta.
O Cap´ıtulo 3 cont´em toda a formaliza¸c˜ao matem´atica do principal m´etodo utilizado neste
trabalho: as cadeias escondidas de Markov. Ap´os uma apresenta¸c˜ao dos conceitos b´asicos de
probabilidade e estat´ıstica, com objetivo principal de definir a nomenclatura utilizada, ser´a
5
1. INTRODUC¸ ˜AO
realizada uma introdu¸c˜ao a este modelo probabil´ıstico. Em sequˆencia, s˜ao formalizados os
m´etodos de predi¸c˜ao e estima¸c˜ao de parˆametros utilizados neste projeto.
No Cap´ıtulo 4 ser˜ao definidos todos os procedimentos metodol´ogicos realizados neste traba-
lho. Ser˜ao descritos os reposit´orios onde os dados foram obtidos, os m´etodos de busca genˆomica
baseada em motifs (motif matching), os m´etodos de processamento dos sinais epigen´eticos, as
t´ecnicas estat´ısticas de identifica¸c˜ao de regi˜oes enriquecidas de picos, a aplica¸c˜ao dos modelos
probabil´ısticos e seu treinamento e a forma como a acur´acia dos modelos foi aferida.
No Cap´ıtulo 5 todos os resultados ser˜ao exibidos. Tais resultados contˆem descri¸c˜oes visuais
do processamento dos sinais, resultados da aplica¸c˜ao dos modelos probabil´ısticos e tabelas con-
tendo as acur´acias calculadas com base nos m´etodos estat´ısticos mais utilizados na literatura.
Resultados ser˜ao exibidos tanto para o m´etodo proposto neste trabalho quanto para a replica¸c˜ao
de m´etodos j´a existentes para efeito de compara¸c˜ao. Al´em disso, ser´a realizada uma discuss˜ao a
respeito dos resultados obtidos. Todos os pontos metodol´ogicos e vieses s˜ao claramente exibidos
para introduzir as asser¸c˜oes feitas com base nos resultados. Ser´a mostrado que os modelos pro-
postos conseguem superar modelos j´a existentes na literatura. Essa discuss˜ao tem o objetivo de
motivar posteriores estudos com base na automatiza¸c˜ao de processos laboriosos, melhoramento
das acur´acias observadas e constru¸c˜ao de modelos mais complexos baseados na integra¸c˜ao de
m´ultiplos sinais epigen´eticos.
Finalmente, no Cap´ıtulo 6, o trabalho ´e sumarizado. Os principais pontos ser˜ao destacados,
incluindo as realiza¸c˜oes e limita¸c˜oes dos modelos e t´ecnicas propostos. Por fim, uma descri¸c˜ao
detalhada da continua¸c˜ao deste trabalho ´e realizada, com destaque principal para o objetivo
final: a constru¸c˜ao de um modelo generalizado e capaz de integrar um n´umero maior de sinais.
6
2
Contextualiza¸c˜ao Biol´ogica
Neste cap´ıtulo, ser˜ao descritos os conceitos biol´ogicos necess´arios para o entendimento deste
projeto de pesquisa. Em primeiro lugar, os conceitos b´asicos em Biologia Molecular ser˜ao
apresentados. Tal apresenta¸c˜ao ser´a conduzida superficialmente, com objetivo ´unico de suprir
as necessidades do leitor n˜ao familiarizado com a ´area da Biologia Molecular. Explica¸c˜oes mais
detalhadas a respeito de assuntos como Gen´etica ou Biologia Molecular, podem ser encontradas
em livros did´aticos tais como [Alberts, 2007; Allis et al., 2007; Lewin, 2003; Lodish et al., 2007;
Watson et al., 2003].
A seguir, ser´a realizada uma introdu¸c˜ao ao conceito de regula¸c˜ao gˆenica em eucariotos. Pos-
teriormente, o mecanismo regulat´orio ser´a descrito em mais detalhes atrav´es da apresenta¸c˜ao
esquem´atica dos elementos que participam na transcri¸c˜ao de forma proximal e distal. Nesse
momento, ser˜ao definidos os conceitos de elementos regulat´orios cis- e trans- atuantes. Em
seguida, o conceito de epigen´etica ser´a detalhado e mais informa¸c˜oes ser˜ao dadas a respeito de
caracter´ısticas epigen´eticas exploradas neste trabalho como as modifica¸c˜oes das histonas. Final-
mente, ser˜ao exibidos os m´etodos biol´ogicos mais importantes neste tema e ser˜ao mencionados
alguns estudos que fazem parte do estado da arte da identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores
de transcri¸c˜ao.
Ao longo de todo o documento, foi optado por deixar alguns termos nas suas vers˜oes originais
em Inglˆes. Alguns destes n˜ao possuem tradu¸c˜ao direta, enquanto outros n˜ao possuem tradu¸c˜ao
consensual, fazendo com que suas respectivas tradu¸c˜oes tornem a leitura um pouco mais dif´ıcil.
7
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
2.1 Conceitos B´asicos em Biologia Molecular
A Biologia Molecular consiste, de forma bastante sucinta, no estudo da c´elula no n´ıvel molecular.
O principal foco desta ´area de conhecimento, que agrega conhecimentos, ferramentas e objetivos
em comum com ´areas como Bioqu´ımica e Gen´etica, ´e o estudo do material gen´etico contido
dentro da c´elula dos organismos e os seus produtos, as prote´ınas. Esta se¸c˜ao ser´a baseada
nos livros e artigos [Alberts, 2007; Allis et al., 2007; Lewin, 2003; Lodish et al., 2007; Maston
et al., 2006; Setubal & Meidanis, 1997; Watson et al., 2003], nos quais mais detalhes podem ser
encontrados sobre os processos aqui exibidos.
Estima-se que existam mais de 10 milh˜oes, provavelmente 100 milh˜oes, de organismos vivos
no nosso planeta atualmente [Alberts, 2007]. Cada esp´ecie possui caracter´ısticas pr´oprias e ´e
capaz de se reproduzir gerando descendentes da mesma esp´ecie, isto ´e, com atributos espec´ıficos
na defini¸c˜ao dessas esp´ecies. Esse fenˆomeno, chamado hereditariedade, ´e central para a defini¸c˜ao
de vida, distinguindo-a de outros processos qu´ımicos naturais. A maioria dos organismos vivos
s˜ao compostos por uma ´unica c´elula (organismos unicelulares); outros, como n´os humanos, s˜ao
compostos por mais de uma c´elula (organismos multicelulares). As c´elulas s˜ao o meio pelo qual a
informa¸c˜ao heredit´aria se propaga atrav´es das gera¸c˜oes, possuindo toda a maquinaria necess´aria
para agregar materiais naturais do ambiente e construir novas c´elulas a partir deles, contendo
uma c´opia completa da informa¸c˜ao heredit´aria. A esse tipo de informa¸c˜ao ´e dado o nome de
carga gen´etica, por motivos que ficar˜ao mais claros no decorrer do texto. A Figura 2.1 mostra
um exemplo de uma c´elula animal e seus principais componentes
Dos diversos componentes presentes dentro das c´elulas, existem quatro tipos de macro-
mol´eculas. Essas macromol´eculas s˜ao pol´ımeros, isto ´e, s˜ao longas sequˆencias de unidades
menores agregadas umas `as outras, chamadas de monˆomeros. S˜ao elas: carboidratos (formados
por a¸c´ucares), lip´ıdeos (formados por componentes como ´acidos graxos ou glicerol), prote´ınas
(formadas por amino´acidos) e ´acidos nucleicos (formados por nucleot´ıdeos). As duas ´ultimas
ser˜ao focadas, j´a que possuem rela¸c˜ao com as caracter´ısticas heredit´arias de interesse para este
trabalho.
As prote´ınas possuem diversas fun¸c˜oes no organismo, entre elas: cat´alise de rea¸c˜oes qu´ımicas
(enzimas), processamento de metab´olitos, sinaliza¸c˜ao celular, regula¸c˜ao da produ¸c˜ao das pr´oprias
prote´ınas e fun¸c˜ao estrutural. Pela grande frequˆencia nas atividades metab´olicas, n´umero de
diferentes tipos proteicos e variedade de processos em que as prote´ınas atuam, pode-se dizer que
elas possuem um papel central para a manuten¸c˜ao dos organismos vivos. Os ´acidos nucleicos,
por sua vez, encontram-se nos formatos de ´acido desoxirribonucleico (DNA) e ´acido ribonucleico
(RNA). A fun¸c˜ao do DNA ´e guardar a informa¸c˜ao heredit´aria mencionada no in´ıcio deste texto.
O RNA, por sua vez, desempenha um papel fundamental nos processos necess´arios para a ma-
nifesta¸c˜ao destas informa¸c˜oes. O restante desta se¸c˜ao ser´a focada na defini¸c˜ao das estruturas
8
2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR
cromatina (DNA)
microtúbulo
centrossomo com
par de centríolos
poro nuclear
envelope nuclear
matriz extracelular
vesículas
lisossomo
mitocôndriaretículo
endoplasmático
núcleo
nucléolo
membrana plasmáticafilamentos
intermediários
complexo
de Golgi
ribossomos
no citosol
peroxissomo
filamentos de actina
5 μm
Figura 2.1: C´elula eucari´otica animal - Os principais componentes da c´elula eucari´otica animal.
Fonte: [Alberts, 2007]
do DNA, RNA e prote´ınas e no detalhamento do processo chamado dogma central da Biologia
Molecular, onde as prote´ınas s˜ao criadas a partir da informa¸c˜ao contida no DNA.
2.1.1 DNA e RNA
A mol´ecula de DNA ´e formada por uma dupla h´elice de cadeias polim´ericas emparelhadas dos
mesmos quatro tipos de monˆomeros, os nucleot´ıdeos adenina (A), citosina (C), guanina (G) e
timina (T) (Figura 2.2). Cada nucleot´ıdeo ´e composto por um a¸c´ucar (desoxirribose), um grupo
fosfato e uma base nitrogenada (que define o tipo do nucleot´ıdeo). Cada nucleot´ıdeo ´e ligado
a outro pertencente `a mesma fita atrav´es de liga¸c˜oes fosfodi´ester formando um arcabou¸co (em
Inglˆes, backbone) de a¸c´ucar fosfato. As duas fitas s˜ao conectadas atrav´es de pontes de hidrogˆenio
formadas entre as bases nitrogenadas, que se projetam para o interior das fitas. Duas pontes de
hidrogˆenio s˜ao formadas entre adenina e timina e trˆes pontes de hidrogˆenio s˜ao formadas entre
citosina e guanina. Por esta raz˜ao, ´e comum citar nucleot´ıdeos como pares de bases (bp) ou
apenas bases.
A mol´ecula de RNA difere da mol´ecula de DNA por possuir o a¸c´ucar ribose ao inv´es da
desoxirribose, por geralmente existir no formato de fita simples, e n˜ao dupla (a ribose confere
9
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
G
G+
(A) estrutura do DNA (D) dupla fita de DNA
(E) dupla hélice de DNA
(B) fita de DNA
fosfato-
açúcar
base
nucleotídeo
TC
C
C
C
C
A
A
A
AA
T
T
G
G
G
G
G
fosfato
açúcar
(C) esquema da polimerização de nova fita
C
C
monômeros
arcabouço de
fosfato-açúcar
pontes de
hidrogênio
G
G G GG
A A C C AG T G G T
A A C C AG T G G T
C C CA AG GT T T
T TAC
T TA A AC C
A
Figura 2.2: Estrutura do DNA - (A) Esquema dos componentes que formam o nucleot´ıdeo,
unidade b´asica do DNA. (B) V´arios nucleot´ıdeos, dos diferentes tipos poss´ıveis (A, C, G ou T), ligados
atrav´es de liga¸c˜oes fosfodi´ester formando uma fita simples de DNA. (C) O DNA ´e abundante em fita
dupla. Processos biol´ogicos permitem a adi¸c˜ao de nucleot´ıdeos a uma fita simples, formando uma fita
dupla de DNA, em um processo nomeado polimeriza¸c˜ao. Os nucleot´ıdeos do tipo A sempre formam
duas pontes de hidrogˆenio com o tipo T e os nucleot´ıdeos do tipo C sempre formam trˆes pontes de
hidrogˆenio com o tipo G. Tamb´em ´e comum o uso do termo hibridiza¸c˜ao para quando duas fitas pr´e-
existentes se ligam devido `a complementaridade de seus nucleot´ıdeos; e o termo desnatura¸c˜ao, para
quando algum evento, como o aumento da temperatura, separa as duas fitas preservando as liga¸c˜oes
fosfodi´ester de ambas. (D) Fita dupla exibida em um esquema linear, com objetivo meramente
ilustrativo, j´a que o DNA geralmente ocorre em formato de dupla h´elice. (E) O DNA em seu
formato comum na natureza – dupla h´elice. Fonte: [Alberts, 2007]
uma maior estabilidade `a esta estrutura, que inclusive possui capacidade de se hibridizar consigo
pr´opria) e pelo fato de que o nucleot´ıdeo timina ´e substitu´ıdo pela uracila (U). As mol´eculas
de RNA possuem v´arias fun¸c˜oes, das quais algumas ser˜ao descritas adiante. Por este motivo,
existe uma extensa nomenclatura para os RNAs, de acordo com sua fun¸c˜ao. Os mais comuns s˜ao
o mRNA (RNA mensageiro), tRNA (RNA transportador) e rRNA (RNA ribossˆomico), cujas
fun¸c˜oes ficar˜ao claras durante a explica¸c˜ao do dogma central da Biologia Molecular.
2.1.2 Prote´ınas
As prote´ınas s˜ao compostos qu´ımicos de alto peso molecular formados por uma longa cadeia
de amino´acidos. Elas consistem em, aproximadamente, 80% do peso seco de uma c´elula. Essas
10
2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR
macromol´eculas s˜ao formadas por blocos de amino´acidos que, por sua vez, s˜ao mol´eculas que
possuem um carbono central ligado a um grupo carboxila, um grupo amina, um hidrogˆenio e
uma cadeia lateral. Essa cadeia lateral pode assumir um entre vinte valores diferentes, definindo
o tipo do amino´acido. A ordem espec´ıfica dos amino´acidos que formam a cadeia polipept´ıdica
determina a estrutura tridimensional da prote´ına, pelo fato de que cada tipo de amino´acido pos-
sui certas caracter´ısticas f´ısico-qu´ımicas e a estrutura dos amino´acidos permite certas rota¸c˜oes
em torno do carbono central.
Sabe-se que a forma da prote´ına est´a diretamente relacionada com a sua fun¸c˜ao. A simples
substitui¸c˜ao de um amino´acido da cadeia ´e suficiente para que a prote´ına modifique sua con-
forma¸c˜ao levando a um mal funcionamento ou a um funcionamento incompleto. Finalmente,
as prote´ınas possuem s´ıtios espec´ıficos onde elas interagem com outras prote´ınas, mol´eculas ou
metab´olitos chamados s´ıtios ativos. A Figura 2.3 mostra a compara¸c˜ao das estruturas qu´ımicas
da prote´ına e do DNA.
MONÔMEROS
Amino ácido
H O
H2N OHC C
R
Nucleotídeo
Base
OHO P
O
O
5
3
1Açúcar
HO
POLÍMEROS
OH
H2O
H
H CN
R5
C
O
C
ϩ
Polipeptídeo
N
H
H CN
H
R1
C
O H
C
H
C
O
N
H H O
N
H H O
C C C C C OH
R2 R3 R4
H2O
5
3Ј
B4
OHOP
O
O
HO
ϩ
Ácido nucleico
5
3Ј
B1
3Ј
B2
3Ј
B3
5 5 OHOO P
O
O
OO P
O
O
OHO P
O
O
Figura 2.3: Compara¸c˜ao entre as estruturas moleculares da prote´ına e do DNA - Na
primeira linha est˜ao definidos o monˆomero e o pol´ımero que correspondem `a prote´ına. Na segunda
linha temos o mesmo esquema para a estrutura do DNA. Em ambos os pol´ımeros, novos monˆomeros
s˜ao adicionados atrav´es de uma rea¸c˜ao de condensa¸c˜ao. Fonte: [Lodish et al., 2007]
Utiliza-se o termo dom´ınio para se referir a uma parte da prote´ına que parece uma estrutura
est´avel em solu¸c˜ao por si s´o. A maioria das prote´ınas varia, em tamanho, entre 100 e 2.000
res´ıduos de amino´acidos. Prote´ınas que possuem peso molecular maior do que 20.000 daltons
geralmente s˜ao formadas por dois ou mais dom´ınios; entretanto, prote´ınas de alto peso molecular
(entre 500.000 a 2.500.000 daltons) s˜ao compostas por diversas cadeias polipept´ıdicas. Cada
prote´ına possui uma certa quantidade de s´ıtios ativos, que realizam alguma atividade metab´olica
atrav´es da capacidade de se ligar com outras mol´eculas, como DNA, RNA, metab´olitos ou at´e
outras prote´ınas.
11
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
Finalmente, diferentemente do que se acreditava na ´epoca em que as primeiras estruturas
de prote´ınas foram determinadas, as prote´ınas possuem um n´umero relativamente pequeno de
motifs estruturais dada a grande quantidade de prote´ınas diferentes que se conhece. Alguns
tipos espec´ıficos de motifs de dom´ınios s˜ao associados a atividades espec´ıficas, como o dom´ınio
intitulado dinucleotide fold, frequentemente encontrado em enzimas que se ligam `a ATP.
2.1.3 Estrutura da Cromatina
Os organismos podem ser divididos em dois grandes grupos: procariotos e eucariotos. Os
procariotos s˜ao organismos nos quais a carga gen´etica, isto ´e, o DNA, est´a disposto no citoplasma
da c´elula. J´a os eucariotos, possuem um n´ucleo celular que cont´em, entre outras coisas, o
DNA. Este projeto focar´a apenas nos organismos eucariotos. A grande maioria dos organismos
eucariotos possui mais de uma mol´ecula de DNA, que s˜ao chamadas de cromossomos, e o
conjunto de todos os cromossomos de um organismo ´e chamado de genoma. Al´em disso, cada
cromossomo pode conter uma certa quantidade de c´opias, definindo a sua haploidia. No caso
dos seres humanos, foco deste trabalho, existem duas c´opias de um total de 22 cromossomos
(nomeados de 1 a 22), mais dois cromossomos sexuais (chamados X e Y), formando um total
de 46 cromossomos e definindo os humanos como seres diploides.
O DNA n˜ao se apresenta isolado no n´ucleo celular. Ao inv´es disso, ele se conforma em
diversos n´ıveis organizacionais (Figura 2.4), envolvendo elementos como as prote´ınas histonas,
o que permite sua compacidade e confere outras fun¸c˜oes regulat´orias que ainda est˜ao sendo
estudadas e ser˜ao discutidas mais adiante. De forma simples, a cromatina pode estar con-
densada em uma estrutura n˜ao propensa para a inicia¸c˜ao da transcri¸c˜ao (nesse caso, recebe o
nome de heterocromatina) ou pode estar descondensada, permitindo que a transcri¸c˜ao ocorra
(eucromatina).
O DNA encontra-se envolto em um conjunto de oito histonas, formado por quatro pares
dos diferentes tipos de histonas chamadas H2A, H2B, H3 e H4. Essa unidade formada pelo
DNA dando, em um estado padr˜ao, aproximadamente 1.65 voltas ( 147bp) [Allis et al., 2007]
em torno do complexo de histonas ´e chamada de nucleossomo. A partir desse n´ıvel mais baixo,
a estrutura da cromatina se condensa em diversos graus. De fato, caso estiquemos o genoma
humano diploide de uma c´elula apenas, teremos uma mol´ecula linear com aproximadamente
dois metros de comprimento. Portanto a compacta¸c˜ao do DNA deve ser realizada de forma
bastante eficaz para que a cromatina caiba dentro do n´ucleo celular.
12
2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR
DNA
Núcleo
Cromossomo
na intérfase
Enovelamento da
cromatina de
ordem mais alta
Laços de fibras
de 30 nm associado
com a estrutura
do cromossomo
Fibra de
30 nm
Estrutura de
"Contas em um colar"
Nucleossomo
Elementos
móveis
Sequência de
DNA simples
Figura 2.4: Vis˜ao global da estrutura da cromatina - A cromatina possui v´arios n´ıveis
de enovelamento, o que confere ao DNA seu car´ater compacto e ´e de extrema importˆancia para
mecanismos regulat´orios mais complexos. Fonte: [Lodish et al., 2007]
2.1.4 Dogma Central da Biologia Molecular
Conforme mencionado previamente, as prote´ınas s˜ao sintetizadas a partir da informa¸c˜ao gen´etica
contida no DNA, constituindo o processo conhecido como dogma central da Biologia Molecular
(Figura 2.5). Al´em da produ¸c˜ao de prote´ınas, o dogma central tamb´em engloba a replica¸c˜ao
do DNA, processo pelo qual a informa¸c˜ao gen´etica ´e transmitida durante a divis˜ao celular.
Neste trabalho, entretanto, ser´a focada apenas a s´ıntese de prote´ınas, mais especificamente a
transcri¸c˜ao.
A transcri¸c˜ao ´e a etapa respons´avel pela gera¸c˜ao de uma mol´ecula de RNA a partir de um
trecho espec´ıfico da mol´ecula de DNA, chamado gene. De forma simplificada, podemos dizer
que genes s˜ao trechos da mol´ecula de DNA que possuem informa¸c˜ao codificante, isto ´e, ser˜ao
transformados em RNA. Tais genes podem apresentar algumas varia¸c˜oes entre indiv´ıduos de
uma mesma esp´ecia. De forma simplificada, cada uma destas vers˜oes ´e chamada de alelo. Uma
parte do RNA produzido, chamado de mRNA, ser´a posteriormente traduzido em uma prote´ına,
e outra parte desse RNA realizar´a outras fun¸c˜oes que fogem do escopo deste trabalho. V´arias
prote´ınas participam da transcri¸c˜ao e algumas delas ser˜ao descritas em detalhes nas se¸c˜oes
13
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
1
2
3
4
Ativação
Transcrição
Processamento
DNA
Início
pré-mRNA
Núcleo
mRNA
Tradução
Proteína
Citosol
Fator de
transcrição
RNA
polimerase Ribossomo
Região transcrita do DNA (gene)
Região não transcrita do DNA
Região codificante de proteína (exon)
Região não codificante de proteína (íntron)
Cadeia de aminoácido
Figura 2.5: Dogma central da Biologia Molecular - Os quatro principais processos biol´ogicos,
dentro do contexto celular eucarioto, para a s´ıntese de prote´ınas. (1) Ativa¸c˜ao – Prote´ınas regula-
doras da transcri¸c˜ao (fatores de transcri¸c˜ao) se acoplam no in´ıcio do gene, preparando-o para a fase
seguinte. (2) Transcri¸c˜ao – O DNA ´e lido pela prote´ına RNA polimerase e uma mol´ecula de mRNA
´e criada contendo a informa¸c˜ao complementar `a fita de DNA lida. (3) Processamento do mRNA
– O mRNA ´e processado e transportado para fora do n´ucleo celular. (4) Tradu¸c˜ao – A mol´ecula
de mRNA processada ´e convertida em uma prote´ına, em estruturas chamadas ribossomos. Fonte:
[Lodish et al., 2007]
posteriores, por´em por simplicidade, apenas a principal prote´ına, chamada RNA polimerase,
estar´a em foco. Para transcrever um gene, a RNA polimerase procede por uma s´erie de passos
bem definidos que podem ser agrupados em trˆes fases: inicia¸c˜ao (ou ativa¸c˜ao), elonga¸c˜ao e
termina¸c˜ao (Figura 2.6).
Durante a fase de inicia¸c˜ao, a RNA polimerase se liga em uma regi˜ao espec´ıfica no DNA
chamada de regi˜ao promotora. Ap´os a liga¸c˜ao, a fita de DNA em volta do ponto onde a
14
2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR
INICIAÇÃO
ELONGAÇÃO
TERMINAÇÃO 5
3
5
3
5
3
5
3
5
3
1
2
3
4
5
RNA polimerase
Sítio de iniciação
na fita molde
Sítio de fim de
transcrição na
fita molde
Promotor
Bolha de transcrição
rNTPs iniciais
RNA nascente região híbrida
DNA-RNA
Fita de RNA
completa
5
3
5
3
5
3
5
3
5
3
5
5
3
A polimerase se liga
ao "complexo DNA
fechado" dupla fita
A polimerase abre o
DNA dupla fita próximo
ao TSS formando uma
bolha de transcrição
"complexo aberto"
A polimerase cataliza
ligações fosfodiéster
de dois rNTPs iniciais
A polimerase avança
3' 5' na fita molde
abrindo o DNA dupla fita
e adicionando rNTPs à
fita de RNA crescente
No sítio de término de
transcrição a polimerase
libera o RNA completo e
se dissocia do DNA
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
'
Figura 2.6: Etapas do processo de transcri¸c˜ao - Os trˆes est´agios que comp˜oem o processo de
transcri¸c˜ao. Siglas introduzidas nesta figura s˜ao definidas no gloss´ario. Fonte: [Lodish et al., 2007]
15
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
transcri¸c˜ao est´a se iniciando se desenovela permitindo que a RNA polimerase, que est´a ligada
a uma das fitas, continue o processo. Come¸ca ent˜ao a fase de elonga¸c˜ao, onde o RNA, ap´os
sintetizar um pequeno trecho de RNA de aproximadamente 10 bases, come¸ca a percorrer o
gene. A cada base “lida” pela RNA polimerase, uma base ´e introduzida na cadeia de RNA
correspondente `a base com a qual a base “lida” possui afinidade. Al´em disso, conforme a
RNA polimerase se desloca, ela abre a dupla fita de DNA `a sua frente e re-hibridiza as fitas
previamente abertas cujo conte´udo j´a foi lido. Finalmente, na fase de termina¸c˜ao, a RNA
polimerase se desestabiliza, para e libera a cadeia de RNA produzida. Em algumas c´elulas
existem sequˆencias bem definidas que correspondem a essa termina¸c˜ao; por´em em outras ainda
n˜ao est´a claro o que faz com que a enzima cesse o processo de transcri¸c˜ao. Apenas a RNA
polimerase foi citada, por´em, como ser´a visto mais adiante, diversas outras prote´ınas participam
do processo de transcri¸c˜ao.
´E importante mencionar que apenas uma das fitas ´e lida durante o processo (chamada de
fita senso), por´em as duas fitas cont´em informa¸c˜ao necess´aria para produzir mRNA. Outro
ponto importante ´e a orienta¸c˜ao das fitas. Cada fita tem duas extremidades: uma corresponde
a um grupo hidroxila ligado ao carbono 3 do a¸c´ucar, e outra corresponde ao grupo fosfato,
ligado ao carbono 5 do a¸c´ucar. Por esta raz˜ao, processos que envolvem deslocamento no DNA
podem possuir orienta¸c˜ao 3 → 5 (antisenso) ou 5 → 3 (senso). Al´em disso, as duas fitas
que comp˜oem a dupla h´elice de DNA est˜ao ligadas em sentidos opostos. A transcri¸c˜ao sempre
ocorre no sentido 5 → 3 .
Ap´os a transcri¸c˜ao, as mol´eculas de mRNA que servem como molde para produ¸c˜ao de
prote´ınas (pr´e-mRNA) passam por uma s´erie de procedimentos para torn´a-las aptas para o
processo de tradu¸c˜ao. Esse processo, tamb´em intitulado de splicing do mRNA, inicia com
a exclus˜ao de certos trechos do pr´e-mRNA. Os genes possuem dois tipos b´asicos de regi˜oes
chamadas introns e exons. Nessa fase inicial do processamento do mRNA, as regi˜oes de introns
s˜ao totalmente removidas. Em adi¸c˜ao, algumas regi˜oes de exons podem ser removidas da mesma
forma. Al´em do splicing, a sequˆencia do pr´e-mRNA pode ser alterada atrav´es de outros processos
tais como o rearranjo de mRNA, o qual modifica o mRNA n˜ao processado atrav´es de uma
desamina¸c˜ao s´ıtio-espec´ıfica e guiando a inser¸c˜ao ou dele¸c˜ao de uridinas. Ap´os essa etapa, a
mol´ecula de mRNA sofre algumas altera¸c˜oes qu´ımicas em sua extremidade 5 conhecida como
revestimento do terminal 5 e um fragmento adicional contendo apenas mol´eculas de adenina
´e introduzido em sua extremidade 3 em um processo intitulado poliadenila¸c˜ao. O pr´e-mRNA
passa ent˜ao a ser chamado de mRNA processado e deve ser transportado para fora do n´ucleo
celular. Por´em antes do transporte, o mRNA deve ter uma cole¸c˜ao de caracter´ısticas que
o distinguem de outros tipos de RNA (que devem permanecer no n´ucleo) tais como certas
prote´ınas que reconhecem sequˆencias de exons.
16
2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR
No processo de splicing, exons tamb´em podem ser removidos. Isso permite que um s´o gene
seja capaz de gerar v´arios mRNAs diferentes pelo fato de que diferentes exons podem ser man-
tidos em resposta a diferentes est´ımulos celulares. Essa caracter´ıstica, conhecida como splicing
alternativo, explica em grande parte (juntamente com outros processos como as modifica¸c˜oes
p´os-traducionais) o fato de que existe uma quantidade muito maior de diferentes prote´ınas do
que de genes codificantes de prote´ınas.
O processo de tradu¸c˜ao consiste na leitura do mRNA processado e na cria¸c˜ao de uma cadeia
polipept´ıdica atrav´es da jun¸c˜ao de amino´acidos. A principal estrutura associada `a tradu¸c˜ao
´e o ribossomo, que se situa no citoplasma da c´elula e ´e composto por prote´ınas e por rRNA.
Por este motivo, o mRNA deve sair do n´ucleo celular para que o processo de tradu¸c˜ao ocorra.
Assim como a transcri¸c˜ao, a tradu¸c˜ao pode ser dividida em v´arias etapas, por´em como este
processo n˜ao ´e fundamental para o entendimento deste trabalho, uma explana¸c˜ao mais breve
ser´a fornecida. A tradu¸c˜ao inicia quando o mRNA ´e acoplado ao ribossomo. Cada trinca de
bases do mRNA (chamada c´odon) ´e “lida” pelo ribossomo, que ir´a acoplar um amino´acido
correspondente `a trinca na sequˆencia de amino´acidos que est´a sendo gerada. Cada c´odon possui
um amino´acido correspondente e, pelo fato de existirem 64 poss´ıveis combina¸c˜oes de c´odons
e apenas 20 amino´acidos, alguns amino´acidos correspondem a mais de um c´odon. Existem
tamb´em c´odons espec´ıficos para indicar a posi¸c˜ao onde esse processo de tradu¸c˜ao ir´a come¸car
e terminar. Os tRNAs s˜ao as estruturas respons´aveis por armazenar cada amino´acido que ser´a
posteriormente acoplado `a cadeia. Eles s˜ao formados por um c´odon espec´ıfico de um lado e um
amino´acido ligado ao outro e est˜ao presentes em n´umero muito grande no citoplasma. Quando
determinado c´odon do mRNA ´e lido, um rRNA que estiver pr´oximo do ribossomo ´e alinhado
com este c´odon, acarretando na jun¸c˜ao do amino´acido que est´a em uma de suas extremidades
`a sequˆencia de amino´acidos corrente.
A prote´ına formada ir´a se conformar de acordo com as propriedades f´ısico-qu´ımicas dos
amino´acidos influenciadas pelo meio aquoso do citoplasma. Ap´os essa conforma¸c˜ao, a prote´ına
est´a pronta para realizar suas atividades. Entretanto, algumas prote´ınas sofrem modifica¸c˜oes
p´os-traducionais, podendo acarretar em uma modifica¸c˜ao em sua estrutura. Essas modifica¸c˜oes
geralmente envolvem a adi¸c˜ao de grupos metil, acetil e v´arios outros em determinados amino´acidos.
As histonas, que fazem parte da estrutura da cromatina, s˜ao exemplos de prote´ınas que sofrem
modifica¸c˜oes p´os-traducionais e ser˜ao abordadas em detalhes mais adiante.
O dogma central da Biologia Molecular ´e o procedimento chave para manuten¸c˜ao da vida
como conhecemos. Algumas fases desse complexo processo foram descritas de forma bastante
simplificada. As pr´oximas se¸c˜oes correspondem ao detalhamento da fase de transcri¸c˜ao, prin-
cipalmente a fase de inicia¸c˜ao, explicando os principais mecanismos conhecidos atualmente que
contribuem para a regula¸c˜ao espacial e temporal das regi˜oes gˆenicas que ser˜ao transcritas.
17
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
2.2 Regula¸c˜ao Gˆenica em Eucariotos
Na se¸c˜ao anterior foram discutidos alguns conceitos b´asicos a respeito do processo de cria¸c˜ao de
prote´ınas a partir do DNA. ´E importante mencionar que a transcri¸c˜ao n˜ao tem como objetivo
exclusivo a produ¸c˜ao de RNA que ser´a transformado em prote´ınas. Existem v´arios outros
tipos de RNA que atuam em diversos tipos de processos moleculares. A etapa de inicia¸c˜ao da
transcri¸c˜ao foi descrita anteriormente como sendo a etapa onde a RNA polimerase deve se ligar
`a regi˜ao promotora para que o procedimento possa come¸car, por´em v´arios fatores contribuem
para que os genes sejam transcritos. D´a-se o nome de regula¸c˜ao gˆenica a todos os processos que
as c´elulas utilizam para regular a forma como os genes s˜ao convertidos em mol´eculas de RNA.
A regula¸c˜ao gˆenica pode ocorrer em v´arios n´ıveis diferentes do dogma central: inicia¸c˜ao da
transcri¸c˜ao, elonga¸c˜ao da transcri¸c˜ao, processamento de mRNA, transporte do mRNA do n´ucleo
at´e o citoplasma, tradu¸c˜ao e estabilidade do mRNA. Entretanto, acredita-se que a maior parte
dos eventos regulat´orios ocorram no n´ıvel de inicia¸c˜ao da transcri¸c˜ao. Parte da regula¸c˜ao nesta
etapa ´e baseada em prote´ınas chamadas elementos regulat´orios, que utilizam propriedades f´ısicas
e qu´ımicas para fazer com que os genes sejam transcritos em diversos n´ıveis de intensidade, desde
nenhuma transcri¸c˜ao (gene silenciado ou inativo) at´e o n´ıvel m´aximo de transcri¸c˜ao comportado
por aquele gene, dado o seu locus na cromatina. Os genes transcritos pela RNA polimerase II
(eucariotos) tipicamente contˆem dois tipos de elementos regulat´orios: os elementos cis-atuantes
e os elementos trans-atuantes.
Os elementos cis-atuantes constituem as regi˜oes no DNA onde os elementos trans-atuantes se
ligam. Neste trabalho, essa nomenclatura ser´a extrapolada, sendo os elementos trans-atuantes
tamb´em chamados de fatores de transcri¸c˜ao (TFs) e os elementos cis-atuantes, tamb´em chama-
dos de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao (TFBSs). Os elementos cis-atuantes podem ser
divididos em duas fam´ılias distintas (Figura 2.7): (1) um promotor, composto por um n´ucleo
e por elementos regulat´orios proximais; (2) elementos regulat´orios distais, divididos atualmente
em amplificadores, silenciadores, insuladores e regi˜oes de controle do locus (LCRs, do Inglˆes
Locus Control Regions).
A estrutura (ou disposi¸c˜ao) dos elementos cis- e trans-atuantes pode chegar a ser bastante
complexa. Essa complexidade se faz necess´aria dado que existem 20.000 – 25.000 genes no
genoma humano, cada um requerente de um padr˜ao espec´ıfico de express˜ao espacial/temporal,
existindo apenas pouco mais do que 1.500 fatores de transcri¸c˜ao. A presen¸ca de m´ultiplos
elementos regulat´orios em regi˜oes proximais ou distais conferem a possibilidade de uma re-
gula¸c˜ao combinat´oria, que aumenta de forma exponencial o n´umero total de padr˜oes de ex-
press˜ao poss´ıveis.
18
2.2. REGULAC¸ ˜AO GˆENICA EM EUCARIOTOS
Elementos regulatórios distais
Proximal
promoter
elements
Promotor ( 1 kb)
Core
promoter
Elementos
promotores
proximais
Núcleo do
promotor
AmplificadorSilenciador
Insulador
Regiões de controle
do locus
Figura 2.7: Diferentes tipos de elementos cis-atuantes - Regi˜ao regulat´oria t´ıpica de um
gene, contendo um promotor (n´ucleo do promotor e elementos proximais) e elementos regulat´orios
distais (amplificador, silenciador, insulador e regi˜ao de controle do locus) Fonte: [Maston et al.,
2006]
2.2.1 Maquinaria Regulat´oria Proximal
Os fatores proximais envolvidos na transcri¸c˜ao eucari´otica podem ser divididos em trˆes grupos
(Figura 2.8): (1) fatores de transcri¸c˜ao gerais (ou b´asicos), que incluem a RNA polimerase II
e v´arios componentes auxiliares (TFIIA, TFIIB, TFIID, TFIIE, TFIIF, TFIIG e TFIIH); (2)
ativadores; (3) co-ativadores. Em adi¸c˜ao a esses componentes, o Mediador – uma estrutura
grande e altamente conservada – tamb´em ´e importante para a transcri¸c˜ao acurada.
Os fatores de transcri¸c˜ao gerais (GTF, do Inglˆes General Transcription Factors) se montam
na regi˜ao promotora em uma ordem espec´ıfica, para formar o complexo pr´e-inicia¸c˜ao (PIC, do
Inglˆes Preinitiation Complex), que direciona a RNA polimerase II para o s´ıtio de inicia¸c˜ao da
transcri¸c˜ao (TSS, do Inglˆes Transcription Start Site). Primeiramente, o TFIID se liga numa
regi˜ao chamada caixa TATA (em Inglˆes, TATA box). Ap´os isso, alguns eventos ocorrem antes
da fase de elonga¸c˜ao, incluindo a fus˜ao do promotor, libera¸c˜ao e escape. Quando a RNA
polimerase II procede para a etapa de elonga¸c˜ao, uma arma¸c˜ao composta pelos fatores TFIID,
TFIIE, TFIIH e mediador, permanece no n´ucleo do promotor, fazendo com que a re-inicia¸c˜ao
da transcri¸c˜ao necessite apenas do recrutamento da RNA polimerase II e dos fatores TFIIF e
TFIIB.
A montagem do PIC no n´ucleo do promotor ´e suficiente para permitir n´ıveis baixos e acu-
rados de transcri¸c˜ao (n´ıvel basal). Os ativadores possuem a capacidade de estimular bastante o
n´ıvel da transcri¸c˜ao. Em geral, esses fatores s˜ao prote´ınas que se ligam ao DNA, reconhecendo
19
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
PIC
TFIIDTFIIA
TFIIB
TFIIF
TFIIH
RNA
polimerase II
TFIIE
?
?
?
Activator
Mediador
DBD
AD
Núcleo do
promotor
TATA TSS
Co-ativador
Ativador
Figura 2.8: Maquinaria transcricional eucari´otica - Fatores de transcri¸c˜ao gerais, ativadores
e co-ativadores se montam na regi˜ao promotora de uma forma ordenada, formando o complexo pr´e-
inicia¸c˜ao. As interroga¸c˜oes representam as conex˜oes que ainda est˜ao sendo estudadas, cuja ordem de
liga¸c˜ao, at´e o presente momento, ainda n˜ao foi conclusivamente identificada. Fonte: [Maston et al.,
2006]
sequˆencias que geralmente ocorrem `a montante do n´ucleo do promotor. Eles contˆem dom´ınios
de liga¸c˜ao no DNA e de ativa¸c˜ao, necess´arios para a estimula¸c˜ao da transcri¸c˜ao. A estimula¸c˜ao
da transcri¸c˜ao pode se dar de v´arias formas: (1) ajudando na forma¸c˜ao r´apida e apropriada do
PIC atrav´es de intera¸c˜oes diretas com um ou mais componentes da maquinaria transcricional
(alvos); (2) promovendo outras etapas transcricionais como elonga¸c˜ao ou re-inicia¸c˜ao; (3) re-
crutando complexos modificadores de estrutura da cromatina (que, atrav´es de modifica¸c˜oes
p´os-traducionais nas caudas das histonas, fazem com que a cromatina fique em um estado mais
aberto e prop´ıcio para a transcri¸c˜ao).
O funcionamento dos ativadores pode ser modulado pelos co-ativadores. Tipicamente, os
co-ativadores n˜ao contˆem dom´ınios para reconhecimento de sequˆencias espec´ıficas no DNA. Ao
inv´es disso, eles contˆem dom´ınios necess´arios para realizar intera¸c˜oes prote´ına-prote´ına com um
20
2.2. REGULAC¸ ˜AO GˆENICA EM EUCARIOTOS
ou mais ativadores no DNA. O modo como este tipo de fator aumenta o n´ıvel transcricional ´e
basicamente o mesmo dos ativadores, por´em eles possuem uma propriedade adicional na qual
s˜ao capazes de regular o funcionamento de um ativador para que estes realizem uma regula¸c˜ao
positiva ou negativa.
Uma das caracter´ısticas mais interessantes observadas nos ativadores ´e que eles s˜ao capa-
zes de estimular a transcri¸c˜ao sinergicamente. Neste fenˆomeno, o efeito de m´ultiplos fatores
trabalhando juntos ´e maior do que a soma dos efeitos que eles teriam se estivesse trabalhando
individualmente. Esse efeito pode ocorrer de forma prom´ıscua, na qual diversos fatores de dife-
rentes tipos encontram-se nesse estado cooperativo, ou de forma n˜ao-prom´ıscua, na qual v´arias
c´opias de um mesmo fator est˜ao presentes. Apesar de ter sido observado, esse fenˆomeno ainda
n˜ao ´e completamente conhecido.
2.2.2 Elementos Regulat´orios Transcricionais
A seguir s˜ao descritos brevemente os elementos regulat´orios transcricionais apresentados. A
Figura 2.9 sumariza os elementos regulat´orios que atuam de forma distal. Cada elemento
regulat´orio apresentado funciona de forma diferente, contribuindo para o aumento do n´ıvel
transcricional ou diminui¸c˜ao deste n´ıvel (e poss´ıvel silenciamento total do gene) ou para ambos
dependendo do contexto em que ´e inserido.
2.2.2.1 N´ucleo do Promotor
´E a regi˜ao no in´ıcio do gene que possui elementos onde a maquinaria geral de transcri¸c˜ao se liga e
o PIC se forma, definindo a posi¸c˜ao do TSS e a dire¸c˜ao da transcri¸c˜ao. Alguns desses elementos
foram bastante estudados tais como o elemento iniciador (Inr), a caixa TATA, o elemento central
`a jusante (DCE, do Inglˆes Downstream Core Element), o elemento de reconhecimento do TFIIB
(BRE, do Inglˆes TFIIB-Recognition Element) e o motif na posi¸c˜ao 10 (MTE, do Inglˆes Motif
Ten Element). Com exce¸c˜ao do BRE, todos os outros elementos descritos at´e ent˜ao interagem
com o fator TFIID.
An´alises estat´ısticas em 10.000 diferentes promotores mostraram que tais elementos n˜ao s˜ao
t˜ao universais quanto se pensava. De fato, aproximadamente um quarto dos promotores anali-
sados n˜ao possu´ıa nenhum desses quatro elementos mencionados, sugerindo que talvez existam
arquiteturas mais complexas a serem descobertas. De fato, pesquisas recentes apontam para
arquiteturas menos usuais tais como os desertos de ATG. Al´em disso, foi descoberto recente-
mente que as propriedades estruturais de ordens mais altas do promotor, que s˜ao determinadas
em parte pela sequˆencia de nucleot´ıdeos e sua curvatura, dobrabilidade e estabilidade, podem
ser usadas para identificar e classificar esses n´ucleos dos promotores.
21
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
Amplificador
Silenciador
Insulador
Regiões de controle
do locus
X
X
1 21 2
Figura 2.9: Funcionamento dos elementos regulat´orios distais - A fun¸c˜ao dos amplificadores
e silenciadores ´e de, respectivamente, ativar e reprimir a transcri¸c˜ao. Insuladores evitam que genes
sejam afetados por elementos regulat´orios na vizinhan¸ca. Regi˜oes de controle do locus s˜ao trechos
compostos por v´arios elementos regulat´orios cujo funcionamento em conjunto confere um padr˜ao de
express˜ao singular que afeta agrupamentos de genes nas proximidades. Fonte: [Maston et al., 2006]
2.2.2.2 Elementos Promotores Proximais
Os elementos promotores proximais est˜ao localizados imediatamente `a montante (at´e no m´aximo
algumas centenas de pares de bases) do n´ucleo do promotor, contendo v´arios s´ıtios de liga¸c˜ao
para ativadores. Uma caracter´ıstica interessante est´a no fato de que aproximadamente 60%
dos promotores situam-se pr´oximos `a ilhas de CpG – trechos que variam de 500 bp a 2 kb que
contˆem uma alta quantidade de nucleot´ıdeos C+G e uma frequˆencia de CpG mais alta do que
outras regi˜oes do DNA. A maioria dos dinucleot´ıdeos CpG no genoma s˜ao metilados no quinto
carbono da citosina, entretanto os nucleot´ıdeos em ilhas CpG geralmente n˜ao s˜ao metilados.
Existem v´arias correla¸c˜oes interessantes a esse respeito, como o fato de que promotores que
contˆem caixa TATA geralmente n˜ao est˜ao pr´oximos a ilhas CpG, por´em promotores baseados
em BREs s˜ao bastante associados a essas ilhas. O fato de que a metila¸c˜ao do DNA est´a associada
ao silenciamento da transcri¸c˜ao sugere que a fun¸c˜ao das ilhas CpG seja de impedir a metila¸c˜ao
dessa regi˜ao, consequentemente, silenciando-a.
22
2.2. REGULAC¸ ˜AO GˆENICA EM EUCARIOTOS
2.2.2.3 Amplificadores
Elementos amplificadores regulam a express˜ao temporalmente e espacialmente e sua atividade
independe da distˆancia ao promotor (que pode chegar `a ordem de Mb) ou da sua orienta¸c˜ao
em rela¸c˜ao a este. Essa regi˜ao ´e tipicamente composta por v´arios s´ıtios de liga¸c˜ao bastante
pr´oximos uns dos outros, onde os amplificadores se ligam para aumentar a express˜ao do gene.
Amplificadores tamb´em s˜ao modulares, isto ´e, a atividade de um ´unico promotor pode ser
modificada por diferentes amplificadores em tempos diferentes ou tecidos diferentes, em resposta
a diferentes est´ımulos. Al´em disso, a organiza¸c˜ao espacial e orienta¸c˜ao dos s´ıtios de liga¸c˜ao que
formam o amplificador podem ser vitais para sua atividade regulat´oria.
Amplificadores s˜ao funcionalmente similares aos elementos proximais e a distin¸c˜ao entre eles
ainda ´e bastante nebulosa. De fato, grande parte dos fatores que se liga em regi˜oes proximais
tamb´em se liga em amplificadores. Existem fortes evidˆencias de que esses elementos distais
(como os amplificadores) consigam atuar a partir de regi˜oes t˜ao distantes atrav´es do modelo de
la¸co do DNA (em Inglˆes, DNA looping). Neste modelo, o DNA se conforma de tal maneira que,
apesar de estar v´arios bps longe do n´ucleo do promotor, fisicamente estas estruturas podem estar
pr´oximas umas das outras (como na jun¸c˜ao das duas extremidades de um cadar¸co de tˆenis).
Alguns modelos prop˜oem at´e que parte do PIC se forme em regi˜oes amplificadoras e que esse
complexo se agregue ao restante dos fatores gerais atrav´es do processo de la¸co do DNA.
2.2.2.4 Silenciadores
Silenciadores s˜ao elementos que reprimem a express˜ao de um gene (efeito transcricional nega-
tivo). Assim como os amplificadores, a atua¸c˜ao da maioria dos silenciadores n˜ao depende da
distˆancia `a regi˜ao promotora nem da orienta¸c˜ao, por´em alguns silenciadores dependentes da
posi¸c˜ao foram encontrados. Os silenciadores podem estar em regi˜oes proximais, em regi˜oes dis-
tais de amplificadores ou em regi˜oes distais independentes. Al´em disso, silenciadores podem se
ligar ao DNA cooperativamente e tamb´em possuem caracter´ısticas sin´ergicas.
O fator de transcri¸c˜ao que se liga em um elemento silenciador ´e chamado de repressor, nos
quais os co-repressores podem se ligar (de forma semelhante aos ativadores e co-ativadores).
Como mencionado anteriormente, ativadores podem se tornar repressores atrav´es do recruta-
mento de alguns co-fatores espec´ıficos. Os silenciadores podem reprimir a express˜ao de diversas
formas: (1) n˜ao permitindo a liga¸c˜ao de um ativador ou componente da maquinaria transcri-
cional, bloqueando fisicamente suas liga¸c˜oes ou competindo diretamente por um mesmo s´ıtio;
(2) inibindo a forma¸c˜ao do complexo pr´e-inicia¸c˜ao; (3) recrutando modificadores de cromatina
para condensar a regi˜ao de forma a dificultar a liga¸c˜ao de ativadores ou da pr´opria maquinaria
transcricional.
23
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
2.2.2.5 Insuladores
Insuladores, tamb´em conhecidos como elementos de fronteira, bloqueiam a atua¸c˜ao de outros
elementos regulat´orios definindo uma esp´ecie de parti¸c˜ao do genoma em blocos com sistema in-
terno de regula¸c˜ao. Os insuladores tˆem duas propriedades espec´ıficas: (1) bloquear a influˆencia
de um amplificador sobre a express˜ao de um determinado gene, bloqueando a comunica¸c˜ao
amplificador-promotor; (2) bloquear a dissemina¸c˜ao do silenciamento de uma regi˜ao por estru-
turas que condensam a cromatina (que geralmente agem como uma rea¸c˜ao em cadeia, parando
apenas ao encontrar o insulador). Esses elementos geralmente s˜ao dependentes de posi¸c˜ao por´em
independentes de orienta¸c˜ao.
Apesar de v´arios fatores trans-atuantes que mediam a fun¸c˜ao do insulador serem conhecidos
para a Drosophila, em vertebrados se conhece apenas o CTCF (do Inglˆes CCCTC-binding fac-
tor). A atividade deste fator pode ser regulada de v´arias formas, incluindo metila¸c˜ao do DNA,
modifica¸c˜ao p´os-traducionais e intera¸c˜ao com co-fatores.
A forma como os insuladores realizam suas fun¸c˜oes de bloqueio de comunica¸c˜ao amplificador-
promotor ou barreira para heterocromatina ainda n˜ao ´e conhecida. Os modelos propostos
podem ser agrupados em duas categorias. A primeira associa os insuladores com a maquinaria
regulat´oria transcricional, e a segunda os associa com a organiza¸c˜ao estrutural da cromatina.
2.2.2.6 Regi˜oes de Controle de Locus
Regi˜oes de controle de locus s˜ao grupos de elementos regulat´orios, tais como amplificadores,
silenciadores e insuladores, envolvidos na regula¸c˜ao de um locus inteiro ou de um agrupamento de
genes. Tais regi˜oes s˜ao definidas operacionalmente como elementos que direcionam a express˜ao
fisiol´ogica espec´ıfica por tecido de uma forma independente de posi¸c˜ao e dependente de varia¸c˜ao
do n´umero de c´opias gˆenicas (CNV, do Inglˆes Copy-Number Variation). Os elementos que se
ligam nestas regi˜oes (ativadores, co-ativadores, repressores, co-repressores ou modificadores de
cromatina) podem afetar a express˜ao de forma distinta e sua atividade coletiva que confere a
fun¸c˜ao espec´ıfica de cada LCR.
2.3 Identifica¸c˜ao de S´ıtios de Liga¸c˜ao de Fatores de Transcri¸c˜ao
Na Se¸c˜ao 2.2 foi apresentada uma introdu¸c˜ao superficial `a ´area de regula¸c˜ao gˆenica. V´arias
propriedades dos elementos regulat´orios foram definidas, pretendendo com isso motivar estudos
que prop˜oem m´etodos para identificar a localiza¸c˜ao de tais estruturas no DNA. De fato, re-
des regulat´orias complexas governam diversos mecanismos celulares cr´ıticos para a c´elula, tais
24
2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE
TRANSCRIC¸ ˜AO
como a prolifera¸c˜ao, desenvolvimento, diferencia¸c˜ao, envelhecimento e apoptose. Para que esses
mecanismos funcionem de forma correta e consistente, um n´umero muito grande de diferentes
componentes regulat´orios devem desempenhar seus papeis, que podem variar de acordo com as
circunstˆancias, em diversas vias metab´olicas. Todos os elementos mencionados na se¸c˜ao anterior,
colaboram para a orquestra¸c˜ao espacial/temporal apropriada da express˜ao gˆenica de processos
celulares ub´ıquos, comuns entre certos tipos de c´elulas ou totalmente espec´ıficos por c´elula.
Consequentemente, a identifica¸c˜ao desses elementos regulat´orios ´e crucial para a compreens˜ao
da fun¸c˜ao (ou fun¸c˜oes) que cada um deles desempenha nas numerosas redes regulat´orias das
quais participam. Isso permite, por exemplo, a melhor compreens˜ao de doen¸cas causadas pela
desregula¸c˜ao (regula¸c˜ao impr´opria por um grande n´umero de diferentes raz˜oes).
Conforme mencionado anteriormente, estima-se que o n´umero de diferentes fatores de trans-
cri¸c˜ao em humanos seja maior do que 1.500. Cada um desses fatores pode se ligar no DNA
diretamente ou atrav´es do recrutamento de outros fatores (por exemplo, em um esquema ati-
vador – co-ativador, como revisado na Se¸c˜ao 2.2.2.2). Al´em disso, alguns elementos distais
compostos por v´arias estruturas regulat´orias menores (como os LCRs) possuem fun¸c˜ao dire-
tamente equivalente `as suas configura¸c˜oes, isto ´e, aos tipos de elementos que comp˜oem estas
regi˜oes e `a disposi¸c˜ao dos mesmos dentro destes loci. Ademais, as sequˆencias onde tais fatores
trans-atuantes tˆem maior afinidade de liga¸c˜ao geralmente s˜ao pequenas, variando entre 6 – 12
bp, dos quais apenas um n´umero ainda menor de nucleot´ıdeos est´a presente de forma quase con-
sensual. Somando todas essas caracter´ısticas, a identifica¸c˜ao destas regi˜oes se torna bastante
complexa, sendo necess´arios esfor¸cos (e avan¸cos) nas ´areas biol´ogica e computacional para que
esta tarefa tenha bons resultados.
Finalmente, uma das maiores dificuldades est´a no fato de que tais elementos regulat´orios
s˜ao espec´ıficos por tipo (ou linha) celular. O genoma humano consiste, em teoria, na mesma
sequˆencia de nucleot´ıdeos para todas as c´elulas do organismo. Sabe-se atualmente que existem
diferen¸cas significativas at´e entre c´elulas de um mesmo tipo, como varia¸c˜oes no n´umero de cro-
mossomos observadas recentemente em neurˆonios, por´em tais diferen¸cas n˜ao excluem a hip´otese
atualmente aceita de que as diferen¸cas entre as c´elulas do organismo se d˜ao majoritariamente
devido ao controle regulat´orio, que ativa ou desativa, em diferentes graus, diferentes genes,
modificando o padr˜ao da express˜ao e consequentemente gerando diferen¸cas estruturais signifi-
cativas. A partir disso, define-se a maior limita¸c˜ao dos m´etodos computacionais autom´aticos,
baseados em busca por sequˆencia, como o fato de tais m´etodos n˜ao conseguirem distinguir quais
os s´ıtios de afinidade de liga¸c˜ao de prote´ınas no DNA est˜ao ativos ou inativos.
Nas Se¸c˜oes 2.3.1 e 2.3.2 a seguir, ser˜ao explorados os dois m´etodos biol´ogicos tradicionais
mais comuns para a identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. Adicionalmente,
ser´a definida na Se¸c˜ao 2.3.3 a abordagem computacional padr˜ao para o problema, que s˜ao as
buscas baseadas em sequˆencia. Tais m´etodos possuem limita¸c˜oes bem evidentes, seja terem
25
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
baixo rendimento (n˜ao sendo poss´ıvel a aplica¸c˜ao em escala genˆomica) ou pelas dificuldades
mencionadas nos par´agrafos anteriores. Entretanto, na Se¸c˜ao 2.4.2 ser˜ao realizadas extens˜oes
desses m´etodos, cuja aplica¸c˜ao se enquadra no estado da arte das solu¸c˜oes deste problema, sendo
esta a motiva¸c˜ao para a apresenta¸c˜ao de tais tecnologias.
2.3.1 DNase I Footprinting
Este m´etodo tradicional consiste em observar padr˜oes de digest˜ao no DNA de algum agente
de clivagem capaz de quebrar as liga¸c˜oes fosfodi´ester desta mol´ecula. Estes agentes podem
ser, por exemplo, radicais hidroxila ou radia¸c˜ao ultravioleta. Por´em neste trabalho ser´a dado
foco `a endonuclease Desoxirribonuclease I (DNase I). Esta enzima ´e capaz de se ligar no sulco
menor (ou secund´ario) da dupla h´elice de DNA e produzir uma quebra na liga¸c˜ao fosfodi´ester.
A DNase I ´e perfeita em experimentos desse gˆenero pois o seu grande tamanho faz com que
ela seja realmente sens´ıvel a prote´ınas que est˜ao ligadas no DNA e tamb´em porque sua a¸c˜ao ´e
facilmente controlada com EDTA (ver gloss´ario).
O m´etodo se inicia com a obten¸c˜ao do DNA genˆomico. De posse do DNA de v´arias c´elulas
do tipo espec´ıfico sob estudo, a por¸c˜ao onde se deseja verificar se existem ind´ıcios de elementos
funcionais (isto ´e, se possuem s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao) ´e amplificada via
rea¸c˜ao em cadeia da polimerase (PCR, do Inglˆes Polymerase Chain Reaction). Amplifica¸c˜ao ´e
o processo de gera¸c˜ao de v´arias mol´eculas de DNA idˆenticas `a original. O tamanho ideal para
tal regi˜ao deve ser entre 50 e 200 pares de bases. Neste momento se torna claro que a principal
desvantagem deste m´etodo ´e o baixo rendimento, isto ´e, uma rodada deste m´etodo demora um
tempo razoavelmente alto e ´e capaz de analisar somente um trecho bastante pequeno, tornando
impratic´avel a aplica¸c˜ao deste m´etodo em estudos pangenˆomicos.
Ap´os a amplifica¸c˜ao, os fragmentos resultantes s˜ao rotulados com uma mol´ecula fluorescente
e s˜ao separadas duas por¸c˜oes deste material. Em uma delas ´e adicionada a prote´ına de interesse
enquanto a outra ´e reservada para posterior compara¸c˜ao (controle). O agente de clivagem ´e ent˜ao
adicionado em ambas as por¸c˜oes, permitindo que ele corte o DNA em v´arias posi¸c˜oes aleat´orias.
Al´em destes cortes aleat´orios com a DNase I, s˜ao realizados cortes em regi˜oes especificadas
anteriormente com enzimas de restri¸c˜ao, para permitir a an´alise posterior. Em seguida, o
DNA contendo a prote´ına e o DNA controle s˜ao colocados numa cuba para realiza¸c˜ao de uma
eletroforese com gel de poliacrilamida. Nesse experimento, DNA ´e colocado sobre um gel sobre
o qual ´e aplicada uma diferen¸ca de potencial. Pelo fato de o DNA ser eletronegativo ele ir´a
migrar para o outro lado da cuba, por´em os fragmentos menores ir˜ao migrar mais rapidamente
por passarem mais facilmente entre os poros do gel. Ap´os a eletroforese, ´e aplicado algum agente
que possibilite visualizar o marcador fluorescente (como luz ultravioleta).
26
2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE
TRANSCRIC¸ ˜AO
A distribui¸c˜ao dos fragmentos assemelha-se a uma escada, com os fragmentos menores mais
pr´oximos da extremidade negativa da cuba e os fragmentos maiores, mais pr´oximos da origem,
na extremidade positiva. As amostras com a prote´ına de interesse e de controle s˜ao ent˜ao
comparadas. Pelo fato de a enzima DNase I n˜ao ser capaz de cortar o DNA em regi˜oes onde se
encontram outras prote´ınas ligadas, fragmentos com o tamanho exato produzido, caso a DNase
tivesse cortado aquela regi˜ao, n˜ao estar˜ao presentes na amostra que a enzima de interesse foi
aplicada, por´em estar˜ao presentes na outra amostra. Portanto a falta de bandas na amostra de
interesse em uma regi˜ao onde houve presen¸ca de bandas fluorescentes na amostra de controle
sinaliza que a prote´ına de interesse estava ligada naquela regi˜ao. A esta regi˜ao ´e dado o nome
de footprint. A Figura 2.10 detalha este processo de forma visual.
Obviamente, o processo ´e muito mais complexo do que o descrito neste texto. Etapas
adicionais incluem o tratamento apropriado dos fragmentos obtidos, como a inser¸c˜ao de ligantes.
Sua vantagem est´a no fato de que ele ´e realmente preciso e ´e capaz de encontrar as posi¸c˜oes exatas
onde a prote´ına estava ligada, com um grau de confiabilidade bastante alto. Sua desvantagem,
como mencionado anteriormente, ´e que, por ser complexo e longo, ele definitivamente possui
um baixo rendimento.
2.3.2 Imunoprecipita¸c˜ao da Cromatina
A imunoprecipita¸c˜ao da cromatina (ChIP, do Inglˆes Chromatin Immunoprecipitation) ´e uma
t´ecnica experimental utilizada para investigar as intera¸c˜oes entre prote´ına-DNA na c´elula. O
objetivo ´e identificar os locais exatos onde prote´ınas espec´ıficas, tais como fatores de transcri¸c˜ao,
est˜ao ligadas. Essa t´ecnica tamb´em pode ser utilizada para se identificar prote´ınas com algum
tipo de modifica¸c˜ao p´os traducional, como as modifica¸c˜oes nas caudas das histonas.
De forma resumida o m´etodo funciona da seguinte forma: primeiramente a c´elula ´e quebrada
para que se possa acessar o complexo DNA-prote´ına (cromatina). Esse complexo ´e clivado
atrav´es de algum m´etodo (como sonica¸c˜ao, raios ultravioleta ou prote´ınas endonucleases) e
os fragmentos contendo a prote´ına de interesse s˜ao extra´ıdos atrav´es de imunoprecipita¸c˜ao.
Neste m´etodo, ´e utilizado um anticorpo espec´ıfico para a prote´ına de interesse para recuperar
os complexos DNA-prote´ına fragmentados (Figura 2.11). Tais fragmentos possuem tamanho
m´edio de 200 bp, por´em isso varia bastante de acordo com a abordagem utilizada.
A partir disso, o DNA ´e purificado e os fragmentos resultantes podem ser determinados
atrav´es de m´etodos semelhantes aos descritos para o m´etodo de DNase I Footprinting (basi-
camente, PCR com eletroforese em seguida, com algumas diferen¸cas no tratamento dos com-
plexos). As coordenadas genˆomicas recuperadas estar˜ao associadas `a prote´ına de interesse. ´E
importante observar que, enquanto no m´etodo de DNase I Footprinting as regi˜oes de deple¸c˜ao
de digest˜ao de DNase I s˜ao as regi˜oes de interesse, no m´etodo de ChIP as regi˜oes enriquecidas
27
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
5'
3'
3'
5'
5'
3'
3'
5'
2220181615141312111098761FTONEM
Footprint
Amostra A
(Proteína ausente)
Amostra B
(Proteína presente)
Figura 2.10: Esquema do m´etodo DNase I Footprinting - A amostra (A) n˜ao cont´em a
prote´ına de interesse, enquanto a amostra (B) cont´em tal prote´ına (parte de cima da figura). Ao
aplicar a enzima DNase I, todo o comprimento da amostra (A) ser´a digerido enquanto que a regi˜ao
que cont´em a prote´ına na amostra (B) n˜ao ser´a digerida. Essa deple¸c˜ao na atividade digestiva se
mostra como um intervalo sem sinal fluorescente, nos resultados da eletroforese (parte de baixo da
figura). Fonte: [Lodish et al., 2007]
28
2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE
TRANSCRIC¸ ˜AO
Quebra da cromatina
i
S
c
g
h
p
8
w
a
s
t
e
c
r
a
b
Imunoprecipitação
de um elemento
regulatório
Imunoprecipitação
de uma modificação
de histona
Purificação do DNA
Fragmentos extraídos (reads)
Cromatina
Modificação de histona
TF
Figura 2.11: Esquema do m´etodo ChIP - Este simples esquema exibe as duas possibilidades
de aplica¸c˜ao do m´etodo de ChIP: prote´ınas (como elementos regulat´orios) ou prote´ınas modificadas
(como histonas). Fonte: [Park, 2009]
s˜ao as buscadas. Al´em disso, vale a pena enfatizar que no m´etodo descrito na subse¸c˜ao anterior,
os resultados representam, dentro da regi˜ao onde o m´etodo ´e aplicado, todos os poss´ıveis s´ıtios
de liga¸c˜ao DNA-prote´ına (sem especificar quais s˜ao as prote´ınas que se ligam nestas regi˜oes),
enquanto que no m´etodo de ChIP, apenas os s´ıtios onde uma prote´ına de interesse estava ligada
s˜ao identificados.
2.3.3 Motif Matching
Conforme mencionado anteriormente, ambos DNase I Footprinting e ChIP s˜ao m´etodos com
baixo rendimento, isto ´e, s˜ao capazes de analisar apenas um pequeno trecho do genoma a cada
rodada. Isso faz com que a aplica¸c˜ao de tais m´etodos seja financeiramente e tecnicamente cus-
tosa. Com a crescente demanda por m´etodos que consigam analisar o genoma inteiro, algumas
abordagens computacionais baseadas em busca por sequˆencia se tornaram bastante comuns.
Ser´a descrito o Motif Matching (MM), m´etodo que se baseia em an´alises biol´ogicas em primeira
m˜ao para a gera¸c˜ao de estruturas capazes de serem aplicadas atrav´es de meios puramente com-
putacionais, ao longo de todo o genoma e com complexidade que permite sua aplica¸c˜ao em
diversos genomas em um curto per´ıodo de tempo.
O algoritmo toma como entrada um genoma (sequˆencia de nucleot´ıdeos) e uma matriz de
pontua¸c˜ao, espec´ıfica por fator a ser estudado, que ser´a definida a seguir (ver esquema completo
na Figura 2.12). O primeiro procedimento para gerar tal matriz consiste na obten¸c˜ao de diversos
fragmentos onde o elemento regulat´orio alvo se liga. Isso pode ser feito atrav´es de v´arios m´etodos
29
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
Sítio 1
Sítio 2
Sítio 3
Sítio 4
Sítio 5
Sítio 6
Sítio 7
Sítio 8
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sítios de ligação originais obtidos experimentalmente
C T C C T T A C A T G G G C
C A A C T A T C T T G G G C
C A A C T A T C T T G G G C
T G C C A A A A G T G G T C
T G A C T A T A A A A G G A
T G A C T A T A A A A G G A
G A C C A A A T A A G G C A
G A C C A A A T A A G G C A
aBits
1 2 3 4 5 6 7 8 9 10 11 12 13 14
0
1
2
Posição
f
b
B R M C W A W H R W G G B M
Sequência consenso
1 2 3 4 5 6 7 8 9 10 11 12 13 14
A 0 4 4 0 3 7 4 3 5 4 2 0 0 4
C 3 0 4 8 0 0 0 3 0 0 0 0 2 4
G 2 3 0 0 0 0 0 0 1 0 6 8 5 0
T 3 1 0 0 5 1 4 2 2 4 0 0 1 0
T T A C A T A A G T A G T C
A –1.93 0.79 0.79 –1.93 0.45 1.50 0.79 0.45 1.07 0.79 0.00 –1.93 –1.93 0.79
C 0.45 –1.93 0.79 1.68 –1.93 –1.93 –1.93 0.45 –1.93 –1.93 –1.93 –1.93 0.00 0.79
G 0.00 0.45 –1.93 –1.93 –1.93 –1.93 –1.93 –1.93 0.66 –1.93 1.30 1.68 1.07 –1.93
T 0.15 0.66 –1.93 –1.93 1.07 0.66 0.79 0.00 0.00 0.79 –1.93 –1.93 –0.66 –1.93
0.45 –0.66 0.79 1.68 0.45 –0.66 0.79 0.45 –0.66 0.79 0.00 1.68 –0.66 0.79
Σ = 5.23, 78% da máxima pontuação (consenso)
c Matriz de frequência de posição (PFM)
d Matriz de peso de posição (PWM)
e Pontuação de uma sequência genômica sendo analisada
Figura 2.12: M´etodo para gerar PWMs - (a) S´ıtios de liga¸c˜ao s˜ao obtidos experimentalmente
e alinhados. (b) Os s´ıtios obtidos contˆem boas estimativas sobre a preferˆencia de liga¸c˜ao da prote´ına
em quest˜ao, o que pode ser visto atrav´es da sequˆencia consenso. (c) A PFM ´e criada atrav´es da
contagem de nucleot´ıdeos em cada posi¸c˜ao. (d) Uma PWM ´e criada a partir da PFM atrav´es do
modelo descrito pelas Equa¸c˜oes 2.1 e 2.2. (e) Dada uma nova sequˆencia, uma pontua¸c˜ao pode ser
avaliada a partir da PWM. (f) Gr´aficos baseados em entropia (ou logos) s˜ao representa¸c˜oes visuais
comuns dessas matrizes de posi¸c˜ao. Fonte: [Wasserman & Sandelin, 2004]
30
2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE
TRANSCRIC¸ ˜AO
biol´ogicos que fogem ao escopo deste trabalho (DNase I Footprinting e ChIP s˜ao alguns deles).
De posse desses fragmentos, eles s˜ao alinhados e as posi¸c˜oes que s˜ao importantes para a liga¸c˜ao
DNA-prote´ına s˜ao aproximadas. Uma primeira matriz, chamada de matriz de frequˆencia de
posi¸c˜ao (PFM, do Inglˆes Position Frequency Matrix) [Wasserman & Sandelin, 2004] ´e criada da
seguinte forma: as linhas i = {A, C, G, T} correspondem a cada um dos 4 nucleot´ıdeos do DNA
e as colunas j = 1, 2, ..., N, onde N = comprimento total do motif, correspondem a cada posi¸c˜ao
deste motif alinhado. Cada entrada Xij da matriz corresponde `a quantidade de nucleot´ıdeos
do tipo i na posi¸c˜ao j do conjunto de fragmentos alinhados. Quanto mais sequˆencia tivermos
obtido inicialmente, mais confi´avel ser´a essa estimativa da afinidade no DNA para esta prote´ına
espec´ıfica.
A partir de uma PFM, ´e comum serem criadas representa¸c˜oes logar´ıtmicas chamadas matri-
zes de peso de posi¸c˜ao (PWMs, do Inglˆes Position Weight Matrices) ou matrizes de pontua¸c˜ao
espec´ıfica por posi¸c˜ao (PSSM, do Inglˆes Position-Specific Scoring Matrices, pronunciada pos-
sums) [Wasserman & Sandelin, 2004]. PWMs e PSSMs s˜ao termos usados como sinˆonimos neste
trabalho, sendo o termo PWM usado com maior frequˆencia. V´arios m´etodos podem ser utiliza-
dos para criar PWMs a partir de PFMs. O mais comum consiste no c´alculo da probabilidade
corrigida p(i, j) de se encontrar a base i na posi¸c˜ao j, isto ´e:
p(i, j) =
fij + s(i)
N +
i ∈{A,C,G,T}
s(i )
, (2.1)
onde fij ´e a frequˆencia da base i na posi¸c˜ao j e s(i) ´e uma fun¸c˜ao simples de pseudocounts. Esta
fun¸c˜ao normalmente gera pequenos valores para evitar probabilidade nula de eventos de liga¸c˜ao
raros mas fact´ıveis. Tal fun¸c˜ao ´e crucial quando a amostra de sequˆencia de s´ıtios de liga¸c˜ao
usada para estimar a PWM ´e pequena, algo comum. A partir da probabilidade corrigida, as
entradas Wij da PWM podem ser calculadas por:
Wij = log2
p(i, j)
p(i)
, (2.2)
onde p(i) ´e a probabilidade geral de fundo do car´acter i (para o motif, regi˜ao ou genoma inteiro).
A partir de uma PWM ´e poss´ıvel calcular a probabilidade de liga¸c˜ao, em um genoma, do
fator para o qual a PWM foi calculada. Para cada sequˆencia cont´ıgua de nucleot´ıdeos do genoma
de tamanho N (comprimento do motif ), pode ser calculado um bit score B. Existem v´arias
formas de se calcular tal pontua¸c˜ao, sendo a mais simples delas a soma de todas as entradas
Wij para todos os nucleot´ıdeos i da sequˆencia, dadas as coordenadas genˆomicas j. Isso criar´a
um ranking a respeito da probabilidade de liga¸c˜ao do fator em todas as sequˆencias cont´ıguas no
genoma. T´ecnicas estat´ısticas podem ser aplicadas para determinar qual a pontua¸c˜ao de corte
que determinar´a quais sequˆencias representam s´ıtios de liga¸c˜ao.
31
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
Vers˜oes dessa t´ecnica possuem taxas de acerto bastante razo´aveis e suas complexidades
computacionais superam bastante a tecnicidade dos m´etodos puramente biol´ogicos, isto ´e, o
MM ´e aplic´avel de forma pangenˆomica. Entretanto, esta t´ecnica possui desvantagens bem
cr´ıticas: (1) MM ´e incapaz de diferenciar s´ıtios de liga¸c˜ao ativos ou inativos, produzindo sempre
os mesmos resultados para todas as linhas celulares onde aplicada. (2) Apesar de serem boas
representa¸c˜oes, PWMs geralmente s˜ao pequenas e degeneradas. Isto se d´a pelo fato de que
a maioria dos motifs possuem comprimentos entre 6 – 12 bp, com especificidade de liga¸c˜ao
(posi¸c˜oes onde apenas uma base possui frequˆencia alta) variando, em geral, entre 4 – 6 bp.
Como consequˆencia dos pontos (1) e (2), o n´umero de falsos positivos ´e extremamente alto.
(3) A an´alise biol´ogica das sequˆencias nos quais os fatores est˜ao ligados faz com que seja dif´ıcil
a cria¸c˜ao de PWMs para todos os fatores poss´ıveis, ainda mais pelo fato de que alguns ainda
est˜ao sendo estudados. (4) Alguns fatores se ligam no genoma por interm´edio de outros (por
exemplo, co-ativadores e co-repressores), de forma que a cria¸c˜ao de PWMs para estes fatores
´e complexa. (5) A acur´acia desta t´ecnica depende bastante da forma como a PWM foi criada,
do algoritmo utilizado para realizar o MM e m´etodo estat´ıstico utilizado para determinar os
verdadeiros TFBSs. Tais vari´aveis podem mudar bastante entre fatores diferentes, tornando o
desenho experimental bastante complexo.
2.4 Solu¸c˜ao Epigen´etica
Os problemas encontrados pelas t´ecnicas computacionais baseadas em busca de sequˆencias de
afinidade est˜ao sendo amenizados por novas t´ecnicas que est˜ao atualmente no estado da arte no
que concerne a identifica¸c˜ao de TFBSs. Tais t´ecnicas utilizam dados epigen´eticos para encontrar
regi˜oes que contˆem s´ıtios de liga¸c˜ao atuantes no momento em que tais dados foram mensurados.
Utilizando esta abordagem, ´e poss´ıvel criar um mapa consistente dos s´ıtios de liga¸c˜ao presentes
em uma determinada linhagem celular ou dadas determinadas condi¸c˜oes. De fato, v´arios estudos
est˜ao mostrando que tais mapas geram uma assinatura da cromatina bastante consistente e com
m´ultiplas aplica¸c˜oes em diversos tipos de estudos [Barski et al., 2007; Heintzman et al., 2007;
Hon et al., 2009; Ramsey et al., 2010; Shu et al., 2011].
O sucesso da utiliza¸c˜ao de caracter´ısticas epigen´eticas ´e explicado atrav´es da hip´otese da
cromatina descondensada/condensada. Em algumas regi˜oes, a cromatina se encontra em um
estado altamente condensado (enovelado), formando uma estrutura compacta que impede o
acesso da maquinaria regulat´oria (e de fatores trans-atuantes) `as regi˜oes cis-regulat´orias. En-
tretanto, em outras regi˜oes, a cromatina ´e encontrada em um estado menos enovelado, formando
estruturas mais permissivas `a liga¸c˜ao de prote´ınas. Fatores epigen´eticos, como as modifica¸c˜oes
p´os-traducionais nas caudas das histonas, est˜ao sendo diretamente relacionadas a mecanismos
32
2.4. SOLUC¸ ˜AO EPIGEN´ETICA
de abertura ou fechamento da cromatina. Sabendo que os fatores de transcri¸c˜ao se ligam prefe-
rencialmente em regi˜oes mais permissivas, a utiliza¸c˜ao de caracter´ısticas epigen´eticas, como as
modifica¸c˜oes de histonas, faz com que o espa¸co de busca por s´ıtios de liga¸c˜ao ativos possa ser
reduzido. Tal delineamento epigen´etico das regi˜oes mais prov´aveis de conter um s´ıtio de liga¸c˜ao
ativo consiste n˜ao s´o em uma abordagem com fundamentos biol´ogicos concretos, como facilita
a aplica¸c˜ao de metodologias computacionais (tais como o motif matching).
O termo epigen´etica tem origem na observa¸c˜ao de padr˜oes de hereditariedade n˜ao-Mendelianos
em v´arios organismos. Muta¸c˜oes Mendelianas cl´assicas resultam de diferen¸cas nos alelos causa-
das por varia¸c˜oes de diversos tipos na estrutura de DNA, que coletivamente definem os tratos
fenot´ıpicos e contribuem para a determina¸c˜ao das fronteiras entre as esp´ecies. ´E bastante evi-
dente que tais fronteiras sofrem press˜ao da sele¸c˜ao natural. Em contraste, est˜ao fenˆomenos
tais como a varia¸c˜ao do crescimento embrion´ario, altera¸c˜oes de colora¸c˜ao por mosaico gen´etico,
inativa¸c˜ao aleat´oria do cromossomo X, paramuta¸c˜ao em plantas e v´arios outros, que podem se
manifestar, por exemplo, da express˜ao de apenas um (dos dois) alelo [Allis et al., 2007].
A partir da discuss˜ao realizada, epigen´etica pode ser definida como o estudo das varia¸c˜oes
heredit´arias na express˜ao gˆenica ou fen´otipo celular causadas por outros motivos que n˜ao as
varia¸c˜oes na sequˆencia de nucleot´ıdeos do DNA. A part´ıcula epi- do grego, significa sobre,
acima, exterior. Em resumo, esse termo se refere `as modifica¸c˜oes funcionais relevantes para
o genoma que n˜ao envolvem uma mudan¸ca na sequˆencia de DNA. Evidˆencias conclusivas que
suportam as hip´oteses epigen´eticas mostram que esses mecanismos habilitam a transferˆencia
de experiˆencias entre gera¸c˜oes. De forma relacionada, esses eventos ainda seriam capazes de
explicar as varia¸c˜oes que ocorrem entre, por exemplo, gˆemeos univitelinos.
V´arios elementos podem compor as varia¸c˜oes englobadas pela epigen´etica, entre eles est˜ao as
modifica¸c˜oes p´os-traducionais nas caudas das histonas e as histonas variantes, utilizadas neste
trabalho. Al´em disso, neste projeto de pesquisa assumiu-se como verdadeira a hip´otese do DNA
aberto/fechado. Nas subse¸c˜oes a seguir ser˜ao definidos brevemente tais conceitos e tamb´em
ser˜ao detalhados os m´etodos que possibilitam a obten¸c˜ao de dados epigen´eticos.
2.4.1 Conceitos e Elementos Epigen´eticos
Anteriormente foram definidos dois estados em que regi˜oes da cromatina podem se apresen-
tar: heterocromatina – estado de cromatina condensada, e eucromatina – estado de cromatina
descondensada. Entretanto, estudos recentes sugerem que exista um espectro de estados da
cromatina, sendo esta uma macromol´ecula com estrutura bastante dinˆamica, propensa a re-
modela¸c˜oes e reestrutura¸c˜oes `a medida que recebe entradas relevantes das vias de sinaliza¸c˜ao.
Esses diversos estados em que a cromatina se apresenta fornecem dicas importantes sobre as
intera¸c˜oes prote´ına-DNA que ocorrem em vizinhan¸cas distintas.
33
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
A estrutura macromolecular da cromatina, bem como efeitos de ordens mais baixas como a
disposi¸c˜ao dos nucleossomos, pode ser alterada por fatores cis, fatores trans ou substitui¸c˜oes de
elementos do nucleossomo. A Figura 2.13 sumariza os principais elementos epigen´eticos. Nela
est˜ao representados: (1) Modifica¸c˜oes p´os-traducionais de amino´acidos na cauda das histonas;
(2) Remodelamento da cromatina atrav´es de processos dependentes de energia (ATP) que mo-
dificam o posicionamento dos nucleossomos; (3) A inser¸c˜ao ou remo¸c˜ao de histonas variantes;
(4) Atua¸c˜ao de pequenos ncRNAs; (5) Metila¸c˜ao do DNA, geralmente em dinucleot´ıdeos CpG
fora de ilhas (definidas na Se¸c˜ao 2.2.2.1). Neste trabalho ser´a dado foco apenas `as modifica¸c˜oes
das histonas.
2. Remodelamento
da cromatina
1. Modificações
de histonas
4. Atuação de
ncRNAs
remodelador
3. Histonas
variantes
5. Metilações
no DNA
Figura 2.13: Elementos epigen´eticos - Um esquema sumarizando os principais elementos epi-
gen´eticos. O objetivo desta figura ´e meramente ilustrativo e n˜ao representa toda a extens˜ao da
epigen´etica nem um esquema funcional de como tais elementos ocorrem. Fonte: [Allis et al., 2007]
Um dos fatores mais estudados ´e a modifica¸c˜ao p´os-traducional na cauda das histonas.
As caudas das histonas podem sofrer modifica¸c˜oes qu´ımicas em amino´acidos espec´ıficos. Entre
essas modifica¸c˜oes est˜ao a fosforila¸c˜ao, acetila¸c˜ao, metila¸c˜ao e ubiquitina¸c˜ao. Essas modifica¸c˜oes
possuem uma nomenclatura espec´ıfica, seguindo a ordem: tipo da histona, amino´acido que sofre
a modifica¸c˜ao e tipo de modifica¸c˜ao [Allis et al., 2007]. Por exemplo, H3K4me2 se refere `a
dimetila¸c˜ao (me2) da lisina na posi¸c˜ao 4 (K4) na cauda da histona H3. A Fig 2.14 mostra um
mapa das principais modifica¸c˜oes de histonas observadas at´e o momento.
O estudo mais aprofundado das modifica¸c˜oes nas histonas e histonas variantes (neste texto,
a nomenclatura ser´a ocasionalmente extrapolada, sendo ambas chamadas de modifica¸c˜oes de
histonas) tˆem permitido maior entendimento sobre o impacto das mesmas na estrutura da
cromatina e na express˜ao gˆenica [Grant, 2001; Spivakov & Fisher, 2007]. Alguns exemplos mais
conhecidos s˜ao descritos na Tabela 2.1. Os padr˜oes gerais de metila¸c˜ao e de acetila¸c˜ao s˜ao
analisados com mais detalhes em [Barski et al., 2007] e [Ramsey et al., 2010], respectivamente.
Por fim, algumas fun¸c˜oes para modifica¸c˜oes espec´ıficas ainda est˜ao sendo estudadas, como por
exemplo a modifica¸c˜ao H3K27ac, que parece ser capaz de separar regi˜oes amplificadoras ativas
de regi˜oes estacion´arias [Creyghton et al., 2010].
34
2.4. SOLUC¸ ˜AO EPIGEN´ETICA
H2B
H3
H3
H4
H2B
H2A
P
P
9
15
12
M
e-Lys
P
M
e-Arg
M
e-Lys
AcM
e-Lys
M
e-
Lys
8
12
16
20
3
1
5
Ac
Ac
Ac
Ac
M
e-Lys
M
e-Arg
20
5
Ac
Ac
Ac
Ac
120
Ub
H2A
5
1
Ac
Ac
119
Ac
Ac Ac
M
e-Arg
P
M
e-Lys
36
79
4
10
14
18
28
9
17
23
27
26
Ub
Acetil
Ubiquitil
Metil
Fosforil
Figura 2.14: Modifica¸c˜oes de histonas - Esquema gr´afico representando as principais modi-
fica¸c˜oes de histonas detectadas at´e o presente momento. Fonte: [Felsenfeld & Groudine, 2003]
Entre as modifica¸c˜oes mostradas, a H2A.Z, H3K4me2, H3K4me3 e H3K9ac parecem exibir
forte capacidade de separar regi˜oes de cromatina descondensada e condensada, como evidenciado
em [Hon et al., 2009; Won et al., 2010] e nos estudos realizados internamente (mais detalhes
na Se¸c˜ao 5.1). Por esta raz˜ao, neste estudo tais modifica¸c˜oes nas histonas ser˜ao chamadas de
modifica¸c˜oes ativadoras, sendo as an´alises posteriores focadas neste grupo de modifica¸c˜oes.
2.4.2 M´etodos de Obten¸c˜ao de Dados Epigen´eticos
Sequenciamento de pr´oxima gera¸c˜ao (Next-Generation Sequencing) tem proporcionado meios
para se realizar m´etodos biol´ogicos tradicionais, baseados em eletroforese ou outra t´ecnica de
baixo rendimento, de forma pangenˆomica (isto ´e, com alto rendimento). A ideia b´asica consiste
em substituir os procedimentos de baixo rendimento para obten¸c˜ao das sequˆencias de interesse
(como a eletroforese para os m´etodos descritos nas Se¸c˜oes 2.3.1 e 2.3.2) por t´ecnicas de sequen-
ciamento de alto desempenho.
35
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
Tabela 2.1: Impacto das modifica¸c˜oes de histonas na estrutura da cromatina e express˜ao
gˆenica. Fonte: [Allis et al., 2007]
Modifica¸c˜ao Impacto
H2A.Z Suspens˜ao dos genes para a inicia¸c˜ao da transcri¸c˜ao e preven¸c˜ao de
silenciamento da eucromatina.
H3K4me1 Ativa¸c˜ao de transcri¸c˜ao. Rela¸c˜oes com amplificadores foram
identificadas.
H3K4me2 Eucromatina permissiva e ativa¸c˜ao de transcri¸c˜ao.
H3K4me3 Eucromatina permissiva. Regi˜oes de ponto de in´ıcio da transcri¸c˜ao de
genes que s˜ao transcricionalmente iniciados, mas n˜ao necessariamente
completamente transcritos.
H3K9ac Ativa¸c˜ao da transcri¸c˜ao e deposi¸c˜ao de histonas.
H3K9me1 Silenciamento e repress˜ao da transcri¸c˜ao.
H3K9me3 Altamente enriquecida em gene inativos. Rela¸c˜oes com metila¸c˜ao no
DNA foram identificadas.
H3K27ac Ativa¸c˜ao da transcri¸c˜ao. Rela¸c˜oes com amplificadores foram
identificadas.
H3K27me3 Inibi¸c˜ao da transcri¸c˜ao.
H3K36me3 Associada a regi˜oes transcritas. No corpo gˆenico, evita o in´ıcio da
transcri¸c˜ao em locais aberrantes.
H3K79me2 Alongamento da transcri¸c˜ao e ponto de verifica¸c˜ao cr´ıtico no controle
transcricional.
H4K20me1 Heterocromatina e silenciamento da transcri¸c˜ao.
Existem v´arias t´ecnicas de sequenciamento de alto desempenho, propostas por diferentes pla-
taformas que comercializam seus sequenciadores. Entre elas est˜ao: (1) sequenciamento massivo
paralelo de assinaturas (MPSS, do Inglˆes Massively Parallel Signature Sequencing), que baseia-
se em esferas e utiliza uma complexa abordagem de liga¸c˜ao e decodifica¸c˜ao de adaptadores; (2)
pirosequenciamento, que utiliza PCR de emuls˜ao para amplifica¸c˜ao e rea¸c˜ao de DNA nascente
com luciferase para identificar picos luminosos em rodadas revezadas de adi¸c˜ao de nucleot´ıdeos;
(3) sequenciamento Illumina (Solexa), com amplifica¸c˜ao via ponte e identifica¸c˜ao de sequˆencias
via fotografias de nucleot´ıdeos com r´otulos fluorescentes. Esses s˜ao apenas alguns exemplos de
uma quantidade imensa de t´ecnicas. Cada m´etodo tradicional ´e adaptado mais facilmente com
um subconjunto dessas t´ecnicas, por´em tais detalhes n˜ao ser˜ao abordados.
O m´etodo de DNase-seq [Crawford et al., 2004; Song & Crawford, 2010] consiste na digest˜ao
de sequˆencias de DNA com a enzima DNase I (conforme detalhado na Se¸c˜ao 2.3.1) e poste-
36
2.4. SOLUC¸ ˜AO EPIGEN´ETICA
rior identifica¸c˜ao dos trechos atrav´es de sequenciamento de alto desempenho. Algumas etapas
adicionais de tratamento de sequˆencia s˜ao necess´arios, por´em eles n˜ao adicionam graus muito
mais elevados de tecnicidade ao m´etodo. A maior vantagem de tal abordagem se d´a pelo fato
de que agora ´e poss´ıvel realizar o m´etodo de DNase I Footprinting ao longo de todo o genoma,
obtendo resultados com alta resolu¸c˜ao (na ordem de pares de bases) e acurados [Boyle et al.,
2008a, 2011]. Atrav´es deste m´etodo ´e poss´ıvel medir locais onde a cromatina estava acess´ıvel,
ou regi˜oes hipersens´ıveis `a DNase I. Al´em disso, ´e poss´ıvel identificar regi˜oes espec´ıficas onde
prote´ınas est˜ao ligadas ao DNA, por´em sem especificar quais prote´ınas s˜ao estas.
O m´etodo de ChIP-seq [Park, 2009] consiste na realiza¸c˜ao do procedimento de imunopre-
cipita¸c˜ao da cromatina (ChIP – conforme detalhado na Se¸c˜ao 2.3.2) e posterior identifica¸c˜ao
das regi˜oes enriquecidas para o tipo espec´ıfico de prote´ına atrav´es de sequenciamento de alto
desempenho. Assim como no m´etodo de DNase-seq, algumas etapas adicionais s˜ao necess´arias
entre as etapas mencionadas. Tal m´etodo ´e capaz de identificar, com boa resolu¸c˜ao, regi˜oes onde
prote´ınas espec´ıficas se ligam no DNA. ´E importante observar que o m´etodo de ChIP-seq, por
si s´o, j´a ´e capaz de identificar TFBSs com uma acur´acia bastante alta, mas apenas para o caso
de fatores de transcri¸c˜ao onde anticorpos que tenham alta afinidade de liga¸c˜ao com a prote´ına
estejam dispon´ıveis, o que se aplica apenas a um fra¸c˜ao dos fatores de transcri¸c˜ao conhecidos.
Em estudos onde ´e necess´aria a identifica¸c˜ao dos s´ıtios de liga¸c˜ao de uma pequena quantidade de
fatores, tal m´etodo, quando dispon´ıvel, representa a melhor op¸c˜ao atualmente. Por´em, estudos
atuais est˜ao focando na identifica¸c˜ao de assinaturas celulares, isto ´e, eles pretendem identificar o
maior n´umero de TFBSs poss´ıvel, para todos os fatores existentes. Em tais estudos, a aplica¸c˜ao
de ChIP-seq ´e bastante complexa pois um experimento completo teria que ser realizado para
todos os fatores que se tem conhecimento (ou para um grande n´umero destes), processo que
´e altamente custoso e t´ecnico. Por´em, tal m´etodo tamb´em ´e capaz de identificar fatores epi-
gen´eticos como as modifica¸c˜oes de histonas, o que fornece dados interessantes para direcionar a
identifica¸c˜ao total de TFBSs sem que um grande n´umero de experimentos seja conduzido.
2.4.3 Gera¸c˜ao de Sinais
Os m´etodos descritos na Se¸c˜ao 2.4.2 resultam em diversas sequˆencias de nucleot´ıdeos dos locais
recuperados. As tecnologias de sequenciamento de alto desempenho geralmente sequenciam
apenas um pequeno n´umero de bases a partir da posi¸c˜ao 5 . O pr´oximo passo ent˜ao consiste
em alinhar os fragmentos obtidos no genoma. Nesta etapa, alguns filtros podem ser impostos.
´E comum, por exemplo, descartar regi˜oes que alinharam de forma significativa em 4 ou mais
locais, devido a problemas gerados por regi˜oes repetitivas. Alguns estudos tamb´em removem
regi˜oes onde v´arios fragmentos foram perfeitamente alinhados sem que qualquer fragmento tenha
alinhado com regi˜oes vizinhas, para excluir problemas devido `a amplifica¸c˜ao indevida ou outras
fases espec´ıficas da t´ecnica de sequenciamento utilizada [Boyle et al., 2008b; Zhang et al., 2008].
37
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
A partir das sequˆencias (em Inglˆes, reads) alinhadas, podemos calcular um sinal genˆomico.
Tal sinal consiste na simples contagem de quantos fragmentos se sobrepuseram em cada bp do
genoma. A Figura 2.15 mostra duas abordagens comumente utilizadas. Na primeira, s˜ao consi-
derados os reads inteiros provenientes tanto da fita senso quanto da anti-senso. Isso gera picos
bimodais, que podem ser utilizados de forma diferenciada ou igualit´aria. Na segunda aborda-
gem, os reads s˜ao estendidos englobando todo o trecho onde o fator de interesse esteve presente,
gerando apenas um pico onde as regi˜oes mais altas representariam os trechos enriquecidos [Park,
2009].
Proteína ou
nucleossomo
de interesse
3′5′
3′ 5′
′
Fita senso
Fita anti-senso
Protein or
nucleosome
of interest
ds
ed
on of tags
ted
Reference genome
Peak identification
can be performed
on either profile
generated from
d tags
ple,each mapped
sextended
gment of
d size
sare added
3′Po e strand
Negative strand 5′
f
sare
ed
(mAQ
algorit
and b
on an
compr
accom
the SO
consec
have b
lines d
repetit
handli
Identif
reads a
tify reg
to the
Sev
to ide
availab
scored
size an
tors su
tag de
the dir
fragm
tions o
one on
strand
the di
file of
profile
toward
into a
addin
should
the wi
of the
fragm
Giv
eral w
sample
peak (f
not ad
tags (f
Porção 5' dos
fragmentos
é sequenciada
Caso 1:
Porções
sequenciadas
são alinhadas
Caso 1:
Distribuição de
fragmentos é
computada
Caso 2:
Fragmentos
estendidos
são alinhados
Identificação de
picos pode ser
realizada em
ambos os casos
Caso 2:
Distribuição de
fragmentos é
computada
Figura 2.15: Gera¸c˜ao de Sinais Genˆomicos - O esquema mostra duas abordagens poss´ıveis
(entre diversas abordagens existentes): No primeiro caso o sinal ´e gerado a partir dos fragmentos
originais que foram sequenciados (o tamanho varia de acordo com o m´etodo de sequenciamento
utilizado). No segundo caso, o fragmento ´e modificado (neste caso estendido) para atender a algumas
caracter´ısticas t´ecnicas, como o fato de que os fragmentos obtidos atrav´es de ChIP tˆem, em m´edia,
200 bp (muito maior do que os fragmentos sequenciados). Fonte: [Park, 2009]
38
2.5. REVIS˜AO DA LITERATURA
A Figura 2.15 representa a gera¸c˜ao de sinais genˆomicos para o m´etodo ChIP-seq. Algumas
particularidades a respeito dos m´etodos DNase-seq e ChIP-seq ser˜ao explorados na se¸c˜ao onde
os m´etodos deste estudo s˜ao detalhados. Por ora, apresenta-se apenas o fato de que ´e comum
gerar sinais epigen´eticos com esses dois m´etodos de forma que a representa¸c˜ao das regi˜oes
enriquecidas seja bem diferente. No caso do DNase-seq, ´e comum considerar apenas o bp da
extremidade 5 para gerar os sinais. Foi demonstrado que com tal abordagem, as regi˜oes de
TFBSs s˜ao representadas como trechos de deple¸c˜ao de sinal, ap´os trechos de picos [Boyle et al.,
2011]. Esse sinal ´e dito possuir alta resolu¸c˜ao pois como apenas um bp foi utilizado para
calcular as sobreposi¸c˜oes, os sinais tendem a mostrar regi˜oes bastante espec´ıficas, delineando
picos bem claros das regi˜oes exatas onde a DNase I digeriu o DNA. No caso do ChIP-seq o sinal
possui uma resolu¸c˜ao um pouco mais baixa, j´a que ´e comum que os fragmentos sequenciados e
alinhados sejam estendidos at´e o tamanho m´edio dos fragmentos obtidos atrav´es do m´etodo de
ChIP. Consequentemente, a prote´ına de interesse poderia estar ligada em quase toda a regi˜ao
estendida. Nesse caso, que se assemelha `a segunda abordagem descrita anteriormente, as regi˜oes
enriquecidas seriam representadas como picos, estando a prote´ına de interesse, ligada em alguma
regi˜ao dentro destes picos.
2.5 Revis˜ao da Literatura
Este projeto ´e parcialmente baseado em um estudo recente por Boyle et al., onde v´arias proprie-
dades relativas aos resultados do DNase-seq foram discutidas e TFBSs foram preditos utilizando
dados de DNase-seq e um modelo probabil´ıstico [Boyle et al., 2011]. Dois resultados em especial
s˜ao interessantes. Primeiro, foi demonstrado que as regi˜oes de deple¸c˜ao em sinais gerados a
partir de DNase-seq s˜ao ´otimos preditores de regi˜oes de TFBSs. An´alises estat´ısticas mostram
que a significˆancia de tais regi˜oes est´a bastante relacionada com o n´ıvel de enriquecimento de
t´ecnicas para fatores espec´ıficos como ChIP-seq ou com pontua¸c˜oes de t´ecnicas como MM. Ou-
tra parte do estudo consistiu na cria¸c˜ao de um modelo escondido de Markov simples univariado
para a identifica¸c˜ao autom´atica de regi˜oes de TFBSs a partir dos sinais de digest˜ao de DNase I.
Este estudo foi replicado e v´arias caracter´ısticas, como o conjunto de valida¸c˜ao, foi seguido de
forma idˆentica, para permitir uma compara¸c˜ao com m´axima precis˜ao.
Outros estudos que se baseiam em DNase foram publicados [Boyle et al., 2008a; Crawford
et al., 2004, 2006a,b; He et al., 2012; Song & Crawford, 2010; Song et al., 2011]. Crawford et
al. [Crawford et al., 2004] utilizaram padr˜oes de digest˜ao de DNase I para recuperar regi˜oes
hipersens´ıveis e mostrou que essas regi˜oes s˜ao bons preditores de s´ıtios de liga¸c˜ao ativos no
estado corrente da c´elula. Tal t´ecnica serve como hip´otese central para diversos outros estudos
baseados na identifica¸c˜ao espec´ıfica de tais regi˜oes. A partir do sucesso de tal protocolo, ele foi
devidamente formalizado em Song e Crawford [Song & Crawford, 2010]. Mais recentemente,
39
2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA
estudos como He et al. [He et al., 2012] est˜ao mostrando, atrav´es de padr˜oes em regi˜oes de
hipersensibilidade `a DNase I, que as estruturas da cromatina realmente s˜ao bastante vari´aveis,
por uma grande quantidade de caracter´ısticas, e al´em de espec´ıficos por c´elula, parecem ser
espec´ıficos por elementos regulat´orios ou m´odulos regulat´orios.
Em rela¸c˜ao `a abordagens mais integrativas, isto ´e, que utilizaram v´arias fontes de dados
epigen´eticas em um s´o modelo (assumindo dependˆencia ou n˜ao), alguns algoritmos provaram
ser mais eficazes do que aqueles baseados apenas em DNase-seq [Cuellar-Partida et al., 2012;
Ernst & Kellis, 2010; Pique-Regi et al., 2011; Whitington et al., 2009; Won et al., 2010]. Talvez o
m´etodo mais simples entre as abordagens integrativas seja a busca por ocorrˆencias de um motif
espec´ıfico utilizando filtros determin´ısticos baseados em modifica¸c˜oes de histonas [Whitington
et al., 2009]. V´arios outros m´etodos integrativos foram propostos, de forma a combinar motifs
no DNA com informa¸c˜oes a respeito da estrutura da cromatina [Ernst & Kellis, 2010; Won
et al., 2010]. Pique-Regi et al. [Pique-Regi et al., 2011], criaram um modelo bem utilizado
chamado CENTIPEDE, que utiliza um modelo de mistura Bayesiana hier´arquico que incorpora
informa¸c˜oes sobre a sequˆencia de DNA, a conserva¸c˜ao evolucion´aria, a distˆancia do s´ıtio de in´ıcio
de transcri¸c˜ao (TSS), hipersensibilidade `a DNase I e marcas de histona ativadoras e repressoras.
Ainda a respeito dos modelos integrativos, Cuellar-Partida et al. [Cuellar-Partida et al.,
2012] combinaram dados relativos `as modifica¸c˜oes de histonas H3K4me1, H3K4me3, H3K9ac,
H3K27ac e digest˜ao de DNase I para criar um modelo Bayesiano simples, baseado em raz˜oes
logar´ıtmicas de probabilidade posterior. Foi mostrado que este modelo simples consegue melho-
rar o desempenho em rela¸c˜ao a modelos mais complexos como o CENTIPEDE ou os modelos
propostos em [Ernst & Kellis, 2010; Whitington et al., 2009; Won et al., 2010]. Consideramos
a valida¸c˜ao realizada por estes estudos levemente divergentes da metodologia do Boyle et al.
[Boyle et al., 2011], n˜ao possibilitando a compara¸c˜ao direta.
Finalmente, pesquisas recentes tˆem focado na busca por padr˜oes epigen´eticos (tais como
as modifica¸c˜oes de histonas) em diferentes linhas celulares, condi¸c˜oes e padr˜oes de express˜ao.
De fato, diversos estudos mostram claras assinaturas da cromatina e sugeriram a aplica¸c˜ao de
tais padr˜oes em diversos problemas, incluindo a predi¸c˜ao de s´ıtios de liga¸c˜ao [Barski et al.,
2007; Heintzman et al., 2007; Hon et al., 2009; Ramsey et al., 2010]. Estudos que comparam
as diferentes fontes de dados epigen´eticas tamb´em s˜ao interessantes e elucidam v´arias quest˜oes
sobre a dependˆencia de uma sobre outra [Shu et al., 2011].
2.6 Considera¸c˜oes Finais
Neste cap´ıtulo, foi realizada uma revis˜ao sobre os principais conceitos de Biologia Molecular,
Gen´etica, epigen´etica e regula¸c˜ao gˆenica. A partir desse conhecimento, o problema de iden-
40
2.6. CONSIDERAC¸ ˜OES FINAIS
tifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao foi delineado, deixando bem claras as
fronteiras e n´ıveis de dificuldade diferentes em diversas abordagens do problema. Foi mostrado
que sinais epigen´eticos est˜ao sendo utilizados para melhorar a predi¸c˜ao de TFBSs e que sequen-
ciamento de pr´oxima gera¸c˜ao permite a mensura¸c˜ao de tais dados de forma pangenˆomica. Por
fim, uma discuss˜ao sobre os estudos situados no estado da arte foi realizada, apontando as se-
melhan¸cas e diferen¸cas com a forma como o problema ser´a abordado neste projeto de pesquisa.
41
3
Modelos Escondidos de Markov
Neste cap´ıtulo, ser´a descrito o m´etodo de aprendizagem de m´aquina que ser´a aplicado posterior-
mente ao problema de identifica¸c˜ao de TFBSs: o Modelo Escondido de Markov. Outros m´etodos
matem´aticos ser˜ao utilizados durante o processamento dos sinais epigen´eticos e em outras eta-
pas, por´em apenas este m´etodo ser´a exibido por fazer parte do n´ucleo deste estudo. Os modelos
escondidos de Markov (HMMs, do Inglˆes Hidden Markov Models), ´e uma t´ecnica probabil´ıstica
baseada na teoria de Bayes e em processos estoc´asticos de Markov. Ser˜ao abordados algoritmos
de predi¸c˜ao e estima¸c˜ao de parˆametros baseados em HMMs. N˜ao necessariamente todos os
algoritmos mostrados ser˜ao utilizados, sendo estes exibidos por motivos did´aticos. Toda teoria
exibida ser´a baseada nos livros e artigos [Bilmes, 1997; Bishop, 2006; Duda et al., 2000; Durbin
et al., 1998; Dymarski, 2011; Hair et al., 1998; Hastie et al., 2009; Lesk, 2005; Levin et al.,
2008; Mitchell, 1997; Rabiner, 1989; Russell & Norvig, 2002], onde mais informa¸c˜oes podem ser
obtidas.
A ´area de aprendizagem de m´aquina ´e uma ramifica¸c˜ao da grande ´area de inteligˆencia arti-
ficial, dentro da ciˆencia da computa¸c˜ao. Essa disciplina tem como objetivo a an´alise de dados
provenientes das mais diversas fontes de modo a realizar inferˆencias sobre tais dados. A tarefa
de inferˆencia mais comum ´e a classifica¸c˜ao, onde um m´etodo ´e treinado de forma a capturar
caracter´ısticas de interesse a partir de padr˜oes existentes nos dados utilizados e, ap´os esse trei-
namento, ´e capaz de classificar novos padr˜oes com base no que aprendeu. Esse treinamento pode
seguir diversos paradigmas, entre eles est˜ao a aprendizagem supervisionada, n˜ao-supervisionada
e por refor¸co.
Na aprendizagem supervisionada, os exemplos (ou instˆancias) s˜ao mostrados ao algoritmo,
juntamente com as respostas ou classe de cada instˆancia. O treinamento ´e dito supervisionado
pois o classificador tem completo conhecimento das classes da amostra de dados de treino e
deve aprender baseado nesta caracter´ıstica. Na abordagem n˜ao-supervisionada, o algoritmo
42
3.1. MODELOS ESCONDIDOS DE MARKOV
recebe as instˆancias dos dados sem suas respectivas classes. O objetivo ´e encontrar padr˜oes
em comum entre m´ultiplas instˆancias, criando sua pr´opria categoriza¸c˜ao (isto ´e, separa¸c˜ao dos
dados) interna com base nessas caracter´ısticas intr´ınsecas. O m´etodo HMM descrito ir´a conter
algumas instˆancias te´oricas supervisionadas e n˜ao supervisionadas, por´em apenas as t´ecnicas
supervisionadas ser˜ao utilizadas no projeto.
3.1 Modelos Escondidos de Markov
Cadeias de Markov s˜ao modelos probabil´ısticos compostos por uma cole¸c˜ao de estados e uma
cole¸c˜ao de transi¸c˜oes entre esses estados, que correspondem `a probabilidade da mudan¸ca de um
estado para o outro. Os modelos escondidos de Markov seguem esta mesma ideia, por´em neles,
al´em da sequˆencia de estados conhecida, existe uma sequˆencia de estados, chamada de caminho
(em inglˆes, path), que n˜ao ´e conhecida e cada estado emite s´ımbolos conhecidos (que fazem
parte de um alfabeto Σ) a partir de uma determinada probabilidade. O objetivo deste modelo
´e, considerando a sequˆencia de estados conhecida como sendo uma sequˆencia de “emiss˜oes”
de s´ımbolos dentro de um alfabeto espec´ıfico, determinar qual ´e a sequˆencia de estados mais
prov´avel de ter gerado esta sequˆencia de s´ımbolos.
Os HMMs s˜ao formalizados a seguir. Um modelo escondido de Markov consiste em: (1)
um conjunto de estados S = {S1, S2, ..., Sn}; (2) uma matriz A de dimens˜oes n x n onde cada
c´elula aij dessa matriz representa a probabilidade de se transitar do estado i para o estado
j; (3) uma matriz E de tamanho |Σ| x n onde cada entrada ei(b) representa a probabilidade
de se emitir, no estado i, a entrada observada b ∈ Σ. Esse modelo recebe como entrada uma
sequˆencia x = x1x2...xL de observa¸c˜oes e possui uma instˆancia especial π = π1π2...πL, onde
πi ∈ S, chamada caminho (ou sequˆencia de estados escondidos), que pode assumir o papel de
entrada ou sa´ıda do algoritmo dependendo dos objetivos da prova ou modelagem que se deseja
obter. A Figura 3.1 sumariza essas defini¸c˜oes de forma gr´afica. Modelos gr´aficos deste gˆenero
ser˜ao utilizados mais adiante quando solu¸c˜oes para o problema de predi¸c˜ao de TFBSs forem
propostas.
Realizadas as defini¸c˜oes iniciais sobre os parˆametros e entradas do modelo, podemos forma-
lizar de maneira probabil´ıstica o conceito de transi¸c˜ao e emiss˜ao, respectivamente, segundo as
Equa¸c˜oes 3.1 e 3.2. Tais defini¸c˜oes correspondem `a base de todos os resultados subsequentes e
devem ser entendidos como cl´ausulas b´asicas para a teoria dos HMMs.
akl = P(πi = l|πi−1 = k) (3.1)
43
3. MODELOS ESCONDIDOS DE MARKOV
S1 S2
x = x1x2x3 ... xL π = π1π2π3 ... πL
a12
a22
a21
a11
e1(xi) e2(xi)
s = {s1,s2}
Conjunto de estados
Observação Estados escondidos
a = {a11,a12,a21,a22}
Conjunto de transições
e = {e1,e2}
Conjunto de emissões
Figura 3.1: Esquema de um modelo escondido de Markov - Neste esquema exemplo, existem
2 estados S1 e S2. Cada um dos dois estados possui transi¸c˜ao para si e para o outro estado. A
emiss˜ao de cada estado, isto ´e e1(xi) e e2(xi), correspondem a probabilidades pontuais atribu´ıdas a
cada poss´ıvel valor xi. Observe que a matriz de transi¸c˜ao est´a representada em sua forma vetorial
para facilitar a visualiza¸c˜ao.
ek(b) = P(xi = b|πi = k) (3.2)
Al´em das a¸c˜oes b´asicas de transi¸c˜ao e emiss˜ao, a teoria dos HMMs possui uma propriedade
chave: a probabilidade de prosseguir do estado i para o estado i + 1 depende apenas da proba-
bilidade no estado i. Dessa forma, o processo estoc´astico faz com que as probabilidades sejam
sumarizadas em cada estado, de forma indutiva. Podemos generalizar a propriedade chave como:
a probabilidade de prosseguir do estado i para o estado i + 1 depende apenas da probabilidade
dos T estados anteriores, definindo um HMM de ordem T. Utilizando um estado auxiliar inicial
0, no qual o modelo se encontra no in´ıcio do processo, e um estado auxiliar final L + 1 (tamb´em
denotado posteriormente como ), no qual o modelo se encontra no fim do processo, podemos
representar esse conceito chave, para o caso de ordem 1, segundo a Equa¸c˜ao 3.3.
P(x, π) = a0π1
L
i=1
eπi (xi)aπiπi+1 (3.3)
Podemos definir as emiss˜oes como discretas ou cont´ınuas. A diferen¸ca n˜ao ir´a afetar a
modelagem te´orica a seguir, pelo fato de que: no caso discreto, basta que as probabilidades (de-
notadas por P(·)) sejam fun¸c˜oes (massa) de probabilidade; em contrapartida, no caso cont´ınuo,
as probabilidades P(·) seriam fun¸c˜oes densidade de probabilidade. Os sinais utilizados neste
projeto s˜ao de natureza cont´ınua, portanto as emiss˜oes ir˜ao corresponder a distribui¸c˜oes gaussi-
44
3.2. M´ETODOS DE PREDIC¸ ˜AO BASEADOS EM HMMS
anas (Equa¸c˜ao 3.4). Isto significa que cada emiss˜ao, em cada estado, ser´a representada atrav´es
dos parˆametros de uma fun¸c˜ao densidade de probabilidade do tipo normal: a m´edia µ e o desvio
padr˜ao σ.
f(x; µ, σ) =
1
√
2πσ2
e−
(x−µ)2
2σ2 , −∞ < x < ∞, σ > 0 (3.4)
Al´em de cont´ınuos, os modelos escondidos de Markov podem ser multivariados. Novamente,
o formalismo a seguir se modificar´a apenas no que concerne `a adi¸c˜ao de dimens˜oes. No modelo,
a ´unica diferen¸ca seria que a matriz de emiss˜oes E teria uma dimens˜ao adicional de tamanho d,
onde d ´e a dimensionalidade do modelo (isto ´e, a quantidade de sinais que ser˜ao simultaneamente
inseridos). A entrada eij(b) desta matriz com trˆes dimens˜oes representaria a emiss˜ao para o
i−´esimo estado, para o j−´esimo sinal, para um valor observado b.
Os algoritmos apresentados na Se¸c˜ao 3.2 consistem em m´etodos para se descobrir o caminho
π a partir de uma sequˆencia de caracteres x utilizando um modelo com os parˆametros A e E
definidos. Nesses m´etodos a Equa¸c˜ao 3.3 ser´a explorada e ser˜ao criadas novas vari´aveis para
ajudar no entendimento. Os algoritmos apresentados na Se¸c˜ao 3.3 mostram formas de se estimar
os parˆametros A e E para um modelo de Markov escondido, de forma supervisionada ou n˜ao
supervisionada.
3.2 M´etodos de Predi¸c˜ao Baseados em HMMs
Dado o formalismo definido na Se¸c˜ao 3.1, existem, basicamente, trˆes problemas que devem ser
resolvidos para que o modelo tenha aplica¸c˜oes pr´aticas:
Problema 1 Dada a sequˆencia observada x = x1x2...xL e um modelo composto por θ =
{A, E}, como ´e escolhida a sequˆencia π = π1π2...πL que ´e ´otima dado algum
crit´erio significativo (isto ´e, que melhor explica as observa¸c˜oes)?
Problema 2 Dada a sequˆencia observada x = x1x2...xL e um modelo composto por
θ = {A, E}, como ´e computada P(x|θ), isto ´e, a probabilidade da sequˆencia
observada, dado o modelo?
Problema 3 Como os parˆametros θ = {A, E} podem ser ajustados de forma a maximizar
P(x|θ)?
O primeiro problema proposto, que aborda a parte escondida do HMM, ser´a abordado na
Se¸c˜ao 3.2.1, ao definir o m´etodo de Viterbi. O segundo problema ser´a utilizado para avaliar
a probabilidade posterior na Se¸c˜ao 3.2.2 (correspondente, mais especificamente, aos m´etodos
45
3. MODELOS ESCONDIDOS DE MARKOV
forward ou backward). E finalmente, o terceiro problema, diretamente solucionado atrav´es do
simples m´etodo da verossimilhan¸ca na Se¸c˜ao 3.3, faz com que sejamos capazes de treinar o
modelo.
Nesta se¸c˜ao ser˜ao definidos os dois principais m´etodos para se predizer sequˆencias de estados
escondidos π a partir de um HMM e de entradas (sequˆencias de s´ımbolos x). O primeiro m´etodo
segue diretamente das defini¸c˜oes anteriores, a partir da utiliza¸c˜ao do paradigma de programa¸c˜ao
dinˆamica para resolver o problema da exaust˜ao inicial. O segundo m´etodo resulta em um vetor
de probabilidades posterior de tamanho igual ao n´umero de estados, para cada elemento do vetor
de entrada. Neste m´etodo, que geralmente produz predi¸c˜oes mais acuradas que o primeiro, o
caminho π pode ser avaliada de v´arias formas, incluindo a aceita¸c˜ao do estado que possui a
maior probabilidade posterior para cada posi¸c˜ao da sequˆencia de entrada.
3.2.1 Algoritmo de Viterbi
Ao introduzir uma sequˆencia de estados escondidos π no modelo, se torna imposs´ıvel descrever
deterministicamente em qual estado do modelo estamos apenas atrav´es da observa¸c˜ao do s´ımbolo
correspondente da sequˆencia de entrada x. Encontrar o significado da sequˆencia de entrada
em termos da sequˆencia de estados escondidos se chama decodifica¸c˜ao, no jarg˜ao original de
reconhecimento de padr˜oes sonoros.
O Algoritmo de Viterbi foi proposto por Andrew Viterbi, em 1976, como um algoritmo de de-
codifica¸c˜ao para c´odigos convolucionais sobre conex˜oes digitais de comunica¸c˜ao que continham
alto n´ıvel de ru´ıdo. Ap´os sua proposi¸c˜ao, esse algoritmo foi aplicado em ´areas como celula-
res digitais CDMA e GSM, modems discados, sat´elites, comunica¸c˜oes espaciais, redes sem fio
802.11 e atualmente, ´e bastante utilizado em reconhecimento de fala, lingu´ıstica computacional
e bioinform´atica.
O Algoritmo de Viterbi pertence ao paradigma da programa¸c˜ao dinˆamica e consiste em
descobrir qual ´e o caminho mais prov´avel π∗ dada a sequˆencia de emiss˜ao x. A Equa¸c˜ao 3.5
descreve em termos formais essa proposi¸c˜ao.
π∗
= argmaxπP(x, π) (3.5)
A forma exaustiva de resolu¸c˜ao de tal algoritmo seria calcular as probabilidades P(x, π)
para todas as sequˆencias π existentes. Entretanto, conforme aumentamos o tamanho L da
sequˆencia de entrada, o n´umero total de combina¸c˜oes de estados que constituem as sequˆencias π
cresce exponencialmente, e quanto maior o n´umero de estados, mais agressivo ´e tal crescimento.
46
3.2. M´ETODOS DE PREDIC¸ ˜AO BASEADOS EM HMMS
Felizmente, Viterbi apontou uma solu¸c˜ao baseada em programa¸c˜ao dinˆamica, onde o caminho
mais prov´avel π∗ pode ser encontrado recursivamente.
Suponha que criemos vari´aveis de Viterbi vk(i), que correspondem `a probabilidade do cami-
nho mais prov´avel do prefixo x1...xi que termina no estado Sk. Supondo que tais probabilidades
s˜ao conhecidas para o todos os estados k podemos calcular essas probabilidades para o prefixo
x1...xi+1 como descrito na Equa¸c˜ao 3.6.
vl(i + 1) = el(xi+1)maxk(vk(i)akl) (3.6)
Dado que todas as sequˆencias se iniciam em um estado inicial 0, podemos definir as vari´aveis
de Viterbi para este estado inicial como v0(0) = 1 e vk(0) = 0 para todos os outros estados que
n˜ao o inicial. A partir destas vari´aveis iniciais, podemos continuar calculando as vari´aveis dos
pr´oximos estados segundo a Equa¸c˜ao 3.6 e manter um ponteiro ptr para os estados que possu´ıram
a maior probabilidade em cada itera¸c˜ao. Tal algoritmo, que ´e poss´ıvel dada a propriedade chave
das cadeias de Markov, ´e definido a seguir:
Algoritmo de Viterbi
1. Inicializa¸c˜ao:
1.1. v0(0) = 1
1.2. vk(0) = 0 para k > 0
2. Recurs˜ao (i = 1, ..., L):
2.1. vl(i) = el(xi)maxk(vk(i − 1)akl)
2.2. ptri(l) = argmaxk(vk(i − 1)akl)
3. Termina¸c˜ao:
3.1. P(x, π∗) = maxk(vk(L)ak )
3.2. π∗
L = argmaxk(vk(L)ak )
4. Remontagem (i = L, ..., 1):
4.1. π∗
i−1 = ptri(π∗
i )
Existem alguns problemas pr´aticos de implementa¸c˜ao em rela¸c˜ao ao Algoritmo de Viterbi. O
mais severo decorre do fato de que multiplicar diversas probabilidades baixas ir´a gerar n´umeros
de ordens extremamente baixas, o que ocasiona em erros de estouro negativo (underflow) quando
n˜ao tratado de forma correta. A solu¸c˜ao mais utilizada consiste em realizar o algoritmo no
espa¸co logar´ıtmico, o que faria com que todas as multiplica¸c˜oes virassem somat´orios. Esse tipo
de detalhe foge ao escopo deste trabalho e n˜ao ser´a abordado.
47
3. MODELOS ESCONDIDOS DE MARKOV
3.2.2 Probabilidade Posterior
Al´em do Algoritmo de Viterbi, podemos realizar a decodifica¸c˜ao atrav´es do c´alculo da probabi-
lidade posterior de estar em cada estado escondido, em cada posi¸c˜ao da sequˆencia de entrada.
Extrair o conjunto mais prov´avel de estados escondidos desta abordagem pode ser realizado
de forma simples como observar qual estado possui a maior probabilidade posterior para cada
posi¸c˜ao da sequˆencia, ou de formas mais complexas como fixar um ponto de corte para aceita¸c˜ao
de estados escondidos baseado nestas probabilidades. Al´em de permitir a extra¸c˜ao do conjunto
mais prov´avel de estados de uma forma mais elaborada, o c´alculo das probabilidades posteriores
permite que seja visualizada a forma como as transi¸c˜oes est˜ao ocorrendo. Por essas raz˜oes,
geralmente esta abordagem ´e prefer´ıvel em rela¸c˜ao ao Algoritmo de Viterbi.
A probabilidade posterior pode ser definida mais formalmente como como sendo a probabili-
dade de, em uma certa posi¸c˜ao da cadeia de caracteres, observarmos o estado escondido k, dada
a sequˆencia observada. Pelo teorema de Bayes, ´e poss´ıvel colocar essa proposi¸c˜ao em termos
matem´aticos (Equa¸c˜ao 3.7).
P(πi = k|x) =
P(x, πi = k)
P(x)
(3.7)
Primeiramente, ser´a focado o c´alculo da cl´ausula P(x), isto ´e, a evidˆencia de uma certa cadeia
de caracteres x dentro de todas as possibilidades de cadeias de tamanho L. Formalmente, isso
pode ser definido em rela¸c˜ao ao caminho segundo a Equa¸c˜ao 3.8.
P(x) =
π
P(x, π) (3.8)
O c´alculo exaustivo da Equa¸c˜ao 3.8 ´e imposs´ıvel pois o n´umero de caminhos cresce exponen-
cialmente com o tamanho da sequˆencia (conforme j´a foi visto no contexto de Viterbi). Por´em
podemos avaliar esta express˜ao com a mesma ideia de Viterbi mostrada, apenas modificando os
passos de maximiza¸c˜ao por somat´orios. Neste novo algoritmo a vari´avel fk(i), chamada vari´avel
forward, ´e utilizada assim como a vari´avel de Viterbi (Equa¸c˜ao 3.9). A vari´avel forward corres-
ponde `a probabilidade de observar a sequˆencia x at´e (e incluindo) xi de tal forma que πi = k.
A recurs˜ao utilizada pelo algoritmo ´e definida na Equa¸c˜ao 3.10.
fk(i) = P(x1...xi, πi = k) (3.9)
48
3.2. M´ETODOS DE PREDIC¸ ˜AO BASEADOS EM HMMS
fl(i + 1) = el(xi+1)
k
fk(i)akl (3.10)
O algoritmo ´e mostrado a seguir. Assim como o Algoritmo de Viterbi, este m´etodo est´a
sujeito a estouros negativos. Tal problema n˜ao pode ser resolvido da mesma forma como a
Equa¸c˜ao 3.5 foi por conter somat´orios em sua pr´opria natureza. A solu¸c˜ao est´a novamente em
se trabalhar em um espa¸co logar´ıtmico, por´em utilizando abordagens mais complexas.
Algoritmo Forward
1. Inicializa¸c˜ao:
1.1. f0(0) = 1
1.2. fk(0) = 0 para k > 0
2. Recurs˜ao (i = 1, ..., L):
2.1. fl(i) = el(xi) k fk(i − 1)akl
3. Termina¸c˜ao:
3.1. P(x) = k fk(L)ak
Continuando a busca pela probabilidade posterior, podemos explorar o termo P(x, πi =
k). Ao aplicar a propriedade chave dos modelos de Markov, podemos realizar a decomposi¸c˜ao
demonstrada na Equa¸c˜ao 3.11. A segunda linha desta equa¸c˜ao ocorre porque tudo que ocorre
depois do estado k depende apenas do que ocorre no estado k.
P(x, πi = k) = P(x1...xi, πi = k)P(xi+1...xL|x1...xi, πi = k)
= P(x1...xi, πi = k)P(xi+1...xL|πi = k)
(3.11)
´E bastante claro que o primeiro termo da segunda linha da Equa¸c˜ao 3.11 corresponde `a
vari´avel forward fk(i) cujo c´alculo foi apresentado anteriormente. Para calcular a probabilidade
posterior precisamos apenas abordar o segundo termo da segunda linha da Equa¸c˜ao 3.11. ´E
poss´ıvel, ent˜ao, criar outra vari´avel, chamada backward, para calcular o termo restante. Obvia-
mente, essa vari´avel ´e definida como na Equa¸c˜ao 3.12.
bk(i) = P(xi+1...xL|πi = k) (3.12)
Para calcular tais vari´aveis ´e mostrado o Algoritmo backward a seguir. Tal algoritmo ´e
an´alogo ao forward por´em ao inv´es de proceder do in´ıcio da sequˆencia at´e o ponto desejado, ele
procede do fim da sequˆencia at´e o ponto desejado.
49
3. MODELOS ESCONDIDOS DE MARKOV
Algoritmo Backward
1. Inicializa¸c˜ao:
1.1. bk(L) = ak , ∀k
2. Recurs˜ao (i = L − 1, ..., 1):
2.1. bk(i) = l aklel(xi+1)bl(i + 1)
3. Termina¸c˜ao:
3.1. P(x) = l a0lel(x1)bl(1)
A partir dos Algoritmos forward e backward podemos calcular a probabilidade posterior con-
forme definida na Equa¸c˜ao 3.7 atrav´es de uma simples substitui¸c˜ao dos termos nesta equa¸c˜ao
pelas respectivas vari´aveis criadas (Equa¸c˜ao 3.13). O termo P(x) nesta equa¸c˜ao pode ser cal-
culado atrav´es da aplica¸c˜ao de um dos algoritmos, forward ou backward na sequˆencia inteira.
P(πi = k|x) =
fk(i)bk(i)
P(x)
(3.13)
3.3 Estima¸c˜ao de Parˆametros em HMMs
Na Se¸c˜ao 3.2, algoritmos para determinar a sequˆencia de estados escondidos foram definidos.
Nesta se¸c˜ao, ser´a demonstrado um m´etodo para a cria¸c˜ao de tais HMMs, isto ´e, a estima¸c˜ao dos
parˆametros que comp˜oem o HMM (a matriz de transi¸c˜oes A e o vetor de emiss˜oes E). A t´ecnica
escolhida, m´axima verossimilhan¸ca, consiste na estima¸c˜ao mais simples poss´ıvel. A ideia ´e que
os parˆametros sejam o mais pr´oximo poss´ıvel dos observados nos dados de treinamento. Esta
abordagem ´e, portanto, supervisionada. Caso fosse necess´aria a estima¸c˜ao de parˆametros um
HMM sem informa¸c˜oes de classe a priori, um m´etodo n˜ao-supervisionado como o Baum-Welch
teria que ser utilizado. Neste m´etodo, estima¸c˜oes s˜ao feitas atrav´es de aproxima¸c˜oes baseadas
no algoritmo de Maximiza¸c˜ao da Esperan¸ca (EM, em Inglˆes Expectation Maximization).
Como mencionado, podemos estimar os parˆametros de forma supervisionada ou n˜ao su-
pervisionada. Entretanto, o modelo geral, isto ´e, a sequˆencia de estados S, j´a dever´a estar
corretamente modelada. A cria¸c˜ao de um modelo oscila bastante entre os que acreditam nesta
tarefa como uma arte e naqueles que desenvolvem m´etodos espec´ıficos, geralmente baseados em
dura¸c˜ao probabil´ıstica dos estados. De qualquer forma, tal tarefa n˜ao ser´a mencionada. Os mo-
delos originais desenvolvidos neste trabalho foram idealizados com base nos padr˜oes dos dados
e sua robustez foi aferida de forma puramente emp´ırica.
O m´etodo da m´axima verossimilhan¸ca ´e a forma mais simples de se estimar os parˆametros A
e E dos modelos escondidos de Markov. Neste tipo de estima¸c˜ao, ´e utilizada uma sequˆencia de
50
3.3. ESTIMAC¸ ˜AO DE PARˆAMETROS EM HMMS
s´ımbolos x com sequˆencia de estados conhecida π para calcular os parˆametros mais veross´ımeis.
Para o caso discreto, de forma intuitiva, ser´a realizada a simples contagem do n´umero de
vezes em que acontece cada evento relacionado aos parˆametros. Denotando por Akl o n´umero
de ocorrˆencias de transi¸c˜oes entre os estados k e l (n˜ao confundir com akl, que ´e a probabilidade
desta transi¸c˜ao), e Ek(b) o n´umero de emiss˜oes do s´ımbolo b no estado k, o estimador de m´axima
verossimilhan¸ca consiste na simples aplica¸c˜ao das Equa¸c˜oes 3.14 e 3.15.
akl =
Akl
l Akl
(3.14)
ek(b) =
Ek(b)
b Ek(b )
(3.15)
Generalizando para o caso cont´ınuo, tem-se uma fun¸c˜ao de densidade p(x|Θ) governada pelo
conjunto de parˆametros Θ. No caso de uma gaussiana, por exemplo, Θ corresponde `as m´edias
e desvios padr˜oes das entradas utilizadas. Suponha que tenhamos tamb´em um conjunto de
dados de tamanho T obtido a partir desta distribui¸c˜ao, isto ´e, X = {X1, ..., XT }. A densidade
resultante das amostras ´e dada pela Equa¸c˜ao 3.16.
p(X|Θ) =
T
i=1
p(Xi|Θ) = L(Θ|X) (3.16)
Essa fun¸c˜ao L(Θ|X) ´e chamada de verossimilhan¸ca dos parˆametros dado o conjunto de
entradas X. De forma intuitiva, ela pode ser pensada como uma fun¸c˜ao dos parˆametros Θ onde
o conjunto de dados X se encontra fixo. No problema da m´axima verossimilhan¸ca, o objetivo ´e
encontrar o conjunto de parˆametros Θ que maximize a fun¸c˜ao L (Equa¸c˜ao 3.17).
Θ∗
= argmax
Θ
L(Θ|X) (3.17)
Esse problema pode ser facilmente resolvido para o caso da gaussiana (onde Θ = {µ, σ}),
bastando igualar a derivada de log(L(Θ|X)) a zero e resolver diretamente para µ e σ. O motivo
para o uso da fun¸c˜ao log ´e que ela torna o problema analiticamente mais f´acil. Para outras
distribui¸c˜oes, entretanto, t´ecnicas mais elaboradas s˜ao necess´arias, dado que a solu¸c˜ao para as
express˜oes anal´ıticas n˜ao podem ser encontradas diretamente. Tais detalhes n˜ao ser˜ao expostos,
visto que neste projeto ser˜ao utilizadas apenas gaussianas para representar os sinais de entrada.
51
3. MODELOS ESCONDIDOS DE MARKOV
3.4 Considera¸c˜oes Finais
Neste cap´ıtulo, foi descrita a t´ecnica do modelo escondido de Markov sob a ´otica do aprendizado
de m´aquina. Primeiramente, foi mostrada a teoria dos modelos escondidos de Markov. Ap´os
uma introdu¸c˜ao, foram abordadas as principais t´ecnicas de decodifica¸c˜ao (predi¸c˜ao de estados
escondidos a partir de observa¸c˜oes) e estima¸c˜ao de parˆametros. Esta t´ecnica ´e a principal fer-
ramenta deste estudo, aplicada diretamente aos sinais epigen´eticos (observa¸c˜oes) gerados pelos
m´etodos descritos no cap´ıtulo anterior para predizer s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao
(estados escondidos).
52
4
Metodologia
Neste cap´ıtulo, ser´a descrita a forma como os experimentos foram realizados. Ser˜ao dados
detalhes a respeito das bases de dados utilizadas e os reposit´orios onde elas foram obtidas.
Ent˜ao, todos os procedimentos realizados ser˜ao descritos, envolvendo: motif matching, an´alise
de enriquecimento dos dados de digest˜ao de DNase I (regi˜oes hipersens´ıveis `a DNase I) e de
dados obtidos atrav´es de ChIP-seq (para os fatores de transcri¸c˜ao), processamento dos sinais
genˆomicos obtidos com DNase-seq e ChIP-seq e aplica¸c˜ao dos HMMs para realizar footprinting
autom´atico. Ser´a descrita tamb´em a forma como os resultados foram validados utilizando gold
standards bem estabelecidos na literatura.
Deve-se destacar que a principal finalidade dos experimentos descritos a seguir ´e o melho-
ramento da identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. A partir da discuss˜ao
realizada anteriormente sobre os fatores epigen´eticos, propomos que a adi¸c˜ao de sinais genˆomicos
relativos `as modifica¸c˜oes nas caudas das histonas acrescente informa¸c˜oes ao modelo capazes de
suprir algumas deficiˆencias a partir do uso de dados relativos `a digest˜ao da DNase apenas.
Deste estudo, duas contribui¸c˜oes maiores s˜ao apontadas: a constru¸c˜ao de um modelo capaz de
melhorar o desempenho e a cria¸c˜ao de um novo m´etodo para treinar o modelo sem precisar se
basear em dados validados atrav´es de t´ecnicas experimentais custosas.
Ap´os a obten¸c˜ao dos dados nos reposit´orios espec´ıficos (Se¸c˜ao 4.1), o processo experimen-
tal come¸ca com a aplica¸c˜ao da t´ecnica motif matching para gerar os resultados necess´arios
para forma¸c˜ao do gold standard (Se¸c˜ao 4.2). Ap´os, ´e realizada a identifica¸c˜ao das regi˜oes hi-
persens´ıveis `a DNase I (HS, do Inglˆes DNase I Hypersensitivity Site) e regi˜oes de picos nos
dados de ChIP-seq para os TFs (Se¸c˜ao 4.3). As regi˜oes enriquecidas nos dados de ChIP-seq
tamb´em s˜ao necess´arias para a cria¸c˜ao do gold standard. Depois, os sinais epigen´eticos (cro-
matina descondensada e modifica¸c˜oes de histonas) s˜ao processados, gerando a entrada para os
HMMs (Se¸c˜ao 4.4). De posse de tais sinais processados, os HMMs s˜ao constru´ıdos (Se¸c˜ao 4.4),
53
4. METODOLOGIA
treinados e aplicados nas regi˜oes de HS (Se¸c˜ao 4.6). Os resultados da aplica¸c˜ao de tal modelo,
isto ´e, as predi¸c˜oes dos s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao s˜ao avaliados a partir de
um gold standard bastante utilizado na literatura (Se¸c˜ao 4.7). A Figura 4.1 mostra, de forma
esquem´atica, todo o processo experimental. A seguir, todos os procedimentos exibidos nesta
figura ser˜ao descritos.
Figura 4.1: Fases do processo experimental - Esquema que demonstra todas as fases do
processo experimental. Neste diagrama, o experimento foi dividido em Aplica¸c˜ao do Modelo (linhas
vermelhas) e Valida¸c˜ao (linhas verdes). Retˆangulos exibem dados obtidos (amarelos) ou gerados
(azuis) e as setas conectando os retˆangulos representam as fases do experimento.
4.1 Bases de Dados
O ENCODE (do Inglˆes, Encyclopedia of DNA Elements) [Rosenbloom et al., 2011; The EN-
CODE Project Consortium, 2004, 2007, 2011] ´e um projeto que pretende estudar o genoma
funcional nos humanos. Este projeto esta atualmente hospedado no Genome Browser[Kent
et al., 2002]. Esse cons´orcio, com pouco mais do que 5 anos, consiste em um esfor¸co por parte
de v´arios laborat´orios para criar anota¸c˜oes funcionais de forma pangenˆomica. Tais anota¸c˜oes
incluem intera¸c˜oes na cromatina, metila¸c˜ao no DNA, modifica¸c˜oes de histonas, cromatina des-
condensada (digest˜ao de DNase I e FAIRE), perfis de RNA, s´ıtios de liga¸c˜ao de fatores de
transcri¸c˜ao e outros. Atualmente, tais dados est˜ao dispon´ıveis para cerca de 200 linhagens
celulares humanas diferentes. Diversos dados, como ser´a descrito em seguida, foram obtidos
54
4.1. BASES DE DADOS
atrav´es do projeto ENCODE. Todos os dados utilizados neste projeto se referem `a linha celular
de leucemia miel´oide aguda, K562.
A Tabela 4.1 sumariza todas as faixas de dados do Genome Browser utilizadas e exibe os en-
dere¸cos virtuais para o acesso das mesmas. Os endere¸cos virtuais exibidos contˆem informa¸c˜oes
detalhadas sobre os protocolos sob o quais os dados foram gerados, incluindo a forma como
foram realizadas a digest˜ao com DNase I, a imunoprecipita¸c˜ao, o sequenciamento e o alinha-
mento. Al´em disso, esta tabela tamb´em cont´em os reposit´orios onde as PWMs foram obtidas.
Informa¸c˜oes sobre os sinais epigen´eticos, fatores de transcri¸c˜ao e PWMs utilizadas s˜ao exibidas
na Tabela 4.2. Acredita-se que os fatores analisados neste estudo sejam bem representativos,
sendo alguns deles bastante utilizado em estudos do gˆenero [Boyle et al., 2011; Cuellar-Partida
et al., 2012; Pique-Regi et al., 2011]. As modifica¸c˜oes de histonas nas quais o experimento foi
focado possuem forte presen¸ca em regi˜oes de cromatina descondensada. Por este motivo elas
foram escolhidas e ser˜ao chamadas de histonas ativadoras.
Tabela 4.1: Fontes dos dados.
Fonte Tipo URL
Human Genome hg19 genoma completo http://bit.ly/oHXPgq
Duke DNase cromatina descondensada (DNase-seq) http://bit.ly/wOwc8R
Broad Histone modifica¸c˜ao de histona (ChIP-seq) http://bit.ly/xKQLS7
SYDH TFBS TFBS (ChIP-seq) http://bit.ly/A0VxYz
HAIB TFBS TFBS (ChIP-seq) http://bit.ly/zqnhn8
UTA TFBS TFBS (ChIP-seq) http://bit.ly/z9b0o1
Jaspar PWM http://bit.ly/92ebHi
Transfac PWM http://bit.ly/PfTeA1
Uniprobe PWM http://bit.ly/Qn0kT3
Renlab PWM http://bit.ly/RV5c4R
Os sinais epigen´eticos de cromatina descondensada relativos `a digest˜ao com DNase I atrav´es
de DNase-seq foram obtidos no ENCODE na faixa Duke DNase. Nesta faixa est˜ao dispon´ıveis
os fragmentos brutos recuperados pelo m´etodo de DNase-seq, os fragmentos alinhados, o sinal
genˆomico relativo `a aplica¸c˜ao do m´etodo F-seq [Boyle et al., 2008b], o sinal genˆomico relativo `a
simples contagem da sobreposi¸c˜ao dos fragmentos obtidos e as regi˜oes enriquecidas. Para este
projeto, os fragmentos alinhados foram utilizados para gerar os sinais que posteriormente ser-
vir˜ao como entrada para o modelo preditivo e o sinal genˆomico relativo `a aplica¸c˜ao do m´etodo
F-seq foi utilizado para identificar as regi˜oes enriquecidas, isto ´e, as regi˜oes hipersens´ıveis `a
55
4. METODOLOGIA
DNase I. N˜ao foram utilizados, diretamente, o sinal genˆomico relativo `a contagem da sobre-
posi¸c˜ao dos fragmentos e as regi˜oes enriquecidas calculadas pelo pr´oprio ENCODE pelo fato de
a abordagem utilizada nesta faixa ter algumas divergˆencias em rela¸c˜ao estudo com o qual se
pretende comparar o m´etodo proposto.
Tabela 4.2: Sinais epigen´eticos e fatores estudados – Cada fator estudado possui uma trinca
no formato (J,T,R) associado (abaixo do mesmo). Os trˆes n´umeros de cada trinca representam,
respectivamente, o n´umero de PWMs obtidas nos reposit´orios Jaspar, Transfac e Renlab.
Sinais Epigen´eticos DNase H2A.Z H3K4me2 H3K4me3 H3K9ac
ATF3 CEBPB CTCF E2F4 GABP
Fatores (0,1,0) (0,2,0) (1,0,1) (0,2,0) (1,1,0)
(J,T,R) MEF2A P300 REST
(1,0,0) (0,1,0) (1,1,0)
Os sinais epigen´eticos relativos `as modifica¸c˜oes de histonas gerados com ChIP-seq foram
obtidos no ENCODE na faixa Broad Histone, proposta pelo Broad Institute e pelo laborat´orio
Bernstein lab. Nesta faixa est˜ao dispon´ıveis os fragmentos brutos recuperados pelo m´etodo
de ChIP-seq, os fragmentos alinhados e o sinal genˆomico gerado com o programa Scripture
[Guttman et al., 2010]. Novamente, apenas os dados relativos aos fragmentos alinhados foram
utilizados. Tais dados tamb´em servir˜ao de entrada para o modelo preditivo e tamb´em para
calcular as regi˜oes onde o modelo ser´a aplicado (regi˜oes hipersens´ıveis `a DNase I).
Os dados relativos aos TFBSs dos fatores utilizados foram obtidos, no ENCODE, a partir
das faixas SYDH TFBS, HAIB TFBS e UTA TFBS. A primeira faixa representa o cons´orcio
formado pelas universidades de Stanford, Yale, sul da Calif´ornia e Harvard; a segunda ´e provida
pelo Myers Lab do instituto HudsonAlpha de biotecnologia; e a terceira ´e provida pela univer-
sidade do Texas em Austin. Foram obtidos os sinais genˆomicos relacionados `a sobreposi¸c˜ao de
fragmentos alinhados, criado de maneira diferente em cada faixa. A faixa SYDH TFBS utilizou
m´etodos pr´oprios para cria¸c˜ao do sinal genˆomico (descritos no endere¸co eletrˆonico providenci-
ado). A faixa HAIB TFBS utilizou o m´etodo MACS [Zhang et al., 2008] para criar tais sinais.
Finalmente, a faixa UTA TFBS gerou sinais genˆomicos atrav´es do programa F-seq [Boyle et al.,
2008b].
Al´em dos sinais e regi˜oes enriquecidas obtidos no ENCODE, foram obtidas PWMs para
realizar o procedimento de motif matching, em reposit´orios espec´ıficos. Foram obtidos dados
nos reposit´orios Jaspar [Bryne et al., 2008], Transfac [Matys et al., 2006; Wingender et al., 1996],
56
4.2. MOTIF MATCHING
Uniprobe [Newburger & Bulyk, 2009] e um motif de alta qualidade para o insulador CTCF foi
obtido no laborat´orio Renlab [Essien et al., 2009]. O crit´erio m´ınimo para que um motif fosse
considerado ´e que ele tivesse sido criado a partir de um vertebrado. Como pode ser visto na
Tabela 4.2 podem existir mais de uma PWM para cada fator, at´e para cada reposit´orio. Como
cada uma dessas PWMs redundantes foram geradas com um processo espec´ıfico que possui sua
pr´opria qualidade, foi optado por utilizar todos os motifs encontrados para todos os fatores. O
processo de motif matching ´e utilizado, assim como os dados de TFBS com ChIP-seq, apenas
para criar o gold standard.
4.2 Motif Matching
Todas as PWMs obtidas foram utilizadas para realizar motif matching no genoma completo.
Essa t´ecnica produz bit scores que podem ser utilizados para avaliar a qualidade de cada em-
parelhamento. Para permitir uma compara¸c˜ao direta com o modelo pr´evio, foi seguida a sua
metodologia para aceita¸c˜ao de TFBSs obtidos atrav´es desta t´ecnica. Essa metodologia consiste
em descartar todos os emparelhamentos que obtiveram bit scores menores do que o m´ınimo
entre: 70% do maior bit score poss´ıvel (sequˆencia consenso do PWM) e 90% da diferen¸ca entre
o maior e o menor poss´ıvel bit score [Boyle et al., 2011]. Neste trabalho ser´a utilizada a no-
menclatura MPBS (do Inglˆes, Motif Predicted Binding Site), para denotar os TFBSs preditos
atrav´es deste m´etodo.
Para realizar o procedimento de MM, foi utilizado o m´odulo Bio.Motif para an´alise de
motifs da ferramenta Biopython [Cock et al., 2009]. Essa ferramenta utiliza um modelo baseado
em probabilidade de fundo (background) assim como visto na Se¸c˜ao 2.3.3. Esse parˆametro,
que assume um valor real v em escala logar´ıtmica, permite selecionar os emparelhamentos que
ocorreram com probabilidade 2v vezes maior do que o esperado por chance, dadas as frequˆencias
dos nucleot´ıdeos naturais do genoma. Ao utilizar o valor v = 0, foram selecionados todos os
resultados que ocorriam com maior probabilidade do que o esperado por acaso (pois 20 = 1,
portanto todos os valores mais prov´aveis que o fundo s˜ao selecionados). Apenas ap´os essa
filtragem inicial o m´etodo descrito em [Boyle et al., 2011] foi aplicado (em concordˆancia com o
proposto por estes).
4.3 An´alises de Enriquecimento
Para ter acesso `as regi˜oes hipersens´ıveis `a DNase I e regi˜oes de picos nos dados de ChIP-
seq foi realizada uma an´alise estat´ıstica de enriquecimento simples. Tal an´alise foi realizada
nos dados relativos aos sinais genˆomicos de DNase-seq ou ChIP-seq (para os TFs), obtidos a
57
4. METODOLOGIA
partir da aplica¸c˜ao dos m´etodos espec´ıficos para contagem de sinais descrita em cada reposit´orio
avaliado. A an´alise de enriquecimento consistiu no ajuste destes sinais cont´ınuos `a distribui¸c˜oes
Γ, definida nas Equa¸c˜oes 4.1 (distribui¸c˜ao Γ com parˆametros k e θ) e 4.2 (fun¸c˜ao Γ utilizada
na defini¸c˜ao da distribui¸c˜ao).
f(x; k, θ) =
1
θk
1
Γ(k)
xk−1
e−x
θ (4.1)
Γ(n) = (n − 1)! (4.2)
O procedimento de ajuste ´e simples. ´E calculada a m´edia µ e a variˆancia σ2 da amostra, isto
´e, dos sinais epigen´eticos, em todo o genoma. A m´edia e a variˆancia s˜ao ent˜ao utilizadas para
estimar os parˆametros k e θ atrav´es da resolu¸c˜ao de um sistema de equa¸c˜oes com os seguintes
resultados probabil´ısticos: µ = kθ e σ2 = kθ2. Esses parˆametros s˜ao ent˜ao utilizados para
inferir o p-value de corte, para o qual os valores inferiores ser˜ao as regi˜oes n˜ao-enriquecidas e
os valores superiores ser˜ao as regi˜oes enriquecidas. Esta fun¸c˜ao ´e comumente utilizada para
este prop´osito por possuir caracter´ısticas semelhantes `as distribui¸c˜oes reais dos sinais obtidos
atrav´es de m´etodos como DNase-seq e ChIP-seq. A distribui¸c˜ao exponencial tamb´em ´e bastante
utilizada, por´em como a distribui¸c˜ao Γ foi utilizada no estudo com o qual se pretende realizar
as compara¸c˜oes, a ´ultima foi escolhida para reproduzir mais fielmente os resultados.
Baseando-se nos ajustes realizados, foram consideradas como regi˜oes enriquecidas aquelas
que possu´ıram valores maiores ou iguais ao valor correspondente ao p-value de 0.05. ´E impor-
tante constatar que o pr´oprio ENCODE disponibiliza tal an´alise estat´ıstica, por´em tais dados
n˜ao foram utilizados pois a metodologia, de uma forma geral, era diferente. O p-value utili-
zado foi escolhido em conformidade com objetivo de comparar este modelo com o previamente
proposto em [Boyle et al., 2011].
4.4 Processamento dos Sinais Epigen´eticos
A primeira fase do processamento dos sinais dos dados de DNase-seq consiste na contagem das
sobreposi¸c˜oes dos fragmentos alinhados. Neste caso, foi considerado apenas o bp na extremidade
5 dos fragmentos, correspondendo `a posi¸c˜ao exata no qual a enzima DNase I digeriu o DNA.
Tal abordagem gera um sinal de alta resolu¸c˜ao bastante espec´ıfico, capaz de delinear claramente
as prote´ınas ligadas ao DNA.
58
4.4. PROCESSAMENTO DOS SINAIS EPIGEN´ETICOS
Para a gera¸c˜ao dos sinais de contagem bruta para os dados de modifica¸c˜ao de histonas obtidos
atrav´es de ChIP-seq, o mesmo procedimento foi aplicado. Entretanto, como o nucleossomo alvo
pode se encontrar em qualquer posi¸c˜ao do fragmento recuperado atrav´es de ChIP, os fragmentos
foram estendidos at´e o tamanho de 200 bp, que representa a m´edia de tais fragmentos reais (os
fragmentos s˜ao sequenciados apenas nas primeiras 36 bases). A diferen¸ca na resolu¸c˜ao entre os
dois sinais gera padr˜oes espec´ıficos, analisados em mais detalhes na Se¸c˜ao 4.5.
Os dados de cromatina descondensada (DNase-seq) foram normalizados de forma a mini-
mizar a varia¸c˜ao entre o tamanho dos picos ao longo do genoma. Tal normaliza¸c˜ao seguiu o
m´etodo local proposto em [Boyle et al., 2011]. Neste m´etodo, cada sinal (em cada coordenada
genˆomica) ´e dividido pela m´edia de todas as entradas maiores que 0 em uma janela de tamanho
igual a 1 kb ao redor desta coordenada genˆomica. A principal caracter´ıstica desta normaliza¸c˜ao
´e a preserva¸c˜ao das nuances dadas pela alta resolu¸c˜ao do m´etodo DNase-seq. Os dados de ChIP-
seq foram submetidos a uma simples fun¸c˜ao logar´ıtmica, com objetivo de suavizar as curvas ao
longo do genoma. O m´etodo utilizado para os dados de DNase-seq n˜ao foi utilizado para os
sinais de modifica¸c˜oes de histonas, pelo fato de que a intensidade deste sinal ´e importante para
o modelo, enquanto a intensidade do sinal de DNase-seq n˜ao tem grande importˆancia (como
ser´a visto na Se¸c˜ao 4.5).
Os dados de DNase-seq passam por mais uma etapa, com objetivo de extrair as caracter´ısticas
necess´arias para o modelo que ser´a descrito em detalhes na Se¸c˜ao 4.5. Essa etapa consiste em
duas fases. Na primeira, os dados s˜ao suavizados atrav´es do filtro estat´ıstico de Savitzky-
Golay [Gorry, 1990; Leach et al., 1984; Luo et al., 2005; Madden, 1978; Press et al., 1992]. Tal
suaviza¸c˜ao remove ru´ıdos naturais deste sinal epigen´etico. A suaviza¸c˜ao ´e baseada no ajuste dos
sinais normalizados a um polinˆomio de grau 2 atrav´es de uma convolu¸c˜ao com uma janela de
tamanho 8 bp (excluindo o bp central). A segunda etapa consiste na diferencia¸c˜ao deste sinal
epigen´etico, atrav´es da computa¸c˜ao da 1a derivada [Boyle et al., 2011].
Os sinais gerados ap´os a suaviza¸c˜ao e deriva¸c˜ao representam a inclina¸c˜ao (em Inglˆes, slope)
do sinal normalizado. Isto quer dizer que, nos locais onde o sinal normalizado tinha um mo-
vimento crescente, o sinal relativo `a inclina¸c˜ao assumia valores positivos; e nos locais onde o
sinal normalizado tinha um movimento decrescente, o sinal relativo `a inclina¸c˜ao assumia valores
negativos. Al´em disso, quanto mais ´ıngreme a eleva¸c˜ao ou queda do sinal normalizado, maiores
s˜ao os valores da inclina¸c˜ao correspondente (em termos absolutos).
A Figura 4.2 exibe um exemplo do sinal obtido atrav´es de DNase-seq, em todas as fases do
processamento, para um trecho do cromossomo 6. Esta figura foi gerada utilizando o Genome
Browser e cont´em um formato adicional para os dados processados, n˜ao utilizado no processo
experimental: o sinal estendido. Este sinal ´e gerado a partir da extens˜ao dos fragmentos ali-
nhados em 5 bp para a esquerda e para a direita da coordenada onde a enzima DNase I digeriu
o DNA. O objetivo de tal sinal ´e facilitar a visualiza¸c˜ao e a interpreta¸c˜ao dos outros sinais.
59
4. METODOLOGIA
Figura 4.2: Modifica¸c˜ao dos sinais ao longo do processamento - Esquema que exibe os sinais
de DNase-seq em todas as fases do processamento para um trecho do cromossomo 6. Em azul est´a
o sinal estendido (ver descri¸c˜ao no texto), em preto o sinal correspondente `a contagem bruta dos
dados, em vermelho o sinal normalizado e em verde o sinal obtido ap´os a aplica¸c˜ao da suaviza¸c˜ao e
diferencia¸c˜ao atrav´es do m´etodo de Savitzky-Golay.
4.5 Footprinting com HMMs
Foi constatado em [Boyle et al., 2011] que um TFBS poderia ser caracterizado atrav´es dos
sinais de cromatina descondensada gerados com DNase-seq como uma deple¸c˜ao de sinal entre
dois picos. Isto se explica pelo fato de que naquela regi˜ao onde a prote´ına estava ligada n˜ao havia
digest˜ao da DNase, por´em nas regi˜oes imediatamente anterior e posterior a clivagem ocorre. Tal
padr˜ao ser´a intitulado pico-vale-pico. O padr˜ao que se deseja reconhecer ´e formado, nos sinais
normalizados, por uma subida e descida (primeiro pico), ent˜ao uma regi˜ao relativamente plana
(vale) e outra subida e descida (segundo pico). Tal padr˜ao ´e facilmente representado atrav´es
dos sinais de inclina¸c˜ao, dado que subidas s˜ao representadas por valores positivos e descidas s˜ao
representadas por valores negativos. Boyle et al. utilizaram essa ideia para construir seu HMM
capaz de predizer TFBSs (Figura 4.3).
Ao serem adicionados os sinais de histonas, um padr˜ao levemente diferente ocorre. Dado que
os sinais gerados atrav´es de ChIP-seq possuem resolu¸c˜ao um pouco menor, uma regi˜ao inteira
de HS (que correspondem `a blocos com v´arios picos agrupados no sinal obtido com DNase-seq)
60
4.5. FOOTPRINTING COM HMMS
HS1 HS2
UP DOWN
FP
Estados HMM
Figura 4.3: HMM que utiliza dados de DNase-seq apenas - Esquema gr´afico do HMM
proposto por Boyle et al. (esquerda) para predizer TFBSs com base apenas em sinais obtidos atrav´es
de DNase-seq. Exemplo dos estados obtidos, em cada coordenada genˆomica, a partir da aplica¸c˜ao
deste modelo em um trecho da regi˜ao promotora do gene FMR1 no cromossomo X (direita). Fonte:
[Boyle et al., 2011]
corresponde a uma regi˜ao de deple¸c˜ao nas histonas ativadoras. Foi observado (ver Se¸c˜ao 5.1)
que o sinal das modifica¸c˜oes de histona ativadores constituem outro padr˜ao de pico-vale-pico,
por´em em um n´ıvel mais alto do que o padr˜ao gerado por cromatina descondensada. Dois picos
de histonas ativadoras (sinais intensos) delimitam regi˜oes de HS, que por sua vez possuem v´arios
padr˜oes pico-vale-pico correspondentes aos s´ıtios de liga¸c˜ao.
Realizada esta discuss˜ao sobre as caracter´ısticas dos sinais epigen´eticos, pode-se definir a
estrutura do novo HMM proposto. Tal modelo deve ser capaz de reconhecer tal padr˜ao formado
por, simultaneamente, um sinal de cromatina descondensada e um sinal de histona (isto ´e, um
modelo bivariado). O modelo possui um estado para sinais de fundo (background – BACK),
que correspondem aos sinais baixos para ambas cromatina descondensada e modifica¸c˜ao de
histona, geralmente no in´ıcio ou fim das regi˜oes onde os modelos foram aplicados. Ao encontrar
valores significativamente altos de modifica¸c˜ao de histonas (primeiro pico), o modelo procede
para o estado High Histone (HH). Ent˜ao esse valor ir´a reduzir um pouco entrando na regi˜ao
de HS. Nesta regi˜ao o modelo ir´a variar entre os estados de crescimento de sinal de cromatina
descondensada (UP), decrescimento deste sinal (DOWN ) e regi˜oes de vale (Footprint – FP).
Esta ´ultima regi˜ao corresponde aos s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. Ap´os a regi˜ao
de HS, o m´etodo poder´a: (1) retornar para o estado HH, caso o segundo pico exista (ou, mais
comumente, existirem v´arias regi˜oes de HS na regi˜ao sendo analisada, delimitadas por v´arios
picos de modifica¸c˜oes de histonas); (2) retornar para o estado BACK, quando os sinais de histona
forem demasiadamente baixos ou n˜ao existirem mais regi˜oes de HS. A Figura 4.4 demonstra
o HMM criado (lado esquerdo) e o explica atrav´es de um gr´afico com os sinais de digest˜ao de
61
4. METODOLOGIA
DNase e a histona variante H2A.Z (lado direito).
-500 -250 0 + 250 + 500
0
5
10
15
20
25
30
IntensidadedosSinais
DNase H2A.Z
Estados
do HMM
BACK
HH
UP DOWN
FP
Figura 4.4: Modelagem do HMM e exemplo de aplica¸c˜ao - HMM utilizado neste estudo
(esquerda) contendo 5 estados. O estado BACK (azul claro) representa as regi˜oes de pequena
intensidade de sinais. O estado HH (azul escuro) representa as regi˜oes de alta intensidade de histonas
modificadas. O estado UP (verde) e DOWN (vermelho) representam, respectivamente, as regi˜oes
onde os sinais de digest˜ao de DNase I crescem e decrescem. E o estado FP (amarelo) representa
as regi˜oes de vale que correspondem aos TFBSs (ou footprints). O gr´afico (direita) corresponde `a
m´edia dos sinais (para a digest˜ao de DNase I e a histona variante H2A.Z) obtidos em 100 regi˜oes
de tamanho 1000 centralizadas nos 100 MPBSs com maior bit score. O mapa de cores abaixo do
gr´afico mostra os estados do HMM correspondentes `a cada posi¸c˜ao, baseado nas cores dos estados
da figura do HMM.
4.6 Estima¸c˜ao de Parˆametros e Aplica¸c˜ao dos HMMs
Este HMM foi treinado, isto ´e, seus parˆametros foram estimados, utilizando duas abordagens. A
primeira, intitulada FMR1 consiste na forma proposta em [Boyle et al., 2011]. Esta estrat´egia ´e
baseada, inicialmente, em regi˜oes biologicamente validadas atrav´es de m´etodos de baixo rendi-
mento como o DNase I Footprinting. A segunda estrat´egia, chamada STAMP foi elaborada com
o intuito de anotar mais regi˜oes inicialmente sem ter que se basear em metodologias biol´ogicas
iniciais.
Na estrat´egia FMR1, primeiramente deve ser obtida uma regi˜ao onde TFBSs foram expe-
rimentalmente validados atrav´es de algum m´etodo de alta acur´acia. No caso, foi utilizado o
resultado de um experimento de DNase I Footprinting tradicional da regi˜ao promotora do gene
62
4.6. ESTIMAC¸ ˜AO DE PARˆAMETROS E APLICAC¸ ˜AO DOS HMMS
FMR1 (Fragile X Mental Retardation 1) no cromossomo X [Drouin et al., 1997]. Essa regi˜ao ´e
anotada manualmente, isto ´e, para cada coordenada genˆomica, ´e atribu´ıdo um estado do HMM
com base nos TFBSs comprovados. Posteriormente, a anota¸c˜ao ´e utilizada para estimar os
parˆametros de um primeiro modelo, atrav´es da t´ecnica de m´axima verossimilhan¸ca (Se¸c˜ao 3.3).
Este primeiro modelo ´e ent˜ao utilizado para anotar automaticamente uma regi˜ao maior. No
caso, as 1000 regi˜oes de HS do cromossomo 6 que possuem maior evidˆencia de enriquecimento
foram utilizadas [Boyle et al., 2011]. Com base nesta anota¸c˜ao mais abrangente, o modelo final
´e criado novamente atrav´es de m´axima verossimilhan¸ca.
A segunda abordagem de treinamento, intitulada STAMP, consiste em um novo m´etodo
proposto. A motiva¸c˜ao da cria¸c˜ao deste novo m´etodo ´e que, dessa forma, mais regi˜oes poder˜ao
ser inicialmente anotadas sem a necessidade de realizar m´etodos biol´ogicos a priori ou procurar
na literatura por regi˜oes que coincidam com trechos onde o treinamento ´e interessante. Este
m´etodo utiliza a ferramenta STAMP [Mahony & Benos, 2007], que consiste em uma t´ecnica para
se realizar motif matching em cadeias de nucleot´ıdeos com base em um reposit´orio contendo
diversas PWMs (e n˜ao apenas uma PWM).
Em detalhes, o m´etodo STAMP ´e aplicado nas regi˜oes iniciais que ser˜ao utilizadas para
se realizar a anota¸c˜ao (geralmente, locais onde existem sinais para todas as caracter´ısticas
epigen´eticas em quest˜ao, e possuem bom n´ıvel de enriquecimento de DNase I). O algoritmo
realiza um motif matching mais elaborado na regi˜ao em quest˜ao, utilizando cada uma das PWMs
em cada reposit´orio utilizado. Neste caso, foram utilizados os reposit´orios completos do Jaspar,
Transfac (p´ublico), Uniprobe e o motif CTCF do Renlab. Os resultados s˜ao listas contendo
probabilidades de afinidade de liga¸c˜ao de cada fator nesta regi˜ao. Conforme proposto [Boyle
et al., 2011; Mahony & Benos, 2007], foram consideradas como significativos os emparelhamentos
que obtiveram afinidade de liga¸c˜ao menor ou igual `a 10−6. Tais resultados correspondem a um
conjunto de TFBSs de alta qualidade, suficiente para realizar as anota¸c˜oes iniciais.
A metodologia completa consiste em: a partir dos resultados desta t´ecnica aplicada nas 10
melhores regi˜oes de HS do cromossomo 6 (utilizado apenas em conformidade com a metodologia
pr´evia) que possuem maior evidˆencia de enriquecimento, tais regi˜oes s˜ao manualmente anotadas
de forma idˆentica `a realizada no treinamento FMR1. Tais anota¸c˜oes s˜ao ent˜ao utilizadas para
gerar o modelo final atrav´es de m´axima verossimilhan¸ca. Uma segunda rodada de anota¸c˜ao e
treinamento, como no treinamento FMR1, n˜ao foi realizada por verificar que os parˆametros j´a
eram bastante robustos.
Os modelos treinados s˜ao aplicados nas regi˜oes de HS identificadas da forma descrita na
Se¸c˜ao 4.3. Tais regi˜oes n˜ao s˜ao regi˜oes de HS no sentido biol´ogico literal, mas regi˜oes onde
observou-se um enriquecimento na atividade de digest˜ao de DNase I. Se torna claro, ent˜ao, a
raz˜ao de ter escolhido um p-value de enriquecimento relativamente alto (0.05). Dessa forma as
63
4. METODOLOGIA
regi˜oes s˜ao um pouco mais largas do que regi˜oes de HS literais, permitindo que os padr˜oes (prin-
cipalmente os das histonas, que s˜ao mais largos) sejam completamente inclu´ıdos nas mesmas.
A implementa¸c˜ao dos HMMs foi realizada utilizando o pacote em Python da General Hidden
Markov Model Library (GHMM) [Schliep et al., 2004]. A probabilidade posterior foi utilizada em
todos os casos para aferir a sequˆencia de estados escondidos. Os TFBSs preditos correspondem
`as coordenadas genˆomicas onde a probabilidade posterior do estado FP foi maior do que a
dos demais estados (ver Se¸c˜ao 3.2.2). Tal regi˜ao foi estendida em 3 bp para a esquerda e para
a direita para tornar as predi¸c˜oes mais robustas e facilitar a visualiza¸c˜ao pelos m´etodos de
valida¸c˜ao.
4.7 Gold Standard
O gold standard utilizado neste projeto foi baseado em uma abordagem bastante utilizada na
literatura [Boyle et al., 2011; Cuellar-Partida et al., 2012; Pique-Regi et al., 2011]. Ele consiste
em um conjunto contendo TFBSs considerados verdadeiros e falsos, criado a partir das MPBSs
em conjunto com os dados de ChIP-seq para os fatores de transcri¸c˜ao. TFBSs verdadeiros s˜ao
todos os MPBSs que se possuem evidˆencia de ChIP-seq e TFBSs falsos s˜ao aqueles que n˜ao
possuem tal evidˆencia. A evidˆencia se apresenta quando pelo menos 1 bp do MPBS apresenta
sobreposi¸c˜ao com as regi˜oes enriquecidas nos dados de ChIP-seq. Essas regi˜oes enriquecidas
foram avaliadas como descrito na Se¸c˜ao 4.3.
Ap´os a identifica¸c˜ao dos TFBSs verdadeiros e falsos para cada fator, uma tabela de con-
tingˆencia pode ser criada atrav´es da considera¸c˜ao das predi¸c˜oes (ou footprints) realizadas. Os
verdadeiros positivos (TP) s˜ao os verdadeiros TFBSs que possuem sobreposi¸c˜ao com algum
footprint; os falsos negativos (FN ) s˜ao os verdadeiros TFBSs que n˜ao possuem footprint as-
sociado; os verdadeiros negativos (TN ) s˜ao falsos TFBSs que n˜ao possuem sobreposi¸c˜ao com
algum footprint; e falsos positivos (FP) s˜ao falsos TFBSs que possuem footprint associado. No-
vamente, a m´ınima sobreposi¸c˜ao de 1 bp j´a ´e v´alida. A partir desta tabela de contingˆencia, ´e
poss´ıvel calcular as estat´ısticas utilizadas para avaliar o modelo, apresentadas na Tabela.
O modelo proposto foi comparado apenas com a abordagem pr´evia em [Boyle et al., 2011]. O
modelo n˜ao foi comparado `a abordagem CENTIPEDE descrita em [Pique-Regi et al., 2011] e a
abordagem Bayesiana detalhada em [Cuellar-Partida et al., 2012] pelo fato de que o conjunto de
valida¸c˜ao utilizado por eles diferia da proposta do Boyle et al. Primeiramente, em Pique-Regi et
al. e Cuellar et al. os TFBSs verdadeiros s˜ao aqueles MPBSs que contˆem evidˆencia de ChIP-seq
(assim como em Boyle et al.), por´em os TFBSs falsos consistem nos MPBSs que se sobrep˜oem
em regi˜oes com uma quantidade de fragmentos de ChIP-seq sobrepostos menor ou igual ao
experimento controle para esta linhagem celular (tamb´em dispon´ıvel no ENCODE). Apontamos
64
4.8. CONSIDERAC¸ ˜OES FINAIS
ent˜ao o fato de que essa abordagem faz com que apenas um subconjunto das instˆancias negativas
estejam sendo consideradas. Al´em disso, as instˆancias negativas consideradas s˜ao apenas aquelas
que possuem n´ıveis muito baixos de evidˆencia de ChIP-seq, isto ´e, s˜ao as instˆancias negativas
mais f´aceis de serem classificadas corretamente. Al´em disso, ao comparar os resultados de
sensibilidade vs. taxa de falsos positivos (curva ROC), esses MPBSs que n˜ao foram considerados
verdadeiros TFBSs nem falsos TFBSs, foram descartados sobre a premissa de que o gold standard
estaria contaminado com instˆancias na fronteira de classifica¸c˜ao. A mesma observa¸c˜ao anterior,
a respeito de isto representar um problema mais f´acil do ponto de vista de aprendizado de
m´aquina, se aplica a este argumento.
4.8 Considera¸c˜oes Finais
Neste cap´ıtulo foram descritos em detalhes os procedimentos realizados neste trabalho. Em
resumo, foram descritos os procedimentos de obten¸c˜ao dos dados, o motif matching, a an´alise
de enriquecimento dos sinais obtidos atrav´es de DNase-seq e ChIP-seq para os fatores de trans-
cri¸c˜ao, o processamento dos sinais de DNase-seq e de ChIP-seq para as modifica¸c˜oes de histonas,
a modelagem, treinamento e aplica¸c˜ao dos HMMs multivariados, e a forma de valida¸c˜ao utili-
zada para comparar o novo modelo proposto ao modelo pr´evio. Finalmente, tal modelo pr´evio
tamb´em foi replicado, para que os resultados entre os dois fosse comparado dadas as ferramentas
utilizadas neste projeto.
65
5
Resultados e Discuss˜ao
Neste cap´ıtulo ser˜ao mostrados os resultados referentes `a aplica¸c˜ao do m´etodo proposto. Tais
resultados ser˜ao exibidos no formato de: (1) gr´aficos de sinais epigen´eticos, que mostram padr˜oes
m´edios ao redor de regi˜oes de interesse; (2) tabelas, com as estat´ısticas representando a acur´acia
de modelos, isto ´e, a eficiˆencia preditiva dos sinais. Al´em disso ser˜ao exibidos dados a respeito
do tempo computacional e capacidade de armazenamento necess´ario para a realiza¸c˜ao dos ex-
perimentos.
Tais resultados apresentados tamb´em ser˜ao discutidos, sob a ´otica das considera¸c˜oes feitas
durante a apresenta¸c˜ao da fundamenta¸c˜ao te´orica biol´ogica e computacional. Ser˜ao realizadas
observa¸c˜oes a respeito de: (1) an´alises realizadas envolvendo os sinais epigen´eticos presentes
nas regi˜oes de interesse; (2) an´alises envolvendo os estados do HMM nas regi˜oes de interesse;
(3) acur´acia dos modelos. Ser˜ao discutidos tamb´em alguns exemplos da aplica¸c˜ao dos modelos
propostos, mostrando as ocasi˜oes em que o modelo funcionou conforme previsto e as melhorias
que ainda precisam ser realizadas.
A apresenta¸c˜ao dos resultados foi dividida em duas partes. Na primeira, ´e realizada uma
an´alise mais profunda das caracter´ısticas que os sinais epigen´eticos possuem em certas regi˜oes de
interesse (Se¸c˜ao 5.1). Essa foi a primeira an´alise realizada neste trabalho e teve como objetivo
o entendimento do comportamento dos sinais epigen´eticos que seriam utilizados posteriormente
no modelo probabil´ıstico. Na segunda parte, os resultados da aplica¸c˜ao do HMM descrito na
Se¸c˜ao 4.5 ser˜ao exibidos (Se¸c˜ao 5.2). S˜ao exibidos resultados tanto para o HMM proposto quanto
para o HMM segundo a abordagem anterior.
Conforme mencionado anteriormente, foram investigados os padr˜oes epigen´eticos relativos
`a digest˜ao de DNase I (nomeado DNase), `a histona variante H2A.Z e `as histonas ativadoras
H3K4me2, H3K4me3 e H3K9ac. Esse conjunto de caracter´ısticas epigen´eticas foi utilizado pelo
fato de que ele marca, de forma eficaz, regi˜oes de cromatina descondensada (ver Se¸c˜ao 2.4.1).
66
5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS
Em rela¸c˜ao aos fatores de transcri¸c˜ao (e aos seus respectivos motifs), a an´alise dos sinais epi-
gen´eticos m´edios foi realizada em todos os fatores presentes na Tabela 4.2. A acur´acia do modelo,
entretanto, foi acessada apenas para um conjunto representativo destes, a saber, ATF3 (com
PWM obtida no Transfac), CTCF (com motifs do Jaspar e Renlab), GABP (PWMs do Jaspar e
Transfac) e REST (com motifs do Jaspar e Transfac). Os fatores CTCF, GABP e REST foram
escolhidos por terem sido tamb´em utilizados em [Boyle et al., 2011]. O fator REST, em especial,
foi utilizado como forma de avaliar fatores que possuem baixos n´ıveis de marcas epigen´eticas.
O fator ATF3 foi escolhido pois observou-se que este fator possui a maior raz˜ao entre instˆancias
negativas e instˆancias positivas (ver Tabela ??), tendo sido este caso o mais desafiador para a
nova abordagem proposta (ver discuss˜ao realizada na Se¸c˜ao 5.2).
5.1 An´alise dos Sinais Epigen´eticos
Ser˜ao realizados trˆes tipos diferentes de an´alises nesta se¸c˜ao. A primeira an´alise consiste na
investiga¸c˜ao do comportamento dos sinais ao redor de regi˜oes de MPBSs. O objetivo disto ´e
a apresenta¸c˜ao dos sinais epigen´eticos para que o leitor se familiarize com os padr˜oes observa-
dos. A segunda an´alise corresponde `a investiga¸c˜ao destes sinais em regi˜oes de MPBSs com e
sem evidˆencia de ChIP-seq, com objetivo de mostrar a capacidade de separa¸c˜ao de cada sinal
epigen´etico, em diferentes fatores de transcri¸c˜ao, com base nas defini¸c˜oes do gold standard. Fi-
nalmente, a terceira an´alise engloba MPBSs, evidˆencia de ChIP-seq, e predi¸c˜oes realizadas com
o modelo previamente proposto, com objetivo de entender os pontos positivos e negativos deste
modelo baseado em DNase apenas.
A primeira an´alise consiste na visualiza¸c˜ao dos sinais epigen´eticos ao redor dos 100 MPBSs
com maior bit score (Figura 5.1). Cada regi˜ao analisada consiste na extens˜ao de 500 bp para a
esquerda e direita do local onde a PWM foi identificada no genoma. Para cada sinal, ´e mostrado
um gr´afico de cores (parte superior) onde as linhas correspondem `as regi˜oes analisadas e as
colunas correspondem `as coordenadas genˆomicas. A intensidade de cada ponto neste gr´afico
corresponde `a intensidade do respectivo sinal epigen´etico (low = baixa intensidade e high =
alta intensidade, nas escalas de cores). Al´em do gr´afico de cores, existe um gr´afico de linha
(parte inferior) correspondente `a m´edia do sinal ao longo de toda a extens˜ao analisada, para
cada regi˜ao. Nesta an´alise, cujo objetivo ´e apenas apresentar as caracter´ısticas epigen´eticas
usuais, s˜ao apresentados os resultados apenas o fator CTCF com motif obtido no reposit´orio
Jaspar.
Atrav´es da an´alise da Figura 5.1 ´e poss´ıvel constatar claramente os padr˜oes de deple¸c˜ao de
DNase e de modifica¸c˜oes de histonas nas regi˜oes com alta afinidade de liga¸c˜ao para o motif
CTCF. A alta resolu¸c˜ao do sinal de digest˜ao de DNase I faz com que a deple¸c˜ao seja bastante
espec´ıfica, em m´edia, delineando os fatores de transcri¸c˜ao de forma precisa. A adi¸c˜ao de tais
67
5. RESULTADOS E DISCUSS˜AO
DNase H2A.Z H3K4me2
H3K4me3 H3K9ac
Figura 5.1: An´alise das melhores regi˜oes de MPBS para o CTCF - An´alise dos sinais
epigen´eticos nas 100 regi˜oes com maior bit score.
dados d˜ao ao modelo uma capacidade maior para realizar a principal tarefa proposta: a de
identificar de forma precisa os TFBSs. Com resolu¸c˜ao um pouco mais baixa, os sinais das
histonas (obtidos atrav´es de ChIP-seq) possuem, em m´edia, deple¸c˜oes mais abrangentes, que
geralmente englobam ´areas inteiras de HS (isto ´e, diversos picos e deple¸c˜oes de DNase).
A segunda an´alise consiste na visualiza¸c˜ao, para cada fator de transcri¸c˜ao, dos sinais epi-
gen´eticos ao redor das 100 regi˜oes de MPBSs com maiores bit score que possuem evidˆencia
de ChIP-seq e das 100 regi˜oes de MPBSs com maiores bit score que n˜ao possuem evidˆencia
de ChIP-seq (Figuras 5.2 e 5.3). Cada regi˜ao analisada consiste na extens˜ao de 500 bp para
a esquerda e para a direita do local onde o motif foi identificado no genoma. Na figura, s˜ao
exibidos gr´aficos de linha contendo a m´edia dos sinais para todas estas regi˜oes sobre toda a
extens˜ao analisada. A linha verde corresponde aos MPBSs sem evidˆencia de ChIP-seq e a linha
vermelha corresponde aos MPBSs com evidˆencia de ChIP-seq.
Todos os fatores analisados s˜ao mostrados neste caso, para todos os sinais epigen´eticos. Os
r´otulos dos fatores est˜ao no formato NOME XN, onde NOME corresponde ao nome do fator,
68
5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS
X corresponde `a inicial do reposit´orio onde tal fator foi obtido e N corresponde ao n´umero
do motif, em ordem de entrada no reposit´orio, deste fator (como mencionado anteriormente,
alguns fatores possuem mais de um PWM por reposit´orio). Caso existam menos de 10 sinais
(do m´aximo de 100) para qualquer categoria descrita (com evidˆencia ChIP e sem evidˆencia
ChIP), a curva correspondente a esta categoria n˜ao ´e exibida, para que problemas relativos `a
computa¸c˜ao da m´edia de poucas regi˜oes n˜ao enviesasse a visualiza¸c˜ao. Esse caso ocorreu apenas
para o fator REST com motif obtido no reposit´orio Transfac.
O objetivo deste gr´afico, que junta informa¸c˜ao de MPBSs com enriquecimento de ChIP-seq, ´e
visualizar os padr˜oes epigen´eticos com base no que foi considerado o gold standard deste projeto.
A partir de tal visualiza¸c˜ao, ´e poss´ıvel observar o comportamento dos sinais epigen´eticos em
regi˜oes onde se deseja que o modelo reconhe¸ca como TFBS e em regi˜oes onde se deseja que o
modelo n˜ao considere um TFBS.
Os gr´aficos presentes na Figura 5.2 mostram os principais argumentos em favor da utiliza¸c˜ao
de dados epigen´eticos. Observa-se com clareza, neste gr´afico, a diferen¸ca de intensidade e
formato dos picos/vales entre regi˜oes de MPBSs com evidˆencia de ChIP-seq e sem tal evidˆencia.
´E importante ressaltar que tal diferen¸ca ocorre mesmo tendo sido consideradas as melhores
regi˜oes sem evidˆencia de ChIP-seq, isto ´e, as regi˜oes que possuem maiores bit score. Os fatores
ATF3, CTCF e GABP possuem padr˜oes de deple¸c˜ao (pico-vale-pico) bem delineados, enquanto
o fator E2F4 possui deple¸c˜oes mais suaves tanto para os dados de DNase-seq quanto para obtidos
com ChIP-seq.
O contraste das curvas entre as regi˜oes enriquecidas e n˜ao enriquecidas, observado nestes
gr´aficos, variou bastante. O GABP (ativador) possui contrastes enormes, tendo as regi˜oes n˜ao
enriquecidas de ChIP-seq praticamente nenhuma deple¸c˜ao vis´ıvel em m´edia. O ativador E2F4
tamb´em apresentou contrastes semelhantes ao do fator GABP, por´em nesse caso o sinal m´edio
relativo `as regi˜oes com evidˆencia de ChIP-seq possuiu deple¸c˜oes menos acentuadas em rela¸c˜ao ao
GABP. Os ativadores, em geral, possu´ıam n´ıveis mais altos de histonas consideradas ativadoras,
enquanto o n´ıvel de DNase geralmente n˜ao variou de forma t˜ao abrupta. Os fatores ATF3 e
CTCF est˜ao em leve discordˆancia com esse fato, apresentando deple¸c˜oes suaves (por´em vis´ıveis)
at´e em regi˜oes sem evidˆencia de ChIP-seq.
Por outro lado, os gr´aficos presentes na Figura 5.3 mostram sinais epigen´eticos com padr˜oes
mais fracos e destoantes dos exibidos na Figura 5.2. O fator CEBPB possuiu os sinais mais fracos
entre todos os fatores analisados, por´em ainda assim ´e poss´ıvel verificar diferen¸cas na intensidade
dos sinais epigen´eticos, em especial nas modifica¸c˜oes de histonas. Apesar de possu´ırem altos
n´ıveis de presen¸ca dos sinais epigen´eticos, os fatores MEF2A e P300 diferem dos fatores da
figura anterior pelo fato de que a deple¸c˜ao ´e bem menos caracterizada, em especial para o sinal
de DNase. Finalmente, para o silenciador REST, foram observados padr˜oes claros em rela¸c˜ao `a
DNase, por´em pouca evidˆencia das histonas ativadoras.
69
5. RESULTADOS E DISCUSS˜AO
Sem evidência ChIP Com evidência ChIP
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
ATF3_t1
DNase
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
H3K4me3
-500 -250 MID + 250
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
CEBPB_t1
-500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
CEBPB_t2
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
CTCF_j1
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CTCF_r1
res_0T res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
H3K4me3
-500 -250 MID + 250
0
20
40
60
80
100
120
140
H3K9ac
+ 250 -500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
+ 250 -500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
+ 250
res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0.000
0.005
C
-500 -250 MID + 250
1.5
2.0
-500 -250 MID + 250
1.0
-500 -250 MID + 250
0.5
1.0
-500 -250 MID + 250
1.0
-500 -250 MID + 250
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
CEBPB_t2
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
CTCF_j1
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CTCF_r1
res_0T res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
+ 250 -500 -250 MID + 250
1.5
-500 -250 MID + 250
1.0
-500 -250 MID + 250
0.5
-500 -250 MID + 250
1.0
-500 -250 MID
1.0
+ 250 -500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
+ 250
res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CTCF_r1
DNase
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
H2A.Z
-500 -250 MID + 250
2
3
4
5
6
7
8
9
H3K4me1
-500 -250 MID + 250
2
4
6
8
10
12
14
H3K4me2
-500 -250 MID + 250
2
3
4
5
6
7
8
9
H3K4me3
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
E2F4_t1
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
3
4
5
6
7
8
9
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
E2F4_t2
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0.00
0.05
0.10
0.15
0.20
0.25
EGR1_j1
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
1
2
3
4
5
6
7
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0.00
0.05
0.10
0.15
0.20
EGR1_t1
res 0T res 1T
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
1
2
3
4
5
6
7
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
H2A.Z
-500 -250 MID + 250
2
3
4
5
6
7
8
9
H3K4me1
-500 -250 MID + 250
2
4
6
8
10
12
14
H3K4me2
-500 -250 MID + 250
2
3
4
5
6
7
8
9
H3K4me3
-500 -250 MID + 250
2
3
4
5
6
7
8
9
10
H3K9ac
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
3
4
5
6
7
8
9
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
20
40
60
80
100
120
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
20
40
60
80
100
+ 250 -500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
1
2
3
4
5
6
7
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
+ 250
res 1T
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
1
2
3
4
5
6
7
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
EGR1_u1
DNase
-500 -250 MID + 250
0
5
10
15
20
25
30
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
8
H3K4me1
-500 -250 MID + 250
0
5
10
15
20
25
30
35
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me3
-500 -250 MID + 250
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
ELF1_t1
-500 -250 MID + 250
0
5
10
15
20
25
30
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
5
10
15
20
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
GABP_j1
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
2
3
4
5
6
7
8
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
GABP_t1
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
0.7 50 8 60 60
+ 250 -500 -250 MID + 250
0
5
10
15
20
25
30
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
8
H3K4me1
-500 -250 MID + 250
0
5
10
15
20
25
30
35
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me3
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H3K9ac
+ 250 -500 -250 MID + 250
0
5
10
15
20
25
30
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
5
10
15
20
-500 -250 MID + 250
0
5
10
15
20
25
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
2
3
4
5
6
7
8
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
20
40
60
80
100
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
50 8 60 60 80
Figura 5.2: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.1 - An´alise dos sinais
epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem ou n˜ao possuem evidˆencia
de ChIP-seq. S˜ao analisadas regi˜oes de 1000 bp, sendo necess´arias pelo menos 10 regi˜oes para cada
categoria, para que o sinal seja exibido (evitando vieses estat´ısticos). Nesta figura, s˜ao exibidos
os fatores de transcri¸c˜ao que apresentaram os sinais epigen´eticos mais delineados dentre os fatores
estudados.
70
5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS
Sem evidência ChIP Com evidência ChIP
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
ATF3_t1
DNase
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
H3K4me3
-500 -250 MID + 250
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
CEBPB_t1
-500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
CEBPB_t2
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
CTCF_j1
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CTCF_r1
res_0T res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
H3K4me3
-500 -250 MID + 250
0
20
40
60
80
100
120
140
H3K9ac
+ 250 -500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
+ 250 -500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
+ 250
res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
MAX_t5
DNase
-500 -250 MID + 250
5
10
15
20
25
30
35
40
45
50
H2A.Z
-500 -250 MID + 250
2
4
6
8
10
12
14
H3K4me1
-500 -250 MID + 250
10
15
20
25
30
35
40
45
50
55
H3K4me2
-500 -250 MID + 250
5
10
15
20
25
30
35
40
45
50
H3K4me3
-500 -250 MID + 250
0.00
0.05
0.10
0.15
0.20
0.25
0.30
MEF2A_j1
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
MEF2A_t1
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
MEF2A_t2
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0.00
0.02
0.04
0.06
0.08
0.10
0.12
MEF2A_t3
res_0T res_1T
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
+ 250 -500 -250 MID + 250
5
10
15
20
25
30
35
40
45
50
H2A.Z
-500 -250 MID + 250
2
4
6
8
10
12
14
H3K4me1
-500 -250 MID + 250
10
15
20
25
30
35
40
45
50
55
H3K4me2
-500 -250 MID + 250
5
10
15
20
25
30
35
40
45
50
H3K4me3
-500 -250 MID + 250
10
20
30
40
50
60
70
80
90
H3K9ac
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
5
10
15
20
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
+ 250
res_1T
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0.0
0.2
-500 -250 MID + 250
0
10
-500 -250 MID + 250
1
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
CEBPB_t1
-500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
CEBPB_t2
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
CTCF_j1
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CTCF_r1
res_0T res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
+ 250 -500 -250 MID + 250
0
10
-500 -250 MID + 250
1
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0
20
+ 250 -500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
+ 250 -500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-500 -250 MID + 250
0.5
1.0
1.5
2.0
-500 -250 MID + 250
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
+ 250
res_1T
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
4
6
8
10
12
14
-500 -250 MID + 250
2
3
4
5
6
7
8
9
-500 -250 MID + 250
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
P300_t1
DNase
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H3K4me3
-500 -250 MID + 250
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
PU1_t1
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
REST_j1
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
0 6
0.7 3.2 2.8 4.0
3.2
3.4
+ 250 -500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H3K4me3
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K9ac
+ 250 -500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
+ 250 -500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
-500 -250 MID + 250
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
3.2 2.8 4.0
3.2
3.4 2.4
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
P300_t1
DNase
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H3K4me3
-500 -250 MID + 250
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
PU1_t1
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
REST_j1
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
REST_t1
-500 -250 MID + 250
2.0
2.2
2.4
2.6
2.8
3.0
3.2
-500 -250 MID + 250
1.6
1.8
2.0
2.2
2.4
2.6
2.8
-500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.8
2.0
2.2
2.4
2.6
2.8
3.0
3.2
3.4
1.2 50
8
9 60 50
+ 250 -500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H3K4me3
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K9ac
+ 250 -500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
+ 250 -500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
-500 -250 MID + 250
1.0
1.5
2.0
-500 -250 MID + 250
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
+ 250 -500 -250 MID + 250
2.0
2.2
2.4
2.6
2.8
3.0
3.2
-500 -250 MID + 250
1.6
1.8
2.0
2.2
2.4
2.6
2.8
-500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
-500 -250 MID + 250
1.8
2.0
2.2
2.4
2.6
2.8
3.0
3.2
3.4
-500 -250 MID + 250
1.4
1.6
1.8
2.0
2.2
2.4
50
8
9 60 50
70
80
Figura 5.3: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.2 - An´alise dos sinais
epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem ou n˜ao possuem evidˆencia
de ChIP-seq. S˜ao analisadas regi˜oes de 1000 bp, sendo necess´arias pelo menos 10 regi˜oes para cada
categoria, para que o sinal seja exibido (evitando vieses estat´ısticos). Nesta figura, s˜ao exibidos
os fatores de transcri¸c˜ao que apresentaram os sinais epigen´eticos menos claros dentre os fatores
estudados.
71
5. RESULTADOS E DISCUSS˜AO
Os contrastes nesta segunda figura apresentaram varia¸c˜oes ainda maiores. O fator CEBPB,
apesar dos sinais fracos, apresentou um leve contraste para os sinais relativos `as modifica¸c˜oes de
histonas. Os fatores MEF2A e P300, apesar da deple¸c˜ao suave, possu´ıram altos contrastes entre
as regi˜oes enriquecidas de ChIP-seq e n˜ao enriquecidas. O REST, como notado anteriormente,
possuiu contrastes relevantes em rela¸c˜ao `a DNase, por´em contrastes n˜ao t˜ao precisos em rela¸c˜ao
`as modifica¸c˜oes de histonas.
Al´em da intensidade entre MPBSs com e sem evidˆencia de ChIP-seq e entre fatores de
diferentes tipos, ´e interessante observar o formato em que o gr´afico da m´edia dessas regi˜oes
toma. As modifica¸c˜oes das histonas, para o fator CTCF por exemplo, apresentam picos com
comprimentos (frequˆencia) menores do que os presentes no fator GABP ou E2F4. Para estes,
a primeira subida e ´ultima descida (relativas ao aspecto bimodal dos padr˜oes) n˜ao est˜ao nem
vis´ıveis nesta janela de tamanho 1.000 bp para, por exemplo, as modifica¸c˜oes H3K4me2 e
H3K4me3. Tais padr˜oes n˜ao foram especificamente analisados neste trabalho, por´em podem
representar um interessante estudo futuro, com hip´otese de que o formato dos sinais epigen´eticos
ao redor de regi˜oes enriquecidas de prote´ınas reflete o formato estrutural daquela prote´ına (os
elementos regulat´orios possuem motifs estruturais bem definidos).
A terceira an´alise consiste na visualiza¸c˜ao, para cada TF, dos sinais epigen´eticos ao redor
das 100 regi˜oes de MPBSs com maiores bit score que: (1) n˜ao possuem evidˆencia de ChIP-seq
nem um footprint associado, isto ´e, verdadeiros negativos (linhas de cor verde); (2) n˜ao possuem
evidˆencia de ChIP-seq por´em possuem um footprint associado, isto ´e, falsos positivos (linhas de
cor vermelha); (3) possuem evidˆencia de ChIP-seq por´em n˜ao possuem footprint associado, isto
´e, falsos negativos (linhas de cor azul); (4) possuem evidˆencia de ChIP-seq e footprint, isto ´e,
verdadeiros positivos (linhas de cor amarela) (Figuras 5.4 e 5.5). Nestas figuras, s˜ao exibidos
gr´aficos de linha contendo a m´edia dos sinais para todas estas regi˜oes sobre toda a extens˜ao
analisada.
Os r´otulos dos fatores seguiram a mesma descri¸c˜ao dada para as Figuras 5.2 e 5.3. Caso
existam menos de 10 sinais (do m´aximo de 100) para qualquer categoria descrita, a curva
correspondente a esta categoria n˜ao ´e exibida, para que problemas relativos `a computa¸c˜ao da
m´edia de poucas regi˜oes n˜ao enviesasse a visualiza¸c˜ao. Esse caso ocorreu para os fatores: CTCF
com motif obtido no reposit´orio Jaspar, REST com motifs obtidos nos reposit´orios Jaspar e
Transfac.
O objetivo destes gr´aficos ´e analisar as predi¸c˜oes realizadas pelo modelo anterior, em rela¸c˜ao
aos sinais epigen´eticos que se pretende inserir no modelo proposto. A partir destas an´alises o
conjunto de histonas que seria utilizado no novo modelo foi determinado. Os fins de tal deter-
mina¸c˜ao foram apenas o teste emp´ırico da hip´otese proposta, e n˜ao a asser¸c˜ao determin´ıstica
de quais histonas s˜ao melhores preditoras para cada caso. Um passo na dire¸c˜ao deste tipo de
informa¸c˜ao ser´a dado em estudos futuros.
72
5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
ATF3_t1
DNase
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
0
2
4
6
8
10
12
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me3
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CEBPB_t1
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
CEBPB_t2
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
CTCF_j1
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
CTCF_r1
res_0T_0F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
0
2
4
6
8
10
12
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me3
-500 -250 MID + 250
0
20
40
60
80
100
120
140
H3K9ac
250 -500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
250 -500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
250
F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
-500 -250 MID + 250
0.0
-500 -250 MID + 250
0
-500 -250 MID + 250
0
-500 -250 MID + 250
0
-500 -250 MID + 250
0
5
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
CEBPB_t2
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
CTCF_j1
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
CTCF_r1
res_0T_0F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
250 -500 -250 MID + 250
0
-500 -250 MID + 250
0
-500 -250 MID + 250
0
-500 -250 MID + 250
0
5
-500 -250 MID + 250
0
10
250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
250 -500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
250
F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
CTCF_r1
DNase
-500 -250 MID + 250
0
10
20
30
40
50
H2A.Z
-500 -250 MID + 250
0
2
4
6
8
10
12
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
E2F4_t1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
E2F4_t2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
2
4
6
8
10
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
EGR1_j1
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
EGR1_t1
0T 0F 1T 0F 1T 1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
250 -500 -250 MID + 250
0
10
20
30
40
50
H2A.Z
-500 -250 MID + 250
0
2
4
6
8
10
12
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K9ac
250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
20
40
60
80
100
120
250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
2
4
6
8
10
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
20
40
60
80
100
120
250 -500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
250
F 1T 0F 1T 1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
14
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
EGR1_u1
DNase
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H3K4me3
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
ELF1_t1
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
GABP_j1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
GABP_t1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0
10
20
30
40
50
60
70
1.2 70 14 80 70
250 -500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
H2A.Z
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
H3K4me2
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
H3K4me3
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K9ac
250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0
20
40
60
80
100
120
250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
20
40
60
80
100
120
70 14 80 70 120sem ChIP + sem FP sem ChIP + com FP com ChIP + sem FP com ChIP + com FP
Figura 5.4: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado
Pt. 1 - An´alise dos sinais epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem
ou n˜ao possuem evidˆencia de ChIP-seq e footprint associado. S˜ao analisadas regi˜oes de 1000 bp,
sendo necess´arias pelo menos 10 regi˜oes para cada categoria, para que o sinal seja exibido (evitando
vieses estat´ısticos). Nesta figura, s˜ao exibidos os fatores de transcri¸c˜ao que apresentaram os sinais
epigen´eticos mais delineados dentre os fatores estudados.
73
5. RESULTADOS E DISCUSS˜AO
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
ATF3_t1
DNase
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
0
2
4
6
8
10
12
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me3
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CEBPB_t1
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
CEBPB_t2
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
CTCF_j1
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
CTCF_r1
res_0T_0F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
0
2
4
6
8
10
12
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
H3K4me3
-500 -250 MID + 250
0
20
40
60
80
100
120
140
H3K9ac
250 -500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
250 -500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
250
F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
sem ChIP + sem FP sem ChIP + com FP com ChIP + sem FP com ChIP + com FP
-500 -250 MID + 250
0.0
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
CEBPB_t1
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
CEBPB_t2
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
CTCF_j1
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
CTCF_r1
res_0T_0F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
+ 250 -500 -250 MID + 250
0
10
-500 -250 MID + 250
0
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0
10
-500 -250 MID + 250
0
20
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
+ 250 -500 -250 MID + 250
0
5
10
15
20
25
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
2
4
6
8
10
12
14
+ 250
0F res_0T_1F res_1T_0F res_1T_1F
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
MAX_t5
DNase
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
2
4
6
8
10
12
14
H3K4me1
-500 -250 MID + 250
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0.0
0.5
1.0
1.5
2.0
2.5
MEF2A_j1
-500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
MEF2A_t1
-500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
0
5
10
15
20
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
MEF2A_t2
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0.00
0.02
0.04
0.06
0.08
0.10
MEF2A_t3
res_0T_0F res_1T_0F
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
70
H2A.Z
-500 -250 MID + 250
2
4
6
8
10
12
14
H3K4me1
-500 -250 MID + 250
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0
20
40
60
80
100
120
H3K9ac
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
-500 -250 MID + 250
0
5
10
15
20
25
30
35
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
+ 250 -500 -250 MID + 250
2
4
6
8
10
12
14
16
18
20
-500 -250 MID + 250
0
5
10
15
20
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
-500 -250 MID + 250
0
2
4
6
8
10
12
14
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
5
10
15
20
25
30
35
40
45
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
+ 250
0F res_1T_0F
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0
2
4
6
8
10
12
-500 -250 MID + 250
1
2
3
4
5
6
7
8
9
10
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
P300_t1
DNase
-500 -250 MID + 250
0
10
20
30
40
50
60
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
PU1_t1
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
REST_j1
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0
1
2
3
4
5
6
7
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
1 4
1.6 5.0 4.5 7 4.5
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0
20
40
60
80
100
H3K9ac
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
+ 250 -500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0
1
2
3
4
5
6
7
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
5.0 4.5 7 4.5
2 4
2.6
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
P300_t1
DNase
-500 -250 MID + 250
0
10
20
30
40
50
60
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
PU1_t1
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
REST_j1
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0
1
2
3
4
5
6
7
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
REST_t1
-500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
-500 -250 MID + 250
1
2
3
4
5
6
7
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
1.4 60 20 80 70
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
H2A.Z
-500 -250 MID + 250
0
5
10
15
20
25
30
H3K4me1
-500 -250 MID + 250
0
10
20
30
40
50
60
70
H3K4me2
-500 -250 MID + 250
0
10
20
30
40
50
60
H3K4me3
-500 -250 MID + 250
0
20
40
60
80
100
H3K9ac
+ 250 -500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
2
4
6
8
10
12
14
16
18
-500 -250 MID + 250
0
10
20
30
40
50
60
70
-500 -250 MID + 250
0
10
20
30
40
50
60
-500 -250 MID + 250
0
10
20
30
40
50
60
70
80
90
+ 250 -500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0
1
2
3
4
5
6
7
-500 -250 MID + 250
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
0.5
1.0
1.5
2.0
+ 250 -500 -250 MID + 250
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
-500 -250 MID + 250
1
2
3
4
5
6
7
-500 -250 MID + 250
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
-500 -250 MID + 250
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
60 20 80 70 140
Figura 5.5: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado
Pt. 2 - An´alise dos sinais epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem
ou n˜ao possuem evidˆencia de ChIP-seq e footprint associado. S˜ao analisadas regi˜oes de 1000 bp,
sendo necess´arias pelo menos 10 regi˜oes para cada categoria, para que o sinal seja exibido (evitando
vieses estat´ısticos). Nesta figura, s˜ao exibidos os fatores de transcri¸c˜ao que apresentaram os sinais
epigen´eticos menos claros dentre os fatores estudados.
74
5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS
Atrav´es da observa¸c˜ao dos gr´aficos para o fator ATF3, percebe-se que os sinais de falsos
positivos (vermelho) se confundem com o sinal de verdadeiros positivos (amarelo) para a DNase
e para a histona variante H2A.Z. Por´em, para os outros sinais epigen´eticos parece existir uma
proximidade maior entre os sinais de falsos negativos (azul) e de verdadeiros positivos do que
entre os verdadeiros positivos e falsos positivos, o que faria com que um modelo que utilizasse tais
sinais ganhasse essa informa¸c˜ao adicional. Alguns fatores, como o CEBP e MEF2A, entretanto,
n˜ao possuem evidˆencias interessantes para os sinais com evidˆencia de ChIP e sem footprint
(azul).
Para o fator CTCF, as curvas pareceram bastante consistentes, por´em n˜ao ´e poss´ıvel realizar
inferˆencias a respeito da adi¸c˜ao de histonas no modelo, dado que os sinais de falsos positivos
est˜ao pouco representados. Para o caso do motif obtido no Jaspar, a quantidade de falsos
positivos foi muito pequena, fazendo com que tal sinal fosse exclu´ıdo da an´alise. Para o caso
do motif obtido no Renlab, este sinal parece ter sido sobre-representado. Por´em ´e poss´ıvel
observar a l´ogica recorrente de que os falsos negativos geralmente tˆem sinal mais baixo do que
verdadeiros positivos, por´em apresentam o mesmo formato de vale.
Os padr˜oes m´edios observados para os fatores E2F4 e P300 possuem caracter´ısticas seme-
lhantes. No caso do E2F4, os verdadeiros positivos e falsos positivos se confundem, tornando a
predi¸c˜ao menos eficaz. Entretanto, os sinais relativos aos falsos negativos, apesar de n˜ao apre-
sentarem tendˆencia pico-vale-pico evidentes, possuem intensidades mais altas do que os falsos
positivos (na mesma faixa dos verdadeiros positivos), o que poderia sinalizar um ponto positivo.
Por outro lado, no caso do P300, os padr˜oes s˜ao semelhantes por´em a linha relativa aos fal-
sos negativos est´a aproximadamente na mesma faixa dos falsos positivos, o que provavelmente
acarretaria em piores inferˆencias.
A an´alise dos padr˜oes para o fator GABP fornece, assim como para o fator ATF3, um ponto
positivo para a inser¸c˜ao das modifica¸c˜oes de histonas. ´E poss´ıvel visualizar que a linha repre-
sentando os falsos positivos est´a bastante pr´oxima da linha representando os falsos negativos
para a DNase, por´em para as histonas ela se apresenta consistentemente abaixo em todos os
casos. ´E importante mencionar que uma an´alise relativa aos desvios padr˜oes foi realizada, por´em
n˜ao exibidas nos gr´aficos pela dificuldade de leitura que ela apresentou. A an´alise de desvios
padr˜oes n˜ao demonstrou variˆancia significativa entre tais sinais, por´em espera-se que pelo me-
nos os padr˜oes tidos como falsos negativos sejam identificados pelo novo modelo, j´a que sua
curvatura possui interse¸c˜ao consistente com as curvaturas dos verdadeiros positivos em todos
os casos.
Assim como o fator CTCF, o fator REST possui motif grande e com grande quantidade de
bases conservadas. Isso faz com que o n´umero de falsos positivos n˜ao seja grande o suficiente
para ser exibido nesses gr´aficos. Nos gr´aficos relativos ao motif obtido no Transfac, nem os
75
5. RESULTADOS E DISCUSS˜AO
verdadeiros negativos (que s˜ao bem numerosos em outros casos) tiveram representatividade
significativa.
Em geral, espera-se que as histonas acrescentem informa¸c˜oes ´uteis ao novo modelo proposto.
A an´alise destes gr´aficos para diversos fatores de transcri¸c˜ao diferentes mostra que esta ´e a
tendˆencia sobre uma quantidade razo´avel de fatores de transcri¸c˜ao. Na se¸c˜ao seguinte, tal
hip´otese ser´a testada atrav´es do modelo descrito na Se¸c˜ao 4.5.
5.2 Acur´acia do Modelo Proposto
Nesta se¸c˜ao, primeiramente ser˜ao mostradas estat´ısticas gerais a respeito da quantidade de
regi˜oes encontradas pelos m´etodos de enriquecimento, pelo motif matching e pela aplica¸c˜ao dos
modelos. Ent˜ao, ser˜ao apresentadas as tabelas correspondentes ao c´alculo das estat´ısticas em
rela¸c˜ao `a aplica¸c˜ao do modelo no genoma inteiro (Se¸c˜ao 4.5) e do gold standard definido na
Se¸c˜ao 4.7. O objetivo da apresenta¸c˜ao de tais resultados ´e a compara¸c˜ao do modelo anterior
com o modelo proposto neste trabalho.
Na Tabela 5.1 s˜ao exibidas as quantidade de regi˜oes preditas (isto ´e, footprints) utilizando
ambos os modelos (pr´evio e proposto) e ambas as formas de treinamento (FMR1 e STAMP). O
n´umero total de regi˜oes hipersens´ıveis `a DNase I nas quais todos os m´etodos foram aplicados
foi igual a 133.372. Todos os modelos foram aplicados somente nestas regi˜oes, obtidas de forma
idˆentica `as regi˜oes enriquecidas de ChIP-seq (ver Se¸c˜ao 4.3).
Tabela 5.1: Quantidade de footprints encontrados com cada modelo – Nesta tabela s˜ao
exibidas as quantidade de regi˜oes preditas (#footprints) utilizando todos os modelos e formas de
treinamento. Os modelos bivariados propostos s˜ao referenciados apenas pela histona correspondente.
Modelo Treino #footprints
DNase apenas
FMR1 109648
STAMP 67758
H2A.Z
FMR1 422537
STAMP 192274
H3K4me2
FMR1 436509
STAMP 200293
H3K4me3
FMR1 475023
STAMP 202496
H3K9ac
FMR1 460468
STAMP 183744
76
5.2. ACUR´ACIA DO MODELO PROPOSTO
Devem ser consideradas duas informa¸c˜oes contidas na Tabela 5.1. Primeiramente, pode-se
perceber que os modelos propostos geram uma quantidade muito maior (at´e quase cinco vezes
maior) de predi¸c˜oes do que o modelo baseado em DNase apenas. Esse fato possui algumas
vantagens e desvantagens, que ser˜ao discutidas mais adiante. Tamb´em ´e poss´ıvel observar
que os modelos treinados com a abordagem STAMP produzem quantidades bem menores de
predi¸c˜oes do que os modelos treinados com a abordagem FMR1. Novamente, as implica¸c˜oes
ser˜ao descritas posteriormente.
S˜ao apresentadas, ent˜ao, as tabelas contendo a compara¸c˜ao entre o m´etodo pr´evio e o novo
modelo proposto. Para cada fator, s˜ao calculadas a sensibilidade (Ss), especificidade (Sp), posi-
tive predictive value (Pp), negative predictive value (Np) e taxa de acerto (Cr) (ver Tabela ??),
relativas aos footprints gerados pela aplica¸c˜ao do modelo anterior e do modelo proposto. O mo-
delo anterior foi replicado e aplicado com as ferramentas utilizadas neste projeto, para remover
vieses gerados pelas mesmas. Em cada modelo foram aplicadas as duas formas de treinamento
(FMR1 e STAMP).
As estat´ısticas apresentadas nas Tabelas 5.2 a 5.8 mostram que o modelo proposto, em geral,
aumenta bastante a sensibilidade (em at´e 49.37% a mais) enquanto que apresenta uma pequena
queda na especificidade (em, no m´aximo, 10.35%) (ver Tabela 5.9 a seguir). A taxa de acerto
(Cr) apresentou um aumento para os fatores CTCF e REST, enquanto para outros fatores os
valores da precis˜ao foram equivalentes. Isso ocorre, possivelmente, pela quantidade de exemplos
negativos, para esses outros motifs, ser maior (dado que as PWMs tˆem qualidade inferior),
fazendo com que a parcela de especificidade tenha uma maior contribui¸c˜ao na taxa de acerto
geral do que a sensibilidade (ver Tabela ??). Em adi¸c˜ao, para o fator REST, ´e interessante
observar que houve grandes diferen¸cas nos resultados entre PWMs provenientes de reposit´orios
diferentes, mostrando que existe impacto relacionado com a qualidade dos motifs.
77
5. RESULTADOS E DISCUSS˜AO
Tabela 5.2: Resultados (em %) para o fator ATF3 (PWM obtida no Transfac) – S˜ao
exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase
+ modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas
de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e
destacado em negrito.
Modelo Treino Sn Sp Pp Np Cr
DNase apenas
FMR1 58.75 96.8 10.28 99.73 96.57
STAMP 71.25 96.99 12.87 99.82 96.83
H2A.Z
FMR1 31.25 94.34 3.33 99.55 93.95
STAMP 70.0 90.32 4.31 99.79 90.19
H3K4me2
FMR1 32.5 92.66 2.69 99.55 92.29
STAMP 76.25 89.68 4.41 99.84 89.6
H3K4me3
FMR1 35.0 92.08 2.68 99.56 91.72
STAMP 77.5 89.32 4.33 99.84 89.25
H3K9ac
FMR1 25.0 93.11 2.21 99.5 92.69
STAMP 67.5 89.88 3.99 99.77 89.74
Tabela 5.3: Resultados (em %) para o fator CTCF (PWM obtida no Jaspar) – S˜ao
exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase
+ modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas
de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e
destacado em negrito.
Modelo Treino Sn Sp Pp Np Cr
DNase apenas
FMR1 29.45 99.59 99.87 11.35 35.28
STAMP 26.08 99.86 99.95 10.91 32.21
H2A.Z
FMR1 50.33 97.93 99.63 15.16 54.29
STAMP 71.80 94.74 99.34 23.35 73.71
H3K4me2
FMR1 63.71 95.85 99.41 19.32 66.38
STAMP 74.76 94.74 99.37 25.39 76.42
H3K4me3
FMR1 65.13 96.13 99.46 19.99 67.71
STAMP 75.45 94.33 99.32 25.83 77.02
H3K9ac
FMR1 60.95 96.68 99.51 18.33 63.92
STAMP 74.96 94.33 99.32 25.46 76.57
78
5.2. ACUR´ACIA DO MODELO PROPOSTO
Tabela 5.4: Resultados (em %) para o fator CTCF (PWM obtida no Renlab) – S˜ao
exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase
+ modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas
de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e
destacado em negrito.
Modelo Treino Sn Sp Pp Np Cr
DNase apenas
FMR1 29.68 98.4 98.82 23.64 42.13
STAMP 25.61 98.61 98.82 22.68 38.84
H2A.Z
FMR1 50.19 92.85 96.95 29.2 57.92
STAMP 69.16 88.26 96.38 38.77 72.62
H3K4me2
FMR1 61.51 89.64 96.41 34.01 66.6
STAMP 72.51 87.82 96.42 41.42 75.29
H3K4me3
FMR1 63.07 89.5 96.45 34.91 67.86
STAMP 72.98 87.45 96.34 41.73 75.6
H3K9ac
FMR1 59.57 91.61 96.98 33.4 65.38
STAMP 72.27 88.11 96.49 41.29 75.14
Tabela 5.5: Resultados (em %) para o fator GABP (PWM obtida no Jaspar) – S˜ao
exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase
+ modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas
de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e
destacado em negrito.
Modelo Treino Sn Sp Pp Np Cr
DNase apenas
FMR1 27.9 99.77 91.84 93.66 93.62
STAMP 27.8 99.86 94.96 93.66 93.69
H2A.Z
FMR1 39.09 97.9 63.52 94.5 92.86
STAMP 46.32 94.96 46.27 94.97 90.8
H3K4me2
FMR1 37.27 96.28 48.38 94.25 91.23
STAMP 50.87 94.55 46.61 95.36 90.81
H3K4me3
FMR1 40.29 96.14 49.42 94.51 91.36
STAMP 53.11 94.37 46.91 95.56 90.84
H3K9ac
FMR1 36.34 96.96 52.83 94.21 91.77
STAMP 42.19 94.49 41.74 94.58 90.01
79
5. RESULTADOS E DISCUSS˜AO
Tabela 5.6: Resultados (em %) para o fator GABP (PWM obtida no Transfac) –
S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com
DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas
de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e
destacado em negrito.
Modelo Treino Sn Sp Pp Np Cr
DNase apenas
FMR1 26.26 99.75 86.62 95.61 95.46
STAMP 25.19 99.84 90.97 95.56 95.48
H2A.Z
FMR1 38.48 97.84 52.45 96.25 94.37
STAMP 44.81 95.36 37.48 96.53 92.41
H3K4me2
FMR1 36.73 96.44 38.99 96.09 92.95
STAMP 49.38 95.04 38.16 96.8 92.37
H3K4me3
FMR1 40.61 96.36 40.9 96.32 93.1
STAMP 52.63 94.87 38.89 97.0 92.4
H3K9ac
FMR1 36.01 97.04 43.04 96.07 93.48
STAMP 41.62 94.97 33.9 96.33 91.85
Tabela 5.7: Resultados (em %) para o fator REST (PWM obtida no Jaspar) – S˜ao
exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase
+ modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas
de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e
destacado em negrito.
Modelo Treino Sn Sp Pp Np Cr
DNase apenas
FMR1 20.49 96.67 99.18 5.82 24.17
STAMP 14.39 98.33 99.42 5.51 18.45
H2A.Z
FMR1 35.39 95.0 99.29 6.95 38.28
STAMP 55.21 95.0 99.54 9.73 57.13
H3K4me2
FMR1 49.96 96.67 99.66 8.94 52.22
STAMP 55.04 95.0 99.54 9.69 56.97
H3K4me3
FMR1 48.52 95.0 99.48 8.57 50.77
STAMP 55.04 95.0 99.54 9.69 56.97
H3K9ac
FMR1 43.27 95.0 99.42 7.84 45.77
STAMP 55.21 95.0 99.54 9.73 57.13
80
5.2. ACUR´ACIA DO MODELO PROPOSTO
Tabela 5.8: Resultados (em %) para o fator REST (PWM obtida no Transfac) – S˜ao
exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase
+ modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas
de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e
destacado em negrito.
Modelo Treino Sn Sp Pp Np Cr
DNase apenas
FMR1 31.78 100.0 100.0 3.13 33.25
STAMP 23.96 100.0 100.0 2.81 25.6
H2A.Z
FMR1 46.21 100.0 100.0 3.93 47.37
STAMP 69.44 100.0 100.0 6.72 70.1
H3K4me2
FMR1 63.57 100.0 100.0 5.7 64.35
STAMP 68.95 100.0 100.0 6.62 69.62
H3K4me3
FMR1 61.12 100.0 100.0 5.36 61.96
STAMP 69.19 100.0 100.0 6.67 69.86
H3K9ac
FMR1 55.5 100.0 100.0 4.71 56.46
STAMP 69.44 100.0 100.0 6.72 70.1
81
5. RESULTADOS E DISCUSS˜AO
A Tabela 5.9 compara os resultados, em rela¸c˜ao `a sensibilidade e especificidade, de forma
mais direta e anal´ıtica. Esta tabela compara a diferen¸ca entre os melhores resultados para o
m´etodo proposto e os resultados para o m´etodo pr´evio, levando em considera¸c˜ao ambas as formas
de treinamento. Esta tabela evidencia a propor¸c˜ao de o quanto o m´etodo proposto aumentou a
sensibilidade em raz˜ao da sensibilidade. Pode-se observar tamb´em que os maiores aumentos da
sensibilidade ocorrem ao utilizar o m´etodo STAMP para treinar os modelos propostos. Tamb´em
´e interessante o fato de que as diferen¸cas entre os modelos foram pr´oximas para motifs diferentes
de um mesmo fator de transcri¸c˜ao, evidenciando a robustez dos resultados em rela¸c˜ao `as an´alises
considerando um fator espec´ıfico.
Tabela 5.9: Compara¸c˜ao da sensibilidade e especificidade entre o modelo pr´evio e o
proposto – Cada c´elula exibe (em %) a diferen¸ca, na sensibilidade ou especificidade, entre o melhor
resultado obtido entre um dos m´etodos propostos e o resultado para o m´etodo pr´evio. Diferen¸cas
positivas representam melhoria dos resultados.
Fatores Treino Sn Sp
ATF3 (Transfac)
FMR1 -23.75 -2.46
STAMP +6.25 -6.67
CTCF (Jaspar)
FMR1 +35.68 -1.66
STAMP +49.37 -5.12
CTCF (Renlab)
FMR1 +33.39 -5.55
STAMP +47.37 -10.35
GABP (Jaspar)
FMR1 +12.39 -1.87
STAMP +25.31 -4.9
GABP (Transfac)
FMR1 +14.35 -1.91
STAMP +27.44 -4.48
REST (Jaspar)
FMR1 +29.47 0.0
STAMP +40.82 -3.33
REST (Transfac)
FMR1 +31.79 0.0
STAMP +45.48 0.0
Considera-se que o modelo proposto foi bem sucedido pelo fato de que o reconhecimento de
um n´umero maior de regi˜oes corretas (maior sensibilidade) ´e prefer´ıvel, nestes casos, sobre a
rejei¸c˜ao de tais TFBSs verdadeiros em raz˜ao de um aumento na especificidade. Tais resultados
s˜ao utilizados por exemplo, como nos estudos [Barski et al., 2007; Heintzman et al., 2007; Hon
et al., 2009; Ramsey et al., 2010], para criar mapas regulat´orios consistentes, que possuem em
sua natureza a preferˆencia por uma quantidade maior de marcadores positivos.
82
5.2. ACUR´ACIA DO MODELO PROPOSTO
Neste momento, ´e necess´ario tra¸car um paralelo dos resultados com o n´umero de regi˜oes
preditas pelos modelos (Tabela 5.1). O n´umero de footprints identificados pelos modelos base-
ados em FMR1 ´e grande devido ao fato de que os parˆametros estimados correspondem apenas
`a uma regi˜ao anotada (a regi˜ao promotora do gene FMR1 – ver Se¸c˜ao 4.6). A quantidade de
footprints relacionados aos modelos propostos ´e bastante alta pelo fato de que, nesta regi˜ao, o
sinal das histonas n˜ao era t˜ao intenso. Isto mostra a dificuldade da aplica¸c˜ao de m´etodos, como
o FMR1, baseados na realiza¸c˜ao de experimentos biol´ogicos custosos adicionais ou na busca por
tais resultados na literatura. Estima-se que o sucesso da aplica¸c˜ao do m´etodo STAMP, bem
como a identifica¸c˜ao de uma quantidade de predi¸c˜oes mais real, tˆem origem no fato de que, por
permitir uma quantidade maior de regi˜oes anotadas, os parˆametros dos modelos s˜ao estimados
de forma mais precisa.
Foram observadas duas formas pelas quais o modelo proposto ´e capaz de produzir melhores
resultados. A primeira, que aconteceu numa grande escala, corresponde ao aumento no n´umero
de verdadeiros positivos. Observou-se que a as regi˜oes de vale das histonas proveram uma
permissividade maior de entrada no estado de footprint em regi˜oes com baixos sinais de digest˜ao
de DNase. A segunda forma, que ocorreu em escala menor, corresponde `a desconsidera¸c˜ao de
alguns falsos positivos cr´ıticos em regi˜oes onde as histonas tinham sinais mais elevados. Esta
segunda forma foi capaz de manter a especificidade em n´ıveis altos, ainda que n˜ao melhores do
que no modelo pr´evio. A Figura 5.6 mostra um exemplo relativo `a este segundo ponto discutido.
A partir da Figura 5.6, podemos visualizar o qu˜ao preciso ´e o modelo. Uma das principais
vantagens da abordagem utilizada ´e que ela tira proveito do aspecto espacial dos dados, isto ´e,
das caracter´ısticas que os sinais epigen´eticos tomam, ao longo do genoma. Al´em de prover uma
base probabil´ıstica robusta, o aproveitamento espacial faz com que sejam poss´ıveis predi¸c˜oes com
alta precis˜ao, dado que os sinais possuem boa resolu¸c˜ao. M´etodos que ignoram dados espaciais,
apenas levando em considera¸c˜ao caracter´ısticas obtidas ao se observar as regi˜oes analisadas como
um todo, n˜ao possuem tal precis˜ao. Essa ´e uma das principais cr´ıticas ao m´etodo descrito em
[Pique-Regi et al., 2011].
A nova forma de treinamento (STAMP) foi aplicada ao modelo pr´evio e a forma de treina-
mento pr´evia (FMR1) foi aplicada aos novos modelos com objetivo de verificar o impacto das
t´ecnicas de treinamento nos resultados. Melhorias nos novos modelos poderiam ser devidas sim-
plesmente ao uso de uma forma de treinamento mais consistente do que pela inser¸c˜ao de sinais
epigen´eticos. Observou-se que a nova forma de treinamento contribuiu para algumas estat´ısticas
maiores, por´em que ela n˜ao parece ter sido o motivo dos melhoramentos observados. Um exem-
plo de evidˆencia neste sentido ´e o fato de que o novo m´etodo de treinamento de fato aumentou
a especificidade do modelo pr´evio, reduzindo a sensibilidade do mesmo na maioria dos casos, o
que corresponde ao caminho inverso da melhoria observada com a adi¸c˜ao das modifica¸c˜oes de
histonas.´E interessante observar tamb´em que as melhores estat´ısticas variam de acordo com a adi¸c˜ao
das diferentes modifica¸c˜oes de histonas, para diferentes modelos. Para os ativadores ATF3 e
83
5. RESULTADOS E DISCUSS˜AO
144384471 144384864 144385257 144385650 144386043
0
1
2
3
4
5
6
7
8
IntensidadedosSinais
DNase H2A.Z H3K4me2 H3K4me3 H3K9ac
H3K9ac
H3K4me3
H3K4me2
H2A.Z
Boyle et al
chr6:
RESTCTCF
Legenda dos estados
DNase + Histonas
BACK
HH
UP
DOWN
FP
Legenda dos estados
DNase apenas
HS1
UP
DOWN
FP
Figura 5.6: Exemplo de uma regi˜ao com resultados melhorados pelo modelo proposto
- S˜ao exibidos os sinais epigen´eticos em uma regi˜ao do cromossomo 6. Os mapas de cores abaixo do
gr´afico que mostra a intensidade dos sinais, demonstram os estados do HMM para cada coordenada,
com cores correspondentes ao modelo exibido na Figura 4.4. Os retˆangulos vermelhos demonstram as
duas regi˜oes de falsos positivos pelo m´etodo pr´evio, que foram mascaradas pela adi¸c˜ao das histonas
na nova abordagem.
GABP e o insulador CTCF, as melhores sensibilidades com o novo m´etodo de treinamento foram
observadas com a adi¸c˜ao das histonas H3K4me2 e H3K4me3. Enquanto que o repressor REST
obteve as melhores sensibilidades para as histonas H2A.Z e H3K9ac.
Apesar dos bons resultados observados, o modelo possui um problema que ocorre com mais
frequˆencia do que no modelo pr´evio. Esse problema consiste em previs˜oes demasiadamente
extensas. Em detalhes, o prop´osito desta abordagem ao problema de identifica¸c˜ao de TFBSs
consiste em utilizar tais dados de alta resolu¸c˜ao para prever posi¸c˜oes bastante espec´ıficas onde
os TFs se ligam. Esses trechos preditos variam entre 5 e 30 bp em m´edia, n˜ao devendo ser
maior do que 50 bp. Por´em a baixa resolu¸c˜ao correspondente `a inser¸c˜ao das histonas fez com
que alguns fragmentos preditos tivessem mais do que 50 bp, `as vezes chegando a 200 bp. Dessa
forma, a ideologia do problema ´e ferida por tais predi¸c˜oes muito extensas. Estudos futuros
pretendem focar nas diferen¸cas de resolu¸c˜ao entre os sinais para que se chegue a um consenso
ideal. A Figura 5.7 mostra um exemplo dessas predi¸c˜oes demasiadamente longas.
84
5.3. TEMPO DE EXECUC¸ ˜AO E ARMAZENAMENTO
150325417 150325868 150326319 150326770 150327221
0
1
2
3
4
5
6
7
IntensidadedosSinais
DNase H3K4me2
Estados HMM
GABP CTCF
chr6:
144385650 144386043
H3K4me3 H3K9ac
Legenda dos estados
DNase + Histonas
BACK
HH
UP
DOWN
FP
Figura 5.7: Exemplo do problema das previs˜oes amplas - S˜ao exibidos os sinais de DNase
e da modifica¸c˜ao de histona H3K4me2 para uma regi˜ao do cromossomo 6. O mapa de cores de-
monstra os estados do HMM para cada coordenada a respeito da aplica¸c˜ao do modelo bivariado
baseado em DNase + H3K4me2, com cores correspondentes ao modelo exibido na Figura 4.4. Os
retˆangulos verdes mostram regi˜oes corretamente preditas, por´em os retˆangulos vermelhos mostram
regi˜oes inapropriadamente extensas para a proposta de resolu¸c˜ao deste problema.
5.3 Tempo de Execu¸c˜ao e Armazenamento
Estima-se que o projeto necessitou de um total de 1.874 horas computacionais para ser exe-
cutado completamente, sem levar em considera¸c˜ao os testes realizados ao longo do processo
experimental. A Tabela 5.10 exibe o tempo computacional m´ınimo, m´edio e m´aximo para a
realiza¸c˜ao de todas as etapas do processo. O tempo m´ınimo e m´aximo correspondem, respecti-
vamente, aos menores e maiores tempos relativos `a aplica¸c˜ao de uma tarefa que envolve diversas
instˆancias. Por exemplo, a aplica¸c˜ao do m´etodo motif matching era realizada para cada fator
de transcri¸c˜ao, sendo estes considerados as instˆancias neste caso. Esta tabela tamb´em exibe
a quantidade de mem´oria necess´aria para executar cada fase. No fim, a tabela exibe o tempo
total, considerando a soma dos tempos relativos `a multiplica¸c˜ao de todos os tempos individuais
pelo n´umero de instˆancias. Pode-se dizer que o projeto s´o pˆode ser realizado devido ao uso de
um grid engine com 60 cores, que permitiu a execu¸c˜ao em paralelo de v´arias fases do estudo.
A Tabela 5.11 exibe o tamanho m´edio para cada tipo de dado de entrada e sa´ıda dos
85
5. RESULTADOS E DISCUSS˜AO
Tabela 5.10: Tempo de execu¸c˜ao e mem´oria – S˜ao exibidos os tempos de execu¸c˜ao e quantidade
de mem´oria, m´ınimo (min), m´edio (med) e m´aximo (max), para cada etapa do processo experimental.
Todos os valores desta tabela correspondem ao tempo de execu¸c˜ao de uma instˆancia da respectiva
etapa, com exce¸c˜ao da linha Total, onde s˜ao exibidos o tempo total considerando todas as instˆancias
de todas as etapas. Quando maiores que 1h, os tempos m´ınimo e m´aximo foram truncados para a
hora mais pr´oxima. O total em rela¸c˜ao `a mem´oria consumida corresponde ao m´aximo de mem´oria
necess´aria considerando as fases do experimento.
Etapa
Tempo Mem´oria
min max med min max med
Motif Matching 8:00 14:00 11:47 413MB 413MB 413MB
Enriquecimento 15:00 35:00 21:32 1821MB 1849MB 1839MB
Contagem Bruta 5:00 12:00 7:45 1500MB 1600MB 1530MB
Normaliza¸c˜ao 9:00 9:00 9:00 1700MB 1700MB 1700MB
Savitzky-Golay 5:00 5:00 5:00 1500MB 1500MB 1500MB
Treino FMR1 1:00 3:00 2:21 812MB 835MB 814MB
Treino STAMP 0:25 0:37 0:28 812MB 841MB 815MB
Aplica¸c˜ao HMM 16:00 19:00 17:03 512MB 540MB 535MB
Valida¸c˜ao 3:00 6:00 5:12 500MB 514MB 511MB
Gr´aficos 28:00 57:00 31:41 1900MB 1900MB 1900MB
Total 1874:00 1900MB
Tabela 5.11: Espa¸co necess´ario para armazenamento – ´E exibido o espa¸co necess´ario para
armazenar os arquivos que representam os dados e resultados utilizados neste projeto. ´E descrito
o tipo (entrada ou sa´ıda), o nome do dado, os formatos nos quais o mesmo poderia se encontrar, o
espa¸co m´edio (aproximado) necess´ario para armazenar um instˆancia (Ind.), o n´umero de instˆancias
(Inst.) e o espa¸co total m´edio necess´ario para armazenar os dados (Total).
Tipo Dados Formatos Ind. Inst. Total
Entrada
DNase-seq bed&wig 10GB 1 10GB
ChIP-seq Histonas bed 14GB 4 56GB
ChIP-seq TFBS bed&wig 14GB 8 112GB
PWM pwm <1MB 13 10MB
Sa´ıda
MPBSs bed 1GB 13 13GB
Regi˜oes enriquecidas bed 0.5GB 9 4.5GB
Sinais processados bw 20GB 5 100GB
Resultados bed&txt 0.2GB 10 2GB
Gr´aficos eps 1GB 39 39GB
86
5.4. CONSIDERAC¸ ˜OES FINAIS
m´etodos. Nesta tabela, s˜ao definidos os formatos desses dados, o tamanho m´edio para cada
instˆancia individual (Ind), o n´umero de instˆancias para cada dado (Inst) e o tamanho total
considerando a todas as instˆancias (Grp). Pode-se dizer que, em m´edia, foram necess´arios
340 GB de armazenamento para a execu¸c˜ao apropriada deste estudo, desconsiderando todos os
arquivos gerados durante as fases de teste.
Trˆes tipos de dados principais foram utilizados no decorrer do projeto. O primeiro tipo,
chamado bed, consiste em um arquivo de texto simples contendo, em cada linha, informa¸c˜oes
de coordenadas genˆomicas. O tamanho de tais arquivos variou entre pequeno (por exemplo,
TFBSs para um fator com motif de alta qualidade, isto ´e, poucos TFBSs) e grande (por exem-
plo, os fragmentos alinhados advindos das t´ecnicas de DNase-seq ou ChIP-seq). O segundo
tipo, chamado wig ou wiggle, consiste em um arquivo de texto simples contendo um valor de
ponto flutuante para cada coordenada genˆomica de interesse. O tamanho de tais arquivos foi,
em geral, grande, correspondendo principalmente aos sinais genˆomicos durante a etapa de con-
tagem, normaliza¸c˜ao e aplica¸c˜ao do m´etodo de Savitzky-Golay. Tal tipo de arquivo pode ser
comprimido em um formato nomeado bw ou bigwig. Finalmente, temos os arquivos pwm que
representavam as PWMs para cada fator de transcri¸c˜ao analisado. Tais arquivos s˜ao geralmente
pequenos, contendo apenas as informa¸c˜oes de afinidade (ponto flutuante) para cada um dos
quatro nucleot´ıdeos e para cada posi¸c˜ao do motif (n˜ao maior do que 20 bases). Os outros
formatos mencionados s˜ao de uso comum.
5.4 Considera¸c˜oes Finais
Neste cap´ıtulo foram exibidos os gr´aficos e tabelas referentes aos resultados obtidos neste estudo.
Foram exibidos os gr´aficos necess´arios para a an´alise de regi˜oes de interesse envolvendo MPBSs,
regi˜oes enriquecidas em ChIP-seq para os fatores de transcri¸c˜ao e resultados do modelo anterior.
Al´em disso, ap´os mostrar estat´ısticas gerais relacionadas com a quantidade de regi˜oes produzidas
durante o processo experimental, foram descritas as estat´ısticas avaliadas a partir da aplica¸c˜ao
do modelo anterior e do modelo proposto. Finalmente, foi realizada uma discuss˜ao referente
ao tempo computacional, processamento e armazenamento necess´arios durante a execu¸c˜ao do
projeto.
Ap´os a apresenta¸c˜ao dos resultados, em cada se¸c˜ao foram realizadas discuss˜oes a respeito
dos mesmos. Primeiramente, foram discutidos os gr´aficos que visualizam tendˆencias m´edias nos
sinais epigen´eticos em diversas regi˜oes de interesse (e combina¸c˜oes dessas regi˜oes). Ap´os isso,
foram discutidos os resultados da aplica¸c˜ao do m´etodo anterior e do m´etodo proposto. Foram
apontadas as formas como o m´etodo proposto melhorou as predi¸c˜oes e tamb´em as limita¸c˜oes
deste novo modelo. Finalmente, discutiu-se a infraestrutura necess´aria para realiza¸c˜ao de um
projeto deste gˆenero.
87
6
Conclus˜ao
6.1 Objetivos Atingidos
Neste projeto de pesquisa foi proposto um m´etodo para melhorar a identifica¸c˜ao de s´ıtios de
liga¸c˜ao para fatores de transcri¸c˜ao utilizando dados relativos `a digest˜ao da DNase e modifica¸c˜oes
de histonas. Tal abordagem ´e baseada no fato de que tais fatores epigen´eticos s˜ao capazes de
descrever regi˜oes de cromatina descondensada, local com alta densidade de s´ıtios de liga¸c˜ao.
Al´em do m´etodo probabil´ıstico, isto ´e, o modelo escondido de Markov, foi proposto um novo
m´etodo de treinamento baseado na ferramenta STAMP, aumentando a viabilidade de regi˜oes
nas quais o HMM pode ser treinado.
Previamente `a aplica¸c˜ao do modelo, foram criados trˆes tipos de gr´aficos para melhor enten-
der o comportamento dos sinais epigen´eticos: (1) considerando regi˜oes de MBPSs; (2) consi-
derando a jun¸c˜ao entre MPBSs e evidˆencia de ChIP-seq; (3) considerando MPBSs, ChIP-seq e
as predi¸c˜oes realizadas pelo m´etodo pr´evio. Tais gr´aficos proveram as ideias necess´arias para
a constru¸c˜ao do modelo probabil´ıstico, integrando diferentes sinais epigen´eticos. ´E importante
observar que outros tipos de an´alises foram realizadas. Por exemplo, em rela¸c˜ao `as predi¸c˜oes do
modelo anterior em regi˜oes espec´ıficas (e n˜ao m´edias de v´arias regi˜oes). Por´em tais resultados
s˜ao bastante numerosos e s˜ao perfeitamente sumarizados pelos gr´aficos exibidos.
A cria¸c˜ao do modelo foi realizada em v´arias etapas de tentativa e erro. O modelo preditivo
que apresentou resultados mais pr´oximos do que se esperava, durante as etapas experimentais,
foi comparado ao m´etodo pr´evio e obteve algumas vantagens. Em especial, o m´etodo proposto
aumentou a sensibilidade em n´ıveis consider´aveis enquanto sofreu uma pequena redu¸c˜ao na
especificidade. Atrav´es dos pontos discutidos no cap´ıtulo anterior, o novo m´etodo foi considerado
bem sucedido. Al´em disso, ´e poss´ıvel visualizar, graficamente, como os sinais de modifica¸c˜oes
88
6.2. DIFICULDADES E LIMITAC¸ ˜OES DE ESCOPO
de histonas ajudam na predi¸c˜ao de alta resolu¸c˜ao da DNase, fornecendo evidˆencias a favor de
abordagens integrativas de dados.
6.2 Dificuldades e Limita¸c˜oes de Escopo
Os principais dados utilizados neste projeto foram obtidos no reposit´orio ENCODE. Tais dados
possuem uma restri¸c˜ao de uso que consiste em uma janela de tempo a partir do momento
que s˜ao disponibilizados. Isso fez com que alguns dados n˜ao fossem reportados, e continuamos
esperando tal libera¸c˜ao. Al´em disso, a cria¸c˜ao do conjunto de valida¸c˜ao possui a restri¸c˜ao de que
os PWMs obtidos nos reposit´orios de motifs deveriam ter tamb´em dados de ChIP-seq para os
fatores correspondentes. Entretanto, tal dificuldade n˜ao foi cr´ıtica, isto ´e, um n´umero razo´avel
de fatores pˆode ser testado, expressando as tendˆencias gerais de ambos os modelos de forma
acurada.
Outra limita¸c˜ao est´a relacionada ao tamanho dos dados epigen´eticos em larga escala, o que
limita o numero de c´elulas e sinais considerados no estudo. Por exemplo, os dados do tipo
wig (wiggle) com sinais de modifica¸c˜ao de histonas s˜ao bem grandes (ver Tabela 5.11), fazendo
com que a an´alise em mais de uma linha celular tenha uma alto custo computacional e de
armazenamento. Para os dados discutidos aqui, foram necess´arios 340 GB de armazenamento e
1.874 horas de computa¸c˜ao (ver Se¸c˜ao 5.3). Em especial, o tempo computacional s´o foi poss´ıvel
devido ao uso de um grid engine com 60 cores.
Apesar do modelo proposto ter contribu´ıdo para resultados mais interessantes do ponto
de vista metodol´ogico, alguns pontos negativos podem ser observados. A introdu¸c˜ao de outra
dimens˜ao faz com que o procedimento, de uma forma geral, tome mais tempo para executar
todas as etapas. Entretanto, como apontado na Se¸c˜ao 5.2, houve alguns casos onde as predi¸c˜oes
feitas pelo modelo proposto foram mais extensas do que o esperado. Isso corresponde a um
desvio na ideia de identifica¸c˜ao absoluta de TFBSs defendida por Boyle et al. Estudos futuros
dever˜ao levar essa caracter´ıstica em considera¸c˜ao.
6.3 Trabalhos Futuros
A primeira caracter´ıstica dos trabalhos futuros consiste no aumento do n´umero de linhas celula-
res, modifica¸c˜oes de histonas e fatores de transcri¸c˜ao, sobre os quais os m´etodos ser˜ao aplicados.
Com o crescimento do reposit´orio ENCODE, e de outras iniciativas do gˆenero, mais dados es-
tar˜ao dispon´ıveis para serem utilizados, aumentando o leque de possibilidades. A an´alise de um
n´umero maior de modifica¸c˜oes de histonas e de fatores de transcri¸c˜ao j´a ´e diretamente poss´ıvel,
89
6. CONCLUS˜AO
assim que tais dados estiverem dispon´ıveis nos reposit´orios mencionados (o que dever´a acontecer
num futuro pr´oximo [Rosenbloom et al., 2011]). A an´alise em um n´umero maior de linhas ce-
lulares, entretanto, est´a completamente condicionada `a capacidade computacional `a disposi¸c˜ao.
A linha celular K562 foi escolhida por possuir os dados para a maior variedade de histonas e
fatores entre todas as outras. Com o futuro aumento na capacidade computacional e nos expe-
rimentos realizados em outras linhas celulares, os m´etodos poder˜ao ser aplicados e testados de
forma mais extensa.
Al´em dos dados epigen´eticos, m´etodos atuais est˜ao utilizando outras informa¸c˜oes como con-
serva¸c˜ao e afinidade de liga¸c˜ao do fator baseado na sequˆencia genˆomica [Pique-Regi et al., 2011]
ou regi˜oes de aplica¸c˜ao [Won et al., 2010]. Tal integra¸c˜ao adicional pretende ser levada em
considera¸c˜ao na modelagem futura de sistemas probabil´ısticos. Extens˜oes diretas do modelo
proposto, por exemplo, j´a poderiam utilizar informa¸c˜oes de afinidade de liga¸c˜ao (isto ´e, o bit
score do motif matching) a priori, ou a an´alise estat´ıstica mais robusta da ferramenta STAMP.
Em termos experimentais, pretende-se realizar uma an´alise consistindo na verifica¸c˜ao do
impacto de cada caracter´ıstica epigen´etica na predi¸c˜ao de TFBSs. Tais estudos procurariam
padr˜oes epigen´eticos ao redor de MPBSs com e sem evidˆencia de ChIP-seq e tentaria separ´a-los,
utilizando alguma abordagem de aprendizado de m´aquina, atrav´es de combina¸c˜oes de diferen-
tes sinais epigen´eticos. Tal abordagem tamb´em poderia ser cuidadosamente estudada para que
pudesse ser um poss´ıvel classificador, aplicado ao reconhecimento de TFBSs, utilizando as ca-
racter´ısticas epigen´eticas e as informa¸c˜oes de afinidade de liga¸c˜ao. Al´em disso, outra ideia que
se pretende explorar consiste na rela¸c˜ao entre padr˜oes epigen´eticos e diferentes atributos dos
fatores de transcri¸c˜ao (tais como suas fun¸c˜oes ou fam´ılia proteica). Estudos deste gˆenero podem
contribuir para a melhoria futura de sistemas de identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de
transcri¸c˜ao.
90
Referˆencias
Alberts, B. (2007). Molecular Biology of the Cell.
Other, 5th edn. 2, 7, 8, 9, 10
Allis, C., Jenuwein, T. & Reinberg, D. (2007).
Epigenetics. Cold Spring Harbor Laboratory Press.
7, 8, 12, 33, 34, 36
Barski, A., Cuddapah, S., Cui, K., Roh, T.Y.,
Schones, D.E., Wang, Z., Wei, G., Chepelev,
I. & Zhao, K. (2007). High-Resolution Profiling of
Histone Methylations in the Human Genome. Cell,
129, 823–837. 4, 32, 34, 40, 82
Bilmes, J. (1997). A Gentle Tutorial on the EM Algo-
rithm and its Application to Parameter Estimation
for Gaussian Mixture and Hidden Markov Models.
42
Bishop, C.M. (2006). Pattern recognition and ma-
chine learning. Springer, 1st edn. 42
Boyle, A.P., Davis, S., Shulha, H.P., Meltzer,
P., Margulies, E.H., Weng, Z., Furey, T.S.
& Crawford, G.E. (2008a). High-resolution map-
ping and characterization of open chromatin across
the genome. Cell, 132, 311–322. 3, 37, 39
Boyle, A.P., Guinney, J., Crawford, G.E. & Fu-
rey, T.S. (2008b). F-seq: a feature density estima-
tor for high-throughput sequence tags. Bioinforma-
tics, 24, 2537–2538. 37, 55, 56
Boyle, A.P., Song, L., Lee, B.K., London, D.,
Keefe, D., Birney, E., Iyer, V.R., Craw-
ford, G.E. & Furey, T.S. (2011). High-resolution
genome-wide in vivo footprinting of diverse trans-
cription factors in human cells. Genome Research,
21, 456–464. 2, 3, 37, 39, 40, 55, 57, 58, 59, 60, 61,
62, 63, 64, 67
Bryne, J.C.C., Valen, E., Tang, M.H.E.H.,
Marstrand, T., Winther, O., da Piedade, I.,
Krogh, A., Lenhard, B. & Sandelin, A. (2008).
JASPAR, the open access database of transcription
factor-binding profiles: new content and tools in
the 2008 update. Nucleic acids research, 36, D102–
D106. 56
Buck, M.J. & Lieb, J.D. (2004). ChIP-chip: consi-
derations for the design, analysis, and application
of genome-wide chromatin immunoprecipitation ex-
periments. Genomics, 83, 349–360. 3
Cock, P.J.A., Antao, T., Chang, J.T., Chap-
man, B.A., Cox, C.J., Dalke, A., Friedberg,
I., Hamelryck, T., Kauff, F., Wilczynski, B.
& de Hoon, M.J.L. (2009). Biopython: freely avai-
lable Python tools for computational molecular bio-
logy and bioinformatics. Bioinformatics, 25, 1422–
1423. 57
Crawford, G.E., Holt, I.E., Mullikin, J.C., Tai,
D., Blakesley, R., Bouffard, G., Young, A.,
Masiello, C., Green, E.D., Wolfsberg, T.G.,
Collins, F.S. & National Institutes Of He-
alth Intramural Sequencing Center (2004).
Identifying gene regulatory elements by genome-
wide recovery of DNase hypersensitive sites. Pro-
ceedings of the National Academy of Sciences of the
United States of America, 101, 992–997. 3, 36, 39
Crawford, G.E., Davis, S., Scacheri, P.C., Re-
naud, G., Halawi, M.J., Erdos, M.R., Green,
R., Meltzer, P.S., Wolfsberg, T.G. & Col-
lins, F.S. (2006a). DNase-chip: a high-resolution
method to identify DNase I hypersensitive sites
using tiled microarrays. Nature methods, 3, 503–
509. 3, 39
Crawford, G.E., Holt, I.E., Whittle, J., Webb,
B.D., Tai, D., Davis, S., Margulies, E.H.,
Chen, Y., Bernat, J.A., Ginsburg, D., Zhou,
D., Luo, S., Vasicek, T.J., Daly, M.J., Wolfs-
berg, T.G. & Collins, F.S. (2006b). Genome-
wide mapping of DNase hypersensitive sites using
massively parallel signature sequencing (MPSS).
Genome Research, 16, 123–131. 3, 39
Creyghton, M.P., Cheng, A.W., Welstead,
G.G., Kooistra, T., Carey, B.W., Steine,
91
REFERˆENCIAS
E.J., Hanna, J., Lodato, M.A., Frampton,
G.M., Sharp, P.A. & et al. (2010). Histone
h3k27ac separates active from poised enhancers and
predicts developmental state. Proceedings of the Na-
tional Academy of Sciences of the United States of
America, 107, 21931–21936. 34
Cuellar-Partida, G., Buske, F.A., McLeay,
R.C., Whitington, T., Noble, W.S. & Bailey,
T.L. (2012). Epigenetic priors for identifying active
transcription factor binding sites. Bioinformatics,
28, 56–62. 2, 3, 4, 40, 55, 64
DNA Sequencing Consortiums (2012). Dna se-
quencing website. http://www.dnasequencing.org. 1
Drouin, R., Angers, M., Dallaire, N., Rose,
T.M., Khandjian, E.W. & Rousseau, F. (1997).
Structural and functional characterization of the
human fmr1 promoter reveals similarities with the
hnrnp-a2 promoter region. Human Molecular Gene-
tics, 1, 91–96. 63
Duda, R.O., Stork, D.G. & Hart, P.E. (2000).
Pattern classification. Wiley, 2nd edn. 42
Durbin, R., Eddy, S.R., Krogh, A. & Mitchison,
G. (1998). Biological Sequence Analysis: Probabi-
listic Models of Proteins and Nucleic Acids. Cam-
bridge University Press. 42
Dymarski, P., ed. (2011). Hidden Markov Models,
Theory and Applications. InTech. 42
Ernst, J. & Kellis, M. (2010). Discovery and cha-
racterization of chromatin states for systematic an-
notation of the human genome. Nature Biotechno-
logy, 28, 817–825. 4, 40
Essien, K., Vigneau, S., Apreleva, S., Singh,
L., Bartolomei, M. & Hannenhalli, S. (2009).
CTCF binding site classes exhibit distinct evoluti-
onary, genomic, epigenomic and transcriptomic fe-
atures. Genome Biology, 10, R131+. 57
Felsenfeld, G. & Groudine, M. (2003). Control-
ling the double helix. Nature, 421, 448–453. 35
Gorry, P.A. (1990). General least-squares smoothing
and differentiation by the convolution (Savitzky-
Golay) method. Analytical Chemistry, 62, 570–573.
59
Grant, P.A. (2001). A tale of histone modifications.
Genome biology, 2, reviews0003.1–reviews0003.6.
34
Gross, D.S. & Garrard, W.T. (1988). Nuclease hy-
persensitive sites in chromatin. Annual Review of
Biochemistry, 57, 159–197. 3
Guttman, M., Garber, M., Levin, J.Z., Do-
naghey, J., Robinson, J., Adiconis, X., Fan, L.,
Koziol, M.J., Gnirke, A., Nusbaum, C., Rinn,
J.L., Lander, E.S. & Regev, A. (2010). Ab initio
reconstruction of cell type-specific transcriptomes
in mouse reveals the conserved multi-exonic struc-
ture of lincRNAs. Nature biotechnology, 28, 503–
510. 56
Hair, J.F., Tatham, R.L., Anderson, R.E. &
Black, W. (1998). Multivariate Data Analysis.
Prentice Hall, 5th edn. 42
Hastie, T., Tibshirani, R. & Friedman, J.H.
(2009). The elements of statistical learning : data
mining, inference, and prediction. Springer series in
statistics, Springer. 42
He, H.H., Meyer, C.A., Chen, M.W., Jordan,
V.C., Brown, M. & Liu, X.S. (2012). Differential
DNase I hypersensitivity reveals factor-dependent
chromatin dynamics. Genome Research, 22, 1015–
1025. 39, 40
Heintzman, N.D., Stuart, R.K., Hon, G., Fu, Y.,
Ching, C.W., Hawkins, R.D., Barrera, L.O.,
Van Calcar, S., Qu, C., Ching, K.A., Wang,
W., Weng, Z., Green, R.D., Crawford, G.E.
& Ren, B. (2007). Distinct and predictive chro-
matin signatures of transcriptional promoters and
enhancers in the human genome. Nature genetics,
39, 311–318. 4, 32, 40, 82
Hon, G., Wang, W. & Ren, B. (2009). Discovery
and Annotation of Functional Chromatin Signatu-
res in the Human Genome. PLoS Comput Biol, 5,
e1000566+. 4, 32, 35, 40, 82
Keene, M.A., Corces, V., Lowenhaupt, K. & El-
gin, S.C. (1981). Dnase i hypersensitive sites in
drosophila chromatin occur at the 5’ ends of re-
gions of transcription. Proceedings of the National
92
REFERˆENCIAS
Academy of Sciences of the United States of Ame-
rica, 78, 143–146. 3
Kent, W.J., Sugnet, C.W., Furey, T.S., Roskin,
K.M., Pringle, T.H., Zahler, A.M. & Hauss-
ler, D. (2002). The Human Genome Browser at
UCSC. Genome Research, 12, 996–1006. 54
Lassig, M. (2007). From biophysics to evolutionary
genetics: statistical aspects of gene regulation.
BMC Bioinformatics, 8, S7+. 4
Leach, R.A., Carter, C.A. & Harris, J.M. (1984).
Least-squares polynomial filters for initial point and
slope estimation. Analytical Chemistry, 56, 2304–
2307. 59
Lesk, A.M. (2005). Introduction to bioinformatics.
Oxford University Press. 42
Levin, D.A., Peres, Y. & Wilmer, E.L. (2008).
Markov Chains and Mixing Times. American
Mathematical Society, 1st edn. 42
Lewin, B. (2003). Genes VIII . Benjamin Cummings,
united states ed edn. 7, 8
Lodish, H., Berk, A., Kaiser, C.A., Krieger, M.,
Scott, M.P., Bretscher, A., Ploegh, H. &
Matsudaira, P. (2007). Molecular Cell Biology.
W. H. Freeman, 6th edn. 3, 7, 8, 11, 13, 14, 15, 28
Luo, J., Ying, K., He, P. & Bai, J. (2005). Proper-
ties of savitzky golay digital differentiators. Digital
Signal Processing, 15, 122–136. 59
Madden, H.H. (1978). Comments on the Savitzky-
Golay convolution method for least-squares fit
smoothing and differentiation of digital data.
Anal.Chem., 50, 1383–1386. 59
Mahony, S. & Benos, P.V. (2007). STAMP: a web
tool for exploring DNA-binding motif similarities.
Nucleic acids research, 35, gkm272–258. 5, 63
Maston, G.A., Evans, S.K. & Green, M.R. (2006).
Transcriptional Regulatory Elements in the Human
Genome. Annual Review of Genomics and Human
Genetics, 7, 29–59. 2, 8, 19, 20, 22
Matys, V., Kel-Margoulis, O.V., Fricke, E., Li-
ebich, I., Land, S., Barre-Dirrie, A., Reuter,
I., Chekmenev, D., Krull, M., Hornischer,
K., Voss, N., Stegmaier, P., Lewicki-Potapov,
B., Saxel, H., Kel, A.E. & Wingender, E.
(2006). TRANSFAC and its module TRANSCom-
pel: transcriptional gene regulation in eukaryotes.
Nucleic acids research, 34, D108–D110. 56
Mitchell, T.M. (1997). Machine Learning. McGraw-
Hill Science/Engineering/Math, 1st edn. 42
Newburger, D.E. & Bulyk, M.L. (2009). Uni-
PROBE: an online database of protein binding mi-
croarray data on protein-DNA interactions. Nucleic
Acids Research, 37, D77–D82. 57
Park, P.J. (2009). ChIP-seq: advantages and challen-
ges of a maturing technology. Nat Rev Genet, 10,
669–680. 3, 29, 37, 38
Pique-Regi, R., Degner, J.F., Pai, A.A., Gaff-
ney, D.J., Gilad, Y. & Pritchard, J.K. (2011).
Accurate inference of transcription factor binding
from DNA sequence and chromatin accessibility
data. Genome Research, 21, 447–455. 3, 4, 40, 55,
64, 83, 90
Press, W.H., Teukolsky, S.A., Vetterling,
W.T. & Flannery, B.P. (1992). Numerical reci-
pes in c: The art of scientific computing. second
edition. 59
Rabiner, L.R. (1989). A tutorial on hidden Markov
models and selected applications in speech recogni-
tion. Proceedings of the IEEE, 77, 257–286. 42
Ramsey, S.A., Knijnenburg, T.A., Kennedy,
K.A., Zak, D.E., Gilchrist, M., Gold, E.S.,
Johnson, C.D., Lampano, A.E., Litvak, V.,
Navarro, G. & et al. (2010). Genome-wide his-
tone acetylation data improve prediction of mam-
malian transcription factor binding sites. Bioinfor-
matics, 26, 2071–2075. 4, 32, 34, 40, 82
Rosenbloom, K.R., Dreszer, T.R., Long, J.C.,
Malladi, V.S., Sloan, C.A., Raney, B.J.,
Cline, M.S., Karolchik, D., Barber, G.P.,
Clawson, H., Diekhans, M., Fujita, P.A.,
Goldman, M., Gravell, R.C., Harte, R.A.,
93
REFERˆENCIAS
Hinrichs, A.S., Kirkup, V.M., Kuhn, R.M., Le-
arned, K., Maddren, M., Meyer, L.R., Pohl,
A., Rhead, B., Wong, M.C., Zweig, A.S.,
Haussler, D. & Kent, W.J. (2011). ENCODE
whole-genome data in the UCSC Genome Browser:
update 2012. Nucleic Acids Research. 1, 2, 54, 90
Russell, S. & Norvig, P. (2002). Artificial Intelli-
gence: A Modern Approach (2nd Edition). Prentice
Hall series in artificial intelligence, Prentice Hall,
2nd edn. 42
Schliep, A., Georgi, B., Rungsarityotin, W. &
Sch¨onhuth, A. (2004). The general hidden markov
model library: Analyzing systems with unobserva-
ble states. Proceedings of the ISMB 2004. 64
Schones, D.E. & Zhao, K. (2008). Genome-wide ap-
proaches to studying chromatin modifications. Na-
ture Reviews Genetics, 9, 179–191. 4
Setubal, C. & Meidanis, J. (1997). Introduction
to Computational Molecular Biology. PWS Pu-
blishing. 8
Shu, W., Chen, H., Bo, X. & Wang, S. (2011).
Genome-wide analysis of the relationships between
DNaseI HS, histone modifications and gene expres-
sion reveals distinct modes of chromatin domains.
Nucleic Acids Research, 39, 7428–7443. 4, 32, 40
Song, L. & Crawford, G.E. (2010). DNase-seq:
A High-Resolution Technique for Mapping Active
Gene Regulatory Elements across the Genome from
Mammalian Cells. Cold Spring Harbor Protocols,
2010, pdb.prot5384+. 3, 36, 39
Song, L., Zhang, Z., Grasfeder, L.L., Boyle,
A.P., Giresi, P.G., Lee, B.K., Sheffield, N.C.,
Gr¨af, S., Huss, M., Keefe, D., Liu, Z.,
London, D., McDaniell, R.M., Shibata, Y.,
Showers, K.A., Simon, J.M., Vales, T., Wang,
T., Winter, D., Zhang, Z., Clarke, N.D., Bir-
ney, E., Iyer, V.R., Crawford, G.E., Lieb,
J.D. & Furey, T.S. (2011). Open chromatin de-
fined by DNaseI and FAIRE identifies regulatory
elements that shape cell-type identity. Genome Re-
search, 21, 1757–1767. 39
Spivakov, M. & Fisher, A.G. (2007). Epigenetic
signatures of stem-cell identity. Nat Rev Genet, 8,
263–271. 4, 34
Stormo, G.D. (2000). DNA binding sites: represen-
tation and discovery. Bioinformatics, 16, 16–23. 2
The ENCODE Project Consortium (2004). The
ENCODE (ENCyclopedia Of DNA Elements) Pro-
ject. Science, 306, 636–640. 54
The ENCODE Project Consortium (2007). Iden-
tification and analysis of functional elements in 1%
of the human genome by the ENCODE pilot pro-
ject. Nature, 447, 799–816. 54
The ENCODE Project Consortium (2011). A
User’s Guide to the Encyclopedia of DNA Elements
(ENCODE). PLoS Biol, 9, e1001046+. 54
Wasserman, W.W. & Sandelin, A. (2004). Applied
bioinformatics for the identification of regulatory
elements. Nature reviews. Genetics, 5, 276–287. 30,
31
Watson, J.D., Baker, T.A., Bell, S.P., Gann, A.,
Levine, M. & Losick, R. (2003). Molecular Bio-
logy of the Gene. Benjamin Cummings, 5th edn. 7,
8
Whitington, T., Perkins, A.C. & Bailey, T.L.
(2009). High-throughput chromatin information
enables accurate tissue-specific prediction of trans-
cription factor binding sites. Nucleic Acids Rese-
arch, 37, 14–25. 40
Wingender, E., Dietze, P., Karas, H. &
Kn¨uppel, R. (1996). TRANSFAC: A Database on
Transcription Factors and Their DNA Binding Si-
tes. Nucleic Acids Research, 24, 238–241. 56
Won, K.J., Ren, B. & Wang, W. (2010). Genome-
wide prediction of transcription factor binding sites
using an integrated model. Genome Biology, 11,
R7+. 4, 35, 40, 90
Zhang, Y., Liu, T., Meyer, C.A., Eeckhoute, J.,
Johnson, D.S., Bernstein, B.E., Nusbaum, C.,
Myers, R.M., Brown, M., Li, W. & Liu, X.S.
(2008). Model-based analysis of ChIP-Seq (MACS).
Genome biology, 9, R137+. 37, 56
94

Mais conteúdo relacionado

PDF
Miniguia cartão
PDF
doc01242020150813112213
PDF
H19imanual dosador
PPTX
Apresentação1
DOCX
Estatitica de acidentes julh oxx
DOCX
Associação dos pequenos agricultores de Ilhéus, convocação
PDF
Peru em molho de alho francês
PDF
【UDC2015】第12回 - 石川ブロック
Miniguia cartão
doc01242020150813112213
H19imanual dosador
Apresentação1
Estatitica de acidentes julh oxx
Associação dos pequenos agricultores de Ilhéus, convocação
Peru em molho de alho francês
【UDC2015】第12回 - 石川ブロック
Anúncio

gusmao_MSc_thesis

  • 1. Identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao com a integra¸c˜ao de dados epigen´eticos Eduardo Gade Gusm˜ao Centro de Inform´atica Universidade Federal de Pernambuco Disserta¸c˜ao de Mestrado Ciˆencia da Computa¸c˜ao Outubro 2012
  • 2. Identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao com a integra¸c˜ao de dados epigen´eticos Disserta¸c˜ao apresentada ao Centro de In- form´atica da Universidade Federal de Pernam- buco, como parte dos requisitos necess´arios para obten¸c˜ao do t´ıtulo de Mestre em Ciˆencia da Computa¸c˜ao. Eduardo Gade Gusm˜ao Centro de Inform´atica Universidade Federal de Pernambuco Orientador Ivan Gesteira Costa Filho Co-orientador Marcilio Carlos Pereira de Souto Disserta¸c˜ao de Mestrado Ciˆencia da Computa¸c˜ao Outubro 2012
  • 3. Disserta¸c˜ao submetida ao corpo docente do programa de p´os-gradua¸c˜ao do Centro de Inform´atica da Universidade Federal de Pernambuco como parte dos requisitos necess´arios para obten¸c˜ao do grau de mestre em Ciˆencia da Computa¸c˜ao. Aprovado: Katia Silva Guimar˜aes – Centro de Inform´atica - UFPE Ana Maria Benko Iseppon – Departamento de Gen´etica - UFPE Paulo Gustavo Soares da Fonseca – Centro de Inform´atica - UFPE IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE TRANSCRIC¸ ˜AO COM A INTEGRAC¸ ˜AO DE DADOS EPIGEN´ETICOS. Por Eduardo Gade Gusm˜ao UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORM´ATICA Cidade Universit´aria – Tels. (81) 2126-8414 – Fax: (81) 2126-8410. RECIFE – BRASIL Outubro – 2012 iii
  • 4. Agradecimentos Agrade¸co primeiramente `a minha fam´ılia, em especial `a minha m˜ae Christiani Gade Gusm˜ao, por fornecer todo o apoio necess´ario, permitindo dar continuidade a este projeto de pesquisa. Desde momentos necess´arios de lazer at´e pedidos de revis˜ao gramatical n˜ao remunerados, eles sempre estiveram presentes e fizeram toda a dife- ren¸ca. Agrade¸co ao meu orientador Dr. Ivan Gesteira Costa Filho pelos ensinamentos, su- gest˜oes, dicas e ajudas. Seu interesse em meu trabalho e disponibilidade para sanar d´uvidas foram cruciais para a completude deste estudo. Agrade¸co tamb´em ao meu co-orientador Dr. Marc´ılio Carlos Pereira de Souto e `a Dra. Tha´ıs Gaudencio do Rˆego pelos ensinamentos paralelos e expans˜ao da minha vis˜ao sobre a ´area da bioin- form´atica. Tamb´em reservo um agradecimento especial ao Dr. Christoph Dieterich por contribui¸c˜ao no desenho experimental do trabalho; e aos membros da banca, Dra. Katia Silva Guimar˜aes, Dra. Ana Maria Benko Iseppon e Dr. Paulo Gustavo Soares da Fonseca, que me deram a honra de poder mostrar o trabalho realizado. Agrade¸co tamb´em aos professores e funcion´arios do Centro de Inform´atica, que me passaram valiosos ensinamentos e trabalharam para manter uma estrutura digna de um centro de referˆencia em computa¸c˜ao. Agrade¸co `as institui¸c˜oes FACEPE, CNPq e CAPES. Em especial `a FACEPE, pelo aux´ılio financeiro na forma de bolsa de mestrado. Ao CNPq e `a CAPES, pelos aux´ılios financeiros relativos `a infra-estrutura. Gostaria tamb´em de agradecer aos meus colegas Gilderlˆanio Santana de Ara´ujo, Paulo Ricardo da Silva Soares, Felipe K¨uhner Cˆamara dos Santos, Nelson Gutem- berg Rocha da Silva, Jo˜ao Rufino da Costa Neto, Yane Wanderley dos Santos, Diogo da Silva Severo, Everson Ver´ıssimo da Silva, Arthur Felipe Melo Alvim, Fl´avia Ro- berta Barbosa de Ara´ujo, Pablo Andretta Jaskowiak, Andr´e Kunio de Oliveira Tiba, Luciano Soares de Souza, Rebecca Cristina Linhares de Carvalho e Kalil Ara´ujo Bispo. Os debates em ambiente de trabalho ou momentos de lazer permitiram meu crescimento em todos os sentidos. Por fim, agrade¸co ao meu amigo e companheiro Eduardo Henrique Farias de Carvalho por me fornecer o suporte necess´ario para que eu conseguisse completar todas as etapas deste trabalho e do curso de p´os gradua¸c˜ao. iv
  • 5. Dedico este trabalho `a minha fam´ılia, que me forneceu todo o apoio necess´ario para o meu crescimento em todos os aspectos e ao orientador Ivan Gesteira Costa Filho, por estar presente em todos os momentos de d´uvida e incentivar meu interesse na carreira acadˆemica. v
  • 6. Resumo A identifica¸c˜ao de elementos cis-regulat´orios no DNA ´e crucial para o entendimento das redes regulat´orias que governam diversos mecanismos celulares tais como dife- rencia¸c˜ao celular, desenvolvimento ou apoptose. Entretanto, essa tarefa ´e bastante complexa, dada a grande quantidade de diferentes fatores de transcri¸c˜ao no genoma humano. Atualmente, s˜ao estimados 1.500 fatores que podem se ligar, diretamente ou indiretamente, em m´ultiplos loci genˆomicos. O procedimento computacional padr˜ao para a detec¸c˜ao de tais regi˜oes consiste no uso de matrizes de pontua¸c˜ao, que s˜ao representa¸c˜oes probabil´ısticas da afinidade de liga¸c˜ao desses fatores em deter- minadas sequˆencias de DNA. Por´em tal abordagem resulta em um grande n´umero de falsos positivos pelo fato de n˜ao ser poss´ıvel distinguir entre regi˜oes ativas e inativas e pelos motivos estruturais serem pequenos e degenerados. Esses problemas tˆem sido superados atrav´es da considera¸c˜ao de caracter´ısticas epigen´eticas. A ideia b´asica ´e que algumas regi˜oes da cromatina encontram-se densamente empacotadas em uma estrutura fechada, n˜ao permitindo liga¸c˜ao de prote´ınas reguladoras; enquanto ou- tros s´ıtios est˜ao menos empacotados (cromatina descondensada), permitindo tais liga¸c˜oes. Pesquisas atuais mostram que fontes de dados capazes de sinalizar tais regi˜oes descondensadas, tais como digest˜ao de DNase I (obtida atrav´es de DNase- seq) e modifica¸c˜oes de histonas (obtidas atrav´es de ChIP-seq), podem melhorar a detec¸c˜ao de s´ıtios de liga¸c˜ao dos fatores de transcri¸c˜ao. Neste trabalho, ´e proposta a constru¸c˜ao de um modelo escondido de Markov cont´ınuo bivariado com objetivo de integrar fontes de dados epigen´eticas para avaliar se h´a melhora nos resultados, em rela¸c˜ao `a predi¸c˜oes realizadas com o m´etodo compu- tacional padr˜ao ou atrav´es da utiliza¸c˜ao de fontes de dados epigen´eticas de forma individual. Al´em disso, uma nova forma de estima¸c˜ao de parˆametros para tal modelo foi desenvolvida, removendo a necessidade de se realizar procedimentos tradicionais custosos. Foi observado que o modelo proposto melhora significativamente a sensi- bilidade, com pouco ou nenhum efeito negativo na especificidade, em compara¸c˜ao com modelos existentes baseados em cromatina descondensada apenas. Palavras-chave: S´ıtios de Liga¸c˜ao de Fatores de Transcri¸c˜ao; DNase-seq; ChIP- seq; Modifica¸c˜oes de Histonas; Modelos Escondidos de Markov. vi
  • 7. Abstract The identification of cis-regulatory elements on DNA is crucial for the understan- ding of the complex regulatory networks that orchestrate diverse cell mechanisms such as differentiation, development and apoptosis. However, this task is very com- plex, given the great number of different transcription factors in the human genome. Currently, it is believed that there are around 1,500 factors, each of which can bind directly or indirectly to multiple loci. The standard computational approach for the detection of such regions consists in using Position Weight Matrices, which are probabilistic representations of the factor’s binding affinities, to search the genome for regions likely to be binding sites. However, such approach results in a very high number of false positive hits, since it cannot distinguish between active / inactive binding sites and also because motifs are usually small and degenerate. To overcome these problems, recent techniques are being based on epigenetic features. The main idea is that some regions of the chromatin are densely packed in a closed structure, preventing the binding of regulatory proteins, while other regions are less packed (open chromatin), allowing such binding. Current research shows that data sources that are capable of signaling open regions, such as DNase I digestion (obtained by DNase-seq) and histone modifications (obtained by ChIP-seq) can improve trans- cription factor binding sites prediction. In this work, a continuous bivariate hidden Markov model is proposed which is capable of integrating epigenetic data sources, in order to evaluate if the results can be improved when compared to standard computational approaches or to single data source approaches. Besides that, a novel technique to estimate the parameters of the model was developed, making costly traditional procedures no longer necessary. It was observed that the proposed model significantly improves the sensitivity with low or no negative effect on the specificity when compared to open chromatin-only models. Keywords: Transcription Factor Binding Sites; DNase-seq; ChIP-seq; Histone Modifications; Hidden Markov Models. vii
  • 8. Sum´ario Lista de Figuras x Lista de Tabelas xi Gloss´ario xii 1 Introdu¸c˜ao 1 1.1 Motiva¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Contribui¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Contextualiza¸c˜ao Biol´ogica 7 2.1 Conceitos B´asicos em Biologia Molecular . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.1 DNA e RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Prote´ınas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.3 Estrutura da Cromatina . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.4 Dogma Central da Biologia Molecular . . . . . . . . . . . . . . . . . . . . 13 2.2 Regula¸c˜ao Gˆenica em Eucariotos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.1 Maquinaria Regulat´oria Proximal . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.2 Elementos Regulat´orios Transcricionais . . . . . . . . . . . . . . . . . . . 21 2.2.2.1 N´ucleo do Promotor . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.2.2 Elementos Promotores Proximais . . . . . . . . . . . . . . . . . . 22 2.2.2.3 Amplificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2.2.4 Silenciadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2.2.5 Insuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.2.6 Regi˜oes de Controle de Locus . . . . . . . . . . . . . . . . . . . . 24 2.3 Identifica¸c˜ao de S´ıtios de Liga¸c˜ao de Fatores de Transcri¸c˜ao . . . . . . . . . . . . 24 2.3.1 DNase I Footprinting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.2 Imunoprecipita¸c˜ao da Cromatina . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.3 Motif Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4 Solu¸c˜ao Epigen´etica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 viii
  • 9. 2.4.1 Conceitos e Elementos Epigen´eticos . . . . . . . . . . . . . . . . . . . . . 33 2.4.2 M´etodos de Obten¸c˜ao de Dados Epigen´eticos . . . . . . . . . . . . . . . . 35 2.4.3 Gera¸c˜ao de Sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.5 Revis˜ao da Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.6 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3 Modelos Escondidos de Markov 42 3.1 Modelos Escondidos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 M´etodos de Predi¸c˜ao Baseados em HMMs . . . . . . . . . . . . . . . . . . . . . . 45 3.2.1 Algoritmo de Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.2 Probabilidade Posterior . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.3 Estima¸c˜ao de Parˆametros em HMMs . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4 Metodologia 53 4.1 Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.2 Motif Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.3 An´alises de Enriquecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.4 Processamento dos Sinais Epigen´eticos . . . . . . . . . . . . . . . . . . . . . . . . 58 4.5 Footprinting com HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.6 Estima¸c˜ao de Parˆametros e Aplica¸c˜ao dos HMMs . . . . . . . . . . . . . . . . . . 62 4.7 Gold Standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.8 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5 Resultados e Discuss˜ao 66 5.1 An´alise dos Sinais Epigen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.2 Acur´acia do Modelo Proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.3 Tempo de Execu¸c˜ao e Armazenamento . . . . . . . . . . . . . . . . . . . . . . . . 85 5.4 Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 6 Conclus˜ao 88 6.1 Objetivos Atingidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 6.2 Dificuldades e Limita¸c˜oes de Escopo . . . . . . . . . . . . . . . . . . . . . . . . . 89 6.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Referˆencias 91 ix
  • 10. Lista de Figuras 2.1 C´elula eucari´otica animal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Estrutura do DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3 Compara¸c˜ao entre as estruturas moleculares da prote´ına e do DNA . . . . . . . . 11 2.4 Vis˜ao global da estrutura da cromatina . . . . . . . . . . . . . . . . . . . . . . . 13 2.5 Dogma central da Biologia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.6 Etapas do processo de transcri¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.7 Diferentes tipos de elementos cis-atuantes . . . . . . . . . . . . . . . . . . . . . . 19 2.8 Maquinaria transcricional eucari´otica . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.9 Funcionamento dos elementos regulat´orios distais . . . . . . . . . . . . . . . . . . 22 2.10 Esquema do m´etodo DNase I Footprinting . . . . . . . . . . . . . . . . . . . . . . 28 2.11 Esquema do m´etodo ChIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.12 M´etodo para gerar PWMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.13 Elementos epigen´eticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.14 Modifica¸c˜oes de histonas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.15 Gera¸c˜ao de Sinais Genˆomicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.1 Esquema de um modelo escondido de Markov . . . . . . . . . . . . . . . . . . . . 44 4.1 Fases do processo experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.2 Modifica¸c˜ao dos sinais ao longo do processamento . . . . . . . . . . . . . . . . . . 60 4.3 HMM que utiliza dados de DNase-seq apenas . . . . . . . . . . . . . . . . . . . . 61 4.4 Modelagem do HMM e exemplo de aplica¸c˜ao . . . . . . . . . . . . . . . . . . . . 62 5.1 An´alise das melhores regi˜oes de MPBS para o CTCF . . . . . . . . . . . . . . . . 68 5.2 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.1 . . . . . . . . . . . . . . 70 5.3 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.2 . . . . . . . . . . . . . . 71 5.4 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado Pt. 1 . 73 5.5 Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado Pt. 2 . 74 5.6 Exemplo de uma regi˜ao com resultados melhorados pelo modelo proposto . . . . 84 5.7 Exemplo do problema das previs˜oes amplas . . . . . . . . . . . . . . . . . . . . . 85 x
  • 11. Lista de Tabelas 2.1 Impacto das modifica¸c˜oes de histonas na estrutura da cromatina e express˜ao gˆenica 36 4.1 Fontes dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2 Sinais epigen´eticos e fatores estudados . . . . . . . . . . . . . . . . . . . . . . . . 56 5.1 Quantidade de footprints encontrados com cada modelo . . . . . . . . . . . . . . 76 5.2 Resultados para o fator ATF3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.3 Resultados para o fator CTCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.4 Resultados para o fator CTCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.5 Resultados para o fator GABP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5.6 Resultados para o fator GABP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.7 Resultados para o fator REST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.8 Resultados para o fator REST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.9 Compara¸c˜ao da sensibilidade e especificidade entre o modelo pr´evio e o proposto 82 5.10 Tempo de execu¸c˜ao e mem´oria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.11 Espa¸co necess´ario para armazenamento . . . . . . . . . . . . . . . . . . . . . . . 86 xi
  • 12. Gloss´ario Acetila¸c˜ao Rea¸c˜ao que introduz um grupo funcional acetila em um composto orgˆanico. ATP Adenosina Trifosfato; nucleot´ıdeo res- pons´avel pelo armazenamento de energia em suas liga¸c˜oes qu´ımicas, utilizado em rea¸c˜oes que exigem tal energia. Biopython Conjunto de bibliotecas para a lingua- gem Python contendo implementa¸c˜oes de diversas ferramentas biol´ogicas necess´arias em v´arias ´areas de bioinform´atica. bp Base Pair (pares de bases); representa um par de bases (nucleot´ıdeos) no DNA, isto ´e, uma coordenada genˆomica. BRE TFIIB-Recognition Element; elemento presente no n´ucleo do promotor de alguns genes relacionado com a forma¸c˜ao do com- plexo pr´e-inicia¸c˜ao. ChIP Chromatin Immunoprecipitation (imu- noprecipita¸c˜ao da cromatina); t´ecnica biol´ogica para recuperar regi˜oes genˆomicas onde uma prote´ına de interesse est´a ligada, atrav´es da imunoprecipita¸c˜ao da mesma utilizando um anticorpo (ou outros mate- riais). ChIP-chip Chromatin Immunoprecipitation fol- lowed by chip (imunoprecipita¸c˜ao da cro- matina seguida de chip); t´ecnica biol´ogica para identificar regi˜oes genˆomicas onde uma prote´ına de interesse est´a ligada atrav´es da realiza¸c˜ao de ChIP seguida de experimentos com tiling arrays. ChIP-seq Chromatin Immunoprecipitation followed by massive sequencing (imunoprecipita¸c˜ao da cromatina seguida de sequenciamento massivo); t´ecnica biol´ogica para identificar regi˜oes genˆomicas onde uma prote´ına de interesse est´a ligada atrav´es da realiza¸c˜ao de ChIP seguida de sequenciamento mas- sivo dos fragmentos genˆomicos recupera- dos. DCE Downstream Core Elements; elemento presente no n´ucleo do promotor de alguns genes relacionado com a forma¸c˜ao do com- plexo pr´e-inicia¸c˜ao. DNase-chip DNase I digestion followed by chip (di- gest˜ao por DNase I seguida de chip); t´ecnica biol´ogica para identifica¸c˜ao de regi˜oes de cromatina descondensada atrav´es da clivagem do DNA com a endo- nuclease DNase I seguida de experimentos com tiling arrays. DNase-seq DNase I digestion followed by massive se- quencing (digest˜ao por DNase I seguida de sequenciamento massivo); t´ecnica biol´ogica para identifica¸c˜ao de regi˜oes de cromatina descondensada atrav´es da cliva- gem do DNA com a endonuclease DNase I seguida de sequenciamento massivo dos fragmentos genˆomicos recuperados. DNase I Desoxirribonuclease I; endonuclease codi- ficada pelo gene DNASE1 capaz de clivar o DNA em v´arias diferentes condi¸c˜oes. dNTP desoxirribonucleot´ıdeo trifosfato; monˆomero do DNA em seu formato com trˆes grupos fosfato, necess´arios para pro- duzir a energia suficiente para a intera¸c˜ao com a macromol´ecula de DNA. EDTA Ethylenediamine Tetraacetic Acid (´acido etilenodiamino tetra-ac´etico); composto orgˆanico que age como agente quelante, formando complexos muito est´aveis com diversos ´ıons met´alicos. Das v´arias uti- liza¸c˜oes destaca-se o controle em experi- mentos de ChIP. EM Expectation Maximization (maximiza¸c˜ao da esperan¸ca); Algoritmo iterativo com objetivo de encontrar a estimativa de parˆametros de m´axima verossimilhan¸ca xii
  • 13. utilizando dados sem r´otulos (isto ´e, n˜ao se sabe a classe dos padr˜oes). ENCODE Encyclopedia of DNA Elements; Inicia- tiva dentro do programa Genome Browser da Universidade da Calif´ornia em Santa Cruz que disponibiliza diversas faixas de dados relativos `a genˆomica funcional. Endonuclease Classe de prote´ınas que clivam as liga¸c˜oes fosfodi´ester dentro de uma cadeia de DNA. FAIRE Formaldehyde-Assisted Identification of Regulatory Elements; t´ecnica biol´ogica para identifica¸c˜ao de regi˜oes de cromatina descondensada atrav´es de um protocolo menos denso do que o do DNase-seq. FMR1 Fragile X Mental Retardation 1; gene respons´avel pela codifica¸c˜ao da prote´ına FMRP, comumente encontrada no c´erebro e essencial para o desenvolvimento cogni- tivo e reprodu¸c˜ao em fˆemeas. Fosforila¸c˜ao Rea¸c˜ao que introduz um grupo funcio- nal fosfato em um composto orgˆanico. GHMM General Hidden Markov Model Library; Biblioteca dispon´ıvel em C e em Python que implementa de forma eficiente HMMs com emiss˜oes discretas ou cont´ınuas. GTF General Transcription Factors (fatores de transcri¸c˜ao gerais); conjunto de prote´ınas que, junto com a RNA polimerase e o me- diador, constituem o aparato b´asico para que a transcri¸c˜ao ocorra em n´ıvel basal em eucariotos. HMM Hidden Markov Model (modelo escondido de Markov); t´ecnica para modelagem es- tat´ıstica de s´eries temporais baseada em processos estoc´asticos de Markov. HS DNase I Hypersensitive Sites (s´ıtios hiper- sens´ıveis `a DNase I); regi˜oes no DNA que permitem a clivagem atrav´es da endonu- clease DNase I. Inr Elemento Iniciador; elemento presente no n´ucleo do promotor de alguns genes rela- cionado com a forma¸c˜ao do complexo pr´e- inicia¸c˜ao. LCR Locus Control Regions; regi˜ao composta por v´arios elementos cis-atuantes distais cuja composi¸c˜ao representa a sua funcio- nalidade regulat´oria. MACS Model-based Analysis for ChIP-Seq; Fer- ramenta utilizada para analisar (processar e encontrar picos) dados de ChIP-seq. Metila¸c˜ao Rea¸c˜ao que introduz um grupo funcional metila em um composto orgˆanico. Microarray Microarranjo; t´ecnica experimental para medir n´ıveis de express˜ao gˆenica (ou alguns outros atributos) que utiliza um chip que cont´em diversos fragmentos de DNA que representam regi˜oes de interesse (genes ou exons, por exemplo). MM Motif Matching; t´ecnica computacional que utiliza representa¸c˜oes probabil´ısticas de motifs (PFMs, PSSMs ou PWMs) para atribuir um grau de afinidade para regi˜oes genˆomicas a respeito da probabilidade de um fator de transcri¸c˜ao se ligar `aquela regi˜ao Motif padr˜ao frequente ou assinatura; sequˆencia genˆomica ou proteˆomica com padr˜ao reco- nhec´ıvel e que tenha significado biol´ogico. MPBS Motif Predicted Binding Sites (s´ıtios de liga¸c˜ao preditos atrav´es de motifs); termo utilizado para referenciar s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao preditos atrav´es de motif matching. MPSS Massively Parallel Signature Sequencing; abordagem utilizada para identificar e quantificar transcritos de mRNA presen- tes em uma amostra. MTE Motif Ten Element; elemento presente no n´ucleo do promotor de alguns genes rela- cionado com a forma¸c˜ao do complexo pr´e- inicia¸c˜ao. PCR Polymerase Chain Reaction (rea¸c˜ao em cadeia da polimerase); m´etodo de ampli- fica¸c˜ao (de cria¸c˜ao de m´ultiplas c´opias) de DNA. xiii
  • 14. PFM Position Frequency Matrix (matriz de frequˆencia de posi¸c˜ao); representa¸c˜ao ma- tricial de um motif onde as linhas repre- sentam os nucleot´ıdeos e as colunas repre- sentam as posi¸c˜oes do motif. PIC Transcription Preinitiation Complex (complexo pr´e-inicia¸c˜ao de transcri¸c˜ao); complexo de prote´ınas montados na regi˜ao promotora necess´arias para a transcri¸c˜ao. PSSM Position Specific Scoring Matrix (matri- zes de pontua¸c˜ao espec´ıfica por posi¸c˜ao); neste trabalho est´a sendo utilizado como sinˆonimo de PWM. PWM Position Weight Matrix (matrizes de peso de posi¸c˜ao); representa¸c˜ao matricial lo- gar´ıtmica de um motif criada atrav´es de uma PFM. Python Linguagem de programa¸c˜ao de alto n´ıvel, interpretada, imperativa, orientada a ob- jetos, de tipagem dinˆamica e forte. Uti- lizada para analisar os dados, aplicar os m´etodos e gerar os gr´aficos em todo o pro- jeto. rNTP ribonucleot´ıdeo trifosfato; monˆomero do RNA em seu formato com trˆes grupos fos- fato, necess´arios para produzir a energia suficiente para a intera¸c˜ao com a macro- mol´ecula de RNA. SNP Single Nucleotide Polymorphism (poli- morfismos de ´unico nucleot´ıdeo); varia¸c˜oes pontuais (em apenas um nucleot´ıdeo) no genoma. STAMP Ferramenta computacional utilizada para, entre outras funcionalidades, encontrar evidˆencias de motifs de fatores de trans- cri¸c˜ao em pequenos fragmentos de DNA a partir de reposit´orios inteiros de PWMs. TF Transcription Factor (fator de trans- cri¸c˜ao); elementos regulat´orios trans- atuantes. S˜ao prote´ınas que se ligam em regi˜oes espec´ıficas no genoma para regular a transcri¸c˜ao de um ou mais genes. TFBS Transcription Factor Binding Site (s´ıtio de liga¸c˜ao de fatores de transcri¸c˜ao); ele- mentos regulat´orios cis-atuantes. S˜ao as regi˜oes onde os fatores de transcri¸c˜ao se ligam. Tiling array t´ecnica experimental semelhante ao microarranjo, por´em neste caso os frag- mentos de DNA no chip representam regi˜oes cont´ıguas no genoma dada uma ja- nela e deslocamento espec´ıfico. TSS Transcription Start Site (s´ıtios de in´ıcio de transcri¸c˜ao); s´ıtio onde a transcri¸c˜ao se inicia. Ubiquitina¸c˜ao Marca¸c˜ao atrav´es de mol´eculas ubi- quitina. xiv
  • 15. 1 Introdu¸c˜ao 1.1 Motiva¸c˜ao Em outubro de 1990, iniciou-se o chamado Projeto Genoma Humano com o objetivo, na ´epoca extraordin´ario, de sequenciar o genoma humano completo. Dessa ´epoca at´e os dias de hoje, as tecnologias de sequenciamento avan¸caram de forma muito r´apida. Para se ter uma ideia, em Setembro de 2001 o custo para sequenciar 1Mb de sequˆencia de DNA era cerca de $5.300,00 (totalizando aproximadamente $95.300.000,00 por genoma humano); Enquanto em Julho de 2011 o custo para 1Mb era $0,12 (fazendo um total aproximado de $10.500,00 por genoma humano) [DNA Sequencing Consortiums, 2012]. O Projeto Genoma Humano levou 13 anos para ser completado, por´em hoje em dia somos capazes de sequenciar o genoma humano completo com cerca de 3,194 bilh˜oes de pares de bases (bp, do Inglˆes Base Pairs) em apenas trˆes dias. H´a algum tempo atr´as, achava-se que, de posse do genoma completo de um dado orga- nismo, se poderia determinar com exatid˜ao seu fen´otipo, sua suscetibilidade a doen¸cas, fornecer diagn´osticos com alta precis˜ao e que os tratamentos para doen¸cas complexas como o cˆancer evoluiriam a ponto de curarem a maior parte das ocorrˆencias. Por´em percebeu-se que a simples defini¸c˜ao da sequˆencia de nucleot´ıdeos que comp˜oem o genoma n˜ao ´e suficiente para explicar os diversos processos regulat´orios e metab´olicos que ocorrem nos organismos dos seres vivos. Tais processos fazem parte de uma complexa cadeia de eventos que podem sim ocorrer no n´ıvel genˆomico e regulat´orio: transcricional, p´os-transcricional, traducional ou p´os-traducional. A execu¸c˜ao correta dos processos biol´ogicos tais como desenvolvimento, prolifera¸c˜ao, enve- lhecimento, diferencia¸c˜ao e apoptose requer um conjunto de passos preciso e cuidadosamente orquestrado que depende da express˜ao espacial e temporal dos genes apropriada. Isso resulta no fato de que a desregula¸c˜ao da express˜ao gˆenica muitas vezes ´e relacionada a doen¸cas [Rosen- bloom et al., 2011]. Na era da p´os-genˆomica, as aten¸c˜oes est˜ao se voltando para o entendimento 1
  • 16. 1. INTRODUC¸ ˜AO de como os genes codificantes de prote´ınas (cerca de 20.000 – 25.000 em humanos) e seus pro- dutos funcionam, principalmente sobre como seus padr˜oes de express˜ao espacial e temporal s˜ao estabelecidos tanto no n´ıvel celular quanto considerando o organismo como um todo [Maston et al., 2006]. Para entender esses mecanismos moleculares que governam os padr˜oes de express˜ao gˆenica em uma escala global, ´e importante identificar os elementos regulat´orios envolvidos nessas ati- vidades. Exemplos desses componentes s˜ao elementos regulat´orios trans-atuantes (ou fatores de transcri¸c˜ao (TFs, do Inglˆes Transcription Factors)), cis-atuantes (tais como silenciadores, amplificadores e insuladores) e fatores epigen´eticos (tais como modifica¸c˜oes de histonas, remo- delamento da cromatina e metila¸c˜ao do DNA), cada um deles participando para que a express˜ao gˆenica ocorra de forma apropriada em processos biol´ogicos espec´ıficos para cada c´elula, comuns entre alguns grupos de c´elulas ou ub´ıquos (presentes em todas as c´elulas do organismo) [Maston et al., 2006; Rosenbloom et al., 2011]. A identifica¸c˜ao desses elementos, em especial os elementos regulat´orios cis-atuantes nos quais os fatores de transcri¸c˜ao se ligam, pode ser uma tarefa bastante complexa, j´a que ´e estimado que existam mais que 1500 diferentes fatores de transcri¸c˜ao no genoma humano [Boyle et al., 2011]. Al´em disso, s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao (TFBSs, do Inglˆes Transcription Factor Binding Sites), com seus padr˜oes frequentes ou assinaturas (em Inglˆes, motifs), s˜ao pequenos, com tamanhos geralmente variando entre 6 – 12 bp dos quais n˜ao mais que 4 – 6 bp ditam a especificidade da liga¸c˜ao [Maston et al., 2006]. Al´em disso, apenas um subconjunto deles est´a ativo durante um determinado estado da c´elula, com os elementos deste subconjunto variando bastante entre diferentes tipos celulares [Cuellar-Partida et al., 2012]. Tamb´em s˜ao fatores complicadores o fato de que v´arios fatores de transcri¸c˜ao tˆem m´ultiplos s´ıtios de liga¸c˜ao poss´ıveis (com diferentes motifs) e a existˆencia de fatores que se ligam a DNA indiretamente, juntamente com outro fator ou complexo proteico [Alberts, 2007]. A abordagem computacional padr˜ao para a identifica¸c˜ao de TFBSs – Motif Matching (MM) – utiliza representa¸c˜oes probabil´ısticas das afinidades dos s´ıtios de liga¸c˜ao, seguido de um pro- cedimento estat´ıstico para detectar regi˜oes genˆomicas com uma alta probabilidade de serem s´ıtios de liga¸c˜ao para um fator em particular [Stormo, 2000]. N˜ao obstante, motif matching ´e um m´etodo altamente sens´ıvel ao poder estat´ıstico do algoritmo que est´a sendo utilizado para realizar tal procedimento e da qualidade da representa¸c˜ao probabil´ıstica do motif utilizada. V´arias desvantagens e impraticabilidades podem ser citadas como: (1) esse m´etodo ´e incapaz de distinguir entre regi˜oes ativas e inativas; (2) os motifs geralmente s˜ao pequenos (sendo f´acil encontrar por acaso regi˜oes que n˜ao s˜ao s´ıtios de liga¸c˜ao) ou degenerados (especificidade de liga¸c˜ao muito pequena) [Boyle et al., 2011; Maston et al., 2006]; (3) representa¸c˜oes de motifs s˜ao dif´ıceis de serem geradas e existe uma quantidade muito pequena de fatores com tais repre- senta¸c˜oes dispon´ıveis em reposit´orios curados [Boyle et al., 2011]; (4) a identifica¸c˜ao de s´ıtios 2
  • 17. 1.1. MOTIVAC¸ ˜AO de liga¸c˜ao de fatores que se ligam ao DNA de forma indireta ´e dif´ıcil, dado que eles n˜ao tˆem motifs bem definidos. A abordagem padr˜ao para identifica¸c˜ao de TFBSs s˜ao os experimentos de DNase I Footprinting utilizando DNase I como agente de clivagem, que ´e um m´etodo de alta acur´acia e alta resolu¸c˜ao [Gross & Garrard, 1988; Keene et al., 1981]. Por´em este m´etodo ´e altamente t´ecnico e s´o consegue analisar < 1Kb por experimento o tornando impratic´avel em estudos pangenˆomicos (em Inglˆes, genome-wide), isto ´e, estudos cuja amplitude da an´alise ´e o genoma inteiro [Boyle et al., 2011; Lodish et al., 2007]. Novas tecnologias surgiram para suprir as dificuldades de aplica¸c˜ao dos m´etodos tradicionais. As principais t´ecnicas para identifica¸c˜ao de TFBSs atualmente s˜ao as abordagens baseadas em imunoprecipita¸c˜ao, seguidas de an´alises em tiling arrays (ChIP-chip) [Buck & Lieb, 2004] ou de sequenciamento em grande escala (ChIP-seq) [Park, 2009]. Por´em tais t´ecnicas s˜ao condicionais (espec´ıficas para as condi¸c˜oes em que as c´elulas est˜ao), falham para alguns fatores de transcri¸c˜ao em particular por motivos diversos e s˜ao experimentalmente e financeiramente custosas [Park, 2009]. O principal problema dessas t´ecnicas est´a no fato de que elas fornecem um mapa geral (isto ´e, pangenˆomico) dos s´ıtios de liga¸c˜ao apenas para um fator espec´ıfico por experimento. Em estudos que analisam apenas um ou poucos destes fatores de transcri¸c˜ao, essas t´ecnicas quase sempre s˜ao aplicadas por gerarem resultados com alta acur´acia e boa resolu¸c˜ao. Por´em caso o objetivo seja criar um mapa de todos os poss´ıveis s´ıtios de liga¸c˜ao para uma c´elula num determinado momento, o n´umero total de fatores de transcri¸c˜ao poss´ıveis juntamente com o alto custo e dificuldades t´ecnicas fazem com que ChIP-chip e ChIP-seq tenham pouco uso pr´atico. Tecnologias baseadas na jun¸c˜ao de experimentos baseados em clivagem a partir da enzima de restri¸c˜ao DNase I com an´alises em tiling arrays (DNase-chip) [Crawford et al., 2006a] ou sequen- ciamento em alta escala (DNase-seq) [Crawford et al., 2004; Song & Crawford, 2010] est˜ao se mostrando particularmente ´uteis para atingir o objetivo de caracterizar todos os s´ıtios de liga¸c˜ao de uma determinada linha celular em escala genˆomica. Apesar da acur´acia deste estudo ser ex- tremamente dependente da t´ecnica computacional e estat´ıstica associada `a an´alise dos padr˜oes de clivagem da DNase I, sua alta resolu¸c˜ao est´a dando possibilidade a estudos bem sucedidos [Boyle et al., 2008a, 2011; Crawford et al., 2004, 2006b]. Est´a se tornando comum a utiliza¸c˜ao destas t´ecnicas para gerar mapas, a n´ıvel genˆomico, de regi˜oes de cromatina descondensada, em diversos tipos de c´elulas humanas expandindo nossos conhecimentos de diferencia¸c˜ao celular ou simplesmente aumentando a quantidade de elementos regulat´orios com suporte de evidˆencias [Song & Crawford, 2010]. Por´em as t´ecnicas baseadas em DNase I n˜ao fornecem a informa¸c˜ao de quais s˜ao os fatores de transcri¸c˜ao que se ligam nos locais encontrados. Al´em disso, as t´ecnicas estat´ısticas utilizadas est˜ao atingindo um grau de complexidade bastante elevado e mostrando que ainda existem grandes quantidades de falsos positivos ou falsos negativos dependendo da situa¸c˜ao [Boyle et al., 2011; Cuellar-Partida et al., 2012; Pique-Regi et al., 2011]. 3
  • 18. 1. INTRODUC¸ ˜AO Al´em do uso de m´etodos baseados em DNase I, pesquisas recentes tˆem focado na busca de padr˜oes espec´ıficos de modifica¸c˜oes p´os-traducionais (tais como acetila¸c˜ao ou metila¸c˜ao) em prote´ınas chamadas histonas em diferentes tipos celulares e dados diversos padr˜oes de express˜ao gˆenica. De fato, muitos desses estudos tˆem mostrado claros padr˜oes (assinaturas) na cromatina e tˆem sugerido a aplica¸c˜ao destes resultados na identifica¸c˜ao de elementos regulat´orios [Barski et al., 2007; Ernst & Kellis, 2010; Heintzman et al., 2007; Hon et al., 2009; Spivakov & Fisher, 2007]. Em particular, as modifica¸c˜oes de histonas H3K4me2, H3K4me3, H3K9ac, H3K27ac e a histona variante H2A.Z s˜ao ´otimos marcadores de regi˜oes onde a cromatina se encontra em um estado menos enovelado (cromatina descondensada). Portanto, a presen¸ca destes marcadores epigen´eticos ´e capaz de delimitar regi˜oes ricas em s´ıtios de liga¸c˜ao de elementos regulat´orios [Barski et al., 2007; Ramsey et al., 2010; Schones & Zhao, 2008]. Alguns estudos atuais tˆem investigado a possibilidade de integra¸c˜ao de diferentes meto- dologias biol´ogicas como ChIP-seq ou ChIP-chip para padr˜oes de histonas ou DNase-chip e DNase-seq com metodologias computacionais e probabil´ısticas, aplicadas diretamente ao con- texto da identifica¸c˜ao de elementos regulat´orios [Cuellar-Partida et al., 2012; Pique-Regi et al., 2011; Won et al., 2010]. Al´em disso, estudos que comparam diferentes padr˜oes epigen´eticos, fora de algum contexto espec´ıfico, fornecem conceitos importantes que devem ser considerados durante a cria¸c˜ao de uma metodologia aplicada a um problema espec´ıfico [Shu et al., 2011] Cientistas est˜ao entrando em consenso de que, no contexto de identifica¸c˜ao de s´ıtios de liga¸c˜ao para fatores de transcri¸c˜ao a n´ıvel genˆomico, abordagens que agregam diferentes tipos de informa¸c˜ao atingem os objetivos de forma mais acurada e confi´avel do que a aplica¸c˜ao de t´ecnicas individuais [Lassig, 2007]. Neste trabalho, v´arias fontes de dados epigen´eticos provenientes de experimentos de identifica¸c˜ao de cromatina descondensada com DNase-seq e modifica¸c˜oes de histonas com ChIP-seq ser˜ao integradas utilizando uma abordagem probabil´ıstica baseada em modelos escondidos de Markov multivariados com emiss˜oes representando fun¸c˜oes gaussianas. Para que os resultados sejam positivos, uma metodologia ser´a claramente definida envolvendo o tratamento dos diferentes tipos de dados, implementa¸c˜ao de t´ecnicas especiais para que as cadeias de Markov n˜ao tenham problemas num´ericos associados a dimensionalidade e quantidade de exemplos e verifica¸c˜ao da acur´acia do modelo sem nenhum tipo de vi´es resultante da aplica¸c˜ao das t´ecnicas escolhidas. 1.2 Contribui¸c˜oes A contribui¸c˜ao deste projeto consiste na constru¸c˜ao de um modelo escondido de Markov biva- riado cont´ınuo capaz de predizer s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao em humanos. Este modelo ser´a alimentado sempre com dados de cromatina descondensada e uma espec´ıfica modi- fica¸c˜ao de histona, de um conjunto maior de modifica¸c˜oes. Para que este modelo seja constru´ıdo, 4
  • 19. 1.3. ESTRUTURA DO DOCUMENTO an´alises dos padr˜oes m´edios simples ao redor de regi˜oes de TFBS experimentalmente determi- nadas ser˜ao realizadas. Determinados tais padr˜oes, o modelo ´e constru´ıdo, treinado (isto ´e, seus parˆametros s˜ao estimados) e testado. Com base em um conjunto de valida¸c˜ao bem definido na literatura ´e poss´ıvel avaliar tal modelo de forma eficaz. Al´em da constru¸c˜ao de um novo modelo capaz de integrar fontes de dados epigen´eticas, um novo algoritmo de estima¸c˜ao de parˆametros ser´a proposto. A motiva¸c˜ao para a cria¸c˜ao deste algoritmo est´a no fato de que os m´etodos presentes na literatura, na amplitude pesquisada, utilizavam dados provenientes da aplica¸c˜ao de t´ecnicas biol´ogicas custosas como base para o treinamento. De forma simples, estes conjuntos representam as informa¸c˜oes biologicamente va- lidadas a respeito de s´ıtios de liga¸c˜ao. Constantemente tais dados eram obtidos em estudos mais antigos na literatura, resultando em conjuntos de treinamento pequenos e que, em v´arios casos, n˜ao correspondiam `as regi˜oes mais interessantes de se aplicar o treinamento. Portanto, o novo m´etodo de treinamento se baseia exclusivamente na aplica¸c˜ao de uma ferramenta computacional para avalia¸c˜ao de motifs chamada STAMP [Mahony & Benos, 2007]. Atrav´es da metodologia proposta, pretende-se verificar se modelos integrativos conseguem melhorar a acur´acia em compara¸c˜ao a modelos que utilizam apenas cromatina descondensada como base preditiva, com base nos fatos: (1) Existem diversos locais observados com baixo sinal de digest˜ao de DNase I por´em com alta concentra¸c˜ao de s´ıtios de liga¸c˜ao ativos (falso negativos) e (2) algumas regi˜oes hipersens´ıveis `a DNase I n˜ao apresentam s´ıtios de liga¸c˜ao (falso positivos). Nossa hip´otese ´e que sinais de histonas, como uma fonte de dados adicionais, contribuir˜ao para resolver algumas dessas ambiguidades. 1.3 Estrutura do Documento No cap´ıtulo seguinte ser˜ao realizadas as principais defini¸c˜oes biol´ogicas necess´arias para o enten- dimento deste projeto de pesquisa. Ap´os uma breve introdu¸c˜ao revisando os conceitos b´asicos de biologia molecular (direcionado a leitores com embasamento puramente computacional), ser˜ao abordados temas como: regula¸c˜ao gˆenica, elementos regulat´orios (cis-atuantes e trans-atuantes) e epigen´etica. Tamb´em ser˜ao revisados os principais m´etodos computacionais, estat´ısticos e biol´ogicos que contˆem alguma rela¸c˜ao com a proposta deste trabalho. Finalmente, trabalhos relacionados ser˜ao brevemente descritos na ´ultima se¸c˜ao desse cap´ıtulo, tra¸cando sempre um paralelo com a abordagem proposta. O Cap´ıtulo 3 cont´em toda a formaliza¸c˜ao matem´atica do principal m´etodo utilizado neste trabalho: as cadeias escondidas de Markov. Ap´os uma apresenta¸c˜ao dos conceitos b´asicos de probabilidade e estat´ıstica, com objetivo principal de definir a nomenclatura utilizada, ser´a 5
  • 20. 1. INTRODUC¸ ˜AO realizada uma introdu¸c˜ao a este modelo probabil´ıstico. Em sequˆencia, s˜ao formalizados os m´etodos de predi¸c˜ao e estima¸c˜ao de parˆametros utilizados neste projeto. No Cap´ıtulo 4 ser˜ao definidos todos os procedimentos metodol´ogicos realizados neste traba- lho. Ser˜ao descritos os reposit´orios onde os dados foram obtidos, os m´etodos de busca genˆomica baseada em motifs (motif matching), os m´etodos de processamento dos sinais epigen´eticos, as t´ecnicas estat´ısticas de identifica¸c˜ao de regi˜oes enriquecidas de picos, a aplica¸c˜ao dos modelos probabil´ısticos e seu treinamento e a forma como a acur´acia dos modelos foi aferida. No Cap´ıtulo 5 todos os resultados ser˜ao exibidos. Tais resultados contˆem descri¸c˜oes visuais do processamento dos sinais, resultados da aplica¸c˜ao dos modelos probabil´ısticos e tabelas con- tendo as acur´acias calculadas com base nos m´etodos estat´ısticos mais utilizados na literatura. Resultados ser˜ao exibidos tanto para o m´etodo proposto neste trabalho quanto para a replica¸c˜ao de m´etodos j´a existentes para efeito de compara¸c˜ao. Al´em disso, ser´a realizada uma discuss˜ao a respeito dos resultados obtidos. Todos os pontos metodol´ogicos e vieses s˜ao claramente exibidos para introduzir as asser¸c˜oes feitas com base nos resultados. Ser´a mostrado que os modelos pro- postos conseguem superar modelos j´a existentes na literatura. Essa discuss˜ao tem o objetivo de motivar posteriores estudos com base na automatiza¸c˜ao de processos laboriosos, melhoramento das acur´acias observadas e constru¸c˜ao de modelos mais complexos baseados na integra¸c˜ao de m´ultiplos sinais epigen´eticos. Finalmente, no Cap´ıtulo 6, o trabalho ´e sumarizado. Os principais pontos ser˜ao destacados, incluindo as realiza¸c˜oes e limita¸c˜oes dos modelos e t´ecnicas propostos. Por fim, uma descri¸c˜ao detalhada da continua¸c˜ao deste trabalho ´e realizada, com destaque principal para o objetivo final: a constru¸c˜ao de um modelo generalizado e capaz de integrar um n´umero maior de sinais. 6
  • 21. 2 Contextualiza¸c˜ao Biol´ogica Neste cap´ıtulo, ser˜ao descritos os conceitos biol´ogicos necess´arios para o entendimento deste projeto de pesquisa. Em primeiro lugar, os conceitos b´asicos em Biologia Molecular ser˜ao apresentados. Tal apresenta¸c˜ao ser´a conduzida superficialmente, com objetivo ´unico de suprir as necessidades do leitor n˜ao familiarizado com a ´area da Biologia Molecular. Explica¸c˜oes mais detalhadas a respeito de assuntos como Gen´etica ou Biologia Molecular, podem ser encontradas em livros did´aticos tais como [Alberts, 2007; Allis et al., 2007; Lewin, 2003; Lodish et al., 2007; Watson et al., 2003]. A seguir, ser´a realizada uma introdu¸c˜ao ao conceito de regula¸c˜ao gˆenica em eucariotos. Pos- teriormente, o mecanismo regulat´orio ser´a descrito em mais detalhes atrav´es da apresenta¸c˜ao esquem´atica dos elementos que participam na transcri¸c˜ao de forma proximal e distal. Nesse momento, ser˜ao definidos os conceitos de elementos regulat´orios cis- e trans- atuantes. Em seguida, o conceito de epigen´etica ser´a detalhado e mais informa¸c˜oes ser˜ao dadas a respeito de caracter´ısticas epigen´eticas exploradas neste trabalho como as modifica¸c˜oes das histonas. Final- mente, ser˜ao exibidos os m´etodos biol´ogicos mais importantes neste tema e ser˜ao mencionados alguns estudos que fazem parte do estado da arte da identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. Ao longo de todo o documento, foi optado por deixar alguns termos nas suas vers˜oes originais em Inglˆes. Alguns destes n˜ao possuem tradu¸c˜ao direta, enquanto outros n˜ao possuem tradu¸c˜ao consensual, fazendo com que suas respectivas tradu¸c˜oes tornem a leitura um pouco mais dif´ıcil. 7
  • 22. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA 2.1 Conceitos B´asicos em Biologia Molecular A Biologia Molecular consiste, de forma bastante sucinta, no estudo da c´elula no n´ıvel molecular. O principal foco desta ´area de conhecimento, que agrega conhecimentos, ferramentas e objetivos em comum com ´areas como Bioqu´ımica e Gen´etica, ´e o estudo do material gen´etico contido dentro da c´elula dos organismos e os seus produtos, as prote´ınas. Esta se¸c˜ao ser´a baseada nos livros e artigos [Alberts, 2007; Allis et al., 2007; Lewin, 2003; Lodish et al., 2007; Maston et al., 2006; Setubal & Meidanis, 1997; Watson et al., 2003], nos quais mais detalhes podem ser encontrados sobre os processos aqui exibidos. Estima-se que existam mais de 10 milh˜oes, provavelmente 100 milh˜oes, de organismos vivos no nosso planeta atualmente [Alberts, 2007]. Cada esp´ecie possui caracter´ısticas pr´oprias e ´e capaz de se reproduzir gerando descendentes da mesma esp´ecie, isto ´e, com atributos espec´ıficos na defini¸c˜ao dessas esp´ecies. Esse fenˆomeno, chamado hereditariedade, ´e central para a defini¸c˜ao de vida, distinguindo-a de outros processos qu´ımicos naturais. A maioria dos organismos vivos s˜ao compostos por uma ´unica c´elula (organismos unicelulares); outros, como n´os humanos, s˜ao compostos por mais de uma c´elula (organismos multicelulares). As c´elulas s˜ao o meio pelo qual a informa¸c˜ao heredit´aria se propaga atrav´es das gera¸c˜oes, possuindo toda a maquinaria necess´aria para agregar materiais naturais do ambiente e construir novas c´elulas a partir deles, contendo uma c´opia completa da informa¸c˜ao heredit´aria. A esse tipo de informa¸c˜ao ´e dado o nome de carga gen´etica, por motivos que ficar˜ao mais claros no decorrer do texto. A Figura 2.1 mostra um exemplo de uma c´elula animal e seus principais componentes Dos diversos componentes presentes dentro das c´elulas, existem quatro tipos de macro- mol´eculas. Essas macromol´eculas s˜ao pol´ımeros, isto ´e, s˜ao longas sequˆencias de unidades menores agregadas umas `as outras, chamadas de monˆomeros. S˜ao elas: carboidratos (formados por a¸c´ucares), lip´ıdeos (formados por componentes como ´acidos graxos ou glicerol), prote´ınas (formadas por amino´acidos) e ´acidos nucleicos (formados por nucleot´ıdeos). As duas ´ultimas ser˜ao focadas, j´a que possuem rela¸c˜ao com as caracter´ısticas heredit´arias de interesse para este trabalho. As prote´ınas possuem diversas fun¸c˜oes no organismo, entre elas: cat´alise de rea¸c˜oes qu´ımicas (enzimas), processamento de metab´olitos, sinaliza¸c˜ao celular, regula¸c˜ao da produ¸c˜ao das pr´oprias prote´ınas e fun¸c˜ao estrutural. Pela grande frequˆencia nas atividades metab´olicas, n´umero de diferentes tipos proteicos e variedade de processos em que as prote´ınas atuam, pode-se dizer que elas possuem um papel central para a manuten¸c˜ao dos organismos vivos. Os ´acidos nucleicos, por sua vez, encontram-se nos formatos de ´acido desoxirribonucleico (DNA) e ´acido ribonucleico (RNA). A fun¸c˜ao do DNA ´e guardar a informa¸c˜ao heredit´aria mencionada no in´ıcio deste texto. O RNA, por sua vez, desempenha um papel fundamental nos processos necess´arios para a ma- nifesta¸c˜ao destas informa¸c˜oes. O restante desta se¸c˜ao ser´a focada na defini¸c˜ao das estruturas 8
  • 23. 2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR cromatina (DNA) microtúbulo centrossomo com par de centríolos poro nuclear envelope nuclear matriz extracelular vesículas lisossomo mitocôndriaretículo endoplasmático núcleo nucléolo membrana plasmáticafilamentos intermediários complexo de Golgi ribossomos no citosol peroxissomo filamentos de actina 5 μm Figura 2.1: C´elula eucari´otica animal - Os principais componentes da c´elula eucari´otica animal. Fonte: [Alberts, 2007] do DNA, RNA e prote´ınas e no detalhamento do processo chamado dogma central da Biologia Molecular, onde as prote´ınas s˜ao criadas a partir da informa¸c˜ao contida no DNA. 2.1.1 DNA e RNA A mol´ecula de DNA ´e formada por uma dupla h´elice de cadeias polim´ericas emparelhadas dos mesmos quatro tipos de monˆomeros, os nucleot´ıdeos adenina (A), citosina (C), guanina (G) e timina (T) (Figura 2.2). Cada nucleot´ıdeo ´e composto por um a¸c´ucar (desoxirribose), um grupo fosfato e uma base nitrogenada (que define o tipo do nucleot´ıdeo). Cada nucleot´ıdeo ´e ligado a outro pertencente `a mesma fita atrav´es de liga¸c˜oes fosfodi´ester formando um arcabou¸co (em Inglˆes, backbone) de a¸c´ucar fosfato. As duas fitas s˜ao conectadas atrav´es de pontes de hidrogˆenio formadas entre as bases nitrogenadas, que se projetam para o interior das fitas. Duas pontes de hidrogˆenio s˜ao formadas entre adenina e timina e trˆes pontes de hidrogˆenio s˜ao formadas entre citosina e guanina. Por esta raz˜ao, ´e comum citar nucleot´ıdeos como pares de bases (bp) ou apenas bases. A mol´ecula de RNA difere da mol´ecula de DNA por possuir o a¸c´ucar ribose ao inv´es da desoxirribose, por geralmente existir no formato de fita simples, e n˜ao dupla (a ribose confere 9
  • 24. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA G G+ (A) estrutura do DNA (D) dupla fita de DNA (E) dupla hélice de DNA (B) fita de DNA fosfato- açúcar base nucleotídeo TC C C C C A A A AA T T G G G G G fosfato açúcar (C) esquema da polimerização de nova fita C C monômeros arcabouço de fosfato-açúcar pontes de hidrogênio G G G GG A A C C AG T G G T A A C C AG T G G T C C CA AG GT T T T TAC T TA A AC C A Figura 2.2: Estrutura do DNA - (A) Esquema dos componentes que formam o nucleot´ıdeo, unidade b´asica do DNA. (B) V´arios nucleot´ıdeos, dos diferentes tipos poss´ıveis (A, C, G ou T), ligados atrav´es de liga¸c˜oes fosfodi´ester formando uma fita simples de DNA. (C) O DNA ´e abundante em fita dupla. Processos biol´ogicos permitem a adi¸c˜ao de nucleot´ıdeos a uma fita simples, formando uma fita dupla de DNA, em um processo nomeado polimeriza¸c˜ao. Os nucleot´ıdeos do tipo A sempre formam duas pontes de hidrogˆenio com o tipo T e os nucleot´ıdeos do tipo C sempre formam trˆes pontes de hidrogˆenio com o tipo G. Tamb´em ´e comum o uso do termo hibridiza¸c˜ao para quando duas fitas pr´e- existentes se ligam devido `a complementaridade de seus nucleot´ıdeos; e o termo desnatura¸c˜ao, para quando algum evento, como o aumento da temperatura, separa as duas fitas preservando as liga¸c˜oes fosfodi´ester de ambas. (D) Fita dupla exibida em um esquema linear, com objetivo meramente ilustrativo, j´a que o DNA geralmente ocorre em formato de dupla h´elice. (E) O DNA em seu formato comum na natureza – dupla h´elice. Fonte: [Alberts, 2007] uma maior estabilidade `a esta estrutura, que inclusive possui capacidade de se hibridizar consigo pr´opria) e pelo fato de que o nucleot´ıdeo timina ´e substitu´ıdo pela uracila (U). As mol´eculas de RNA possuem v´arias fun¸c˜oes, das quais algumas ser˜ao descritas adiante. Por este motivo, existe uma extensa nomenclatura para os RNAs, de acordo com sua fun¸c˜ao. Os mais comuns s˜ao o mRNA (RNA mensageiro), tRNA (RNA transportador) e rRNA (RNA ribossˆomico), cujas fun¸c˜oes ficar˜ao claras durante a explica¸c˜ao do dogma central da Biologia Molecular. 2.1.2 Prote´ınas As prote´ınas s˜ao compostos qu´ımicos de alto peso molecular formados por uma longa cadeia de amino´acidos. Elas consistem em, aproximadamente, 80% do peso seco de uma c´elula. Essas 10
  • 25. 2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR macromol´eculas s˜ao formadas por blocos de amino´acidos que, por sua vez, s˜ao mol´eculas que possuem um carbono central ligado a um grupo carboxila, um grupo amina, um hidrogˆenio e uma cadeia lateral. Essa cadeia lateral pode assumir um entre vinte valores diferentes, definindo o tipo do amino´acido. A ordem espec´ıfica dos amino´acidos que formam a cadeia polipept´ıdica determina a estrutura tridimensional da prote´ına, pelo fato de que cada tipo de amino´acido pos- sui certas caracter´ısticas f´ısico-qu´ımicas e a estrutura dos amino´acidos permite certas rota¸c˜oes em torno do carbono central. Sabe-se que a forma da prote´ına est´a diretamente relacionada com a sua fun¸c˜ao. A simples substitui¸c˜ao de um amino´acido da cadeia ´e suficiente para que a prote´ına modifique sua con- forma¸c˜ao levando a um mal funcionamento ou a um funcionamento incompleto. Finalmente, as prote´ınas possuem s´ıtios espec´ıficos onde elas interagem com outras prote´ınas, mol´eculas ou metab´olitos chamados s´ıtios ativos. A Figura 2.3 mostra a compara¸c˜ao das estruturas qu´ımicas da prote´ına e do DNA. MONÔMEROS Amino ácido H O H2N OHC C R Nucleotídeo Base OHO P O O 5 3 1Açúcar HO POLÍMEROS OH H2O H H CN R5 C O C ϩ Polipeptídeo N H H CN H R1 C O H C H C O N H H O N H H O C C C C C OH R2 R3 R4 H2O 5 3Ј B4 OHOP O O HO ϩ Ácido nucleico 5 3Ј B1 3Ј B2 3Ј B3 5 5 OHOO P O O OO P O O OHO P O O Figura 2.3: Compara¸c˜ao entre as estruturas moleculares da prote´ına e do DNA - Na primeira linha est˜ao definidos o monˆomero e o pol´ımero que correspondem `a prote´ına. Na segunda linha temos o mesmo esquema para a estrutura do DNA. Em ambos os pol´ımeros, novos monˆomeros s˜ao adicionados atrav´es de uma rea¸c˜ao de condensa¸c˜ao. Fonte: [Lodish et al., 2007] Utiliza-se o termo dom´ınio para se referir a uma parte da prote´ına que parece uma estrutura est´avel em solu¸c˜ao por si s´o. A maioria das prote´ınas varia, em tamanho, entre 100 e 2.000 res´ıduos de amino´acidos. Prote´ınas que possuem peso molecular maior do que 20.000 daltons geralmente s˜ao formadas por dois ou mais dom´ınios; entretanto, prote´ınas de alto peso molecular (entre 500.000 a 2.500.000 daltons) s˜ao compostas por diversas cadeias polipept´ıdicas. Cada prote´ına possui uma certa quantidade de s´ıtios ativos, que realizam alguma atividade metab´olica atrav´es da capacidade de se ligar com outras mol´eculas, como DNA, RNA, metab´olitos ou at´e outras prote´ınas. 11
  • 26. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA Finalmente, diferentemente do que se acreditava na ´epoca em que as primeiras estruturas de prote´ınas foram determinadas, as prote´ınas possuem um n´umero relativamente pequeno de motifs estruturais dada a grande quantidade de prote´ınas diferentes que se conhece. Alguns tipos espec´ıficos de motifs de dom´ınios s˜ao associados a atividades espec´ıficas, como o dom´ınio intitulado dinucleotide fold, frequentemente encontrado em enzimas que se ligam `a ATP. 2.1.3 Estrutura da Cromatina Os organismos podem ser divididos em dois grandes grupos: procariotos e eucariotos. Os procariotos s˜ao organismos nos quais a carga gen´etica, isto ´e, o DNA, est´a disposto no citoplasma da c´elula. J´a os eucariotos, possuem um n´ucleo celular que cont´em, entre outras coisas, o DNA. Este projeto focar´a apenas nos organismos eucariotos. A grande maioria dos organismos eucariotos possui mais de uma mol´ecula de DNA, que s˜ao chamadas de cromossomos, e o conjunto de todos os cromossomos de um organismo ´e chamado de genoma. Al´em disso, cada cromossomo pode conter uma certa quantidade de c´opias, definindo a sua haploidia. No caso dos seres humanos, foco deste trabalho, existem duas c´opias de um total de 22 cromossomos (nomeados de 1 a 22), mais dois cromossomos sexuais (chamados X e Y), formando um total de 46 cromossomos e definindo os humanos como seres diploides. O DNA n˜ao se apresenta isolado no n´ucleo celular. Ao inv´es disso, ele se conforma em diversos n´ıveis organizacionais (Figura 2.4), envolvendo elementos como as prote´ınas histonas, o que permite sua compacidade e confere outras fun¸c˜oes regulat´orias que ainda est˜ao sendo estudadas e ser˜ao discutidas mais adiante. De forma simples, a cromatina pode estar con- densada em uma estrutura n˜ao propensa para a inicia¸c˜ao da transcri¸c˜ao (nesse caso, recebe o nome de heterocromatina) ou pode estar descondensada, permitindo que a transcri¸c˜ao ocorra (eucromatina). O DNA encontra-se envolto em um conjunto de oito histonas, formado por quatro pares dos diferentes tipos de histonas chamadas H2A, H2B, H3 e H4. Essa unidade formada pelo DNA dando, em um estado padr˜ao, aproximadamente 1.65 voltas ( 147bp) [Allis et al., 2007] em torno do complexo de histonas ´e chamada de nucleossomo. A partir desse n´ıvel mais baixo, a estrutura da cromatina se condensa em diversos graus. De fato, caso estiquemos o genoma humano diploide de uma c´elula apenas, teremos uma mol´ecula linear com aproximadamente dois metros de comprimento. Portanto a compacta¸c˜ao do DNA deve ser realizada de forma bastante eficaz para que a cromatina caiba dentro do n´ucleo celular. 12
  • 27. 2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR DNA Núcleo Cromossomo na intérfase Enovelamento da cromatina de ordem mais alta Laços de fibras de 30 nm associado com a estrutura do cromossomo Fibra de 30 nm Estrutura de "Contas em um colar" Nucleossomo Elementos móveis Sequência de DNA simples Figura 2.4: Vis˜ao global da estrutura da cromatina - A cromatina possui v´arios n´ıveis de enovelamento, o que confere ao DNA seu car´ater compacto e ´e de extrema importˆancia para mecanismos regulat´orios mais complexos. Fonte: [Lodish et al., 2007] 2.1.4 Dogma Central da Biologia Molecular Conforme mencionado previamente, as prote´ınas s˜ao sintetizadas a partir da informa¸c˜ao gen´etica contida no DNA, constituindo o processo conhecido como dogma central da Biologia Molecular (Figura 2.5). Al´em da produ¸c˜ao de prote´ınas, o dogma central tamb´em engloba a replica¸c˜ao do DNA, processo pelo qual a informa¸c˜ao gen´etica ´e transmitida durante a divis˜ao celular. Neste trabalho, entretanto, ser´a focada apenas a s´ıntese de prote´ınas, mais especificamente a transcri¸c˜ao. A transcri¸c˜ao ´e a etapa respons´avel pela gera¸c˜ao de uma mol´ecula de RNA a partir de um trecho espec´ıfico da mol´ecula de DNA, chamado gene. De forma simplificada, podemos dizer que genes s˜ao trechos da mol´ecula de DNA que possuem informa¸c˜ao codificante, isto ´e, ser˜ao transformados em RNA. Tais genes podem apresentar algumas varia¸c˜oes entre indiv´ıduos de uma mesma esp´ecia. De forma simplificada, cada uma destas vers˜oes ´e chamada de alelo. Uma parte do RNA produzido, chamado de mRNA, ser´a posteriormente traduzido em uma prote´ına, e outra parte desse RNA realizar´a outras fun¸c˜oes que fogem do escopo deste trabalho. V´arias prote´ınas participam da transcri¸c˜ao e algumas delas ser˜ao descritas em detalhes nas se¸c˜oes 13
  • 28. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA 1 2 3 4 Ativação Transcrição Processamento DNA Início pré-mRNA Núcleo mRNA Tradução Proteína Citosol Fator de transcrição RNA polimerase Ribossomo Região transcrita do DNA (gene) Região não transcrita do DNA Região codificante de proteína (exon) Região não codificante de proteína (íntron) Cadeia de aminoácido Figura 2.5: Dogma central da Biologia Molecular - Os quatro principais processos biol´ogicos, dentro do contexto celular eucarioto, para a s´ıntese de prote´ınas. (1) Ativa¸c˜ao – Prote´ınas regula- doras da transcri¸c˜ao (fatores de transcri¸c˜ao) se acoplam no in´ıcio do gene, preparando-o para a fase seguinte. (2) Transcri¸c˜ao – O DNA ´e lido pela prote´ına RNA polimerase e uma mol´ecula de mRNA ´e criada contendo a informa¸c˜ao complementar `a fita de DNA lida. (3) Processamento do mRNA – O mRNA ´e processado e transportado para fora do n´ucleo celular. (4) Tradu¸c˜ao – A mol´ecula de mRNA processada ´e convertida em uma prote´ına, em estruturas chamadas ribossomos. Fonte: [Lodish et al., 2007] posteriores, por´em por simplicidade, apenas a principal prote´ına, chamada RNA polimerase, estar´a em foco. Para transcrever um gene, a RNA polimerase procede por uma s´erie de passos bem definidos que podem ser agrupados em trˆes fases: inicia¸c˜ao (ou ativa¸c˜ao), elonga¸c˜ao e termina¸c˜ao (Figura 2.6). Durante a fase de inicia¸c˜ao, a RNA polimerase se liga em uma regi˜ao espec´ıfica no DNA chamada de regi˜ao promotora. Ap´os a liga¸c˜ao, a fita de DNA em volta do ponto onde a 14
  • 29. 2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR INICIAÇÃO ELONGAÇÃO TERMINAÇÃO 5 3 5 3 5 3 5 3 5 3 1 2 3 4 5 RNA polimerase Sítio de iniciação na fita molde Sítio de fim de transcrição na fita molde Promotor Bolha de transcrição rNTPs iniciais RNA nascente região híbrida DNA-RNA Fita de RNA completa 5 3 5 3 5 3 5 3 5 3 5 5 3 A polimerase se liga ao "complexo DNA fechado" dupla fita A polimerase abre o DNA dupla fita próximo ao TSS formando uma bolha de transcrição "complexo aberto" A polimerase cataliza ligações fosfodiéster de dois rNTPs iniciais A polimerase avança 3' 5' na fita molde abrindo o DNA dupla fita e adicionando rNTPs à fita de RNA crescente No sítio de término de transcrição a polimerase libera o RNA completo e se dissocia do DNA ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' Figura 2.6: Etapas do processo de transcri¸c˜ao - Os trˆes est´agios que comp˜oem o processo de transcri¸c˜ao. Siglas introduzidas nesta figura s˜ao definidas no gloss´ario. Fonte: [Lodish et al., 2007] 15
  • 30. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA transcri¸c˜ao est´a se iniciando se desenovela permitindo que a RNA polimerase, que est´a ligada a uma das fitas, continue o processo. Come¸ca ent˜ao a fase de elonga¸c˜ao, onde o RNA, ap´os sintetizar um pequeno trecho de RNA de aproximadamente 10 bases, come¸ca a percorrer o gene. A cada base “lida” pela RNA polimerase, uma base ´e introduzida na cadeia de RNA correspondente `a base com a qual a base “lida” possui afinidade. Al´em disso, conforme a RNA polimerase se desloca, ela abre a dupla fita de DNA `a sua frente e re-hibridiza as fitas previamente abertas cujo conte´udo j´a foi lido. Finalmente, na fase de termina¸c˜ao, a RNA polimerase se desestabiliza, para e libera a cadeia de RNA produzida. Em algumas c´elulas existem sequˆencias bem definidas que correspondem a essa termina¸c˜ao; por´em em outras ainda n˜ao est´a claro o que faz com que a enzima cesse o processo de transcri¸c˜ao. Apenas a RNA polimerase foi citada, por´em, como ser´a visto mais adiante, diversas outras prote´ınas participam do processo de transcri¸c˜ao. ´E importante mencionar que apenas uma das fitas ´e lida durante o processo (chamada de fita senso), por´em as duas fitas cont´em informa¸c˜ao necess´aria para produzir mRNA. Outro ponto importante ´e a orienta¸c˜ao das fitas. Cada fita tem duas extremidades: uma corresponde a um grupo hidroxila ligado ao carbono 3 do a¸c´ucar, e outra corresponde ao grupo fosfato, ligado ao carbono 5 do a¸c´ucar. Por esta raz˜ao, processos que envolvem deslocamento no DNA podem possuir orienta¸c˜ao 3 → 5 (antisenso) ou 5 → 3 (senso). Al´em disso, as duas fitas que comp˜oem a dupla h´elice de DNA est˜ao ligadas em sentidos opostos. A transcri¸c˜ao sempre ocorre no sentido 5 → 3 . Ap´os a transcri¸c˜ao, as mol´eculas de mRNA que servem como molde para produ¸c˜ao de prote´ınas (pr´e-mRNA) passam por uma s´erie de procedimentos para torn´a-las aptas para o processo de tradu¸c˜ao. Esse processo, tamb´em intitulado de splicing do mRNA, inicia com a exclus˜ao de certos trechos do pr´e-mRNA. Os genes possuem dois tipos b´asicos de regi˜oes chamadas introns e exons. Nessa fase inicial do processamento do mRNA, as regi˜oes de introns s˜ao totalmente removidas. Em adi¸c˜ao, algumas regi˜oes de exons podem ser removidas da mesma forma. Al´em do splicing, a sequˆencia do pr´e-mRNA pode ser alterada atrav´es de outros processos tais como o rearranjo de mRNA, o qual modifica o mRNA n˜ao processado atrav´es de uma desamina¸c˜ao s´ıtio-espec´ıfica e guiando a inser¸c˜ao ou dele¸c˜ao de uridinas. Ap´os essa etapa, a mol´ecula de mRNA sofre algumas altera¸c˜oes qu´ımicas em sua extremidade 5 conhecida como revestimento do terminal 5 e um fragmento adicional contendo apenas mol´eculas de adenina ´e introduzido em sua extremidade 3 em um processo intitulado poliadenila¸c˜ao. O pr´e-mRNA passa ent˜ao a ser chamado de mRNA processado e deve ser transportado para fora do n´ucleo celular. Por´em antes do transporte, o mRNA deve ter uma cole¸c˜ao de caracter´ısticas que o distinguem de outros tipos de RNA (que devem permanecer no n´ucleo) tais como certas prote´ınas que reconhecem sequˆencias de exons. 16
  • 31. 2.1. CONCEITOS B´ASICOS EM BIOLOGIA MOLECULAR No processo de splicing, exons tamb´em podem ser removidos. Isso permite que um s´o gene seja capaz de gerar v´arios mRNAs diferentes pelo fato de que diferentes exons podem ser man- tidos em resposta a diferentes est´ımulos celulares. Essa caracter´ıstica, conhecida como splicing alternativo, explica em grande parte (juntamente com outros processos como as modifica¸c˜oes p´os-traducionais) o fato de que existe uma quantidade muito maior de diferentes prote´ınas do que de genes codificantes de prote´ınas. O processo de tradu¸c˜ao consiste na leitura do mRNA processado e na cria¸c˜ao de uma cadeia polipept´ıdica atrav´es da jun¸c˜ao de amino´acidos. A principal estrutura associada `a tradu¸c˜ao ´e o ribossomo, que se situa no citoplasma da c´elula e ´e composto por prote´ınas e por rRNA. Por este motivo, o mRNA deve sair do n´ucleo celular para que o processo de tradu¸c˜ao ocorra. Assim como a transcri¸c˜ao, a tradu¸c˜ao pode ser dividida em v´arias etapas, por´em como este processo n˜ao ´e fundamental para o entendimento deste trabalho, uma explana¸c˜ao mais breve ser´a fornecida. A tradu¸c˜ao inicia quando o mRNA ´e acoplado ao ribossomo. Cada trinca de bases do mRNA (chamada c´odon) ´e “lida” pelo ribossomo, que ir´a acoplar um amino´acido correspondente `a trinca na sequˆencia de amino´acidos que est´a sendo gerada. Cada c´odon possui um amino´acido correspondente e, pelo fato de existirem 64 poss´ıveis combina¸c˜oes de c´odons e apenas 20 amino´acidos, alguns amino´acidos correspondem a mais de um c´odon. Existem tamb´em c´odons espec´ıficos para indicar a posi¸c˜ao onde esse processo de tradu¸c˜ao ir´a come¸car e terminar. Os tRNAs s˜ao as estruturas respons´aveis por armazenar cada amino´acido que ser´a posteriormente acoplado `a cadeia. Eles s˜ao formados por um c´odon espec´ıfico de um lado e um amino´acido ligado ao outro e est˜ao presentes em n´umero muito grande no citoplasma. Quando determinado c´odon do mRNA ´e lido, um rRNA que estiver pr´oximo do ribossomo ´e alinhado com este c´odon, acarretando na jun¸c˜ao do amino´acido que est´a em uma de suas extremidades `a sequˆencia de amino´acidos corrente. A prote´ına formada ir´a se conformar de acordo com as propriedades f´ısico-qu´ımicas dos amino´acidos influenciadas pelo meio aquoso do citoplasma. Ap´os essa conforma¸c˜ao, a prote´ına est´a pronta para realizar suas atividades. Entretanto, algumas prote´ınas sofrem modifica¸c˜oes p´os-traducionais, podendo acarretar em uma modifica¸c˜ao em sua estrutura. Essas modifica¸c˜oes geralmente envolvem a adi¸c˜ao de grupos metil, acetil e v´arios outros em determinados amino´acidos. As histonas, que fazem parte da estrutura da cromatina, s˜ao exemplos de prote´ınas que sofrem modifica¸c˜oes p´os-traducionais e ser˜ao abordadas em detalhes mais adiante. O dogma central da Biologia Molecular ´e o procedimento chave para manuten¸c˜ao da vida como conhecemos. Algumas fases desse complexo processo foram descritas de forma bastante simplificada. As pr´oximas se¸c˜oes correspondem ao detalhamento da fase de transcri¸c˜ao, prin- cipalmente a fase de inicia¸c˜ao, explicando os principais mecanismos conhecidos atualmente que contribuem para a regula¸c˜ao espacial e temporal das regi˜oes gˆenicas que ser˜ao transcritas. 17
  • 32. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA 2.2 Regula¸c˜ao Gˆenica em Eucariotos Na se¸c˜ao anterior foram discutidos alguns conceitos b´asicos a respeito do processo de cria¸c˜ao de prote´ınas a partir do DNA. ´E importante mencionar que a transcri¸c˜ao n˜ao tem como objetivo exclusivo a produ¸c˜ao de RNA que ser´a transformado em prote´ınas. Existem v´arios outros tipos de RNA que atuam em diversos tipos de processos moleculares. A etapa de inicia¸c˜ao da transcri¸c˜ao foi descrita anteriormente como sendo a etapa onde a RNA polimerase deve se ligar `a regi˜ao promotora para que o procedimento possa come¸car, por´em v´arios fatores contribuem para que os genes sejam transcritos. D´a-se o nome de regula¸c˜ao gˆenica a todos os processos que as c´elulas utilizam para regular a forma como os genes s˜ao convertidos em mol´eculas de RNA. A regula¸c˜ao gˆenica pode ocorrer em v´arios n´ıveis diferentes do dogma central: inicia¸c˜ao da transcri¸c˜ao, elonga¸c˜ao da transcri¸c˜ao, processamento de mRNA, transporte do mRNA do n´ucleo at´e o citoplasma, tradu¸c˜ao e estabilidade do mRNA. Entretanto, acredita-se que a maior parte dos eventos regulat´orios ocorram no n´ıvel de inicia¸c˜ao da transcri¸c˜ao. Parte da regula¸c˜ao nesta etapa ´e baseada em prote´ınas chamadas elementos regulat´orios, que utilizam propriedades f´ısicas e qu´ımicas para fazer com que os genes sejam transcritos em diversos n´ıveis de intensidade, desde nenhuma transcri¸c˜ao (gene silenciado ou inativo) at´e o n´ıvel m´aximo de transcri¸c˜ao comportado por aquele gene, dado o seu locus na cromatina. Os genes transcritos pela RNA polimerase II (eucariotos) tipicamente contˆem dois tipos de elementos regulat´orios: os elementos cis-atuantes e os elementos trans-atuantes. Os elementos cis-atuantes constituem as regi˜oes no DNA onde os elementos trans-atuantes se ligam. Neste trabalho, essa nomenclatura ser´a extrapolada, sendo os elementos trans-atuantes tamb´em chamados de fatores de transcri¸c˜ao (TFs) e os elementos cis-atuantes, tamb´em chama- dos de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao (TFBSs). Os elementos cis-atuantes podem ser divididos em duas fam´ılias distintas (Figura 2.7): (1) um promotor, composto por um n´ucleo e por elementos regulat´orios proximais; (2) elementos regulat´orios distais, divididos atualmente em amplificadores, silenciadores, insuladores e regi˜oes de controle do locus (LCRs, do Inglˆes Locus Control Regions). A estrutura (ou disposi¸c˜ao) dos elementos cis- e trans-atuantes pode chegar a ser bastante complexa. Essa complexidade se faz necess´aria dado que existem 20.000 – 25.000 genes no genoma humano, cada um requerente de um padr˜ao espec´ıfico de express˜ao espacial/temporal, existindo apenas pouco mais do que 1.500 fatores de transcri¸c˜ao. A presen¸ca de m´ultiplos elementos regulat´orios em regi˜oes proximais ou distais conferem a possibilidade de uma re- gula¸c˜ao combinat´oria, que aumenta de forma exponencial o n´umero total de padr˜oes de ex- press˜ao poss´ıveis. 18
  • 33. 2.2. REGULAC¸ ˜AO GˆENICA EM EUCARIOTOS Elementos regulatórios distais Proximal promoter elements Promotor ( 1 kb) Core promoter Elementos promotores proximais Núcleo do promotor AmplificadorSilenciador Insulador Regiões de controle do locus Figura 2.7: Diferentes tipos de elementos cis-atuantes - Regi˜ao regulat´oria t´ıpica de um gene, contendo um promotor (n´ucleo do promotor e elementos proximais) e elementos regulat´orios distais (amplificador, silenciador, insulador e regi˜ao de controle do locus) Fonte: [Maston et al., 2006] 2.2.1 Maquinaria Regulat´oria Proximal Os fatores proximais envolvidos na transcri¸c˜ao eucari´otica podem ser divididos em trˆes grupos (Figura 2.8): (1) fatores de transcri¸c˜ao gerais (ou b´asicos), que incluem a RNA polimerase II e v´arios componentes auxiliares (TFIIA, TFIIB, TFIID, TFIIE, TFIIF, TFIIG e TFIIH); (2) ativadores; (3) co-ativadores. Em adi¸c˜ao a esses componentes, o Mediador – uma estrutura grande e altamente conservada – tamb´em ´e importante para a transcri¸c˜ao acurada. Os fatores de transcri¸c˜ao gerais (GTF, do Inglˆes General Transcription Factors) se montam na regi˜ao promotora em uma ordem espec´ıfica, para formar o complexo pr´e-inicia¸c˜ao (PIC, do Inglˆes Preinitiation Complex), que direciona a RNA polimerase II para o s´ıtio de inicia¸c˜ao da transcri¸c˜ao (TSS, do Inglˆes Transcription Start Site). Primeiramente, o TFIID se liga numa regi˜ao chamada caixa TATA (em Inglˆes, TATA box). Ap´os isso, alguns eventos ocorrem antes da fase de elonga¸c˜ao, incluindo a fus˜ao do promotor, libera¸c˜ao e escape. Quando a RNA polimerase II procede para a etapa de elonga¸c˜ao, uma arma¸c˜ao composta pelos fatores TFIID, TFIIE, TFIIH e mediador, permanece no n´ucleo do promotor, fazendo com que a re-inicia¸c˜ao da transcri¸c˜ao necessite apenas do recrutamento da RNA polimerase II e dos fatores TFIIF e TFIIB. A montagem do PIC no n´ucleo do promotor ´e suficiente para permitir n´ıveis baixos e acu- rados de transcri¸c˜ao (n´ıvel basal). Os ativadores possuem a capacidade de estimular bastante o n´ıvel da transcri¸c˜ao. Em geral, esses fatores s˜ao prote´ınas que se ligam ao DNA, reconhecendo 19
  • 34. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA PIC TFIIDTFIIA TFIIB TFIIF TFIIH RNA polimerase II TFIIE ? ? ? Activator Mediador DBD AD Núcleo do promotor TATA TSS Co-ativador Ativador Figura 2.8: Maquinaria transcricional eucari´otica - Fatores de transcri¸c˜ao gerais, ativadores e co-ativadores se montam na regi˜ao promotora de uma forma ordenada, formando o complexo pr´e- inicia¸c˜ao. As interroga¸c˜oes representam as conex˜oes que ainda est˜ao sendo estudadas, cuja ordem de liga¸c˜ao, at´e o presente momento, ainda n˜ao foi conclusivamente identificada. Fonte: [Maston et al., 2006] sequˆencias que geralmente ocorrem `a montante do n´ucleo do promotor. Eles contˆem dom´ınios de liga¸c˜ao no DNA e de ativa¸c˜ao, necess´arios para a estimula¸c˜ao da transcri¸c˜ao. A estimula¸c˜ao da transcri¸c˜ao pode se dar de v´arias formas: (1) ajudando na forma¸c˜ao r´apida e apropriada do PIC atrav´es de intera¸c˜oes diretas com um ou mais componentes da maquinaria transcricional (alvos); (2) promovendo outras etapas transcricionais como elonga¸c˜ao ou re-inicia¸c˜ao; (3) re- crutando complexos modificadores de estrutura da cromatina (que, atrav´es de modifica¸c˜oes p´os-traducionais nas caudas das histonas, fazem com que a cromatina fique em um estado mais aberto e prop´ıcio para a transcri¸c˜ao). O funcionamento dos ativadores pode ser modulado pelos co-ativadores. Tipicamente, os co-ativadores n˜ao contˆem dom´ınios para reconhecimento de sequˆencias espec´ıficas no DNA. Ao inv´es disso, eles contˆem dom´ınios necess´arios para realizar intera¸c˜oes prote´ına-prote´ına com um 20
  • 35. 2.2. REGULAC¸ ˜AO GˆENICA EM EUCARIOTOS ou mais ativadores no DNA. O modo como este tipo de fator aumenta o n´ıvel transcricional ´e basicamente o mesmo dos ativadores, por´em eles possuem uma propriedade adicional na qual s˜ao capazes de regular o funcionamento de um ativador para que estes realizem uma regula¸c˜ao positiva ou negativa. Uma das caracter´ısticas mais interessantes observadas nos ativadores ´e que eles s˜ao capa- zes de estimular a transcri¸c˜ao sinergicamente. Neste fenˆomeno, o efeito de m´ultiplos fatores trabalhando juntos ´e maior do que a soma dos efeitos que eles teriam se estivesse trabalhando individualmente. Esse efeito pode ocorrer de forma prom´ıscua, na qual diversos fatores de dife- rentes tipos encontram-se nesse estado cooperativo, ou de forma n˜ao-prom´ıscua, na qual v´arias c´opias de um mesmo fator est˜ao presentes. Apesar de ter sido observado, esse fenˆomeno ainda n˜ao ´e completamente conhecido. 2.2.2 Elementos Regulat´orios Transcricionais A seguir s˜ao descritos brevemente os elementos regulat´orios transcricionais apresentados. A Figura 2.9 sumariza os elementos regulat´orios que atuam de forma distal. Cada elemento regulat´orio apresentado funciona de forma diferente, contribuindo para o aumento do n´ıvel transcricional ou diminui¸c˜ao deste n´ıvel (e poss´ıvel silenciamento total do gene) ou para ambos dependendo do contexto em que ´e inserido. 2.2.2.1 N´ucleo do Promotor ´E a regi˜ao no in´ıcio do gene que possui elementos onde a maquinaria geral de transcri¸c˜ao se liga e o PIC se forma, definindo a posi¸c˜ao do TSS e a dire¸c˜ao da transcri¸c˜ao. Alguns desses elementos foram bastante estudados tais como o elemento iniciador (Inr), a caixa TATA, o elemento central `a jusante (DCE, do Inglˆes Downstream Core Element), o elemento de reconhecimento do TFIIB (BRE, do Inglˆes TFIIB-Recognition Element) e o motif na posi¸c˜ao 10 (MTE, do Inglˆes Motif Ten Element). Com exce¸c˜ao do BRE, todos os outros elementos descritos at´e ent˜ao interagem com o fator TFIID. An´alises estat´ısticas em 10.000 diferentes promotores mostraram que tais elementos n˜ao s˜ao t˜ao universais quanto se pensava. De fato, aproximadamente um quarto dos promotores anali- sados n˜ao possu´ıa nenhum desses quatro elementos mencionados, sugerindo que talvez existam arquiteturas mais complexas a serem descobertas. De fato, pesquisas recentes apontam para arquiteturas menos usuais tais como os desertos de ATG. Al´em disso, foi descoberto recente- mente que as propriedades estruturais de ordens mais altas do promotor, que s˜ao determinadas em parte pela sequˆencia de nucleot´ıdeos e sua curvatura, dobrabilidade e estabilidade, podem ser usadas para identificar e classificar esses n´ucleos dos promotores. 21
  • 36. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA Amplificador Silenciador Insulador Regiões de controle do locus X X 1 21 2 Figura 2.9: Funcionamento dos elementos regulat´orios distais - A fun¸c˜ao dos amplificadores e silenciadores ´e de, respectivamente, ativar e reprimir a transcri¸c˜ao. Insuladores evitam que genes sejam afetados por elementos regulat´orios na vizinhan¸ca. Regi˜oes de controle do locus s˜ao trechos compostos por v´arios elementos regulat´orios cujo funcionamento em conjunto confere um padr˜ao de express˜ao singular que afeta agrupamentos de genes nas proximidades. Fonte: [Maston et al., 2006] 2.2.2.2 Elementos Promotores Proximais Os elementos promotores proximais est˜ao localizados imediatamente `a montante (at´e no m´aximo algumas centenas de pares de bases) do n´ucleo do promotor, contendo v´arios s´ıtios de liga¸c˜ao para ativadores. Uma caracter´ıstica interessante est´a no fato de que aproximadamente 60% dos promotores situam-se pr´oximos `a ilhas de CpG – trechos que variam de 500 bp a 2 kb que contˆem uma alta quantidade de nucleot´ıdeos C+G e uma frequˆencia de CpG mais alta do que outras regi˜oes do DNA. A maioria dos dinucleot´ıdeos CpG no genoma s˜ao metilados no quinto carbono da citosina, entretanto os nucleot´ıdeos em ilhas CpG geralmente n˜ao s˜ao metilados. Existem v´arias correla¸c˜oes interessantes a esse respeito, como o fato de que promotores que contˆem caixa TATA geralmente n˜ao est˜ao pr´oximos a ilhas CpG, por´em promotores baseados em BREs s˜ao bastante associados a essas ilhas. O fato de que a metila¸c˜ao do DNA est´a associada ao silenciamento da transcri¸c˜ao sugere que a fun¸c˜ao das ilhas CpG seja de impedir a metila¸c˜ao dessa regi˜ao, consequentemente, silenciando-a. 22
  • 37. 2.2. REGULAC¸ ˜AO GˆENICA EM EUCARIOTOS 2.2.2.3 Amplificadores Elementos amplificadores regulam a express˜ao temporalmente e espacialmente e sua atividade independe da distˆancia ao promotor (que pode chegar `a ordem de Mb) ou da sua orienta¸c˜ao em rela¸c˜ao a este. Essa regi˜ao ´e tipicamente composta por v´arios s´ıtios de liga¸c˜ao bastante pr´oximos uns dos outros, onde os amplificadores se ligam para aumentar a express˜ao do gene. Amplificadores tamb´em s˜ao modulares, isto ´e, a atividade de um ´unico promotor pode ser modificada por diferentes amplificadores em tempos diferentes ou tecidos diferentes, em resposta a diferentes est´ımulos. Al´em disso, a organiza¸c˜ao espacial e orienta¸c˜ao dos s´ıtios de liga¸c˜ao que formam o amplificador podem ser vitais para sua atividade regulat´oria. Amplificadores s˜ao funcionalmente similares aos elementos proximais e a distin¸c˜ao entre eles ainda ´e bastante nebulosa. De fato, grande parte dos fatores que se liga em regi˜oes proximais tamb´em se liga em amplificadores. Existem fortes evidˆencias de que esses elementos distais (como os amplificadores) consigam atuar a partir de regi˜oes t˜ao distantes atrav´es do modelo de la¸co do DNA (em Inglˆes, DNA looping). Neste modelo, o DNA se conforma de tal maneira que, apesar de estar v´arios bps longe do n´ucleo do promotor, fisicamente estas estruturas podem estar pr´oximas umas das outras (como na jun¸c˜ao das duas extremidades de um cadar¸co de tˆenis). Alguns modelos prop˜oem at´e que parte do PIC se forme em regi˜oes amplificadoras e que esse complexo se agregue ao restante dos fatores gerais atrav´es do processo de la¸co do DNA. 2.2.2.4 Silenciadores Silenciadores s˜ao elementos que reprimem a express˜ao de um gene (efeito transcricional nega- tivo). Assim como os amplificadores, a atua¸c˜ao da maioria dos silenciadores n˜ao depende da distˆancia `a regi˜ao promotora nem da orienta¸c˜ao, por´em alguns silenciadores dependentes da posi¸c˜ao foram encontrados. Os silenciadores podem estar em regi˜oes proximais, em regi˜oes dis- tais de amplificadores ou em regi˜oes distais independentes. Al´em disso, silenciadores podem se ligar ao DNA cooperativamente e tamb´em possuem caracter´ısticas sin´ergicas. O fator de transcri¸c˜ao que se liga em um elemento silenciador ´e chamado de repressor, nos quais os co-repressores podem se ligar (de forma semelhante aos ativadores e co-ativadores). Como mencionado anteriormente, ativadores podem se tornar repressores atrav´es do recruta- mento de alguns co-fatores espec´ıficos. Os silenciadores podem reprimir a express˜ao de diversas formas: (1) n˜ao permitindo a liga¸c˜ao de um ativador ou componente da maquinaria transcri- cional, bloqueando fisicamente suas liga¸c˜oes ou competindo diretamente por um mesmo s´ıtio; (2) inibindo a forma¸c˜ao do complexo pr´e-inicia¸c˜ao; (3) recrutando modificadores de cromatina para condensar a regi˜ao de forma a dificultar a liga¸c˜ao de ativadores ou da pr´opria maquinaria transcricional. 23
  • 38. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA 2.2.2.5 Insuladores Insuladores, tamb´em conhecidos como elementos de fronteira, bloqueiam a atua¸c˜ao de outros elementos regulat´orios definindo uma esp´ecie de parti¸c˜ao do genoma em blocos com sistema in- terno de regula¸c˜ao. Os insuladores tˆem duas propriedades espec´ıficas: (1) bloquear a influˆencia de um amplificador sobre a express˜ao de um determinado gene, bloqueando a comunica¸c˜ao amplificador-promotor; (2) bloquear a dissemina¸c˜ao do silenciamento de uma regi˜ao por estru- turas que condensam a cromatina (que geralmente agem como uma rea¸c˜ao em cadeia, parando apenas ao encontrar o insulador). Esses elementos geralmente s˜ao dependentes de posi¸c˜ao por´em independentes de orienta¸c˜ao. Apesar de v´arios fatores trans-atuantes que mediam a fun¸c˜ao do insulador serem conhecidos para a Drosophila, em vertebrados se conhece apenas o CTCF (do Inglˆes CCCTC-binding fac- tor). A atividade deste fator pode ser regulada de v´arias formas, incluindo metila¸c˜ao do DNA, modifica¸c˜ao p´os-traducionais e intera¸c˜ao com co-fatores. A forma como os insuladores realizam suas fun¸c˜oes de bloqueio de comunica¸c˜ao amplificador- promotor ou barreira para heterocromatina ainda n˜ao ´e conhecida. Os modelos propostos podem ser agrupados em duas categorias. A primeira associa os insuladores com a maquinaria regulat´oria transcricional, e a segunda os associa com a organiza¸c˜ao estrutural da cromatina. 2.2.2.6 Regi˜oes de Controle de Locus Regi˜oes de controle de locus s˜ao grupos de elementos regulat´orios, tais como amplificadores, silenciadores e insuladores, envolvidos na regula¸c˜ao de um locus inteiro ou de um agrupamento de genes. Tais regi˜oes s˜ao definidas operacionalmente como elementos que direcionam a express˜ao fisiol´ogica espec´ıfica por tecido de uma forma independente de posi¸c˜ao e dependente de varia¸c˜ao do n´umero de c´opias gˆenicas (CNV, do Inglˆes Copy-Number Variation). Os elementos que se ligam nestas regi˜oes (ativadores, co-ativadores, repressores, co-repressores ou modificadores de cromatina) podem afetar a express˜ao de forma distinta e sua atividade coletiva que confere a fun¸c˜ao espec´ıfica de cada LCR. 2.3 Identifica¸c˜ao de S´ıtios de Liga¸c˜ao de Fatores de Transcri¸c˜ao Na Se¸c˜ao 2.2 foi apresentada uma introdu¸c˜ao superficial `a ´area de regula¸c˜ao gˆenica. V´arias propriedades dos elementos regulat´orios foram definidas, pretendendo com isso motivar estudos que prop˜oem m´etodos para identificar a localiza¸c˜ao de tais estruturas no DNA. De fato, re- des regulat´orias complexas governam diversos mecanismos celulares cr´ıticos para a c´elula, tais 24
  • 39. 2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE TRANSCRIC¸ ˜AO como a prolifera¸c˜ao, desenvolvimento, diferencia¸c˜ao, envelhecimento e apoptose. Para que esses mecanismos funcionem de forma correta e consistente, um n´umero muito grande de diferentes componentes regulat´orios devem desempenhar seus papeis, que podem variar de acordo com as circunstˆancias, em diversas vias metab´olicas. Todos os elementos mencionados na se¸c˜ao anterior, colaboram para a orquestra¸c˜ao espacial/temporal apropriada da express˜ao gˆenica de processos celulares ub´ıquos, comuns entre certos tipos de c´elulas ou totalmente espec´ıficos por c´elula. Consequentemente, a identifica¸c˜ao desses elementos regulat´orios ´e crucial para a compreens˜ao da fun¸c˜ao (ou fun¸c˜oes) que cada um deles desempenha nas numerosas redes regulat´orias das quais participam. Isso permite, por exemplo, a melhor compreens˜ao de doen¸cas causadas pela desregula¸c˜ao (regula¸c˜ao impr´opria por um grande n´umero de diferentes raz˜oes). Conforme mencionado anteriormente, estima-se que o n´umero de diferentes fatores de trans- cri¸c˜ao em humanos seja maior do que 1.500. Cada um desses fatores pode se ligar no DNA diretamente ou atrav´es do recrutamento de outros fatores (por exemplo, em um esquema ati- vador – co-ativador, como revisado na Se¸c˜ao 2.2.2.2). Al´em disso, alguns elementos distais compostos por v´arias estruturas regulat´orias menores (como os LCRs) possuem fun¸c˜ao dire- tamente equivalente `as suas configura¸c˜oes, isto ´e, aos tipos de elementos que comp˜oem estas regi˜oes e `a disposi¸c˜ao dos mesmos dentro destes loci. Ademais, as sequˆencias onde tais fatores trans-atuantes tˆem maior afinidade de liga¸c˜ao geralmente s˜ao pequenas, variando entre 6 – 12 bp, dos quais apenas um n´umero ainda menor de nucleot´ıdeos est´a presente de forma quase con- sensual. Somando todas essas caracter´ısticas, a identifica¸c˜ao destas regi˜oes se torna bastante complexa, sendo necess´arios esfor¸cos (e avan¸cos) nas ´areas biol´ogica e computacional para que esta tarefa tenha bons resultados. Finalmente, uma das maiores dificuldades est´a no fato de que tais elementos regulat´orios s˜ao espec´ıficos por tipo (ou linha) celular. O genoma humano consiste, em teoria, na mesma sequˆencia de nucleot´ıdeos para todas as c´elulas do organismo. Sabe-se atualmente que existem diferen¸cas significativas at´e entre c´elulas de um mesmo tipo, como varia¸c˜oes no n´umero de cro- mossomos observadas recentemente em neurˆonios, por´em tais diferen¸cas n˜ao excluem a hip´otese atualmente aceita de que as diferen¸cas entre as c´elulas do organismo se d˜ao majoritariamente devido ao controle regulat´orio, que ativa ou desativa, em diferentes graus, diferentes genes, modificando o padr˜ao da express˜ao e consequentemente gerando diferen¸cas estruturais signifi- cativas. A partir disso, define-se a maior limita¸c˜ao dos m´etodos computacionais autom´aticos, baseados em busca por sequˆencia, como o fato de tais m´etodos n˜ao conseguirem distinguir quais os s´ıtios de afinidade de liga¸c˜ao de prote´ınas no DNA est˜ao ativos ou inativos. Nas Se¸c˜oes 2.3.1 e 2.3.2 a seguir, ser˜ao explorados os dois m´etodos biol´ogicos tradicionais mais comuns para a identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. Adicionalmente, ser´a definida na Se¸c˜ao 2.3.3 a abordagem computacional padr˜ao para o problema, que s˜ao as buscas baseadas em sequˆencia. Tais m´etodos possuem limita¸c˜oes bem evidentes, seja terem 25
  • 40. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA baixo rendimento (n˜ao sendo poss´ıvel a aplica¸c˜ao em escala genˆomica) ou pelas dificuldades mencionadas nos par´agrafos anteriores. Entretanto, na Se¸c˜ao 2.4.2 ser˜ao realizadas extens˜oes desses m´etodos, cuja aplica¸c˜ao se enquadra no estado da arte das solu¸c˜oes deste problema, sendo esta a motiva¸c˜ao para a apresenta¸c˜ao de tais tecnologias. 2.3.1 DNase I Footprinting Este m´etodo tradicional consiste em observar padr˜oes de digest˜ao no DNA de algum agente de clivagem capaz de quebrar as liga¸c˜oes fosfodi´ester desta mol´ecula. Estes agentes podem ser, por exemplo, radicais hidroxila ou radia¸c˜ao ultravioleta. Por´em neste trabalho ser´a dado foco `a endonuclease Desoxirribonuclease I (DNase I). Esta enzima ´e capaz de se ligar no sulco menor (ou secund´ario) da dupla h´elice de DNA e produzir uma quebra na liga¸c˜ao fosfodi´ester. A DNase I ´e perfeita em experimentos desse gˆenero pois o seu grande tamanho faz com que ela seja realmente sens´ıvel a prote´ınas que est˜ao ligadas no DNA e tamb´em porque sua a¸c˜ao ´e facilmente controlada com EDTA (ver gloss´ario). O m´etodo se inicia com a obten¸c˜ao do DNA genˆomico. De posse do DNA de v´arias c´elulas do tipo espec´ıfico sob estudo, a por¸c˜ao onde se deseja verificar se existem ind´ıcios de elementos funcionais (isto ´e, se possuem s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao) ´e amplificada via rea¸c˜ao em cadeia da polimerase (PCR, do Inglˆes Polymerase Chain Reaction). Amplifica¸c˜ao ´e o processo de gera¸c˜ao de v´arias mol´eculas de DNA idˆenticas `a original. O tamanho ideal para tal regi˜ao deve ser entre 50 e 200 pares de bases. Neste momento se torna claro que a principal desvantagem deste m´etodo ´e o baixo rendimento, isto ´e, uma rodada deste m´etodo demora um tempo razoavelmente alto e ´e capaz de analisar somente um trecho bastante pequeno, tornando impratic´avel a aplica¸c˜ao deste m´etodo em estudos pangenˆomicos. Ap´os a amplifica¸c˜ao, os fragmentos resultantes s˜ao rotulados com uma mol´ecula fluorescente e s˜ao separadas duas por¸c˜oes deste material. Em uma delas ´e adicionada a prote´ına de interesse enquanto a outra ´e reservada para posterior compara¸c˜ao (controle). O agente de clivagem ´e ent˜ao adicionado em ambas as por¸c˜oes, permitindo que ele corte o DNA em v´arias posi¸c˜oes aleat´orias. Al´em destes cortes aleat´orios com a DNase I, s˜ao realizados cortes em regi˜oes especificadas anteriormente com enzimas de restri¸c˜ao, para permitir a an´alise posterior. Em seguida, o DNA contendo a prote´ına e o DNA controle s˜ao colocados numa cuba para realiza¸c˜ao de uma eletroforese com gel de poliacrilamida. Nesse experimento, DNA ´e colocado sobre um gel sobre o qual ´e aplicada uma diferen¸ca de potencial. Pelo fato de o DNA ser eletronegativo ele ir´a migrar para o outro lado da cuba, por´em os fragmentos menores ir˜ao migrar mais rapidamente por passarem mais facilmente entre os poros do gel. Ap´os a eletroforese, ´e aplicado algum agente que possibilite visualizar o marcador fluorescente (como luz ultravioleta). 26
  • 41. 2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE TRANSCRIC¸ ˜AO A distribui¸c˜ao dos fragmentos assemelha-se a uma escada, com os fragmentos menores mais pr´oximos da extremidade negativa da cuba e os fragmentos maiores, mais pr´oximos da origem, na extremidade positiva. As amostras com a prote´ına de interesse e de controle s˜ao ent˜ao comparadas. Pelo fato de a enzima DNase I n˜ao ser capaz de cortar o DNA em regi˜oes onde se encontram outras prote´ınas ligadas, fragmentos com o tamanho exato produzido, caso a DNase tivesse cortado aquela regi˜ao, n˜ao estar˜ao presentes na amostra que a enzima de interesse foi aplicada, por´em estar˜ao presentes na outra amostra. Portanto a falta de bandas na amostra de interesse em uma regi˜ao onde houve presen¸ca de bandas fluorescentes na amostra de controle sinaliza que a prote´ına de interesse estava ligada naquela regi˜ao. A esta regi˜ao ´e dado o nome de footprint. A Figura 2.10 detalha este processo de forma visual. Obviamente, o processo ´e muito mais complexo do que o descrito neste texto. Etapas adicionais incluem o tratamento apropriado dos fragmentos obtidos, como a inser¸c˜ao de ligantes. Sua vantagem est´a no fato de que ele ´e realmente preciso e ´e capaz de encontrar as posi¸c˜oes exatas onde a prote´ına estava ligada, com um grau de confiabilidade bastante alto. Sua desvantagem, como mencionado anteriormente, ´e que, por ser complexo e longo, ele definitivamente possui um baixo rendimento. 2.3.2 Imunoprecipita¸c˜ao da Cromatina A imunoprecipita¸c˜ao da cromatina (ChIP, do Inglˆes Chromatin Immunoprecipitation) ´e uma t´ecnica experimental utilizada para investigar as intera¸c˜oes entre prote´ına-DNA na c´elula. O objetivo ´e identificar os locais exatos onde prote´ınas espec´ıficas, tais como fatores de transcri¸c˜ao, est˜ao ligadas. Essa t´ecnica tamb´em pode ser utilizada para se identificar prote´ınas com algum tipo de modifica¸c˜ao p´os traducional, como as modifica¸c˜oes nas caudas das histonas. De forma resumida o m´etodo funciona da seguinte forma: primeiramente a c´elula ´e quebrada para que se possa acessar o complexo DNA-prote´ına (cromatina). Esse complexo ´e clivado atrav´es de algum m´etodo (como sonica¸c˜ao, raios ultravioleta ou prote´ınas endonucleases) e os fragmentos contendo a prote´ına de interesse s˜ao extra´ıdos atrav´es de imunoprecipita¸c˜ao. Neste m´etodo, ´e utilizado um anticorpo espec´ıfico para a prote´ına de interesse para recuperar os complexos DNA-prote´ına fragmentados (Figura 2.11). Tais fragmentos possuem tamanho m´edio de 200 bp, por´em isso varia bastante de acordo com a abordagem utilizada. A partir disso, o DNA ´e purificado e os fragmentos resultantes podem ser determinados atrav´es de m´etodos semelhantes aos descritos para o m´etodo de DNase I Footprinting (basi- camente, PCR com eletroforese em seguida, com algumas diferen¸cas no tratamento dos com- plexos). As coordenadas genˆomicas recuperadas estar˜ao associadas `a prote´ına de interesse. ´E importante observar que, enquanto no m´etodo de DNase I Footprinting as regi˜oes de deple¸c˜ao de digest˜ao de DNase I s˜ao as regi˜oes de interesse, no m´etodo de ChIP as regi˜oes enriquecidas 27
  • 42. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA 5' 3' 3' 5' 5' 3' 3' 5' 2220181615141312111098761FTONEM Footprint Amostra A (Proteína ausente) Amostra B (Proteína presente) Figura 2.10: Esquema do m´etodo DNase I Footprinting - A amostra (A) n˜ao cont´em a prote´ına de interesse, enquanto a amostra (B) cont´em tal prote´ına (parte de cima da figura). Ao aplicar a enzima DNase I, todo o comprimento da amostra (A) ser´a digerido enquanto que a regi˜ao que cont´em a prote´ına na amostra (B) n˜ao ser´a digerida. Essa deple¸c˜ao na atividade digestiva se mostra como um intervalo sem sinal fluorescente, nos resultados da eletroforese (parte de baixo da figura). Fonte: [Lodish et al., 2007] 28
  • 43. 2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE TRANSCRIC¸ ˜AO Quebra da cromatina i S c g h p 8 w a s t e c r a b Imunoprecipitação de um elemento regulatório Imunoprecipitação de uma modificação de histona Purificação do DNA Fragmentos extraídos (reads) Cromatina Modificação de histona TF Figura 2.11: Esquema do m´etodo ChIP - Este simples esquema exibe as duas possibilidades de aplica¸c˜ao do m´etodo de ChIP: prote´ınas (como elementos regulat´orios) ou prote´ınas modificadas (como histonas). Fonte: [Park, 2009] s˜ao as buscadas. Al´em disso, vale a pena enfatizar que no m´etodo descrito na subse¸c˜ao anterior, os resultados representam, dentro da regi˜ao onde o m´etodo ´e aplicado, todos os poss´ıveis s´ıtios de liga¸c˜ao DNA-prote´ına (sem especificar quais s˜ao as prote´ınas que se ligam nestas regi˜oes), enquanto que no m´etodo de ChIP, apenas os s´ıtios onde uma prote´ına de interesse estava ligada s˜ao identificados. 2.3.3 Motif Matching Conforme mencionado anteriormente, ambos DNase I Footprinting e ChIP s˜ao m´etodos com baixo rendimento, isto ´e, s˜ao capazes de analisar apenas um pequeno trecho do genoma a cada rodada. Isso faz com que a aplica¸c˜ao de tais m´etodos seja financeiramente e tecnicamente cus- tosa. Com a crescente demanda por m´etodos que consigam analisar o genoma inteiro, algumas abordagens computacionais baseadas em busca por sequˆencia se tornaram bastante comuns. Ser´a descrito o Motif Matching (MM), m´etodo que se baseia em an´alises biol´ogicas em primeira m˜ao para a gera¸c˜ao de estruturas capazes de serem aplicadas atrav´es de meios puramente com- putacionais, ao longo de todo o genoma e com complexidade que permite sua aplica¸c˜ao em diversos genomas em um curto per´ıodo de tempo. O algoritmo toma como entrada um genoma (sequˆencia de nucleot´ıdeos) e uma matriz de pontua¸c˜ao, espec´ıfica por fator a ser estudado, que ser´a definida a seguir (ver esquema completo na Figura 2.12). O primeiro procedimento para gerar tal matriz consiste na obten¸c˜ao de diversos fragmentos onde o elemento regulat´orio alvo se liga. Isso pode ser feito atrav´es de v´arios m´etodos 29
  • 44. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA Sítio 1 Sítio 2 Sítio 3 Sítio 4 Sítio 5 Sítio 6 Sítio 7 Sítio 8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Sítios de ligação originais obtidos experimentalmente C T C C T T A C A T G G G C C A A C T A T C T T G G G C C A A C T A T C T T G G G C T G C C A A A A G T G G T C T G A C T A T A A A A G G A T G A C T A T A A A A G G A G A C C A A A T A A G G C A G A C C A A A T A A G G C A aBits 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 Posição f b B R M C W A W H R W G G B M Sequência consenso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 A 0 4 4 0 3 7 4 3 5 4 2 0 0 4 C 3 0 4 8 0 0 0 3 0 0 0 0 2 4 G 2 3 0 0 0 0 0 0 1 0 6 8 5 0 T 3 1 0 0 5 1 4 2 2 4 0 0 1 0 T T A C A T A A G T A G T C A –1.93 0.79 0.79 –1.93 0.45 1.50 0.79 0.45 1.07 0.79 0.00 –1.93 –1.93 0.79 C 0.45 –1.93 0.79 1.68 –1.93 –1.93 –1.93 0.45 –1.93 –1.93 –1.93 –1.93 0.00 0.79 G 0.00 0.45 –1.93 –1.93 –1.93 –1.93 –1.93 –1.93 0.66 –1.93 1.30 1.68 1.07 –1.93 T 0.15 0.66 –1.93 –1.93 1.07 0.66 0.79 0.00 0.00 0.79 –1.93 –1.93 –0.66 –1.93 0.45 –0.66 0.79 1.68 0.45 –0.66 0.79 0.45 –0.66 0.79 0.00 1.68 –0.66 0.79 Σ = 5.23, 78% da máxima pontuação (consenso) c Matriz de frequência de posição (PFM) d Matriz de peso de posição (PWM) e Pontuação de uma sequência genômica sendo analisada Figura 2.12: M´etodo para gerar PWMs - (a) S´ıtios de liga¸c˜ao s˜ao obtidos experimentalmente e alinhados. (b) Os s´ıtios obtidos contˆem boas estimativas sobre a preferˆencia de liga¸c˜ao da prote´ına em quest˜ao, o que pode ser visto atrav´es da sequˆencia consenso. (c) A PFM ´e criada atrav´es da contagem de nucleot´ıdeos em cada posi¸c˜ao. (d) Uma PWM ´e criada a partir da PFM atrav´es do modelo descrito pelas Equa¸c˜oes 2.1 e 2.2. (e) Dada uma nova sequˆencia, uma pontua¸c˜ao pode ser avaliada a partir da PWM. (f) Gr´aficos baseados em entropia (ou logos) s˜ao representa¸c˜oes visuais comuns dessas matrizes de posi¸c˜ao. Fonte: [Wasserman & Sandelin, 2004] 30
  • 45. 2.3. IDENTIFICAC¸ ˜AO DE S´ITIOS DE LIGAC¸ ˜AO DE FATORES DE TRANSCRIC¸ ˜AO biol´ogicos que fogem ao escopo deste trabalho (DNase I Footprinting e ChIP s˜ao alguns deles). De posse desses fragmentos, eles s˜ao alinhados e as posi¸c˜oes que s˜ao importantes para a liga¸c˜ao DNA-prote´ına s˜ao aproximadas. Uma primeira matriz, chamada de matriz de frequˆencia de posi¸c˜ao (PFM, do Inglˆes Position Frequency Matrix) [Wasserman & Sandelin, 2004] ´e criada da seguinte forma: as linhas i = {A, C, G, T} correspondem a cada um dos 4 nucleot´ıdeos do DNA e as colunas j = 1, 2, ..., N, onde N = comprimento total do motif, correspondem a cada posi¸c˜ao deste motif alinhado. Cada entrada Xij da matriz corresponde `a quantidade de nucleot´ıdeos do tipo i na posi¸c˜ao j do conjunto de fragmentos alinhados. Quanto mais sequˆencia tivermos obtido inicialmente, mais confi´avel ser´a essa estimativa da afinidade no DNA para esta prote´ına espec´ıfica. A partir de uma PFM, ´e comum serem criadas representa¸c˜oes logar´ıtmicas chamadas matri- zes de peso de posi¸c˜ao (PWMs, do Inglˆes Position Weight Matrices) ou matrizes de pontua¸c˜ao espec´ıfica por posi¸c˜ao (PSSM, do Inglˆes Position-Specific Scoring Matrices, pronunciada pos- sums) [Wasserman & Sandelin, 2004]. PWMs e PSSMs s˜ao termos usados como sinˆonimos neste trabalho, sendo o termo PWM usado com maior frequˆencia. V´arios m´etodos podem ser utiliza- dos para criar PWMs a partir de PFMs. O mais comum consiste no c´alculo da probabilidade corrigida p(i, j) de se encontrar a base i na posi¸c˜ao j, isto ´e: p(i, j) = fij + s(i) N + i ∈{A,C,G,T} s(i ) , (2.1) onde fij ´e a frequˆencia da base i na posi¸c˜ao j e s(i) ´e uma fun¸c˜ao simples de pseudocounts. Esta fun¸c˜ao normalmente gera pequenos valores para evitar probabilidade nula de eventos de liga¸c˜ao raros mas fact´ıveis. Tal fun¸c˜ao ´e crucial quando a amostra de sequˆencia de s´ıtios de liga¸c˜ao usada para estimar a PWM ´e pequena, algo comum. A partir da probabilidade corrigida, as entradas Wij da PWM podem ser calculadas por: Wij = log2 p(i, j) p(i) , (2.2) onde p(i) ´e a probabilidade geral de fundo do car´acter i (para o motif, regi˜ao ou genoma inteiro). A partir de uma PWM ´e poss´ıvel calcular a probabilidade de liga¸c˜ao, em um genoma, do fator para o qual a PWM foi calculada. Para cada sequˆencia cont´ıgua de nucleot´ıdeos do genoma de tamanho N (comprimento do motif ), pode ser calculado um bit score B. Existem v´arias formas de se calcular tal pontua¸c˜ao, sendo a mais simples delas a soma de todas as entradas Wij para todos os nucleot´ıdeos i da sequˆencia, dadas as coordenadas genˆomicas j. Isso criar´a um ranking a respeito da probabilidade de liga¸c˜ao do fator em todas as sequˆencias cont´ıguas no genoma. T´ecnicas estat´ısticas podem ser aplicadas para determinar qual a pontua¸c˜ao de corte que determinar´a quais sequˆencias representam s´ıtios de liga¸c˜ao. 31
  • 46. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA Vers˜oes dessa t´ecnica possuem taxas de acerto bastante razo´aveis e suas complexidades computacionais superam bastante a tecnicidade dos m´etodos puramente biol´ogicos, isto ´e, o MM ´e aplic´avel de forma pangenˆomica. Entretanto, esta t´ecnica possui desvantagens bem cr´ıticas: (1) MM ´e incapaz de diferenciar s´ıtios de liga¸c˜ao ativos ou inativos, produzindo sempre os mesmos resultados para todas as linhas celulares onde aplicada. (2) Apesar de serem boas representa¸c˜oes, PWMs geralmente s˜ao pequenas e degeneradas. Isto se d´a pelo fato de que a maioria dos motifs possuem comprimentos entre 6 – 12 bp, com especificidade de liga¸c˜ao (posi¸c˜oes onde apenas uma base possui frequˆencia alta) variando, em geral, entre 4 – 6 bp. Como consequˆencia dos pontos (1) e (2), o n´umero de falsos positivos ´e extremamente alto. (3) A an´alise biol´ogica das sequˆencias nos quais os fatores est˜ao ligados faz com que seja dif´ıcil a cria¸c˜ao de PWMs para todos os fatores poss´ıveis, ainda mais pelo fato de que alguns ainda est˜ao sendo estudados. (4) Alguns fatores se ligam no genoma por interm´edio de outros (por exemplo, co-ativadores e co-repressores), de forma que a cria¸c˜ao de PWMs para estes fatores ´e complexa. (5) A acur´acia desta t´ecnica depende bastante da forma como a PWM foi criada, do algoritmo utilizado para realizar o MM e m´etodo estat´ıstico utilizado para determinar os verdadeiros TFBSs. Tais vari´aveis podem mudar bastante entre fatores diferentes, tornando o desenho experimental bastante complexo. 2.4 Solu¸c˜ao Epigen´etica Os problemas encontrados pelas t´ecnicas computacionais baseadas em busca de sequˆencias de afinidade est˜ao sendo amenizados por novas t´ecnicas que est˜ao atualmente no estado da arte no que concerne a identifica¸c˜ao de TFBSs. Tais t´ecnicas utilizam dados epigen´eticos para encontrar regi˜oes que contˆem s´ıtios de liga¸c˜ao atuantes no momento em que tais dados foram mensurados. Utilizando esta abordagem, ´e poss´ıvel criar um mapa consistente dos s´ıtios de liga¸c˜ao presentes em uma determinada linhagem celular ou dadas determinadas condi¸c˜oes. De fato, v´arios estudos est˜ao mostrando que tais mapas geram uma assinatura da cromatina bastante consistente e com m´ultiplas aplica¸c˜oes em diversos tipos de estudos [Barski et al., 2007; Heintzman et al., 2007; Hon et al., 2009; Ramsey et al., 2010; Shu et al., 2011]. O sucesso da utiliza¸c˜ao de caracter´ısticas epigen´eticas ´e explicado atrav´es da hip´otese da cromatina descondensada/condensada. Em algumas regi˜oes, a cromatina se encontra em um estado altamente condensado (enovelado), formando uma estrutura compacta que impede o acesso da maquinaria regulat´oria (e de fatores trans-atuantes) `as regi˜oes cis-regulat´orias. En- tretanto, em outras regi˜oes, a cromatina ´e encontrada em um estado menos enovelado, formando estruturas mais permissivas `a liga¸c˜ao de prote´ınas. Fatores epigen´eticos, como as modifica¸c˜oes p´os-traducionais nas caudas das histonas, est˜ao sendo diretamente relacionadas a mecanismos 32
  • 47. 2.4. SOLUC¸ ˜AO EPIGEN´ETICA de abertura ou fechamento da cromatina. Sabendo que os fatores de transcri¸c˜ao se ligam prefe- rencialmente em regi˜oes mais permissivas, a utiliza¸c˜ao de caracter´ısticas epigen´eticas, como as modifica¸c˜oes de histonas, faz com que o espa¸co de busca por s´ıtios de liga¸c˜ao ativos possa ser reduzido. Tal delineamento epigen´etico das regi˜oes mais prov´aveis de conter um s´ıtio de liga¸c˜ao ativo consiste n˜ao s´o em uma abordagem com fundamentos biol´ogicos concretos, como facilita a aplica¸c˜ao de metodologias computacionais (tais como o motif matching). O termo epigen´etica tem origem na observa¸c˜ao de padr˜oes de hereditariedade n˜ao-Mendelianos em v´arios organismos. Muta¸c˜oes Mendelianas cl´assicas resultam de diferen¸cas nos alelos causa- das por varia¸c˜oes de diversos tipos na estrutura de DNA, que coletivamente definem os tratos fenot´ıpicos e contribuem para a determina¸c˜ao das fronteiras entre as esp´ecies. ´E bastante evi- dente que tais fronteiras sofrem press˜ao da sele¸c˜ao natural. Em contraste, est˜ao fenˆomenos tais como a varia¸c˜ao do crescimento embrion´ario, altera¸c˜oes de colora¸c˜ao por mosaico gen´etico, inativa¸c˜ao aleat´oria do cromossomo X, paramuta¸c˜ao em plantas e v´arios outros, que podem se manifestar, por exemplo, da express˜ao de apenas um (dos dois) alelo [Allis et al., 2007]. A partir da discuss˜ao realizada, epigen´etica pode ser definida como o estudo das varia¸c˜oes heredit´arias na express˜ao gˆenica ou fen´otipo celular causadas por outros motivos que n˜ao as varia¸c˜oes na sequˆencia de nucleot´ıdeos do DNA. A part´ıcula epi- do grego, significa sobre, acima, exterior. Em resumo, esse termo se refere `as modifica¸c˜oes funcionais relevantes para o genoma que n˜ao envolvem uma mudan¸ca na sequˆencia de DNA. Evidˆencias conclusivas que suportam as hip´oteses epigen´eticas mostram que esses mecanismos habilitam a transferˆencia de experiˆencias entre gera¸c˜oes. De forma relacionada, esses eventos ainda seriam capazes de explicar as varia¸c˜oes que ocorrem entre, por exemplo, gˆemeos univitelinos. V´arios elementos podem compor as varia¸c˜oes englobadas pela epigen´etica, entre eles est˜ao as modifica¸c˜oes p´os-traducionais nas caudas das histonas e as histonas variantes, utilizadas neste trabalho. Al´em disso, neste projeto de pesquisa assumiu-se como verdadeira a hip´otese do DNA aberto/fechado. Nas subse¸c˜oes a seguir ser˜ao definidos brevemente tais conceitos e tamb´em ser˜ao detalhados os m´etodos que possibilitam a obten¸c˜ao de dados epigen´eticos. 2.4.1 Conceitos e Elementos Epigen´eticos Anteriormente foram definidos dois estados em que regi˜oes da cromatina podem se apresen- tar: heterocromatina – estado de cromatina condensada, e eucromatina – estado de cromatina descondensada. Entretanto, estudos recentes sugerem que exista um espectro de estados da cromatina, sendo esta uma macromol´ecula com estrutura bastante dinˆamica, propensa a re- modela¸c˜oes e reestrutura¸c˜oes `a medida que recebe entradas relevantes das vias de sinaliza¸c˜ao. Esses diversos estados em que a cromatina se apresenta fornecem dicas importantes sobre as intera¸c˜oes prote´ına-DNA que ocorrem em vizinhan¸cas distintas. 33
  • 48. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA A estrutura macromolecular da cromatina, bem como efeitos de ordens mais baixas como a disposi¸c˜ao dos nucleossomos, pode ser alterada por fatores cis, fatores trans ou substitui¸c˜oes de elementos do nucleossomo. A Figura 2.13 sumariza os principais elementos epigen´eticos. Nela est˜ao representados: (1) Modifica¸c˜oes p´os-traducionais de amino´acidos na cauda das histonas; (2) Remodelamento da cromatina atrav´es de processos dependentes de energia (ATP) que mo- dificam o posicionamento dos nucleossomos; (3) A inser¸c˜ao ou remo¸c˜ao de histonas variantes; (4) Atua¸c˜ao de pequenos ncRNAs; (5) Metila¸c˜ao do DNA, geralmente em dinucleot´ıdeos CpG fora de ilhas (definidas na Se¸c˜ao 2.2.2.1). Neste trabalho ser´a dado foco apenas `as modifica¸c˜oes das histonas. 2. Remodelamento da cromatina 1. Modificações de histonas 4. Atuação de ncRNAs remodelador 3. Histonas variantes 5. Metilações no DNA Figura 2.13: Elementos epigen´eticos - Um esquema sumarizando os principais elementos epi- gen´eticos. O objetivo desta figura ´e meramente ilustrativo e n˜ao representa toda a extens˜ao da epigen´etica nem um esquema funcional de como tais elementos ocorrem. Fonte: [Allis et al., 2007] Um dos fatores mais estudados ´e a modifica¸c˜ao p´os-traducional na cauda das histonas. As caudas das histonas podem sofrer modifica¸c˜oes qu´ımicas em amino´acidos espec´ıficos. Entre essas modifica¸c˜oes est˜ao a fosforila¸c˜ao, acetila¸c˜ao, metila¸c˜ao e ubiquitina¸c˜ao. Essas modifica¸c˜oes possuem uma nomenclatura espec´ıfica, seguindo a ordem: tipo da histona, amino´acido que sofre a modifica¸c˜ao e tipo de modifica¸c˜ao [Allis et al., 2007]. Por exemplo, H3K4me2 se refere `a dimetila¸c˜ao (me2) da lisina na posi¸c˜ao 4 (K4) na cauda da histona H3. A Fig 2.14 mostra um mapa das principais modifica¸c˜oes de histonas observadas at´e o momento. O estudo mais aprofundado das modifica¸c˜oes nas histonas e histonas variantes (neste texto, a nomenclatura ser´a ocasionalmente extrapolada, sendo ambas chamadas de modifica¸c˜oes de histonas) tˆem permitido maior entendimento sobre o impacto das mesmas na estrutura da cromatina e na express˜ao gˆenica [Grant, 2001; Spivakov & Fisher, 2007]. Alguns exemplos mais conhecidos s˜ao descritos na Tabela 2.1. Os padr˜oes gerais de metila¸c˜ao e de acetila¸c˜ao s˜ao analisados com mais detalhes em [Barski et al., 2007] e [Ramsey et al., 2010], respectivamente. Por fim, algumas fun¸c˜oes para modifica¸c˜oes espec´ıficas ainda est˜ao sendo estudadas, como por exemplo a modifica¸c˜ao H3K27ac, que parece ser capaz de separar regi˜oes amplificadoras ativas de regi˜oes estacion´arias [Creyghton et al., 2010]. 34
  • 49. 2.4. SOLUC¸ ˜AO EPIGEN´ETICA H2B H3 H3 H4 H2B H2A P P 9 15 12 M e-Lys P M e-Arg M e-Lys AcM e-Lys M e- Lys 8 12 16 20 3 1 5 Ac Ac Ac Ac M e-Lys M e-Arg 20 5 Ac Ac Ac Ac 120 Ub H2A 5 1 Ac Ac 119 Ac Ac Ac M e-Arg P M e-Lys 36 79 4 10 14 18 28 9 17 23 27 26 Ub Acetil Ubiquitil Metil Fosforil Figura 2.14: Modifica¸c˜oes de histonas - Esquema gr´afico representando as principais modi- fica¸c˜oes de histonas detectadas at´e o presente momento. Fonte: [Felsenfeld & Groudine, 2003] Entre as modifica¸c˜oes mostradas, a H2A.Z, H3K4me2, H3K4me3 e H3K9ac parecem exibir forte capacidade de separar regi˜oes de cromatina descondensada e condensada, como evidenciado em [Hon et al., 2009; Won et al., 2010] e nos estudos realizados internamente (mais detalhes na Se¸c˜ao 5.1). Por esta raz˜ao, neste estudo tais modifica¸c˜oes nas histonas ser˜ao chamadas de modifica¸c˜oes ativadoras, sendo as an´alises posteriores focadas neste grupo de modifica¸c˜oes. 2.4.2 M´etodos de Obten¸c˜ao de Dados Epigen´eticos Sequenciamento de pr´oxima gera¸c˜ao (Next-Generation Sequencing) tem proporcionado meios para se realizar m´etodos biol´ogicos tradicionais, baseados em eletroforese ou outra t´ecnica de baixo rendimento, de forma pangenˆomica (isto ´e, com alto rendimento). A ideia b´asica consiste em substituir os procedimentos de baixo rendimento para obten¸c˜ao das sequˆencias de interesse (como a eletroforese para os m´etodos descritos nas Se¸c˜oes 2.3.1 e 2.3.2) por t´ecnicas de sequen- ciamento de alto desempenho. 35
  • 50. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA Tabela 2.1: Impacto das modifica¸c˜oes de histonas na estrutura da cromatina e express˜ao gˆenica. Fonte: [Allis et al., 2007] Modifica¸c˜ao Impacto H2A.Z Suspens˜ao dos genes para a inicia¸c˜ao da transcri¸c˜ao e preven¸c˜ao de silenciamento da eucromatina. H3K4me1 Ativa¸c˜ao de transcri¸c˜ao. Rela¸c˜oes com amplificadores foram identificadas. H3K4me2 Eucromatina permissiva e ativa¸c˜ao de transcri¸c˜ao. H3K4me3 Eucromatina permissiva. Regi˜oes de ponto de in´ıcio da transcri¸c˜ao de genes que s˜ao transcricionalmente iniciados, mas n˜ao necessariamente completamente transcritos. H3K9ac Ativa¸c˜ao da transcri¸c˜ao e deposi¸c˜ao de histonas. H3K9me1 Silenciamento e repress˜ao da transcri¸c˜ao. H3K9me3 Altamente enriquecida em gene inativos. Rela¸c˜oes com metila¸c˜ao no DNA foram identificadas. H3K27ac Ativa¸c˜ao da transcri¸c˜ao. Rela¸c˜oes com amplificadores foram identificadas. H3K27me3 Inibi¸c˜ao da transcri¸c˜ao. H3K36me3 Associada a regi˜oes transcritas. No corpo gˆenico, evita o in´ıcio da transcri¸c˜ao em locais aberrantes. H3K79me2 Alongamento da transcri¸c˜ao e ponto de verifica¸c˜ao cr´ıtico no controle transcricional. H4K20me1 Heterocromatina e silenciamento da transcri¸c˜ao. Existem v´arias t´ecnicas de sequenciamento de alto desempenho, propostas por diferentes pla- taformas que comercializam seus sequenciadores. Entre elas est˜ao: (1) sequenciamento massivo paralelo de assinaturas (MPSS, do Inglˆes Massively Parallel Signature Sequencing), que baseia- se em esferas e utiliza uma complexa abordagem de liga¸c˜ao e decodifica¸c˜ao de adaptadores; (2) pirosequenciamento, que utiliza PCR de emuls˜ao para amplifica¸c˜ao e rea¸c˜ao de DNA nascente com luciferase para identificar picos luminosos em rodadas revezadas de adi¸c˜ao de nucleot´ıdeos; (3) sequenciamento Illumina (Solexa), com amplifica¸c˜ao via ponte e identifica¸c˜ao de sequˆencias via fotografias de nucleot´ıdeos com r´otulos fluorescentes. Esses s˜ao apenas alguns exemplos de uma quantidade imensa de t´ecnicas. Cada m´etodo tradicional ´e adaptado mais facilmente com um subconjunto dessas t´ecnicas, por´em tais detalhes n˜ao ser˜ao abordados. O m´etodo de DNase-seq [Crawford et al., 2004; Song & Crawford, 2010] consiste na digest˜ao de sequˆencias de DNA com a enzima DNase I (conforme detalhado na Se¸c˜ao 2.3.1) e poste- 36
  • 51. 2.4. SOLUC¸ ˜AO EPIGEN´ETICA rior identifica¸c˜ao dos trechos atrav´es de sequenciamento de alto desempenho. Algumas etapas adicionais de tratamento de sequˆencia s˜ao necess´arios, por´em eles n˜ao adicionam graus muito mais elevados de tecnicidade ao m´etodo. A maior vantagem de tal abordagem se d´a pelo fato de que agora ´e poss´ıvel realizar o m´etodo de DNase I Footprinting ao longo de todo o genoma, obtendo resultados com alta resolu¸c˜ao (na ordem de pares de bases) e acurados [Boyle et al., 2008a, 2011]. Atrav´es deste m´etodo ´e poss´ıvel medir locais onde a cromatina estava acess´ıvel, ou regi˜oes hipersens´ıveis `a DNase I. Al´em disso, ´e poss´ıvel identificar regi˜oes espec´ıficas onde prote´ınas est˜ao ligadas ao DNA, por´em sem especificar quais prote´ınas s˜ao estas. O m´etodo de ChIP-seq [Park, 2009] consiste na realiza¸c˜ao do procedimento de imunopre- cipita¸c˜ao da cromatina (ChIP – conforme detalhado na Se¸c˜ao 2.3.2) e posterior identifica¸c˜ao das regi˜oes enriquecidas para o tipo espec´ıfico de prote´ına atrav´es de sequenciamento de alto desempenho. Assim como no m´etodo de DNase-seq, algumas etapas adicionais s˜ao necess´arias entre as etapas mencionadas. Tal m´etodo ´e capaz de identificar, com boa resolu¸c˜ao, regi˜oes onde prote´ınas espec´ıficas se ligam no DNA. ´E importante observar que o m´etodo de ChIP-seq, por si s´o, j´a ´e capaz de identificar TFBSs com uma acur´acia bastante alta, mas apenas para o caso de fatores de transcri¸c˜ao onde anticorpos que tenham alta afinidade de liga¸c˜ao com a prote´ına estejam dispon´ıveis, o que se aplica apenas a um fra¸c˜ao dos fatores de transcri¸c˜ao conhecidos. Em estudos onde ´e necess´aria a identifica¸c˜ao dos s´ıtios de liga¸c˜ao de uma pequena quantidade de fatores, tal m´etodo, quando dispon´ıvel, representa a melhor op¸c˜ao atualmente. Por´em, estudos atuais est˜ao focando na identifica¸c˜ao de assinaturas celulares, isto ´e, eles pretendem identificar o maior n´umero de TFBSs poss´ıvel, para todos os fatores existentes. Em tais estudos, a aplica¸c˜ao de ChIP-seq ´e bastante complexa pois um experimento completo teria que ser realizado para todos os fatores que se tem conhecimento (ou para um grande n´umero destes), processo que ´e altamente custoso e t´ecnico. Por´em, tal m´etodo tamb´em ´e capaz de identificar fatores epi- gen´eticos como as modifica¸c˜oes de histonas, o que fornece dados interessantes para direcionar a identifica¸c˜ao total de TFBSs sem que um grande n´umero de experimentos seja conduzido. 2.4.3 Gera¸c˜ao de Sinais Os m´etodos descritos na Se¸c˜ao 2.4.2 resultam em diversas sequˆencias de nucleot´ıdeos dos locais recuperados. As tecnologias de sequenciamento de alto desempenho geralmente sequenciam apenas um pequeno n´umero de bases a partir da posi¸c˜ao 5 . O pr´oximo passo ent˜ao consiste em alinhar os fragmentos obtidos no genoma. Nesta etapa, alguns filtros podem ser impostos. ´E comum, por exemplo, descartar regi˜oes que alinharam de forma significativa em 4 ou mais locais, devido a problemas gerados por regi˜oes repetitivas. Alguns estudos tamb´em removem regi˜oes onde v´arios fragmentos foram perfeitamente alinhados sem que qualquer fragmento tenha alinhado com regi˜oes vizinhas, para excluir problemas devido `a amplifica¸c˜ao indevida ou outras fases espec´ıficas da t´ecnica de sequenciamento utilizada [Boyle et al., 2008b; Zhang et al., 2008]. 37
  • 52. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA A partir das sequˆencias (em Inglˆes, reads) alinhadas, podemos calcular um sinal genˆomico. Tal sinal consiste na simples contagem de quantos fragmentos se sobrepuseram em cada bp do genoma. A Figura 2.15 mostra duas abordagens comumente utilizadas. Na primeira, s˜ao consi- derados os reads inteiros provenientes tanto da fita senso quanto da anti-senso. Isso gera picos bimodais, que podem ser utilizados de forma diferenciada ou igualit´aria. Na segunda aborda- gem, os reads s˜ao estendidos englobando todo o trecho onde o fator de interesse esteve presente, gerando apenas um pico onde as regi˜oes mais altas representariam os trechos enriquecidos [Park, 2009]. Proteína ou nucleossomo de interesse 3′5′ 3′ 5′ ′ Fita senso Fita anti-senso Protein or nucleosome of interest ds ed on of tags ted Reference genome Peak identification can be performed on either profile generated from d tags ple,each mapped sextended gment of d size sare added 3′Po e strand Negative strand 5′ f sare ed (mAQ algorit and b on an compr accom the SO consec have b lines d repetit handli Identif reads a tify reg to the Sev to ide availab scored size an tors su tag de the dir fragm tions o one on strand the di file of profile toward into a addin should the wi of the fragm Giv eral w sample peak (f not ad tags (f Porção 5' dos fragmentos é sequenciada Caso 1: Porções sequenciadas são alinhadas Caso 1: Distribuição de fragmentos é computada Caso 2: Fragmentos estendidos são alinhados Identificação de picos pode ser realizada em ambos os casos Caso 2: Distribuição de fragmentos é computada Figura 2.15: Gera¸c˜ao de Sinais Genˆomicos - O esquema mostra duas abordagens poss´ıveis (entre diversas abordagens existentes): No primeiro caso o sinal ´e gerado a partir dos fragmentos originais que foram sequenciados (o tamanho varia de acordo com o m´etodo de sequenciamento utilizado). No segundo caso, o fragmento ´e modificado (neste caso estendido) para atender a algumas caracter´ısticas t´ecnicas, como o fato de que os fragmentos obtidos atrav´es de ChIP tˆem, em m´edia, 200 bp (muito maior do que os fragmentos sequenciados). Fonte: [Park, 2009] 38
  • 53. 2.5. REVIS˜AO DA LITERATURA A Figura 2.15 representa a gera¸c˜ao de sinais genˆomicos para o m´etodo ChIP-seq. Algumas particularidades a respeito dos m´etodos DNase-seq e ChIP-seq ser˜ao explorados na se¸c˜ao onde os m´etodos deste estudo s˜ao detalhados. Por ora, apresenta-se apenas o fato de que ´e comum gerar sinais epigen´eticos com esses dois m´etodos de forma que a representa¸c˜ao das regi˜oes enriquecidas seja bem diferente. No caso do DNase-seq, ´e comum considerar apenas o bp da extremidade 5 para gerar os sinais. Foi demonstrado que com tal abordagem, as regi˜oes de TFBSs s˜ao representadas como trechos de deple¸c˜ao de sinal, ap´os trechos de picos [Boyle et al., 2011]. Esse sinal ´e dito possuir alta resolu¸c˜ao pois como apenas um bp foi utilizado para calcular as sobreposi¸c˜oes, os sinais tendem a mostrar regi˜oes bastante espec´ıficas, delineando picos bem claros das regi˜oes exatas onde a DNase I digeriu o DNA. No caso do ChIP-seq o sinal possui uma resolu¸c˜ao um pouco mais baixa, j´a que ´e comum que os fragmentos sequenciados e alinhados sejam estendidos at´e o tamanho m´edio dos fragmentos obtidos atrav´es do m´etodo de ChIP. Consequentemente, a prote´ına de interesse poderia estar ligada em quase toda a regi˜ao estendida. Nesse caso, que se assemelha `a segunda abordagem descrita anteriormente, as regi˜oes enriquecidas seriam representadas como picos, estando a prote´ına de interesse, ligada em alguma regi˜ao dentro destes picos. 2.5 Revis˜ao da Literatura Este projeto ´e parcialmente baseado em um estudo recente por Boyle et al., onde v´arias proprie- dades relativas aos resultados do DNase-seq foram discutidas e TFBSs foram preditos utilizando dados de DNase-seq e um modelo probabil´ıstico [Boyle et al., 2011]. Dois resultados em especial s˜ao interessantes. Primeiro, foi demonstrado que as regi˜oes de deple¸c˜ao em sinais gerados a partir de DNase-seq s˜ao ´otimos preditores de regi˜oes de TFBSs. An´alises estat´ısticas mostram que a significˆancia de tais regi˜oes est´a bastante relacionada com o n´ıvel de enriquecimento de t´ecnicas para fatores espec´ıficos como ChIP-seq ou com pontua¸c˜oes de t´ecnicas como MM. Ou- tra parte do estudo consistiu na cria¸c˜ao de um modelo escondido de Markov simples univariado para a identifica¸c˜ao autom´atica de regi˜oes de TFBSs a partir dos sinais de digest˜ao de DNase I. Este estudo foi replicado e v´arias caracter´ısticas, como o conjunto de valida¸c˜ao, foi seguido de forma idˆentica, para permitir uma compara¸c˜ao com m´axima precis˜ao. Outros estudos que se baseiam em DNase foram publicados [Boyle et al., 2008a; Crawford et al., 2004, 2006a,b; He et al., 2012; Song & Crawford, 2010; Song et al., 2011]. Crawford et al. [Crawford et al., 2004] utilizaram padr˜oes de digest˜ao de DNase I para recuperar regi˜oes hipersens´ıveis e mostrou que essas regi˜oes s˜ao bons preditores de s´ıtios de liga¸c˜ao ativos no estado corrente da c´elula. Tal t´ecnica serve como hip´otese central para diversos outros estudos baseados na identifica¸c˜ao espec´ıfica de tais regi˜oes. A partir do sucesso de tal protocolo, ele foi devidamente formalizado em Song e Crawford [Song & Crawford, 2010]. Mais recentemente, 39
  • 54. 2. CONTEXTUALIZAC¸ ˜AO BIOL´OGICA estudos como He et al. [He et al., 2012] est˜ao mostrando, atrav´es de padr˜oes em regi˜oes de hipersensibilidade `a DNase I, que as estruturas da cromatina realmente s˜ao bastante vari´aveis, por uma grande quantidade de caracter´ısticas, e al´em de espec´ıficos por c´elula, parecem ser espec´ıficos por elementos regulat´orios ou m´odulos regulat´orios. Em rela¸c˜ao `a abordagens mais integrativas, isto ´e, que utilizaram v´arias fontes de dados epigen´eticas em um s´o modelo (assumindo dependˆencia ou n˜ao), alguns algoritmos provaram ser mais eficazes do que aqueles baseados apenas em DNase-seq [Cuellar-Partida et al., 2012; Ernst & Kellis, 2010; Pique-Regi et al., 2011; Whitington et al., 2009; Won et al., 2010]. Talvez o m´etodo mais simples entre as abordagens integrativas seja a busca por ocorrˆencias de um motif espec´ıfico utilizando filtros determin´ısticos baseados em modifica¸c˜oes de histonas [Whitington et al., 2009]. V´arios outros m´etodos integrativos foram propostos, de forma a combinar motifs no DNA com informa¸c˜oes a respeito da estrutura da cromatina [Ernst & Kellis, 2010; Won et al., 2010]. Pique-Regi et al. [Pique-Regi et al., 2011], criaram um modelo bem utilizado chamado CENTIPEDE, que utiliza um modelo de mistura Bayesiana hier´arquico que incorpora informa¸c˜oes sobre a sequˆencia de DNA, a conserva¸c˜ao evolucion´aria, a distˆancia do s´ıtio de in´ıcio de transcri¸c˜ao (TSS), hipersensibilidade `a DNase I e marcas de histona ativadoras e repressoras. Ainda a respeito dos modelos integrativos, Cuellar-Partida et al. [Cuellar-Partida et al., 2012] combinaram dados relativos `as modifica¸c˜oes de histonas H3K4me1, H3K4me3, H3K9ac, H3K27ac e digest˜ao de DNase I para criar um modelo Bayesiano simples, baseado em raz˜oes logar´ıtmicas de probabilidade posterior. Foi mostrado que este modelo simples consegue melho- rar o desempenho em rela¸c˜ao a modelos mais complexos como o CENTIPEDE ou os modelos propostos em [Ernst & Kellis, 2010; Whitington et al., 2009; Won et al., 2010]. Consideramos a valida¸c˜ao realizada por estes estudos levemente divergentes da metodologia do Boyle et al. [Boyle et al., 2011], n˜ao possibilitando a compara¸c˜ao direta. Finalmente, pesquisas recentes tˆem focado na busca por padr˜oes epigen´eticos (tais como as modifica¸c˜oes de histonas) em diferentes linhas celulares, condi¸c˜oes e padr˜oes de express˜ao. De fato, diversos estudos mostram claras assinaturas da cromatina e sugeriram a aplica¸c˜ao de tais padr˜oes em diversos problemas, incluindo a predi¸c˜ao de s´ıtios de liga¸c˜ao [Barski et al., 2007; Heintzman et al., 2007; Hon et al., 2009; Ramsey et al., 2010]. Estudos que comparam as diferentes fontes de dados epigen´eticas tamb´em s˜ao interessantes e elucidam v´arias quest˜oes sobre a dependˆencia de uma sobre outra [Shu et al., 2011]. 2.6 Considera¸c˜oes Finais Neste cap´ıtulo, foi realizada uma revis˜ao sobre os principais conceitos de Biologia Molecular, Gen´etica, epigen´etica e regula¸c˜ao gˆenica. A partir desse conhecimento, o problema de iden- 40
  • 55. 2.6. CONSIDERAC¸ ˜OES FINAIS tifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao foi delineado, deixando bem claras as fronteiras e n´ıveis de dificuldade diferentes em diversas abordagens do problema. Foi mostrado que sinais epigen´eticos est˜ao sendo utilizados para melhorar a predi¸c˜ao de TFBSs e que sequen- ciamento de pr´oxima gera¸c˜ao permite a mensura¸c˜ao de tais dados de forma pangenˆomica. Por fim, uma discuss˜ao sobre os estudos situados no estado da arte foi realizada, apontando as se- melhan¸cas e diferen¸cas com a forma como o problema ser´a abordado neste projeto de pesquisa. 41
  • 56. 3 Modelos Escondidos de Markov Neste cap´ıtulo, ser´a descrito o m´etodo de aprendizagem de m´aquina que ser´a aplicado posterior- mente ao problema de identifica¸c˜ao de TFBSs: o Modelo Escondido de Markov. Outros m´etodos matem´aticos ser˜ao utilizados durante o processamento dos sinais epigen´eticos e em outras eta- pas, por´em apenas este m´etodo ser´a exibido por fazer parte do n´ucleo deste estudo. Os modelos escondidos de Markov (HMMs, do Inglˆes Hidden Markov Models), ´e uma t´ecnica probabil´ıstica baseada na teoria de Bayes e em processos estoc´asticos de Markov. Ser˜ao abordados algoritmos de predi¸c˜ao e estima¸c˜ao de parˆametros baseados em HMMs. N˜ao necessariamente todos os algoritmos mostrados ser˜ao utilizados, sendo estes exibidos por motivos did´aticos. Toda teoria exibida ser´a baseada nos livros e artigos [Bilmes, 1997; Bishop, 2006; Duda et al., 2000; Durbin et al., 1998; Dymarski, 2011; Hair et al., 1998; Hastie et al., 2009; Lesk, 2005; Levin et al., 2008; Mitchell, 1997; Rabiner, 1989; Russell & Norvig, 2002], onde mais informa¸c˜oes podem ser obtidas. A ´area de aprendizagem de m´aquina ´e uma ramifica¸c˜ao da grande ´area de inteligˆencia arti- ficial, dentro da ciˆencia da computa¸c˜ao. Essa disciplina tem como objetivo a an´alise de dados provenientes das mais diversas fontes de modo a realizar inferˆencias sobre tais dados. A tarefa de inferˆencia mais comum ´e a classifica¸c˜ao, onde um m´etodo ´e treinado de forma a capturar caracter´ısticas de interesse a partir de padr˜oes existentes nos dados utilizados e, ap´os esse trei- namento, ´e capaz de classificar novos padr˜oes com base no que aprendeu. Esse treinamento pode seguir diversos paradigmas, entre eles est˜ao a aprendizagem supervisionada, n˜ao-supervisionada e por refor¸co. Na aprendizagem supervisionada, os exemplos (ou instˆancias) s˜ao mostrados ao algoritmo, juntamente com as respostas ou classe de cada instˆancia. O treinamento ´e dito supervisionado pois o classificador tem completo conhecimento das classes da amostra de dados de treino e deve aprender baseado nesta caracter´ıstica. Na abordagem n˜ao-supervisionada, o algoritmo 42
  • 57. 3.1. MODELOS ESCONDIDOS DE MARKOV recebe as instˆancias dos dados sem suas respectivas classes. O objetivo ´e encontrar padr˜oes em comum entre m´ultiplas instˆancias, criando sua pr´opria categoriza¸c˜ao (isto ´e, separa¸c˜ao dos dados) interna com base nessas caracter´ısticas intr´ınsecas. O m´etodo HMM descrito ir´a conter algumas instˆancias te´oricas supervisionadas e n˜ao supervisionadas, por´em apenas as t´ecnicas supervisionadas ser˜ao utilizadas no projeto. 3.1 Modelos Escondidos de Markov Cadeias de Markov s˜ao modelos probabil´ısticos compostos por uma cole¸c˜ao de estados e uma cole¸c˜ao de transi¸c˜oes entre esses estados, que correspondem `a probabilidade da mudan¸ca de um estado para o outro. Os modelos escondidos de Markov seguem esta mesma ideia, por´em neles, al´em da sequˆencia de estados conhecida, existe uma sequˆencia de estados, chamada de caminho (em inglˆes, path), que n˜ao ´e conhecida e cada estado emite s´ımbolos conhecidos (que fazem parte de um alfabeto Σ) a partir de uma determinada probabilidade. O objetivo deste modelo ´e, considerando a sequˆencia de estados conhecida como sendo uma sequˆencia de “emiss˜oes” de s´ımbolos dentro de um alfabeto espec´ıfico, determinar qual ´e a sequˆencia de estados mais prov´avel de ter gerado esta sequˆencia de s´ımbolos. Os HMMs s˜ao formalizados a seguir. Um modelo escondido de Markov consiste em: (1) um conjunto de estados S = {S1, S2, ..., Sn}; (2) uma matriz A de dimens˜oes n x n onde cada c´elula aij dessa matriz representa a probabilidade de se transitar do estado i para o estado j; (3) uma matriz E de tamanho |Σ| x n onde cada entrada ei(b) representa a probabilidade de se emitir, no estado i, a entrada observada b ∈ Σ. Esse modelo recebe como entrada uma sequˆencia x = x1x2...xL de observa¸c˜oes e possui uma instˆancia especial π = π1π2...πL, onde πi ∈ S, chamada caminho (ou sequˆencia de estados escondidos), que pode assumir o papel de entrada ou sa´ıda do algoritmo dependendo dos objetivos da prova ou modelagem que se deseja obter. A Figura 3.1 sumariza essas defini¸c˜oes de forma gr´afica. Modelos gr´aficos deste gˆenero ser˜ao utilizados mais adiante quando solu¸c˜oes para o problema de predi¸c˜ao de TFBSs forem propostas. Realizadas as defini¸c˜oes iniciais sobre os parˆametros e entradas do modelo, podemos forma- lizar de maneira probabil´ıstica o conceito de transi¸c˜ao e emiss˜ao, respectivamente, segundo as Equa¸c˜oes 3.1 e 3.2. Tais defini¸c˜oes correspondem `a base de todos os resultados subsequentes e devem ser entendidos como cl´ausulas b´asicas para a teoria dos HMMs. akl = P(πi = l|πi−1 = k) (3.1) 43
  • 58. 3. MODELOS ESCONDIDOS DE MARKOV S1 S2 x = x1x2x3 ... xL π = π1π2π3 ... πL a12 a22 a21 a11 e1(xi) e2(xi) s = {s1,s2} Conjunto de estados Observação Estados escondidos a = {a11,a12,a21,a22} Conjunto de transições e = {e1,e2} Conjunto de emissões Figura 3.1: Esquema de um modelo escondido de Markov - Neste esquema exemplo, existem 2 estados S1 e S2. Cada um dos dois estados possui transi¸c˜ao para si e para o outro estado. A emiss˜ao de cada estado, isto ´e e1(xi) e e2(xi), correspondem a probabilidades pontuais atribu´ıdas a cada poss´ıvel valor xi. Observe que a matriz de transi¸c˜ao est´a representada em sua forma vetorial para facilitar a visualiza¸c˜ao. ek(b) = P(xi = b|πi = k) (3.2) Al´em das a¸c˜oes b´asicas de transi¸c˜ao e emiss˜ao, a teoria dos HMMs possui uma propriedade chave: a probabilidade de prosseguir do estado i para o estado i + 1 depende apenas da proba- bilidade no estado i. Dessa forma, o processo estoc´astico faz com que as probabilidades sejam sumarizadas em cada estado, de forma indutiva. Podemos generalizar a propriedade chave como: a probabilidade de prosseguir do estado i para o estado i + 1 depende apenas da probabilidade dos T estados anteriores, definindo um HMM de ordem T. Utilizando um estado auxiliar inicial 0, no qual o modelo se encontra no in´ıcio do processo, e um estado auxiliar final L + 1 (tamb´em denotado posteriormente como ), no qual o modelo se encontra no fim do processo, podemos representar esse conceito chave, para o caso de ordem 1, segundo a Equa¸c˜ao 3.3. P(x, π) = a0π1 L i=1 eπi (xi)aπiπi+1 (3.3) Podemos definir as emiss˜oes como discretas ou cont´ınuas. A diferen¸ca n˜ao ir´a afetar a modelagem te´orica a seguir, pelo fato de que: no caso discreto, basta que as probabilidades (de- notadas por P(·)) sejam fun¸c˜oes (massa) de probabilidade; em contrapartida, no caso cont´ınuo, as probabilidades P(·) seriam fun¸c˜oes densidade de probabilidade. Os sinais utilizados neste projeto s˜ao de natureza cont´ınua, portanto as emiss˜oes ir˜ao corresponder a distribui¸c˜oes gaussi- 44
  • 59. 3.2. M´ETODOS DE PREDIC¸ ˜AO BASEADOS EM HMMS anas (Equa¸c˜ao 3.4). Isto significa que cada emiss˜ao, em cada estado, ser´a representada atrav´es dos parˆametros de uma fun¸c˜ao densidade de probabilidade do tipo normal: a m´edia µ e o desvio padr˜ao σ. f(x; µ, σ) = 1 √ 2πσ2 e− (x−µ)2 2σ2 , −∞ < x < ∞, σ > 0 (3.4) Al´em de cont´ınuos, os modelos escondidos de Markov podem ser multivariados. Novamente, o formalismo a seguir se modificar´a apenas no que concerne `a adi¸c˜ao de dimens˜oes. No modelo, a ´unica diferen¸ca seria que a matriz de emiss˜oes E teria uma dimens˜ao adicional de tamanho d, onde d ´e a dimensionalidade do modelo (isto ´e, a quantidade de sinais que ser˜ao simultaneamente inseridos). A entrada eij(b) desta matriz com trˆes dimens˜oes representaria a emiss˜ao para o i−´esimo estado, para o j−´esimo sinal, para um valor observado b. Os algoritmos apresentados na Se¸c˜ao 3.2 consistem em m´etodos para se descobrir o caminho π a partir de uma sequˆencia de caracteres x utilizando um modelo com os parˆametros A e E definidos. Nesses m´etodos a Equa¸c˜ao 3.3 ser´a explorada e ser˜ao criadas novas vari´aveis para ajudar no entendimento. Os algoritmos apresentados na Se¸c˜ao 3.3 mostram formas de se estimar os parˆametros A e E para um modelo de Markov escondido, de forma supervisionada ou n˜ao supervisionada. 3.2 M´etodos de Predi¸c˜ao Baseados em HMMs Dado o formalismo definido na Se¸c˜ao 3.1, existem, basicamente, trˆes problemas que devem ser resolvidos para que o modelo tenha aplica¸c˜oes pr´aticas: Problema 1 Dada a sequˆencia observada x = x1x2...xL e um modelo composto por θ = {A, E}, como ´e escolhida a sequˆencia π = π1π2...πL que ´e ´otima dado algum crit´erio significativo (isto ´e, que melhor explica as observa¸c˜oes)? Problema 2 Dada a sequˆencia observada x = x1x2...xL e um modelo composto por θ = {A, E}, como ´e computada P(x|θ), isto ´e, a probabilidade da sequˆencia observada, dado o modelo? Problema 3 Como os parˆametros θ = {A, E} podem ser ajustados de forma a maximizar P(x|θ)? O primeiro problema proposto, que aborda a parte escondida do HMM, ser´a abordado na Se¸c˜ao 3.2.1, ao definir o m´etodo de Viterbi. O segundo problema ser´a utilizado para avaliar a probabilidade posterior na Se¸c˜ao 3.2.2 (correspondente, mais especificamente, aos m´etodos 45
  • 60. 3. MODELOS ESCONDIDOS DE MARKOV forward ou backward). E finalmente, o terceiro problema, diretamente solucionado atrav´es do simples m´etodo da verossimilhan¸ca na Se¸c˜ao 3.3, faz com que sejamos capazes de treinar o modelo. Nesta se¸c˜ao ser˜ao definidos os dois principais m´etodos para se predizer sequˆencias de estados escondidos π a partir de um HMM e de entradas (sequˆencias de s´ımbolos x). O primeiro m´etodo segue diretamente das defini¸c˜oes anteriores, a partir da utiliza¸c˜ao do paradigma de programa¸c˜ao dinˆamica para resolver o problema da exaust˜ao inicial. O segundo m´etodo resulta em um vetor de probabilidades posterior de tamanho igual ao n´umero de estados, para cada elemento do vetor de entrada. Neste m´etodo, que geralmente produz predi¸c˜oes mais acuradas que o primeiro, o caminho π pode ser avaliada de v´arias formas, incluindo a aceita¸c˜ao do estado que possui a maior probabilidade posterior para cada posi¸c˜ao da sequˆencia de entrada. 3.2.1 Algoritmo de Viterbi Ao introduzir uma sequˆencia de estados escondidos π no modelo, se torna imposs´ıvel descrever deterministicamente em qual estado do modelo estamos apenas atrav´es da observa¸c˜ao do s´ımbolo correspondente da sequˆencia de entrada x. Encontrar o significado da sequˆencia de entrada em termos da sequˆencia de estados escondidos se chama decodifica¸c˜ao, no jarg˜ao original de reconhecimento de padr˜oes sonoros. O Algoritmo de Viterbi foi proposto por Andrew Viterbi, em 1976, como um algoritmo de de- codifica¸c˜ao para c´odigos convolucionais sobre conex˜oes digitais de comunica¸c˜ao que continham alto n´ıvel de ru´ıdo. Ap´os sua proposi¸c˜ao, esse algoritmo foi aplicado em ´areas como celula- res digitais CDMA e GSM, modems discados, sat´elites, comunica¸c˜oes espaciais, redes sem fio 802.11 e atualmente, ´e bastante utilizado em reconhecimento de fala, lingu´ıstica computacional e bioinform´atica. O Algoritmo de Viterbi pertence ao paradigma da programa¸c˜ao dinˆamica e consiste em descobrir qual ´e o caminho mais prov´avel π∗ dada a sequˆencia de emiss˜ao x. A Equa¸c˜ao 3.5 descreve em termos formais essa proposi¸c˜ao. π∗ = argmaxπP(x, π) (3.5) A forma exaustiva de resolu¸c˜ao de tal algoritmo seria calcular as probabilidades P(x, π) para todas as sequˆencias π existentes. Entretanto, conforme aumentamos o tamanho L da sequˆencia de entrada, o n´umero total de combina¸c˜oes de estados que constituem as sequˆencias π cresce exponencialmente, e quanto maior o n´umero de estados, mais agressivo ´e tal crescimento. 46
  • 61. 3.2. M´ETODOS DE PREDIC¸ ˜AO BASEADOS EM HMMS Felizmente, Viterbi apontou uma solu¸c˜ao baseada em programa¸c˜ao dinˆamica, onde o caminho mais prov´avel π∗ pode ser encontrado recursivamente. Suponha que criemos vari´aveis de Viterbi vk(i), que correspondem `a probabilidade do cami- nho mais prov´avel do prefixo x1...xi que termina no estado Sk. Supondo que tais probabilidades s˜ao conhecidas para o todos os estados k podemos calcular essas probabilidades para o prefixo x1...xi+1 como descrito na Equa¸c˜ao 3.6. vl(i + 1) = el(xi+1)maxk(vk(i)akl) (3.6) Dado que todas as sequˆencias se iniciam em um estado inicial 0, podemos definir as vari´aveis de Viterbi para este estado inicial como v0(0) = 1 e vk(0) = 0 para todos os outros estados que n˜ao o inicial. A partir destas vari´aveis iniciais, podemos continuar calculando as vari´aveis dos pr´oximos estados segundo a Equa¸c˜ao 3.6 e manter um ponteiro ptr para os estados que possu´ıram a maior probabilidade em cada itera¸c˜ao. Tal algoritmo, que ´e poss´ıvel dada a propriedade chave das cadeias de Markov, ´e definido a seguir: Algoritmo de Viterbi 1. Inicializa¸c˜ao: 1.1. v0(0) = 1 1.2. vk(0) = 0 para k > 0 2. Recurs˜ao (i = 1, ..., L): 2.1. vl(i) = el(xi)maxk(vk(i − 1)akl) 2.2. ptri(l) = argmaxk(vk(i − 1)akl) 3. Termina¸c˜ao: 3.1. P(x, π∗) = maxk(vk(L)ak ) 3.2. π∗ L = argmaxk(vk(L)ak ) 4. Remontagem (i = L, ..., 1): 4.1. π∗ i−1 = ptri(π∗ i ) Existem alguns problemas pr´aticos de implementa¸c˜ao em rela¸c˜ao ao Algoritmo de Viterbi. O mais severo decorre do fato de que multiplicar diversas probabilidades baixas ir´a gerar n´umeros de ordens extremamente baixas, o que ocasiona em erros de estouro negativo (underflow) quando n˜ao tratado de forma correta. A solu¸c˜ao mais utilizada consiste em realizar o algoritmo no espa¸co logar´ıtmico, o que faria com que todas as multiplica¸c˜oes virassem somat´orios. Esse tipo de detalhe foge ao escopo deste trabalho e n˜ao ser´a abordado. 47
  • 62. 3. MODELOS ESCONDIDOS DE MARKOV 3.2.2 Probabilidade Posterior Al´em do Algoritmo de Viterbi, podemos realizar a decodifica¸c˜ao atrav´es do c´alculo da probabi- lidade posterior de estar em cada estado escondido, em cada posi¸c˜ao da sequˆencia de entrada. Extrair o conjunto mais prov´avel de estados escondidos desta abordagem pode ser realizado de forma simples como observar qual estado possui a maior probabilidade posterior para cada posi¸c˜ao da sequˆencia, ou de formas mais complexas como fixar um ponto de corte para aceita¸c˜ao de estados escondidos baseado nestas probabilidades. Al´em de permitir a extra¸c˜ao do conjunto mais prov´avel de estados de uma forma mais elaborada, o c´alculo das probabilidades posteriores permite que seja visualizada a forma como as transi¸c˜oes est˜ao ocorrendo. Por essas raz˜oes, geralmente esta abordagem ´e prefer´ıvel em rela¸c˜ao ao Algoritmo de Viterbi. A probabilidade posterior pode ser definida mais formalmente como como sendo a probabili- dade de, em uma certa posi¸c˜ao da cadeia de caracteres, observarmos o estado escondido k, dada a sequˆencia observada. Pelo teorema de Bayes, ´e poss´ıvel colocar essa proposi¸c˜ao em termos matem´aticos (Equa¸c˜ao 3.7). P(πi = k|x) = P(x, πi = k) P(x) (3.7) Primeiramente, ser´a focado o c´alculo da cl´ausula P(x), isto ´e, a evidˆencia de uma certa cadeia de caracteres x dentro de todas as possibilidades de cadeias de tamanho L. Formalmente, isso pode ser definido em rela¸c˜ao ao caminho segundo a Equa¸c˜ao 3.8. P(x) = π P(x, π) (3.8) O c´alculo exaustivo da Equa¸c˜ao 3.8 ´e imposs´ıvel pois o n´umero de caminhos cresce exponen- cialmente com o tamanho da sequˆencia (conforme j´a foi visto no contexto de Viterbi). Por´em podemos avaliar esta express˜ao com a mesma ideia de Viterbi mostrada, apenas modificando os passos de maximiza¸c˜ao por somat´orios. Neste novo algoritmo a vari´avel fk(i), chamada vari´avel forward, ´e utilizada assim como a vari´avel de Viterbi (Equa¸c˜ao 3.9). A vari´avel forward corres- ponde `a probabilidade de observar a sequˆencia x at´e (e incluindo) xi de tal forma que πi = k. A recurs˜ao utilizada pelo algoritmo ´e definida na Equa¸c˜ao 3.10. fk(i) = P(x1...xi, πi = k) (3.9) 48
  • 63. 3.2. M´ETODOS DE PREDIC¸ ˜AO BASEADOS EM HMMS fl(i + 1) = el(xi+1) k fk(i)akl (3.10) O algoritmo ´e mostrado a seguir. Assim como o Algoritmo de Viterbi, este m´etodo est´a sujeito a estouros negativos. Tal problema n˜ao pode ser resolvido da mesma forma como a Equa¸c˜ao 3.5 foi por conter somat´orios em sua pr´opria natureza. A solu¸c˜ao est´a novamente em se trabalhar em um espa¸co logar´ıtmico, por´em utilizando abordagens mais complexas. Algoritmo Forward 1. Inicializa¸c˜ao: 1.1. f0(0) = 1 1.2. fk(0) = 0 para k > 0 2. Recurs˜ao (i = 1, ..., L): 2.1. fl(i) = el(xi) k fk(i − 1)akl 3. Termina¸c˜ao: 3.1. P(x) = k fk(L)ak Continuando a busca pela probabilidade posterior, podemos explorar o termo P(x, πi = k). Ao aplicar a propriedade chave dos modelos de Markov, podemos realizar a decomposi¸c˜ao demonstrada na Equa¸c˜ao 3.11. A segunda linha desta equa¸c˜ao ocorre porque tudo que ocorre depois do estado k depende apenas do que ocorre no estado k. P(x, πi = k) = P(x1...xi, πi = k)P(xi+1...xL|x1...xi, πi = k) = P(x1...xi, πi = k)P(xi+1...xL|πi = k) (3.11) ´E bastante claro que o primeiro termo da segunda linha da Equa¸c˜ao 3.11 corresponde `a vari´avel forward fk(i) cujo c´alculo foi apresentado anteriormente. Para calcular a probabilidade posterior precisamos apenas abordar o segundo termo da segunda linha da Equa¸c˜ao 3.11. ´E poss´ıvel, ent˜ao, criar outra vari´avel, chamada backward, para calcular o termo restante. Obvia- mente, essa vari´avel ´e definida como na Equa¸c˜ao 3.12. bk(i) = P(xi+1...xL|πi = k) (3.12) Para calcular tais vari´aveis ´e mostrado o Algoritmo backward a seguir. Tal algoritmo ´e an´alogo ao forward por´em ao inv´es de proceder do in´ıcio da sequˆencia at´e o ponto desejado, ele procede do fim da sequˆencia at´e o ponto desejado. 49
  • 64. 3. MODELOS ESCONDIDOS DE MARKOV Algoritmo Backward 1. Inicializa¸c˜ao: 1.1. bk(L) = ak , ∀k 2. Recurs˜ao (i = L − 1, ..., 1): 2.1. bk(i) = l aklel(xi+1)bl(i + 1) 3. Termina¸c˜ao: 3.1. P(x) = l a0lel(x1)bl(1) A partir dos Algoritmos forward e backward podemos calcular a probabilidade posterior con- forme definida na Equa¸c˜ao 3.7 atrav´es de uma simples substitui¸c˜ao dos termos nesta equa¸c˜ao pelas respectivas vari´aveis criadas (Equa¸c˜ao 3.13). O termo P(x) nesta equa¸c˜ao pode ser cal- culado atrav´es da aplica¸c˜ao de um dos algoritmos, forward ou backward na sequˆencia inteira. P(πi = k|x) = fk(i)bk(i) P(x) (3.13) 3.3 Estima¸c˜ao de Parˆametros em HMMs Na Se¸c˜ao 3.2, algoritmos para determinar a sequˆencia de estados escondidos foram definidos. Nesta se¸c˜ao, ser´a demonstrado um m´etodo para a cria¸c˜ao de tais HMMs, isto ´e, a estima¸c˜ao dos parˆametros que comp˜oem o HMM (a matriz de transi¸c˜oes A e o vetor de emiss˜oes E). A t´ecnica escolhida, m´axima verossimilhan¸ca, consiste na estima¸c˜ao mais simples poss´ıvel. A ideia ´e que os parˆametros sejam o mais pr´oximo poss´ıvel dos observados nos dados de treinamento. Esta abordagem ´e, portanto, supervisionada. Caso fosse necess´aria a estima¸c˜ao de parˆametros um HMM sem informa¸c˜oes de classe a priori, um m´etodo n˜ao-supervisionado como o Baum-Welch teria que ser utilizado. Neste m´etodo, estima¸c˜oes s˜ao feitas atrav´es de aproxima¸c˜oes baseadas no algoritmo de Maximiza¸c˜ao da Esperan¸ca (EM, em Inglˆes Expectation Maximization). Como mencionado, podemos estimar os parˆametros de forma supervisionada ou n˜ao su- pervisionada. Entretanto, o modelo geral, isto ´e, a sequˆencia de estados S, j´a dever´a estar corretamente modelada. A cria¸c˜ao de um modelo oscila bastante entre os que acreditam nesta tarefa como uma arte e naqueles que desenvolvem m´etodos espec´ıficos, geralmente baseados em dura¸c˜ao probabil´ıstica dos estados. De qualquer forma, tal tarefa n˜ao ser´a mencionada. Os mo- delos originais desenvolvidos neste trabalho foram idealizados com base nos padr˜oes dos dados e sua robustez foi aferida de forma puramente emp´ırica. O m´etodo da m´axima verossimilhan¸ca ´e a forma mais simples de se estimar os parˆametros A e E dos modelos escondidos de Markov. Neste tipo de estima¸c˜ao, ´e utilizada uma sequˆencia de 50
  • 65. 3.3. ESTIMAC¸ ˜AO DE PARˆAMETROS EM HMMS s´ımbolos x com sequˆencia de estados conhecida π para calcular os parˆametros mais veross´ımeis. Para o caso discreto, de forma intuitiva, ser´a realizada a simples contagem do n´umero de vezes em que acontece cada evento relacionado aos parˆametros. Denotando por Akl o n´umero de ocorrˆencias de transi¸c˜oes entre os estados k e l (n˜ao confundir com akl, que ´e a probabilidade desta transi¸c˜ao), e Ek(b) o n´umero de emiss˜oes do s´ımbolo b no estado k, o estimador de m´axima verossimilhan¸ca consiste na simples aplica¸c˜ao das Equa¸c˜oes 3.14 e 3.15. akl = Akl l Akl (3.14) ek(b) = Ek(b) b Ek(b ) (3.15) Generalizando para o caso cont´ınuo, tem-se uma fun¸c˜ao de densidade p(x|Θ) governada pelo conjunto de parˆametros Θ. No caso de uma gaussiana, por exemplo, Θ corresponde `as m´edias e desvios padr˜oes das entradas utilizadas. Suponha que tenhamos tamb´em um conjunto de dados de tamanho T obtido a partir desta distribui¸c˜ao, isto ´e, X = {X1, ..., XT }. A densidade resultante das amostras ´e dada pela Equa¸c˜ao 3.16. p(X|Θ) = T i=1 p(Xi|Θ) = L(Θ|X) (3.16) Essa fun¸c˜ao L(Θ|X) ´e chamada de verossimilhan¸ca dos parˆametros dado o conjunto de entradas X. De forma intuitiva, ela pode ser pensada como uma fun¸c˜ao dos parˆametros Θ onde o conjunto de dados X se encontra fixo. No problema da m´axima verossimilhan¸ca, o objetivo ´e encontrar o conjunto de parˆametros Θ que maximize a fun¸c˜ao L (Equa¸c˜ao 3.17). Θ∗ = argmax Θ L(Θ|X) (3.17) Esse problema pode ser facilmente resolvido para o caso da gaussiana (onde Θ = {µ, σ}), bastando igualar a derivada de log(L(Θ|X)) a zero e resolver diretamente para µ e σ. O motivo para o uso da fun¸c˜ao log ´e que ela torna o problema analiticamente mais f´acil. Para outras distribui¸c˜oes, entretanto, t´ecnicas mais elaboradas s˜ao necess´arias, dado que a solu¸c˜ao para as express˜oes anal´ıticas n˜ao podem ser encontradas diretamente. Tais detalhes n˜ao ser˜ao expostos, visto que neste projeto ser˜ao utilizadas apenas gaussianas para representar os sinais de entrada. 51
  • 66. 3. MODELOS ESCONDIDOS DE MARKOV 3.4 Considera¸c˜oes Finais Neste cap´ıtulo, foi descrita a t´ecnica do modelo escondido de Markov sob a ´otica do aprendizado de m´aquina. Primeiramente, foi mostrada a teoria dos modelos escondidos de Markov. Ap´os uma introdu¸c˜ao, foram abordadas as principais t´ecnicas de decodifica¸c˜ao (predi¸c˜ao de estados escondidos a partir de observa¸c˜oes) e estima¸c˜ao de parˆametros. Esta t´ecnica ´e a principal fer- ramenta deste estudo, aplicada diretamente aos sinais epigen´eticos (observa¸c˜oes) gerados pelos m´etodos descritos no cap´ıtulo anterior para predizer s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao (estados escondidos). 52
  • 67. 4 Metodologia Neste cap´ıtulo, ser´a descrita a forma como os experimentos foram realizados. Ser˜ao dados detalhes a respeito das bases de dados utilizadas e os reposit´orios onde elas foram obtidas. Ent˜ao, todos os procedimentos realizados ser˜ao descritos, envolvendo: motif matching, an´alise de enriquecimento dos dados de digest˜ao de DNase I (regi˜oes hipersens´ıveis `a DNase I) e de dados obtidos atrav´es de ChIP-seq (para os fatores de transcri¸c˜ao), processamento dos sinais genˆomicos obtidos com DNase-seq e ChIP-seq e aplica¸c˜ao dos HMMs para realizar footprinting autom´atico. Ser´a descrita tamb´em a forma como os resultados foram validados utilizando gold standards bem estabelecidos na literatura. Deve-se destacar que a principal finalidade dos experimentos descritos a seguir ´e o melho- ramento da identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. A partir da discuss˜ao realizada anteriormente sobre os fatores epigen´eticos, propomos que a adi¸c˜ao de sinais genˆomicos relativos `as modifica¸c˜oes nas caudas das histonas acrescente informa¸c˜oes ao modelo capazes de suprir algumas deficiˆencias a partir do uso de dados relativos `a digest˜ao da DNase apenas. Deste estudo, duas contribui¸c˜oes maiores s˜ao apontadas: a constru¸c˜ao de um modelo capaz de melhorar o desempenho e a cria¸c˜ao de um novo m´etodo para treinar o modelo sem precisar se basear em dados validados atrav´es de t´ecnicas experimentais custosas. Ap´os a obten¸c˜ao dos dados nos reposit´orios espec´ıficos (Se¸c˜ao 4.1), o processo experimen- tal come¸ca com a aplica¸c˜ao da t´ecnica motif matching para gerar os resultados necess´arios para forma¸c˜ao do gold standard (Se¸c˜ao 4.2). Ap´os, ´e realizada a identifica¸c˜ao das regi˜oes hi- persens´ıveis `a DNase I (HS, do Inglˆes DNase I Hypersensitivity Site) e regi˜oes de picos nos dados de ChIP-seq para os TFs (Se¸c˜ao 4.3). As regi˜oes enriquecidas nos dados de ChIP-seq tamb´em s˜ao necess´arias para a cria¸c˜ao do gold standard. Depois, os sinais epigen´eticos (cro- matina descondensada e modifica¸c˜oes de histonas) s˜ao processados, gerando a entrada para os HMMs (Se¸c˜ao 4.4). De posse de tais sinais processados, os HMMs s˜ao constru´ıdos (Se¸c˜ao 4.4), 53
  • 68. 4. METODOLOGIA treinados e aplicados nas regi˜oes de HS (Se¸c˜ao 4.6). Os resultados da aplica¸c˜ao de tal modelo, isto ´e, as predi¸c˜oes dos s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao s˜ao avaliados a partir de um gold standard bastante utilizado na literatura (Se¸c˜ao 4.7). A Figura 4.1 mostra, de forma esquem´atica, todo o processo experimental. A seguir, todos os procedimentos exibidos nesta figura ser˜ao descritos. Figura 4.1: Fases do processo experimental - Esquema que demonstra todas as fases do processo experimental. Neste diagrama, o experimento foi dividido em Aplica¸c˜ao do Modelo (linhas vermelhas) e Valida¸c˜ao (linhas verdes). Retˆangulos exibem dados obtidos (amarelos) ou gerados (azuis) e as setas conectando os retˆangulos representam as fases do experimento. 4.1 Bases de Dados O ENCODE (do Inglˆes, Encyclopedia of DNA Elements) [Rosenbloom et al., 2011; The EN- CODE Project Consortium, 2004, 2007, 2011] ´e um projeto que pretende estudar o genoma funcional nos humanos. Este projeto esta atualmente hospedado no Genome Browser[Kent et al., 2002]. Esse cons´orcio, com pouco mais do que 5 anos, consiste em um esfor¸co por parte de v´arios laborat´orios para criar anota¸c˜oes funcionais de forma pangenˆomica. Tais anota¸c˜oes incluem intera¸c˜oes na cromatina, metila¸c˜ao no DNA, modifica¸c˜oes de histonas, cromatina des- condensada (digest˜ao de DNase I e FAIRE), perfis de RNA, s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao e outros. Atualmente, tais dados est˜ao dispon´ıveis para cerca de 200 linhagens celulares humanas diferentes. Diversos dados, como ser´a descrito em seguida, foram obtidos 54
  • 69. 4.1. BASES DE DADOS atrav´es do projeto ENCODE. Todos os dados utilizados neste projeto se referem `a linha celular de leucemia miel´oide aguda, K562. A Tabela 4.1 sumariza todas as faixas de dados do Genome Browser utilizadas e exibe os en- dere¸cos virtuais para o acesso das mesmas. Os endere¸cos virtuais exibidos contˆem informa¸c˜oes detalhadas sobre os protocolos sob o quais os dados foram gerados, incluindo a forma como foram realizadas a digest˜ao com DNase I, a imunoprecipita¸c˜ao, o sequenciamento e o alinha- mento. Al´em disso, esta tabela tamb´em cont´em os reposit´orios onde as PWMs foram obtidas. Informa¸c˜oes sobre os sinais epigen´eticos, fatores de transcri¸c˜ao e PWMs utilizadas s˜ao exibidas na Tabela 4.2. Acredita-se que os fatores analisados neste estudo sejam bem representativos, sendo alguns deles bastante utilizado em estudos do gˆenero [Boyle et al., 2011; Cuellar-Partida et al., 2012; Pique-Regi et al., 2011]. As modifica¸c˜oes de histonas nas quais o experimento foi focado possuem forte presen¸ca em regi˜oes de cromatina descondensada. Por este motivo elas foram escolhidas e ser˜ao chamadas de histonas ativadoras. Tabela 4.1: Fontes dos dados. Fonte Tipo URL Human Genome hg19 genoma completo http://bit.ly/oHXPgq Duke DNase cromatina descondensada (DNase-seq) http://bit.ly/wOwc8R Broad Histone modifica¸c˜ao de histona (ChIP-seq) http://bit.ly/xKQLS7 SYDH TFBS TFBS (ChIP-seq) http://bit.ly/A0VxYz HAIB TFBS TFBS (ChIP-seq) http://bit.ly/zqnhn8 UTA TFBS TFBS (ChIP-seq) http://bit.ly/z9b0o1 Jaspar PWM http://bit.ly/92ebHi Transfac PWM http://bit.ly/PfTeA1 Uniprobe PWM http://bit.ly/Qn0kT3 Renlab PWM http://bit.ly/RV5c4R Os sinais epigen´eticos de cromatina descondensada relativos `a digest˜ao com DNase I atrav´es de DNase-seq foram obtidos no ENCODE na faixa Duke DNase. Nesta faixa est˜ao dispon´ıveis os fragmentos brutos recuperados pelo m´etodo de DNase-seq, os fragmentos alinhados, o sinal genˆomico relativo `a aplica¸c˜ao do m´etodo F-seq [Boyle et al., 2008b], o sinal genˆomico relativo `a simples contagem da sobreposi¸c˜ao dos fragmentos obtidos e as regi˜oes enriquecidas. Para este projeto, os fragmentos alinhados foram utilizados para gerar os sinais que posteriormente ser- vir˜ao como entrada para o modelo preditivo e o sinal genˆomico relativo `a aplica¸c˜ao do m´etodo F-seq foi utilizado para identificar as regi˜oes enriquecidas, isto ´e, as regi˜oes hipersens´ıveis `a 55
  • 70. 4. METODOLOGIA DNase I. N˜ao foram utilizados, diretamente, o sinal genˆomico relativo `a contagem da sobre- posi¸c˜ao dos fragmentos e as regi˜oes enriquecidas calculadas pelo pr´oprio ENCODE pelo fato de a abordagem utilizada nesta faixa ter algumas divergˆencias em rela¸c˜ao estudo com o qual se pretende comparar o m´etodo proposto. Tabela 4.2: Sinais epigen´eticos e fatores estudados – Cada fator estudado possui uma trinca no formato (J,T,R) associado (abaixo do mesmo). Os trˆes n´umeros de cada trinca representam, respectivamente, o n´umero de PWMs obtidas nos reposit´orios Jaspar, Transfac e Renlab. Sinais Epigen´eticos DNase H2A.Z H3K4me2 H3K4me3 H3K9ac ATF3 CEBPB CTCF E2F4 GABP Fatores (0,1,0) (0,2,0) (1,0,1) (0,2,0) (1,1,0) (J,T,R) MEF2A P300 REST (1,0,0) (0,1,0) (1,1,0) Os sinais epigen´eticos relativos `as modifica¸c˜oes de histonas gerados com ChIP-seq foram obtidos no ENCODE na faixa Broad Histone, proposta pelo Broad Institute e pelo laborat´orio Bernstein lab. Nesta faixa est˜ao dispon´ıveis os fragmentos brutos recuperados pelo m´etodo de ChIP-seq, os fragmentos alinhados e o sinal genˆomico gerado com o programa Scripture [Guttman et al., 2010]. Novamente, apenas os dados relativos aos fragmentos alinhados foram utilizados. Tais dados tamb´em servir˜ao de entrada para o modelo preditivo e tamb´em para calcular as regi˜oes onde o modelo ser´a aplicado (regi˜oes hipersens´ıveis `a DNase I). Os dados relativos aos TFBSs dos fatores utilizados foram obtidos, no ENCODE, a partir das faixas SYDH TFBS, HAIB TFBS e UTA TFBS. A primeira faixa representa o cons´orcio formado pelas universidades de Stanford, Yale, sul da Calif´ornia e Harvard; a segunda ´e provida pelo Myers Lab do instituto HudsonAlpha de biotecnologia; e a terceira ´e provida pela univer- sidade do Texas em Austin. Foram obtidos os sinais genˆomicos relacionados `a sobreposi¸c˜ao de fragmentos alinhados, criado de maneira diferente em cada faixa. A faixa SYDH TFBS utilizou m´etodos pr´oprios para cria¸c˜ao do sinal genˆomico (descritos no endere¸co eletrˆonico providenci- ado). A faixa HAIB TFBS utilizou o m´etodo MACS [Zhang et al., 2008] para criar tais sinais. Finalmente, a faixa UTA TFBS gerou sinais genˆomicos atrav´es do programa F-seq [Boyle et al., 2008b]. Al´em dos sinais e regi˜oes enriquecidas obtidos no ENCODE, foram obtidas PWMs para realizar o procedimento de motif matching, em reposit´orios espec´ıficos. Foram obtidos dados nos reposit´orios Jaspar [Bryne et al., 2008], Transfac [Matys et al., 2006; Wingender et al., 1996], 56
  • 71. 4.2. MOTIF MATCHING Uniprobe [Newburger & Bulyk, 2009] e um motif de alta qualidade para o insulador CTCF foi obtido no laborat´orio Renlab [Essien et al., 2009]. O crit´erio m´ınimo para que um motif fosse considerado ´e que ele tivesse sido criado a partir de um vertebrado. Como pode ser visto na Tabela 4.2 podem existir mais de uma PWM para cada fator, at´e para cada reposit´orio. Como cada uma dessas PWMs redundantes foram geradas com um processo espec´ıfico que possui sua pr´opria qualidade, foi optado por utilizar todos os motifs encontrados para todos os fatores. O processo de motif matching ´e utilizado, assim como os dados de TFBS com ChIP-seq, apenas para criar o gold standard. 4.2 Motif Matching Todas as PWMs obtidas foram utilizadas para realizar motif matching no genoma completo. Essa t´ecnica produz bit scores que podem ser utilizados para avaliar a qualidade de cada em- parelhamento. Para permitir uma compara¸c˜ao direta com o modelo pr´evio, foi seguida a sua metodologia para aceita¸c˜ao de TFBSs obtidos atrav´es desta t´ecnica. Essa metodologia consiste em descartar todos os emparelhamentos que obtiveram bit scores menores do que o m´ınimo entre: 70% do maior bit score poss´ıvel (sequˆencia consenso do PWM) e 90% da diferen¸ca entre o maior e o menor poss´ıvel bit score [Boyle et al., 2011]. Neste trabalho ser´a utilizada a no- menclatura MPBS (do Inglˆes, Motif Predicted Binding Site), para denotar os TFBSs preditos atrav´es deste m´etodo. Para realizar o procedimento de MM, foi utilizado o m´odulo Bio.Motif para an´alise de motifs da ferramenta Biopython [Cock et al., 2009]. Essa ferramenta utiliza um modelo baseado em probabilidade de fundo (background) assim como visto na Se¸c˜ao 2.3.3. Esse parˆametro, que assume um valor real v em escala logar´ıtmica, permite selecionar os emparelhamentos que ocorreram com probabilidade 2v vezes maior do que o esperado por chance, dadas as frequˆencias dos nucleot´ıdeos naturais do genoma. Ao utilizar o valor v = 0, foram selecionados todos os resultados que ocorriam com maior probabilidade do que o esperado por acaso (pois 20 = 1, portanto todos os valores mais prov´aveis que o fundo s˜ao selecionados). Apenas ap´os essa filtragem inicial o m´etodo descrito em [Boyle et al., 2011] foi aplicado (em concordˆancia com o proposto por estes). 4.3 An´alises de Enriquecimento Para ter acesso `as regi˜oes hipersens´ıveis `a DNase I e regi˜oes de picos nos dados de ChIP- seq foi realizada uma an´alise estat´ıstica de enriquecimento simples. Tal an´alise foi realizada nos dados relativos aos sinais genˆomicos de DNase-seq ou ChIP-seq (para os TFs), obtidos a 57
  • 72. 4. METODOLOGIA partir da aplica¸c˜ao dos m´etodos espec´ıficos para contagem de sinais descrita em cada reposit´orio avaliado. A an´alise de enriquecimento consistiu no ajuste destes sinais cont´ınuos `a distribui¸c˜oes Γ, definida nas Equa¸c˜oes 4.1 (distribui¸c˜ao Γ com parˆametros k e θ) e 4.2 (fun¸c˜ao Γ utilizada na defini¸c˜ao da distribui¸c˜ao). f(x; k, θ) = 1 θk 1 Γ(k) xk−1 e−x θ (4.1) Γ(n) = (n − 1)! (4.2) O procedimento de ajuste ´e simples. ´E calculada a m´edia µ e a variˆancia σ2 da amostra, isto ´e, dos sinais epigen´eticos, em todo o genoma. A m´edia e a variˆancia s˜ao ent˜ao utilizadas para estimar os parˆametros k e θ atrav´es da resolu¸c˜ao de um sistema de equa¸c˜oes com os seguintes resultados probabil´ısticos: µ = kθ e σ2 = kθ2. Esses parˆametros s˜ao ent˜ao utilizados para inferir o p-value de corte, para o qual os valores inferiores ser˜ao as regi˜oes n˜ao-enriquecidas e os valores superiores ser˜ao as regi˜oes enriquecidas. Esta fun¸c˜ao ´e comumente utilizada para este prop´osito por possuir caracter´ısticas semelhantes `as distribui¸c˜oes reais dos sinais obtidos atrav´es de m´etodos como DNase-seq e ChIP-seq. A distribui¸c˜ao exponencial tamb´em ´e bastante utilizada, por´em como a distribui¸c˜ao Γ foi utilizada no estudo com o qual se pretende realizar as compara¸c˜oes, a ´ultima foi escolhida para reproduzir mais fielmente os resultados. Baseando-se nos ajustes realizados, foram consideradas como regi˜oes enriquecidas aquelas que possu´ıram valores maiores ou iguais ao valor correspondente ao p-value de 0.05. ´E impor- tante constatar que o pr´oprio ENCODE disponibiliza tal an´alise estat´ıstica, por´em tais dados n˜ao foram utilizados pois a metodologia, de uma forma geral, era diferente. O p-value utili- zado foi escolhido em conformidade com objetivo de comparar este modelo com o previamente proposto em [Boyle et al., 2011]. 4.4 Processamento dos Sinais Epigen´eticos A primeira fase do processamento dos sinais dos dados de DNase-seq consiste na contagem das sobreposi¸c˜oes dos fragmentos alinhados. Neste caso, foi considerado apenas o bp na extremidade 5 dos fragmentos, correspondendo `a posi¸c˜ao exata no qual a enzima DNase I digeriu o DNA. Tal abordagem gera um sinal de alta resolu¸c˜ao bastante espec´ıfico, capaz de delinear claramente as prote´ınas ligadas ao DNA. 58
  • 73. 4.4. PROCESSAMENTO DOS SINAIS EPIGEN´ETICOS Para a gera¸c˜ao dos sinais de contagem bruta para os dados de modifica¸c˜ao de histonas obtidos atrav´es de ChIP-seq, o mesmo procedimento foi aplicado. Entretanto, como o nucleossomo alvo pode se encontrar em qualquer posi¸c˜ao do fragmento recuperado atrav´es de ChIP, os fragmentos foram estendidos at´e o tamanho de 200 bp, que representa a m´edia de tais fragmentos reais (os fragmentos s˜ao sequenciados apenas nas primeiras 36 bases). A diferen¸ca na resolu¸c˜ao entre os dois sinais gera padr˜oes espec´ıficos, analisados em mais detalhes na Se¸c˜ao 4.5. Os dados de cromatina descondensada (DNase-seq) foram normalizados de forma a mini- mizar a varia¸c˜ao entre o tamanho dos picos ao longo do genoma. Tal normaliza¸c˜ao seguiu o m´etodo local proposto em [Boyle et al., 2011]. Neste m´etodo, cada sinal (em cada coordenada genˆomica) ´e dividido pela m´edia de todas as entradas maiores que 0 em uma janela de tamanho igual a 1 kb ao redor desta coordenada genˆomica. A principal caracter´ıstica desta normaliza¸c˜ao ´e a preserva¸c˜ao das nuances dadas pela alta resolu¸c˜ao do m´etodo DNase-seq. Os dados de ChIP- seq foram submetidos a uma simples fun¸c˜ao logar´ıtmica, com objetivo de suavizar as curvas ao longo do genoma. O m´etodo utilizado para os dados de DNase-seq n˜ao foi utilizado para os sinais de modifica¸c˜oes de histonas, pelo fato de que a intensidade deste sinal ´e importante para o modelo, enquanto a intensidade do sinal de DNase-seq n˜ao tem grande importˆancia (como ser´a visto na Se¸c˜ao 4.5). Os dados de DNase-seq passam por mais uma etapa, com objetivo de extrair as caracter´ısticas necess´arias para o modelo que ser´a descrito em detalhes na Se¸c˜ao 4.5. Essa etapa consiste em duas fases. Na primeira, os dados s˜ao suavizados atrav´es do filtro estat´ıstico de Savitzky- Golay [Gorry, 1990; Leach et al., 1984; Luo et al., 2005; Madden, 1978; Press et al., 1992]. Tal suaviza¸c˜ao remove ru´ıdos naturais deste sinal epigen´etico. A suaviza¸c˜ao ´e baseada no ajuste dos sinais normalizados a um polinˆomio de grau 2 atrav´es de uma convolu¸c˜ao com uma janela de tamanho 8 bp (excluindo o bp central). A segunda etapa consiste na diferencia¸c˜ao deste sinal epigen´etico, atrav´es da computa¸c˜ao da 1a derivada [Boyle et al., 2011]. Os sinais gerados ap´os a suaviza¸c˜ao e deriva¸c˜ao representam a inclina¸c˜ao (em Inglˆes, slope) do sinal normalizado. Isto quer dizer que, nos locais onde o sinal normalizado tinha um mo- vimento crescente, o sinal relativo `a inclina¸c˜ao assumia valores positivos; e nos locais onde o sinal normalizado tinha um movimento decrescente, o sinal relativo `a inclina¸c˜ao assumia valores negativos. Al´em disso, quanto mais ´ıngreme a eleva¸c˜ao ou queda do sinal normalizado, maiores s˜ao os valores da inclina¸c˜ao correspondente (em termos absolutos). A Figura 4.2 exibe um exemplo do sinal obtido atrav´es de DNase-seq, em todas as fases do processamento, para um trecho do cromossomo 6. Esta figura foi gerada utilizando o Genome Browser e cont´em um formato adicional para os dados processados, n˜ao utilizado no processo experimental: o sinal estendido. Este sinal ´e gerado a partir da extens˜ao dos fragmentos ali- nhados em 5 bp para a esquerda e para a direita da coordenada onde a enzima DNase I digeriu o DNA. O objetivo de tal sinal ´e facilitar a visualiza¸c˜ao e a interpreta¸c˜ao dos outros sinais. 59
  • 74. 4. METODOLOGIA Figura 4.2: Modifica¸c˜ao dos sinais ao longo do processamento - Esquema que exibe os sinais de DNase-seq em todas as fases do processamento para um trecho do cromossomo 6. Em azul est´a o sinal estendido (ver descri¸c˜ao no texto), em preto o sinal correspondente `a contagem bruta dos dados, em vermelho o sinal normalizado e em verde o sinal obtido ap´os a aplica¸c˜ao da suaviza¸c˜ao e diferencia¸c˜ao atrav´es do m´etodo de Savitzky-Golay. 4.5 Footprinting com HMMs Foi constatado em [Boyle et al., 2011] que um TFBS poderia ser caracterizado atrav´es dos sinais de cromatina descondensada gerados com DNase-seq como uma deple¸c˜ao de sinal entre dois picos. Isto se explica pelo fato de que naquela regi˜ao onde a prote´ına estava ligada n˜ao havia digest˜ao da DNase, por´em nas regi˜oes imediatamente anterior e posterior a clivagem ocorre. Tal padr˜ao ser´a intitulado pico-vale-pico. O padr˜ao que se deseja reconhecer ´e formado, nos sinais normalizados, por uma subida e descida (primeiro pico), ent˜ao uma regi˜ao relativamente plana (vale) e outra subida e descida (segundo pico). Tal padr˜ao ´e facilmente representado atrav´es dos sinais de inclina¸c˜ao, dado que subidas s˜ao representadas por valores positivos e descidas s˜ao representadas por valores negativos. Boyle et al. utilizaram essa ideia para construir seu HMM capaz de predizer TFBSs (Figura 4.3). Ao serem adicionados os sinais de histonas, um padr˜ao levemente diferente ocorre. Dado que os sinais gerados atrav´es de ChIP-seq possuem resolu¸c˜ao um pouco menor, uma regi˜ao inteira de HS (que correspondem `a blocos com v´arios picos agrupados no sinal obtido com DNase-seq) 60
  • 75. 4.5. FOOTPRINTING COM HMMS HS1 HS2 UP DOWN FP Estados HMM Figura 4.3: HMM que utiliza dados de DNase-seq apenas - Esquema gr´afico do HMM proposto por Boyle et al. (esquerda) para predizer TFBSs com base apenas em sinais obtidos atrav´es de DNase-seq. Exemplo dos estados obtidos, em cada coordenada genˆomica, a partir da aplica¸c˜ao deste modelo em um trecho da regi˜ao promotora do gene FMR1 no cromossomo X (direita). Fonte: [Boyle et al., 2011] corresponde a uma regi˜ao de deple¸c˜ao nas histonas ativadoras. Foi observado (ver Se¸c˜ao 5.1) que o sinal das modifica¸c˜oes de histona ativadores constituem outro padr˜ao de pico-vale-pico, por´em em um n´ıvel mais alto do que o padr˜ao gerado por cromatina descondensada. Dois picos de histonas ativadoras (sinais intensos) delimitam regi˜oes de HS, que por sua vez possuem v´arios padr˜oes pico-vale-pico correspondentes aos s´ıtios de liga¸c˜ao. Realizada esta discuss˜ao sobre as caracter´ısticas dos sinais epigen´eticos, pode-se definir a estrutura do novo HMM proposto. Tal modelo deve ser capaz de reconhecer tal padr˜ao formado por, simultaneamente, um sinal de cromatina descondensada e um sinal de histona (isto ´e, um modelo bivariado). O modelo possui um estado para sinais de fundo (background – BACK), que correspondem aos sinais baixos para ambas cromatina descondensada e modifica¸c˜ao de histona, geralmente no in´ıcio ou fim das regi˜oes onde os modelos foram aplicados. Ao encontrar valores significativamente altos de modifica¸c˜ao de histonas (primeiro pico), o modelo procede para o estado High Histone (HH). Ent˜ao esse valor ir´a reduzir um pouco entrando na regi˜ao de HS. Nesta regi˜ao o modelo ir´a variar entre os estados de crescimento de sinal de cromatina descondensada (UP), decrescimento deste sinal (DOWN ) e regi˜oes de vale (Footprint – FP). Esta ´ultima regi˜ao corresponde aos s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. Ap´os a regi˜ao de HS, o m´etodo poder´a: (1) retornar para o estado HH, caso o segundo pico exista (ou, mais comumente, existirem v´arias regi˜oes de HS na regi˜ao sendo analisada, delimitadas por v´arios picos de modifica¸c˜oes de histonas); (2) retornar para o estado BACK, quando os sinais de histona forem demasiadamente baixos ou n˜ao existirem mais regi˜oes de HS. A Figura 4.4 demonstra o HMM criado (lado esquerdo) e o explica atrav´es de um gr´afico com os sinais de digest˜ao de 61
  • 76. 4. METODOLOGIA DNase e a histona variante H2A.Z (lado direito). -500 -250 0 + 250 + 500 0 5 10 15 20 25 30 IntensidadedosSinais DNase H2A.Z Estados do HMM BACK HH UP DOWN FP Figura 4.4: Modelagem do HMM e exemplo de aplica¸c˜ao - HMM utilizado neste estudo (esquerda) contendo 5 estados. O estado BACK (azul claro) representa as regi˜oes de pequena intensidade de sinais. O estado HH (azul escuro) representa as regi˜oes de alta intensidade de histonas modificadas. O estado UP (verde) e DOWN (vermelho) representam, respectivamente, as regi˜oes onde os sinais de digest˜ao de DNase I crescem e decrescem. E o estado FP (amarelo) representa as regi˜oes de vale que correspondem aos TFBSs (ou footprints). O gr´afico (direita) corresponde `a m´edia dos sinais (para a digest˜ao de DNase I e a histona variante H2A.Z) obtidos em 100 regi˜oes de tamanho 1000 centralizadas nos 100 MPBSs com maior bit score. O mapa de cores abaixo do gr´afico mostra os estados do HMM correspondentes `a cada posi¸c˜ao, baseado nas cores dos estados da figura do HMM. 4.6 Estima¸c˜ao de Parˆametros e Aplica¸c˜ao dos HMMs Este HMM foi treinado, isto ´e, seus parˆametros foram estimados, utilizando duas abordagens. A primeira, intitulada FMR1 consiste na forma proposta em [Boyle et al., 2011]. Esta estrat´egia ´e baseada, inicialmente, em regi˜oes biologicamente validadas atrav´es de m´etodos de baixo rendi- mento como o DNase I Footprinting. A segunda estrat´egia, chamada STAMP foi elaborada com o intuito de anotar mais regi˜oes inicialmente sem ter que se basear em metodologias biol´ogicas iniciais. Na estrat´egia FMR1, primeiramente deve ser obtida uma regi˜ao onde TFBSs foram expe- rimentalmente validados atrav´es de algum m´etodo de alta acur´acia. No caso, foi utilizado o resultado de um experimento de DNase I Footprinting tradicional da regi˜ao promotora do gene 62
  • 77. 4.6. ESTIMAC¸ ˜AO DE PARˆAMETROS E APLICAC¸ ˜AO DOS HMMS FMR1 (Fragile X Mental Retardation 1) no cromossomo X [Drouin et al., 1997]. Essa regi˜ao ´e anotada manualmente, isto ´e, para cada coordenada genˆomica, ´e atribu´ıdo um estado do HMM com base nos TFBSs comprovados. Posteriormente, a anota¸c˜ao ´e utilizada para estimar os parˆametros de um primeiro modelo, atrav´es da t´ecnica de m´axima verossimilhan¸ca (Se¸c˜ao 3.3). Este primeiro modelo ´e ent˜ao utilizado para anotar automaticamente uma regi˜ao maior. No caso, as 1000 regi˜oes de HS do cromossomo 6 que possuem maior evidˆencia de enriquecimento foram utilizadas [Boyle et al., 2011]. Com base nesta anota¸c˜ao mais abrangente, o modelo final ´e criado novamente atrav´es de m´axima verossimilhan¸ca. A segunda abordagem de treinamento, intitulada STAMP, consiste em um novo m´etodo proposto. A motiva¸c˜ao da cria¸c˜ao deste novo m´etodo ´e que, dessa forma, mais regi˜oes poder˜ao ser inicialmente anotadas sem a necessidade de realizar m´etodos biol´ogicos a priori ou procurar na literatura por regi˜oes que coincidam com trechos onde o treinamento ´e interessante. Este m´etodo utiliza a ferramenta STAMP [Mahony & Benos, 2007], que consiste em uma t´ecnica para se realizar motif matching em cadeias de nucleot´ıdeos com base em um reposit´orio contendo diversas PWMs (e n˜ao apenas uma PWM). Em detalhes, o m´etodo STAMP ´e aplicado nas regi˜oes iniciais que ser˜ao utilizadas para se realizar a anota¸c˜ao (geralmente, locais onde existem sinais para todas as caracter´ısticas epigen´eticas em quest˜ao, e possuem bom n´ıvel de enriquecimento de DNase I). O algoritmo realiza um motif matching mais elaborado na regi˜ao em quest˜ao, utilizando cada uma das PWMs em cada reposit´orio utilizado. Neste caso, foram utilizados os reposit´orios completos do Jaspar, Transfac (p´ublico), Uniprobe e o motif CTCF do Renlab. Os resultados s˜ao listas contendo probabilidades de afinidade de liga¸c˜ao de cada fator nesta regi˜ao. Conforme proposto [Boyle et al., 2011; Mahony & Benos, 2007], foram consideradas como significativos os emparelhamentos que obtiveram afinidade de liga¸c˜ao menor ou igual `a 10−6. Tais resultados correspondem a um conjunto de TFBSs de alta qualidade, suficiente para realizar as anota¸c˜oes iniciais. A metodologia completa consiste em: a partir dos resultados desta t´ecnica aplicada nas 10 melhores regi˜oes de HS do cromossomo 6 (utilizado apenas em conformidade com a metodologia pr´evia) que possuem maior evidˆencia de enriquecimento, tais regi˜oes s˜ao manualmente anotadas de forma idˆentica `a realizada no treinamento FMR1. Tais anota¸c˜oes s˜ao ent˜ao utilizadas para gerar o modelo final atrav´es de m´axima verossimilhan¸ca. Uma segunda rodada de anota¸c˜ao e treinamento, como no treinamento FMR1, n˜ao foi realizada por verificar que os parˆametros j´a eram bastante robustos. Os modelos treinados s˜ao aplicados nas regi˜oes de HS identificadas da forma descrita na Se¸c˜ao 4.3. Tais regi˜oes n˜ao s˜ao regi˜oes de HS no sentido biol´ogico literal, mas regi˜oes onde observou-se um enriquecimento na atividade de digest˜ao de DNase I. Se torna claro, ent˜ao, a raz˜ao de ter escolhido um p-value de enriquecimento relativamente alto (0.05). Dessa forma as 63
  • 78. 4. METODOLOGIA regi˜oes s˜ao um pouco mais largas do que regi˜oes de HS literais, permitindo que os padr˜oes (prin- cipalmente os das histonas, que s˜ao mais largos) sejam completamente inclu´ıdos nas mesmas. A implementa¸c˜ao dos HMMs foi realizada utilizando o pacote em Python da General Hidden Markov Model Library (GHMM) [Schliep et al., 2004]. A probabilidade posterior foi utilizada em todos os casos para aferir a sequˆencia de estados escondidos. Os TFBSs preditos correspondem `as coordenadas genˆomicas onde a probabilidade posterior do estado FP foi maior do que a dos demais estados (ver Se¸c˜ao 3.2.2). Tal regi˜ao foi estendida em 3 bp para a esquerda e para a direita para tornar as predi¸c˜oes mais robustas e facilitar a visualiza¸c˜ao pelos m´etodos de valida¸c˜ao. 4.7 Gold Standard O gold standard utilizado neste projeto foi baseado em uma abordagem bastante utilizada na literatura [Boyle et al., 2011; Cuellar-Partida et al., 2012; Pique-Regi et al., 2011]. Ele consiste em um conjunto contendo TFBSs considerados verdadeiros e falsos, criado a partir das MPBSs em conjunto com os dados de ChIP-seq para os fatores de transcri¸c˜ao. TFBSs verdadeiros s˜ao todos os MPBSs que se possuem evidˆencia de ChIP-seq e TFBSs falsos s˜ao aqueles que n˜ao possuem tal evidˆencia. A evidˆencia se apresenta quando pelo menos 1 bp do MPBS apresenta sobreposi¸c˜ao com as regi˜oes enriquecidas nos dados de ChIP-seq. Essas regi˜oes enriquecidas foram avaliadas como descrito na Se¸c˜ao 4.3. Ap´os a identifica¸c˜ao dos TFBSs verdadeiros e falsos para cada fator, uma tabela de con- tingˆencia pode ser criada atrav´es da considera¸c˜ao das predi¸c˜oes (ou footprints) realizadas. Os verdadeiros positivos (TP) s˜ao os verdadeiros TFBSs que possuem sobreposi¸c˜ao com algum footprint; os falsos negativos (FN ) s˜ao os verdadeiros TFBSs que n˜ao possuem footprint as- sociado; os verdadeiros negativos (TN ) s˜ao falsos TFBSs que n˜ao possuem sobreposi¸c˜ao com algum footprint; e falsos positivos (FP) s˜ao falsos TFBSs que possuem footprint associado. No- vamente, a m´ınima sobreposi¸c˜ao de 1 bp j´a ´e v´alida. A partir desta tabela de contingˆencia, ´e poss´ıvel calcular as estat´ısticas utilizadas para avaliar o modelo, apresentadas na Tabela. O modelo proposto foi comparado apenas com a abordagem pr´evia em [Boyle et al., 2011]. O modelo n˜ao foi comparado `a abordagem CENTIPEDE descrita em [Pique-Regi et al., 2011] e a abordagem Bayesiana detalhada em [Cuellar-Partida et al., 2012] pelo fato de que o conjunto de valida¸c˜ao utilizado por eles diferia da proposta do Boyle et al. Primeiramente, em Pique-Regi et al. e Cuellar et al. os TFBSs verdadeiros s˜ao aqueles MPBSs que contˆem evidˆencia de ChIP-seq (assim como em Boyle et al.), por´em os TFBSs falsos consistem nos MPBSs que se sobrep˜oem em regi˜oes com uma quantidade de fragmentos de ChIP-seq sobrepostos menor ou igual ao experimento controle para esta linhagem celular (tamb´em dispon´ıvel no ENCODE). Apontamos 64
  • 79. 4.8. CONSIDERAC¸ ˜OES FINAIS ent˜ao o fato de que essa abordagem faz com que apenas um subconjunto das instˆancias negativas estejam sendo consideradas. Al´em disso, as instˆancias negativas consideradas s˜ao apenas aquelas que possuem n´ıveis muito baixos de evidˆencia de ChIP-seq, isto ´e, s˜ao as instˆancias negativas mais f´aceis de serem classificadas corretamente. Al´em disso, ao comparar os resultados de sensibilidade vs. taxa de falsos positivos (curva ROC), esses MPBSs que n˜ao foram considerados verdadeiros TFBSs nem falsos TFBSs, foram descartados sobre a premissa de que o gold standard estaria contaminado com instˆancias na fronteira de classifica¸c˜ao. A mesma observa¸c˜ao anterior, a respeito de isto representar um problema mais f´acil do ponto de vista de aprendizado de m´aquina, se aplica a este argumento. 4.8 Considera¸c˜oes Finais Neste cap´ıtulo foram descritos em detalhes os procedimentos realizados neste trabalho. Em resumo, foram descritos os procedimentos de obten¸c˜ao dos dados, o motif matching, a an´alise de enriquecimento dos sinais obtidos atrav´es de DNase-seq e ChIP-seq para os fatores de trans- cri¸c˜ao, o processamento dos sinais de DNase-seq e de ChIP-seq para as modifica¸c˜oes de histonas, a modelagem, treinamento e aplica¸c˜ao dos HMMs multivariados, e a forma de valida¸c˜ao utili- zada para comparar o novo modelo proposto ao modelo pr´evio. Finalmente, tal modelo pr´evio tamb´em foi replicado, para que os resultados entre os dois fosse comparado dadas as ferramentas utilizadas neste projeto. 65
  • 80. 5 Resultados e Discuss˜ao Neste cap´ıtulo ser˜ao mostrados os resultados referentes `a aplica¸c˜ao do m´etodo proposto. Tais resultados ser˜ao exibidos no formato de: (1) gr´aficos de sinais epigen´eticos, que mostram padr˜oes m´edios ao redor de regi˜oes de interesse; (2) tabelas, com as estat´ısticas representando a acur´acia de modelos, isto ´e, a eficiˆencia preditiva dos sinais. Al´em disso ser˜ao exibidos dados a respeito do tempo computacional e capacidade de armazenamento necess´ario para a realiza¸c˜ao dos ex- perimentos. Tais resultados apresentados tamb´em ser˜ao discutidos, sob a ´otica das considera¸c˜oes feitas durante a apresenta¸c˜ao da fundamenta¸c˜ao te´orica biol´ogica e computacional. Ser˜ao realizadas observa¸c˜oes a respeito de: (1) an´alises realizadas envolvendo os sinais epigen´eticos presentes nas regi˜oes de interesse; (2) an´alises envolvendo os estados do HMM nas regi˜oes de interesse; (3) acur´acia dos modelos. Ser˜ao discutidos tamb´em alguns exemplos da aplica¸c˜ao dos modelos propostos, mostrando as ocasi˜oes em que o modelo funcionou conforme previsto e as melhorias que ainda precisam ser realizadas. A apresenta¸c˜ao dos resultados foi dividida em duas partes. Na primeira, ´e realizada uma an´alise mais profunda das caracter´ısticas que os sinais epigen´eticos possuem em certas regi˜oes de interesse (Se¸c˜ao 5.1). Essa foi a primeira an´alise realizada neste trabalho e teve como objetivo o entendimento do comportamento dos sinais epigen´eticos que seriam utilizados posteriormente no modelo probabil´ıstico. Na segunda parte, os resultados da aplica¸c˜ao do HMM descrito na Se¸c˜ao 4.5 ser˜ao exibidos (Se¸c˜ao 5.2). S˜ao exibidos resultados tanto para o HMM proposto quanto para o HMM segundo a abordagem anterior. Conforme mencionado anteriormente, foram investigados os padr˜oes epigen´eticos relativos `a digest˜ao de DNase I (nomeado DNase), `a histona variante H2A.Z e `as histonas ativadoras H3K4me2, H3K4me3 e H3K9ac. Esse conjunto de caracter´ısticas epigen´eticas foi utilizado pelo fato de que ele marca, de forma eficaz, regi˜oes de cromatina descondensada (ver Se¸c˜ao 2.4.1). 66
  • 81. 5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS Em rela¸c˜ao aos fatores de transcri¸c˜ao (e aos seus respectivos motifs), a an´alise dos sinais epi- gen´eticos m´edios foi realizada em todos os fatores presentes na Tabela 4.2. A acur´acia do modelo, entretanto, foi acessada apenas para um conjunto representativo destes, a saber, ATF3 (com PWM obtida no Transfac), CTCF (com motifs do Jaspar e Renlab), GABP (PWMs do Jaspar e Transfac) e REST (com motifs do Jaspar e Transfac). Os fatores CTCF, GABP e REST foram escolhidos por terem sido tamb´em utilizados em [Boyle et al., 2011]. O fator REST, em especial, foi utilizado como forma de avaliar fatores que possuem baixos n´ıveis de marcas epigen´eticas. O fator ATF3 foi escolhido pois observou-se que este fator possui a maior raz˜ao entre instˆancias negativas e instˆancias positivas (ver Tabela ??), tendo sido este caso o mais desafiador para a nova abordagem proposta (ver discuss˜ao realizada na Se¸c˜ao 5.2). 5.1 An´alise dos Sinais Epigen´eticos Ser˜ao realizados trˆes tipos diferentes de an´alises nesta se¸c˜ao. A primeira an´alise consiste na investiga¸c˜ao do comportamento dos sinais ao redor de regi˜oes de MPBSs. O objetivo disto ´e a apresenta¸c˜ao dos sinais epigen´eticos para que o leitor se familiarize com os padr˜oes observa- dos. A segunda an´alise corresponde `a investiga¸c˜ao destes sinais em regi˜oes de MPBSs com e sem evidˆencia de ChIP-seq, com objetivo de mostrar a capacidade de separa¸c˜ao de cada sinal epigen´etico, em diferentes fatores de transcri¸c˜ao, com base nas defini¸c˜oes do gold standard. Fi- nalmente, a terceira an´alise engloba MPBSs, evidˆencia de ChIP-seq, e predi¸c˜oes realizadas com o modelo previamente proposto, com objetivo de entender os pontos positivos e negativos deste modelo baseado em DNase apenas. A primeira an´alise consiste na visualiza¸c˜ao dos sinais epigen´eticos ao redor dos 100 MPBSs com maior bit score (Figura 5.1). Cada regi˜ao analisada consiste na extens˜ao de 500 bp para a esquerda e direita do local onde a PWM foi identificada no genoma. Para cada sinal, ´e mostrado um gr´afico de cores (parte superior) onde as linhas correspondem `as regi˜oes analisadas e as colunas correspondem `as coordenadas genˆomicas. A intensidade de cada ponto neste gr´afico corresponde `a intensidade do respectivo sinal epigen´etico (low = baixa intensidade e high = alta intensidade, nas escalas de cores). Al´em do gr´afico de cores, existe um gr´afico de linha (parte inferior) correspondente `a m´edia do sinal ao longo de toda a extens˜ao analisada, para cada regi˜ao. Nesta an´alise, cujo objetivo ´e apenas apresentar as caracter´ısticas epigen´eticas usuais, s˜ao apresentados os resultados apenas o fator CTCF com motif obtido no reposit´orio Jaspar. Atrav´es da an´alise da Figura 5.1 ´e poss´ıvel constatar claramente os padr˜oes de deple¸c˜ao de DNase e de modifica¸c˜oes de histonas nas regi˜oes com alta afinidade de liga¸c˜ao para o motif CTCF. A alta resolu¸c˜ao do sinal de digest˜ao de DNase I faz com que a deple¸c˜ao seja bastante espec´ıfica, em m´edia, delineando os fatores de transcri¸c˜ao de forma precisa. A adi¸c˜ao de tais 67
  • 82. 5. RESULTADOS E DISCUSS˜AO DNase H2A.Z H3K4me2 H3K4me3 H3K9ac Figura 5.1: An´alise das melhores regi˜oes de MPBS para o CTCF - An´alise dos sinais epigen´eticos nas 100 regi˜oes com maior bit score. dados d˜ao ao modelo uma capacidade maior para realizar a principal tarefa proposta: a de identificar de forma precisa os TFBSs. Com resolu¸c˜ao um pouco mais baixa, os sinais das histonas (obtidos atrav´es de ChIP-seq) possuem, em m´edia, deple¸c˜oes mais abrangentes, que geralmente englobam ´areas inteiras de HS (isto ´e, diversos picos e deple¸c˜oes de DNase). A segunda an´alise consiste na visualiza¸c˜ao, para cada fator de transcri¸c˜ao, dos sinais epi- gen´eticos ao redor das 100 regi˜oes de MPBSs com maiores bit score que possuem evidˆencia de ChIP-seq e das 100 regi˜oes de MPBSs com maiores bit score que n˜ao possuem evidˆencia de ChIP-seq (Figuras 5.2 e 5.3). Cada regi˜ao analisada consiste na extens˜ao de 500 bp para a esquerda e para a direita do local onde o motif foi identificado no genoma. Na figura, s˜ao exibidos gr´aficos de linha contendo a m´edia dos sinais para todas estas regi˜oes sobre toda a extens˜ao analisada. A linha verde corresponde aos MPBSs sem evidˆencia de ChIP-seq e a linha vermelha corresponde aos MPBSs com evidˆencia de ChIP-seq. Todos os fatores analisados s˜ao mostrados neste caso, para todos os sinais epigen´eticos. Os r´otulos dos fatores est˜ao no formato NOME XN, onde NOME corresponde ao nome do fator, 68
  • 83. 5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS X corresponde `a inicial do reposit´orio onde tal fator foi obtido e N corresponde ao n´umero do motif, em ordem de entrada no reposit´orio, deste fator (como mencionado anteriormente, alguns fatores possuem mais de um PWM por reposit´orio). Caso existam menos de 10 sinais (do m´aximo de 100) para qualquer categoria descrita (com evidˆencia ChIP e sem evidˆencia ChIP), a curva correspondente a esta categoria n˜ao ´e exibida, para que problemas relativos `a computa¸c˜ao da m´edia de poucas regi˜oes n˜ao enviesasse a visualiza¸c˜ao. Esse caso ocorreu apenas para o fator REST com motif obtido no reposit´orio Transfac. O objetivo deste gr´afico, que junta informa¸c˜ao de MPBSs com enriquecimento de ChIP-seq, ´e visualizar os padr˜oes epigen´eticos com base no que foi considerado o gold standard deste projeto. A partir de tal visualiza¸c˜ao, ´e poss´ıvel observar o comportamento dos sinais epigen´eticos em regi˜oes onde se deseja que o modelo reconhe¸ca como TFBS e em regi˜oes onde se deseja que o modelo n˜ao considere um TFBS. Os gr´aficos presentes na Figura 5.2 mostram os principais argumentos em favor da utiliza¸c˜ao de dados epigen´eticos. Observa-se com clareza, neste gr´afico, a diferen¸ca de intensidade e formato dos picos/vales entre regi˜oes de MPBSs com evidˆencia de ChIP-seq e sem tal evidˆencia. ´E importante ressaltar que tal diferen¸ca ocorre mesmo tendo sido consideradas as melhores regi˜oes sem evidˆencia de ChIP-seq, isto ´e, as regi˜oes que possuem maiores bit score. Os fatores ATF3, CTCF e GABP possuem padr˜oes de deple¸c˜ao (pico-vale-pico) bem delineados, enquanto o fator E2F4 possui deple¸c˜oes mais suaves tanto para os dados de DNase-seq quanto para obtidos com ChIP-seq. O contraste das curvas entre as regi˜oes enriquecidas e n˜ao enriquecidas, observado nestes gr´aficos, variou bastante. O GABP (ativador) possui contrastes enormes, tendo as regi˜oes n˜ao enriquecidas de ChIP-seq praticamente nenhuma deple¸c˜ao vis´ıvel em m´edia. O ativador E2F4 tamb´em apresentou contrastes semelhantes ao do fator GABP, por´em nesse caso o sinal m´edio relativo `as regi˜oes com evidˆencia de ChIP-seq possuiu deple¸c˜oes menos acentuadas em rela¸c˜ao ao GABP. Os ativadores, em geral, possu´ıam n´ıveis mais altos de histonas consideradas ativadoras, enquanto o n´ıvel de DNase geralmente n˜ao variou de forma t˜ao abrupta. Os fatores ATF3 e CTCF est˜ao em leve discordˆancia com esse fato, apresentando deple¸c˜oes suaves (por´em vis´ıveis) at´e em regi˜oes sem evidˆencia de ChIP-seq. Por outro lado, os gr´aficos presentes na Figura 5.3 mostram sinais epigen´eticos com padr˜oes mais fracos e destoantes dos exibidos na Figura 5.2. O fator CEBPB possuiu os sinais mais fracos entre todos os fatores analisados, por´em ainda assim ´e poss´ıvel verificar diferen¸cas na intensidade dos sinais epigen´eticos, em especial nas modifica¸c˜oes de histonas. Apesar de possu´ırem altos n´ıveis de presen¸ca dos sinais epigen´eticos, os fatores MEF2A e P300 diferem dos fatores da figura anterior pelo fato de que a deple¸c˜ao ´e bem menos caracterizada, em especial para o sinal de DNase. Finalmente, para o silenciador REST, foram observados padr˜oes claros em rela¸c˜ao `a DNase, por´em pouca evidˆencia das histonas ativadoras. 69
  • 84. 5. RESULTADOS E DISCUSS˜AO Sem evidência ChIP Com evidência ChIP -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 ATF3_t1 DNase -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 H3K4me3 -500 -250 MID + 250 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 CEBPB_t1 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 CEBPB_t2 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 CTCF_j1 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CTCF_r1 res_0T res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 H3K4me3 -500 -250 MID + 250 0 20 40 60 80 100 120 140 H3K9ac + 250 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 + 250 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 + 250 res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0.000 0.005 C -500 -250 MID + 250 1.5 2.0 -500 -250 MID + 250 1.0 -500 -250 MID + 250 0.5 1.0 -500 -250 MID + 250 1.0 -500 -250 MID + 250 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 CEBPB_t2 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 CTCF_j1 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CTCF_r1 res_0T res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 + 250 -500 -250 MID + 250 1.5 -500 -250 MID + 250 1.0 -500 -250 MID + 250 0.5 -500 -250 MID + 250 1.0 -500 -250 MID 1.0 + 250 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 + 250 res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CTCF_r1 DNase -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 H2A.Z -500 -250 MID + 250 2 3 4 5 6 7 8 9 H3K4me1 -500 -250 MID + 250 2 4 6 8 10 12 14 H3K4me2 -500 -250 MID + 250 2 3 4 5 6 7 8 9 H3K4me3 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 E2F4_t1 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 3 4 5 6 7 8 9 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 E2F4_t2 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0.00 0.05 0.10 0.15 0.20 0.25 EGR1_j1 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 1 2 3 4 5 6 7 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0.00 0.05 0.10 0.15 0.20 EGR1_t1 res 0T res 1T -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 1 2 3 4 5 6 7 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 H2A.Z -500 -250 MID + 250 2 3 4 5 6 7 8 9 H3K4me1 -500 -250 MID + 250 2 4 6 8 10 12 14 H3K4me2 -500 -250 MID + 250 2 3 4 5 6 7 8 9 H3K4me3 -500 -250 MID + 250 2 3 4 5 6 7 8 9 10 H3K9ac + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 3 4 5 6 7 8 9 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 20 40 60 80 100 120 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 20 40 60 80 100 + 250 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 1 2 3 4 5 6 7 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 + 250 res 1T -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 1 2 3 4 5 6 7 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 EGR1_u1 DNase -500 -250 MID + 250 0 5 10 15 20 25 30 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 8 H3K4me1 -500 -250 MID + 250 0 5 10 15 20 25 30 35 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me3 -500 -250 MID + 250 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 ELF1_t1 -500 -250 MID + 250 0 5 10 15 20 25 30 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 5 10 15 20 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 GABP_j1 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 2 3 4 5 6 7 8 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 GABP_t1 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 0.7 50 8 60 60 + 250 -500 -250 MID + 250 0 5 10 15 20 25 30 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 8 H3K4me1 -500 -250 MID + 250 0 5 10 15 20 25 30 35 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me3 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H3K9ac + 250 -500 -250 MID + 250 0 5 10 15 20 25 30 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 5 10 15 20 -500 -250 MID + 250 0 5 10 15 20 25 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 2 3 4 5 6 7 8 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 20 40 60 80 100 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 50 8 60 60 80 Figura 5.2: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.1 - An´alise dos sinais epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem ou n˜ao possuem evidˆencia de ChIP-seq. S˜ao analisadas regi˜oes de 1000 bp, sendo necess´arias pelo menos 10 regi˜oes para cada categoria, para que o sinal seja exibido (evitando vieses estat´ısticos). Nesta figura, s˜ao exibidos os fatores de transcri¸c˜ao que apresentaram os sinais epigen´eticos mais delineados dentre os fatores estudados. 70
  • 85. 5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS Sem evidência ChIP Com evidência ChIP -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 ATF3_t1 DNase -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 H3K4me3 -500 -250 MID + 250 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 CEBPB_t1 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 CEBPB_t2 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 CTCF_j1 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CTCF_r1 res_0T res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 H3K4me3 -500 -250 MID + 250 0 20 40 60 80 100 120 140 H3K9ac + 250 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 + 250 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 + 250 res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 MAX_t5 DNase -500 -250 MID + 250 5 10 15 20 25 30 35 40 45 50 H2A.Z -500 -250 MID + 250 2 4 6 8 10 12 14 H3K4me1 -500 -250 MID + 250 10 15 20 25 30 35 40 45 50 55 H3K4me2 -500 -250 MID + 250 5 10 15 20 25 30 35 40 45 50 H3K4me3 -500 -250 MID + 250 0.00 0.05 0.10 0.15 0.20 0.25 0.30 MEF2A_j1 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 MEF2A_t1 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 MEF2A_t2 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0.00 0.02 0.04 0.06 0.08 0.10 0.12 MEF2A_t3 res_0T res_1T -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 + 250 -500 -250 MID + 250 5 10 15 20 25 30 35 40 45 50 H2A.Z -500 -250 MID + 250 2 4 6 8 10 12 14 H3K4me1 -500 -250 MID + 250 10 15 20 25 30 35 40 45 50 55 H3K4me2 -500 -250 MID + 250 5 10 15 20 25 30 35 40 45 50 H3K4me3 -500 -250 MID + 250 10 20 30 40 50 60 70 80 90 H3K9ac + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 5 10 15 20 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 + 250 res_1T -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0.0 0.2 -500 -250 MID + 250 0 10 -500 -250 MID + 250 1 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 CEBPB_t1 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 CEBPB_t2 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 CTCF_j1 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CTCF_r1 res_0T res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 + 250 -500 -250 MID + 250 0 10 -500 -250 MID + 250 1 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 20 + 250 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 + 250 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 -500 -250 MID + 250 0.5 1.0 1.5 2.0 -500 -250 MID + 250 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 + 250 res_1T -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 4 6 8 10 12 14 -500 -250 MID + 250 2 3 4 5 6 7 8 9 -500 -250 MID + 250 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 P300_t1 DNase -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H3K4me3 -500 -250 MID + 250 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 PU1_t1 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 REST_j1 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 0 6 0.7 3.2 2.8 4.0 3.2 3.4 + 250 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H3K4me3 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K9ac + 250 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 + 250 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 -500 -250 MID + 250 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 3.2 2.8 4.0 3.2 3.4 2.4 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 P300_t1 DNase -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H3K4me3 -500 -250 MID + 250 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 PU1_t1 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 REST_j1 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 REST_t1 -500 -250 MID + 250 2.0 2.2 2.4 2.6 2.8 3.0 3.2 -500 -250 MID + 250 1.6 1.8 2.0 2.2 2.4 2.6 2.8 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 1.2 50 8 9 60 50 + 250 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H3K4me3 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K9ac + 250 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 + 250 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 -500 -250 MID + 250 1.0 1.5 2.0 -500 -250 MID + 250 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 + 250 -500 -250 MID + 250 2.0 2.2 2.4 2.6 2.8 3.0 3.2 -500 -250 MID + 250 1.6 1.8 2.0 2.2 2.4 2.6 2.8 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 -500 -250 MID + 250 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 -500 -250 MID + 250 1.4 1.6 1.8 2.0 2.2 2.4 50 8 9 60 50 70 80 Figura 5.3: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq Pt.2 - An´alise dos sinais epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem ou n˜ao possuem evidˆencia de ChIP-seq. S˜ao analisadas regi˜oes de 1000 bp, sendo necess´arias pelo menos 10 regi˜oes para cada categoria, para que o sinal seja exibido (evitando vieses estat´ısticos). Nesta figura, s˜ao exibidos os fatores de transcri¸c˜ao que apresentaram os sinais epigen´eticos menos claros dentre os fatores estudados. 71
  • 86. 5. RESULTADOS E DISCUSS˜AO Os contrastes nesta segunda figura apresentaram varia¸c˜oes ainda maiores. O fator CEBPB, apesar dos sinais fracos, apresentou um leve contraste para os sinais relativos `as modifica¸c˜oes de histonas. Os fatores MEF2A e P300, apesar da deple¸c˜ao suave, possu´ıram altos contrastes entre as regi˜oes enriquecidas de ChIP-seq e n˜ao enriquecidas. O REST, como notado anteriormente, possuiu contrastes relevantes em rela¸c˜ao `a DNase, por´em contrastes n˜ao t˜ao precisos em rela¸c˜ao `as modifica¸c˜oes de histonas. Al´em da intensidade entre MPBSs com e sem evidˆencia de ChIP-seq e entre fatores de diferentes tipos, ´e interessante observar o formato em que o gr´afico da m´edia dessas regi˜oes toma. As modifica¸c˜oes das histonas, para o fator CTCF por exemplo, apresentam picos com comprimentos (frequˆencia) menores do que os presentes no fator GABP ou E2F4. Para estes, a primeira subida e ´ultima descida (relativas ao aspecto bimodal dos padr˜oes) n˜ao est˜ao nem vis´ıveis nesta janela de tamanho 1.000 bp para, por exemplo, as modifica¸c˜oes H3K4me2 e H3K4me3. Tais padr˜oes n˜ao foram especificamente analisados neste trabalho, por´em podem representar um interessante estudo futuro, com hip´otese de que o formato dos sinais epigen´eticos ao redor de regi˜oes enriquecidas de prote´ınas reflete o formato estrutural daquela prote´ına (os elementos regulat´orios possuem motifs estruturais bem definidos). A terceira an´alise consiste na visualiza¸c˜ao, para cada TF, dos sinais epigen´eticos ao redor das 100 regi˜oes de MPBSs com maiores bit score que: (1) n˜ao possuem evidˆencia de ChIP-seq nem um footprint associado, isto ´e, verdadeiros negativos (linhas de cor verde); (2) n˜ao possuem evidˆencia de ChIP-seq por´em possuem um footprint associado, isto ´e, falsos positivos (linhas de cor vermelha); (3) possuem evidˆencia de ChIP-seq por´em n˜ao possuem footprint associado, isto ´e, falsos negativos (linhas de cor azul); (4) possuem evidˆencia de ChIP-seq e footprint, isto ´e, verdadeiros positivos (linhas de cor amarela) (Figuras 5.4 e 5.5). Nestas figuras, s˜ao exibidos gr´aficos de linha contendo a m´edia dos sinais para todas estas regi˜oes sobre toda a extens˜ao analisada. Os r´otulos dos fatores seguiram a mesma descri¸c˜ao dada para as Figuras 5.2 e 5.3. Caso existam menos de 10 sinais (do m´aximo de 100) para qualquer categoria descrita, a curva correspondente a esta categoria n˜ao ´e exibida, para que problemas relativos `a computa¸c˜ao da m´edia de poucas regi˜oes n˜ao enviesasse a visualiza¸c˜ao. Esse caso ocorreu para os fatores: CTCF com motif obtido no reposit´orio Jaspar, REST com motifs obtidos nos reposit´orios Jaspar e Transfac. O objetivo destes gr´aficos ´e analisar as predi¸c˜oes realizadas pelo modelo anterior, em rela¸c˜ao aos sinais epigen´eticos que se pretende inserir no modelo proposto. A partir destas an´alises o conjunto de histonas que seria utilizado no novo modelo foi determinado. Os fins de tal deter- mina¸c˜ao foram apenas o teste emp´ırico da hip´otese proposta, e n˜ao a asser¸c˜ao determin´ıstica de quais histonas s˜ao melhores preditoras para cada caso. Um passo na dire¸c˜ao deste tipo de informa¸c˜ao ser´a dado em estudos futuros. 72
  • 87. 5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 ATF3_t1 DNase -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 0 2 4 6 8 10 12 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me3 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CEBPB_t1 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 CEBPB_t2 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 CTCF_j1 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 CTCF_r1 res_0T_0F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 0 2 4 6 8 10 12 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me3 -500 -250 MID + 250 0 20 40 60 80 100 120 140 H3K9ac 250 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 250 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 250 F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 -500 -250 MID + 250 0.0 -500 -250 MID + 250 0 -500 -250 MID + 250 0 -500 -250 MID + 250 0 -500 -250 MID + 250 0 5 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 CEBPB_t2 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 CTCF_j1 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 CTCF_r1 res_0T_0F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 250 -500 -250 MID + 250 0 -500 -250 MID + 250 0 -500 -250 MID + 250 0 -500 -250 MID + 250 0 5 -500 -250 MID + 250 0 10 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 250 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 250 F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 CTCF_r1 DNase -500 -250 MID + 250 0 10 20 30 40 50 H2A.Z -500 -250 MID + 250 0 2 4 6 8 10 12 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 E2F4_t1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 E2F4_t2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 2 4 6 8 10 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 EGR1_j1 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 EGR1_t1 0T 0F 1T 0F 1T 1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 250 -500 -250 MID + 250 0 10 20 30 40 50 H2A.Z -500 -250 MID + 250 0 2 4 6 8 10 12 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K9ac 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 20 40 60 80 100 120 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 2 4 6 8 10 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 20 40 60 80 100 120 250 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 250 F 1T 0F 1T 1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 14 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 EGR1_u1 DNase -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H3K4me3 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 ELF1_t1 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 GABP_j1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 GABP_t1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0 10 20 30 40 50 60 70 1.2 70 14 80 70 250 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 H2A.Z -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 H3K4me2 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 H3K4me3 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K9ac 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0 20 40 60 80 100 120 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 20 40 60 80 100 120 70 14 80 70 120sem ChIP + sem FP sem ChIP + com FP com ChIP + sem FP com ChIP + com FP Figura 5.4: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado Pt. 1 - An´alise dos sinais epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem ou n˜ao possuem evidˆencia de ChIP-seq e footprint associado. S˜ao analisadas regi˜oes de 1000 bp, sendo necess´arias pelo menos 10 regi˜oes para cada categoria, para que o sinal seja exibido (evitando vieses estat´ısticos). Nesta figura, s˜ao exibidos os fatores de transcri¸c˜ao que apresentaram os sinais epigen´eticos mais delineados dentre os fatores estudados. 73
  • 88. 5. RESULTADOS E DISCUSS˜AO -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 ATF3_t1 DNase -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 0 2 4 6 8 10 12 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me3 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CEBPB_t1 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 CEBPB_t2 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 CTCF_j1 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 CTCF_r1 res_0T_0F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 0 2 4 6 8 10 12 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 H3K4me3 -500 -250 MID + 250 0 20 40 60 80 100 120 140 H3K9ac 250 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 250 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 250 F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 sem ChIP + sem FP sem ChIP + com FP com ChIP + sem FP com ChIP + com FP -500 -250 MID + 250 0.0 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 CEBPB_t1 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 CEBPB_t2 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 CTCF_j1 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 CTCF_r1 res_0T_0F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 + 250 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 10 -500 -250 MID + 250 0 20 + 250 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 + 250 -500 -250 MID + 250 0 5 10 15 20 25 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 2 4 6 8 10 12 14 + 250 0F res_0T_1F res_1T_0F res_1T_1F -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 MAX_t5 DNase -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 2 4 6 8 10 12 14 H3K4me1 -500 -250 MID + 250 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0.0 0.5 1.0 1.5 2.0 2.5 MEF2A_j1 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 MEF2A_t1 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 0 5 10 15 20 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 MEF2A_t2 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0.00 0.02 0.04 0.06 0.08 0.10 MEF2A_t3 res_0T_0F res_1T_0F -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H2A.Z -500 -250 MID + 250 2 4 6 8 10 12 14 H3K4me1 -500 -250 MID + 250 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0 20 40 60 80 100 120 H3K9ac + 250 -500 -250 MID + 250 0 10 20 30 40 50 -500 -250 MID + 250 0 5 10 15 20 25 30 35 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 + 250 -500 -250 MID + 250 2 4 6 8 10 12 14 16 18 20 -500 -250 MID + 250 0 5 10 15 20 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 -500 -250 MID + 250 0 2 4 6 8 10 12 14 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 5 10 15 20 25 30 35 40 45 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 + 250 0F res_1T_0F -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0 2 4 6 8 10 12 -500 -250 MID + 250 1 2 3 4 5 6 7 8 9 10 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 P300_t1 DNase -500 -250 MID + 250 0 10 20 30 40 50 60 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 PU1_t1 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 REST_j1 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0 1 2 3 4 5 6 7 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 1 4 1.6 5.0 4.5 7 4.5 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0 20 40 60 80 100 H3K9ac + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 + 250 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0 1 2 3 4 5 6 7 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 5.0 4.5 7 4.5 2 4 2.6 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 P300_t1 DNase -500 -250 MID + 250 0 10 20 30 40 50 60 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 PU1_t1 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 REST_j1 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0 1 2 3 4 5 6 7 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 REST_t1 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 -500 -250 MID + 250 1 2 3 4 5 6 7 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 1.4 60 20 80 70 + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 H2A.Z -500 -250 MID + 250 0 5 10 15 20 25 30 H3K4me1 -500 -250 MID + 250 0 10 20 30 40 50 60 70 H3K4me2 -500 -250 MID + 250 0 10 20 30 40 50 60 H3K4me3 -500 -250 MID + 250 0 20 40 60 80 100 H3K9ac + 250 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 2 4 6 8 10 12 14 16 18 -500 -250 MID + 250 0 10 20 30 40 50 60 70 -500 -250 MID + 250 0 10 20 30 40 50 60 -500 -250 MID + 250 0 10 20 30 40 50 60 70 80 90 + 250 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0 1 2 3 4 5 6 7 -500 -250 MID + 250 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 0.5 1.0 1.5 2.0 + 250 -500 -250 MID + 250 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 -500 -250 MID + 250 1 2 3 4 5 6 7 -500 -250 MID + 250 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 -500 -250 MID + 250 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 60 20 80 70 140 Figura 5.5: Regi˜oes de TFBS com e sem evidˆencia de ChIP-seq e footprint associado Pt. 2 - An´alise dos sinais epigen´eticos ao redor dos 100 MPBSs com maior bit score que possuem ou n˜ao possuem evidˆencia de ChIP-seq e footprint associado. S˜ao analisadas regi˜oes de 1000 bp, sendo necess´arias pelo menos 10 regi˜oes para cada categoria, para que o sinal seja exibido (evitando vieses estat´ısticos). Nesta figura, s˜ao exibidos os fatores de transcri¸c˜ao que apresentaram os sinais epigen´eticos menos claros dentre os fatores estudados. 74
  • 89. 5.1. AN´ALISE DOS SINAIS EPIGEN´ETICOS Atrav´es da observa¸c˜ao dos gr´aficos para o fator ATF3, percebe-se que os sinais de falsos positivos (vermelho) se confundem com o sinal de verdadeiros positivos (amarelo) para a DNase e para a histona variante H2A.Z. Por´em, para os outros sinais epigen´eticos parece existir uma proximidade maior entre os sinais de falsos negativos (azul) e de verdadeiros positivos do que entre os verdadeiros positivos e falsos positivos, o que faria com que um modelo que utilizasse tais sinais ganhasse essa informa¸c˜ao adicional. Alguns fatores, como o CEBP e MEF2A, entretanto, n˜ao possuem evidˆencias interessantes para os sinais com evidˆencia de ChIP e sem footprint (azul). Para o fator CTCF, as curvas pareceram bastante consistentes, por´em n˜ao ´e poss´ıvel realizar inferˆencias a respeito da adi¸c˜ao de histonas no modelo, dado que os sinais de falsos positivos est˜ao pouco representados. Para o caso do motif obtido no Jaspar, a quantidade de falsos positivos foi muito pequena, fazendo com que tal sinal fosse exclu´ıdo da an´alise. Para o caso do motif obtido no Renlab, este sinal parece ter sido sobre-representado. Por´em ´e poss´ıvel observar a l´ogica recorrente de que os falsos negativos geralmente tˆem sinal mais baixo do que verdadeiros positivos, por´em apresentam o mesmo formato de vale. Os padr˜oes m´edios observados para os fatores E2F4 e P300 possuem caracter´ısticas seme- lhantes. No caso do E2F4, os verdadeiros positivos e falsos positivos se confundem, tornando a predi¸c˜ao menos eficaz. Entretanto, os sinais relativos aos falsos negativos, apesar de n˜ao apre- sentarem tendˆencia pico-vale-pico evidentes, possuem intensidades mais altas do que os falsos positivos (na mesma faixa dos verdadeiros positivos), o que poderia sinalizar um ponto positivo. Por outro lado, no caso do P300, os padr˜oes s˜ao semelhantes por´em a linha relativa aos fal- sos negativos est´a aproximadamente na mesma faixa dos falsos positivos, o que provavelmente acarretaria em piores inferˆencias. A an´alise dos padr˜oes para o fator GABP fornece, assim como para o fator ATF3, um ponto positivo para a inser¸c˜ao das modifica¸c˜oes de histonas. ´E poss´ıvel visualizar que a linha repre- sentando os falsos positivos est´a bastante pr´oxima da linha representando os falsos negativos para a DNase, por´em para as histonas ela se apresenta consistentemente abaixo em todos os casos. ´E importante mencionar que uma an´alise relativa aos desvios padr˜oes foi realizada, por´em n˜ao exibidas nos gr´aficos pela dificuldade de leitura que ela apresentou. A an´alise de desvios padr˜oes n˜ao demonstrou variˆancia significativa entre tais sinais, por´em espera-se que pelo me- nos os padr˜oes tidos como falsos negativos sejam identificados pelo novo modelo, j´a que sua curvatura possui interse¸c˜ao consistente com as curvaturas dos verdadeiros positivos em todos os casos. Assim como o fator CTCF, o fator REST possui motif grande e com grande quantidade de bases conservadas. Isso faz com que o n´umero de falsos positivos n˜ao seja grande o suficiente para ser exibido nesses gr´aficos. Nos gr´aficos relativos ao motif obtido no Transfac, nem os 75
  • 90. 5. RESULTADOS E DISCUSS˜AO verdadeiros negativos (que s˜ao bem numerosos em outros casos) tiveram representatividade significativa. Em geral, espera-se que as histonas acrescentem informa¸c˜oes ´uteis ao novo modelo proposto. A an´alise destes gr´aficos para diversos fatores de transcri¸c˜ao diferentes mostra que esta ´e a tendˆencia sobre uma quantidade razo´avel de fatores de transcri¸c˜ao. Na se¸c˜ao seguinte, tal hip´otese ser´a testada atrav´es do modelo descrito na Se¸c˜ao 4.5. 5.2 Acur´acia do Modelo Proposto Nesta se¸c˜ao, primeiramente ser˜ao mostradas estat´ısticas gerais a respeito da quantidade de regi˜oes encontradas pelos m´etodos de enriquecimento, pelo motif matching e pela aplica¸c˜ao dos modelos. Ent˜ao, ser˜ao apresentadas as tabelas correspondentes ao c´alculo das estat´ısticas em rela¸c˜ao `a aplica¸c˜ao do modelo no genoma inteiro (Se¸c˜ao 4.5) e do gold standard definido na Se¸c˜ao 4.7. O objetivo da apresenta¸c˜ao de tais resultados ´e a compara¸c˜ao do modelo anterior com o modelo proposto neste trabalho. Na Tabela 5.1 s˜ao exibidas as quantidade de regi˜oes preditas (isto ´e, footprints) utilizando ambos os modelos (pr´evio e proposto) e ambas as formas de treinamento (FMR1 e STAMP). O n´umero total de regi˜oes hipersens´ıveis `a DNase I nas quais todos os m´etodos foram aplicados foi igual a 133.372. Todos os modelos foram aplicados somente nestas regi˜oes, obtidas de forma idˆentica `as regi˜oes enriquecidas de ChIP-seq (ver Se¸c˜ao 4.3). Tabela 5.1: Quantidade de footprints encontrados com cada modelo – Nesta tabela s˜ao exibidas as quantidade de regi˜oes preditas (#footprints) utilizando todos os modelos e formas de treinamento. Os modelos bivariados propostos s˜ao referenciados apenas pela histona correspondente. Modelo Treino #footprints DNase apenas FMR1 109648 STAMP 67758 H2A.Z FMR1 422537 STAMP 192274 H3K4me2 FMR1 436509 STAMP 200293 H3K4me3 FMR1 475023 STAMP 202496 H3K9ac FMR1 460468 STAMP 183744 76
  • 91. 5.2. ACUR´ACIA DO MODELO PROPOSTO Devem ser consideradas duas informa¸c˜oes contidas na Tabela 5.1. Primeiramente, pode-se perceber que os modelos propostos geram uma quantidade muito maior (at´e quase cinco vezes maior) de predi¸c˜oes do que o modelo baseado em DNase apenas. Esse fato possui algumas vantagens e desvantagens, que ser˜ao discutidas mais adiante. Tamb´em ´e poss´ıvel observar que os modelos treinados com a abordagem STAMP produzem quantidades bem menores de predi¸c˜oes do que os modelos treinados com a abordagem FMR1. Novamente, as implica¸c˜oes ser˜ao descritas posteriormente. S˜ao apresentadas, ent˜ao, as tabelas contendo a compara¸c˜ao entre o m´etodo pr´evio e o novo modelo proposto. Para cada fator, s˜ao calculadas a sensibilidade (Ss), especificidade (Sp), posi- tive predictive value (Pp), negative predictive value (Np) e taxa de acerto (Cr) (ver Tabela ??), relativas aos footprints gerados pela aplica¸c˜ao do modelo anterior e do modelo proposto. O mo- delo anterior foi replicado e aplicado com as ferramentas utilizadas neste projeto, para remover vieses gerados pelas mesmas. Em cada modelo foram aplicadas as duas formas de treinamento (FMR1 e STAMP). As estat´ısticas apresentadas nas Tabelas 5.2 a 5.8 mostram que o modelo proposto, em geral, aumenta bastante a sensibilidade (em at´e 49.37% a mais) enquanto que apresenta uma pequena queda na especificidade (em, no m´aximo, 10.35%) (ver Tabela 5.9 a seguir). A taxa de acerto (Cr) apresentou um aumento para os fatores CTCF e REST, enquanto para outros fatores os valores da precis˜ao foram equivalentes. Isso ocorre, possivelmente, pela quantidade de exemplos negativos, para esses outros motifs, ser maior (dado que as PWMs tˆem qualidade inferior), fazendo com que a parcela de especificidade tenha uma maior contribui¸c˜ao na taxa de acerto geral do que a sensibilidade (ver Tabela ??). Em adi¸c˜ao, para o fator REST, ´e interessante observar que houve grandes diferen¸cas nos resultados entre PWMs provenientes de reposit´orios diferentes, mostrando que existe impacto relacionado com a qualidade dos motifs. 77
  • 92. 5. RESULTADOS E DISCUSS˜AO Tabela 5.2: Resultados (em %) para o fator ATF3 (PWM obtida no Transfac) – S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e destacado em negrito. Modelo Treino Sn Sp Pp Np Cr DNase apenas FMR1 58.75 96.8 10.28 99.73 96.57 STAMP 71.25 96.99 12.87 99.82 96.83 H2A.Z FMR1 31.25 94.34 3.33 99.55 93.95 STAMP 70.0 90.32 4.31 99.79 90.19 H3K4me2 FMR1 32.5 92.66 2.69 99.55 92.29 STAMP 76.25 89.68 4.41 99.84 89.6 H3K4me3 FMR1 35.0 92.08 2.68 99.56 91.72 STAMP 77.5 89.32 4.33 99.84 89.25 H3K9ac FMR1 25.0 93.11 2.21 99.5 92.69 STAMP 67.5 89.88 3.99 99.77 89.74 Tabela 5.3: Resultados (em %) para o fator CTCF (PWM obtida no Jaspar) – S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e destacado em negrito. Modelo Treino Sn Sp Pp Np Cr DNase apenas FMR1 29.45 99.59 99.87 11.35 35.28 STAMP 26.08 99.86 99.95 10.91 32.21 H2A.Z FMR1 50.33 97.93 99.63 15.16 54.29 STAMP 71.80 94.74 99.34 23.35 73.71 H3K4me2 FMR1 63.71 95.85 99.41 19.32 66.38 STAMP 74.76 94.74 99.37 25.39 76.42 H3K4me3 FMR1 65.13 96.13 99.46 19.99 67.71 STAMP 75.45 94.33 99.32 25.83 77.02 H3K9ac FMR1 60.95 96.68 99.51 18.33 63.92 STAMP 74.96 94.33 99.32 25.46 76.57 78
  • 93. 5.2. ACUR´ACIA DO MODELO PROPOSTO Tabela 5.4: Resultados (em %) para o fator CTCF (PWM obtida no Renlab) – S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e destacado em negrito. Modelo Treino Sn Sp Pp Np Cr DNase apenas FMR1 29.68 98.4 98.82 23.64 42.13 STAMP 25.61 98.61 98.82 22.68 38.84 H2A.Z FMR1 50.19 92.85 96.95 29.2 57.92 STAMP 69.16 88.26 96.38 38.77 72.62 H3K4me2 FMR1 61.51 89.64 96.41 34.01 66.6 STAMP 72.51 87.82 96.42 41.42 75.29 H3K4me3 FMR1 63.07 89.5 96.45 34.91 67.86 STAMP 72.98 87.45 96.34 41.73 75.6 H3K9ac FMR1 59.57 91.61 96.98 33.4 65.38 STAMP 72.27 88.11 96.49 41.29 75.14 Tabela 5.5: Resultados (em %) para o fator GABP (PWM obtida no Jaspar) – S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e destacado em negrito. Modelo Treino Sn Sp Pp Np Cr DNase apenas FMR1 27.9 99.77 91.84 93.66 93.62 STAMP 27.8 99.86 94.96 93.66 93.69 H2A.Z FMR1 39.09 97.9 63.52 94.5 92.86 STAMP 46.32 94.96 46.27 94.97 90.8 H3K4me2 FMR1 37.27 96.28 48.38 94.25 91.23 STAMP 50.87 94.55 46.61 95.36 90.81 H3K4me3 FMR1 40.29 96.14 49.42 94.51 91.36 STAMP 53.11 94.37 46.91 95.56 90.84 H3K9ac FMR1 36.34 96.96 52.83 94.21 91.77 STAMP 42.19 94.49 41.74 94.58 90.01 79
  • 94. 5. RESULTADOS E DISCUSS˜AO Tabela 5.6: Resultados (em %) para o fator GABP (PWM obtida no Transfac) – S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e destacado em negrito. Modelo Treino Sn Sp Pp Np Cr DNase apenas FMR1 26.26 99.75 86.62 95.61 95.46 STAMP 25.19 99.84 90.97 95.56 95.48 H2A.Z FMR1 38.48 97.84 52.45 96.25 94.37 STAMP 44.81 95.36 37.48 96.53 92.41 H3K4me2 FMR1 36.73 96.44 38.99 96.09 92.95 STAMP 49.38 95.04 38.16 96.8 92.37 H3K4me3 FMR1 40.61 96.36 40.9 96.32 93.1 STAMP 52.63 94.87 38.89 97.0 92.4 H3K9ac FMR1 36.01 97.04 43.04 96.07 93.48 STAMP 41.62 94.97 33.9 96.33 91.85 Tabela 5.7: Resultados (em %) para o fator REST (PWM obtida no Jaspar) – S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e destacado em negrito. Modelo Treino Sn Sp Pp Np Cr DNase apenas FMR1 20.49 96.67 99.18 5.82 24.17 STAMP 14.39 98.33 99.42 5.51 18.45 H2A.Z FMR1 35.39 95.0 99.29 6.95 38.28 STAMP 55.21 95.0 99.54 9.73 57.13 H3K4me2 FMR1 49.96 96.67 99.66 8.94 52.22 STAMP 55.04 95.0 99.54 9.69 56.97 H3K4me3 FMR1 48.52 95.0 99.48 8.57 50.77 STAMP 55.04 95.0 99.54 9.69 56.97 H3K9ac FMR1 43.27 95.0 99.42 7.84 45.77 STAMP 55.21 95.0 99.54 9.73 57.13 80
  • 95. 5.2. ACUR´ACIA DO MODELO PROPOSTO Tabela 5.8: Resultados (em %) para o fator REST (PWM obtida no Transfac) – S˜ao exibidos resultados para o modelo pr´evio (DNase apenas) e para os modelos bivariados com DNase + modifica¸c˜ao de histona (apenas o nome desta ´e exibido). Para cada modelo, ambas formas de treinamento s˜ao consideradas (FMR1 e STAMP). O melhor resultado para cada estat´ıstica ´e destacado em negrito. Modelo Treino Sn Sp Pp Np Cr DNase apenas FMR1 31.78 100.0 100.0 3.13 33.25 STAMP 23.96 100.0 100.0 2.81 25.6 H2A.Z FMR1 46.21 100.0 100.0 3.93 47.37 STAMP 69.44 100.0 100.0 6.72 70.1 H3K4me2 FMR1 63.57 100.0 100.0 5.7 64.35 STAMP 68.95 100.0 100.0 6.62 69.62 H3K4me3 FMR1 61.12 100.0 100.0 5.36 61.96 STAMP 69.19 100.0 100.0 6.67 69.86 H3K9ac FMR1 55.5 100.0 100.0 4.71 56.46 STAMP 69.44 100.0 100.0 6.72 70.1 81
  • 96. 5. RESULTADOS E DISCUSS˜AO A Tabela 5.9 compara os resultados, em rela¸c˜ao `a sensibilidade e especificidade, de forma mais direta e anal´ıtica. Esta tabela compara a diferen¸ca entre os melhores resultados para o m´etodo proposto e os resultados para o m´etodo pr´evio, levando em considera¸c˜ao ambas as formas de treinamento. Esta tabela evidencia a propor¸c˜ao de o quanto o m´etodo proposto aumentou a sensibilidade em raz˜ao da sensibilidade. Pode-se observar tamb´em que os maiores aumentos da sensibilidade ocorrem ao utilizar o m´etodo STAMP para treinar os modelos propostos. Tamb´em ´e interessante o fato de que as diferen¸cas entre os modelos foram pr´oximas para motifs diferentes de um mesmo fator de transcri¸c˜ao, evidenciando a robustez dos resultados em rela¸c˜ao `as an´alises considerando um fator espec´ıfico. Tabela 5.9: Compara¸c˜ao da sensibilidade e especificidade entre o modelo pr´evio e o proposto – Cada c´elula exibe (em %) a diferen¸ca, na sensibilidade ou especificidade, entre o melhor resultado obtido entre um dos m´etodos propostos e o resultado para o m´etodo pr´evio. Diferen¸cas positivas representam melhoria dos resultados. Fatores Treino Sn Sp ATF3 (Transfac) FMR1 -23.75 -2.46 STAMP +6.25 -6.67 CTCF (Jaspar) FMR1 +35.68 -1.66 STAMP +49.37 -5.12 CTCF (Renlab) FMR1 +33.39 -5.55 STAMP +47.37 -10.35 GABP (Jaspar) FMR1 +12.39 -1.87 STAMP +25.31 -4.9 GABP (Transfac) FMR1 +14.35 -1.91 STAMP +27.44 -4.48 REST (Jaspar) FMR1 +29.47 0.0 STAMP +40.82 -3.33 REST (Transfac) FMR1 +31.79 0.0 STAMP +45.48 0.0 Considera-se que o modelo proposto foi bem sucedido pelo fato de que o reconhecimento de um n´umero maior de regi˜oes corretas (maior sensibilidade) ´e prefer´ıvel, nestes casos, sobre a rejei¸c˜ao de tais TFBSs verdadeiros em raz˜ao de um aumento na especificidade. Tais resultados s˜ao utilizados por exemplo, como nos estudos [Barski et al., 2007; Heintzman et al., 2007; Hon et al., 2009; Ramsey et al., 2010], para criar mapas regulat´orios consistentes, que possuem em sua natureza a preferˆencia por uma quantidade maior de marcadores positivos. 82
  • 97. 5.2. ACUR´ACIA DO MODELO PROPOSTO Neste momento, ´e necess´ario tra¸car um paralelo dos resultados com o n´umero de regi˜oes preditas pelos modelos (Tabela 5.1). O n´umero de footprints identificados pelos modelos base- ados em FMR1 ´e grande devido ao fato de que os parˆametros estimados correspondem apenas `a uma regi˜ao anotada (a regi˜ao promotora do gene FMR1 – ver Se¸c˜ao 4.6). A quantidade de footprints relacionados aos modelos propostos ´e bastante alta pelo fato de que, nesta regi˜ao, o sinal das histonas n˜ao era t˜ao intenso. Isto mostra a dificuldade da aplica¸c˜ao de m´etodos, como o FMR1, baseados na realiza¸c˜ao de experimentos biol´ogicos custosos adicionais ou na busca por tais resultados na literatura. Estima-se que o sucesso da aplica¸c˜ao do m´etodo STAMP, bem como a identifica¸c˜ao de uma quantidade de predi¸c˜oes mais real, tˆem origem no fato de que, por permitir uma quantidade maior de regi˜oes anotadas, os parˆametros dos modelos s˜ao estimados de forma mais precisa. Foram observadas duas formas pelas quais o modelo proposto ´e capaz de produzir melhores resultados. A primeira, que aconteceu numa grande escala, corresponde ao aumento no n´umero de verdadeiros positivos. Observou-se que a as regi˜oes de vale das histonas proveram uma permissividade maior de entrada no estado de footprint em regi˜oes com baixos sinais de digest˜ao de DNase. A segunda forma, que ocorreu em escala menor, corresponde `a desconsidera¸c˜ao de alguns falsos positivos cr´ıticos em regi˜oes onde as histonas tinham sinais mais elevados. Esta segunda forma foi capaz de manter a especificidade em n´ıveis altos, ainda que n˜ao melhores do que no modelo pr´evio. A Figura 5.6 mostra um exemplo relativo `a este segundo ponto discutido. A partir da Figura 5.6, podemos visualizar o qu˜ao preciso ´e o modelo. Uma das principais vantagens da abordagem utilizada ´e que ela tira proveito do aspecto espacial dos dados, isto ´e, das caracter´ısticas que os sinais epigen´eticos tomam, ao longo do genoma. Al´em de prover uma base probabil´ıstica robusta, o aproveitamento espacial faz com que sejam poss´ıveis predi¸c˜oes com alta precis˜ao, dado que os sinais possuem boa resolu¸c˜ao. M´etodos que ignoram dados espaciais, apenas levando em considera¸c˜ao caracter´ısticas obtidas ao se observar as regi˜oes analisadas como um todo, n˜ao possuem tal precis˜ao. Essa ´e uma das principais cr´ıticas ao m´etodo descrito em [Pique-Regi et al., 2011]. A nova forma de treinamento (STAMP) foi aplicada ao modelo pr´evio e a forma de treina- mento pr´evia (FMR1) foi aplicada aos novos modelos com objetivo de verificar o impacto das t´ecnicas de treinamento nos resultados. Melhorias nos novos modelos poderiam ser devidas sim- plesmente ao uso de uma forma de treinamento mais consistente do que pela inser¸c˜ao de sinais epigen´eticos. Observou-se que a nova forma de treinamento contribuiu para algumas estat´ısticas maiores, por´em que ela n˜ao parece ter sido o motivo dos melhoramentos observados. Um exem- plo de evidˆencia neste sentido ´e o fato de que o novo m´etodo de treinamento de fato aumentou a especificidade do modelo pr´evio, reduzindo a sensibilidade do mesmo na maioria dos casos, o que corresponde ao caminho inverso da melhoria observada com a adi¸c˜ao das modifica¸c˜oes de histonas.´E interessante observar tamb´em que as melhores estat´ısticas variam de acordo com a adi¸c˜ao das diferentes modifica¸c˜oes de histonas, para diferentes modelos. Para os ativadores ATF3 e 83
  • 98. 5. RESULTADOS E DISCUSS˜AO 144384471 144384864 144385257 144385650 144386043 0 1 2 3 4 5 6 7 8 IntensidadedosSinais DNase H2A.Z H3K4me2 H3K4me3 H3K9ac H3K9ac H3K4me3 H3K4me2 H2A.Z Boyle et al chr6: RESTCTCF Legenda dos estados DNase + Histonas BACK HH UP DOWN FP Legenda dos estados DNase apenas HS1 UP DOWN FP Figura 5.6: Exemplo de uma regi˜ao com resultados melhorados pelo modelo proposto - S˜ao exibidos os sinais epigen´eticos em uma regi˜ao do cromossomo 6. Os mapas de cores abaixo do gr´afico que mostra a intensidade dos sinais, demonstram os estados do HMM para cada coordenada, com cores correspondentes ao modelo exibido na Figura 4.4. Os retˆangulos vermelhos demonstram as duas regi˜oes de falsos positivos pelo m´etodo pr´evio, que foram mascaradas pela adi¸c˜ao das histonas na nova abordagem. GABP e o insulador CTCF, as melhores sensibilidades com o novo m´etodo de treinamento foram observadas com a adi¸c˜ao das histonas H3K4me2 e H3K4me3. Enquanto que o repressor REST obteve as melhores sensibilidades para as histonas H2A.Z e H3K9ac. Apesar dos bons resultados observados, o modelo possui um problema que ocorre com mais frequˆencia do que no modelo pr´evio. Esse problema consiste em previs˜oes demasiadamente extensas. Em detalhes, o prop´osito desta abordagem ao problema de identifica¸c˜ao de TFBSs consiste em utilizar tais dados de alta resolu¸c˜ao para prever posi¸c˜oes bastante espec´ıficas onde os TFs se ligam. Esses trechos preditos variam entre 5 e 30 bp em m´edia, n˜ao devendo ser maior do que 50 bp. Por´em a baixa resolu¸c˜ao correspondente `a inser¸c˜ao das histonas fez com que alguns fragmentos preditos tivessem mais do que 50 bp, `as vezes chegando a 200 bp. Dessa forma, a ideologia do problema ´e ferida por tais predi¸c˜oes muito extensas. Estudos futuros pretendem focar nas diferen¸cas de resolu¸c˜ao entre os sinais para que se chegue a um consenso ideal. A Figura 5.7 mostra um exemplo dessas predi¸c˜oes demasiadamente longas. 84
  • 99. 5.3. TEMPO DE EXECUC¸ ˜AO E ARMAZENAMENTO 150325417 150325868 150326319 150326770 150327221 0 1 2 3 4 5 6 7 IntensidadedosSinais DNase H3K4me2 Estados HMM GABP CTCF chr6: 144385650 144386043 H3K4me3 H3K9ac Legenda dos estados DNase + Histonas BACK HH UP DOWN FP Figura 5.7: Exemplo do problema das previs˜oes amplas - S˜ao exibidos os sinais de DNase e da modifica¸c˜ao de histona H3K4me2 para uma regi˜ao do cromossomo 6. O mapa de cores de- monstra os estados do HMM para cada coordenada a respeito da aplica¸c˜ao do modelo bivariado baseado em DNase + H3K4me2, com cores correspondentes ao modelo exibido na Figura 4.4. Os retˆangulos verdes mostram regi˜oes corretamente preditas, por´em os retˆangulos vermelhos mostram regi˜oes inapropriadamente extensas para a proposta de resolu¸c˜ao deste problema. 5.3 Tempo de Execu¸c˜ao e Armazenamento Estima-se que o projeto necessitou de um total de 1.874 horas computacionais para ser exe- cutado completamente, sem levar em considera¸c˜ao os testes realizados ao longo do processo experimental. A Tabela 5.10 exibe o tempo computacional m´ınimo, m´edio e m´aximo para a realiza¸c˜ao de todas as etapas do processo. O tempo m´ınimo e m´aximo correspondem, respecti- vamente, aos menores e maiores tempos relativos `a aplica¸c˜ao de uma tarefa que envolve diversas instˆancias. Por exemplo, a aplica¸c˜ao do m´etodo motif matching era realizada para cada fator de transcri¸c˜ao, sendo estes considerados as instˆancias neste caso. Esta tabela tamb´em exibe a quantidade de mem´oria necess´aria para executar cada fase. No fim, a tabela exibe o tempo total, considerando a soma dos tempos relativos `a multiplica¸c˜ao de todos os tempos individuais pelo n´umero de instˆancias. Pode-se dizer que o projeto s´o pˆode ser realizado devido ao uso de um grid engine com 60 cores, que permitiu a execu¸c˜ao em paralelo de v´arias fases do estudo. A Tabela 5.11 exibe o tamanho m´edio para cada tipo de dado de entrada e sa´ıda dos 85
  • 100. 5. RESULTADOS E DISCUSS˜AO Tabela 5.10: Tempo de execu¸c˜ao e mem´oria – S˜ao exibidos os tempos de execu¸c˜ao e quantidade de mem´oria, m´ınimo (min), m´edio (med) e m´aximo (max), para cada etapa do processo experimental. Todos os valores desta tabela correspondem ao tempo de execu¸c˜ao de uma instˆancia da respectiva etapa, com exce¸c˜ao da linha Total, onde s˜ao exibidos o tempo total considerando todas as instˆancias de todas as etapas. Quando maiores que 1h, os tempos m´ınimo e m´aximo foram truncados para a hora mais pr´oxima. O total em rela¸c˜ao `a mem´oria consumida corresponde ao m´aximo de mem´oria necess´aria considerando as fases do experimento. Etapa Tempo Mem´oria min max med min max med Motif Matching 8:00 14:00 11:47 413MB 413MB 413MB Enriquecimento 15:00 35:00 21:32 1821MB 1849MB 1839MB Contagem Bruta 5:00 12:00 7:45 1500MB 1600MB 1530MB Normaliza¸c˜ao 9:00 9:00 9:00 1700MB 1700MB 1700MB Savitzky-Golay 5:00 5:00 5:00 1500MB 1500MB 1500MB Treino FMR1 1:00 3:00 2:21 812MB 835MB 814MB Treino STAMP 0:25 0:37 0:28 812MB 841MB 815MB Aplica¸c˜ao HMM 16:00 19:00 17:03 512MB 540MB 535MB Valida¸c˜ao 3:00 6:00 5:12 500MB 514MB 511MB Gr´aficos 28:00 57:00 31:41 1900MB 1900MB 1900MB Total 1874:00 1900MB Tabela 5.11: Espa¸co necess´ario para armazenamento – ´E exibido o espa¸co necess´ario para armazenar os arquivos que representam os dados e resultados utilizados neste projeto. ´E descrito o tipo (entrada ou sa´ıda), o nome do dado, os formatos nos quais o mesmo poderia se encontrar, o espa¸co m´edio (aproximado) necess´ario para armazenar um instˆancia (Ind.), o n´umero de instˆancias (Inst.) e o espa¸co total m´edio necess´ario para armazenar os dados (Total). Tipo Dados Formatos Ind. Inst. Total Entrada DNase-seq bed&wig 10GB 1 10GB ChIP-seq Histonas bed 14GB 4 56GB ChIP-seq TFBS bed&wig 14GB 8 112GB PWM pwm <1MB 13 10MB Sa´ıda MPBSs bed 1GB 13 13GB Regi˜oes enriquecidas bed 0.5GB 9 4.5GB Sinais processados bw 20GB 5 100GB Resultados bed&txt 0.2GB 10 2GB Gr´aficos eps 1GB 39 39GB 86
  • 101. 5.4. CONSIDERAC¸ ˜OES FINAIS m´etodos. Nesta tabela, s˜ao definidos os formatos desses dados, o tamanho m´edio para cada instˆancia individual (Ind), o n´umero de instˆancias para cada dado (Inst) e o tamanho total considerando a todas as instˆancias (Grp). Pode-se dizer que, em m´edia, foram necess´arios 340 GB de armazenamento para a execu¸c˜ao apropriada deste estudo, desconsiderando todos os arquivos gerados durante as fases de teste. Trˆes tipos de dados principais foram utilizados no decorrer do projeto. O primeiro tipo, chamado bed, consiste em um arquivo de texto simples contendo, em cada linha, informa¸c˜oes de coordenadas genˆomicas. O tamanho de tais arquivos variou entre pequeno (por exemplo, TFBSs para um fator com motif de alta qualidade, isto ´e, poucos TFBSs) e grande (por exem- plo, os fragmentos alinhados advindos das t´ecnicas de DNase-seq ou ChIP-seq). O segundo tipo, chamado wig ou wiggle, consiste em um arquivo de texto simples contendo um valor de ponto flutuante para cada coordenada genˆomica de interesse. O tamanho de tais arquivos foi, em geral, grande, correspondendo principalmente aos sinais genˆomicos durante a etapa de con- tagem, normaliza¸c˜ao e aplica¸c˜ao do m´etodo de Savitzky-Golay. Tal tipo de arquivo pode ser comprimido em um formato nomeado bw ou bigwig. Finalmente, temos os arquivos pwm que representavam as PWMs para cada fator de transcri¸c˜ao analisado. Tais arquivos s˜ao geralmente pequenos, contendo apenas as informa¸c˜oes de afinidade (ponto flutuante) para cada um dos quatro nucleot´ıdeos e para cada posi¸c˜ao do motif (n˜ao maior do que 20 bases). Os outros formatos mencionados s˜ao de uso comum. 5.4 Considera¸c˜oes Finais Neste cap´ıtulo foram exibidos os gr´aficos e tabelas referentes aos resultados obtidos neste estudo. Foram exibidos os gr´aficos necess´arios para a an´alise de regi˜oes de interesse envolvendo MPBSs, regi˜oes enriquecidas em ChIP-seq para os fatores de transcri¸c˜ao e resultados do modelo anterior. Al´em disso, ap´os mostrar estat´ısticas gerais relacionadas com a quantidade de regi˜oes produzidas durante o processo experimental, foram descritas as estat´ısticas avaliadas a partir da aplica¸c˜ao do modelo anterior e do modelo proposto. Finalmente, foi realizada uma discuss˜ao referente ao tempo computacional, processamento e armazenamento necess´arios durante a execu¸c˜ao do projeto. Ap´os a apresenta¸c˜ao dos resultados, em cada se¸c˜ao foram realizadas discuss˜oes a respeito dos mesmos. Primeiramente, foram discutidos os gr´aficos que visualizam tendˆencias m´edias nos sinais epigen´eticos em diversas regi˜oes de interesse (e combina¸c˜oes dessas regi˜oes). Ap´os isso, foram discutidos os resultados da aplica¸c˜ao do m´etodo anterior e do m´etodo proposto. Foram apontadas as formas como o m´etodo proposto melhorou as predi¸c˜oes e tamb´em as limita¸c˜oes deste novo modelo. Finalmente, discutiu-se a infraestrutura necess´aria para realiza¸c˜ao de um projeto deste gˆenero. 87
  • 102. 6 Conclus˜ao 6.1 Objetivos Atingidos Neste projeto de pesquisa foi proposto um m´etodo para melhorar a identifica¸c˜ao de s´ıtios de liga¸c˜ao para fatores de transcri¸c˜ao utilizando dados relativos `a digest˜ao da DNase e modifica¸c˜oes de histonas. Tal abordagem ´e baseada no fato de que tais fatores epigen´eticos s˜ao capazes de descrever regi˜oes de cromatina descondensada, local com alta densidade de s´ıtios de liga¸c˜ao. Al´em do m´etodo probabil´ıstico, isto ´e, o modelo escondido de Markov, foi proposto um novo m´etodo de treinamento baseado na ferramenta STAMP, aumentando a viabilidade de regi˜oes nas quais o HMM pode ser treinado. Previamente `a aplica¸c˜ao do modelo, foram criados trˆes tipos de gr´aficos para melhor enten- der o comportamento dos sinais epigen´eticos: (1) considerando regi˜oes de MBPSs; (2) consi- derando a jun¸c˜ao entre MPBSs e evidˆencia de ChIP-seq; (3) considerando MPBSs, ChIP-seq e as predi¸c˜oes realizadas pelo m´etodo pr´evio. Tais gr´aficos proveram as ideias necess´arias para a constru¸c˜ao do modelo probabil´ıstico, integrando diferentes sinais epigen´eticos. ´E importante observar que outros tipos de an´alises foram realizadas. Por exemplo, em rela¸c˜ao `as predi¸c˜oes do modelo anterior em regi˜oes espec´ıficas (e n˜ao m´edias de v´arias regi˜oes). Por´em tais resultados s˜ao bastante numerosos e s˜ao perfeitamente sumarizados pelos gr´aficos exibidos. A cria¸c˜ao do modelo foi realizada em v´arias etapas de tentativa e erro. O modelo preditivo que apresentou resultados mais pr´oximos do que se esperava, durante as etapas experimentais, foi comparado ao m´etodo pr´evio e obteve algumas vantagens. Em especial, o m´etodo proposto aumentou a sensibilidade em n´ıveis consider´aveis enquanto sofreu uma pequena redu¸c˜ao na especificidade. Atrav´es dos pontos discutidos no cap´ıtulo anterior, o novo m´etodo foi considerado bem sucedido. Al´em disso, ´e poss´ıvel visualizar, graficamente, como os sinais de modifica¸c˜oes 88
  • 103. 6.2. DIFICULDADES E LIMITAC¸ ˜OES DE ESCOPO de histonas ajudam na predi¸c˜ao de alta resolu¸c˜ao da DNase, fornecendo evidˆencias a favor de abordagens integrativas de dados. 6.2 Dificuldades e Limita¸c˜oes de Escopo Os principais dados utilizados neste projeto foram obtidos no reposit´orio ENCODE. Tais dados possuem uma restri¸c˜ao de uso que consiste em uma janela de tempo a partir do momento que s˜ao disponibilizados. Isso fez com que alguns dados n˜ao fossem reportados, e continuamos esperando tal libera¸c˜ao. Al´em disso, a cria¸c˜ao do conjunto de valida¸c˜ao possui a restri¸c˜ao de que os PWMs obtidos nos reposit´orios de motifs deveriam ter tamb´em dados de ChIP-seq para os fatores correspondentes. Entretanto, tal dificuldade n˜ao foi cr´ıtica, isto ´e, um n´umero razo´avel de fatores pˆode ser testado, expressando as tendˆencias gerais de ambos os modelos de forma acurada. Outra limita¸c˜ao est´a relacionada ao tamanho dos dados epigen´eticos em larga escala, o que limita o numero de c´elulas e sinais considerados no estudo. Por exemplo, os dados do tipo wig (wiggle) com sinais de modifica¸c˜ao de histonas s˜ao bem grandes (ver Tabela 5.11), fazendo com que a an´alise em mais de uma linha celular tenha uma alto custo computacional e de armazenamento. Para os dados discutidos aqui, foram necess´arios 340 GB de armazenamento e 1.874 horas de computa¸c˜ao (ver Se¸c˜ao 5.3). Em especial, o tempo computacional s´o foi poss´ıvel devido ao uso de um grid engine com 60 cores. Apesar do modelo proposto ter contribu´ıdo para resultados mais interessantes do ponto de vista metodol´ogico, alguns pontos negativos podem ser observados. A introdu¸c˜ao de outra dimens˜ao faz com que o procedimento, de uma forma geral, tome mais tempo para executar todas as etapas. Entretanto, como apontado na Se¸c˜ao 5.2, houve alguns casos onde as predi¸c˜oes feitas pelo modelo proposto foram mais extensas do que o esperado. Isso corresponde a um desvio na ideia de identifica¸c˜ao absoluta de TFBSs defendida por Boyle et al. Estudos futuros dever˜ao levar essa caracter´ıstica em considera¸c˜ao. 6.3 Trabalhos Futuros A primeira caracter´ıstica dos trabalhos futuros consiste no aumento do n´umero de linhas celula- res, modifica¸c˜oes de histonas e fatores de transcri¸c˜ao, sobre os quais os m´etodos ser˜ao aplicados. Com o crescimento do reposit´orio ENCODE, e de outras iniciativas do gˆenero, mais dados es- tar˜ao dispon´ıveis para serem utilizados, aumentando o leque de possibilidades. A an´alise de um n´umero maior de modifica¸c˜oes de histonas e de fatores de transcri¸c˜ao j´a ´e diretamente poss´ıvel, 89
  • 104. 6. CONCLUS˜AO assim que tais dados estiverem dispon´ıveis nos reposit´orios mencionados (o que dever´a acontecer num futuro pr´oximo [Rosenbloom et al., 2011]). A an´alise em um n´umero maior de linhas ce- lulares, entretanto, est´a completamente condicionada `a capacidade computacional `a disposi¸c˜ao. A linha celular K562 foi escolhida por possuir os dados para a maior variedade de histonas e fatores entre todas as outras. Com o futuro aumento na capacidade computacional e nos expe- rimentos realizados em outras linhas celulares, os m´etodos poder˜ao ser aplicados e testados de forma mais extensa. Al´em dos dados epigen´eticos, m´etodos atuais est˜ao utilizando outras informa¸c˜oes como con- serva¸c˜ao e afinidade de liga¸c˜ao do fator baseado na sequˆencia genˆomica [Pique-Regi et al., 2011] ou regi˜oes de aplica¸c˜ao [Won et al., 2010]. Tal integra¸c˜ao adicional pretende ser levada em considera¸c˜ao na modelagem futura de sistemas probabil´ısticos. Extens˜oes diretas do modelo proposto, por exemplo, j´a poderiam utilizar informa¸c˜oes de afinidade de liga¸c˜ao (isto ´e, o bit score do motif matching) a priori, ou a an´alise estat´ıstica mais robusta da ferramenta STAMP. Em termos experimentais, pretende-se realizar uma an´alise consistindo na verifica¸c˜ao do impacto de cada caracter´ıstica epigen´etica na predi¸c˜ao de TFBSs. Tais estudos procurariam padr˜oes epigen´eticos ao redor de MPBSs com e sem evidˆencia de ChIP-seq e tentaria separ´a-los, utilizando alguma abordagem de aprendizado de m´aquina, atrav´es de combina¸c˜oes de diferen- tes sinais epigen´eticos. Tal abordagem tamb´em poderia ser cuidadosamente estudada para que pudesse ser um poss´ıvel classificador, aplicado ao reconhecimento de TFBSs, utilizando as ca- racter´ısticas epigen´eticas e as informa¸c˜oes de afinidade de liga¸c˜ao. Al´em disso, outra ideia que se pretende explorar consiste na rela¸c˜ao entre padr˜oes epigen´eticos e diferentes atributos dos fatores de transcri¸c˜ao (tais como suas fun¸c˜oes ou fam´ılia proteica). Estudos deste gˆenero podem contribuir para a melhoria futura de sistemas de identifica¸c˜ao de s´ıtios de liga¸c˜ao de fatores de transcri¸c˜ao. 90
  • 105. Referˆencias Alberts, B. (2007). Molecular Biology of the Cell. Other, 5th edn. 2, 7, 8, 9, 10 Allis, C., Jenuwein, T. & Reinberg, D. (2007). Epigenetics. Cold Spring Harbor Laboratory Press. 7, 8, 12, 33, 34, 36 Barski, A., Cuddapah, S., Cui, K., Roh, T.Y., Schones, D.E., Wang, Z., Wei, G., Chepelev, I. & Zhao, K. (2007). High-Resolution Profiling of Histone Methylations in the Human Genome. Cell, 129, 823–837. 4, 32, 34, 40, 82 Bilmes, J. (1997). A Gentle Tutorial on the EM Algo- rithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models. 42 Bishop, C.M. (2006). Pattern recognition and ma- chine learning. Springer, 1st edn. 42 Boyle, A.P., Davis, S., Shulha, H.P., Meltzer, P., Margulies, E.H., Weng, Z., Furey, T.S. & Crawford, G.E. (2008a). High-resolution map- ping and characterization of open chromatin across the genome. Cell, 132, 311–322. 3, 37, 39 Boyle, A.P., Guinney, J., Crawford, G.E. & Fu- rey, T.S. (2008b). F-seq: a feature density estima- tor for high-throughput sequence tags. Bioinforma- tics, 24, 2537–2538. 37, 55, 56 Boyle, A.P., Song, L., Lee, B.K., London, D., Keefe, D., Birney, E., Iyer, V.R., Craw- ford, G.E. & Furey, T.S. (2011). High-resolution genome-wide in vivo footprinting of diverse trans- cription factors in human cells. Genome Research, 21, 456–464. 2, 3, 37, 39, 40, 55, 57, 58, 59, 60, 61, 62, 63, 64, 67 Bryne, J.C.C., Valen, E., Tang, M.H.E.H., Marstrand, T., Winther, O., da Piedade, I., Krogh, A., Lenhard, B. & Sandelin, A. (2008). JASPAR, the open access database of transcription factor-binding profiles: new content and tools in the 2008 update. Nucleic acids research, 36, D102– D106. 56 Buck, M.J. & Lieb, J.D. (2004). ChIP-chip: consi- derations for the design, analysis, and application of genome-wide chromatin immunoprecipitation ex- periments. Genomics, 83, 349–360. 3 Cock, P.J.A., Antao, T., Chang, J.T., Chap- man, B.A., Cox, C.J., Dalke, A., Friedberg, I., Hamelryck, T., Kauff, F., Wilczynski, B. & de Hoon, M.J.L. (2009). Biopython: freely avai- lable Python tools for computational molecular bio- logy and bioinformatics. Bioinformatics, 25, 1422– 1423. 57 Crawford, G.E., Holt, I.E., Mullikin, J.C., Tai, D., Blakesley, R., Bouffard, G., Young, A., Masiello, C., Green, E.D., Wolfsberg, T.G., Collins, F.S. & National Institutes Of He- alth Intramural Sequencing Center (2004). Identifying gene regulatory elements by genome- wide recovery of DNase hypersensitive sites. Pro- ceedings of the National Academy of Sciences of the United States of America, 101, 992–997. 3, 36, 39 Crawford, G.E., Davis, S., Scacheri, P.C., Re- naud, G., Halawi, M.J., Erdos, M.R., Green, R., Meltzer, P.S., Wolfsberg, T.G. & Col- lins, F.S. (2006a). DNase-chip: a high-resolution method to identify DNase I hypersensitive sites using tiled microarrays. Nature methods, 3, 503– 509. 3, 39 Crawford, G.E., Holt, I.E., Whittle, J., Webb, B.D., Tai, D., Davis, S., Margulies, E.H., Chen, Y., Bernat, J.A., Ginsburg, D., Zhou, D., Luo, S., Vasicek, T.J., Daly, M.J., Wolfs- berg, T.G. & Collins, F.S. (2006b). Genome- wide mapping of DNase hypersensitive sites using massively parallel signature sequencing (MPSS). Genome Research, 16, 123–131. 3, 39 Creyghton, M.P., Cheng, A.W., Welstead, G.G., Kooistra, T., Carey, B.W., Steine, 91
  • 106. REFERˆENCIAS E.J., Hanna, J., Lodato, M.A., Frampton, G.M., Sharp, P.A. & et al. (2010). Histone h3k27ac separates active from poised enhancers and predicts developmental state. Proceedings of the Na- tional Academy of Sciences of the United States of America, 107, 21931–21936. 34 Cuellar-Partida, G., Buske, F.A., McLeay, R.C., Whitington, T., Noble, W.S. & Bailey, T.L. (2012). Epigenetic priors for identifying active transcription factor binding sites. Bioinformatics, 28, 56–62. 2, 3, 4, 40, 55, 64 DNA Sequencing Consortiums (2012). Dna se- quencing website. http://www.dnasequencing.org. 1 Drouin, R., Angers, M., Dallaire, N., Rose, T.M., Khandjian, E.W. & Rousseau, F. (1997). Structural and functional characterization of the human fmr1 promoter reveals similarities with the hnrnp-a2 promoter region. Human Molecular Gene- tics, 1, 91–96. 63 Duda, R.O., Stork, D.G. & Hart, P.E. (2000). Pattern classification. Wiley, 2nd edn. 42 Durbin, R., Eddy, S.R., Krogh, A. & Mitchison, G. (1998). Biological Sequence Analysis: Probabi- listic Models of Proteins and Nucleic Acids. Cam- bridge University Press. 42 Dymarski, P., ed. (2011). Hidden Markov Models, Theory and Applications. InTech. 42 Ernst, J. & Kellis, M. (2010). Discovery and cha- racterization of chromatin states for systematic an- notation of the human genome. Nature Biotechno- logy, 28, 817–825. 4, 40 Essien, K., Vigneau, S., Apreleva, S., Singh, L., Bartolomei, M. & Hannenhalli, S. (2009). CTCF binding site classes exhibit distinct evoluti- onary, genomic, epigenomic and transcriptomic fe- atures. Genome Biology, 10, R131+. 57 Felsenfeld, G. & Groudine, M. (2003). Control- ling the double helix. Nature, 421, 448–453. 35 Gorry, P.A. (1990). General least-squares smoothing and differentiation by the convolution (Savitzky- Golay) method. Analytical Chemistry, 62, 570–573. 59 Grant, P.A. (2001). A tale of histone modifications. Genome biology, 2, reviews0003.1–reviews0003.6. 34 Gross, D.S. & Garrard, W.T. (1988). Nuclease hy- persensitive sites in chromatin. Annual Review of Biochemistry, 57, 159–197. 3 Guttman, M., Garber, M., Levin, J.Z., Do- naghey, J., Robinson, J., Adiconis, X., Fan, L., Koziol, M.J., Gnirke, A., Nusbaum, C., Rinn, J.L., Lander, E.S. & Regev, A. (2010). Ab initio reconstruction of cell type-specific transcriptomes in mouse reveals the conserved multi-exonic struc- ture of lincRNAs. Nature biotechnology, 28, 503– 510. 56 Hair, J.F., Tatham, R.L., Anderson, R.E. & Black, W. (1998). Multivariate Data Analysis. Prentice Hall, 5th edn. 42 Hastie, T., Tibshirani, R. & Friedman, J.H. (2009). The elements of statistical learning : data mining, inference, and prediction. Springer series in statistics, Springer. 42 He, H.H., Meyer, C.A., Chen, M.W., Jordan, V.C., Brown, M. & Liu, X.S. (2012). Differential DNase I hypersensitivity reveals factor-dependent chromatin dynamics. Genome Research, 22, 1015– 1025. 39, 40 Heintzman, N.D., Stuart, R.K., Hon, G., Fu, Y., Ching, C.W., Hawkins, R.D., Barrera, L.O., Van Calcar, S., Qu, C., Ching, K.A., Wang, W., Weng, Z., Green, R.D., Crawford, G.E. & Ren, B. (2007). Distinct and predictive chro- matin signatures of transcriptional promoters and enhancers in the human genome. Nature genetics, 39, 311–318. 4, 32, 40, 82 Hon, G., Wang, W. & Ren, B. (2009). Discovery and Annotation of Functional Chromatin Signatu- res in the Human Genome. PLoS Comput Biol, 5, e1000566+. 4, 32, 35, 40, 82 Keene, M.A., Corces, V., Lowenhaupt, K. & El- gin, S.C. (1981). Dnase i hypersensitive sites in drosophila chromatin occur at the 5’ ends of re- gions of transcription. Proceedings of the National 92
  • 107. REFERˆENCIAS Academy of Sciences of the United States of Ame- rica, 78, 143–146. 3 Kent, W.J., Sugnet, C.W., Furey, T.S., Roskin, K.M., Pringle, T.H., Zahler, A.M. & Hauss- ler, D. (2002). The Human Genome Browser at UCSC. Genome Research, 12, 996–1006. 54 Lassig, M. (2007). From biophysics to evolutionary genetics: statistical aspects of gene regulation. BMC Bioinformatics, 8, S7+. 4 Leach, R.A., Carter, C.A. & Harris, J.M. (1984). Least-squares polynomial filters for initial point and slope estimation. Analytical Chemistry, 56, 2304– 2307. 59 Lesk, A.M. (2005). Introduction to bioinformatics. Oxford University Press. 42 Levin, D.A., Peres, Y. & Wilmer, E.L. (2008). Markov Chains and Mixing Times. American Mathematical Society, 1st edn. 42 Lewin, B. (2003). Genes VIII . Benjamin Cummings, united states ed edn. 7, 8 Lodish, H., Berk, A., Kaiser, C.A., Krieger, M., Scott, M.P., Bretscher, A., Ploegh, H. & Matsudaira, P. (2007). Molecular Cell Biology. W. H. Freeman, 6th edn. 3, 7, 8, 11, 13, 14, 15, 28 Luo, J., Ying, K., He, P. & Bai, J. (2005). Proper- ties of savitzky golay digital differentiators. Digital Signal Processing, 15, 122–136. 59 Madden, H.H. (1978). Comments on the Savitzky- Golay convolution method for least-squares fit smoothing and differentiation of digital data. Anal.Chem., 50, 1383–1386. 59 Mahony, S. & Benos, P.V. (2007). STAMP: a web tool for exploring DNA-binding motif similarities. Nucleic acids research, 35, gkm272–258. 5, 63 Maston, G.A., Evans, S.K. & Green, M.R. (2006). Transcriptional Regulatory Elements in the Human Genome. Annual Review of Genomics and Human Genetics, 7, 29–59. 2, 8, 19, 20, 22 Matys, V., Kel-Margoulis, O.V., Fricke, E., Li- ebich, I., Land, S., Barre-Dirrie, A., Reuter, I., Chekmenev, D., Krull, M., Hornischer, K., Voss, N., Stegmaier, P., Lewicki-Potapov, B., Saxel, H., Kel, A.E. & Wingender, E. (2006). TRANSFAC and its module TRANSCom- pel: transcriptional gene regulation in eukaryotes. Nucleic acids research, 34, D108–D110. 56 Mitchell, T.M. (1997). Machine Learning. McGraw- Hill Science/Engineering/Math, 1st edn. 42 Newburger, D.E. & Bulyk, M.L. (2009). Uni- PROBE: an online database of protein binding mi- croarray data on protein-DNA interactions. Nucleic Acids Research, 37, D77–D82. 57 Park, P.J. (2009). ChIP-seq: advantages and challen- ges of a maturing technology. Nat Rev Genet, 10, 669–680. 3, 29, 37, 38 Pique-Regi, R., Degner, J.F., Pai, A.A., Gaff- ney, D.J., Gilad, Y. & Pritchard, J.K. (2011). Accurate inference of transcription factor binding from DNA sequence and chromatin accessibility data. Genome Research, 21, 447–455. 3, 4, 40, 55, 64, 83, 90 Press, W.H., Teukolsky, S.A., Vetterling, W.T. & Flannery, B.P. (1992). Numerical reci- pes in c: The art of scientific computing. second edition. 59 Rabiner, L.R. (1989). A tutorial on hidden Markov models and selected applications in speech recogni- tion. Proceedings of the IEEE, 77, 257–286. 42 Ramsey, S.A., Knijnenburg, T.A., Kennedy, K.A., Zak, D.E., Gilchrist, M., Gold, E.S., Johnson, C.D., Lampano, A.E., Litvak, V., Navarro, G. & et al. (2010). Genome-wide his- tone acetylation data improve prediction of mam- malian transcription factor binding sites. Bioinfor- matics, 26, 2071–2075. 4, 32, 34, 40, 82 Rosenbloom, K.R., Dreszer, T.R., Long, J.C., Malladi, V.S., Sloan, C.A., Raney, B.J., Cline, M.S., Karolchik, D., Barber, G.P., Clawson, H., Diekhans, M., Fujita, P.A., Goldman, M., Gravell, R.C., Harte, R.A., 93
  • 108. REFERˆENCIAS Hinrichs, A.S., Kirkup, V.M., Kuhn, R.M., Le- arned, K., Maddren, M., Meyer, L.R., Pohl, A., Rhead, B., Wong, M.C., Zweig, A.S., Haussler, D. & Kent, W.J. (2011). ENCODE whole-genome data in the UCSC Genome Browser: update 2012. Nucleic Acids Research. 1, 2, 54, 90 Russell, S. & Norvig, P. (2002). Artificial Intelli- gence: A Modern Approach (2nd Edition). Prentice Hall series in artificial intelligence, Prentice Hall, 2nd edn. 42 Schliep, A., Georgi, B., Rungsarityotin, W. & Sch¨onhuth, A. (2004). The general hidden markov model library: Analyzing systems with unobserva- ble states. Proceedings of the ISMB 2004. 64 Schones, D.E. & Zhao, K. (2008). Genome-wide ap- proaches to studying chromatin modifications. Na- ture Reviews Genetics, 9, 179–191. 4 Setubal, C. & Meidanis, J. (1997). Introduction to Computational Molecular Biology. PWS Pu- blishing. 8 Shu, W., Chen, H., Bo, X. & Wang, S. (2011). Genome-wide analysis of the relationships between DNaseI HS, histone modifications and gene expres- sion reveals distinct modes of chromatin domains. Nucleic Acids Research, 39, 7428–7443. 4, 32, 40 Song, L. & Crawford, G.E. (2010). DNase-seq: A High-Resolution Technique for Mapping Active Gene Regulatory Elements across the Genome from Mammalian Cells. Cold Spring Harbor Protocols, 2010, pdb.prot5384+. 3, 36, 39 Song, L., Zhang, Z., Grasfeder, L.L., Boyle, A.P., Giresi, P.G., Lee, B.K., Sheffield, N.C., Gr¨af, S., Huss, M., Keefe, D., Liu, Z., London, D., McDaniell, R.M., Shibata, Y., Showers, K.A., Simon, J.M., Vales, T., Wang, T., Winter, D., Zhang, Z., Clarke, N.D., Bir- ney, E., Iyer, V.R., Crawford, G.E., Lieb, J.D. & Furey, T.S. (2011). Open chromatin de- fined by DNaseI and FAIRE identifies regulatory elements that shape cell-type identity. Genome Re- search, 21, 1757–1767. 39 Spivakov, M. & Fisher, A.G. (2007). Epigenetic signatures of stem-cell identity. Nat Rev Genet, 8, 263–271. 4, 34 Stormo, G.D. (2000). DNA binding sites: represen- tation and discovery. Bioinformatics, 16, 16–23. 2 The ENCODE Project Consortium (2004). The ENCODE (ENCyclopedia Of DNA Elements) Pro- ject. Science, 306, 636–640. 54 The ENCODE Project Consortium (2007). Iden- tification and analysis of functional elements in 1% of the human genome by the ENCODE pilot pro- ject. Nature, 447, 799–816. 54 The ENCODE Project Consortium (2011). A User’s Guide to the Encyclopedia of DNA Elements (ENCODE). PLoS Biol, 9, e1001046+. 54 Wasserman, W.W. & Sandelin, A. (2004). Applied bioinformatics for the identification of regulatory elements. Nature reviews. Genetics, 5, 276–287. 30, 31 Watson, J.D., Baker, T.A., Bell, S.P., Gann, A., Levine, M. & Losick, R. (2003). Molecular Bio- logy of the Gene. Benjamin Cummings, 5th edn. 7, 8 Whitington, T., Perkins, A.C. & Bailey, T.L. (2009). High-throughput chromatin information enables accurate tissue-specific prediction of trans- cription factor binding sites. Nucleic Acids Rese- arch, 37, 14–25. 40 Wingender, E., Dietze, P., Karas, H. & Kn¨uppel, R. (1996). TRANSFAC: A Database on Transcription Factors and Their DNA Binding Si- tes. Nucleic Acids Research, 24, 238–241. 56 Won, K.J., Ren, B. & Wang, W. (2010). Genome- wide prediction of transcription factor binding sites using an integrated model. Genome Biology, 11, R7+. 4, 35, 40, 90 Zhang, Y., Liu, T., Meyer, C.A., Eeckhoute, J., Johnson, D.S., Bernstein, B.E., Nusbaum, C., Myers, R.M., Brown, M., Li, W. & Liu, X.S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9, R137+. 37, 56 94