Reference-assisted chromosome
assembly
Kim J, Larkin DM, Cai Q, Asan, Zhang Y, Ge RL, Auvil L,
Capitanu B, Zhang G, 2Lewin HA, Ma J.
PNAS USA 2013 Jan 29
Äîêëàä÷èê: Èëüÿ Ìèíêèí
ÑÏáÀÓ ÐÀÍ
27 àïðåëÿ 2013
1 / 28
Ïëàí
Ìîòèâàöèÿ
Îáùèé îáçîð ìåòîäà
Äåòàëè
Ðåçóëüòàòû
Çàêëþ÷åíèå
2 / 28
Ìîòèâàöèÿ
Ñåêâåíèðóåòñÿ âñå áîëüøå è áîëüøå ãåíîìîâ
Íå òàê ñëîæíî ïîëó÷èòü êîíòèãè
Êàê ñîáðàòü êîíòèãè â ãåíîì?
Íåîáõîäèìî ãåíîì êàðòèðîâàòü
Òðóäîåìêî è äîðîãî
Áîëü
3 / 28
Ñáîðêà ïî ðåôåðåíñó
×òî ïðåäëàãàëîñü ðàíåå:
Ëþäè ïûòàëèñü ïðèêëàäûâàòü ðèäû/êîíòèãè
ê ðåôåðåíñó
Ñêëåèâàÿ êîíòèãè è íàõîäÿ âîçìîæíûå
íåïðàâèëüíûå ñî÷ëåíåíèÿ
Íåêîòîðûå äàæå èñïîëüçóþò ôèëîãåíåòèêó
Òåì íå ìåíåå, ðåôåðåíñ ïðè ýòîì îäèí
Ëèáî èñïîëüçóþòñÿ ïîïàðíûå ñðàâíåíèÿ
4 / 28
Îáùèé îáçîð ìåòîäà
Ñðàâíèòåëüíàÿ ãåíîìèêà íàì ïîìîæåò
Âîçüìåì ðåôåðåíñ
Íàéäåì synteny-áëîêè ìåæäó äâóìÿ ãåíîìàìè
Ïîñìîòðèì íà áëîêè íà êîíöàõ êîíòèãîâ
Áåäà  ìîãóò áûòü íåëèíåéíûå ïåðåñòðîéêè
Äàâàéòå âîçüìåì åùå âíåøíèå ãåíîìû
È ïîïðîáóåì îöåíèòü âåðîÿòíîñòü ñëåäîâàíèÿ
ôðàãìåíòîâ
5 / 28
Îáùèé îáçîð ìåòîäà
Íàõîäèì synteny-ôðàãìåíòû ìåæäó
ðåôåðåíñîì è ñîáèðàåìûì ãåíîìîì
Îòñëåæèâàåì òå æå ôðàãìåíòû âî âíåøíèõ
ãåíîìàõ
Îöåíèâàåì âåðîÿòíîñòü ñëåäîâàíèÿ îäíîãî
ôðàãìåíòà ïîñëå äðóãîãî
Ïðèêðó÷èâàåì ïàðíóþ èíôîðìàöèþ
Ñòðîèì âçâåøåííûé ãðàô èç ñîåäèíåíèé
ìåæäó áëîêàìè
Âåñ ðåáðà ýòî âçâåøåííàÿ ñóììà =
âåðîÿòíîñòü + ïàðíàÿ èíôîðìàöèÿ
Áóäåì æàäíî ñêëåèâàòü êîíòèãè
6 / 28
Ãðàô
Ó êàæäîãî áëîêà åñòü ãîëîâà bh
è õâîñò bt
Còðîèì ãðàô, ãäå V = {bh
, bt
|b ∈ B}
Êàæäûé áëîê èìååò íîìåð ñî çíàêîì
Íîìåðà ìîæíî ïîëó÷èòü, åñëè îáîéòè ãðàô
Êàæäîå ðåáðî ýòî ïàðà (i, j), ãäå i è j ýòî
íîìåðà áëîêîâ
Ðèñ. 1: Ïðèìåð ãðàôà èç òðåõ áëîêîâ. Íîìåðà áëîêîâ
ìîæíî ïðî÷èòàòü êàê (b1, −b2, b3) ëèáî êàê (−b3, b2, −b1)
7 / 28
Ðåáðà
Âåñà ðåáåð îïðåäåëÿþòñÿ êàê:
w(i, j) =
1 i = −j
αProb(i, j) + (1 − α)Link(i, j) èíà÷å
Prob(i, j) ýòî àïîñòåðèîðíàÿ âåðîÿòíîñòü
ñëåäîâàíèÿ áëîêîâ i è j
Link(i, j) ýòî score ïîñ÷èòàííûé ïðè ïîìîùè
ïàðíûõ ðèäîâ
α ìîæíî îöåíèòü èñõîäÿ èç ðåàëüíûõ äàííûõ
8 / 28
Ñîäåðæàòåëüíàÿ êàðòèíêà
Ðèñ. 2: Îáçîð ìåòîäà
9 / 28
Êàê ìû ñ÷èòàåì Prob(i, j)
Ìû ïðåäïîëàãàåì, ÷òî ó íàñ åñòü ôèëîãåíèÿ
Ñíà÷àëà ïåðåñàæèâàåì äåðåâî
Ìåæäó A1 è T äîáàâëÿåòñÿ íîâûé êîðåíü A0
t(A0, T) = t(A1, R), t(A1, A0) = 0
Ðèñ. 3: Ïåðåñàäêà äåðåâà
10 / 28
Êàê ìû ñ÷èòàåì Prob(i, j)
Ïóñòü â ãåíîìå T åñòü áëîê bi, òîãäà pT (i) è
sT (i) ýòî ñëåäóþùèé è ïðåäûäóùèé áëîêè
Åñëè pT (j) = i è sT (i) = j, ìû ãîâîðèì, ÷òî
bi è bj ñìåæíû â ãåíîìå T, ò.å. AT (i, j) = 1
Prob(i, j) = P(AT (i, j) = 1|DT ) =
= P(pT (j) = i|DT )P(sT (i) = j|DT )
Ïîñ÷èòàåì P(pT (j) = i|DT ) ïî ôîðìóëå
Áàéåñà:
P(pT (j) = i|DT ) =
P(DT |PT (j) = i)P(PT (j) = i)
P(DT )
11 / 28
Åùå îäíî ïðåäïîëîæåíèå
P(pT (j) = i|DT ) =
P(DT |pT (j) = i)P(pT (j) = i)
k P(DT |pT (j) = k)P(pT (j) = k)
Ïðåäïîëàãàåì, ÷òî âñå àïðèîðíûå âåðîÿòíîñòè
P(pT (j) = i) îäèíàêîâûå:
P(pT (j) = i|DT ) =
P(DT |pT (j) = i)
k P(DT |pT (j) = k)
Åñëè T ýòî ëèñò äåðåâà, òî ïðàâäîáèå
îïðåäåëÿåòñÿ ïðîñòî:
P(DT |pT (j) = i) =
1 pT (j) = i
0 èíà÷å
12 / 28
Åñëè ìû íå â ëèñòå
Åñëè T ýòî êîðåíü ïîääåðåâà ñ äâóìÿ äî÷åðíèìè
óçëàìè L è R:
P(pT (j) = i|DT ) = P(DL|pT (j) = i)P(DR|pT (j) = i) =
=
k
P(DL|pL(j) = k) P(pL(j) = k|pT (j) = k)×
×
k
P(DR|pR(j) = k) P(pR(j) = k|pT (j) = i)
P(pL(j) = k|pT (j) = k) ýòî âåðîÿòíîñòü òîãî, ÷òî
â ãåíîìå L áëîê, ñòîÿùèé ïåðåä j âäðóã çàìåíèëñÿ
íà k
13 / 28
Êàê îöåíèòü âåðîÿòíîñòü çàìåíû áëîêà
Ýòà âåðîÿòíîñòü îöåíèâàåòñÿ ïðè ïîìîùè ìîäåëè
ýâîëþöèè ÄÍÊ Jukes-Cantor ðàñøèðåííîé äëÿ
òî÷åê ðàçëîìà:
P(pL(j) = k|pT (j) = k) =
1
2n − 1
−
2n − 2
2n − 1
e−(2n−1)µtTL
Ãäå:
n  ÷èñëî áëîêîâ
µ  ïàðàìåòð ìîäåëè (äëÿ âñåõ óçëîâ îäèí)
tTL  äëèíà âåòâè
14 / 28
Êàê óçíàòü çíà÷åíèå µ
15 / 28
Òåïåðü ñ÷èòàåì score äëÿ ïàðíîé
èíôîðìàöèè
Ðàññìîòðèì ñëó÷àé äëÿ ðàçíûõ scaold'îâ
Nir (i, j)  êîëè÷åñòâî ïàðíûõ ðèäîâ,
ïðèëîæèâøèõñÿ â áëîêè i è j
Ðàññòîÿíèå íå äîëæíî ïðåâûøàòü ðàçìåð
âñòàâêè + 2SD
16 / 28
Ñëó÷àé îäèíàêîâûõ scaold'îâ
Íàéäåì ïàðíûå ðèäû, äèñòàíöèÿ ìåæäó
êîòîðûìè = ðàññòîÿíèå âñòàâêè +/- 2SD
Ïî ðåãèîíàì ìåæäó áëîêàìè ïðîéäåìñÿ
ñêîëüçÿùèì îêíîì
Îêíà ñ÷èòàþò ïîêðûòèå è çàåçæàþòâ áëîêè
íà Lf = 50 Kbp
Ðàçìåð îêíà Lw = 1 Kbp, ïåðåêðûòèå = Lw /2
Äëÿ êàæäîãî îêíà ñ÷èòàåì pa = ïîêðûòèå
îòíîñèòåëüíî ñðåäíåãî ïî âñåì ñêàôôîëäàì
Pia(i, j) = ìèíèìàëüíîå çíà÷åíèå pa
17 / 28
Òåïåðü ñ÷èòàåì Link(i, j)
Ñîáåðåì âñå â êó÷ó
Pir (i, j)  çíà÷åíèå Nir (i, j) îòíîñèòåëüíî
ñðåäíåãî ïî âñåì âîçìîæíûì ðåáðàì
P(i, j) =
Pir (i, j) sf (i) = sf (j)
Pia(i, j) sf (i) = sf (j)
18 / 28
Ñêëåèâàåì êîíòèãè íàïðàâî è íàëåâî
19 / 28
Ñèíòåòè÷åñêèé òåñò
Âîçüìåì äâå ÷åëîâå÷åñêèå õðîìîñîìû
Ïîïðîñèì Evolver ñãåíåðèðîâàòü íàì 12
ñèíòåòè÷åñêèõ ãåíîìîâ
Îäèí ãåíîì âñåãäà áóäåò ðåôåðåíñîì
Êàêîé-òî äðóãîé áóäåò ñîáèðàåìûì
Îñòàëüíûå áóäóò âíåøíèìè
Ðèñ. 4: Ñèíòåòè÷åñêèé òåñò
20 / 28
Ïîïðîáóåì óëó÷øèòü ðåàëüíûå ñáîðêè
Äàííûå îò Genome Assembly Gold-Standard
Evaluations (GAGE)
Ñåìü ñáîðîê 14-é õðîìîñîìû ÷åëîâåêà
Ìûøü è îðàíãóòàíã â êà÷åñòâå ðåôåðåíñà
Êðóïíûé ðîãàòûé ñêîò â êà÷åñòâå âíåøíåãî
ãåíîìà
21 / 28
Óëó÷øàåì ðåàëüíûå ñáîðêè
22 / 28
Íå âñå ðåôåðåíñû îäèíàêîâî ïîëåçíû
23 / 28
Ñáîðêà ãåíîìà òèáåòñêèõ àíòèëîï
Pantholops hodgsonii; 2N = 60
Êîðîâû â êà÷åñòâå ðåôåðåíñà
×åëîâåê â ðîëè âíåøíåãî ãåíîìà
Ìèíèìàëüíûé ðàçìåð synteny-áëîêà  150
KBP
Âûáðàëè 1 434 scaold'îâ èç âñåãî 15 996
øòóê (ïîêðûòèå 96%)
Íàøëè 1 597 synteny-áëîêîâ
Ýòè áëîêè ïîêðûâàþò 95% ãåíîìà àíòèëîï,
29 êîðîâüèõ àâòîñîì è X õðîìîñîìû
Íàøëîñü 1,537 ñîåäèíåíèé ìåæäó áëîêàìè,
èç êîòîðûõ 73 áûëè íàéäåíû òîëüêî RACA
24 / 28
Ðåçóëüòàòû
25 / 28
Âàëèäàöèÿ
14 ñî÷ëåíåíèé áûëè âàëèäèðîâàíû c
ïîìîùüþ PCR
Èç íèõ 11 ñãåíåðèðîâàëè åäèíñòâåííûé
ôðàãìåíò
×åòûðå PCR ïðîäóêòà áûëè î÷åíü ïîõîæè íà
ïðèìåðíûé ðàçìåð ïðîáåëà
RACA íàøëà òàêæå äâà îøèáî÷íûõ
ñîåäèíåíèÿ
PCR ïîäòâåðäèëà îøèáêó
26 / 28
Çàêëþ÷åíèå
Òåïåðü ó íàñ åñòü ñïîñîá ñêëåèâàòü êîíòèãè
áåç êàðòèðîâàíèÿ
Ñàìà èäåÿ  èñïîëüçîâàòü íåñêîëüêî
âíåøíèõ ãåíîìîâ î÷åíü ïðèâëåêàòåëüíà
Èñïîëüçóåòñÿ èíôîðìàöèÿ èçî âñåõ ãåíîìîâ
ñðàçó
ßâíî èñïîëüçóåòñÿ ôèëîãåíåòè÷åñêîå äåðåâî
Êàê ïîêàçûâàþò ðåçóëüòàòû, RACA ðàáîòàåò
27 / 28
Ñïàñèáî çà âíèìàíèå!
28 / 28

More Related Content

PPTX
12jil 3r angi mongol hel 21 d.dolgortsetseg
PDF
решебник и гдз по математике за 1 класс петерсон, 2011 год
PDF
Òðàíñôîðìàòîðûí àæèëëàõ çàð÷èì
PDF
lecture 4
PDF
Çàíãèëààíû õ¿÷äëèéíí àðãà
PPTX
Garin awlaga mate
PDF
10 r angi mat
PPTX
äàðààëàë
12jil 3r angi mongol hel 21 d.dolgortsetseg
решебник и гдз по математике за 1 класс петерсон, 2011 год
Òðàíñôîðìàòîðûí àæèëëàõ çàð÷èì
lecture 4
Çàíãèëààíû õ¿÷äëèéíí àðãà
Garin awlaga mate
10 r angi mat
äàðààëàë

What's hot (12)

PDF
PDF
2013 03 17_computer_science_seminar
PDF
20101021 proof complexity_hirsch_lecture05
PDF
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
PDF
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
PDF
ÕÝÂÐÝÃØÈË
PDF
решебник и гдз по математике за 1 класс моро, 2011 год
PPTX
Garin awlaga mate
PDF
Д. М. Ицыксон. Вводный курс. Лекция 2
PDF
TMPA-2015: The Verification of Functional Programs by Applying Statechart Dia...
PPTX
Keisuud
PPTX
тоон дараалал
2013 03 17_computer_science_seminar
20101021 proof complexity_hirsch_lecture05
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
ÕÝÂÐÝÃØÈË
решебник и гдз по математике за 1 класс моро, 2011 год
Garin awlaga mate
Д. М. Ицыксон. Вводный курс. Лекция 2
TMPA-2015: The Verification of Functional Programs by Applying Statechart Dia...
Keisuud
тоон дараалал
Ad

Viewers also liked (18)

PPTX
Robot using Kinect
PDF
Hoang Long_CV
PPT
Vien tham - 9 chuyen doi anh - c
PPT
Vien tham - 10 phan loai anh - b
PPTX
San pham 2
PPT
Vien tham - 9 chuyen doi anh - a
PPT
Vien tham - 9 chuyen doi anh - b
PPT
Vien tham - 10 phan loai anh - a
PPT
Vien tham - 8 tien xu ly anh
PPT
Vien tham - 5 du lieu vien tham
PPT
Vien tham - 0 tong quan
PPTX
Phan 2 chuong 5 - giai doan anh
PPT
Vien tham - 7 he thong xu ly anh vien tham
PPT
Vien tham - 6 giai doan anh
PPT
Vien tham - 4 ve tinh vien tham
PPTX
Phan 2 chuong 6 - vien tham ve tinh
PPT
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
PDF
Bài giảng viễn thám
Robot using Kinect
Hoang Long_CV
Vien tham - 9 chuyen doi anh - c
Vien tham - 10 phan loai anh - b
San pham 2
Vien tham - 9 chuyen doi anh - a
Vien tham - 9 chuyen doi anh - b
Vien tham - 10 phan loai anh - a
Vien tham - 8 tien xu ly anh
Vien tham - 5 du lieu vien tham
Vien tham - 0 tong quan
Phan 2 chuong 5 - giai doan anh
Vien tham - 7 he thong xu ly anh vien tham
Vien tham - 6 giai doan anh
Vien tham - 4 ve tinh vien tham
Phan 2 chuong 6 - vien tham ve tinh
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
Bài giảng viễn thám
Ad

More from BioinformaticsInstitute (20)

PPTX
PDF
Nanopores sequencing
PDF
A superglue for string comparison
PDF
Comparative Genomics and de Bruijn graphs
PDF
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
PPTX
Вперед в прошлое. Методы генетической диагностики древней днк
PDF
Knime & bioinformatics
PDF
"Зачем биологам суперкомпьютеры", Александр Предеус
PDF
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
PDF
Рак 101 (Мария Шутова, ИоГЕН РАН)
PDF
Плюрипотентность 101
PDF
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
PPTX
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
PPT
Biodb 2011-everything
PPT
PPT
PPT
PPT
PPT
Nanopores sequencing
A superglue for string comparison
Comparative Genomics and de Bruijn graphs
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Вперед в прошлое. Методы генетической диагностики древней днк
Knime & bioinformatics
"Зачем биологам суперкомпьютеры", Александр Предеус
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Рак 101 (Мария Шутова, ИоГЕН РАН)
Плюрипотентность 101
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Biodb 2011-everything

Slides -i._minkin

  • 1. Reference-assisted chromosome assembly Kim J, Larkin DM, Cai Q, Asan, Zhang Y, Ge RL, Auvil L, Capitanu B, Zhang G, 2Lewin HA, Ma J. PNAS USA 2013 Jan 29 Äîêëàä÷èê: Èëüÿ Ìèíêèí ÑÏáÀÓ ÐÀÍ 27 àïðåëÿ 2013 1 / 28
  • 3. Ìîòèâàöèÿ Ñåêâåíèðóåòñÿ âñå áîëüøå è áîëüøå ãåíîìîâ Íå òàê ñëîæíî ïîëó÷èòü êîíòèãè Êàê ñîáðàòü êîíòèãè â ãåíîì? Íåîáõîäèìî ãåíîì êàðòèðîâàòü Òðóäîåìêî è äîðîãî Áîëü 3 / 28
  • 4. Ñáîðêà ïî ðåôåðåíñó ×òî ïðåäëàãàëîñü ðàíåå: Ëþäè ïûòàëèñü ïðèêëàäûâàòü ðèäû/êîíòèãè ê ðåôåðåíñó Ñêëåèâàÿ êîíòèãè è íàõîäÿ âîçìîæíûå íåïðàâèëüíûå ñî÷ëåíåíèÿ Íåêîòîðûå äàæå èñïîëüçóþò ôèëîãåíåòèêó Òåì íå ìåíåå, ðåôåðåíñ ïðè ýòîì îäèí Ëèáî èñïîëüçóþòñÿ ïîïàðíûå ñðàâíåíèÿ 4 / 28
  • 5. Îáùèé îáçîð ìåòîäà Ñðàâíèòåëüíàÿ ãåíîìèêà íàì ïîìîæåò Âîçüìåì ðåôåðåíñ Íàéäåì synteny-áëîêè ìåæäó äâóìÿ ãåíîìàìè Ïîñìîòðèì íà áëîêè íà êîíöàõ êîíòèãîâ Áåäà ìîãóò áûòü íåëèíåéíûå ïåðåñòðîéêè Äàâàéòå âîçüìåì åùå âíåøíèå ãåíîìû È ïîïðîáóåì îöåíèòü âåðîÿòíîñòü ñëåäîâàíèÿ ôðàãìåíòîâ 5 / 28
  • 6. Îáùèé îáçîð ìåòîäà Íàõîäèì synteny-ôðàãìåíòû ìåæäó ðåôåðåíñîì è ñîáèðàåìûì ãåíîìîì Îòñëåæèâàåì òå æå ôðàãìåíòû âî âíåøíèõ ãåíîìàõ Îöåíèâàåì âåðîÿòíîñòü ñëåäîâàíèÿ îäíîãî ôðàãìåíòà ïîñëå äðóãîãî Ïðèêðó÷èâàåì ïàðíóþ èíôîðìàöèþ Ñòðîèì âçâåøåííûé ãðàô èç ñîåäèíåíèé ìåæäó áëîêàìè Âåñ ðåáðà ýòî âçâåøåííàÿ ñóììà = âåðîÿòíîñòü + ïàðíàÿ èíôîðìàöèÿ Áóäåì æàäíî ñêëåèâàòü êîíòèãè 6 / 28
  • 7. Ãðàô Ó êàæäîãî áëîêà åñòü ãîëîâà bh è õâîñò bt Còðîèì ãðàô, ãäå V = {bh , bt |b ∈ B} Êàæäûé áëîê èìååò íîìåð ñî çíàêîì Íîìåðà ìîæíî ïîëó÷èòü, åñëè îáîéòè ãðàô Êàæäîå ðåáðî ýòî ïàðà (i, j), ãäå i è j ýòî íîìåðà áëîêîâ Ðèñ. 1: Ïðèìåð ãðàôà èç òðåõ áëîêîâ. Íîìåðà áëîêîâ ìîæíî ïðî÷èòàòü êàê (b1, −b2, b3) ëèáî êàê (−b3, b2, −b1) 7 / 28
  • 8. Ðåáðà Âåñà ðåáåð îïðåäåëÿþòñÿ êàê: w(i, j) = 1 i = −j αProb(i, j) + (1 − α)Link(i, j) èíà÷å Prob(i, j) ýòî àïîñòåðèîðíàÿ âåðîÿòíîñòü ñëåäîâàíèÿ áëîêîâ i è j Link(i, j) ýòî score ïîñ÷èòàííûé ïðè ïîìîùè ïàðíûõ ðèäîâ α ìîæíî îöåíèòü èñõîäÿ èç ðåàëüíûõ äàííûõ 8 / 28
  • 10. Êàê ìû ñ÷èòàåì Prob(i, j) Ìû ïðåäïîëàãàåì, ÷òî ó íàñ åñòü ôèëîãåíèÿ Ñíà÷àëà ïåðåñàæèâàåì äåðåâî Ìåæäó A1 è T äîáàâëÿåòñÿ íîâûé êîðåíü A0 t(A0, T) = t(A1, R), t(A1, A0) = 0 Ðèñ. 3: Ïåðåñàäêà äåðåâà 10 / 28
  • 11. Êàê ìû ñ÷èòàåì Prob(i, j) Ïóñòü â ãåíîìå T åñòü áëîê bi, òîãäà pT (i) è sT (i) ýòî ñëåäóþùèé è ïðåäûäóùèé áëîêè Åñëè pT (j) = i è sT (i) = j, ìû ãîâîðèì, ÷òî bi è bj ñìåæíû â ãåíîìå T, ò.å. AT (i, j) = 1 Prob(i, j) = P(AT (i, j) = 1|DT ) = = P(pT (j) = i|DT )P(sT (i) = j|DT ) Ïîñ÷èòàåì P(pT (j) = i|DT ) ïî ôîðìóëå Áàéåñà: P(pT (j) = i|DT ) = P(DT |PT (j) = i)P(PT (j) = i) P(DT ) 11 / 28
  • 12. Åùå îäíî ïðåäïîëîæåíèå P(pT (j) = i|DT ) = P(DT |pT (j) = i)P(pT (j) = i) k P(DT |pT (j) = k)P(pT (j) = k) Ïðåäïîëàãàåì, ÷òî âñå àïðèîðíûå âåðîÿòíîñòè P(pT (j) = i) îäèíàêîâûå: P(pT (j) = i|DT ) = P(DT |pT (j) = i) k P(DT |pT (j) = k) Åñëè T ýòî ëèñò äåðåâà, òî ïðàâäîáèå îïðåäåëÿåòñÿ ïðîñòî: P(DT |pT (j) = i) = 1 pT (j) = i 0 èíà÷å 12 / 28
  • 13. Åñëè ìû íå â ëèñòå Åñëè T ýòî êîðåíü ïîääåðåâà ñ äâóìÿ äî÷åðíèìè óçëàìè L è R: P(pT (j) = i|DT ) = P(DL|pT (j) = i)P(DR|pT (j) = i) = = k P(DL|pL(j) = k) P(pL(j) = k|pT (j) = k)× × k P(DR|pR(j) = k) P(pR(j) = k|pT (j) = i) P(pL(j) = k|pT (j) = k) ýòî âåðîÿòíîñòü òîãî, ÷òî â ãåíîìå L áëîê, ñòîÿùèé ïåðåä j âäðóã çàìåíèëñÿ íà k 13 / 28
  • 14. Êàê îöåíèòü âåðîÿòíîñòü çàìåíû áëîêà Ýòà âåðîÿòíîñòü îöåíèâàåòñÿ ïðè ïîìîùè ìîäåëè ýâîëþöèè ÄÍÊ Jukes-Cantor ðàñøèðåííîé äëÿ òî÷åê ðàçëîìà: P(pL(j) = k|pT (j) = k) = 1 2n − 1 − 2n − 2 2n − 1 e−(2n−1)µtTL Ãäå: n ÷èñëî áëîêîâ µ ïàðàìåòð ìîäåëè (äëÿ âñåõ óçëîâ îäèí) tTL äëèíà âåòâè 14 / 28
  • 16. Òåïåðü ñ÷èòàåì score äëÿ ïàðíîé èíôîðìàöèè Ðàññìîòðèì ñëó÷àé äëÿ ðàçíûõ scaold'îâ Nir (i, j) êîëè÷åñòâî ïàðíûõ ðèäîâ, ïðèëîæèâøèõñÿ â áëîêè i è j Ðàññòîÿíèå íå äîëæíî ïðåâûøàòü ðàçìåð âñòàâêè + 2SD 16 / 28
  • 17. Ñëó÷àé îäèíàêîâûõ scaold'îâ Íàéäåì ïàðíûå ðèäû, äèñòàíöèÿ ìåæäó êîòîðûìè = ðàññòîÿíèå âñòàâêè +/- 2SD Ïî ðåãèîíàì ìåæäó áëîêàìè ïðîéäåìñÿ ñêîëüçÿùèì îêíîì Îêíà ñ÷èòàþò ïîêðûòèå è çàåçæàþòâ áëîêè íà Lf = 50 Kbp Ðàçìåð îêíà Lw = 1 Kbp, ïåðåêðûòèå = Lw /2 Äëÿ êàæäîãî îêíà ñ÷èòàåì pa = ïîêðûòèå îòíîñèòåëüíî ñðåäíåãî ïî âñåì ñêàôôîëäàì Pia(i, j) = ìèíèìàëüíîå çíà÷åíèå pa 17 / 28
  • 18. Òåïåðü ñ÷èòàåì Link(i, j) Ñîáåðåì âñå â êó÷ó Pir (i, j) çíà÷åíèå Nir (i, j) îòíîñèòåëüíî ñðåäíåãî ïî âñåì âîçìîæíûì ðåáðàì P(i, j) = Pir (i, j) sf (i) = sf (j) Pia(i, j) sf (i) = sf (j) 18 / 28
  • 20. Ñèíòåòè÷åñêèé òåñò Âîçüìåì äâå ÷åëîâå÷åñêèå õðîìîñîìû Ïîïðîñèì Evolver ñãåíåðèðîâàòü íàì 12 ñèíòåòè÷åñêèõ ãåíîìîâ Îäèí ãåíîì âñåãäà áóäåò ðåôåðåíñîì Êàêîé-òî äðóãîé áóäåò ñîáèðàåìûì Îñòàëüíûå áóäóò âíåøíèìè Ðèñ. 4: Ñèíòåòè÷åñêèé òåñò 20 / 28
  • 21. Ïîïðîáóåì óëó÷øèòü ðåàëüíûå ñáîðêè Äàííûå îò Genome Assembly Gold-Standard Evaluations (GAGE) Ñåìü ñáîðîê 14-é õðîìîñîìû ÷åëîâåêà Ìûøü è îðàíãóòàíã â êà÷åñòâå ðåôåðåíñà Êðóïíûé ðîãàòûé ñêîò â êà÷åñòâå âíåøíåãî ãåíîìà 21 / 28
  • 23. Íå âñå ðåôåðåíñû îäèíàêîâî ïîëåçíû 23 / 28
  • 24. Ñáîðêà ãåíîìà òèáåòñêèõ àíòèëîï Pantholops hodgsonii; 2N = 60 Êîðîâû â êà÷åñòâå ðåôåðåíñà ×åëîâåê â ðîëè âíåøíåãî ãåíîìà Ìèíèìàëüíûé ðàçìåð synteny-áëîêà 150 KBP Âûáðàëè 1 434 scaold'îâ èç âñåãî 15 996 øòóê (ïîêðûòèå 96%) Íàøëè 1 597 synteny-áëîêîâ Ýòè áëîêè ïîêðûâàþò 95% ãåíîìà àíòèëîï, 29 êîðîâüèõ àâòîñîì è X õðîìîñîìû Íàøëîñü 1,537 ñîåäèíåíèé ìåæäó áëîêàìè, èç êîòîðûõ 73 áûëè íàéäåíû òîëüêî RACA 24 / 28
  • 26. Âàëèäàöèÿ 14 ñî÷ëåíåíèé áûëè âàëèäèðîâàíû c ïîìîùüþ PCR Èç íèõ 11 ñãåíåðèðîâàëè åäèíñòâåííûé ôðàãìåíò ×åòûðå PCR ïðîäóêòà áûëè î÷åíü ïîõîæè íà ïðèìåðíûé ðàçìåð ïðîáåëà RACA íàøëà òàêæå äâà îøèáî÷íûõ ñîåäèíåíèÿ PCR ïîäòâåðäèëà îøèáêó 26 / 28
  • 27. Çàêëþ÷åíèå Òåïåðü ó íàñ åñòü ñïîñîá ñêëåèâàòü êîíòèãè áåç êàðòèðîâàíèÿ Ñàìà èäåÿ èñïîëüçîâàòü íåñêîëüêî âíåøíèõ ãåíîìîâ î÷åíü ïðèâëåêàòåëüíà Èñïîëüçóåòñÿ èíôîðìàöèÿ èçî âñåõ ãåíîìîâ ñðàçó ßâíî èñïîëüçóåòñÿ ôèëîãåíåòè÷åñêîå äåðåâî Êàê ïîêàçûâàþò ðåçóëüòàòû, RACA ðàáîòàåò 27 / 28