SlideShare a Scribd company logo
1Д М И Т Р И Й Н О В И Ц К И Й
BIOVEC: WORD2VEC И
БИОИНФОРМАТИКА
ВВЕДЕНИЕ: ЧТО ТАКОЕ
БИОИНФОРМАТИКА
• математические методы компьютерного
анализа генома, транскриптома, протеома
(омикс- биоинформатика).
• разработка алгоритмов и программ для
предсказания пространственной структуры
биополимеров– РНК и белок - структурная
биоинформатика ~ ФОЛДНИНГ
• ]моделирование белковых
каскадов,предсказание функции белка,
регуляторных контуров и т.
2
SHOTGUN & NEXT GEN. SEQUENCING
3
Strand Sequence
Original
AGCATGCTGCAGTCATGCTTAGG
CTA
First shotgun sequence
AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Second shotgun sequence
AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Reconstruction
AGCATGCTGCAGTCATGCTTAGG
CTA
ПРИМЕР БЕЛКОВОЙ
ПОСЛЕДОВАТЕЛЬНОСТИ
4
ВЫРАВНИВАНИЕ
ПОСЛЕДОВАТЕЛЬНОСТЕЙ
5
• Обнаружение внутривидового
и межвидового полиморфизма.
• Таксономия
• Молекулярные часы
WORD2VEC : КРАТКОЕ
СОДЕРЖАНИЕ
• Represent each word with a low-dimensional
vector
• Word similarity = vector similarity
• Key idea: Predict surrounding words of every
word
• Faster and can easily incorporate a new
sentence/document or add a word to the
vocabulary
6
REPRESENT THE MEANING OF WORD –
WORD2VEC
• 2 basic neural network models:
• Continuous Bag of Word (CBOW): use a window of word
to predict the middle word
• Skip-gram (SG): use a word to predict the surrounding
ones in window.
7
WORD2VEC – CONTINUOUS BAG OF
WORD
• E.g. “The cat sat on floor”
• Window size = 2
8
the
cat
on
floor
sat
9
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
cat
on
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
sat
Output layer
one-hot
vector
one-hot
vector
Index of cat in vocabulary
10
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
cat
on
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
sat
Output layer
𝑊"×$
𝑊"×$
V-dim
V-dim
N-dim
𝑊′$×"
V-dim
N will be the size of word vector
We must learn W and W’
11
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
xcat
xon
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
sat
Output layer
V-dim
V-dim
N-dim
V-dim
+ 𝑣' =
𝑣)*+ + 𝑣-.
2
0.1 2.4 1.6 1.8 0.5 0.9 … … … 3.2
0.5 2.6 1.4 2.9 1.5 3.6 … … … 6.1
… … … … … … … … … …
… … … … … … … … … …
0.6 1.8 2.7 1.9 2.4 2.0 … … … 1.2
×
0
1
0
0
0
0
0
0
…
0
𝑊"×$
0
														×𝑥)*+ = 𝑣)*+
2.4
2.6
…
…
1.8
=
12
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
xcat
xon
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
sat
Output layer
V-dim
V-dim
N-dim
V-dim
+ 𝑣' =
𝑣)*+ + 𝑣-.
2
0.1 2.4 1.6 1.8 0.5 0.9 … … … 3.2
0.5 2.6 1.4 2.9 1.5 3.6 … … … 6.1
… … … … … … … … … …
… … … … … … … … … …
0.6 1.8 2.7 1.9 2.4 2.0 … … … 1.2
×
0
0
0
1
0
0
0
0
…
0
𝑊"×$
0
														×𝑥-. = 𝑣-.
1.8
2.9
…
…
1.9
=
13
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
cat
on
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
𝑦'456	
Output layer
𝑊"×$
𝑊"×$
V-dim
V-dim
N-dim
𝑊"×$
7
×𝑣' = 𝑧
V-dim
N will be the size of word vector
𝑣'
𝑦' = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑧)
14
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
cat
on
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
𝑦'456	
Output layer
𝑊"×$
𝑊"×$
V-dim
V-dim
N-dim
𝑊"×$
7
×𝑣' = 𝑧
𝑦' = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑧)
V-dim
N will be the size of word vector
𝑣'
0.01
0.02
0.00
0.02
0.01
0.02
0.01
0.7
…
0.00
𝑦'	
We would prefer 𝑦' close to 𝑦'A*+
15
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
xcat
xon
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
sat
Output layer
V-dim
V-dim
N-dim
V-dim
𝑊"×$
𝑊"×$
0.1 2.4 1.6 1.8 0.5 0.9 … … … 3.2
0.5 2.6 1.4 2.9 1.5 3.6 … … … 6.1
… … … … … … … … … …
… … … … … … … … … …
0.6 1.8 2.7 1.9 2.4 2.0 … … … 1.2
𝑊"×$
0
Contain word’s vectors
𝑊"×$
7
We can consider either W or W’ as the word’s representation.
Or even take the average.
SOME INTERESTING RESULTS
16
WORD ANALOGIES
17
ОСНОВНАЯ СТАТЬЯ
• Continuous Distributed Representation of
Biological Sequences for Deep Proteomics
and Genomics
• Ehsaneddin Asgari,
• Mohammad R. K. Mofrad
• PLOS ONE November 10, 2015
• https://doi.org/10.1371/journal.pone.0141287
18
СЕМЕЙСТВА
БЕЛКОВ
19
РАЗБИВКА БЕЛКОВОЙ
ПОСЛЕДОВАТЕЛЬНОСТИ
20
РАСПРЕДЕЛЕНИЕ БЕЛКОВ В ПРОСТРАНСТВЕ 2Х
КОМПОНЕНТ
ЦВЕТ ОБОЗНАЧАЕТ ЗНАЧЕНИЕ СООТВ. ПРИЗНАКА
21
PHENYLALANINE-GLYCINE
NUCLEOPORINS (FG-NUPS)
22
ПОСЛЕДОВАТЕЛЬНОСТИ FG-NUP VS
СТРУКТУРИРОВАННЫЕ БЕЛКОВЫЕ
ПОСЛЕДОВАТЕЛЬНОСТИ
23
РЕАЛИЗАЦИЯ
• https://github.com/peter-volkov/biovec
24
СПАСИБО ЗА ВНИМАНИЕ!
25

More Related Content

PPT
dvfu sns spline 2
PDF
Konstantin Krivlenia - "Continuous integration for frontend"
PDF
Викторина | Odessa Frontend Meetup #13
PDF
AI&BigData Lab. Дмитрий Новицкий "Big Data и биоинформатика".
PDF
Оптимизация производительности Python
PDF
проба пера
PDF
П.Г. Круг.; Нейронные сети и Нейрокомпьютеры
PPT
Underwater pipeline diagnostics and its dataware
dvfu sns spline 2
Konstantin Krivlenia - "Continuous integration for frontend"
Викторина | Odessa Frontend Meetup #13
AI&BigData Lab. Дмитрий Новицкий "Big Data и биоинформатика".
Оптимизация производительности Python
проба пера
П.Г. Круг.; Нейронные сети и Нейрокомпьютеры
Underwater pipeline diagnostics and its dataware

Similar to DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоинформатики (11)

PDF
PDF
Parkan2 Manual
PDF
[DL輪読会]Deep Learning 第9章 畳み込みネットワーク
PPTX
E. Ostheimer, V. G. Labunets, D. E. Komarov, T. S. Fedorova and V. V. Ganzha ...
PDF
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
PDF
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
PDF
Метод дискретных особенностей и компьютерный инструментарий для моделировани...
PDF
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...
PPT
якобовский - введение в параллельное программирование (3)
PPTX
Решение СЛАУ
PDF
Отказоустойчивая обработка 10M OAuth токенов на Tarantool / Владимир Перепели...
Parkan2 Manual
[DL輪読会]Deep Learning 第9章 畳み込みネットワーク
E. Ostheimer, V. G. Labunets, D. E. Komarov, T. S. Fedorova and V. V. Ganzha ...
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Метод дискретных особенностей и компьютерный инструментарий для моделировани...
Сергей Горобцов: Идеологии разработки веб интерфейсов, адаптивность, Accessib...
якобовский - введение в параллельное программирование (3)
Решение СЛАУ
Отказоустойчивая обработка 10M OAuth токенов на Tarantool / Владимир Перепели...
Ad

More from GeeksLab Odessa (20)

PDF
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
PDF
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
PDF
DataScience Lab 2017_Блиц-доклад_Турский Виктор
PDF
DataScience Lab 2017_Обзор методов детекции лиц на изображение
PDF
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
PDF
DataScienceLab2017_Блиц-доклад
PDF
DataScienceLab2017_Блиц-доклад
PDF
DataScienceLab2017_Блиц-доклад
PDF
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
PDF
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
PDF
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
PDF
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
PDF
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
PDF
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
PDF
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
PDF
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
PDF
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
PDF
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
PPTX
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
PDF
JS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
DataScience Lab 2017_Блиц-доклад_Турский Виктор
DataScience Lab 2017_Обзор методов детекции лиц на изображение
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова
Ad

DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоинформатики