SlideShare a Scribd company logo
LAMBDA-АРХИТЕКТУРА
Новая парадигма для Big Data
CREDITS
2
“Big Data” - Nathan Marz и James Warren
Принципы построения и лучшие практики
масштабируемых информационных систем
реального времени.
Nathan Marz – работал в Backtype, Twitter.
Автор фреймворков Storm, Cascalog, ElephantDb.
3
ХАРАКТЕРИСТИКИ BIG DATA СИСТЕМЫ
4
Характеристики Big Data системы
VOLUME
5
 Всего за два дня мы генерируем столько же информации,
сколько было создано с начала человеческой истории
вплоть до 2003 года.
 Ожидается, что к 2020 году объем существующей цифровой
информации вырастет с текущих 3,2 зеттабайт до 40
зеттабайт. (1 ZB = 1000000000000 GB)
 Объем хранимых данных у большинства компаний в США –
100+ TB данных.
 С появлением Internet of Things объем хранимых данных
будет увеличиваться еще быстрее.
Volume / Количество информации
INTERNET OF THINGS
6
У каждого девайса есть сенсоры, генерирующие
информацию, которую также надо хранить.
Интернет вещей - единая сеть, соединяющая
окружающие нас объекты реального мира и
виртуальные объекты.
VELOCITY
7
Velocity
Источники high-velocity данных
 Лог-файлы: веб-сайты, базы данных, firewall.
 Сетевое оборудование: роутеры, свитчи.
 Пользовательские девайсы: смартфоны.
 Социальная медиа информация: посты в социальных сетях
 Онлайн игры
 SaaS: яркий пример – LinkedIn.
VARIETY
8
Для Big Data типична ситуация, когда входные данные даже
близко не напоминают структурированные.
 Документы в различных форматах
 Социальные сети
 E-mails
 APIs
 Geodata
 Логи
Variety
ИНФОРМАЦИОННАЯ
СИСТЕМА?
Требования к системе, типы информации
ТРЕБОВАНИЯ К BIG DATA СИСТЕМА
10
 Гибкость и отказоустойчивость
 Низкая задержка при чтении и обновлении
 Масштабируемость
 Широкий спектр применения
 Расширяемость
 Возможность AdHoc-запросов
 Минимальные расходы на обслуживание
 Возможность отката к нужному состоянию
Требования к Big Data системе
11
Не вся информация одинаково
важна
12
Люди генерируют события
 Транзакции кредитной карты
 Перемещение по карте
 Добавление человека в список друзей
13
Хранение текущего состояния
Subscriber Balance
79092124038 50
79525468451 50
79033456789 114
Subscriber Balance
79092124038 150
79525468451 50
79033456789 114
14
Хранение событий
Subscriber Balance Timestamp
79092124038 50 2014-12-31
79525468451 50 2014-05-21
79033456789 114 2015-11-04
Subscriber Balance Timestamp
79092124038 50 2014-12-31
79525468451 50 2014-05-21
79033456789 114 2015-11-04
79092124038 150 2015-01-01
15
query = function ( all data )
16
Количество людей с одинаковым балансом
Subscriber Balance Timestamp
79092124038 50 2014-12-31
79525468451 50 2014-05-21
79033456789 114 2015-11-04
Balance Count
50 2
114 1
150 1
17
Все данные
Запрос
Предварительно
рассчитанные данные
LAMBDA АРХИТЕКТУРА
19
Batch Layer
Speed Layer
Serving Layer
20
Incoming Data
Hadoop
ElephantDB
Storm
Cassandra
Q
U
E
R
Y
ИСТОЧНИКИ ДАННЫХ
ИСТОЧНИКИ ДАННЫХ
22
 Apache Kafka
 RabbitMQ
 ZeroMQ
 HDFS
 RDBMS
 etc.
Источники данных
BATCH LAYER
BATCH LAYER. ОБЗОР.
24
Incoming Data
Hadoop
ElephantDB
25
BATCH LAYER. ПЛЮСЫ И МИНУСЫ.
Вычисления производятся на всем объеме данных
Вычисления очень хорошо масштабируются
Большое время ожидания
26
Слой пакетной обработки
хранит данные в режиме
“append only”
Batch Layer. Компоненты.
27
 Apache Hadoop MapReduce
 Apache Spark
 Hive / Pig
 SparkSQL – Shark successor
 Cascading / Cascalog
 Pangool
BATCH LAYER
28
“Сырые” данные
Витрина 1
Витрина 2
Витрина 3
Batch Layer. Создание витрин данных.
29
Batch Layer. MapReduce.
Берем большой объем данных и разделяем его на маленькие части
…
…
Output
MAPREDUCE
DoWork() DoWork() DoWork()
…
Применяем одну и ту же операцию к каждой из частей
Соединяем выходные данные каждой из частей
30
Необходимо отлавливать
ошибочные данные как можно
раньше.
Проверка корректности данных на этапе записи лучше
проверки на этапе чтения
Batch Layer. Сериализация данных.
31
СЕРИАЛИЗАЦИЯ ДАННЫХ
Используйте формат со схемой данных.
CSV
Thrift
Avro
Parquet
 Бонус: больше скорость, меньше занятого
дискового пространства
32
База данных “только для чтения”
Произвольная запись не требуется.
33
Каждая итерация Batch Layer
заново генерирует витрины
Batch Layer. Базы данных.
34
 ElephantDB
 SploutSQL
 Voldemort (+ Read-Only)
 HBase (bulk loading)
 Druid
БАЗЫ ДАННЫХ ДЛЯ BATCH LAYER
35
И на этом можно было бы
закончить, но…
36
Информация, обработанная Batch Layer
Время
С
е
й
ч
а
с
Данные за несколько часов
Еще не
обработана
… но это еще не все
Speed Layer
38
Incoming Data
Storm
Cassandra
Speed Layer. Обзор.
39
Speed Layer
 Обработка потоковых данных
 Непрерывные вычисления
 Операции над транзакциями
40
Проблемы с полученными
данными могут возникнуть лишь
в Speed Layer
41
Если что-то пойдет не так в Speed
Layer, то Batch Layer это
автоматически исправит
CAP-ТЕОРЕМА
42
Выберите два
свойства
A
C P
Availability / Доступность
любой запрос к распределённой
системе завершается корректным
откликом
Consistency / Согласованность
во всех вычислительных узлах в один момент
времени данные не противоречат друг другу
Partition Tolerance /
Устойчивость к разделению
Расщепление распределённой системы
на несколько изолированных секций не
приводит к некорректности отклика
от каждой из секций
Speed Layer. Компоненты.
43
 Apache Storm
 Apache Spark Streaming
 Apache S4
 IBM InfoSphere Streams
 Apache Samza
 SqlStream Blaze
SPEED COMPONENTS
Speed Layer. Базы данных.
44
 Hbase
 Cassandra
 Redis
БАЗЫ ДАННЫХ ДЛЯ SPEED LAYER
Serving Layer
46
Incoming Data
Hadoop
ElephantDB
Storm
Cassandra
Q
U
E
R
Y
Serving Layer. Обзор.
47
Serving Layer.
 Произвольный доступ
 Объединение Batch и Speed витрин
Итого
49
ВОЗМОЖНАЯ РЕАЛИЗАЦИЯ ЛЯМБДА АРХИТЕКТУРЫ
50
 Ошибки исправляются повторным пересчетом
витрины с использованием “сырых” данных.
 Хранилища данных оптимизированы.
 Неизменяемость данных делает систему
надежнее.
Источники информации
Факты о Big Data - http://www.bigdata-madesimple.com/eye-opening-facts-
everyone-should-know-about-big-data/
Инфографика “How Much Is A Petabyte” - http://mozy.com/blog/misc/how-
much-is-a-petabyte/
51
Вопросы?
БОГДАНОВ АЛЕКСАНДР
ABOGDANOV@AT-CONSULTING.RU
СПАСИБО
БОГДАНОВ АЛЕКСАНДР
ABOGDANOV@AT-CONSULTING.RU

More Related Content

PDF
Аналитика над петабайтами в реальном времени
PDF
High load++2016.highlights (dropbox+clickhouse)
PDF
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
ODP
ClickHouse
PDF
Clickhouse
PPTX
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
PDF
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
PDF
Где сегодня использовать ElasticSearch
Аналитика над петабайтами в реальном времени
High load++2016.highlights (dropbox+clickhouse)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
ClickHouse
Clickhouse
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Где сегодня использовать ElasticSearch

What's hot (16)

PDF
Построение системы аналитики
PDF
ClickHouse: очень быстро и очень удобно / Виктор Тарнавский, Алексей Миловидо...
PDF
Мобильная Яндекс.Почта — Дмитрий Александров
PPTX
Анализируем данные с Clickhouse
PPTX
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ODP
Новые нереляционные системы хранения данных
PPTX
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...
PDF
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
PDF
Арсен Мукучян, AdRiver
PDF
High Load 2009 Imdg Presentation
PPTX
Александр Сербул —1С-Битрикс — ICBDA 2015
PDF
Александр Киров — Acronis — ICBDA 2015
PDF
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
PPTX
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
PDF
Frontera обход испанского интернета
PPT
Как снизить нагрузку на высокопосещаемый проект
Построение системы аналитики
ClickHouse: очень быстро и очень удобно / Виктор Тарнавский, Алексей Миловидо...
Мобильная Яндекс.Почта — Дмитрий Александров
Анализируем данные с Clickhouse
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
Новые нереляционные системы хранения данных
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
Арсен Мукучян, AdRiver
High Load 2009 Imdg Presentation
Александр Сербул —1С-Битрикс — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
Frontera обход испанского интернета
Как снизить нагрузку на высокопосещаемый проект
Ad

Viewers also liked (20)

PPTX
180 blue dining room training
PDF
Liquid/Syrup/Oral Manufacturing Plant
PPTX
Music video regulations
PDF
Никита Корчагин - Introduction to iOS development
PPTX
PPTX
Building Pennsylvania's First Detector Network Part 1
PPTX
Programacion web 1,2,3,4
PDF
Bit trade labs sovereign identity fintech summit 2016
PPTX
«Azure Mobile Apps: и снова о мобильных сервисах», Анастасия Белокурова (.NE...
PPTX
Christmas eve
PPTX
Android wear, Alexey Rybakov DataArt Kharkov
PPTX
Fruit and vegetables
PDF
«Чем занимается Google Life Sciences, и почему биотехнологии ожидает прорыв» ...
PPTX
Reader’s theater (1)
PDF
Анастасия Белокурова (DataArt) "С телефона в облака: Azure Mobile Services. С...
PDF
Jkd indoor & outdoor signage catalog
ODP
photos
PPTX
นิทาน
PDF
Андрей Беляев - 20 лет Java
PDF
«Android: думайте через данные» Андрей Хитрый
180 blue dining room training
Liquid/Syrup/Oral Manufacturing Plant
Music video regulations
Никита Корчагин - Introduction to iOS development
Building Pennsylvania's First Detector Network Part 1
Programacion web 1,2,3,4
Bit trade labs sovereign identity fintech summit 2016
«Azure Mobile Apps: и снова о мобильных сервисах», Анастасия Белокурова (.NE...
Christmas eve
Android wear, Alexey Rybakov DataArt Kharkov
Fruit and vegetables
«Чем занимается Google Life Sciences, и почему биотехнологии ожидает прорыв» ...
Reader’s theater (1)
Анастасия Белокурова (DataArt) "С телефона в облака: Azure Mobile Services. С...
Jkd indoor & outdoor signage catalog
photos
นิทาน
Андрей Беляев - 20 лет Java
«Android: думайте через данные» Андрей Хитрый
Ad

Similar to Александр Богданов «Lambda - архитектура» (20)

PPTX
Что такое Big Data ?
PDF
Аналитический обзор рынка Больших Данных от IPOboard
PDF
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
PDF
OSPconf Big Data Forum 2014 Ilya Gershanov
PPTX
DBD lection 4. Big Data, NoSQL. In Russian.
PDF
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
PDF
Информационные технологии в эру Больших данных
PPTX
Информационные технологии в эру Больших данных
PPTX
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
PDF
HappyDev'15 Keynote: Когда все данные станут большими...
PDF
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
PPT
4CIO.ppt
PPT
4CIO.ppt
PPTX
Кирилл Алешин - Big Data и Lambda архитектура на практике
PPTX
Логическая витрина для доступа к большим данным
PDF
HPC vs Big Data (Russian version)
PDF
GCP для работы с большими данными
PPT
Top big data architecture patterns by Igor Chub
PDF
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
PPSX
OSPconf. Big Data Forum 2015
Что такое Big Data ?
Аналитический обзор рынка Больших Данных от IPOboard
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
OSPconf Big Data Forum 2014 Ilya Gershanov
DBD lection 4. Big Data, NoSQL. In Russian.
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
4CIO.ppt
4CIO.ppt
Кирилл Алешин - Big Data и Lambda архитектура на практике
Логическая витрина для доступа к большим данным
HPC vs Big Data (Russian version)
GCP для работы с большими данными
Top big data architecture patterns by Igor Chub
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
OSPconf. Big Data Forum 2015

More from DataArt (20)

PDF
DataArt Custom Software Engineering with a Human Approach
PDF
DataArt Healthcare & Life Sciences
PDF
DataArt Financial Services and Capital Markets
PDF
About DataArt HR Partners
PDF
Event management в IT
PDF
Digital Marketing from inside
PPTX
What's new in Android, Igor Malytsky ( Google Post I|O Tour)
PDF
DevOps Workshop:Что бывает, когда DevOps приходит на проект
PDF
IT Talk Kharkiv: «‎Soft skills в IT. Польза или вред? Максим Бастион, DataArt
PDF
«Ноль копеек. Спастись от выгорания» — Сергей Чеботарев (Head of Design, Han...
PDF
Communication in QA's life
PDF
Нельзя просто так взять и договориться, или как мы работали со сложными людьми
PDF
Знакомьтесь, DevOps
PDF
DevOps in real life
PDF
Codeless: автоматизация тестирования
PDF
Selenoid
PDF
Selenide
PDF
A. Sirota "Building an Automation Solution based on Appium"
PDF
Эмоциональный интеллект или как не сойти с ума в условиях сложного и динамичн...
PPTX
IT talk: Как я перестал бояться и полюбил TestNG
DataArt Custom Software Engineering with a Human Approach
DataArt Healthcare & Life Sciences
DataArt Financial Services and Capital Markets
About DataArt HR Partners
Event management в IT
Digital Marketing from inside
What's new in Android, Igor Malytsky ( Google Post I|O Tour)
DevOps Workshop:Что бывает, когда DevOps приходит на проект
IT Talk Kharkiv: «‎Soft skills в IT. Польза или вред? Максим Бастион, DataArt
«Ноль копеек. Спастись от выгорания» — Сергей Чеботарев (Head of Design, Han...
Communication in QA's life
Нельзя просто так взять и договориться, или как мы работали со сложными людьми
Знакомьтесь, DevOps
DevOps in real life
Codeless: автоматизация тестирования
Selenoid
Selenide
A. Sirota "Building an Automation Solution based on Appium"
Эмоциональный интеллект или как не сойти с ума в условиях сложного и динамичн...
IT talk: Как я перестал бояться и полюбил TestNG

Александр Богданов «Lambda - архитектура»