SlideShare a Scribd company logo
Highload++2016highlight
Особенности архитектуры распределённого хранилища в Dropbox
+
ClickHouse: очень быстро и очень удобно <=> Переезжаем на Yandex ClickHouse
© Pavel Alexeev, 2016 1
Disclaimer
Информация и часть слайдов заимствованы из оригинальных презентаций:
● Особенности архитектуры распределённого хранилища в Dropbox - Слава
Бахмутов (SRE в группе разработки стораджа в Dropbox)
● ClickHouse: очень быстро и очень удобно - Виктор Тарнавский
(Руководитель разработки аналитических продуктов в Яндексе), Алексей
Миловидов (Главный разработчик ClickHouse)
● Переезжаем на Yandex ClickHouse - Александр Зайцев (LifeStreet)
2
3
Dropbox:
Isolation+Verification+Automatization
=Availability
4
Cross-zone replication
5
Availability
6
Надёжность оборудования - миф
7
Составные доступности
8
Физическая изоляция
9
Логическая изоляция
10
Эксплуатационная изоляция
11
Защита
● Валидация операций
○ Оператор не виноват. Если что-то может быть поломано - оно будет поломано
○ Команды проще
○ Однозначный синтаксис
● Восстановление
○ Многое можно восстановить автоматически
● Тестирование
○ Тестировать стоит ПО, процедуры и даже тестирование
● Всегда что-то может пойти не так
○ Необходимо определять что именно и где
12
Тестирование
13
Верификация
14
Автоматизация
Параноидальная автоматизация
15
Naoru
16
Naoru - пример
17
18
Другие решения
19
YandexClickHouse
Vendorview
20
Яндекс.Метрика
21
Хранение данных
Классический подход
● Агрегированные данные
● Нормализация
● Множество таблиц
● Key -> Metrics
Современный подход
● Сырые данные
● Небольшое количество широких таблиц
● Огромное количество фильтров и группировок
● Event -> Properties
22
Основные идеи создания
➔ SQL диалект
➔ Линейная масштабируемость
➔ Фокус на скорости выполнения
запросов
➔ Приблизительные вычисления
➔ Массивы, кортежи
➔ Распределённые запросы “из коробки”
➔ Внешние словари
➔ URI и другие функции
23
Скорость на грани фантастики
➔ Типичные запросы быстрее секунды
➔ >100 раз быстрей нам Hadoop
➔ >100 раз быстрей чем типичная RDBMS
➔ 100 млн - 1 миллиард строк в секунду на одной ноде
➔ До 2 терабайт в секунду для кластера на 400 нод
24
Померяемся?
25
Когда не надо использовать
➔ OLTP
➔ Key-value
➔ Document-oriented
➔ Модификация данных
26
Best practises
➔ Широкие таблицы, множество колонок
➔ QPS относительно небольшой, но много данных
используется в каждом запросе
➔ Большой поток входящих данных
➔ Аналитика по петабайтам данных
27
YandexClickHouse
Sideview
28
LifeStreet
29
30
Быстрые результаты пилота
Две крайности
31
Быстрые результаты пилота
32
А если надо обновлять таблицу?
33
А если надо удалять?
34
А теперь боль!
35
Залог успешного переезда
36
Спасибо!
Pavel.Alekseev@Taskdata.com

More Related Content

ODP
ClickHouse
PDF
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
PDF
Clickhouse
PPTX
Анализируем данные с Clickhouse
PPTX
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
PPTX
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
PDF
ClickHouse: очень быстро и очень удобно / Виктор Тарнавский, Алексей Миловидо...
PDF
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
ClickHouse
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Clickhouse
Анализируем данные с Clickhouse
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
ClickHouse: очень быстро и очень удобно / Виктор Тарнавский, Алексей Миловидо...
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...

What's hot (18)

PDF
Построение системы аналитики
PDF
Где сегодня использовать ElasticSearch
PDF
Как устроено API в AppMetrica
PDF
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
PDF
Мобильная Яндекс.Почта — Дмитрий Александров
PPTX
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
PPTX
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
PDF
Аналитика над петабайтами в реальном времени
PDF
Александр Богданов «Lambda - архитектура»
PDF
Cергей Коржнев, 2ГИС
PDF
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
PDF
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
PDF
кри 2014 elastic search рациональный подход к созданию собственной системы а...
PDF
Оценка производительности hadoop кластера.
PDF
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС
PDF
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, ...
PDF
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
PPTX
Диагностика postgresql для системного администратора
Построение системы аналитики
Где сегодня использовать ElasticSearch
Как устроено API в AppMetrica
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Мобильная Яндекс.Почта — Дмитрий Александров
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Аналитика над петабайтами в реальном времени
Александр Богданов «Lambda - архитектура»
Cергей Коржнев, 2ГИС
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
кри 2014 elastic search рациональный подход к созданию собственной системы а...
Оценка производительности hadoop кластера.
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, ...
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
Диагностика postgresql для системного администратора
Ad

Similar to High load++2016.highlights (dropbox+clickhouse) (20)

PDF
Обзор перспективных баз данных для highload / Юрий Насретдинов
PDF
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
PDF
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
PPTX
Daemons In Web on #devrus
PPTX
20 апреля, DEV {highload}, "Демоны в большом проекте – проблемы и их решения ...
PDF
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
PPTX
как из трех стоек сделать две.
PDF
Вячеслав Бахмутов
PDF
AVITO. Решардинг Redis без даунтайма. DevConf 2012
PDF
Не все базы данных одинаково полезны
PDF
Выступление Сергея Аверина, Badoo, на High Performance Conference
PDF
Приватный клауд на базе OpenStack
PDF
Не все базы данных одинаково полезны
PDF
Распространенные ошибки применения баз данных (Сергей Аверин)
PDF
Пётр Зайцев, Percona
PPTX
Errors Tracker
PDF
Что такое Highload? Секреты высокой нагрузки
PDF
Tech Talks @NSU: Что такое Highload? Секреты высокой нагрузки.
PPTX
Net core and linux in production
PDF
High load2007 scaling-web-applications-rus
Обзор перспективных баз данных для highload / Юрий Насретдинов
Дмитрий Куликовский - Построение кластеров, нагрузочное тестирование, capacit...
Дмитрий Куликовский, Алексей Лавренюк - Построение кластеров, нагрузочное тес...
Daemons In Web on #devrus
20 апреля, DEV {highload}, "Демоны в большом проекте – проблемы и их решения ...
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
как из трех стоек сделать две.
Вячеслав Бахмутов
AVITO. Решардинг Redis без даунтайма. DevConf 2012
Не все базы данных одинаково полезны
Выступление Сергея Аверина, Badoo, на High Performance Conference
Приватный клауд на базе OpenStack
Не все базы данных одинаково полезны
Распространенные ошибки применения баз данных (Сергей Аверин)
Пётр Зайцев, Percona
Errors Tracker
Что такое Highload? Секреты высокой нагрузки
Tech Talks @NSU: Что такое Highload? Секреты высокой нагрузки.
Net core and linux in production
High load2007 scaling-web-applications-rus
Ad

More from Pavel Alexeev (6)

PPTX
Apache airflow
PPTX
Elasticsearch features and ecosystem
PPTX
Matching theory
PPTX
ToroDB (highload++2015)
PPTX
Ansible+docker (highload++2015)
PPTX
Git for you
Apache airflow
Elasticsearch features and ecosystem
Matching theory
ToroDB (highload++2015)
Ansible+docker (highload++2015)
Git for you

High load++2016.highlights (dropbox+clickhouse)