SlideShare a Scribd company logo
12 ноября 2014 года 
Опыт разработки масштабируемого решения по хранению журналов в Hadoop 
Дмитрий Морозов 
Ведущий специалист по проектированию IT-инфраструктурных решений
Исходная проблематикаи постановка задачи 
2/19
Специфика компаний, с которыми работаем 
Торговые сети 
Банки 
Разнообразный парк автоматизированных учетных систем 
Нагруженные базы данных, большая часть из которых –Oracle 
3/19
Трудности компаний, обладающих зоопарком учетных систем 
Дорогое хранение практически неиспользуемых данных журналов 
Сложное администрирование оперативных баз данных, недостаточное окно времени для резервного копирования 
Невозможность использовать информацию журналов для анализа 
4/19
Цели решения (интересы клиентов) 
Уменьшить стоимость хранения данных журналов, обеспечив доступ к ним из существующих приложений 
Сохранить привычный способ работы с приложениями для пользователей 
Упростить задачи администрирования БД 
Создать возможность использования журналов при анализе больших данных 
5/19
Модель жизненного цикла данных 
Оперативный контурОтчетный контурАналитический контурАрхивный контурУдалениеСоздание 
6/19
Начальное положение дел 
Все данные 
7/19
Журналы как отдельная категория 
 Существенный вклад в объем данных  Большой поток данных  Только для чтения  Отдельное хранение  Масштабируемость  Оптимизация на чтение/поиск/аналитику 
8/19
Предлагаемое разделение 
Оперативный и отчетный контурАналитический и архивный контур 
9/19
Почему Hadoop? 
Варианты размещения журналов: 
Партиционированиев рамках того же экземпляра БД 
В отдельном экземпляре БД 
В распределенном хранилище (например, ElasticSearch) 
 В хранилище Hadoop 
Преимуществавыбора Hadoop: 
 Стоимость хранения 
 Масштабируемость и отказоустойчивость 
 Богатые возможности ad hoc анализа данных инструментами Hadoop 
10/19
Архитектура масштабируемого решения по хранению журналов 
11/19
Общая схема решения: было 
АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьЧтениеЗапрос данныхЗапись данных 
12/19
Общая схема решения: стало 
АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьХранилищежурналовАрхивированиеЧтениеЗапрос данныхЗапись данных 
13/19
Размещение данных 
Даты событийЖурналы в исходной БД(фиксированный объем) Журналы в хранилищеПеренос данныхУдаление данныхСоздание новых данныхОперативный и отчетный контурАналитический и архивный контур 
14/19
Архитектура хранилища 
Распределенная файловая система (HDFS) Сервис запуска задач(Oozie) Сервис переноса текстовых журналов(Flume) Сервис переноса реляционных журналов (Sqoop) Сервис конфигурирования кластера(ZooKeeper) Сервис администрирования кластера(ClouderaManager) Сервис очистки журналовFullScan-БД (Impala)KeyValue-БД (HBase) Интерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналов РСУБДСервис индексации(Solr) Сервис доступа к журналам хранилищаЗапрос данныхЗапись данныхРазработка CUSTISКомпоненты экосистемы Hadoop 
15/19
Подключение АС к хранилищу 
16/19 
Сервер приложений (Java/Jboss) БД(Oracle) Журнал сервера приложенийЗапрос журнальных данныхИнтеграционный адаптерБД + Сервер приложений(Oracle) Интеграционный журналЗапросжурнальных данныхЗапрос «свежих» журналовИнтеграционныйжурналИнтеграционный адаптерЗапрос «свежих» журналовЖурнал приложенияЖурнал приложенияИнтерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналовРСУБДЗапрос данныхЗапись данных
Стоимость хранения данных (10 Тб) 
На СХД среднего уровня 
Полка СХД + коммутаторы ~3 млн руб. 
SATA~ 50 Тб, т.е. 600 тыс. руб. за 10 Тб 
SAS ~15 Тб, т.е. 2 млн руб. за 10 Тб 
SSD, FlashCacheи т.п. даже не рассматриваем 
На HDFS 
По 10 Тб обычных дисков на 4 дешевых сервера ~50 х 4 = 200 тыс. руб. 
Оборудование и для хранения, и для вычислений 
Разница –минимум в 3 раза, для SAS–в 10 
17/19
Результаты решения 
Значительно сокращается стоимостьхранения данных журналов (минимум в 3 раза) 
За счет уменьшения объемов оперативных БД упрощаются задачи администрирования, уменьшается время создания резервных копий 
Для пользователей ничего не изменилось, существовавшие интерфейс и функционал АС сохранены 
Информацию, которая раньше считалась обузой, можно использовать при анализе больших данных 
18/19
Спасибо! 
Вопросы? 
Дмитрий Морозов 
morozov@custis.ru 
19/19

More Related Content

PDF
Talksum dec2013 rus_generic
PDF
Apache Hive
PPTX
PPTX
Создание и администрирование баз геоданных
PPTX
Леонид Блохин (Big Data Engineer): КОЛОНОЧНЫЕ БД НА ПРИМЕРЕ PARQUET
PPTX
Управление данными (дополнительно)
ODP
Hcs3
ODP
Project Cirrostratus
Talksum dec2013 rus_generic
Apache Hive
Создание и администрирование баз геоданных
Леонид Блохин (Big Data Engineer): КОЛОНОЧНЫЕ БД НА ПРИМЕРЕ PARQUET
Управление данными (дополнительно)
Hcs3
Project Cirrostratus

What's hot (10)

PDF
Платформа Apache Hadoop
PDF
Как грабить корованы
PPTX
Управление данными (реляционная модель)
PDF
InterSystems Healthshare +DeepSee. Hospitalization queue
PPTX
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""
PPTX
загрузить в DSpace
PPT
Audit
PPTX
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
PDF
SECON'2017, Блохин Леонид, Колоночные БД на примере Parquet
PPT
Анализ и оценка систем адресации данных в современных ЭВМ
Платформа Apache Hadoop
Как грабить корованы
Управление данными (реляционная модель)
InterSystems Healthshare +DeepSee. Hospitalization queue
Скородумов И.В. "Облачный сервис электронного документооборота "07.ДОК""
загрузить в DSpace
Audit
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
SECON'2017, Блохин Леонид, Колоночные БД на примере Parquet
Анализ и оценка систем адресации данных в современных ЭВМ
Ad

Viewers also liked (19)

PDF
Гибкость: как правильно жить и работать?
PPTX
Миграция данных из Oracle в Postgres
PDF
Омниканальность как один из ответов ритейла на изменение Customer Experience
PDF
Поиск и чтение унаследованного кода
PPT
Учетная машина — универсальная архитектура учетно-аналитических систем
PDF
Командная работа: вместе к успеху!
PPTX
WinDbg со товарищи
PDF
Требования банка к ИТ-подрядчикам
PDF
HR-партнер: миф или реальность?
PDF
Открытая банковская платформа для типовых сервисов и продуктов
PDF
Учет: книга тайн
PDF
Akka.NET
PDF
Омниканальная модель в ритейле: решения и кейсы
PPTX
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...
PDF
Cерьезные отношения: паттерны проектирования реляционных хранилищ
PDF
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах
PPTX
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...
PDF
RBAC & ABAC: гибридное решение для управления правами доступа
PPT
Диаграммы планов счетов — средство моделирования и проектирования учета
Гибкость: как правильно жить и работать?
Миграция данных из Oracle в Postgres
Омниканальность как один из ответов ритейла на изменение Customer Experience
Поиск и чтение унаследованного кода
Учетная машина — универсальная архитектура учетно-аналитических систем
Командная работа: вместе к успеху!
WinDbg со товарищи
Требования банка к ИТ-подрядчикам
HR-партнер: миф или реальность?
Открытая банковская платформа для типовых сервисов и продуктов
Учет: книга тайн
Akka.NET
Омниканальная модель в ритейле: решения и кейсы
Аналитик и Тестировщик в одном лице – путь к качеству (Максим Цепков, SQA Day...
Cерьезные отношения: паттерны проектирования реляционных хранилищ
«Стой! Кто идет?»: аутентификация и авторизация в корпоративных системах
Собираем кубик Рубика: восстановление архитектурного описания корпоративной р...
RBAC & ABAC: гибридное решение для управления правами доступа
Диаграммы планов счетов — средство моделирования и проектирования учета
Ad

Similar to Опыт разработки масштабируемого решения по хранению журналов в Hadoop (20)

PDF
Fors и big data appliance
PPTX
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
PDF
Практика миграции реляционных баз данных в экосистему Hadoop
PDF
High load++2016.highlights (dropbox+clickhouse)
PDF
AzovDevMeetup 2016 | HBase и Phoenix в качестве основы ETL-приложения на Node...
PPTX
Технологии хранения для больших проектов / Сергей Платонов (RAIDIX)
PDF
IBS at IBM Fast Data (Moscow, 2014)
PDF
Технологии и продукты Oracle для обработки и анализа Больших Данных
PPTX
Возможности рынка облачных сервисов
PDF
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
PPTX
pgconf.ru 2017
PDF
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
PDF
Платформа и решения НРЕ для больших данных
PPTX
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
PPTX
Построение аналитического хранилища на 100 петабайт
PDF
Архитектура хранилища бинарных данных на Одноклассниках (Александр Христофоро...
PDF
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
 
PPTX
#dotnetby meetup - 32 Как и зачем готовить ’кластерные’ СУБД
PPTX
Андрей Зайчиков "Архитектура распределенных кластеров NoSQL на AWS"
PPTX
1 big data oracle digi oct
Fors и big data appliance
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Практика миграции реляционных баз данных в экосистему Hadoop
High load++2016.highlights (dropbox+clickhouse)
AzovDevMeetup 2016 | HBase и Phoenix в качестве основы ETL-приложения на Node...
Технологии хранения для больших проектов / Сергей Платонов (RAIDIX)
IBS at IBM Fast Data (Moscow, 2014)
Технологии и продукты Oracle для обработки и анализа Больших Данных
Возможности рынка облачных сервисов
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
pgconf.ru 2017
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
Платформа и решения НРЕ для больших данных
3rd Moscow cassandra meetup (Fast In-memory Analytics Over Cassandra Data )
Построение аналитического хранилища на 100 петабайт
Архитектура хранилища бинарных данных на Одноклассниках (Александр Христофоро...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
 
#dotnetby meetup - 32 Как и зачем готовить ’кластерные’ СУБД
Андрей Зайчиков "Архитектура распределенных кластеров NoSQL на AWS"
1 big data oracle digi oct

More from CUSTIS (20)

PDF
Три истории микросервисов, или MSA для Enterprise
PPTX
Долгоживущие ИТ в динамичном ритейле
PDF
Будущее уже наступило: от Agile к бирюзовым организациям
PDF
Как выбрать для проекта практики проектирования и работы с требованиями
PDF
Диаграммы учета как средство для наглядного и целостного отображения правил у...
PPTX
Сотрудничество с корпорациями: рецепты из практики
PPTX
Agile — ответ на вызовы третьей промышленной революции
PPTX
Опыт построения микросервисной архитектуры в цифровом банке
PDF
Золотая лихорадка MSA: почему нам не подошли микросервисы?
PPT
Барьеры микросервисной архитектуры
PPTX
Три истории микросервисов
PPTX
От монолитных моделей предметной области — к модульным
PPTX
Проблемы управления правами доступа к информационным системам крупной торгово...
PDF
Будущее omni-channel маркетинга: инструменты, кейсы и цифры
PPTX
Agile и управление знаниями в ИТ-проектах
PDF
State of the .Net Performance
PPTX
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделять
PDF
Опыт применения метода ATAM для оценки архитектуры
PPTX
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватает
PPTX
Process и Case Management в информационной системе: от автоматизации As Is к ...
Три истории микросервисов, или MSA для Enterprise
Долгоживущие ИТ в динамичном ритейле
Будущее уже наступило: от Agile к бирюзовым организациям
Как выбрать для проекта практики проектирования и работы с требованиями
Диаграммы учета как средство для наглядного и целостного отображения правил у...
Сотрудничество с корпорациями: рецепты из практики
Agile — ответ на вызовы третьей промышленной революции
Опыт построения микросервисной архитектуры в цифровом банке
Золотая лихорадка MSA: почему нам не подошли микросервисы?
Барьеры микросервисной архитектуры
Три истории микросервисов
От монолитных моделей предметной области — к модульным
Проблемы управления правами доступа к информационным системам крупной торгово...
Будущее omni-channel маркетинга: инструменты, кейсы и цифры
Agile и управление знаниями в ИТ-проектах
State of the .Net Performance
Ответственность за качество в разных ИТ-проектах: в чем она и как ее разделять
Опыт применения метода ATAM для оценки архитектуры
Гибридный подход к управлению правами доступа: когда стандартного IDM не хватает
Process и Case Management в информационной системе: от автоматизации As Is к ...

Опыт разработки масштабируемого решения по хранению журналов в Hadoop

  • 1. 12 ноября 2014 года Опыт разработки масштабируемого решения по хранению журналов в Hadoop Дмитрий Морозов Ведущий специалист по проектированию IT-инфраструктурных решений
  • 3. Специфика компаний, с которыми работаем Торговые сети Банки Разнообразный парк автоматизированных учетных систем Нагруженные базы данных, большая часть из которых –Oracle 3/19
  • 4. Трудности компаний, обладающих зоопарком учетных систем Дорогое хранение практически неиспользуемых данных журналов Сложное администрирование оперативных баз данных, недостаточное окно времени для резервного копирования Невозможность использовать информацию журналов для анализа 4/19
  • 5. Цели решения (интересы клиентов) Уменьшить стоимость хранения данных журналов, обеспечив доступ к ним из существующих приложений Сохранить привычный способ работы с приложениями для пользователей Упростить задачи администрирования БД Создать возможность использования журналов при анализе больших данных 5/19
  • 6. Модель жизненного цикла данных Оперативный контурОтчетный контурАналитический контурАрхивный контурУдалениеСоздание 6/19
  • 8. Журналы как отдельная категория  Существенный вклад в объем данных  Большой поток данных  Только для чтения  Отдельное хранение  Масштабируемость  Оптимизация на чтение/поиск/аналитику 8/19
  • 9. Предлагаемое разделение Оперативный и отчетный контурАналитический и архивный контур 9/19
  • 10. Почему Hadoop? Варианты размещения журналов: Партиционированиев рамках того же экземпляра БД В отдельном экземпляре БД В распределенном хранилище (например, ElasticSearch)  В хранилище Hadoop Преимуществавыбора Hadoop:  Стоимость хранения  Масштабируемость и отказоустойчивость  Богатые возможности ad hoc анализа данных инструментами Hadoop 10/19
  • 11. Архитектура масштабируемого решения по хранению журналов 11/19
  • 12. Общая схема решения: было АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьЧтениеЗапрос данныхЗапись данных 12/19
  • 13. Общая схема решения: стало АСГенерация данных журналовСохранение данных журналовФайлы на локальных дискахЖурналыв БДИнтерфейсы доступа к журналамПервичная записьХранилищежурналовАрхивированиеЧтениеЗапрос данныхЗапись данных 13/19
  • 14. Размещение данных Даты событийЖурналы в исходной БД(фиксированный объем) Журналы в хранилищеПеренос данныхУдаление данныхСоздание новых данныхОперативный и отчетный контурАналитический и архивный контур 14/19
  • 15. Архитектура хранилища Распределенная файловая система (HDFS) Сервис запуска задач(Oozie) Сервис переноса текстовых журналов(Flume) Сервис переноса реляционных журналов (Sqoop) Сервис конфигурирования кластера(ZooKeeper) Сервис администрирования кластера(ClouderaManager) Сервис очистки журналовFullScan-БД (Impala)KeyValue-БД (HBase) Интерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналов РСУБДСервис индексации(Solr) Сервис доступа к журналам хранилищаЗапрос данныхЗапись данныхРазработка CUSTISКомпоненты экосистемы Hadoop 15/19
  • 16. Подключение АС к хранилищу 16/19 Сервер приложений (Java/Jboss) БД(Oracle) Журнал сервера приложенийЗапрос журнальных данныхИнтеграционный адаптерБД + Сервер приложений(Oracle) Интеграционный журналЗапросжурнальных данныхЗапрос «свежих» журналовИнтеграционныйжурналИнтеграционный адаптерЗапрос «свежих» журналовЖурнал приложенияЖурнал приложенияИнтерфейс запроса данных(REST API) Интерфейс импорта файловых журналовИнтерфейс импорта журналовРСУБДЗапрос данныхЗапись данных
  • 17. Стоимость хранения данных (10 Тб) На СХД среднего уровня Полка СХД + коммутаторы ~3 млн руб. SATA~ 50 Тб, т.е. 600 тыс. руб. за 10 Тб SAS ~15 Тб, т.е. 2 млн руб. за 10 Тб SSD, FlashCacheи т.п. даже не рассматриваем На HDFS По 10 Тб обычных дисков на 4 дешевых сервера ~50 х 4 = 200 тыс. руб. Оборудование и для хранения, и для вычислений Разница –минимум в 3 раза, для SAS–в 10 17/19
  • 18. Результаты решения Значительно сокращается стоимостьхранения данных журналов (минимум в 3 раза) За счет уменьшения объемов оперативных БД упрощаются задачи администрирования, уменьшается время создания резервных копий Для пользователей ничего не изменилось, существовавшие интерфейс и функционал АС сохранены Информацию, которая раньше считалась обузой, можно использовать при анализе больших данных 18/19
  • 19. Спасибо! Вопросы? Дмитрий Морозов morozov@custis.ru 19/19