ОСОБЕННОСТИ ETL-ИНСТРУМЕНТА
PENTAHO DATA INTEGRATOR.
ОПЫТ КРОК
Юрий Кудрявцев,
ЭКСПЕРТ НАПРАВЛЕНИЯ
БИЗНЕС-ПРИЛОЖЕНИЙ
КОМПАНИИ КРОК
СОДЕРЖАНИЕ
• Роль ETL-инструмента в аналитической
системе
• О Pentaho и Pentaho BI Suite
• О Pentaho Data Integrator
• Пример работы PDI
• Опыт использования PDI в проектах КРОК
и особенности ETL-масштабирования
АНАЛИТИЧЕСКАЯ СИСТЕМА
Витрины
ETL
Хранилище данных
Отчетность
Источники
данных
ERP,
CRM,..
Источники
данных
ERP,
CRM,..
ПИСАТЬ КОД ИЛИ ИСПОЛЬЗОВАТЬ
ГОТОВЫЙ ETL?
О PENTAHO CORPORATION
• Основана в 2004 году
• Первый производитель Open Source BI
• В управляющую команду входят менеджеры
из Hyperion, IBM Cognos, Business Objects,
Oracle, IBM, SAS
• Полноценная система BI, включающая
отчетность, OLAP-анализ, ETL и data mining
ЗАКАЗЧИКИ PENTAHO
БЕЛЬГИЙСКОЕ УПРАВЛЕНИЕ
ТРАФИКОМ
• Он-лайн интеграция
данных 570 сенсоров
• Самая большая
таблица фактов –
более миллиарда
записей,
добавляется
100 млн. ежемесячно
АРХИТЕКТУРА PENTAHO BI
• Модульная
архитектура
• SOA
• 100% Java EE
• Тонкие web-клиенты,
Ajax
• Места разработки на
Eclipse
PENTAHO DATA INTEGRATOR
Проект начат в 2001 году под названием Kettle
(Kettle Extraction Transportation Transformation
Loading Enviroment)
ОСОБЕННОСТИ PDI
• Ориентация на метаданные
– Что сделать, а не как сделать
– Единый репозиторий метаданных
• Подключение к множеству источников
• Возможность добавлять собственные
расширения и компоненты
• Масштабируемость, использование
кластеров
• Удобный графический интерфейс
• Отладка трансформаций
ИЗВЛЕЧЕНИЕ ДАННЫХ.
EXTRACT
• Свыше 25 типов БД
• Текстовые файлы
• XML
• XLS
• dbf, Xbase
• Access
• LDAP
• Системные данные
ТРАНСФОРМАЦИЯ ДАННЫХ.
TRANSFORM
• Lookup (поиск соответствия)
– В таблицах БД
– Файлах
– Памяти сервера
• Вычисления агрегатов
• Сложные трансформации
– Регулярные выражения
– JavaScript
• Фильтрация
• Сортировка
ЗАГРУЗКА ДАННЫХ. LOAD
• Загрузка данных в БД (специальные
компоненты для массовой загрузки, Upsert)
• Обновление ХД (компоненты для SCD2,
генерации суррогатных ключей)
• Партиционирование
• Параллельное чтение/загрузка
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ
• Активное сообщество:
– Более 10 тысяч скачиваний PDI в месяц
– Более 50,000 тем в форумах за 3 года
• Общедоступная система учета ошибок — Jira
• Более 30 внешних разработчиков
ДЕМОНСТРАЦИЯ PDI.
ЗАГРУЗКА ДАННЫХ
О КЛИЕНТАХ В ХД
МАСШТАБИРОВАНИЕ ETL.
КОНВЕЙЕР
• Последовательная обработка наборов записей в потоке
• Каждый шаг выполняется отдельным процессом, можно
увеличивать количество процессов на шаг
• Ограниченные возможности
масштабирования («вытягивания») работы
МАСШТАБИРОВАНИЕ ETL.
ПАРТИЦИОНИРОВАНИЕ
• Партиционирование данных для
независимой обработки на нескольких
узлах кластера
• Линейное масштабирование
по количеству узлов
• Зависимость от метода
партиционирования
• Сложнее проектирование
МАСШТАБИРОВАНИЕ ETL
• Сочетание конвейера и партиционирования
• Выбор метода масштабирования для каждой работы
• Поиск оптимальной производительности
МАСШТАБИРУЕМОСТЬ PDI
• Простое подключение рабочих узлов в кластер
• Партиционирование данных
• Визуальный интерфейс настройки
многопроцессорного выполнения. Каждая из задач
выполняется на 4-х узлах
ИСПОЛЬЗОВАНИЕ PDI. ОПЫТ КРОК
• Государственная организация
– Выгрузка данных из ХД в кубы Essbase
– Использование сложных преобразований данных, регулярных
выражений
– Многопоточная загрузка
– Скорость более 20 тысяч строк/с
• Johnson&Johnson
– Интеграция данных из файлов Excel
• Пилотные проекты
– Генерация данных для нагрузочных тестирований
– Импорт файлов
– Сложные преобразования файлов без использования СУБД
ЛИЦЕНЗИРОВАНИЕ PDI
• Community Edition – полноценный, вполне
рабочий инструмент. Поддержка с
нерегламентированным временем отклика, но та же
система заявок Jira
• Enterprise Edition – от 10к$ годовая
поддержка (4 процессора), время реакции <4 часов.
Чуть больше шагов.
ИТОГО
• PDI – эффективный ETL-инструмент, использование
которого может помочь Вам строить аналитические
системы и хранилища данных без дополнительных
начальных затрат на лицензии
• КРОК поможет оптимально применить PDI:
• Обучение
• Консалтинг
• Методология ETL
СПАСИБО ЗА ВНИМАНИЕ!
Юрий Кудрявцев,
ЭКСПЕРТ НАПРАВЛЕНИЯ
БИЗНЕС-ПРИЛОЖЕНИЙ
КОМПАНИИ КРОК
Т.: (495)974-22-74 доб. 6396
Ф: (495) 974 2277
email: yk@croc.ru

More Related Content

PPTX
A Presentation on Tata steel Company
DOC
documentos de las tic
PDF
MTR - Quality as Competitive Advantage
PDF
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
PDF
ProveIT. ETL как конструктор алгоритмов обработки данных.
PPTX
Интеграция данных компании
PPTX
Talend - about company and solutions
A Presentation on Tata steel Company
documentos de las tic
MTR - Quality as Competitive Advantage
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
ProveIT. ETL как конструктор алгоритмов обработки данных.
Интеграция данных компании
Talend - about company and solutions

Viewers also liked (10)

PPTX
Sas rule based codebook generation for exploratory data analysis - wuss 2012
PPTX
Великие географические открытия
PPTX
Talend Data Quality - catalyst for CRM deployment
PPTX
Itransition: Talend - о компании и решениях
PDF
Очистка данных на практике: мифы и легенты Excel и R
PDF
Практика миграции реляционных баз данных в экосистему Hadoop
PPT
Презентация Informatica MDM
PPT
Kettle – Etl Tool
ODP
Pentaho Data Integration Introduction
PDF
Инвестиционный проект: информационные экраны в подъездах
Sas rule based codebook generation for exploratory data analysis - wuss 2012
Великие географические открытия
Talend Data Quality - catalyst for CRM deployment
Itransition: Talend - о компании и решениях
Очистка данных на практике: мифы и легенты Excel и R
Практика миграции реляционных баз данных в экосистему Hadoop
Презентация Informatica MDM
Kettle – Etl Tool
Pentaho Data Integration Introduction
Инвестиционный проект: информационные экраны в подъездах
Ad

More from КРОК (20)

PDF
Каталог видео-курсов КРОК’ОК
PDF
Корпоративное онлайн-обучение
PDF
Решение КРОК для управления недвижимостью
PDF
Заоблачная репутация ИТ-департамента
PDF
Умное хранение — выжмите максимум из бизнес-данных!
PDF
3D/VR инструменты в обучении персонала
PDF
Что такое SDS?
PDF
Деловой подход к хранению данных
PDF
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
PDF
ВТБ24. Модернизация контактного центра
PDF
Tele2. Модернизация контактного центра
PDF
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
PDF
Программный сервер видеоконференций Mind
PDF
Решения для видеосвязи в среде Skype for business
PDF
Новые возможности при создании систем вкс
PDF
Cisco meeting server - переосмысление многоточечных конференций
PDF
Решения на основе сервера вкс Vinteo
PDF
Решения на основе сервера вкс Vinteo
PDF
Решения для видеосвязи в среде Skype for business
PDF
Программный сервер видеоконференций Mind
Каталог видео-курсов КРОК’ОК
Корпоративное онлайн-обучение
Решение КРОК для управления недвижимостью
Заоблачная репутация ИТ-департамента
Умное хранение — выжмите максимум из бизнес-данных!
3D/VR инструменты в обучении персонала
Что такое SDS?
Деловой подход к хранению данных
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
ВТБ24. Модернизация контактного центра
Tele2. Модернизация контактного центра
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
Программный сервер видеоконференций Mind
Решения для видеосвязи в среде Skype for business
Новые возможности при создании систем вкс
Cisco meeting server - переосмысление многоточечных конференций
Решения на основе сервера вкс Vinteo
Решения на основе сервера вкс Vinteo
Решения для видеосвязи в среде Skype for business
Программный сервер видеоконференций Mind
Ad

Особенности ETL — инструмента pentaho data integrator. Опыт КРОК

  • 1. ОСОБЕННОСТИ ETL-ИНСТРУМЕНТА PENTAHO DATA INTEGRATOR. ОПЫТ КРОК Юрий Кудрявцев, ЭКСПЕРТ НАПРАВЛЕНИЯ БИЗНЕС-ПРИЛОЖЕНИЙ КОМПАНИИ КРОК
  • 2. СОДЕРЖАНИЕ • Роль ETL-инструмента в аналитической системе • О Pentaho и Pentaho BI Suite • О Pentaho Data Integrator • Пример работы PDI • Опыт использования PDI в проектах КРОК и особенности ETL-масштабирования
  • 4. ПИСАТЬ КОД ИЛИ ИСПОЛЬЗОВАТЬ ГОТОВЫЙ ETL?
  • 5. О PENTAHO CORPORATION • Основана в 2004 году • Первый производитель Open Source BI • В управляющую команду входят менеджеры из Hyperion, IBM Cognos, Business Objects, Oracle, IBM, SAS • Полноценная система BI, включающая отчетность, OLAP-анализ, ETL и data mining
  • 7. БЕЛЬГИЙСКОЕ УПРАВЛЕНИЕ ТРАФИКОМ • Он-лайн интеграция данных 570 сенсоров • Самая большая таблица фактов – более миллиарда записей, добавляется 100 млн. ежемесячно
  • 8. АРХИТЕКТУРА PENTAHO BI • Модульная архитектура • SOA • 100% Java EE • Тонкие web-клиенты, Ajax • Места разработки на Eclipse
  • 9. PENTAHO DATA INTEGRATOR Проект начат в 2001 году под названием Kettle (Kettle Extraction Transportation Transformation Loading Enviroment)
  • 10. ОСОБЕННОСТИ PDI • Ориентация на метаданные – Что сделать, а не как сделать – Единый репозиторий метаданных • Подключение к множеству источников • Возможность добавлять собственные расширения и компоненты • Масштабируемость, использование кластеров • Удобный графический интерфейс • Отладка трансформаций
  • 11. ИЗВЛЕЧЕНИЕ ДАННЫХ. EXTRACT • Свыше 25 типов БД • Текстовые файлы • XML • XLS • dbf, Xbase • Access • LDAP • Системные данные
  • 12. ТРАНСФОРМАЦИЯ ДАННЫХ. TRANSFORM • Lookup (поиск соответствия) – В таблицах БД – Файлах – Памяти сервера • Вычисления агрегатов • Сложные трансформации – Регулярные выражения – JavaScript • Фильтрация • Сортировка
  • 13. ЗАГРУЗКА ДАННЫХ. LOAD • Загрузка данных в БД (специальные компоненты для массовой загрузки, Upsert) • Обновление ХД (компоненты для SCD2, генерации суррогатных ключей) • Партиционирование • Параллельное чтение/загрузка
  • 14. ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ • Активное сообщество: – Более 10 тысяч скачиваний PDI в месяц – Более 50,000 тем в форумах за 3 года • Общедоступная система учета ошибок — Jira • Более 30 внешних разработчиков
  • 16. МАСШТАБИРОВАНИЕ ETL. КОНВЕЙЕР • Последовательная обработка наборов записей в потоке • Каждый шаг выполняется отдельным процессом, можно увеличивать количество процессов на шаг • Ограниченные возможности масштабирования («вытягивания») работы
  • 17. МАСШТАБИРОВАНИЕ ETL. ПАРТИЦИОНИРОВАНИЕ • Партиционирование данных для независимой обработки на нескольких узлах кластера • Линейное масштабирование по количеству узлов • Зависимость от метода партиционирования • Сложнее проектирование
  • 18. МАСШТАБИРОВАНИЕ ETL • Сочетание конвейера и партиционирования • Выбор метода масштабирования для каждой работы • Поиск оптимальной производительности
  • 19. МАСШТАБИРУЕМОСТЬ PDI • Простое подключение рабочих узлов в кластер • Партиционирование данных • Визуальный интерфейс настройки многопроцессорного выполнения. Каждая из задач выполняется на 4-х узлах
  • 20. ИСПОЛЬЗОВАНИЕ PDI. ОПЫТ КРОК • Государственная организация – Выгрузка данных из ХД в кубы Essbase – Использование сложных преобразований данных, регулярных выражений – Многопоточная загрузка – Скорость более 20 тысяч строк/с • Johnson&Johnson – Интеграция данных из файлов Excel • Пилотные проекты – Генерация данных для нагрузочных тестирований – Импорт файлов – Сложные преобразования файлов без использования СУБД
  • 21. ЛИЦЕНЗИРОВАНИЕ PDI • Community Edition – полноценный, вполне рабочий инструмент. Поддержка с нерегламентированным временем отклика, но та же система заявок Jira • Enterprise Edition – от 10к$ годовая поддержка (4 процессора), время реакции <4 часов. Чуть больше шагов.
  • 22. ИТОГО • PDI – эффективный ETL-инструмент, использование которого может помочь Вам строить аналитические системы и хранилища данных без дополнительных начальных затрат на лицензии • КРОК поможет оптимально применить PDI: • Обучение • Консалтинг • Методология ETL
  • 23. СПАСИБО ЗА ВНИМАНИЕ! Юрий Кудрявцев, ЭКСПЕРТ НАПРАВЛЕНИЯ БИЗНЕС-ПРИЛОЖЕНИЙ КОМПАНИИ КРОК Т.: (495)974-22-74 доб. 6396 Ф: (495) 974 2277 email: yk@croc.ru