SlideShare a Scribd company logo
0

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Технологии и продукты
Oracle для обработки и
анализа Больших Данных
Андрей Пивоваров
Руководитель группы перспективных технологий

1

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Gartner Hype Cycle 2013

2

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

2
Откуда берутся Большие данные? (1/2)
Они были всегда, но не всегда обрабатываются

 Например, традиционные данные из RDBMS за прошлые

годы
 В самой сущности таких данных может не быть ничего
нового, их просто очень много.
 Возникают вопросы о целесообразности хранения и
обработки таких объемов в традиционных архитектурах
 Это может быть просто дорого

3

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

3
Откуда берутся Большие данные? (2/2)
Новые данные

 Логи, данные телеметрии, датчиков, полуструктурированные

данные и неструктурированные данные, записи в социальных
сетях, вебсайты и т.д.
 Данные, которые могут очень быстро накапливаться, при этом,
обычно (но не всегда) информационная плотность их низкая.
 Данные, которые очень дорого хранить используя традиционный
подход

4

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

4
Зачем обрабатывать Большие Данные?
 Очень многие примеры о Big

Data связаны с точечным
маркетингом и
персонализацией
 Персонализированные
предложения требуют очень
большого количества данных
о поведении клиентов.
 Необходимость собирать
данные из многих источников
5

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

5
Платформа Oracle для обработки
Больших Данных
Поток

6

Хранение

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Организация

Confidential – Oracle Internal

Анализ

Визуализация
Платформа Oracle для обработки
Больших Данных
Хранение
Hadoop
Oracle NoSQL
Database
Open source R

Applications

7

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Организация

Анализ

Визуализация

Oracle Event
Processing
Oracle RealTime Decisions
Or
Oracle Big Data
Connectors

Oracle Data
Integrator

Confidential – Oracle Internal

Oracle
Advanced
Analytics
Data
Warehouse
Oracle
Database

In-Database
Analytics

Поток

Oracle Business
Intelligence Applications
Oracle Business
Intelligence Tools
Oracle Endeca
Information Discovery
Exadata
Database Machine

8

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Что такое Oracle Exadata?
 Машина для СУБД Oracle
– OLTP

– Хранилищ данных
– Смешанных нагрузок
– Консолидации приложений на базе Oracle Database

 Построено на основе:
– Oracle Database
 Все приложения, работающие c Oracle Database, могут

работать на Exadata
– Oracle Hardware

9

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

9
Exadata на аппаратном уровне
 Быстрая дисковая подсистема
 Использование 40Gb/s Infiniband

 Использование FLASH карт (до 22.4 TB)
 Много RAM (до 4TB)
 Много процессорных ядер (до 160+168)

 In-Memory Database Machine

10

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

10
Архитектура Exadata
Single Instance RAC

InfiniBand Switch/Network

Exadata Cell

11

Exadata Cell

Exadata Cell

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

•Каждая ячейка Exadata – самостоятельный
сервер с установленными дисками и ПО
Exadata
•Данные «размазаны» между многими
ячейками Exadata
•Нет ограничения на количество ячеек в
системе
•Ячейки выполняют множество операций,
которые в традиционной архитектуре делает
Oracle
•Ячейки работают в режиме MPP
Инновации в Exadata
• Интеллектуальная СХД

– 10-кратное сжатие для хранилищ
– 15-кратное сжатие для архивного
хранения

– Smart Scan
– InfiniBand

+

• Hybrid Columnar Compression

+

несжатые

+

сжатые

• Интеллектуальный PCI Flash Cache
– Ускоряет произвольный I/O до 30 раз

primary DB

– Время сканирования уменьшается в
3 раза
standby

12

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

test

dev

backup
Масштабируемость

BIG DATA???

Тысячи процессорных ядер
Петабайты данных
13

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Google trends. Big Data.

14

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

14
Почему о Больших Данных так много говорят?
 Технологии, раньше используемые только в веб-проектах стали

достаточно зрелыми
– Не обязательно держать штат программистов, чтобы ими пользоваться

 Появились новые возможности для получения конкурентных преимуществ:
– Глубокий анализ поведения клиентов
– Высокоточная реклама

– Объединение и анализ данных из многих источников, в том числе

неструктурированных
– Анализ мошенничеств
– и т.д.

 Big Data технологии позволяют существенно удешевить хранение и

обработку данных

15

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

15
Недопонимания о Big Data
 Под Big Data разные вендоры могут понимать разное
 Big Data – это множество разных технологий
– Hadoop
– NoSQL
– Event Processing
– …

 Некоторые задачи из области Big Data могут решаться

и с использованием обычных СУБД, но это часто будет
дороже
16

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

16
Что такое Hadoop?
 Apache Hadoop - распределенная вычислительная архитектура:
– Open source (проект Apache Software Foundation)

– Включает в себя распределенную файловую систему HDFS
– Служит для пакетной обработки и ETL
– Обрабатывает данные в массивно-параллельном режиме (MapReduce)
– Работает на очень больших кластерах (сотни и даже тысячи узлов) на

дешевом «железе»
– Автоматически обрабатывает отказ узлов, и перераспределение данных

17

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

17
Apache Hive
 Apache Hive
– Инфраструктура, эмулирующая реляционную СУБД над

Hadoop
– Разработана в Facebook
– Есть SQL-подобный язык HiveQL
– Позволяет строить свербольшие хранилища данных в Hadoop

18

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

18
Hadoop или реляционная база данных?

Реляционная база
данных

19

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

Hadoop

19
Классическая BI&DW система

Пользователи
ХРАНИЛИЩЕ ДАННЫХ

Oracle Database
20

Oracle ERP, CRM

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Sybase, DB2, MS SQL Server

Confidential – Oracle Internal

Файлы, MS Excel

SAP
BI&DW система c Hadoop

Пользователи
ХРАНИЛИЩЕ ДАННЫХ

Hadoop

Oracle Database
21

Oracle ERP, CRM

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Sybase, DB2, MS SQL Server

Confidential – Oracle Internal

Файлы, MS Excel

SAP
Oracle NoSQL Database

Распределенная, масштабируемая key-value база данных
•

Простая модель данных
•
•
•

•

Пара Key-value с подходом major+sub-key
Операции read/insert/update/delete
Поддержка ACID и BASE транзакций

Масштабируемость

NoSQLDB Driver

•

Высокая доступность
Одна или более реплик

•

Катастрофоустойчивость засчет разнесения реплик

•

Устойчивость к отказу мастера

•

Нет одной точки отказа

Storage Nodes

Storage Nodes

Data Center A

Data Center B

Прозрачная балансировка нагрузки
•

Чтение с мастера или реплики

•

22

NoSQLDB Driver

Оптимизированный доступ к данным

•

•

Application

Динамическое партиционирование и перераспределение

•

•

Application

Драйвер знает о сетевой топологии и временах задержки

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

22
BIG DATA
Appliance

23

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Oracle Big Data Appliance
Машина для Hadoop и NoSQL DB
• Кластер из 18 узлов
– 64 GB RAM на узле = 1152 GB RAM
– 16 ядер Intel на узле = 288 ядер
– 48 TB дисков на узел = 864 TB

• 40 Gb p/sec InfiniBand
• 10 Gb p/sec Ethernet
• Может продаваться в конфигурации 1/3 и 2/3
стойки

24

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Oracle Big Data Appliance Software
• Oracle Linux
• Java Hotspot VM
• Cloudera Hadoop Distribution
Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools

• R Distribution
• Oracle NoSQL Database
• Oracle Adapters for Hadoop:
– Oracle R Connector for Hadoop
– Oracle SQL to HDFS Connector
– Oracle Data Integrator Application Adapter for Hadoop
– Oracle Loader for Hadoop

25

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Пример: Крупный российский банк
Дано:
1) Файлы, генерируемые “черным ящиком”
Файлы без единого
переноса строки,
размером несколько
сотен Мб. Суммарный
объем десятки Тб
2) Мета-описание этих
файлов (Excel)
Прим: формат файлов
меняется раз в несколько
недель

26

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Задача
Необходимо:
1) Хранить всю первичную информацию в течении нескольких
лет
2) Загружать часть полей
в РСУБД Oracle (~ 50 из
1000)
3) Список полей,
необходимых для загрузки
в РСУБД постоянно
меняется

27

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Решение

Big Data Appliance

ExaData

+ OLH

28

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Event
Processing

29

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Oracle Event Processing
•

Технология обработки и анализа
потока данных
•
•

Упорядочен по времени

•

Нужно на лету уметь обнаруживать
«шаблоны»

•

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Отсутствует конец потока

•

30

Непрерывный поток, часто большого объема

Невозможно или не эффективно
обрабатывать/анализировать в реальном
времени с применением баз данных

Confidential – Oracle Internal
Oracle OEP: Выявление шаблонов
Торговля на бирже – шаблон “W”
Y
X

Z
W

days
9

1

12

SELECT FIRST(x.time), LAST(z.time)
FROM ticker MATCH_RECOGNIZE (ONE ROW PER MATCH PARTITION BY name
PATTERN (X+ Y+ W+ Z+)
DEFINE X AS (price < PREV(price))
Y AS (price > PREV(price))
W AS (price < PREV(price))
Z AS (price > PREV(price)))

31

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

19
Oracle Event Processing in Turkcell
Кто из абонентов послал 5 смс из определенного торгового центра

за 10 последних минут?

33

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal
Платформа Oracle для Big Data

Поток

37

Хранение

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Организация

Confidential – Oracle Internal

Анализ

Визуализация
Платформа Oracle для Big Data

Хранение
Hadoop
Oracle NoSQL
Database
Open source R

Applications

38

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Организация

Анализ

Визуализация

Oracle Event
Processing
Oracle RealTime Decisions
Or
Oracle Big Data
Connectors

Oracle Data
Integrator

Confidential – Oracle Internal

Oracle
Advanced
Analytics
Data
Warehouse
Oracle
Database

In-Database
Analytics

Поток

Oracle Business
Intelligence Applications
Oracle Business
Intelligence Tools
Oracle Endeca
Information Discovery
39

Copyright © 2013, Oracle and/or its affiliates. All rights reserved.

Confidential – Oracle Internal

More Related Content

PPTX
Oracle Big Data proposition
PDF
Преимущества построения оперативной отчетности с помощью технологий Oracle
PDF
Решения Oracle для Big Data
PDF
Подход Oracle к управлению метаданными для аналитических систем
PPTX
Big Data
PPTX
Big data
PDF
4 sas and big data short
PDF
Oracle. Моторин Иларион. "Современные и перспективные системы на базе процесс...
Oracle Big Data proposition
Преимущества построения оперативной отчетности с помощью технологий Oracle
Решения Oracle для Big Data
Подход Oracle к управлению метаданными для аналитических систем
Big Data
Big data
4 sas and big data short
Oracle. Моторин Иларион. "Современные и перспективные системы на базе процесс...

What's hot (15)

PDF
Oracle Data Warehouse Cloud
PDF
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
PDF
Владимир Назаров, HPE: Зачем нужна миграция с UNIX на Linux? Выводы на основ...
PPTX
Архитектура Apache HAWQ Highload++ 2015
PDF
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
PDF
Fors и big data appliance
PDF
Новости и анонсы конференции Oracle Open World 2013
PDF
MySQL NDB Cluster
PDF
Создание географически-распределенных датацентров на базе инженерных систем
PDF
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
PDF
Oracle Big Data. Обзор технологий
PDF
Hadoop -> Cascading -> Cascalog
PPTX
Новые возможности платформы Oracle 12c для хранилищ данных
PDF
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
PDF
Евгения Курмачева (Oracle): Oracle Database 12c
Oracle Data Warehouse Cloud
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Владимир Назаров, HPE: Зачем нужна миграция с UNIX на Linux? Выводы на основ...
Архитектура Apache HAWQ Highload++ 2015
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
Fors и big data appliance
Новости и анонсы конференции Oracle Open World 2013
MySQL NDB Cluster
Создание географически-распределенных датацентров на базе инженерных систем
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
Oracle Big Data. Обзор технологий
Hadoop -> Cascading -> Cascalog
Новые возможности платформы Oracle 12c для хранилищ данных
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
Евгения Курмачева (Oracle): Oracle Database 12c
Ad

Viewers also liked (10)

PPT
Алексей Чумаков. Apache Cassandra на реальном проекте
PDF
Александр Соловьёв, Griddynamics.com
PDF
SSAS: multidemention vs tabular mode
PPTX
Введение в Apache Cassandra
PPTX
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
PDF
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
PPTX
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)
PPTX
3 ibm bdw2015
PPT
Движение по хрупкому дну / Сергей Караткевич (servers.ru)
PPTX
Data Lake vs. Data Warehouse: Which is Right for Healthcare?
Алексей Чумаков. Apache Cassandra на реальном проекте
Александр Соловьёв, Griddynamics.com
SSAS: multidemention vs tabular mode
Введение в Apache Cassandra
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
Apache Cassandra. Ещё одно NoSQL хранилище (Владимир Климонтович)
3 ibm bdw2015
Движение по хрупкому дну / Сергей Караткевич (servers.ru)
Data Lake vs. Data Warehouse: Which is Right for Healthcare?
Ad

Similar to Технологии и продукты Oracle для обработки и анализа Больших Данных (20)

PPTX
1 big data oracle digi oct
PDF
Аналитический обзор рынка Больших Данных от IPOboard
PDF
Новости и анонсы Oracle Open World 2014
PDF
Обзор интегрированных систем Oracle
PDF
OSPconf Big Data Forum 2014 Ilya Gershanov
PPTX
Что такое Big Data ?
PDF
Информационные технологии в эру Больших данных
PPTX
Информационные технологии в эру Больших данных
PDF
Платформа и решения НРЕ для больших данных
PDF
Oracle exa2 biz_summit
PPSX
OSPconf. Big Data Forum 2015
PDF
Oracle Endeca Information Discovery - Платформа для исследования данных
PDF
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
PPTX
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
PDF
HappyDev'15 Keynote: Когда все данные станут большими...
PDF
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
PPTX
Oracle Engineered Systems press releases
PDF
Александр Богданов «Lambda - архитектура»
PDF
6 важнейших качеств платформы для анализа Больших данных
PDF
Oracle Database 12c: Новые возможности Oracle 12c
1 big data oracle digi oct
Аналитический обзор рынка Больших Данных от IPOboard
Новости и анонсы Oracle Open World 2014
Обзор интегрированных систем Oracle
OSPconf Big Data Forum 2014 Ilya Gershanov
Что такое Big Data ?
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
Платформа и решения НРЕ для больших данных
Oracle exa2 biz_summit
OSPconf. Big Data Forum 2015
Oracle Endeca Information Discovery - Платформа для исследования данных
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
Oracle Engineered Systems press releases
Александр Богданов «Lambda - архитектура»
6 важнейших качеств платформы для анализа Больших данных
Oracle Database 12c: Новые возможности Oracle 12c

More from Andrey Akulov (20)

PDF
Highly Automated IT
PDF
Oracle OpenWorld 2016. Big Data references
PPTX
Oracle Cloud Computing portfolio and strategy
PPTX
Oracle IaaS including OCM and Ravello
PPTX
Oracle Ravello
PDF
Oracle Enterprise Metadata Management
PDF
Управление административными учетными записями как средство защиты от челове...
PDF
Cоблюдение требований законодательства с помощью сертифицированных средств бе...
PDF
Защита информации на уровне СУБД
PDF
Новые возможности по разработке приложений (ADF, SOA, BPM)
PDF
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
PDF
Новые возможности распределенной обработки данных в памяти (Coherence)
PDF
Database as a Service
PDF
Новый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
PDF
Oracle database In-Memory - новая технология обработки в памяти
PPTX
Exalogic Technical Overview
PPTX
Edition Based Redefinition . Обновление приложений на “лету”
PPTX
Oracle Database 12c. Консолидация и Мультиарендность
PPTX
Oracle Database In-Memory
PPTX
Oracle NoSQL Database
Highly Automated IT
Oracle OpenWorld 2016. Big Data references
Oracle Cloud Computing portfolio and strategy
Oracle IaaS including OCM and Ravello
Oracle Ravello
Oracle Enterprise Metadata Management
Управление административными учетными записями как средство защиты от челове...
Cоблюдение требований законодательства с помощью сертифицированных средств бе...
Защита информации на уровне СУБД
Новые возможности по разработке приложений (ADF, SOA, BPM)
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
Новые возможности распределенной обработки данных в памяти (Coherence)
Database as a Service
Новый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
Oracle database In-Memory - новая технология обработки в памяти
Exalogic Technical Overview
Edition Based Redefinition . Обновление приложений на “лету”
Oracle Database 12c. Консолидация и Мультиарендность
Oracle Database In-Memory
Oracle NoSQL Database

Технологии и продукты Oracle для обработки и анализа Больших Данных

  • 1. 0 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 2. Технологии и продукты Oracle для обработки и анализа Больших Данных Андрей Пивоваров Руководитель группы перспективных технологий 1 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 3. Gartner Hype Cycle 2013 2 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 2
  • 4. Откуда берутся Большие данные? (1/2) Они были всегда, но не всегда обрабатываются  Например, традиционные данные из RDBMS за прошлые годы  В самой сущности таких данных может не быть ничего нового, их просто очень много.  Возникают вопросы о целесообразности хранения и обработки таких объемов в традиционных архитектурах  Это может быть просто дорого 3 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 3
  • 5. Откуда берутся Большие данные? (2/2) Новые данные  Логи, данные телеметрии, датчиков, полуструктурированные данные и неструктурированные данные, записи в социальных сетях, вебсайты и т.д.  Данные, которые могут очень быстро накапливаться, при этом, обычно (но не всегда) информационная плотность их низкая.  Данные, которые очень дорого хранить используя традиционный подход 4 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 4
  • 6. Зачем обрабатывать Большие Данные?  Очень многие примеры о Big Data связаны с точечным маркетингом и персонализацией  Персонализированные предложения требуют очень большого количества данных о поведении клиентов.  Необходимость собирать данные из многих источников 5 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 5
  • 7. Платформа Oracle для обработки Больших Данных Поток 6 Хранение Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Организация Confidential – Oracle Internal Анализ Визуализация
  • 8. Платформа Oracle для обработки Больших Данных Хранение Hadoop Oracle NoSQL Database Open source R Applications 7 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Организация Анализ Визуализация Oracle Event Processing Oracle RealTime Decisions Or Oracle Big Data Connectors Oracle Data Integrator Confidential – Oracle Internal Oracle Advanced Analytics Data Warehouse Oracle Database In-Database Analytics Поток Oracle Business Intelligence Applications Oracle Business Intelligence Tools Oracle Endeca Information Discovery
  • 9. Exadata Database Machine 8 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 10. Что такое Oracle Exadata?  Машина для СУБД Oracle – OLTP – Хранилищ данных – Смешанных нагрузок – Консолидации приложений на базе Oracle Database  Построено на основе: – Oracle Database  Все приложения, работающие c Oracle Database, могут работать на Exadata – Oracle Hardware 9 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 9
  • 11. Exadata на аппаратном уровне  Быстрая дисковая подсистема  Использование 40Gb/s Infiniband  Использование FLASH карт (до 22.4 TB)  Много RAM (до 4TB)  Много процессорных ядер (до 160+168)  In-Memory Database Machine 10 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 10
  • 12. Архитектура Exadata Single Instance RAC InfiniBand Switch/Network Exadata Cell 11 Exadata Cell Exadata Cell Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal •Каждая ячейка Exadata – самостоятельный сервер с установленными дисками и ПО Exadata •Данные «размазаны» между многими ячейками Exadata •Нет ограничения на количество ячеек в системе •Ячейки выполняют множество операций, которые в традиционной архитектуре делает Oracle •Ячейки работают в режиме MPP
  • 13. Инновации в Exadata • Интеллектуальная СХД – 10-кратное сжатие для хранилищ – 15-кратное сжатие для архивного хранения – Smart Scan – InfiniBand + • Hybrid Columnar Compression + несжатые + сжатые • Интеллектуальный PCI Flash Cache – Ускоряет произвольный I/O до 30 раз primary DB – Время сканирования уменьшается в 3 раза standby 12 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal test dev backup
  • 14. Масштабируемость BIG DATA??? Тысячи процессорных ядер Петабайты данных 13 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 15. Google trends. Big Data. 14 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 14
  • 16. Почему о Больших Данных так много говорят?  Технологии, раньше используемые только в веб-проектах стали достаточно зрелыми – Не обязательно держать штат программистов, чтобы ими пользоваться  Появились новые возможности для получения конкурентных преимуществ: – Глубокий анализ поведения клиентов – Высокоточная реклама – Объединение и анализ данных из многих источников, в том числе неструктурированных – Анализ мошенничеств – и т.д.  Big Data технологии позволяют существенно удешевить хранение и обработку данных 15 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 15
  • 17. Недопонимания о Big Data  Под Big Data разные вендоры могут понимать разное  Big Data – это множество разных технологий – Hadoop – NoSQL – Event Processing – …  Некоторые задачи из области Big Data могут решаться и с использованием обычных СУБД, но это часто будет дороже 16 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 16
  • 18. Что такое Hadoop?  Apache Hadoop - распределенная вычислительная архитектура: – Open source (проект Apache Software Foundation) – Включает в себя распределенную файловую систему HDFS – Служит для пакетной обработки и ETL – Обрабатывает данные в массивно-параллельном режиме (MapReduce) – Работает на очень больших кластерах (сотни и даже тысячи узлов) на дешевом «железе» – Автоматически обрабатывает отказ узлов, и перераспределение данных 17 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 17
  • 19. Apache Hive  Apache Hive – Инфраструктура, эмулирующая реляционную СУБД над Hadoop – Разработана в Facebook – Есть SQL-подобный язык HiveQL – Позволяет строить свербольшие хранилища данных в Hadoop 18 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 18
  • 20. Hadoop или реляционная база данных? Реляционная база данных 19 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal Hadoop 19
  • 21. Классическая BI&DW система Пользователи ХРАНИЛИЩЕ ДАННЫХ Oracle Database 20 Oracle ERP, CRM Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Sybase, DB2, MS SQL Server Confidential – Oracle Internal Файлы, MS Excel SAP
  • 22. BI&DW система c Hadoop Пользователи ХРАНИЛИЩЕ ДАННЫХ Hadoop Oracle Database 21 Oracle ERP, CRM Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Sybase, DB2, MS SQL Server Confidential – Oracle Internal Файлы, MS Excel SAP
  • 23. Oracle NoSQL Database Распределенная, масштабируемая key-value база данных • Простая модель данных • • • • Пара Key-value с подходом major+sub-key Операции read/insert/update/delete Поддержка ACID и BASE транзакций Масштабируемость NoSQLDB Driver • Высокая доступность Одна или более реплик • Катастрофоустойчивость засчет разнесения реплик • Устойчивость к отказу мастера • Нет одной точки отказа Storage Nodes Storage Nodes Data Center A Data Center B Прозрачная балансировка нагрузки • Чтение с мастера или реплики • 22 NoSQLDB Driver Оптимизированный доступ к данным • • Application Динамическое партиционирование и перераспределение • • Application Драйвер знает о сетевой топологии и временах задержки Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 22
  • 24. BIG DATA Appliance 23 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 25. Oracle Big Data Appliance Машина для Hadoop и NoSQL DB • Кластер из 18 узлов – 64 GB RAM на узле = 1152 GB RAM – 16 ядер Intel на узле = 288 ядер – 48 TB дисков на узел = 864 TB • 40 Gb p/sec InfiniBand • 10 Gb p/sec Ethernet • Может продаваться в конфигурации 1/3 и 2/3 стойки 24 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 26. Oracle Big Data Appliance Software • Oracle Linux • Java Hotspot VM • Cloudera Hadoop Distribution Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools • R Distribution • Oracle NoSQL Database • Oracle Adapters for Hadoop: – Oracle R Connector for Hadoop – Oracle SQL to HDFS Connector – Oracle Data Integrator Application Adapter for Hadoop – Oracle Loader for Hadoop 25 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 27. Пример: Крупный российский банк Дано: 1) Файлы, генерируемые “черным ящиком” Файлы без единого переноса строки, размером несколько сотен Мб. Суммарный объем десятки Тб 2) Мета-описание этих файлов (Excel) Прим: формат файлов меняется раз в несколько недель 26 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 28. Задача Необходимо: 1) Хранить всю первичную информацию в течении нескольких лет 2) Загружать часть полей в РСУБД Oracle (~ 50 из 1000) 3) Список полей, необходимых для загрузки в РСУБД постоянно меняется 27 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 29. Решение Big Data Appliance ExaData + OLH 28 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 30. Event Processing 29 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 31. Oracle Event Processing • Технология обработки и анализа потока данных • • Упорядочен по времени • Нужно на лету уметь обнаруживать «шаблоны» • Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Отсутствует конец потока • 30 Непрерывный поток, часто большого объема Невозможно или не эффективно обрабатывать/анализировать в реальном времени с применением баз данных Confidential – Oracle Internal
  • 32. Oracle OEP: Выявление шаблонов Торговля на бирже – шаблон “W” Y X Z W days 9 1 12 SELECT FIRST(x.time), LAST(z.time) FROM ticker MATCH_RECOGNIZE (ONE ROW PER MATCH PARTITION BY name PATTERN (X+ Y+ W+ Z+) DEFINE X AS (price < PREV(price)) Y AS (price > PREV(price)) W AS (price < PREV(price)) Z AS (price > PREV(price))) 31 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal 19
  • 33. Oracle Event Processing in Turkcell Кто из абонентов послал 5 смс из определенного торгового центра за 10 последних минут? 33 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal
  • 34. Платформа Oracle для Big Data Поток 37 Хранение Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Организация Confidential – Oracle Internal Анализ Визуализация
  • 35. Платформа Oracle для Big Data Хранение Hadoop Oracle NoSQL Database Open source R Applications 38 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Организация Анализ Визуализация Oracle Event Processing Oracle RealTime Decisions Or Oracle Big Data Connectors Oracle Data Integrator Confidential – Oracle Internal Oracle Advanced Analytics Data Warehouse Oracle Database In-Database Analytics Поток Oracle Business Intelligence Applications Oracle Business Intelligence Tools Oracle Endeca Information Discovery
  • 36. 39 Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Confidential – Oracle Internal