SlideShare a Scribd company logo
© 2016 TOSHIBA CORPORATION
高速処理と高信頼性を両立し、
ペタバイト級の多種大量データを蓄積する、
ビッグデータ/IoT時代のデータベース
株式会社 東芝
インダストリアルICTソリューション社
IoTテクノロジーセンター 先端ソフトウェア開発部
野々村 克彦
2
目次
1.はじめに
– ビッグデータ
– NoSQL
– IoTと既存NoSQLの課題
2.GridDB
– オープンソース化
– 特長
– 適用事例
– 公開サイト
3.まとめ
3
• ビジネスの価値を向上させるビッグデータ活用が本格化
– センサーデータ、履歴データなど多様なデータが日々増加
• ビッグデータ管理の要件に合わせたデータベースが必要
ビッグデータ
ビッグデータ管理は柔軟な拡張性が必須
リスク回避
効率向上
新価値創造
データ増加 分析&ビジネス価値向上ビッグデータ管理
非構造
データ
高速性
可用性
大容量VOLUME
VELOCITY
VARIETY
センサ
ログ
株価
履歴
4
• RDB
– スケールアップでは限界がある。ビッグデータを管理するのに適していない
– 一貫性を重視するため、スケールアウトは困難である
• NoSQL(Not Only SQL)
– キーによるPut/Getが基本I/F(キーバリュー型)
– スケールアウトによる性能向上で近年注目されている
– 一貫性を緩和する代わりにRDBでは対応できない規模の
大容量データを管理可能である
RDBとNoSQL
Key
Value
Key
Value
Key
Value
Node A Node B Node C
スケールアウト
RDB
スケールアップ
(CPU、メモリ、ディスク)
NoSQL
5
NoSQLのデータモデル
データモデル
キーバリュー型 列指向型 ドキュメント型
NoSQLの例 Riak Cassandra MongoDB
キー
バリュー
キー
カラム
バリュー
カラム
バリュー
キー
JSON
6
• IoT(Internet of Things、モノのインターネット)
– 一意に識別可能な「もの」がインターネット/クラウドに接続され、情報交換す
ることにより相互に制御する仕組み ※「IoT」『フリー百科事典 ウィキペディア日本語版』
• 特性
– 分、秒周期、さらにはそれ以下の周期で発生する膨大なセンサーデータを扱
う必要がある。長時間に渡るデータを保持する必要がある。
– 各センサ内のデータ欠損や参照データの矛盾など、データ一貫性やデータ整
合性を保つ必要がある。
IoT
IoTデータ(センサー、ログ、履歴、株価等)人の活動で生成されるデータ
・SNS、ゲームなど
・テキスト、イメージデータ
・インメモリ前提
時間
処理数
時間
処理数
7
(A)IoTのデータ管理が困難
– センサ単位の一貫性を保てない。時間範囲指定の検索ができない、
メモリが足りない場合に性能が大幅に劣化、など
(B)既存クラスタ管理方式に起因するトレードオフ問題
IoTにおける既存NoSQLの課題
ピアツーピア(Peer to Peer) マスタスレーブ(Master Slave)
○ノード追加でのデータ再配置が容易
×一貫性維持のためのノード間通信のオーバヘッ
ドが大⇒一貫性と処理速度がトレードオフ
○一貫性の維持は容易
×マスタノードが単一障害点(SPOF)
×ノード追加でのデータ再配置が難しい
Node A
Node B
Node C
Node D
Node A
Node B
Node C
Node D
Master Master’
HA
8
(A)IoTのデータ管理が困難
– センサ単位の一貫性を保てない。時間範囲指定の検索ができない、
メモリが足りない場合に性能が大幅に劣化、など
(B)既存クラスタ管理方式に起因するトレードオフ問題
IoTにおける既存NoSQLの課題
ピアツーピア(Peer to Peer) マスタスレーブ(Master Slave)
○ノード追加でのデータ再配置が容易
×一貫性維持のためのノード間通信のオーバヘッ
ドが大⇒一貫性と処理速度がトレードオフ
○一貫性の維持は容易
×マスタノードが単一障害点(SPOF)
×ノード追加でのデータ再配置が難しい
Node A
Node B
Node C
Node D
Node A
Node B
Node C
Node D
Master Master’
HA
①キーコンテナ型のデータモデル
③ハイブリッド型のクラスタ管理
9
目次
1.はじめに
– ビッグデータ
– NoSQL
– IoTと既存NoSQLの課題
2.GridDB
– オープンソース化
– 特長
– 適用事例
– 公開サイト
3.まとめ
10
• GridDBとは
– IoTデータ管理向けのスケールアウト型DB
• GitHub上にNoSQL機能をソース公開(2016/2/25)
– https://github.com/griddb/griddb_nosql/
• 目的
– ビッグデータ技術の普及促進
• 多くの人に知ってもらいたい、使ってみてもらいたい。
• いろんなニーズをつかみたい。
– 他のオープンソースソフトウェア、システムとの連携強化
オープンソースのGridDB
11
GridDBの特長
① IoT向けデータモデル
– キーコンテナ型のデータモデル
② 高パフォーマンス(High Performance)
– メモリ指向アーキテクチャ
③ 高信頼性(High Reliability)
– (P2Pとマスタスレーブの)ハイブリッド型のクラスタ管理技術
④ 高スケーラビリティ(High Scalability)
– 自律データ再配置(ADDA)技術
12
キーコンテナ型のデータモデル
– キーバリューをグループ化するコンテナ(テーブル)
– コンテナのスキーマ定義が可能。カラムにインデックスを設定可能
SQLライクなクエリ(TQL)が利用可能
– レコード単位でトランザクション操作(コンテナ単位でACID保証)
① IoT向けのデータモデル
単純なキーバリュー型とは異なり、使い慣れたRDBに近いモデリングが可能
※ACID : Atomicity、Consistency、Isolation、Durability
日時 センサA センサB
2015/01/01 0:00 7.788683 0.648364
2015/01/01 1:00 0.68874 0.353611
2015/01/01 2:00 7.677135 5.881216
2015/01/01 3:00 3.731816 2.511166
2015/01/01 4:00 9.739242 0.655805
… … …
機器1
日時 センサA センサB
2015/01/01 0:00 7.788683 0.648364
2015/01/01 1:00 0.68874 0.353611
2015/01/01 2:00 7.677135 5.881216
2015/01/01 3:00 3.731816 2.511166
2015/01/01 4:00 9.739242 0.655805
… … …
機器1
日時 センサA センサB
2015/01/01 0:00 7.788683 0.648364
2015/01/01 1:00 0.68874 0.353611
2015/01/01 2:00 7.677135 5.881216
2015/01/01 3:00 3.731816 2.511166
2015/01/01 4:00 9.739242 0.655805
… … …
機器1
日時 センサA センサB
2015/01/01 0:00 7.788683 0.648364
2015/01/01 1:00 0.68874 0.353611
2015/01/01 2:00 7.677135 5.881216
2015/01/01 3:00 3.731816 2.511166
2015/01/01 4:00 9.739242 0.655805
… … …
機器1
日時 センサA センサB
2015/01/01 0:00 7.788683 0.648364
2015/01/01 1:00 0.68874 0.353611
2015/01/01 2:00 7.677135 5.881216
2015/01/01 3:00 3.731816 2.511166
2015/01/01 4:00 9.739242 0.655805
… … …
機器1
日時 センサA センサB
2015/01/01 0:00 7.788683 0.648364
2015/01/01 1:00 0.68874 0.353611
2015/01/01 2:00 7.677135 5.881216
2015/01/01 3:00 3.731816 2.511166
2015/01/01 4:00 9.739242 0.655805
… … …
機器1
テーブル表現で管理
対象毎にIoTデータを格納機器センサー
機器1
機器2
機器N
データ格納
日時 センサA センサB
2015/01/01 0:00 7.788683 0.648364
キー
コンテナ
IoTデータ
株価
履歴
ログ
機器1のレコード
13
• コンテナの種類
– コレクションコンテナ:レコード管理用
– 時系列コンテナ:時刻で並べられたレコード集合。時系列データ管理用
• 期限解放機能、サンプリング機能など
データモデルの比較
データモデル
キーバリュー型 列指向型 ドキュメント型 キーコンテナ型
NoSQLの例 Riak Cassandra MongoDB GridDB
キー
バリュー
キー
カラム
バリュー
カラム
バリュー
キー
C0 C1 C2 C3
Val Val Val Val
Val Val Val Val
Val Val Val Val
スキーマ
コンテナ
キー
JSON
14
RDB
メモリ指向アーキテクチャ
– イベント駆動エンジンであるため、少ないリソースで多くの要求を無駄なく処理
– メモリ、ディスクアクセスの排他処理や同期待ちを極力排除した、オーバヘッド
の少ないデータ処理
– GB超級のメモリ搭載を前提とし、読み書きサイズを最適化しI/O効率を改善
② 高パフォーマンス
H/Wのスペックを最大限に生かすインメモリ指向DB
トランザクション管理
クエリ処理
バッファ処理
要求処理
I/O処理
5~10%
イベント駆動エンジン
GridDB Node
15
代表的NoSQLとの性能比較
0
100
200
300
400
500
600
A B C D F
Throughput(Kops/sec)
YCSB Workloads
32 Node Cluster
読み書き混在する処理パタンで
5倍以上高速
GridDB
• Azure上でYahoo! Cloud Serving Benchmark(YCSB)を
実行。GridDBは高速性を売りにする代表的NoSQLと比較しても
、数倍高速 ※YCSB:http://labs.yahoo.com/news/yahoo-cloud-serving-benchmark
16
ハイブリッド型クラスタ技術
– ノード間で自律的、動的にマスタノードを決定。単一故障点(SPOF)を
排除
– レプリケーションによるデータ多重化、フェールオーバーが可能
– 永続化(インメモリ/ディスク併用)
③ 高信頼性
特別なスキルを必要とせずに、高可用なクラスタ構成が可能
データ配置管理情報(キャッシュ)
管理マスタ
Client
オリジナル レプリカ
オリジナル レプリカ
オリジナル レプリカ
オリジナル レプリカ
オリジナルレプリカ
Client Client
データ配置管理情報
自律的クラスタ構成
フェイルオーバー
ノード1 ノード2 ノード3 ノード4 ノード5
データレプリケーション
17
自律データ再配置技術(ADDA:Autonomous Data
Distribution Algorithm)
– インバランス状態を検知、長期同期プランニング
– 2種類のデータを使ってバックグラウンド高速同期、完了後切替
④ 高スケーラビリティ
APL APL APL APL APL APL APL APL APL
DB更新ログ
(短期同期)
メモリブロック
(長期同期)
現状
目標
長期同期
プランニング
①負荷インバランス検知 ②長期同期プランニング ③長期同期実行 ④アクセス切替
18
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
t1 t3 t5 t7 t9 t11 t13 t15 t17 t19 t21 t23 t25 t27 t29 t31
オリジナル(N1)
レプリカ(N2)
新レプリカ(N3)
DB更新ログ メモリブロック
N1 N2 N3
メモリブロック
DB更新ログ
スローダウン
短期同期
t11 t25
更新水位
長期同期
プランニング
サービス継続
高速
長期同期
障害発生
⇒
バランスが崩れる
レプリカ数が減る
19
適用事例:電力会社
従来システムと比べて1,500倍のデータ量を
2,250倍の処理能力で対応
電力小売り事業者に対し、電力送配電網を提供し、契約ユーザの利用量に応じた料金を請求するシステム
電力の自由化に伴い、多数の電力小売り事業者が参入し、契約数の増加(3,000契約→450万契約)による
データ量の爆発的増加へビッグデータ技術を適用し対応
入力データ
2.16億レコード
(43.2GB)
GridDB
処理時間=40分
出力データ
3072MB
(XML)
サーバ(12コア)×5台
入力データ
14.4万レコード
(28.8MB)
RDB
処理時間=60分
出力データ
2MB
(XML)
サーバ(32コア)×1台
データ量 1,500倍 処理能力 2,250倍
全体スループット 8KB/sec
全体スループット 18,000KB/sec
20
Webサイト
• コミュニティ版・サイト
– https://github.com/griddb(日/英)
サーバ(AGPL 3.0)、
Javaドライバ(Apache 2.0)
Hadoop MapReduceコネクタ(Apache 2.0)
※括弧内はライセンス
– 問合せ先:contact@griddb.org
• デベロッパーズ・サイト
– https://www.griddb.net(日/英)
ホワイトペーパ、テクニカルリファレンス、
サンプルコードなど
– フォーラム:
https://www.griddb.net/ja/forum/top/
– SNS(Facebook、Twitter)
21
目次
1.はじめに
– ビッグデータ
– NoSQL
– IoTと既存NoSQLの課題
2.GridDB
– オープンソース化
– 特長
– 適用事例
– 公開サイト
3.まとめ
22
• GridDBは高速処理と高信頼性を両立し、ペタバイト級の多種
大量データを蓄積する、ビッグデータ/IoT時代のデータベース
です。
– High Performance
– High Scalability
– High Reliability
まとめ
オープンソースのGridDBを是非とも使ってみてください。
● 本資料に掲載の製品名、サービス名には、各社の登録商標または商標が含まれています。
23

More Related Content

PDF
【KSKアナリティクス】 RapidMiner 紹介 (short)
PDF
【KSKアナリティクス】 【前編】 オープンデータ 分析 - XML ファイルからデータ抽出・整形 -
PDF
Watson analytics ご紹介
PDF
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
PDF
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
PDF
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
PDF
何を基準に選定すべきなのか!? 〜ビッグデータ×IoT×AI時代のデータベースのアーキテクチャとメカニズムの比較〜
PDF
Toolsの杜 - ランチセッションB - HTML5時代の業務アプリケーション開発にマッチ!グレープシティ JavaScript製品のご紹介
【KSKアナリティクス】 RapidMiner 紹介 (short)
【KSKアナリティクス】 【前編】 オープンデータ 分析 - XML ファイルからデータ抽出・整形 -
Watson analytics ご紹介
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
何を基準に選定すべきなのか!? 〜ビッグデータ×IoT×AI時代のデータベースのアーキテクチャとメカニズムの比較〜
Toolsの杜 - ランチセッションB - HTML5時代の業務アプリケーション開発にマッチ!グレープシティ JavaScript製品のご紹介

Similar to 高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB (20)

PDF
【KSKアナリティクス】Pentaho紹介
PDF
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
PPTX
kintone アプリ & バーコード活用 & Excel 連携
PDF
Top 5 mistakes deploying o365
PPTX
JAWS-UG IoT専門支部 講演資料 IoT Analyticsによる構築事例説明
PDF
Ignite update databricks_stream_analytics
PPTX
kintone をフル活用したIoT プロジェクトの話
PDF
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
PDF
マイクロソフトのIoT/AI戦略
PDF
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
PDF
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
PDF
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
PPTX
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
PDF
CIサーバを制圧せよ! - プロジェクトメトリクスと自動化技術の活用よる混乱の収拾と「最強」の組織の育成
PPTX
ノンプログラミングで API はじめて体験!_築山 春木氏
PDF
八子クラウド座談会資料(当日討議メモ付き) 20180929
PDF
20180605 azure antenna_workshop
PDF
【さくらのクラウド】サービス概要カタログ 2018年10月号
PDF
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
PDF
マイクロソフトの AI プラットフォーム & Cognitive Services 概要 ~ Ignite 2020 Recap
【KSKアナリティクス】Pentaho紹介
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
kintone アプリ & バーコード活用 & Excel 連携
Top 5 mistakes deploying o365
JAWS-UG IoT専門支部 講演資料 IoT Analyticsによる構築事例説明
Ignite update databricks_stream_analytics
kintone をフル活用したIoT プロジェクトの話
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
マイクロソフトのIoT/AI戦略
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
第2回すだちくん勉強会におけるIoT最新動向と題したプレゼン資料
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
CIサーバを制圧せよ! - プロジェクトメトリクスと自動化技術の活用よる混乱の収拾と「最強」の組織の育成
ノンプログラミングで API はじめて体験!_築山 春木氏
八子クラウド座談会資料(当日討議メモ付き) 20180929
20180605 azure antenna_workshop
【さくらのクラウド】サービス概要カタログ 2018年10月号
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
マイクロソフトの AI プラットフォーム & Cognitive Services 概要 ~ Ignite 2020 Recap
Ad

More from griddb (20)

PDF
オープンソースのIoT向けデータベースGridDB-最新の強化ポイントについて-
PDF
ペタバイトデータをSQLでリアルタイム分析し、品質を向上させたユーザ事例~現場の苦労を紹介~
PDF
2024年時系列データベースの最新動向と最適な選択基準…時系列データベースは、現代のデータ駆動型ビジネスにおいて不可欠な要素となっています。適切な時系列デ...
PDF
ビッグデータ・IoTシステム向け高速スケールアウト型データベース GridDB - 従来のデータベースでは不可能だったビッグデータのリアルタイム分析が可...
PDF
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB - 強化された時系列データ管理・検索機能について -
PDF
東芝のデータ処理技術基盤のご紹介(ポスター)
PDF
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB ~ クラウドでGridDBを使ってみましょう ~
PDF
IoT指向のクラウドデータベースサービスGridDB Cloud ~その特徴とデータ連携の方法~
PDF
ペタバイト級でも扱えるGridDBのアーキテクチャ Deep Dive
PDF
日本発のオープンソース・データベース GridDB
PDF
NoSQL/SQLデュアルインタフェースを備えたIoT向けデータベースGridDB ~コマンドライン・インターフェース(CLI)を使ってみましょう~
PDF
多様性時代のDB選択
PDF
遂に登場! GridDBからデータベースサービス GridDB Cloud ~その設計思想と運用の原則
PDF
アーキテクチャを一新したIoT/ビッグデータ向けデータベースGridDB
PDF
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB ~ GridDB CE 4.6のテーブルパーティショニングを 使っ...
PDF
ビッグデータやIoTシステムを支えるデータベース 『GridDB』
PDF
【ハンズオンセミナー】NoSQL/SQLデュアルインタフェースを備えたIoT向けデータベースGridDB ~ GridDB CE 4.6のテーブルパーティ...
PDF
データを事業に活かすために必要なデータ基盤とは
PDF
GridDB: A Distributed SQL time series database for IoT and Big Data
PDF
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~
オープンソースのIoT向けデータベースGridDB-最新の強化ポイントについて-
ペタバイトデータをSQLでリアルタイム分析し、品質を向上させたユーザ事例~現場の苦労を紹介~
2024年時系列データベースの最新動向と最適な選択基準…時系列データベースは、現代のデータ駆動型ビジネスにおいて不可欠な要素となっています。適切な時系列デ...
ビッグデータ・IoTシステム向け高速スケールアウト型データベース GridDB - 従来のデータベースでは不可能だったビッグデータのリアルタイム分析が可...
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB - 強化された時系列データ管理・検索機能について -
東芝のデータ処理技術基盤のご紹介(ポスター)
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB ~ クラウドでGridDBを使ってみましょう ~
IoT指向のクラウドデータベースサービスGridDB Cloud ~その特徴とデータ連携の方法~
ペタバイト級でも扱えるGridDBのアーキテクチャ Deep Dive
日本発のオープンソース・データベース GridDB
NoSQL/SQLデュアルインタフェースを備えたIoT向けデータベースGridDB ~コマンドライン・インターフェース(CLI)を使ってみましょう~
多様性時代のDB選択
遂に登場! GridDBからデータベースサービス GridDB Cloud ~その設計思想と運用の原則
アーキテクチャを一新したIoT/ビッグデータ向けデータベースGridDB
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB ~ GridDB CE 4.6のテーブルパーティショニングを 使っ...
ビッグデータやIoTシステムを支えるデータベース 『GridDB』
【ハンズオンセミナー】NoSQL/SQLデュアルインタフェースを備えたIoT向けデータベースGridDB ~ GridDB CE 4.6のテーブルパーティ...
データを事業に活かすために必要なデータ基盤とは
GridDB: A Distributed SQL time series database for IoT and Big Data
オープンソースデータベース GridDB ~ なぜ いま、データベースを開発したのか?その理由とGridDBの概要紹介 ~
Ad

高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB