SlideShare a Scribd company logo
©2015 DataStax Confidential. Do not distribute without consent.
 1
DataStax	
  
原沢滋	
  
	
  
	
  	
  
Apache	
  Sparkがリアルタイム分析で	
  
NOSQLのApache	
  Cassandraに出会った。(ウルルン風)	
Hadoop	
  /	
  Spark	
  Conference	
  Japan	
  2016
Data	
  Science	
  at	
  Scale	
  
2009
x
Apache Cassandraとは
分散オペレーショナル・データベース
Apache	
  Cassandra	
  とは	
  
Amazon	
  Dynamo	
  の分散ハッシュ
テーブル(DHT)と、Google	
  BigTable	
  
のKVSの2つの特徴を併せ持つビッ
グデータ用分散データベース	
  
•  Amazon	
  DynamoとGoogle	
  Bigtableの良い点を持つ	
  
•  高速パフォーマンスとリニアな拡張	
  
•  SPOF(Single	
  Point	
  of	
  Failure)がない、簡単に24時間	
  x	
  365
日ダウンさせないで運用が可能	
  
•  完全な分散	
  
•  柔軟なNoSQLデータモデル(スキーマーレス!)	
  
•  シンプルな運用管理	
  
•  SQL	
  ライクな言語CQLをサポートしている	
  
•  様々な無償ツールとドライバ/コネクタを持つ	
  
•  様々な整合性を選ぶ事が可能(CAP定理,	
  BASE)	
  
+	
  
OLTP	
  
(RDBMS)	
  	
 
DWH	
 
(RDBMS)	
 
Cassandra	
  
(NOSQL)	
 
OLTP	
  
(RDBMS)	
  	
 
DWH	
 
(RDBMS)	
 
Hadoop/	
  
Spark	
 
分析・データベース	
 
オペレーショナル	
  
データベース	
 
既存システム(RDB)	
新システムへの要求	
  
*データ量	
  
*パフォマンス	
  
*柔軟性	
  
*可用性	
  
*値段	
分析・データベース	
 
オペレーショナル	
  
データベース	
 
既存システム(RDB)	
新システム(NoSQL)	
今までRDB	
  では不可能、又は実現するのに	
  
コストが膨大にかかった領域	
Cassandra(NOSQL)とHadoop/Sparkの位置付け
Spark	
  Streaming	
  
	
  
Near	
  Real-­‐Zme	
  
SparkSQL	
  
	
  
Structured	
  Data	
  
MLLib	
  
	
  
Machine	
  Learning	
  
GraphX	
  
	
  
Graph	
  Analysis	
  
Sparkは大量データをスキャンするのが得意	
  
CREATE TABLE raw_weather_data (!
wsid text, !
year int, !
month int, !
day int, !
hour int, !
temperature double, !
dewpoint double, !
pressure double, !
wind_direction int, !
wind_speed double, !
sky_condition int, !
sky_condition_text text, !
one_hour_precip double, !
six_hour_precip double, !
PRIMARY KEY ((wsid), year, month, day, hour)!
) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);!
Cassandra	
  は大量データを集めるのが得意です	
  
Spark	
  Streaming	
  
	
  
Near	
  Real-­‐Zme	
  
SparkSQL	
  
	
  
Structured	
  Data	
  
MLLib	
  
	
  
Machine	
  Learning	
  
GraphX	
  
	
  
Graph	
  Analysis	
  
Cassandra は大量データを集めるのが得意です	
Sparkは大量データをスキャンするのが得意	
  
Spark	
  Streaming	
  
	
  
Near	
  Real-­‐Zme	
  
SparkSQL	
  
	
  
Structured	
  Data	
  
MLLib	
  
	
  
Machine	
  Learning	
  
GraphX	
  
	
  
Graph	
  Analysis	
  
CREATE TABLE raw_weather_data (!
wsid text, !
year int, !
month int, !
day int, !
hour int, !
temperature double, !
dewpoint double, !
pressure double, !
wind_direction int, !
wind_speed double, !
sky_condition int, !
sky_condition_text text, !
one_hour_precip double, !
six_hour_precip double, !
PRIMARY KEY ((wsid), year, month, day, hour)!
) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);!
Spark Connector!
Cassandra と Sparkが出会った	
  
Spark	
  Streaming	
  
	
  
Near	
  Real-­‐Zme	
  
SparkSQL	
  
	
  
Structured	
  Data	
  
MLLib	
  
	
  
Machine	
  Learning	
  
GraphX	
  
	
  
Graph	
  Analysis	
  
CREATE TABLE raw_weather_data (!
wsid text, !
year int, !
month int, !
day int, !
hour int, !
temperature double, !
dewpoint double, !
pressure double, !
wind_direction int, !
wind_speed double, !
sky_condition int, !
sky_condition_text text, !
one_hour_precip double, !
six_hour_precip double, !
PRIMARY KEY ((wsid), year, month, day, hour)!
) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);!
Spark Connector!
リアルタイム	
  
分析	
オペレーショナル	
  
データ	
分析結果	
検索結果	
分析結果	
分析結果	
オペレーショナルデータ	
Apache	
  Spark	
  と Apache	
  Cassandra	
  
Store	
  a	
  ton	
  of	
  data	
   Analyze	
  a	
  ton	
  of	
  data	
  
Apache	
  Spark	
  と	
  Apache	
  Cassandra	
  
大量データをスキャンして	
  
高速に集約、分析するのが得意	
大量データをスキャンして	
  
集約、分析するのが苦手	
高速に、安全に大量のデータを	
  
集めてくるのが得意	
大量データを集めてくるのは	
  
基本はバッチ処理	
得意分野x得意分野	
不得意分野を補う
Cassandraで分散された各ノードでSparkも動く	
  
分散データを各
ノードで分析する

パラレル処理
を行う事が可能
各ノードにCassandraとSpark	
  
Apache	
  Spark	
  と	
  Apache	
  Cassandra	
  
ETL不要!!(オペレーションと分析の分離)	
  
オペレーション	
  
オペレーショナル	
  
環境	
分析環境	
双方向レプリケーション	
Apache	
  Spark	
  と	
  Apache	
  Cassandra	
  
SPARK	
  Cassandra	
  Connector	
h[ps://github.com/datastax/spark-­‐cassandra-­‐connector
©2015 DataStax Confidential. Do not distribute without consent.
ありがとうございました!	
  
Twi[er	
  account:	
  @cassandrajapanで情報発信しています	
  
 	
  

More Related Content

PDF
SparkとCassandraの美味しい関係
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
PDF
DB Tech showcase Tokyo 2015 Works Applications
 
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PDF
Developers.IO 2019 Effective Datalake
PDF
ゼロから始めるSparkSQL徹底活用!
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
SparkとCassandraの美味しい関係
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
DB Tech showcase Tokyo 2015 Works Applications
 
RDB開発者のためのApache Cassandra データモデリング入門
Developers.IO 2019 Effective Datalake
ゼロから始めるSparkSQL徹底活用!
sparksql-hive-bench-by-nec-hwx-at-hcj16
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ

What's hot (20)

PDF
今こそクラウドへ!データの移行、連携、統合のコツ
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
PPT
インフラエンジニアのためのcassandra入門
PDF
20190314 PGStrom Arrow_Fdw
PDF
最新版Hadoopクラスタを運用して得られたもの
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
PPTX
Yahoo! JAPANのOracle構成-2017年版
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
PDF
Hadoop概要説明
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
PDF
日々進化するHadoopの 「いま」
PDF
Kuduを調べてみた #dogenzakalt
PDF
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PDF
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
PPTX
分散グラフデータベース DataStax Enterprise Graph
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
PDF
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
今こそクラウドへ!データの移行、連携、統合のコツ
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
インフラエンジニアのためのcassandra入門
20190314 PGStrom Arrow_Fdw
最新版Hadoopクラスタを運用して得られたもの
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Yahoo! JAPANのOracle構成-2017年版
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Hadoop概要説明
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
日々進化するHadoopの 「いま」
Kuduを調べてみた #dogenzakalt
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
分散グラフデータベース DataStax Enterprise Graph
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Ad

Viewers also liked (20)

PDF
SnappyData Overview Slidedeck for Big Data Bellevue
PPTX
Thing you didn't know you could do in Spark
PDF
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
PPTX
Cassandraのバックアップと運用を考える
PDF
Apache Kylinについて #hcj2016
PDF
Guide to Cassandra for Production Deployments
PPTX
Apache Geode で始める Spring Data Gemfire
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PPTX
SnappyData, the Spark Database. A unified cluster for streaming, transactions...
PDF
僕の考える最強のビックデータエンジニア
PDF
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
PDF
Hadoop Conference Japan 2013 Winter オープニングスライド
PDF
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
PDF
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
PDF
NetflixにおけるPresto/Spark活用事例
PPT
Cassandraのしくみ データの読み書き編
PDF
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
PPTX
RDBとNoSQLの上手な付き合い方(勉強会@LIG 2013/11/11)
PPTX
これがCassandra
PDF
SnappyData Overview Slidedeck for Big Data Bellevue
Thing you didn't know you could do in Spark
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
Cassandraのバックアップと運用を考える
Apache Kylinについて #hcj2016
Guide to Cassandra for Production Deployments
Apache Geode で始める Spring Data Gemfire
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
SnappyData, the Spark Database. A unified cluster for streaming, transactions...
僕の考える最強のビックデータエンジニア
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
NetflixにおけるPresto/Spark活用事例
Cassandraのしくみ データの読み書き編
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
RDBとNoSQLの上手な付き合い方(勉強会@LIG 2013/11/11)
これがCassandra
Ad

Similar to (LT)Spark and Cassandra (20)

PDF
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
PPTX
Cassandra Meetup Tokyo, 2016 Spring
PDF
Db tech showcase 2016
PDF
Cassandra Meetup Tokyo, 2016 Spring
PPTX
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
PPTX
事例で学ぶApache Cassandra
PDF
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
DOC
cassandra調査レポート
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
PDF
Cassandraとh baseの比較して入門するno sql
PDF
NoSQLとビックデータ入門編Update版
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
PDF
Datastax Enterpriseをはじめよう
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
PDF
社会ネットワーク分析第7回
PDF
Spark徹底入門 #cwt2015
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
PDF
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
Cassandra Meetup Tokyo, 2016 Spring
Db tech showcase 2016
Cassandra Meetup Tokyo, 2016 Spring
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
事例で学ぶApache Cassandra
PostgreSQLのHTAP適応について考える (PostgreSQL Conference Japan 2024 講演資料)
cassandra調査レポート
db tech showcase2019 オープニングセッション @ 石川 雅也
Cassandraとh baseの比較して入門するno sql
NoSQLとビックデータ入門編Update版
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Datastax Enterpriseをはじめよう
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
社会ネットワーク分析第7回
Spark徹底入門 #cwt2015
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる

More from datastaxjp (11)

PPTX
Cassandra Meetup Tokyo, 2016 Spring 2
PDF
検索エンジンPatheeがAzureとCassandraをどう利用しているのか
PDF
Cassandra v3.0 at Rakuten meet-up on 12/2/2015
PDF
Investigation of Transactions in Cassandra
PDF
Cassandra summit 2015 レポート
PDF
Cassandra Meetup Tokyo, 2015 Summer
PDF
Cassandra and Spark
PDF
[Cassandra summit Tokyo, 2015] Apache Cassandra日本人コミッターが伝える、"Apache Cassandra...
PDF
[Cassandra summit Tokyo, 2015] Cassandra 2015 最新情報 by ジョナサン・エリス(Jonathan Ellis)
PDF
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
PDF
[db tech showcase Tokyo 2015] A27: RDBエンジニアの為のNOSQL, 今どうしてNOSQLなのか?
Cassandra Meetup Tokyo, 2016 Spring 2
検索エンジンPatheeがAzureとCassandraをどう利用しているのか
Cassandra v3.0 at Rakuten meet-up on 12/2/2015
Investigation of Transactions in Cassandra
Cassandra summit 2015 レポート
Cassandra Meetup Tokyo, 2015 Summer
Cassandra and Spark
[Cassandra summit Tokyo, 2015] Apache Cassandra日本人コミッターが伝える、"Apache Cassandra...
[Cassandra summit Tokyo, 2015] Cassandra 2015 最新情報 by ジョナサン・エリス(Jonathan Ellis)
[db tech showcase Tokyo 2015] E35: Web, IoT, モバイル時代のデータベース、Apache Cassandraを学ぼう
[db tech showcase Tokyo 2015] A27: RDBエンジニアの為のNOSQL, 今どうしてNOSQLなのか?

(LT)Spark and Cassandra

  • 1. ©2015 DataStax Confidential. Do not distribute without consent. 1 DataStax   原沢滋         Apache  Sparkがリアルタイム分析で   NOSQLのApache  Cassandraに出会った。(ウルルン風) Hadoop  /  Spark  Conference  Japan  2016
  • 2. Data  Science  at  Scale   2009
  • 3. x Apache Cassandraとは 分散オペレーショナル・データベース Apache  Cassandra  とは   Amazon  Dynamo  の分散ハッシュ テーブル(DHT)と、Google  BigTable   のKVSの2つの特徴を併せ持つビッ グデータ用分散データベース   •  Amazon  DynamoとGoogle  Bigtableの良い点を持つ   •  高速パフォーマンスとリニアな拡張   •  SPOF(Single  Point  of  Failure)がない、簡単に24時間  x  365 日ダウンさせないで運用が可能   •  完全な分散   •  柔軟なNoSQLデータモデル(スキーマーレス!)   •  シンプルな運用管理   •  SQL  ライクな言語CQLをサポートしている   •  様々な無償ツールとドライバ/コネクタを持つ   •  様々な整合性を選ぶ事が可能(CAP定理,  BASE)   +  
  • 4. OLTP   (RDBMS)   DWH (RDBMS) Cassandra   (NOSQL) OLTP   (RDBMS)   DWH (RDBMS) Hadoop/   Spark 分析・データベース オペレーショナル   データベース 既存システム(RDB) 新システムへの要求   *データ量   *パフォマンス   *柔軟性   *可用性   *値段 分析・データベース オペレーショナル   データベース 既存システム(RDB) 新システム(NoSQL) 今までRDB  では不可能、又は実現するのに   コストが膨大にかかった領域 Cassandra(NOSQL)とHadoop/Sparkの位置付け
  • 5. Spark  Streaming     Near  Real-­‐Zme   SparkSQL     Structured  Data   MLLib     Machine  Learning   GraphX     Graph  Analysis   Sparkは大量データをスキャンするのが得意  
  • 6. CREATE TABLE raw_weather_data (! wsid text, ! year int, ! month int, ! day int, ! hour int, ! temperature double, ! dewpoint double, ! pressure double, ! wind_direction int, ! wind_speed double, ! sky_condition int, ! sky_condition_text text, ! one_hour_precip double, ! six_hour_precip double, ! PRIMARY KEY ((wsid), year, month, day, hour)! ) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);! Cassandra  は大量データを集めるのが得意です  
  • 7. Spark  Streaming     Near  Real-­‐Zme   SparkSQL     Structured  Data   MLLib     Machine  Learning   GraphX     Graph  Analysis   Cassandra は大量データを集めるのが得意です Sparkは大量データをスキャンするのが得意  
  • 8. Spark  Streaming     Near  Real-­‐Zme   SparkSQL     Structured  Data   MLLib     Machine  Learning   GraphX     Graph  Analysis   CREATE TABLE raw_weather_data (! wsid text, ! year int, ! month int, ! day int, ! hour int, ! temperature double, ! dewpoint double, ! pressure double, ! wind_direction int, ! wind_speed double, ! sky_condition int, ! sky_condition_text text, ! one_hour_precip double, ! six_hour_precip double, ! PRIMARY KEY ((wsid), year, month, day, hour)! ) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);! Spark Connector! Cassandra と Sparkが出会った  
  • 9. Spark  Streaming     Near  Real-­‐Zme   SparkSQL     Structured  Data   MLLib     Machine  Learning   GraphX     Graph  Analysis   CREATE TABLE raw_weather_data (! wsid text, ! year int, ! month int, ! day int, ! hour int, ! temperature double, ! dewpoint double, ! pressure double, ! wind_direction int, ! wind_speed double, ! sky_condition int, ! sky_condition_text text, ! one_hour_precip double, ! six_hour_precip double, ! PRIMARY KEY ((wsid), year, month, day, hour)! ) WITH CLUSTERING ORDER BY (year DESC, month DESC, day DESC, hour DESC);! Spark Connector! リアルタイム   分析 オペレーショナル   データ 分析結果 検索結果 分析結果 分析結果 オペレーショナルデータ Apache  Spark  と Apache  Cassandra  
  • 10. Store  a  ton  of  data   Analyze  a  ton  of  data   Apache  Spark  と  Apache  Cassandra   大量データをスキャンして   高速に集約、分析するのが得意 大量データをスキャンして   集約、分析するのが苦手 高速に、安全に大量のデータを   集めてくるのが得意 大量データを集めてくるのは   基本はバッチ処理 得意分野x得意分野 不得意分野を補う
  • 12. ETL不要!!(オペレーションと分析の分離)   オペレーション   オペレーショナル   環境 分析環境 双方向レプリケーション Apache  Spark  と  Apache  Cassandra  
  • 14. ©2015 DataStax Confidential. Do not distribute without consent. ありがとうございました!   Twi[er  account:  @cassandrajapanで情報発信しています