SlideShare a Scribd company logo
Deep Learning on
Apache Spark
Yuta Imai
Solutions Engineer, Hortonworks
Apache Spark
3	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Apache Spark
Ã  RDDという分散データセットを処理の基本単位としたジェネリッ
クな⼤規模データ処理のためのエンジン
Ã  プログラマフレンドリなAPIを提供しており⼈気が⾼い
Ã  Spark SQL, Spark Streaming, SparkML, GraphX, SparkR
4	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
sc.textFile("/some-hdfs-data")	
	
	
	
map	map	 reduceByKey	 collect	textFile	
.flatMap(line=>line.split("	"))	
.map(word=>(word,	1)))	
.reduceByKey(_	+	_,	3)	
.collect()	
RDD[String]
RDD[List[String]]
RDD[(String, Int)]
Array[(String, Int)]
RDD[(String, Int)]
すべてのデータ処理の基本単位となるRDD
RDDに対する処理のつながりをDAGとして構築し・・・
5	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Driver
(e.g. Zeppelin)
Executor Executor Executor
Job
Task Task
P PRDD
Task
P
Task Task
P P
Task
P
Task Task
P P
Task
P
HDFS HDFS HDFS
Worker	Node	1	 Worker	Node	2	
SparkはRDDに対する処理を分散実⾏する
構築されたDAGを分散実⾏する
Deep Leaning & Spark
7	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Deep Learningと分散処理
Ã  ”Data Parallel”によるDeep Learningのモデルトレーニングの並列化
と、それによる処理時間の短縮
mini	
batch	
mini	
batch	
mini	
batch	
mini	
batch	
Model	
シリアルに
評価&モデル更新
mini	
batch	
mini	
batch	
mini	
batch	
mini	
batch	
Model	
Copy	
Model	
Copy	
Model	
Copy	
Model	
Copy	
Master	
同⼀モデルのコ
ピーによる評価の
並列化。結果を
Masterでモデル更
新し、再度モデル
を配布
8	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Deep Learning on Apache Spark
Apache Spark上で動作するDeep Learningフレームワークの代表的な選択肢
Ã Deeplearning4j
– Skymind社が開発を進めているオープンソースのプロジェク
ト。商⽤サポートあり。
– その名のとおりJVMで動くことを前提に作られている。
– ND4jという多次元配列取扱の
ライブラリも⼀緒に提供
citaHon:	hJp://deeplearning4j.org/
9	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Deep Learning on Apache Spark
Apache Spark上で動作するDeep Learningフレームワークの代表的な選択肢
Ã CaffeOnSpark
– CaffeのSpark拡張
– Yahoo! Inc.によって主に開発が進められているオープン
ソースプロジェクト。
– 既存のSparkのコード資産やワークフロー資産を強調。
citaHon:	hJp://yahoohadoop.tumblr.com/post/139916563586/caffeonspark-open-sourced-for-distributed-deep
10	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Deep Learning on Apache Spark
Apache Spark上で動作するDeep Learningフレームワークの代表的な選択肢
Ã H2O on Spark(Sparkling Water)
– H2O社が開発しているオープンソースプロジェクト。商⽤サ
ポートあり。
– DataFrameの実装あり
– FFNNのみサポート(?)
citaHon:	hJps://github.com/h2oai/sparkling-water/blob/master/DEVEL.md
11	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Deep Learning on Apache Spark
他にも・・・
Ã SparkNet
Ã TensorSpark
Ã (Tensorflow)
12	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Deep Learning on Apache Spark
他にも・・・
Ã SparkNet
Ã SparklingWarter
Ã TensorSpark
Ã (Tensorflow)
Why Spark?(& Hortonworks)
14	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Why Spark?
Ã データストアとしてのHadoop
– HDFSをデータストアとして利⽤可能
– 同じようにHiveからデータを取り出したデータをトレーニング
に利⽤することも
– SparkはHDFSやHive他、様々なデータストアを利⽤できるの
で⼤規模なトレーニングデータの取り出しや、結果の保存など
のワークフローの構築が容易
15	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Why Spark?
Ã YARNによるリソース管理
– Hadoopクラスタからのリソース払い出し/管理。
– リソースキューを活⽤することによりワークロード管理も。
– Node Labelを利⽤することにより例えばGPUノードだけを割
り当てるといったことも可能に。
– もちろんリソースへのアクセスコントロールも。
1	 °	 °	 °	 °	 °	 °	 °	
°	 °	 °	 °	 °	 °	 °	 °	
°	 °	 °	 °	 °	 °	 °	 n	
	SQL	
Hive	
	Pig	
Script-based	
ETL	
Stream	
Processing	
Storm	
ML/DL	
Spark	
YARN RM
App Master
Monitoring UI
Spark⽤にリソースを払い出し/管理
16	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Why Spark?
Ã Apache Zeppelin
– SparkのノートブックであるZeppelinを活⽤することでワーク
フローの構築がしやすく。
17	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Deep Learning on Apache Spark on Hortonworks Data Platform
Hortonworks Data Platform 2.5
GOVERNANCE		 OPERATION
S	
BATCH,	INTERACTIVE	&	REAL-TIME	DATA	ACCESS	
YARN:	Data	OperaIng	System	
(Cluster	Resource	Management)	
Map		
Reduce	
Apache	Falcon	
Apache	Sqoop	
Apache	Flume	
Apache	Ka^a	
Apache	
	Hive	
Apache	
	Pig	
Apache	
	HBase	
Apache	
	Accumulo	
Apache	
	Solr	
Apache		
Spark	
Apache	
	Storm	
1	 •	 •	 •	 •	 •	 •	 •	 •	 •	 •	 •	
•	 •	 •	 •	 •	 •	 •	 •	 •	 •	 •	 •	
HDFS		
(Hadoop	Distributed	File	System)	
Apache	
Ambari	
Apache	
ZooKeeper	
Apache	Oozie	
Deployment	Choice	
Linux Windows On-
premises
Cloud
Apache	Atlas	
Cloudbreak	
SECURITY	
Apache	
Ranger	
Apache	Knox	
Apache	Atlas	
HDFS	
EncrypHon	
ISV		
Engines	
→ 周辺部の⼿間はプラットフォームに任せ
  DLアプリケーションの開発にリソースを集中できる!

More Related Content

PDF
Hadoop/Spark セルフサービス系の事例まとめ
PDF
IoTアプリケーションで利用するApache NiFi
PDF
OLAP options on Hadoop
PDF
Hadoop最新事情とHortonworks Data Platform
PDF
Spark at Scale
PDF
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
PDF
Case study of DevOps for Hadoop in Recruit.
PDF
Yifeng spark-final-public
Hadoop/Spark セルフサービス系の事例まとめ
IoTアプリケーションで利用するApache NiFi
OLAP options on Hadoop
Hadoop最新事情とHortonworks Data Platform
Spark at Scale
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Case study of DevOps for Hadoop in Recruit.
Yifeng spark-final-public

What's hot (20)

PDF
Yifeng hadoop-present-public
PDF
Apache Hiveの今とこれから - 2016
PDF
Apache ambari
PPTX
The truth about SQL and Data Warehousing on Hadoop
PDF
Apache Ambari Overview -- Hadoop for Everyone
PDF
Data Science on Hadoop
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
PDF
Comparison of Transactional Libraries for HBase
PPTX
Case Study: OLAP usability on Spark and Hadoop
PDF
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
PDF
Beginner must-see! A future that can be opened by learning Hadoop
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
PDF
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
PDF
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
PDF
Apache Hadoop and YARN, current development status
PPTX
Struggle against crossdomain data complexity in Recruit Group
PDF
HDP Security Overview
PPTX
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
PDF
Hive-sub-second-sql-on-hadoop-public
Yifeng hadoop-present-public
Apache Hiveの今とこれから - 2016
Apache ambari
The truth about SQL and Data Warehousing on Hadoop
Apache Ambari Overview -- Hadoop for Everyone
Data Science on Hadoop
sparksql-hive-bench-by-nec-hwx-at-hcj16
Comparison of Transactional Libraries for HBase
Case Study: OLAP usability on Spark and Hadoop
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
Beginner must-see! A future that can be opened by learning Hadoop
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Apache Hadoop and YARN, current development status
Struggle against crossdomain data complexity in Recruit Group
HDP Security Overview
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Deep Dive into Spark SQL with Advanced Performance Tuning
Hive-sub-second-sql-on-hadoop-public
Ad

Viewers also liked (20)

PDF
Which Is Deeper - Comparison Of Deep Learning Frameworks On Spark
PDF
WebDB Forum 2016 gunosy
PDF
Benchmark and Metrics
PDF
Dynamic Resource Allocation in Apache Spark
PDF
HDP2.5 Updates
PPTX
TensorFrames: Google Tensorflow on Apache Spark
PDF
Deep learning on spark
PPTX
Deep Learning基本理論とTensorFlow
PDF
Advanced Spark and TensorFlow Meetup May 26, 2016
PDF
Global Gaming On AWS
PDF
Hadoop in adtech
PDF
Hadoop and Kerberos
PDF
Deep Learning - The Past, Present and Future of Artificial Intelligence
PDF
ストーリーテリング・アルゴリズムの論文紹介と擬似実装(word2vecの応用)
PDF
続分かりやすいパターン認識 4章後半(4.7以降)
PPTX
Hive - Apache hadoop Bigdata training by Desing Pathshala
PDF
Hadoop Summit Amsterdam 2014: Capacity Planning In Multi-tenant Hadoop Deploy...
PDF
KDD2013読み会: Direct Optimization of Ranking Measures
PPTX
Repeat buyer prediction for e commerce, KDD2016
PDF
Scaling Spark Workloads on YARN - Boulder/Denver July 2015
Which Is Deeper - Comparison Of Deep Learning Frameworks On Spark
WebDB Forum 2016 gunosy
Benchmark and Metrics
Dynamic Resource Allocation in Apache Spark
HDP2.5 Updates
TensorFrames: Google Tensorflow on Apache Spark
Deep learning on spark
Deep Learning基本理論とTensorFlow
Advanced Spark and TensorFlow Meetup May 26, 2016
Global Gaming On AWS
Hadoop in adtech
Hadoop and Kerberos
Deep Learning - The Past, Present and Future of Artificial Intelligence
ストーリーテリング・アルゴリズムの論文紹介と擬似実装(word2vecの応用)
続分かりやすいパターン認識 4章後半(4.7以降)
Hive - Apache hadoop Bigdata training by Desing Pathshala
Hadoop Summit Amsterdam 2014: Capacity Planning In Multi-tenant Hadoop Deploy...
KDD2013読み会: Direct Optimization of Ranking Measures
Repeat buyer prediction for e commerce, KDD2016
Scaling Spark Workloads on YARN - Boulder/Denver July 2015
Ad

Similar to Deep Learning On Apache Spark (20)

PPTX
Jjug ccc
PDF
ビッグじゃなくても使えるSpark Streaming
PPTX
Apache Sparkを使った感情極性分析
PDF
Apache Sparkについて
PDF
BigDLでScala × DeepLearning に入門した話
PDF
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
PPTX
Pythonで入門するApache Spark at PyCon2016
PPTX
Spark Summit 2014 の報告と最近の取り組みについて
PDF
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
PDF
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
PPTX
2014 11-20 Machine Learning with Apache Spark 勉強会資料
PDF
SparkMLlibで始めるビッグデータを対象とした機械学習入門
PPTX
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
PDF
Apache spark 2.3 and beyond
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Sparkを用いたビッグデータ解析 〜 前編 〜
PPTX
Bluemixを使ったTwitter分析
PDF
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
PPT
Quick Overview of Upcoming Spark 3.0 + α
PPTX
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
Jjug ccc
ビッグじゃなくても使えるSpark Streaming
Apache Sparkを使った感情極性分析
Apache Sparkについて
BigDLでScala × DeepLearning に入門した話
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Pythonで入門するApache Spark at PyCon2016
Spark Summit 2014 の報告と最近の取り組みについて
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
2014 11-20 Machine Learning with Apache Spark 勉強会資料
SparkMLlibで始めるビッグデータを対象とした機械学習入門
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
Apache spark 2.3 and beyond
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkを用いたビッグデータ解析 〜 前編 〜
Bluemixを使ったTwitter分析
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
Quick Overview of Upcoming Spark 3.0 + α
SparkとJupyterNotebookを使った分析処理 [Html5 conference]

More from Yuta Imai (8)

PPTX
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
PDF
Spark Streaming + Amazon Kinesis
PDF
オンラインゲームの仕組みと工夫
PDF
Amazon Machine Learning
PDF
Digital marketing on AWS
PDF
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
PPTX
クラウドネイティブなアーキテクチャでサクサク解析
PPTX
CloudFront経由でのCORS利用
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Spark Streaming + Amazon Kinesis
オンラインゲームの仕組みと工夫
Amazon Machine Learning
Digital marketing on AWS
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
クラウドネイティブなアーキテクチャでサクサク解析
CloudFront経由でのCORS利用

Deep Learning On Apache Spark