Submit Search
Deep Learning On Apache Spark
7 likes
1,880 views
Yuta Imai
GTC Japan 2016でプレゼンした、Spark上で動作するDeep Learningライブラリの選択肢と、Sparkで動かすとこのメリットなどをまとめたスライドです。
Technology
Related topics:
Deep Learning
Read more
1 of 17
Download now
Downloaded 29 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
More Related Content
PDF
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai
PDF
IoTアプリケーションで利用するApache NiFi
Yuta Imai
PDF
OLAP options on Hadoop
Yuta Imai
PDF
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
PDF
Spark at Scale
Yuta Imai
PDF
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
PDF
Case study of DevOps for Hadoop in Recruit.
DataWorks Summit/Hadoop Summit
PDF
Yifeng spark-final-public
Yifeng Jiang
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai
IoTアプリケーションで利用するApache NiFi
Yuta Imai
OLAP options on Hadoop
Yuta Imai
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
Spark at Scale
Yuta Imai
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
Case study of DevOps for Hadoop in Recruit.
DataWorks Summit/Hadoop Summit
Yifeng spark-final-public
Yifeng Jiang
What's hot
(20)
PDF
Yifeng hadoop-present-public
Yifeng Jiang
PDF
Apache Hiveの今とこれから - 2016
Yuta Imai
PDF
Apache ambari
Yuta Imai
PPTX
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
PDF
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
PDF
Data Science on Hadoop
Yifeng Jiang
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
PDF
Comparison of Transactional Libraries for HBase
DataWorks Summit/Hadoop Summit
PPTX
Case Study: OLAP usability on Spark and Hadoop
DataWorks Summit/Hadoop Summit
PDF
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
PDF
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
PDF
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
PDF
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Kimihiko Kitase
PDF
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
PPTX
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
PDF
HDP Security Overview
Yifeng Jiang
PPTX
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
PDF
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
Yifeng hadoop-present-public
Yifeng Jiang
Apache Hiveの今とこれから - 2016
Yuta Imai
Apache ambari
Yuta Imai
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
Data Science on Hadoop
Yifeng Jiang
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Comparison of Transactional Libraries for HBase
DataWorks Summit/Hadoop Summit
Case Study: OLAP usability on Spark and Hadoop
DataWorks Summit/Hadoop Summit
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Kimihiko Kitase
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
HDP Security Overview
Yifeng Jiang
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
Ad
Viewers also liked
(20)
PDF
Which Is Deeper - Comparison Of Deep Learning Frameworks On Spark
Spark Summit
PDF
WebDB Forum 2016 gunosy
Hiroaki Kudo
PDF
Benchmark and Metrics
Yuta Imai
PDF
Dynamic Resource Allocation in Apache Spark
Yuta Imai
PDF
HDP2.5 Updates
Yuta Imai
PPTX
TensorFrames: Google Tensorflow on Apache Spark
Databricks
PDF
Deep learning on spark
Satyendra Rana
PPTX
Deep Learning基本理論とTensorFlow
Tadaichiro Nakano
PDF
Advanced Spark and TensorFlow Meetup May 26, 2016
Chris Fregly
PDF
Global Gaming On AWS
Yuta Imai
PDF
Hadoop in adtech
Yuta Imai
PDF
Hadoop and Kerberos
Yuta Imai
PDF
Deep Learning - The Past, Present and Future of Artificial Intelligence
Lukas Masuch
PDF
ストーリーテリング・アルゴリズムの論文紹介と擬似実装(word2vecの応用)
Tyee Z
PDF
続分かりやすいパターン認識 4章後半(4.7以降)
Motoya Wakiyama
PPTX
Hive - Apache hadoop Bigdata training by Desing Pathshala
Desing Pathshala
PDF
Hadoop Summit Amsterdam 2014: Capacity Planning In Multi-tenant Hadoop Deploy...
Sumeet Singh
PDF
KDD2013読み会: Direct Optimization of Ranking Measures
sleepy_yoshi
PPTX
Repeat buyer prediction for e commerce, KDD2016
Motoya Wakiyama
PDF
Scaling Spark Workloads on YARN - Boulder/Denver July 2015
Mac Moore
Which Is Deeper - Comparison Of Deep Learning Frameworks On Spark
Spark Summit
WebDB Forum 2016 gunosy
Hiroaki Kudo
Benchmark and Metrics
Yuta Imai
Dynamic Resource Allocation in Apache Spark
Yuta Imai
HDP2.5 Updates
Yuta Imai
TensorFrames: Google Tensorflow on Apache Spark
Databricks
Deep learning on spark
Satyendra Rana
Deep Learning基本理論とTensorFlow
Tadaichiro Nakano
Advanced Spark and TensorFlow Meetup May 26, 2016
Chris Fregly
Global Gaming On AWS
Yuta Imai
Hadoop in adtech
Yuta Imai
Hadoop and Kerberos
Yuta Imai
Deep Learning - The Past, Present and Future of Artificial Intelligence
Lukas Masuch
ストーリーテリング・アルゴリズムの論文紹介と擬似実装(word2vecの応用)
Tyee Z
続分かりやすいパターン認識 4章後半(4.7以降)
Motoya Wakiyama
Hive - Apache hadoop Bigdata training by Desing Pathshala
Desing Pathshala
Hadoop Summit Amsterdam 2014: Capacity Planning In Multi-tenant Hadoop Deploy...
Sumeet Singh
KDD2013読み会: Direct Optimization of Ranking Measures
sleepy_yoshi
Repeat buyer prediction for e commerce, KDD2016
Motoya Wakiyama
Scaling Spark Workloads on YARN - Boulder/Denver July 2015
Mac Moore
Ad
Similar to Deep Learning On Apache Spark
(20)
PPTX
Jjug ccc
Tanaka Yuichi
PDF
ビッグじゃなくても使えるSpark Streaming
chibochibo
PPTX
Apache Sparkを使った感情極性分析
Tanaka Yuichi
PDF
Apache Sparkについて
BrainPad Inc.
PDF
BigDLでScala × DeepLearning に入門した話
hirotakanosato
PDF
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
PPTX
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
PPTX
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
PDF
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
NTT DATA Technology & Innovation
PDF
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
NTT DATA Technology & Innovation
PPTX
2014 11-20 Machine Learning with Apache Spark 勉強会資料
Recruit Technologies
PDF
SparkMLlibで始めるビッグデータを対象とした機械学習入門
Takeshi Mikami
PPTX
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
Tanaka Yuichi
PDF
Apache spark 2.3 and beyond
NTT DATA Technology & Innovation
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
PDF
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
PPTX
Bluemixを使ったTwitter分析
Tanaka Yuichi
PDF
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
Kazuki Motohashi
PPT
Quick Overview of Upcoming Spark 3.0 + α
Takeshi Yamamuro
PPTX
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
Tanaka Yuichi
Jjug ccc
Tanaka Yuichi
ビッグじゃなくても使えるSpark Streaming
chibochibo
Apache Sparkを使った感情極性分析
Tanaka Yuichi
Apache Sparkについて
BrainPad Inc.
BigDLでScala × DeepLearning に入門した話
hirotakanosato
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
NTT DATA Technology & Innovation
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
NTT DATA Technology & Innovation
2014 11-20 Machine Learning with Apache Spark 勉強会資料
Recruit Technologies
SparkMLlibで始めるビッグデータを対象とした機械学習入門
Takeshi Mikami
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
Tanaka Yuichi
Apache spark 2.3 and beyond
NTT DATA Technology & Innovation
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
Bluemixを使ったTwitter分析
Tanaka Yuichi
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
Kazuki Motohashi
Quick Overview of Upcoming Spark 3.0 + α
Takeshi Yamamuro
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
Tanaka Yuichi
More from Yuta Imai
(8)
PPTX
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Yuta Imai
PDF
Spark Streaming + Amazon Kinesis
Yuta Imai
PDF
オンラインゲームの仕組みと工夫
Yuta Imai
PDF
Amazon Machine Learning
Yuta Imai
PDF
Digital marketing on AWS
Yuta Imai
PDF
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Yuta Imai
PPTX
クラウドネイティブなアーキテクチャでサクサク解析
Yuta Imai
PPTX
CloudFront経由でのCORS利用
Yuta Imai
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Yuta Imai
Spark Streaming + Amazon Kinesis
Yuta Imai
オンラインゲームの仕組みと工夫
Yuta Imai
Amazon Machine Learning
Yuta Imai
Digital marketing on AWS
Yuta Imai
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Yuta Imai
クラウドネイティブなアーキテクチャでサクサク解析
Yuta Imai
CloudFront経由でのCORS利用
Yuta Imai
Deep Learning On Apache Spark
1.
Deep Learning on Apache
Spark Yuta Imai Solutions Engineer, Hortonworks
2.
Apache Spark
3.
3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Spark Ã
RDDという分散データセットを処理の基本単位としたジェネリッ クな⼤規模データ処理のためのエンジン Ã プログラマフレンドリなAPIを提供しており⼈気が⾼い Ã Spark SQL, Spark Streaming, SparkML, GraphX, SparkR
4.
4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved sc.textFile("/some-hdfs-data") map map reduceByKey
collect textFile .flatMap(line=>line.split(" ")) .map(word=>(word, 1))) .reduceByKey(_ + _, 3) .collect() RDD[String] RDD[List[String]] RDD[(String, Int)] Array[(String, Int)] RDD[(String, Int)] すべてのデータ処理の基本単位となるRDD RDDに対する処理のつながりをDAGとして構築し・・・
5.
5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Driver (e.g. Zeppelin) Executor
Executor Executor Job Task Task P PRDD Task P Task Task P P Task P Task Task P P Task P HDFS HDFS HDFS Worker Node 1 Worker Node 2 SparkはRDDに対する処理を分散実⾏する 構築されたDAGを分散実⾏する
6.
Deep Leaning &
Spark
7.
7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Deep Learningと分散処理 Ã
”Data Parallel”によるDeep Learningのモデルトレーニングの並列化 と、それによる処理時間の短縮 mini batch mini batch mini batch mini batch Model シリアルに 評価&モデル更新 mini batch mini batch mini batch mini batch Model Copy Model Copy Model Copy Model Copy Master 同⼀モデルのコ ピーによる評価の 並列化。結果を Masterでモデル更 新し、再度モデル を配布
8.
8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Deep Learning
on Apache Spark Apache Spark上で動作するDeep Learningフレームワークの代表的な選択肢 Ã Deeplearning4j – Skymind社が開発を進めているオープンソースのプロジェク ト。商⽤サポートあり。 – その名のとおりJVMで動くことを前提に作られている。 – ND4jという多次元配列取扱の ライブラリも⼀緒に提供 citaHon: hJp://deeplearning4j.org/
9.
9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Deep Learning
on Apache Spark Apache Spark上で動作するDeep Learningフレームワークの代表的な選択肢 Ã CaffeOnSpark – CaffeのSpark拡張 – Yahoo! Inc.によって主に開発が進められているオープン ソースプロジェクト。 – 既存のSparkのコード資産やワークフロー資産を強調。 citaHon: hJp://yahoohadoop.tumblr.com/post/139916563586/caffeonspark-open-sourced-for-distributed-deep
10.
10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Deep Learning
on Apache Spark Apache Spark上で動作するDeep Learningフレームワークの代表的な選択肢 Ã H2O on Spark(Sparkling Water) – H2O社が開発しているオープンソースプロジェクト。商⽤サ ポートあり。 – DataFrameの実装あり – FFNNのみサポート(?) citaHon: hJps://github.com/h2oai/sparkling-water/blob/master/DEVEL.md
11.
11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Deep Learning
on Apache Spark 他にも・・・ à SparkNet à TensorSpark à (Tensorflow)
12.
12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Deep Learning
on Apache Spark 他にも・・・ à SparkNet à SparklingWarter à TensorSpark à (Tensorflow)
13.
Why Spark?(& Hortonworks)
14.
14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Why Spark? Ã データストアとしてのHadoop – HDFSをデータストアとして利⽤可能 – 同じようにHiveからデータを取り出したデータをトレーニング に利⽤することも – SparkはHDFSやHive他、様々なデータストアを利⽤できるの で⼤規模なトレーニングデータの取り出しや、結果の保存など のワークフローの構築が容易
15.
15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Why Spark? Ã YARNによるリソース管理 – Hadoopクラスタからのリソース払い出し/管理。 – リソースキューを活⽤することによりワークロード管理も。 – Node
Labelを利⽤することにより例えばGPUノードだけを割 り当てるといったことも可能に。 – もちろんリソースへのアクセスコントロールも。 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° n SQL Hive Pig Script-based ETL Stream Processing Storm ML/DL Spark YARN RM App Master Monitoring UI Spark⽤にリソースを払い出し/管理
16.
16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Why Spark? Ã Apache
Zeppelin – SparkのノートブックであるZeppelinを活⽤することでワーク フローの構築がしやすく。
17.
17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Deep Learning
on Apache Spark on Hortonworks Data Platform Hortonworks Data Platform 2.5 GOVERNANCE OPERATION S BATCH, INTERACTIVE & REAL-TIME DATA ACCESS YARN: Data OperaIng System (Cluster Resource Management) Map Reduce Apache Falcon Apache Sqoop Apache Flume Apache Ka^a Apache Hive Apache Pig Apache HBase Apache Accumulo Apache Solr Apache Spark Apache Storm 1 • • • • • • • • • • • • • • • • • • • • • • • HDFS (Hadoop Distributed File System) Apache Ambari Apache ZooKeeper Apache Oozie Deployment Choice Linux Windows On- premises Cloud Apache Atlas Cloudbreak SECURITY Apache Ranger Apache Knox Apache Atlas HDFS EncrypHon ISV Engines → 周辺部の⼿間はプラットフォームに任せ DLアプリケーションの開発にリソースを集中できる!
Download