Submit Search
Yifeng spark-final-public
2 likes
1,460 views
Yifeng Jiang
Apache Spark overview. Spark and Hadoop -- perfect together.
Software
Read more
1 of 29
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
More Related Content
PDF
Yifeng hadoop-present-public
Yifeng Jiang
PDF
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
PDF
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
PDF
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
PDF
Data Science on Hadoop
Yifeng Jiang
PDF
HDP Security Overview
Yifeng Jiang
PDF
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
Yifeng hadoop-present-public
Yifeng Jiang
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
Data Science on Hadoop
Yifeng Jiang
HDP Security Overview
Yifeng Jiang
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
What's hot
(20)
PDF
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
PPTX
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
PPTX
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
PDF
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
PDF
Deep Learning On Apache Spark
Yuta Imai
PDF
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
PDF
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai
PDF
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
PDF
Comparison of Transactional Libraries for HBase
DataWorks Summit/Hadoop Summit
PPTX
A Benchmark Test on Presto, Spark Sql and Hive on Tez
Gw Liu
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
PDF
HiveとImpalaのおいしいとこ取り
Yukinori Suda
PDF
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
DataWorks Summit
PPTX
Hive on Spark の設計指針を読んでみた
Recruit Technologies
PDF
Tez on EMRを試してみた
Satoshi Noto
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
PDF
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
Deep Learning On Apache Spark
Yuta Imai
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Comparison of Transactional Libraries for HBase
DataWorks Summit/Hadoop Summit
A Benchmark Test on Presto, Spark Sql and Hive on Tez
Gw Liu
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
HiveとImpalaのおいしいとこ取り
Yukinori Suda
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
DataWorks Summit
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Tez on EMRを試してみた
Satoshi Noto
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
Ad
Viewers also liked
(20)
PPTX
Introduction to OB: Chapter #01
Mohammad Qasim Bin Ayaz
PPTX
Veganuary research1
Emily Shaw
PPTX
RIWC_PARA_A036 Independent Living for learning disabled people
Marco Muscroft
PDF
Module 1 lesson 1 rates
Erik Tjersland
PDF
End of mod 3 review with answers
Erik Tjersland
PDF
Module 3 lesson 19 vertical and angles at a point
Erik Tjersland
PDF
Psychokinesis telekinesis
Chandrasekhar A
PDF
Justice climatique : enjeux et perspectives pour la France
Conseil Economique Social et Environnemental
PPT
On time-series databases
Coldbeans Software
PPTX
KWORKS Oyun ve Oyunlaştırmanın Geleceği AR Gaming /Blippar
Ercan Altuğ YILMAZ
PDF
Les dépenses publiques
contact Elabe
PPTX
Multimedia rescue 161018
Ramesh Jain
PDF
La construction d'une Europe dotée d'un socle des droits sociaux
Conseil Economique Social et Environnemental
PDF
APG West Social Media Week: David Wilding, Twitter
APGWest
PDF
Part 3: The Different Schools of Strategy
Open Strategy
PPTX
Funofis- İş Yerinde Oyun ve Oyunlaştırma Eğitimi
Ercan Altuğ YILMAZ
PDF
Speaking to People: The Strategist’s Secret Weapon
Open Strategy
PDF
APG West Social Media Week: Jessi Langsen, H+K
APGWest
PPTX
YARN Ready: Apache Spark
Hortonworks
PDF
Not Your Father's Database by Vida Ha
Spark Summit
Introduction to OB: Chapter #01
Mohammad Qasim Bin Ayaz
Veganuary research1
Emily Shaw
RIWC_PARA_A036 Independent Living for learning disabled people
Marco Muscroft
Module 1 lesson 1 rates
Erik Tjersland
End of mod 3 review with answers
Erik Tjersland
Module 3 lesson 19 vertical and angles at a point
Erik Tjersland
Psychokinesis telekinesis
Chandrasekhar A
Justice climatique : enjeux et perspectives pour la France
Conseil Economique Social et Environnemental
On time-series databases
Coldbeans Software
KWORKS Oyun ve Oyunlaştırmanın Geleceği AR Gaming /Blippar
Ercan Altuğ YILMAZ
Les dépenses publiques
contact Elabe
Multimedia rescue 161018
Ramesh Jain
La construction d'une Europe dotée d'un socle des droits sociaux
Conseil Economique Social et Environnemental
APG West Social Media Week: David Wilding, Twitter
APGWest
Part 3: The Different Schools of Strategy
Open Strategy
Funofis- İş Yerinde Oyun ve Oyunlaştırma Eğitimi
Ercan Altuğ YILMAZ
Speaking to People: The Strategist’s Secret Weapon
Open Strategy
APG West Social Media Week: Jessi Langsen, H+K
APGWest
YARN Ready: Apache Spark
Hortonworks
Not Your Father's Database by Vida Ha
Spark Summit
Ad
Similar to Yifeng spark-final-public
(20)
PDF
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
PDF
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
PDF
Data Architecture
Daisuke Inoue
PDF
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Mitsutoshi Kiuchi
PDF
Configureing analytics system with apache spark and object storage service of...
Kenichi Sonoda
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
NTT DATA Technology & Innovation
PPTX
Talend Studioのビッグデータ対応機能のご紹介 - Hadoop, HDFS, Hive, HBase, Spark, NoSQL
QlikPresalesJapan
PDF
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
PDF
Apache Sparkやってみたところ
Tatsunori Nishikori
PPTX
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
幹雄 小川
PDF
The Future of Apache Spark
Hadoop / Spark Conference Japan
PDF
[Oracle big data jam session #1] Apache Spark ことはじめ
Kenichi Sonoda
PPTX
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
PDF
Evolution of Impala #hcj2014
Cloudera Japan
PDF
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR Technologies Japan
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
PPTX
Big datauniversity
Tanaka Yuichi
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Data Architecture
Daisuke Inoue
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
Mitsutoshi Kiuchi
Configureing analytics system with apache spark and object storage service of...
Kenichi Sonoda
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
NTT DATA Technology & Innovation
Talend Studioのビッグデータ対応機能のご紹介 - Hadoop, HDFS, Hive, HBase, Spark, NoSQL
QlikPresalesJapan
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
NTT DATA Technology & Innovation
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
Apache Sparkやってみたところ
Tatsunori Nishikori
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
幹雄 小川
The Future of Apache Spark
Hadoop / Spark Conference Japan
[Oracle big data jam session #1] Apache Spark ことはじめ
Kenichi Sonoda
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
Evolution of Impala #hcj2014
Cloudera Japan
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR Technologies Japan
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
Big datauniversity
Tanaka Yuichi
More from Yifeng Jiang
(16)
PDF
Hive spark-s3acommitter-hbase-nfs
Yifeng Jiang
PDF
introduction-to-apache-kafka
Yifeng Jiang
PDF
Hive2 Introduction -- Interactive SQL for Big Data
Yifeng Jiang
PDF
Introduction to Streaming Analytics Manager
Yifeng Jiang
PDF
HDF 3.0 IoT Platform for Everyone
Yifeng Jiang
PDF
Hortonworks Data Cloud for AWS 1.11 Updates
Yifeng Jiang
PDF
Spark Security
Yifeng Jiang
PDF
Introduction to Hortonworks Data Cloud for AWS
Yifeng Jiang
PDF
Real-time Analytics in Financial
Yifeng Jiang
PDF
Nifi workshop
Yifeng Jiang
PDF
Sub-second-sql-on-hadoop-at-scale
Yifeng Jiang
PDF
Kinesis vs-kafka-and-kafka-deep-dive
Yifeng Jiang
PPTX
Hive present-and-feature-shanghai
Yifeng Jiang
PDF
Hadoop Present - Open Enterprise Hadoop
Yifeng Jiang
PDF
Apache Hiveの今とこれから
Yifeng Jiang
PDF
HDFS Deep Dive
Yifeng Jiang
Hive spark-s3acommitter-hbase-nfs
Yifeng Jiang
introduction-to-apache-kafka
Yifeng Jiang
Hive2 Introduction -- Interactive SQL for Big Data
Yifeng Jiang
Introduction to Streaming Analytics Manager
Yifeng Jiang
HDF 3.0 IoT Platform for Everyone
Yifeng Jiang
Hortonworks Data Cloud for AWS 1.11 Updates
Yifeng Jiang
Spark Security
Yifeng Jiang
Introduction to Hortonworks Data Cloud for AWS
Yifeng Jiang
Real-time Analytics in Financial
Yifeng Jiang
Nifi workshop
Yifeng Jiang
Sub-second-sql-on-hadoop-at-scale
Yifeng Jiang
Kinesis vs-kafka-and-kafka-deep-dive
Yifeng Jiang
Hive present-and-feature-shanghai
Yifeng Jiang
Hadoop Present - Open Enterprise Hadoop
Yifeng Jiang
Apache Hiveの今とこれから
Yifeng Jiang
HDFS Deep Dive
Yifeng Jiang
Yifeng spark-final-public
1.
Apache Spark の現在 Apache
Spark – Present © Hortonworks Inc. 2011 – 2015. All Rights Reserved Yifeng Jiang Solutions Engineer, Hortonworks Japan 2015/10/14
2.
2 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved アジェンダ • Apache Sparkとは何か? – Introduction – MLlib – Spark SQL – Spark Streaming • Spark と Hadoop – HDP 2.3 • Hortonworks はSparkにフォーカス
3.
3 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Apache Sparkとは 分散型のコンピューティングエンジン 迅速かつ表現が多様なデータ処理に対応 反復的、インメモリ向けの設計 コンピューティングとインタラクティブ データマイニング Apacheオープンソースプロジェクト 表現が多様な多⾔語API Java、Scala、Python、Rに対応 強⼒な抽象 データワーカーがデータに対して迅速に 反復可能: • ETL、機械学習、SQL、ストリーム処理、グラフ処理 Scala Java Python API Sparkコアエンジン Sparkコアエンジン GraphX Spark SQL Spark Streaming MLlib
4.
4 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved 基本的抽象:RDD(Resilient Distributed Datasets) RDD プリミティブとして分散コレクション と連携 RDDの特性 • クラスター全体に分散したオブジェクトの普 遍コレクション • 並列変換(map、filterなど)によって構築 • 障害発⽣時に⾃動的に再構築 • 制御可能な持続性(例:RAMでのキャッシ ング) 複数⾔語 開発者、パートナー、顧客の広範な連携 RDD パーティション1 RDD パーティション2 RDD パーティション3ワーカーノード ワーカーノード ワーカーノード RDD 論理 Spark ドライバ sc = new SparkContext rDD =sc.textfile(“hdfs://…”) rDD.filter(…) rDD.Cache rDD.Count rDD.map … 開発者 物理 書き込み RDD RDDは、クラスタ内に分散し、RAMまたはディスクに キャッシュされるオブジェクトの集合である。これらは並列 変換によって作成され、障害発⽣時には⾃動的に再構築され、 不変である(変換のたびに新しいRDDが作成される)。
5.
5 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved RDDを利⽤して開発者が実⾏できること RDDオペレーション 変換 • 例:map、filter、groupBy、join • 別のRDDからRDDを構築する簡単なオペ レーション アクション • 例:count、collect、save • 結果を返す、またはストレージに書き込む その他のプリミティブ • アキュムレーター • ブロードキャスト変数 開発者 書き込み RDD オペレーション 書き込み アキュムレーター アクション ブロードキャ スト変数 変換
6.
6 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved MLlib 機械学習ライブラリ YARN HDFS Scala Java Python API Sparkコアエンジン Sparkコアエンジン GraphX Spark SQL Spark Streaming MLlib
7.
7 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved 機械学習とは 機械学習とは、データからコンセプト を学習するアルゴリズムの研究。 データから学習し、明⽰的なプログラ ムがなくても作動するコンピュータを 実現させる科学
8.
8 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved 機械学習例: ⾃然グループの検出 ビジネスのユースケース • 顧客セグメンテーション • ニュース記事の分類 クラスタ番号 ID Total$ Age City 101 $200 25 SF 2 102 $350 35 LA 2 103 $25 15 LA 1 … … … … 1 1 2 2 2
9.
9 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved 機械学習例:商品のレコメンデーション 嗜好の予測:似通った“好み”の⼈間を特定 • この商品を買っている人はこんな商品も買っています
10.
10 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved 機械学習の実装 機械学習の実装が複雑 • ⾼度なアルゴリズム • ⼤量の繰返し計算が必要:Spark のインメモリ処理と相性がいい • 分散環境でスケール • パフォーマンスk-means clustering algorithm
11.
11 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved 機械学習のプリミティブ Unsupervised Learning Clustering (K-means) Recommendation Collaborative Filtering - alternating least squares Dimensionality Reductions - Principal component analysis (PCA) and singular value decomposition (SVD) Supervised Learning Classification - Naïve Bayes, Decision Tree, Random Forest, Gradient Boosted Trees Regression - linear, logistic and Support Vector Machines (SVMs)
12.
12 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved MLlibによるレコメンデーション MLlibを使ったレコメンデー ション • ライブラリを利⽤ • MLlibがSpark上に分散実⾏ • よいパフォーマンス
13.
13 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved SQL SQLアクセスとデータフレーム YARN HDFS Scala Java Python API Sparkコアエンジン Sparkコアエンジン GraphX Spark Streaming MLlib Spark SQL
14.
14 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved YARN HDFS Spark SQL テーブル構造 テーブルおよび⾏との連携のために統合 SparkによるHiveクエリー Spark SQL ContextはHiveに接続してHiveをクエ リー可能 バインド Python、Scala、Java、Rが対象 DataFrame SQL処理を合理化 / 迅速化する新しい抽象 Sparkコアエンジン Spark SQL データフレームDSL Spark SQL データフレームAPI データソースAPI
15.
15 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved ストレージ DataFrameとは データフレームは、RDD内のデータをテーブルとして 表現する RDDは低レベルの抽象である – RDDはバイトコード、DataFrameはJavaコード として考える データフレームのプロパティ – データフレームはRDDにスキーマを追加する – ユーザーによる積極的なクエリー最適化を可能に する – SQLのパワーをRDDに提供する 部門 名前 年齢 Bio H Smith 48 CS A Turing 54 Bio B Jones 43 Phys E Witten 61 タプル リレーショナル ビュー カラム指向ストレージ ORCFile Parquet 非構造化データ JSON CSV テキスト Avro カスタム ブログ
16.
16 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved データフレームは直感的 RDDの例 同等データフレームの例 部門 名前 年齢 Bio H Smith 48 CS A Turing 54 Bio B Jones 43 Phys E Witten 61 部門別の平均年齢を求める
17.
17 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Sparkデータフレームは⾼速
18.
18 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Streaming リアルタイムストリーム処理 YARN HDFS Scala Java Python API Sparkコアエンジン Sparkコアエンジン GraphX Spark SQL MLlib Spark Streaming
19.
19 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Spark Streaming ストリーミングへの対応 ライブマイクロバッチの⾼スループット、 フォールトトレラントな処理 複数の取り込みソース Kafka、Flume、Twitter、ZeroMQ、Kinesis、 TCPソケット Spark APIの再利⽤ マップ、削減、結合、ウィンドウなどの⾼レベ ル機能による複雑なアルゴリズムの処理 データの持続性 ファイルシステム、データベース、ライブダッ シュボードへの処理済みデータのプッシュ
20.
20 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Hortonworks Data Platform & Hadoop 完璧な組み合わせ
21.
21 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved HDP 2.3内のApache Spark 1.4.1 リソース管理 マルチテナントワークロードと予測可能なSLA 運⽤管理 デプロイや運⽤管理はAmbariを使⽤ SparkR* RデータサイエンティストはSpark機械学習を活 ⽤可能 場所を選ばない導⼊ LinuxまたはWindows、オンプレミスまたはクラ ウド クラウドでのセルフサービス Microsoft Azure、Amazon Web Services、 Google Cloud Platform、OpenStack、Docker への導⼊にはCloudbreakとAmbariを使⽤ アプリケーション ガバナンスと統合 セキュリティ オペレーション YARN HDFS Scala Java Python API Sparkコアエンジン Sparkコアエンジン Spark SQL Spark Streaming MLlib GraphX
22.
22 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Sparkセキュリティ Spark on YARNだけが Kerberos をサポート Kerberos 認証を活⽤ Spark は HDFS and ORC からデータを読込み HDFS ファイル パーミッション (またはRanger連携) は Spark ジョブにも適⽤ Spark がジョブを YARN キュー に投⼊ YARN キュー ACL (またはRanger連携) が Spark ジョブにも適⽤ 転送中のデータの暗号化 Spark は⼀定のカバーがあるが、すべてのチャンネルではない LDAP 認証 Spark UIでの直接サポートはまだない, LDAPに接続するフィルターを使⽤
23.
23 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Ambariによるインストール Select Spark Assign nodes for Spark History Server & Spark Client Add Servic e Go to a node with Spark Client Submit spark jobs Hadoop Admin Spark is Ready Spark User
24.
24 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Spark on YARN Spark が YARN を クラスタマネージャー として利⽤ 2つのモード: YARN-client か YARN- cluster YARN-client • ドライバがクライアント ノードに • 開発、デバッギングに有効 YARN-cluster • ドライバが YARN application master (left)に • バッチや⾃動化したジョブに有効 Spark in HDP Task Task CacheExecutor Spark Content Driver Program App Master Monitoring UI YARN RM Worker Nodes Task Task CacheExecutor
25.
25 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved ORCサポート ORC • Hadoopワークロード向けの最⼩、最速のカラ ム指向ストレージ ORC in Spark • SparkからORCデータの読み書き • パーティション、フィルタプッシュダウンなど の最適化もサポート • DataFrame サポートYARN:データオペレーティングシステム HDFS Sparkコア Scala Java Python ライブラリ MLlib (機械学習) Spark SQL* Spark Streaming* Hive HBase
26.
26 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved レファレンス アーキテクチャ バッチ ソース ストリーミング ソース レファレンス データ ストリーミング処理 Storm/Spark-Streaming データ パイプライ ン Hive/Pig/Spark 長期保存データ ウェアハウス Hive + ORC データ ディスカバリー レポーティング ビジネス インテリジェンス (BI) アドホック/オン デマンド ソース データサイエンス Spark-ML, Spark-SQL 高度な分析 データ ソース データ処理、保存や分析 データ アクセス
27.
27 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved Hortonworksが 重点を置く Spark & Hadoopの完璧な組み合わせ YARN HDFS Scala Java Python API SparkコアエンジンSparkコアエンジン Spark SQL Spark Streaming MLlib GraphX 未来
28.
28 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 詳細情報: hortonworks.com/hadoop/spark
29.
29 © Hortonworks
Inc. 2011 – 2015. All Rights Reserved29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow Thank You
Download