Submit Search
Apache Sparkやってみたところ
0 likes
1,203 views
T
Tatsunori Nishikori
Apache Sparkをやってみた感じどんなものか綴ってます
Technology
Read more
1 of 18
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
More Related Content
PDF
Lambda in java_20160121
Teruo Kawasaki
PPTX
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Sotaro Kimura
PDF
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
PPTX
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
PPTX
Glueの開発環境(zeppelin)をrancherで作ってみる
cloudfish
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
Yu Ishikawa
PDF
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
Yosuke Katsuki
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
Yuki Morishita
Lambda in java_20160121
Teruo Kawasaki
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Sotaro Kimura
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
Glueの開発環境(zeppelin)をrancherで作ってみる
cloudfish
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
Yu Ishikawa
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
Yosuke Katsuki
RDB開発者のためのApache Cassandra データモデリング入門
Yuki Morishita
What's hot
(20)
PDF
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
PDF
Datastax Enterpriseをはじめよう
Yuki Morishita
PDF
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Katsushi Yamashita
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
PDF
20161214 re growth-sapporo
Satoru Ishikawa
PPTX
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
PDF
グラフタイプデータの可視化ツールーTom Sawyer
Changhwan Lee
PPTX
事例で学ぶApache Cassandra
Yuki Morishita
PDF
データベースの使い分けを考える
Yosuke Katsuki
PDF
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
PDF
クラウド運用のためのストリームマイニング
Shin Matsumoto
PPTX
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
PDF
Elasticsearch at Makuake
Yoshiaki Yoshida
PDF
利用者主体で行う分析のための分析基盤
Sotaro Kimura
PDF
Kafka logをオブジェクトストレージに連携する方法まとめ
Keigo Suda
PPTX
NoSQLに関するまとめ
Gosuke Miyashita
PPTX
Rdsを学ぶ
yuya-nakamura
PDF
Reading drill
Kai Sasaki
PDF
Presto As A Service - Treasure DataでのPresto運用事例
Taro L. Saito
PDF
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
2019.03.19 Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
Datastax Enterpriseをはじめよう
Yuki Morishita
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Katsushi Yamashita
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
20161214 re growth-sapporo
Satoru Ishikawa
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
グラフタイプデータの可視化ツールーTom Sawyer
Changhwan Lee
事例で学ぶApache Cassandra
Yuki Morishita
データベースの使い分けを考える
Yosuke Katsuki
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
クラウド運用のためのストリームマイニング
Shin Matsumoto
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
Elasticsearch at Makuake
Yoshiaki Yoshida
利用者主体で行う分析のための分析基盤
Sotaro Kimura
Kafka logをオブジェクトストレージに連携する方法まとめ
Keigo Suda
NoSQLに関するまとめ
Gosuke Miyashita
Rdsを学ぶ
yuya-nakamura
Reading drill
Kai Sasaki
Presto As A Service - Treasure DataでのPresto運用事例
Taro L. Saito
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
Ad
Similar to Apache Sparkやってみたところ
(20)
PDF
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
PDF
Databricks の始め方
Ryoma Nagata
PPTX
データ分析基盤として Rancher・k8s で始まるのか調査してみた
YASUKAZU NAGATOMI
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
PDF
SPARQLアプリケーション開発
Toshiaki Katayama
PDF
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
PDF
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-
PE-BANK
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
PDF
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
Insight Technology, Inc.
PDF
SparkとCassandraの美味しい関係
datastaxjp
PDF
Evolution of Impala #hcj2014
Cloudera Japan
PDF
Spark MLlib code reading ~optimization~
Kai Sasaki
PDF
Yifeng spark-final-public
Yifeng Jiang
PPTX
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
PPTX
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
PPTX
MLflowで学ぶMLOpsことはじめ
Kenichi Sonoda
PDF
Configureing analytics system with apache spark and object storage service of...
Kenichi Sonoda
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
PPTX
Azure Datalake 大全
Daiyu Hatakeyama
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
Databricks の始め方
Ryoma Nagata
データ分析基盤として Rancher・k8s で始まるのか調査してみた
YASUKAZU NAGATOMI
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
SPARQLアプリケーション開発
Toshiaki Katayama
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-
PE-BANK
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
Insight Technology, Inc.
SparkとCassandraの美味しい関係
datastaxjp
Evolution of Impala #hcj2014
Cloudera Japan
Spark MLlib code reading ~optimization~
Kai Sasaki
Yifeng spark-final-public
Yifeng Jiang
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
MLflowで学ぶMLOpsことはじめ
Kenichi Sonoda
Configureing analytics system with apache spark and object storage service of...
Kenichi Sonoda
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
Azure Datalake 大全
Daiyu Hatakeyama
Ad
Apache Sparkやってみたところ
1.
Apache Sparkやってみたところ 1
2.
What is Apache
Spark ? 2
3.
Sparkとは • BigDataを高速に分散処理を行うフレームワーク Apache Spark Spark
SQL Spark Streaming MLlib (machine learning) GraphX (Graph) 3
4.
データ操作 • RDD • 並行して操作することが可能な要素の耐障害性のあ るコレクション •
DataFrame • 1.6から追加された機能でRやPython等のDataFrameと 同等の操作が可能 • SQL • Hive SQLプラスαのDSL記述で操作可能 4
5.
SQL • SELECT • GROUP
BY • ORDER BY • 数学関数 • 文字関数 • Window関数 • JOIN • UNION • サブクエリ • etc… https://spark.apache.org/docs/latest/sql-programming- guide.html#supported-hive-features 5
6.
データソース • Hadoop • s3 •
RDBMS • ElasticSearch • etc.. Hadoop以外はConnectorを利用する必要がある 6
7.
Spark MLlib(ML) 7
8.
Spark MLlib • 機械学習ライブラリ •
MLlib : RDDベース(メンテナンスモードに入ったよう で機能追加は今後は行っていかない) • ML : DataFrameベース(今後こちらが主流になってい く) 8
9.
Spark MLlib APIできること •
基本的な統計 • 分類と回帰 • 協調フィルタリング • クラスタリング • 次元削除 • 特徴量抽出及び変形 • 頻出パターンマイニング • 評価マトリックス • PMML モデル抽出 https://spark.apache.org/docs/latest/ml-guide.html 9
10.
Amazon EMR 10
11.
EMRとは • Amazon EMR
は、AWS でビッグデータフレームワーク (Apache Hadoop や Apache Spark など) の実行を簡素 化して、大量のデータを処理および分析するマネージ ド型クラスタープラットフォーム • S3を始め、AWS上のサービスの連携がデフォルトでつい てくる • 1度構築したクラスタは再利用可能(CLIもアウトプット 可能) 11
12.
EMR Command Runner •
EMRクラスタのインスタンス内に`command-runner.jar` が置かれ、これを利用してステップを追加していく • spark-submit : Sparkアプリケーションの実行 • s3-dist-cp : 大量のデータをS3からHDFSに分散コピー する http://docs.aws.amazon.com/ja_jp/emr/latest/ ReleaseGuide/emr-commandrunner.html 12
13.
Apache Spark Tuning 13
14.
WebUI • WebUIでは以下のような項目が確認できるので、パフォー マンスネックになっている箇所の特定などに利用する と良さそう • スケジューラのステージおよびタスクのリスト •
RDDサイズおよびメモリの使用量の概要 • 環境情報 • 実行中のexecutorの情報 14
15.
キャッシュ • キャッシュ無し4h以上 ->
キャッシュ利用 1h程度に短 縮 • DataFrame • SQL 15 df.cache() # キャッシュ利用 df.is_cached # キャッシュ確認 df.unpersist() # キャッシュ廃棄 spark.sql("CACHE [LAZY] TABLE [db_name.]table_name") # キャッシュ利用 spark.sql("UNCACHE TABLE [db_name.]table_name") # キャッシュ廃棄
16.
データロード • s3直接ロード ->
s3-dist-cpを利用し、一度クラスタ 内HDFSに移してロード 20min程度短縮 • srcPattern : s3のフィルタリング • groupBy : 複数のファイルを結合 • targetSize : groupByにもとづいて作成するファイル のサイズ http://docs.aws.amazon.com/ja_jp/emr/latest/ ReleaseGuide/UsingEMR_s3distcp.html 16
17.
Sparkの設定 • spark.executor.meory、spark.executor.cores、 spark.dynamicAllocation.enabledについてはEMR側でデ フォルトで設定されるので、EMRに任せておいて良さそう http://docs.aws.amazon.com/ja_jp/emr/latest/ ReleaseGuide/emr-spark-configure.html • SQL周りの設定では以下の項目の調整で数分短縮の効果あ り •
spark.rdd.compress • spark.sql.shuffle.partitions • spark.sql.inMemoryColumnarStorage.batchSize • spark.sql.broadcastTimeout • spark.sql.files.openCostInBytes 17
18.
参考文献 • Apache Spark
SQLリファレンス http://x1.inkenkun.com/archives/1114 • Apache Spark MLlibのレコメンドアルゴリズムを使う http://kazz.hateblo.jp/entry/2016/02/09/114756 • Apache Spark を使ったシステム構築のための Tips https://blog.albert2005.co.jp/2016/06/16/apache-spark- %E3%82%92%E4%BD%BF%E3%81%A3%E3%81%9F%E3%82%B7%E3%82%B9%E 3%83%86%E3%83%A0%E6%A7%8B%E7%AF%89%E3%81%AE%E3%81%9F%E3% 82%81%E3%81%AE-tips/ • Apache Sparkを使って、メモリ使用量が大きいバッチ処理をス ケールアウト http://lab.adn-mobasia.net/?p=4777 18
Download