Submit Search
Hadoopを40分で理解する #cwt2013
16 likes
16,959 views
Cloudera Japan
#cwt2013 Clouderaの川崎 @kernel023 によるHadoop入門のスライドを公開しました。ビッグデータとは何か、なぜHadoopが必要なのかについて分かりやすく紹介しています
Technology
Read more
1 of 56
Download now
Downloaded 129 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
More Related Content
PPT
はやわかりHadoop
Shinpei Ohtani
PDF
Hadoopの概念と基本的知識
Ken SASAKI
PDF
Practical recommendations for gradient-based training of deep architectures
Koji Matsuda
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
PPTX
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
PPTX
HDFS Supportaiblity Improvements
Cloudera Japan
PDF
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
はやわかりHadoop
Shinpei Ohtani
Hadoopの概念と基本的知識
Ken SASAKI
Practical recommendations for gradient-based training of deep architectures
Koji Matsuda
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
HDFS Supportaiblity Improvements
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
More from Cloudera Japan
(20)
PDF
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
PDF
HBase Across the World #LINE_DM
Cloudera Japan
PDF
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
PDF
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
PDF
Apache Kuduを使った分析システムの裏側
Cloudera Japan
PDF
Cloudera in the Cloud #CWT2017
Cloudera Japan
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
PPTX
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
PDF
How to go into production your machine learning models? #CWT2017
Cloudera Japan
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
PPTX
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
PDF
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
PDF
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
PDF
Cloud Native Hadoop #cwt2016
Cloudera Japan
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
PDF
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
PDF
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
HBase Across the World #LINE_DM
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Cloudera in the Cloud #CWT2017
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
How to go into production your machine learning models? #CWT2017
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
Cloud Native Hadoop #cwt2016
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Cloudera Japan
Ad
Hadoopを40分で理解する #cwt2013
1.
Hadoopを40分で理解する Cloudera株式会社 エデュケーションサービス 川崎 達夫
<kawasaki@cloudera.com> 2013年11月7日 1
2.
About Me • 川崎
達夫(かわさき たつお) • シニアインストラクター&研修全般業務を担当 email: kawasaki@cloudera.com twi>er: @kernel023 • • 2
3.
Hadoop オペレーションの日本語訳が発売予定です • • • • • • 11月下旬発売 通称「パカ」本
(?) Cloudera の Eric Sammer 著 翻訳は安心の玉川竜司さん レビューを手伝ってました 日本語版のみの付録も執筆!
4.
Cloudera Impala の⽇日本語フリーブック • • • オライリーの「インパラ本」、日本語PDF版が無償公開される予定です! Cloudera
の John Russell 著 Hadoop、HBase、Hadoopオペレーション、 プログラミングHiveなどを翻訳された 玉川竜司さんが翻訳! 「これまでClouderaの皆さ んにご尽力いただいた翻訳 レビューへの感謝の気持ち として、Cloudera World Tokyo開催のお祝いに翻訳寄 贈します!」
5.
本⽇日のアジェンダ • • • • 5 ビッグデータ ビッグデータを扱う上での課題
Hadoop よくある質問
6.
ビッグデータ Hadoopが存在している根拠 8
7.
ビッグデータの間違った理理解 STRUCTURED DATA
– 20% BIGDATA != SIZE 9
8.
データ爆発 1兆ギガバイトのデータが 2011年に生成された… 90%以上が非構造データ 約50京(500x1000兆)のファイル 2年毎に倍増 STRUCTURED
DATA – 20% 10
9.
ビッグデータの定義 量 • 種類(多様性) •
生成される速度 • 11
10.
量 — Cisco Systems
2013/5 12
11.
種類 13
12.
速度 14
13.
ビッグデータは必要か? • • 現在、データは⾮非常に速いペースで増えている そのうちの90%は⾮非構造データ
• 15 従来の仕組みでこのようなデータを扱うことは難しい
14.
ビッグデータのチャレンジ • • • 16 データの「量」「種類」「速さ」をコスト効率率率よく 管理理 構造データと構造化データから価値を導く
コンテキストの変換への対応と新しいデータソース と種類を統合
15.
Q. 統計学があればビッグデータは不不要か? • 「世界がもし100⼈人の村だったら」
17 h>p://www.jackhagley.com/filter/personal/896192 If the Twi>er community was 100 people... h>p://www.flickr.com/photos/25541021@N00/3706760751/
16.
A.必ずしもそうではありません • 18 「ウォーリーを探せ」
17.
A. 全てのデータがあれば、、 • 19 サンプリングや粒粒度度を切切り替えるためには、元にな る全データが必要です
Photo: Kris Krug h>p://www.flickr.com/photos/kk/9240320949/
18.
ビッグデータを扱う上での課題 既存システムの制約 20
19.
ビッグデータ • • 21 どうやって保存するか どうやって処理理するか
20.
⼤大量量なデータの保存 課題 •
1)データは増え続け る • 2)読み書きの速度度 • 3)コスト • 4)耐障害性 22
21.
⼤大量量なデータの処理理 • 伝統的に、計算処理理は CPUに依存する
初期のソリューション -‐> 巨⼤大なコンピュータ ⾼高速なCPU ⼤大量量のメモリ • 23
22.
⼤大量量なデータの処理理 • より良良いソリューション -‐>
⼀一つのジョブを複数の コンピュータで計算する 分散システム 24
23.
分散システム • 25 データを共有ディスクに保存し分散処理理を⾏行行う
24.
分散システムの課題 • • • ディスクアクセスがボトルネック 障害発⽣生時の処理理が複雑
スケーラビリティ ボトル ネック 障害 26
25.
Hadoop Googleの技術に由来 27
26.
(再)分散システムの課題 • • • ディスクアクセスがボトルネック 障害発⽣生時の処理理が複雑
スケーラビリティ ボトル ネック 障害 28
27.
Googleでのアプローチ • 29 データは分散して保存しておき、処理理を⾏行行う
28.
Apache Hadoop™ • Googleが公開した論論⽂文を参考に開発された
オープンソースソフトウェア Doug Cu^ng Chief Architect @Cloudera 30
29.
Apache Hadoop™ • 32 データストレージと処理理のための
オープンソースプラットフォーム ü スケーラブル ü 耐障害性 ü 分散される
30.
Apache Hadoop™ • HDFS
– ストレージ • ⼤大量量のデータが保存できる • • • Yahoo!では合計350PB、FaceBookも100PB超 耐障害性 スケーラブル 1台〜~数千台 • MapReduce -‐ ⼤大量量なデータを分散処理理できる • • • 33 数多くのサーバで分散して処理理(数千台も可能) 耐障害性 汎⽤用的なプログラム⾔言語で記述できる
31.
Hadoopのアーキテクチャ • マスター/スレーブ マスター (高可用性可能) 34 スレーブ群(1∼数千台)
32.
⼤大量量なデータの保存 データはあるサイズに 分割/分散して保存
• データは複製して配置 マスター スレーブ群 • 72.165.33.132 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/finance 28.114.157.122 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /item/sports/2605 52.93.117.198 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/electron 168.90.228.205 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "POST /search/?c=Music 28.42.27.49 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/electronic 192.120.64.138 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/books?f 156.189.222.57 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/network 164.219.215.208 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/books 84.42.208.90 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/somware/3186 164.39.210.117 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/garden/4484 196.144.35.85 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/electronics/ 80.78.35.71 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/electronics/35 80.174.161.70 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/garden H 192.186.87.52 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/games HT 132.186.183.184 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/somware/3 212.27.25.133 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/electronics/ 32.21.118.159 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/electron 56.99.155.75 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/books HTT 196.63.29.59 -‐ -‐ [04/Nov/2013:21:57:11 +0900] "GET /category/games HTT 24.87.189.150 -‐ -‐ [04/Nov/2013:21:57:11 +0900] "GET /category/somware 38 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ A 168.90.228.205 -‐ -‐ [04/Nov/ 28.42.27.49 -‐ -‐ [04/Nov/201 192.120.64.138 -‐ -‐ [04/Nov/ 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ A 156.189.222.57 -‐ -‐ [04/Nov/2 164.219.215.208 -‐ -‐ [04/Nov/ 84.42.208.90 -‐ -‐ [04/Nov/20 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ 164.39.210.117 -‐ -‐ [04/Nov/ 196.144.35.85 -‐ -‐ [04/Nov/2 80.78.35.71 -‐ -‐ [04/Nov/201 A
33.
⼤大量量なデータの保存 • • 容易易に容量量を増やせる 構造/⾮非構造データ
マスター スレーブ群 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ 168.90.228.205 -‐ -‐ [04/Nov/ 28.42.27.49 -‐ -‐ [04/Nov/201 192.120.64.138 -‐ -‐ [04/Nov/ 156.189.222.57 -‐ -‐ [04/Nov/2 164.219.215.208 -‐ -‐ [04/Nov/ 84.42.208.90 -‐ -‐ [04/Nov/20 164.39.210.117 -‐ -‐ [04/Nov/ 196.144.35.85 -‐ -‐ [04/Nov/2 80.78.35.71 -‐ -‐ [04/Nov/201 39
34.
⼤大量量なデータの保存 – 障害時
• • データは複数箇所に あるのでロストしない ⾃自動で複製される 72.165.33.132 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/finance 28.114.157.122 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /item/sports/2605 52.93.117.198 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/electron 168.90.228.205 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "POST /search/?c=Music 28.42.27.49 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/electronic 192.120.64.138 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/books?f 156.189.222.57 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/network 164.219.215.208 -‐ -‐ [04/Nov/2013:21:57:09 +0900] "GET /category/books 84.42.208.90 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/somware/3186 164.39.210.117 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/garden/4484 196.144.35.85 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/electronics/ 80.78.35.71 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/electronics/35 80.174.161.70 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/garden H 192.186.87.52 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/games HT 132.186.183.184 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/somware/3 212.27.25.133 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /item/electronics/ 32.21.118.159 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/electron 56.99.155.75 -‐ -‐ [04/Nov/2013:21:57:10 +0900] "GET /category/books HTT 196.63.29.59 -‐ -‐ [04/Nov/2013:21:57:11 +0900] "GET /category/games HTT 24.87.189.150 -‐ -‐ [04/Nov/2013:21:57:11 +0900] "GET /category/somware 40 マスター スレーブ群 ①障害 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ A 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ ②複製指示 ③複製 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ A A
35.
⼤大量量なデータの処理理 -‐ MapReduce
• 分散されたデータを それぞれのサーバで 処理理する(Map) JOB マスター スレーブ群 Task 72.165.33.132 -‐ -‐ [04/Nov/ 28.114.157.122 -‐ -‐ [04/No 52.93.117.198 -‐ -‐ [04/Nov/ Task 168.90.228.205 -‐ -‐ [04/Nov/ 28.42.27.49 -‐ -‐ [04/Nov/201 192.120.64.138 -‐ -‐ [04/Nov/ Task 156.189.222.57 -‐ -‐ [04/Nov/2 164.219.215.208 -‐ -‐ [04/Nov/ 84.42.208.90 -‐ -‐ [04/Nov/20 Task 164.39.210.117 -‐ -‐ [04/Nov/ 196.144.35.85 -‐ -‐ [04/Nov/2 80.78.35.71 -‐ -‐ [04/Nov/201 45
36.
⼤大量量なデータの処理理 -‐ MapReduce
• 分散処理理した結果を 集約する(Reduce) マスター スレーブ群 Task 72.165.33.132, 1 72.165.33.132, 1 72.165.33.132, 1 72.165.33.145, 1 168.90.228.205,1 168.90.228.205,1 192.120.64.138,1 156.189.222.57,1 156.189.222.57,1 164.219.215.208,1 164.39.210.117,1 164.39.210.117,1 164.39.210.118.1 46
37.
⼤大量量なデータの処理理 -‐ MapReduce
• 障害もうまく扱って くれる (開発者は考慮しなくてOK) マスター TaskB スレーブ群 TaskA 72.165.33.132, 1 72.165.33.132, 1 72.165.33.132, 1 72.165.33.145, 1 TaskB 168.90.228.205,1 168.90.228.205,1 192.120.64.138,1 TaskC 156.189.222.57,1 156.189.222.57,1 164.219.215.208,1 TaskD 164.39.210.117,1 164.39.210.117,1 164.39.210.118.1 47
38.
よくある質問 48
39.
Q. Hadoopはどんな⽬目的にも使えるの? • A.
いいえ、そのようなことはありません • • • 49 ⼤大量量データ全てを処理理するようなユースケースには向いて います ⼀一⽅方、リアルタイム性は期待できません。また、HDFSの設 計上データの更更新はできず、MapReduceもトランザクショ ン処理理は備えていないため、データベースの置き換え⽬目的 などには向いていません とはいえ、低遅延なアクセスを⾏行行ったり、SQLライクなア クセスができるなどのエコシステムが増えています
40.
Q. Hadoopはどんな⽬目的にも使えるの? • 各種事例例はCloudera
World 2013の各セッションも参 考に(多くの資料料が公開されます) • h>p://h>p://www.cloudera.co.jp/jpevents/cwt2013/ • Clouderaにも英語のホワイトペーパーもあります h>p://www.cloudera.com/content/cloudera/en/resources/library.html? category=cloudera-‐resources%3Awhy-‐cloudera%2Fwhite-‐papers&q= Strata+Hadoop Worldでも多くの事例例が紹介されています h>p://strataconf.com/stratany2013/ • 50
41.
Q. Hadoopって難しい? ⼈人材不不⾜足 • ⽇日経コンピュータ
2011年年9⽉月15⽇日号 • • ⽇日本経済新聞 • 51 ビッグデータ⾰革命:最⼤大の課題は⼈人材不不⾜足 ビッグデータ分析に⼈人材の壁、25万⼈人不不⾜足⾒見見通し (2013/7/17)
42.
A. トレーニングと認定資格 http://cloudera.co.jp/university • ※詳細は配布資料料をご覧下さい
• トレーニング • • • • • Hadoop開発者向け ・ HBase Hadoop管理理者向け ・ Hadoopエッセンシャル データアナリスト向け データサイエンティスト⼊入⾨門 認定資格 • • • • Hadoop開発者認定 Hadoop管理理者認定 HBaseスペシャリスト認定 Cloudera認定スペシャリスト:データサイエンス h>p://enterprisezine.jp/arxcle/corner/220/ 52
43.
Q. Hadoopは使いにくい?
53
44.
A. いいえ、エコシステムも充実しています 例:SQLライクにHadoopを使う -
Hive - Cloudera Impala 54
45.
A. さらに、最近はGUIも充実 Hadoop用のGUI Cloudera
Hue (ファイルマネージャ) 運用管理ツール Cloudera Manager 55
46.
A. さらに、最近はGUIも充実(続き) Hadoop用のGUI Cloudera
Hue Cloudera Search アプリ 56
47.
Cloudera Enterprise 5
(Coming Soon) 57
48.
Cloudera Enterprise • Hadoopをエンタープライズで利利⽤用するためのベスト ソリューション
• CDH (Cloudera’s Distribuxon includes Apache Hadoop) • • • • 最も利利⽤用されているディストリビューション オープンソースソフトウェア 多くのエコシステム(Cloudera Impala,Hue,Hive,….) Cloudera Manager • • CDHを管理理する統合管理理ツール 機能限定の無償版(スタンダード)と、サブスクリプションを購 ⼊入していただくと利利⽤用できる版(エンタープライズ) CDH/Cloudera Managerを簡単に試すことができる仮想マシンイメージ Cloudera QuickStart VM: http://bit.ly/1966hRW 58
49.
Hadoopへの貢献をリードするCloudera Team メーリングリスト投稿数 プロジェクトごとのクローズチケット率 2011年8月
– 2012年8月 100% 90% 80% 70% 全クローズイシュー数 60% 23 50% 2 70 1072 40% 30% 20% 10% 2927 0% Source: Apache財団(Apache Somware Foundaxon) 59 Cloudera MapR IBM HortonWorks EMC
50.
Cloudera Manager 5
(ベータ版) 60
51.
Cloudera Manager 5
(ベータ版) 61
52.
まとめ 63
53.
まとめ • Hadoopとは、 ⼤大量量なデータを「分散」して保存し、分散して保存 されているデータを「分散」して処理理するオープン ソースの実⾏行行基盤です
Hadoopを利用するならCloudera Enterpriseを選びましょう! 65
54.
We are Hiring!
• Clouderaは貴⽅方を求めています!! • ソリューションアーキテクト • • カスタマーオペレーションエンジニア (サポート) • • • 世界中のお客様のHadoopを守る! インストラクター システムエンジニア • • Hadoopを使ったコンサルティングやモデリング 技術営業⽀支援 セールス 興味のある⽅方は下記までご連絡下さい! info-‐jp@cloudera.com 66
55.
We are Hiring!
67
56.
Thank you!
Tatsuo Kawasaki, Manager/Senior Instructor, Cloudera K.K @kernel023
Download