Submit Search
Hadoop Streamingを使って お好きな言語でMap☆Reduce!
Download as PPTX, PDF
2 likes
1,790 views
Masaya Taji
SW LT大会 発表時の資料です。 Hadoopを敬遠している方にオススメしたいHadoop Streamingの紹介程度のゆるい資料です。
Software
Read more
1 of 46
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
More Related Content
PPTX
第51回NDS PostgreSQLのデータ型 #nds51
civicpg
PPTX
Macで快適にプログラミング
Yusuke Sakurai
PPTX
第52回なんてかんたんなJavaEE
civicpg
PPT
本当にあった怖い話 「Hadoopで炎上しかけた話」
Yukino Ikegami
PDF
Phpのはなし
Serverworks Co.,Ltd.
PDF
20120527yesod
Seizan Shimazaki
PDF
20101211 #
Yasutaka Hamada
PDF
あまり知られていない静岡の言語戦争の歴史
Kazufumi Ohkawa
第51回NDS PostgreSQLのデータ型 #nds51
civicpg
Macで快適にプログラミング
Yusuke Sakurai
第52回なんてかんたんなJavaEE
civicpg
本当にあった怖い話 「Hadoopで炎上しかけた話」
Yukino Ikegami
Phpのはなし
Serverworks Co.,Ltd.
20120527yesod
Seizan Shimazaki
20101211 #
Yasutaka Hamada
あまり知られていない静岡の言語戦争の歴史
Kazufumi Ohkawa
Similar to Hadoop Streamingを使って お好きな言語でMap☆Reduce!
(12)
PPT
Googleの基盤クローン Hadoopについて
Kazuki Ohta
ODP
Hadoop for programmer
Sho Shimauchi
PDF
MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。
You&I
PPT
Scala on Hadoop
Shinji Tanaka
PDF
Hadoop / MapReduce とは
Takeshi Matsuoka
PPT
Hadoopの紹介
bigt23
PDF
ただいまHadoop勉強中
Satoshi Noto
PDF
Hadoopことはじめ
均 津田
PPTX
Hadoop / Elastic MapReduceつまみ食い
Ryuji Tamagawa
PDF
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Sho Shimauchi
PPT
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
PDF
Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
id774
Googleの基盤クローン Hadoopについて
Kazuki Ohta
Hadoop for programmer
Sho Shimauchi
MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。
You&I
Scala on Hadoop
Shinji Tanaka
Hadoop / MapReduce とは
Takeshi Matsuoka
Hadoopの紹介
bigt23
ただいまHadoop勉強中
Satoshi Noto
Hadoopことはじめ
均 津田
Hadoop / Elastic MapReduceつまみ食い
Ryuji Tamagawa
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Sho Shimauchi
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
Twitter クライアント “Termtter” の紹介と収集したソーシャルデータを Fluentd + Hadoop で分析する話
id774
Ad
Hadoop Streamingを使って お好きな言語でMap☆Reduce!
1.
Hadoop Streamingを使って お好きな言語で Map☆Reduce! 田地 将也 2016/05/19
LT資料
2.
• 氏名:田地 将也(@otajisan) •
所属:某中小SIer -> 某Web企業 • 役職:エンジニア兼スクラムマスター • 趣味:酒、バンド、スノボー、モンハン • よく使う言語:PHP, Perl, JavaScript • 「アジャイルひよこくらぶ」というコミュニティの幹事メンバーやってます • 最近ハマっていること!:スクラムによる現場改善、 Python x Hadoop Streaming x Deep Learning 自己紹介
3.
皆さん、 Hadoop使ってますか?
4.
Hadoopとは? • Hadoopはデータを複数のサーバに分散し、 並列して処理するミドルウェア • 要は、1台で捌き切れないような大量のデータを、 並列バッチ処理で効率よく捌けるソリューション
5.
Hadoopって • なんか難しそう • なんとなく敬遠 •
Javaかよ! みたいな
6.
そんなあなたに
7.
Hadoop Streaming!
8.
Hadoop Streamingとは? • HadoopのMap/Reduce処理は 基本的にJavaで書く •
Hadoopに標準で組み込まれている 「Hadoop Streaming」という機能を使うと、 Unixの標準入出力を受け付けることができる
9.
つまり、 好きな言語で Map/Reduceを書ける!
10.
本LTでは、 Hadoop Streamingは 色んな言語でMap/Reduce書けるよ、 という様子をご紹介し、 Hadoop コワクナイヨ-
という感覚を持って いただけることを目的とします。
11.
今回取り扱う サンプル(Hello World) について
12.
HadoopのHello World • 「ワードカウント」が Hadoopでのハロワにあたります
13.
WordCout aaa bbb ccc aaa bbb ddd bbb ccc ddd 入力ファイルたち
14.
WordCout aaa bbb ccc aaa bbb ddd bbb ccc ddd Map Reduce Map Map Reduce Reduce shuffle ごにょごにょ
15.
WordCout aaa bbb ccc aaa bbb ddd bbb ccc ddd Map Reduce Map Map Reduce Reduce shuffle aaa 2 bbb
3 ccc 2 ddd 2
16.
WordCout aaa bbb ccc aaa bbb ddd bbb ccc ddd Map Reduce Map Map Reduce Reduce shuffle aaa 2 bbb
3 ccc 2 ddd 2 ワードの出現回数を カウントする
17.
WordCout aaa bbb ccc aaa bbb ddd bbb ccc ddd Map Reduce Map Map Reduce Reduce shuffle aaa 2 bbb
3 ccc 2 ddd 2 この、Map / Reduce処理を担う、「 Mapper」と「Reducer」を 色々な言語で書くことができます!
18.
書いてみた
19.
python
20.
WordCountMapper.py
21.
WordCountMapper.py ここで標準入力を 受け付けて
22.
WordCountMapper.py ここで標準入力を 受け付けて 該当行の文字列 (例えばaaa) と、 1という数値を出力する
23.
WordCountReducer.py
24.
WordCountReducer.py ここでMapperからの入力を 受け付けて
25.
WordCountReducer.py ここでMapperからの入力を 受け付けて 渡ってきた key: aaa value:
1 といった文字列を、 key毎にvalueを加算する
26.
実行
27.
コマンドが長〜いので シェルとか作るといいです
28.
作成したMapper/Reducerは このへんに指定
29.
結果 ファイルが出力されて
30.
結果 中身を見ると
31.
結果 正常にワードカウント されました!
32.
php
33.
WordCountMapper.php
34.
WordCountMapper.php ここで標準入力を 受け付けて
35.
WordCountMapper.php ここで標準入力を 受け付けて 該当行を出力
36.
WordCountReducer.php
37.
WordCountReducer.php ここでMapperからの入力を 受け付けて
38.
WordCountReducer.php ここでMapperからの入力を 受け付けて 渡ってきた文字列毎に 単語数を加算
39.
結果は一緒なので割愛
40.
perl
41.
WordCountMapper.pl もはやMapperなんか要らん!
42.
-mapperに/bin/catを 指定すればおk
43.
WordCountReducer.pl
44.
WordCountReducer.pl ここでMapperからの入力を 受け付けて
45.
WordCountReducer.pl ここでMapperからの入力を 受け付けて 渡ってきた文字列毎に 単語数を加算
46.
まとめ • Hadoop Streamingを使えば、 色んな言語でMap/Reduceを書ける (jsとかもできるらしい) •
お好きな言語で快適なHadoopライフを!
Download