SlideShare a Scribd company logo
世界⼀簡単なHadoopの話
株式会社イオシス
http://io-sys.co.jp/
     島崎浩一
つーかHadoopって何なの?
• 一言で・・・言えない!
• Hadoopには大きく分けてHDFSという
分散ファイルシステムという役割と、
MapReduceという処理エンジンがある
• HDFSは完全にインフラ的な話
• MapReduceは完全にアプリ的な話
                        更に・・・
つーかHadoopって何なの?
使いこなす為に統計学的な知識や
高度な処理要件が必要になる!
要件定義に、単に業務に詳しいだけ
ではなくデータサイエンティストが必要
つーかHadoopって何なの?
よって、構築に際し
インフラに詳しくて、Javaとかにも詳しくて、
アプリ開発経験があって、統計分析も出来て、
業務にも詳しい人が必要になる
つーかHadoopって何なの?
よって、構築に際し
インフラに詳しくて、Javaとかにも詳しくて、
アプリ開発経験があって、統計分析も出来て、
業務にも詳しい人が必要になる
   んな奴いるか!(俺以外に!嘘ゴメン)
これがHadoopやビッグデータの大変さ
HDFS
つーことで、一つ一つざっくりと説明してみる
HDFS(分散ファイルシステム)は RAID5
RAID5は一つのPCの中でHDDを複数使う
という仕組みだが、
HDFSは一つのHDFSの中で複数のPCを使う
という感じなだけ。
役割も大体一緒
MapReduce
処理の方式。Javaで実装するフレームワーク。
Mapという分類処理と、
ReduceというMapの結果に対する整理処理
合わせてMapReduceという集計処理
なだけ。
MapReduce
例えばリアルで行われてる、大量のデータを集
計して計算して順番並べてといえば…
そう、選挙の開票作業がまさにそれ!
MapReduce
Map処理
データを集めて名前ごとに分類
Reduce処理
Mapである程度たばになったモノを
ちゃんと整理して順番にならべたり
まとめると
まぁ大体こんな感じ。
全員がそれぞれ全部解ってないとダメなわけ
じゃないけど、ある程度解っててくれないと話
にならない。
おまけにインフラにかかる費用も凄い(導入
はAWS前提かなぁ)。
という感じなので、システム屋としては
いろいろ大変なのでした。

More Related Content

PDF
Hadoop 基礎
PDF
Hadoopの概念と基本的知識
PPT
はやわかりHadoop
PDF
Hadoopことはじめ
PDF
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
PPT
Hadoop loves H2
PDF
Hadoopデータプラットフォーム #cwt2013
PPTX
SASとHadoopとの連携
Hadoop 基礎
Hadoopの概念と基本的知識
はやわかりHadoop
Hadoopことはじめ
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
Hadoop loves H2
Hadoopデータプラットフォーム #cwt2013
SASとHadoopとの連携

What's hot (19)

PDF
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
PPTX
Hadoop / Elastic MapReduceつまみ食い
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PDF
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
PPTX
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
ODP
Hadoop for programmer
PPT
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
PPTX
今さら聞けないHadoop セントラルソフト株式会社(20120119)
PDF
Hadoop Conference Japan 2013 Winter オープニングスライド
PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
PDF
Hadoopによる大規模分散データ処理
PDF
Hadoop入門
PDF
FluentdやNorikraを使った データ集約基盤への取り組み紹介
PDF
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
PDF
Hadoop概要説明
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
PDF
Hadoop ecosystem NTTDATA osc15tk
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
Hadoop / Elastic MapReduceつまみ食い
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
Hadoop for programmer
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
今さら聞けないHadoop セントラルソフト株式会社(20120119)
Hadoop Conference Japan 2013 Winter オープニングスライド
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
Hadoopによる大規模分散データ処理
Hadoop入門
FluentdやNorikraを使った データ集約基盤への取り組み紹介
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
Hadoop概要説明
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop ecosystem NTTDATA osc15tk
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Ad

Similar to 世界一簡単なHadoopの話 (20)

PDF
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
PPT
Hadoopの紹介
PDF
MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。
PPT
Hadoop ~Yahoo! JAPANの活用について~
PDF
Hadoop / MapReduce とは
PPT
Hadoop~Yahoo! JAPANの活用について~
PDF
ただいまHadoop勉強中
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
PPTX
Tuning maniax 2014 Hadoop編
PPT
Hadoop~Yahoo!Japanの活用について
PDF
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
PPT
Googleの基盤クローン Hadoopについて
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
PDF
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
PDF
Hadoop_startup
PPTX
PPTX
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
PPTX
ゾウ使いへの第一歩
PDF
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
PDF
第1回Hadoop関西勉強会参加レポート
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Hadoopの紹介
MapReduce 初心者が Hadoop をさわってみた。もちろん C++ から。
Hadoop ~Yahoo! JAPANの活用について~
Hadoop / MapReduce とは
Hadoop~Yahoo! JAPANの活用について~
ただいまHadoop勉強中
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Tuning maniax 2014 Hadoop編
Hadoop~Yahoo!Japanの活用について
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
Googleの基盤クローン Hadoopについて
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop_startup
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
ゾウ使いへの第一歩
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
第1回Hadoop関西勉強会参加レポート
Ad

世界一簡単なHadoopの話