Submit Search
20分でわかるHBase
40 likes
5,242 views
Sho Shimauchi
PyFes 2012.07 で発表したときのスライドです。 HBaseのアーキテクチャ周りを中心に話しました
Technology
Read more
1 of 48
Download now
Downloaded 107 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
More Related Content
PDF
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Cloudera Japan
PDF
なぜApache HBaseを選ぶのか? #cwt2013
Cloudera Japan
PDF
5分でわかる Apache HBase 最新版 #hcj2014
Cloudera Japan
PDF
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
PDF
Osc2012 spring HBase Report
Seiichiro Ishida
PPTX
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
LINE Corporation
PPTX
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Michio Katano
PDF
刊行記念セミナー「HBase徹底入門」
cyberagent
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Cloudera Japan
なぜApache HBaseを選ぶのか? #cwt2013
Cloudera Japan
5分でわかる Apache HBase 最新版 #hcj2014
Cloudera Japan
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
Osc2012 spring HBase Report
Seiichiro Ishida
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
LINE Corporation
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Michio Katano
刊行記念セミナー「HBase徹底入門」
cyberagent
What's hot
(20)
PPTX
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
PDF
CDH4.1オーバービュー
Cloudera Japan
PDF
HDFS HA セミナー #hadoop
Cloudera Japan
PDF
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
Toshihiro Suzuki
PPTX
HDFS Supportaiblity Improvements
Cloudera Japan
PDF
HBase at Ameba
Toshihiro Suzuki
PDF
MapR M7 技術概要
MapR Technologies Japan
PDF
HBase at LINE
Shun Nakamura
PPTX
Cloudera Impala Seminar Jan. 8 2013
Cloudera Japan
PPTX
Cloudera大阪セミナー 20130219
Cloudera Japan
PDF
Evolution of Impala #hcj2014
Cloudera Japan
PDF
Hadoopのシステム設計・運用のポイント
Cloudera Japan
PDF
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Japan
PDF
HBaseCon 2012 参加レポート
NTT DATA OSS Professional Services
PDF
Cloudera impalaの性能評価(Hiveとの比較)
Yukinori Suda
PDF
Guide to Cassandra for Production Deployments
smdkk
PDF
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
PDF
CDH5最新情報 #cwt2013
Cloudera Japan
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
CDH4.1オーバービュー
Cloudera Japan
HDFS HA セミナー #hadoop
Cloudera Japan
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
Toshihiro Suzuki
HDFS Supportaiblity Improvements
Cloudera Japan
HBase at Ameba
Toshihiro Suzuki
MapR M7 技術概要
MapR Technologies Japan
HBase at LINE
Shun Nakamura
Cloudera Impala Seminar Jan. 8 2013
Cloudera Japan
Cloudera大阪セミナー 20130219
Cloudera Japan
Evolution of Impala #hcj2014
Cloudera Japan
Hadoopのシステム設計・運用のポイント
Cloudera Japan
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
Insight Technology, Inc.
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Japan
HBaseCon 2012 参加レポート
NTT DATA OSS Professional Services
Cloudera impalaの性能評価(Hiveとの比較)
Yukinori Suda
Guide to Cassandra for Production Deployments
smdkk
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
CDH5最新情報 #cwt2013
Cloudera Japan
Ad
Viewers also liked
(12)
PDF
Facebook Messages & HBase
强 王
PPT
Cassandra v0.6-siryou
あしたのオープンソース研究所
PPT
Hbase勉強会(第一回)メモ
Takashi Kambayashi
PPTX
HBase スキーマ設計のポイント
daisuke-a-matsui
PPTX
Mongo sharding
Takahiro Inoue
PDF
MongoDBで作るソーシャルデータ新解析基盤
Takahiro Inoue
PDF
Hadoop概要説明
Satoshi Noto
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
PDF
20090713 Hbase Schema Design Case Studies
Evan Liu
PDF
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
Recruit Technologies
PDF
リクルート式ビッグデータ活用術
Recruit Technologies
PDF
Cassandraとh baseの比較して入門するno sql
Yutuki r
Facebook Messages & HBase
强 王
Cassandra v0.6-siryou
あしたのオープンソース研究所
Hbase勉強会(第一回)メモ
Takashi Kambayashi
HBase スキーマ設計のポイント
daisuke-a-matsui
Mongo sharding
Takahiro Inoue
MongoDBで作るソーシャルデータ新解析基盤
Takahiro Inoue
Hadoop概要説明
Satoshi Noto
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
20090713 Hbase Schema Design Case Studies
Evan Liu
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
Recruit Technologies
リクルート式ビッグデータ活用術
Recruit Technologies
Cassandraとh baseの比較して入門するno sql
Yutuki r
Ad
Similar to 20分でわかるHBase
(20)
PDF
HBase Across the World #LINE_DM
Cloudera Japan
PDF
On-Premise Kubernetes on Rancher
Yasushi Kanaya
PDF
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
PDF
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Japan
PDF
Lars George HBase Seminar with O'REILLY Oct.12 2012
Cloudera Japan
PDF
忍者ツールズのCouchbase導入事例
Kenichi Tsunokawa
PDF
20121115 オープンソースでハイアベイラビリティ! ~クラスタ管理の設計構築ハウツー&エンジニア思考力~
Iwasaki Noboru
PDF
Dsas周りのお話
KLab株式会社
PDF
NVMFS 使ってみたとか 言っちゃって マジカジュアルな奴
Akihiro Kuwano
PDF
Zabbixのパフォーマンスチューニング & インストール時の注意点
Kodai Terashima
PDF
Amazon RDS (Relational Database Service) の概要説明
SORACOM, INC
PPTX
Hadoop summit 2012 report
Sho Shimauchi
PDF
Couchbase introduction-20150611
Couchbase Japan KK
PDF
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
Yahoo!デベロッパーネットワーク
PDF
Couchbaseの紹介 2015/03/05
Couchbase Japan KK
PDF
Dbts2015 tokyo vector_in_hadoop_vortex
Koji Shinkubo
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
PPTX
dimSTATから見るベンチマーク
hiroi10
PDF
DevOps with Database on AWS
Amazon Web Services Japan
HBase Across the World #LINE_DM
Cloudera Japan
On-Premise Kubernetes on Rancher
Yasushi Kanaya
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Japan
Lars George HBase Seminar with O'REILLY Oct.12 2012
Cloudera Japan
忍者ツールズのCouchbase導入事例
Kenichi Tsunokawa
20121115 オープンソースでハイアベイラビリティ! ~クラスタ管理の設計構築ハウツー&エンジニア思考力~
Iwasaki Noboru
Dsas周りのお話
KLab株式会社
NVMFS 使ってみたとか 言っちゃって マジカジュアルな奴
Akihiro Kuwano
Zabbixのパフォーマンスチューニング & インストール時の注意点
Kodai Terashima
Amazon RDS (Relational Database Service) の概要説明
SORACOM, INC
Hadoop summit 2012 report
Sho Shimauchi
Couchbase introduction-20150611
Couchbase Japan KK
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
Yahoo!デベロッパーネットワーク
Couchbaseの紹介 2015/03/05
Couchbase Japan KK
Dbts2015 tokyo vector_in_hadoop_vortex
Koji Shinkubo
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
dimSTATから見るベンチマーク
hiroi10
DevOps with Database on AWS
Amazon Web Services Japan
20分でわかるHBase
1.
20分でわかるHBase Python Developers Festa
2012.07 #pyfes 2012/07/28 @shiumachi
2.
アジェンダ • HBaseとは
• HBaseのデータ構造 • HBaseのテーブル構造とアーキテクチャ • リージョン分割〜HBaseにおけるシャーディン グ〜 • アーキテクチャから見るHBaseの使い方 • ???
3.
お前誰よ? • Sho
Shimauchi ( @shiumachi ) • Cloudera の問い合わせ担当 • ここ最近で一番衝撃的だった問い合わせは、 私の個人ブログの内容について説明してほし いというもの(しかも4年前の記事)
4.
HBase 本日本語訳出ました
• Cloudera の Lars George が書いた HBase のバイ ブル • 訳は安心の玉川さん • レビュー手伝ってました • 今日話すことは全部こ の「馬本」に書いてます
5.
HBaseとは
6.
HBase とは •
分散DB • 列ファミリ指向DB • ソートマップDB • キーバリューストア
7.
なぜHBaseを使うのか RDBMSにデータが入りきらない シャーディングしなきゃいけない
だるい
8.
なぜHBaseを使うのか 頑張ってシャーディングした 書き込みがスケールしない
\(^o^)/オワタ
9.
なぜHBaseを使うのか • シャーディングをサポートしてる
– 自動シャーディング – コマンド一発で手動シャーディング • 書き込みがスケールする • データの耐障害性も確保されてる – これはHadoopのファイルシステムHDFSの機能
10.
HBaseのデータ構造
11.
HBaseのデータ構造 シンプルなキーバリュー型
キー 値
12.
HBaseのデータ構造 キーが「行」「列ファミリ」「列」「タイムスタンプ」 に分かれている
タイム 行キー 列ファミリ 列 値 スタンプ
13.
HBaseのデータ構造 キーバリューがソートされてならんでいる
タイム 行キー 列ファミリ 列 値 スタンプ r1 cf1 c1 1000 ‘python’ r1 cf1 c2 1000 ‘php’ r1 cf2 c1 1000 ‘ruby’ r2 cf1 c2 1000 ‘java’
14.
CM データ構造の話は馬本の 9章冒頭に詳しく書かれて います
是非買って読んでください
15.
HBaseのテーブル構造と アーキテクチャ
16.
HBaseのテーブル構造 • テーブルはリージョン/列ファミリごとに別ファ
イルに保存される • リージョンは、指定された行キーの範囲で分 割される
17.
HBaseのテーブル構造 • 1リージョンには列ファミリの数だけストアファイルが存在
• 実際はもう少し複雑だがここでは簡略化して説明 列ファミリ1 列ファミリ1 リージョン ストアファイル a -‐ c リージョン d -‐ f リージョン d -‐ f
18.
HBaseのアーキテクチャ • RegionServer
– リージョンを管理する • Zookeeper – リージョンサーバの配置や管理テーブルの配置 など、HBaseの中核情報を管理する • HMaster – データそのものは扱わず、管理情報を収集し管 理インタフェースを提供する
19.
リージョンサーバ クライアントはリージョン
クライアント サーバのリージョンに 直接アクセスする リージョンサーバ リージョンサーバ リージョン リージョン
20.
リージョンの位置を知るには? • .META.
テーブル – リージョンサーバとリージョンのマップ情報 – クライアントは .META. テーブルに問い合せて場所を 確認 • ROOT テーブル – .META. の場所をポイントするだけのテーブル – クライアントはROOTテーブルを見て.META.テーブル を探す – ROOTテーブルの場所はZooKeeperに保存されている
21.
リージョンAにアクセスする場合 クライアント
ZooKeeper リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
22.
リージョンAにアクセスする場合 クライアント
ZooKeeper リージョンAに書き込みたい リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
23.
リージョンAにアクセスする場合 クライアント
ZooKeeper ROOTテーブルどこよ? リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
24.
リージョンAにアクセスする場合 クライアント
ZooKeeper リージョンサーバ1にあるよ リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
25.
リージョンAにアクセスする場合 クライアント
ZooKeeper .META.テーブルどこよ? リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
26.
リージョンAにアクセスする場合 クライアント
ZooKeeper リージョンサーバ2にあるよ リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
27.
リージョンAにアクセスする場合 クライアント
ZooKeeper リージョンAはどこよ? リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
28.
リージョンAにアクセスする場合 クライアント
ZooKeeper リージョンサーバ2にあるよ リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
29.
リージョンAにアクセスする場合 クライアント
ZooKeeper ようやくアクセスできた! 場所はキャッシュしたので、 もうZooKeeperや管理テー ブルを見る必要はない! リージョンサーバ1 リージョンサーバ2 ROOT .META. リージョンA
30.
CM データの流れの話は馬本 の8章に詳しく書かれてい ます
是非買って読んでください
31.
リージョン分割〜HBaseにおける シャーディング〜
32.
リージョン分割 • リージョンが大きくなりすぎるとHBaseはリー
ジョンを自動で分割する • 分割はコストがかかる上管理が大変になるの で、手動による分割を推奨 • 特にデータ投入前の事前分割は強く推奨
33.
リージョン分割
このリージョンは大きくなり すぎたので分割しよう リージョンサーバ リージョンサーバ リージョン
34.
リージョン分割 リージョンサーバ
リージョンサーバ リージョン リージョン
35.
リージョン分割
分割したうちの片方は他の リージョンサーバに渡そう リージョンサーバ リージョンサーバ リージョン リージョン
36.
リージョン分割 ZooKeeperは分割を常に監
ZooKeeper 視している 分割完了後、.META.も更新 される リージョンサーバ リージョンサーバ ROOT .META. リージョン リージョン
37.
アーキテクチャから見るHBaseの 使い方
38.
スキーマ設計 • 列ファミリだけはテーブル作成時に定義しな
ければいけない – 列は任意の数だけ追加可能(所詮はただのキー) • 列ファミリの数だけファイル数が増える – 通常1つ、多くとも3つにとどめる
39.
行キー設計 • ランダムかシーケンシャルか
• ランダムアクセス重視 – 書き込みをリージョンで散らす – 行キーをハッシュにしてしまうなど • シーケンシャル重視 – スキャン(一括取得)したい場合など – 行キーを並べておく
40.
CM データの流れの話は馬本 の8章に詳しく書かれてい ます スキーマ設計の話は9章 に書いてます
是非買って読んでください
41.
まとめ
42.
今日話したこと •
HBaseのデータ構造(キーバリュー) • HBaseのアーキテクチャ • リージョンの考え方 • スキーマ・行キー設計
43.
今日話していないこと(一部) • 先行書き込みログ
– HBaseが壊れてもデータが残っていることを保証 • メムストア – メモリキャッシュのようなもの • フラッシュとコンパクション • HBase API – Java – Thri (python もあるよ) – REST – hbase shell (jruby ベースのインタラクティブシェル) • フィルタ • コプロセッサ • HBCK • MapReduce • データのインポート・エクスポートツール
44.
CM もちろん馬本には全部書 いてあります
是非買って読んでください
45.
まとめ • HBase
を使うことはそんなに難しくありません – 少なくとも自力でシャーディングするよりマシ • 性能を引き出そうとすればそれなりの知識が 必要です – 他の技術も同じ • 正しく活用して、高速かつスケーラブルな HBaseをエンジョイしましょう!
46.
CM HBaseを使いこなすにはド キュメントは必須です 現在手に入る唯一にして 最高のHBase本、それが 馬本です
是非買って読んでください
47.
HBase トレーニング始めました 7月30日(来週の月曜)から、日本語でもHBase トレーニングを始めます
馬本だけじゃ無理という人は是非参加してくだ さい h]p://www.cloudera.co.jp/university/ hbase.html
48.
おしまい
Download