SlideShare a Scribd company logo
1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
最新事例から学ぶ
ビッグデータの活⽤法
ホートンワークスジャパン株式会社
マーケティングディレクター
北瀬 公彦
2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
北瀬 公彦
KIMIHIKO KITAsE
http://blogs.itmedia.co.jp/kkitase
@kkitase
2016年6⽉、ホートンワークスジャパンに⼊社。
ビッグデータの収集、蓄積、分析基盤製品のマーケティ
ングを担当。⼊社前、⽶Data Science Dojoが開催する
データサイエンティスト養成講座に参加するも、全く畑
の違う分野で悪戦苦闘。開き直って、初⼼者に優しい
データの利活⽤術をお伝えしようと考えている。
facebook.com/kkitase
3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
4ZB
DATA
MOBILE	
DEVICES
HUMAN
CONTENT
INTERNET	
OF	THINGS
44ZB
DATA
Source:	http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
出所:第27回産業競争⼒会議 2016.5
政府は2016年5⽉19⽇、第27回
産業競争⼒会議を開催し、名⽬
国内総⽣産(GDP)600兆円に向
けた成⻑戦略(「⽇本再興戦略
2016」)の素案を公表しました。
新たな有望成⻑市場の創出では、
IoT・ビッグデータ・AI・ロボッ
トなどによる第4次産業⾰命の
実現で2020年には30兆円の付加
価値創出を⽬指しています。
⽇本再興戦略2016 〜第4次産業⾰命の実現〜
5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
現⾏のシステムで受け⽌められますか?
à 課題
• データがアプリに固定化していてる
• 新しいデータの受け⼊れが難しい
• スケールするとコスト⾼
ビジネスの価値
クリックストリーム
Webデータ
Internet of Things
ドキュメント、メール
サーバーログ
⾳声・画像
2013年
4 Zettabytes
2020年
40 Zeta bytes
1
2 新しいデータ
ERP CRM SCM
新しいデータ
既存データ
新たなデータの多くは、
Internet of Anything
としてシステムとデバイス間の
やり取りとして誕⽣します
6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
企業のIT投資動向
ほぼ横ばい
7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ビッグデータには新しいプラットフォームが求められる
・⼤量・多種類データに対応する拡張性
・静的・動的データの⼀元管理
・リアルタイム・エッジ実装
・ガバナンス・セキュリティ
・オープンテクノロジー
DATA AT
REST
DATA IN
MOTION
ACTIONABLE
INTELLIGENCE
Modern Data Applications
流れている
データ
蓄積された
データ
8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
新しいタイプの
アナリティクス
新しいタイプのデータ既存のデータ
既存のアナリ
ティクス・業務ビッグデータ活⽤の道のり
データ統合・可視化
貯める・統合する・⾒える化する
DWH・EDW
MDM
Business
Intelligence
データエンリッチメント・多様化
増やす・作る・使わせる
IoT
Data Ingest
Edge
Analytics
データサイエンス・予測分析
使う・発⾒する・予測する
Data
Discovery
Predictive
Analytics
戦略的データ活⽤の⾃動化
最適化する・利益に変える
AI
Real-Time
Deep
Learning
9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
新しいタイプの
アナリティクス
新しいタイプのデータ既存のデータ
既存のアナリ
ティクス・業務
• EDW & ETL データのロードやバランシン
グ
• コスト & 柔軟性
• 新しいスキルセットの習得
• コモディティHWを使ってスケールアウト
• お客様のプロファイルや履歴を360度か
ら⾒るシングルビュー
• クリックストリーム分析によるお客様へ
の最適な商品の提供
• 巨⼤な過去データに対しての⽀払い請求
分析
New Historical View
IT Optimization New Data Influencers
• 「使⽤ベース」保険のためのセンサーや
テレマティクスデータを収集
• センチメント
• ロスコントロールや予防サービスの強化
• 必要ベースのカバレッジ vs. 既存のカバ
レッジ
New Analytics Applications
• テキスト分析やリンク分析による⽀払い
請求の異常値発⾒や不正検地
• リンク分析によるリスク分析の強化
• 新しい予測データを使⽤し、⽀払い請求
の深刻度や頻度を強化
保険業務でのデータ活⽤例
10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks® の顧客は、新たなビジネス⽬標を達成する、コストを削減することのいずれか
の理由で当社の技術を利⽤しています。
Customer Journeyは、弊社が保持する多くのユースケースを案内する事によりお客様のニー
ズに応えます。
ソーシャル
マッピング
リスク評価
テレマト
リックス
ロス
コントロー
ル
コール分析
センサー
データ
製品設計 M & A
デューデリ
ジェンス
レコメン
デーション
サイバー
セキュリ
ティ
リスク
モデリング
リスクアペ
タイト
ロスコント
ロール
Cat
モデル
調査計画
⽀払い請求
深刻度
カスタマー
サポート
センチメン
ト分析
リスク分析
広告掲載
⽀払い請求
分析
セグメン
テーション
クロス
セル
顧客維持
代理店
スコアカー
ド
不正調査
運⽤コスト
削減
メインフ
レームのオ
フロード
履歴レコー
ド
サービス
としての
データ
パブリック
データ取得
不正予防
デバイス
データ
取り込み
⾼速レポー
ティング
デジタル
保護
不正緩和
⽀払い能⼒
分析
11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
事例のご紹介
12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データ活⽤による新規ビジネスの展開
運転傾向・⾞の使⽤環境に基づ
いた柔軟な保険提案の実現
à Snapshot plug-in デバイスは運転の
詳細を収集
à Progressiveは、1000万マイル以上
の運転データを保存 (約1600万
Km)
à Webアプリ経由で、顧客は⾃⾝の運
転詳細を⾒ることができ、安全向上
に努めることが可能
à Snapshotとusage-based insurance
は2014年には、Progressiveに2.6 億
ドルの貢献(約273億円)
Innovate
Renovate
Claims Notes
Mining
Individual
Driving
Histories
Usage-Based
Insurance (UBI)
Web Log
Analysis
Online Ad
Placement
Sensor Data
Ingest
PREDICTIVE
ANALYTICS
A C T I V E
A R C H I V E
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
E T L
O N B O A R D
Safe Roads
既存データの
可視化
データ拡充
新規基盤構築
新規モデル作成 新規サービス提
供
13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
爆発するデータ容量に対応したサービス改善
Metadata
Capture
Threat
Predictions
Attacker
Detection
Unified
Security
Security Log
Analysis
Threat
Archive
Device Data
Ingest
Threat
Detection
Legacy
Offload
Data Science Speeds
Time to Protection
à 脅威検出時間が4時間から2秒に
à 防御回数が5000倍に
à 10ペタバイト以上のデータを
使って機械学習した結果、脅威
が可能に
à AmbariとCloudbreakを使ってク
ラスターを管理
Innovate
Renovate
Digital
Security
PREDICTIVE
ANALYTICS
E T L
O N B O A R D
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
E T L
O N B O A R D
E T L
O N B O A R D
A C T I V E
A R C H I V E
P R E D I C T I V E
A N A L Y T I C S
S I N G L E
V I E W
Proactive
Safeguards
増え続けるセキュリティ攻撃
に対応した新規基盤及び
サービスレベルの改善
既存データの
⾒える化及び
データ拡充⾬
既存システム
のオフロード
コスト最適化
新規モデル作成
新規データ活⽤
新規サービス提
供
15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
スマートメーター活⽤による
新しいマーケティング・顧客サービスの導⼊
1.3 Million
Smart Meters
EDW
Offload
Mobile App for
Customer Sites
Ingest 300
GB per Day
Product
Cross-Sell
データ活⽤による新しい
電⼒提供サービス
スマートメーターによるデータ
量増加に対応した環境構築
年数回の顧客訪問(検針)
→13万個のスマートメーター
数億円のDWHコスト最適化
11時間かかっていたETL処理を
45分に削減
個客に応じた新たなサービス
⾰新的サービスを主体としたビ
ジネモデルに変⾰
Innovate
Renovate
Smart,
Efficient
Homes
D A T A
D I S C O V E R
Y
D A T A
E N R I C H M E N
T
P R E D I C T I V E
A N A L Y T I C S
S I N G L E
V I E W
A C T I V E
A R C H I V E
E T L
O N B O A R D
SINGLE
VIEW
S I N G L E
V I E W
P R E D I C T I V E
A N A L Y T I C S
On-site customer
data capture
Optimized
engineering
schedule
Tailored
servicing
Customer
sentiment
既存環境の最
適化・可視化 データ拡充
予測分析
Data Discovery
新規サービス提
供
16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データ活⽤による製造プロセスの最適化
Scientific
Search
Sensor
Data
Storage
Vaccine Yield
Optimization
Innovate
Renovate
The Journey to
the Golden
Batch10年間、550万通りの製造データ
を結合・分析
最適なワクチン製造⼯程を特定
初年度に40,000ダースの製造増
加に成功。10億円の利益に直結
マッキンゼーの調査の結果、
50%の製造⼯程改善が認められ
る。
Epidemiology
DATA
DISCOVER
Y
A C T I V E
A R C H I V E
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
The Golden
Batch
数百万通りのワクチン製造
プロセスから最適な⼯程を特定
既存データの
結合・共有 データ拡充
予測分析
Data Discovery
新規サービス提
供
17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
⾮構造化データ活⽤による鉄道の最適化
Optimize
Maintenance
Schedule
Innovate
Renovate
The Journey to
the Golden
Batch旧来のメンテナンス履歴、時間
などの作業による膨⼤なコスト
が課題
⾞両搭載のセンサー、GPS、画
像データを⼀括管理
リアルタイムに路線で起こって
いる問題を把握
分析により、将来起こりうる問
題を事前予測、Proactiveなメン
テナンスを⾏う。
DATA
DISCOVER
Y
Safe Rail
位置情報、センサー、画像を活⽤し
たメンテナンス作業の最適化
既存データの
結合・共有 データ拡充
予測分析
Data Discovery
新規サービス提
供
New Insights
from new
data set
EDW
Offload
Ingest
sensor /
GPS data
D A T A
D I S C O V E R
Y
D A T A
E N R I C H M E N
T
A C T I V E
A R C H I V E
E T L
O N B O A R D
P R E D I C T I V E
A N A L Y T I C S
Ingest Video
Images
Optimized
Maintenance
schedule
北⽶⼤⼿鉄道会社様
18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
eBay: 毎⽇50TB以上のデータが⽣成
Source:
http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
http://www-conf.slac.stanford.edu/xldb2011/talks/xldb2011_tue_1055_TomFastner.pdf
19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ヘルスケア業界で、データプラットフォームの構築
Preventive
Care
OPEX
Efficiency
Billing &
Payments
Clinical
Docs
Vital Sign
Monitoring
Single
Patient Record
Medical
Decision Support
Lab Notes
Archive
EPIC EMR
Replication
EPIC
Enrichment
Privacy
Database
Device
Data Ingest
効果
払い戻し要求があった場合に
も、患者の状況を把握できる
ようになった。
患者様の情報などを、効率的
テキストサーチを⾏う事が可
能になった。
19000の患者様の情報に対し
てのあるクエリが、2週間か
かっていたバッチ処理が、半
⽇で終わるようになった。
課題
35の病院、500のクリニッ
ク、年間100万の患者
主に、運営、財務、費⽤
のデータを分析していた。
データが増えてもスケー
ルアウトさせられなかっ
た。
ソリューション
すべてのデータをHadoop
にリプリケートした
組織内のデータだけでな
く、3rdパーティのデータ
を利⽤するようになった
20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworksのご紹介
21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks
Hadoop / Spark / NiFi を中核に置いたソフトウェアを開発・販売、サービスの提供
• Hortonworksについて
• 100%オープンソース
• 会社設⽴3年⽬で株式公開
• 顧客数 800社以上(2015年Q4)
• ビジネスモデル
• 1年間契約のサブスクリプション(サポートサービス)
• コンサルティングサービス / プロジェクト⽀援サービ
ス
Hadoopを早くから導⼊されたお客様も
Hortonworksのディストリビューションを採⽤
開発 & データツール
インフラストラクチャ
オペレーションツール
RDBMSEDW MPP
データシステム
分析ツール & アプリケーション
BusinessObje
cts BI
Microsoft Analytics
Platform System
1,600を超えるエコシステムパートナー
Hortonworks テクノロジーパートナー
• Connected Data Platformsを提供
• Hortonworks Data Platform (HDP)
• 様々なデータを蓄積する (data at rest)
• Hortonworks DataFlow (HDF)
• リアルタイムのデータを扱う(data in motion)
データ収集、蓄積、分析プラットフォーム
22 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ホートンワークスジャパン株式会社
設⽴
• 2014 Q3
オフィス
• ⼭王パークタワー(東京都千代⽥区 永⽥町2丁⽬11−1 3F)
サービス
• サポートサービス: 24時間365⽇、⽇本語でサービス提供
• プロフェッショナルサービス: クラスタ設計・構築⽀援等
社員数
• 14名 (as of 2016/09)
• Hadoop、Spark、HBase関連の書籍執筆者も在籍
• ⽇本初のApache NiFi Project Committerが在籍
3F
23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Apache Communityへの貢献
コミッターの多くがHortonworksの社員です。
Apache Hadoop プロジェクトに関わるコミッターの
約1/3はHortonworksの社員です。Apache NiFiの⼤半
を始めとする多くの重要なプロジェクトに関わって
います。
コミッターはコネクティッド・データプラット
フォームを改良し、⾰新を続けています。
Hadoopのロードマップに関わっています。
コミュニティに対し、重要なリクワイアメントを⾔
える⽴場にいます。
1,500を超えるエコシステムパートナー
Hortonworks テクノロジーパートナー
専⾨家集団 開発に深く携わるコア・メンバーにより構成
Hortonworks はApache Communityに
⾮常に深く関与しています。
24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
100% Open Source
Connected Data Platforms
Eliminates Risk
オープンソースソフトウェア・最先端テクノ
ロジーの活⽤によるデータ活⽤提案
Maximizes Community Innovation
全世界のコミュニティの⼒を活⽤した最先端
技術の活⽤
Integrates Seamlessly
世界中のソリューション・IT Technologyとの
親和性
M A X I M U M C O M M U N I T Y I N N O VAT I O N
T H E
I N N O VAT I O N
A D VA N TA G E
P R O P R I E T A R Y
H A D O O P
T I M E INNOVATION
O P E N
C O M M U N I T Y
25 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks: Big Data Hadoop Solutions リーダー
Hortonworks is a Leader of
Big Data Hadoop Solutions
Fortune 100 の40%の企業が採⽤
75% 通信業界
65% 損害保険業界
55% 製造業
46% 卸売、⼩売業界
40% ヘルスケア
“The Forrester Wave™: Big Data Hadoop Solutions”
26 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
ビッグデータを⽀える静的・動的データプラットフォーム
Connected Data Platforms
• HadoopはData at Rest(蓄積されたデータ)の基礎
• IoTの登場により、Data in Motion(流れているデータ)の必要性
• モダンデータアプリケーションはData in MotionとData at Restの両
⽅のデータを利⽤してお客様の価値を最⼤化
• 最適な保険料⾦の選定システム
• 故障予測サービス
• サイバーセキュリティ
• その他のインダストリーアプリなど
Data Operating System
27 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks Data Platform
のご紹介
28 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データの蓄積、分析プラットフォーム
Hortonworks Data Platform (HDP)
Data Operating System
クリックストリーム センサー ソーシャル モバイル 位置情報 サーバーログ
バッチ インタラクティブ サーチ ストリーミング マシンラーニング
既存データ
29 © Hortonworks Inc. 2011 – 2016. All Rights Reserved runs	on
ETL
RDBMS	Import/Export
Distributed	Storage	&	Processing	Framework
Secure	NoSQL DB
SQL	on	HBase
NoSQL DB
Workflow	Management
SQL
Streaming	Data	Ingestion
Cluster	System	Operations
Secure	Gateway
Distributed	Registry
ETL
Search	&	Indexing
Even	Faster	Data	Processing
Data	Management
Machine	Learning
Hadoop Ecosystem
30 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
データの蓄積、分析プラットフォーム
Hortonworks Data Platform (HDP)
31 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
HORTONWORKS	DATA	PLATFORM
Hadoop
&	YARN	
Flume
Oozie
Pig
Hive
Tez
Sqoop
Cloudbreak
Ambari
Slider
Kafka
Knox
Solr
Zookeeper
Spark
Falcon
Ranger
HBase
Atlas
Accumulo
Storm
Phoenix
4.10.2
DATA	MGMT DATA		ACCESS GOVERNANCE	&	INTEGRATION OPERATIONS SECURITY
HDP	2.2
Dec	2014
HDP	2.1
April	2014
HDP	2.0
Oct	2013
HDP	2.2
Dec	2014
HDP	2.1
April	2014
HDP	2.0
Oct	2013
0.12.0 0.12.0
0.12.1 0.13.0 0.4.0
1.4.4 1.4.4 3.3.23.4.5
0.4.00.5.0
0.14.0 0.14.0 3.4.6 0.5.0 0.4.00.9.30.5.2
4.0.04.7.2
1.2.1 0.60.0 0.98.4 4.2.0 1.6.1 0.6.0 1.5.21.4.5 4.1.02.0.0
1.4.0 1.5.1 4.0.0
1.3.1
1.5.1 1.4.4 3.4.5
2.2.0
2.4.0
2.6.0
2.7.1 1.4.6 1.0.0 0.6.0 0.5.02.1.00.8.2 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0
HDP	2.3
Oct	2015 4.2.0
0.96.1
0.98.0 0.9.1
0.8.1
1.4.1 1.1.2
2.7.3 1.4.6 1.3.0 0.9.0 0.6.02.4.00.10.0 3.4.61.5.25.5.1 0.91.0 0.7.01.7.04.7.0 1.0.1 0.10.00.7.0
1.2.1+
2.1***
0.16.0
HDP	2.5*
2H2016
4.2.0
1.6.2+
2.0**
1.1.2
2.7.1 1.4.6 1.2.0 0.6.0 0.5.02.2.10.9.0 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0
HDP	2.4
Mar	2016 4.2.01.6.0 1.1.2
Zeppelin
Ongoing	Innovation	in	Apache
0.6.0
HDP	2.5	– Shows	current	Apache	branches	being	used.		Final	component	version	subject	to	change	based	on	Apache	release	process.
**	Spark	1.6.2+	Spark	2.0	– HDP	2.5	support	installation	of	both	Spark	1.6.2	and	Spark	2.0.	Spark	2.0	is	Technical	Preview	within	HDP	2.5.
***	Hive	2.1	is	Technical	Preview	within	HDP	2.5.
互換性などのテスト
32 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Ambari(クラスタ管理)
33 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Ambari(SQLクエリ)
34 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hive performance
http://hortonworks.com/blog/announcing-apache-hive-2-1-25x-faster-queries-much/
LLAP: http://www.slideshare.net/techblogyahoo/hivellap
35 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Apache Zeppelin (データサイエンティスト向けUI)
36 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Demonstration
Hortonworks Data Platform (HDP)
1. クラスタの管理 – Ambari (クラスタ管理), Hive(Hadoop SQLエンジン),
Ranger (監査)
2. オーストラリア州の納税額を使ったデータ分析 – Zeppelin (データ分析ツー
ル)
37 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
38 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks DataFlow
のご紹介
39 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks DataFlowとHortonworks Data Platformにより、
ビックデータ基盤のエンド・ツー・エンドソリューションを提供します。
Hortonworks Data Platform
powered by Apache Hadoop
Enrich
Context
Store Data
and Metadata
Internet
of Anything
Hortonworks DataFlow
powered by Apache NiFi
動的・鮮度が
重要な⾒識
静的・過去データ
による⾒識
Connected Data Platform
データ収集プラットフォーム
40 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Lambda (λ) Architecture
Source: http://lambda-architecture.net/
41 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Ingestion
Simple Event
Processing
Engine
Complex Event
Processing
Destination
Data Bus
Build
Predictive Model
From Historical
Data
Deploy
Predictive Model
For Rea-time
Insights
Perishable Insights
Historical Insights
Lambda (λ) Architecture
42 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworks DataFlow
43 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
過去8年間にNSAによっ
て開発
「NSAのイノベーターは、
考えられる中で最も困難
な国家安全保障の問題の
⼀部に取り組んだ」
「商業エンタープライズ
は、これを利⽤して地理
的に
離れたサイトからの情報
フローを迅速に制御、管
理、分析し、総合的な状
況認識を⽣み出すことが
できる」
-- NSAディレクター
Linda L. Burger⽒
国家安全保障局が開発したNiFi
44 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
130以上のシステムとの連携が可能
HTTP
Syslog
Email
HTML
Image
Hash Encrypt
Extract
TailMerge
Evaluate
Duplicate Execute
Scan
GeoEnrich
Replace
ConvertSplit
Translate
HL7
FTP
UDP
XML
SFTP
Route Content
Route Context
Route Text
Control Rate
Distribute Load
AMQP
45 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Demonstration
Hortonworks DataFlow (HDF)
1. Twitterのリアルタイム分析 - NiFi, Solar
46 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
デモ環境
検索エンジン
HDFS
分散ストレージ
データフロー
コントローラー
ソーシャル
データ
47 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
クラウドでの利⽤
48 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
クラウド環境での利⽤ - Azure編
49 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
クラウド環境での利⽤ - AWS編
http://hortonworks.com/blog/quickly-launch-hortonworks-data-platform-amazon-web-services/
50 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
クラウド環境での利⽤ - OpenStack編
51 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
クラウド環境での利⽤ - Baremetal編
Zookeeper
Master Nodes * 3
Ambari * 1
YARN(RM),
HDFS(NN) HA
Other master components
Hardware
Software(HDP)
components
ambari-
server
MySQL
(master-slave)
PostgreSQL
HDFS: DataNodes
YARN: NodeManagers
Slave Nodes * 3+
52 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hortonworksを始める為の5ステップ
1. Hortonworksサンドボックスを試す
hortonworks.com/sandbox
2. チュートリアルを試す
hortonworks.com/tutorials
3. Future of Data 勉強会に参加する
futureofdata.connpass.com
4. Hortonworks Community Connect (HCC)に参加する
hortonworks.com/community
5. サポートサービスを検討する
http://hortonworks.com/support
53 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
Hadoop Summit 2016 Tokyo
Apache Hadoop / Spark、機械学習、データサイエンス、
IoT、ビッグデータなど、データ活⽤最新動向を⼀挙紹介
http://hadoopsummit.org/tokyo
facebook.com/hadoopsummit
@hadoopsummit
Promotion	Code
APAC2020%OFF
eBay, Yahoo Japan, Daimler Trucks Asia, Coca-Cola East Japan, 楽天, Verizon,
LinkedIn, セガ, Criteoなどデータ活⽤先進企業からの登壇決定!

More Related Content

PDF
クラウドにおけるビッグデータ分析環境
PDF
Hortonworksが提供する データ活用方法の紹介
PDF
The real world use of Big Data to change business
PDF
Hadoop Summit 2016 San Jose レポート
PPTX
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
PDF
Hadoop最新事情とHortonworks Data Platform
PPT
Hadoop ~Yahoo! JAPANの活用について~
PDF
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
クラウドにおけるビッグデータ分析環境
Hortonworksが提供する データ活用方法の紹介
The real world use of Big Data to change business
Hadoop Summit 2016 San Jose レポート
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Hadoop最新事情とHortonworks Data Platform
Hadoop ~Yahoo! JAPANの活用について~
Yahoo! JAPANのデータ基盤とHadoop #dbts2016

What's hot (20)

PDF
Spark at Scale
PDF
Hadoop/Spark セルフサービス系の事例まとめ
PDF
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
PDF
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
PDF
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
PDF
IoTアプリケーションで利用するApache NiFi
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PDF
OpenStack, Hadoop -- OSSクラウドの最新動向
PPTX
Case Study: OLAP usability on Spark and Hadoop
PDF
Hadoop ecosystem NTTDATA osc15tk
PPTX
Hadoop / Elastic MapReduceつまみ食い
PDF
変わる!? リクルートグループのデータ解析基盤
PDF
ビッグデータ関連Oss動向調査とニーズ分析
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
PDF
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
PDF
大規模サイトを支えるビッグデータプラットフォーム技術
PDF
MapR Streams & MapR コンバージド・データ・プラットフォーム
Spark at Scale
Hadoop/Spark セルフサービス系の事例まとめ
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
IoTアプリケーションで利用するApache NiFi
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
OpenStack, Hadoop -- OSSクラウドの最新動向
Case Study: OLAP usability on Spark and Hadoop
Hadoop ecosystem NTTDATA osc15tk
Hadoop / Elastic MapReduceつまみ食い
変わる!? リクルートグループのデータ解析基盤
ビッグデータ関連Oss動向調査とニーズ分析
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
大規模サイトを支えるビッグデータプラットフォーム技術
MapR Streams & MapR コンバージド・データ・プラットフォーム
Ad

Viewers also liked (20)

PDF
clouddays
PDF
2016年冬 IBMクラウド最新動向と概要
PDF
そのデータフロー NiFiで楽にしてあげましょう
PPTX
Apache NiFiと 他プロダクトのつなぎ方
PDF
ビックデータとシリコンバレースタートアップ事情
PDF
NetScaler Basic
PDF
Big Data Developers Moscow Meetup 1 - sql on hadoop
PDF
Filesystems, RPC and HDFS
PDF
Elsticsearch参考情報 URLリンク集
PDF
ピコもんのログ収集基板について
PDF
利用者主体で行う分析のための分析基盤
PDF
Introduction to Apache NiFi And Storm
PDF
Kafka含むデータ処理フローを NiFiで構築するさまを実演する5分間
PDF
楽天におけるHadoop活用と、Big Dataのビジョン
PDF
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
PDF
話題のNode-REDでIoTアプリを作ってみよう
PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
PDF
Apache Flume 1.5を活⽤したAmebaにおけるログのシステム連携
PDF
ログ収集フレームワークの新バージョン「FlumeNG」
PDF
Big Data入門に見せかけたFluentd入門
clouddays
2016年冬 IBMクラウド最新動向と概要
そのデータフロー NiFiで楽にしてあげましょう
Apache NiFiと 他プロダクトのつなぎ方
ビックデータとシリコンバレースタートアップ事情
NetScaler Basic
Big Data Developers Moscow Meetup 1 - sql on hadoop
Filesystems, RPC and HDFS
Elsticsearch参考情報 URLリンク集
ピコもんのログ収集基板について
利用者主体で行う分析のための分析基盤
Introduction to Apache NiFi And Storm
Kafka含むデータ処理フローを NiFiで構築するさまを実演する5分間
楽天におけるHadoop活用と、Big Dataのビジョン
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
話題のNode-REDでIoTアプリを作ってみよう
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
Apache Flume 1.5を活⽤したAmebaにおけるログのシステム連携
ログ収集フレームワークの新バージョン「FlumeNG」
Big Data入門に見せかけたFluentd入門
Ad

Similar to 最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks (20)

PDF
Apache Hadoopを利用したビッグデータ分析基盤
PPTX
【日商USA】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~
PDF
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
PDF
Beginner must-see! A future that can be opened by learning Hadoop
PDF
避けては通れないビッグデータ周辺の重要課題
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
PDF
AWS初心者向けWebinar AWSでBig Data活用
PPT
Big data解析ビジネス
PPTX
Hwx勉強会0730
PDF
tut_pfi_2012
PDF
Let's_Start_IoT_with_AWS
PDF
The way to a smart factory armed with data utilization
PDF
Yifeng hadoop-present-public
PDF
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
PDF
Apache ambari
PDF
Data Science on Hadoop
PDF
Msのio tと最新事例 ms_02082018
PDF
AI_IoTを活用する企業のあり方
PDF
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
PDF
リクルート式Hadoopの使い方
Apache Hadoopを利用したビッグデータ分析基盤
【日商USA】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
Beginner must-see! A future that can be opened by learning Hadoop
避けては通れないビッグデータ周辺の重要課題
先行事例から学ぶ IoT / ビッグデータの始め方
AWS初心者向けWebinar AWSでBig Data活用
Big data解析ビジネス
Hwx勉強会0730
tut_pfi_2012
Let's_Start_IoT_with_AWS
The way to a smart factory armed with data utilization
Yifeng hadoop-present-public
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
Apache ambari
Data Science on Hadoop
Msのio tと最新事例 ms_02082018
AI_IoTを活用する企業のあり方
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
リクルート式Hadoopの使い方

More from Kimihiko Kitase (20)

PDF
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
PDF
SoftLayer Bluemix Community Festa 2016 Program Guide
PDF
2016年冬 IBMクラウド最新動向
PDF
クラウドを活用した システム開発は適材適所
PDF
Try IoT with Node-RED
PDF
ホスティッドプライベートクラウド勉強会 ~Azure Pack on SoftLayer ~
PDF
SoftLayer最新動向と賢い利用方法
PDF
SoftLayer Bluemix Intro
PDF
SoftLayer Bluemix Summit 2015 Flyer
PDF
OSC15 Okinawa Intro SoftLayer and Bluemix
PDF
Introduction of public cloud softlayer and bluemix
PDF
SoftLayer Bluemix Summit 2015
PDF
クラウドに構築したWebサイトのセキュリティ対策やグローバル展開について
PDF
Introduction softlayer and bluemix
PDF
5分で分かった気になるIoT
PDF
Build easy web system on softlayer
PDF
About SoftLayer at OSC Tokyo Spring
PDF
クラウドAPIを利用した開発について ~ セルフポータル、ストレージサービス、Infrastructure as a code ~
PDF
SoftLayer and the possibility of baremetal
PDF
IaaS型パブリッククラウド「IBM SoftLayer」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
SoftLayer Bluemix Community Festa 2016 Program Guide
2016年冬 IBMクラウド最新動向
クラウドを活用した システム開発は適材適所
Try IoT with Node-RED
ホスティッドプライベートクラウド勉強会 ~Azure Pack on SoftLayer ~
SoftLayer最新動向と賢い利用方法
SoftLayer Bluemix Intro
SoftLayer Bluemix Summit 2015 Flyer
OSC15 Okinawa Intro SoftLayer and Bluemix
Introduction of public cloud softlayer and bluemix
SoftLayer Bluemix Summit 2015
クラウドに構築したWebサイトのセキュリティ対策やグローバル展開について
Introduction softlayer and bluemix
5分で分かった気になるIoT
Build easy web system on softlayer
About SoftLayer at OSC Tokyo Spring
クラウドAPIを利用した開発について ~ セルフポータル、ストレージサービス、Infrastructure as a code ~
SoftLayer and the possibility of baremetal
IaaS型パブリッククラウド「IBM SoftLayer」とは

最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks

  • 1. 1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 最新事例から学ぶ ビッグデータの活⽤法 ホートンワークスジャパン株式会社 マーケティングディレクター 北瀬 公彦
  • 2. 2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 北瀬 公彦 KIMIHIKO KITAsE http://blogs.itmedia.co.jp/kkitase @kkitase 2016年6⽉、ホートンワークスジャパンに⼊社。 ビッグデータの収集、蓄積、分析基盤製品のマーケティ ングを担当。⼊社前、⽶Data Science Dojoが開催する データサイエンティスト養成講座に参加するも、全く畑 の違う分野で悪戦苦闘。開き直って、初⼼者に優しい データの利活⽤術をお伝えしようと考えている。 facebook.com/kkitase
  • 3. 3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 4ZB DATA MOBILE DEVICES HUMAN CONTENT INTERNET OF THINGS 44ZB DATA Source: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
  • 4. 4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 出所:第27回産業競争⼒会議 2016.5 政府は2016年5⽉19⽇、第27回 産業競争⼒会議を開催し、名⽬ 国内総⽣産(GDP)600兆円に向 けた成⻑戦略(「⽇本再興戦略 2016」)の素案を公表しました。 新たな有望成⻑市場の創出では、 IoT・ビッグデータ・AI・ロボッ トなどによる第4次産業⾰命の 実現で2020年には30兆円の付加 価値創出を⽬指しています。 ⽇本再興戦略2016 〜第4次産業⾰命の実現〜
  • 5. 5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 現⾏のシステムで受け⽌められますか? Ã 課題 • データがアプリに固定化していてる • 新しいデータの受け⼊れが難しい • スケールするとコスト⾼ ビジネスの価値 クリックストリーム Webデータ Internet of Things ドキュメント、メール サーバーログ ⾳声・画像 2013年 4 Zettabytes 2020年 40 Zeta bytes 1 2 新しいデータ ERP CRM SCM 新しいデータ 既存データ 新たなデータの多くは、 Internet of Anything としてシステムとデバイス間の やり取りとして誕⽣します
  • 6. 6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 企業のIT投資動向 ほぼ横ばい
  • 7. 7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ビッグデータには新しいプラットフォームが求められる ・⼤量・多種類データに対応する拡張性 ・静的・動的データの⼀元管理 ・リアルタイム・エッジ実装 ・ガバナンス・セキュリティ ・オープンテクノロジー DATA AT REST DATA IN MOTION ACTIONABLE INTELLIGENCE Modern Data Applications 流れている データ 蓄積された データ
  • 8. 8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 新しいタイプの アナリティクス 新しいタイプのデータ既存のデータ 既存のアナリ ティクス・業務ビッグデータ活⽤の道のり データ統合・可視化 貯める・統合する・⾒える化する DWH・EDW MDM Business Intelligence データエンリッチメント・多様化 増やす・作る・使わせる IoT Data Ingest Edge Analytics データサイエンス・予測分析 使う・発⾒する・予測する Data Discovery Predictive Analytics 戦略的データ活⽤の⾃動化 最適化する・利益に変える AI Real-Time Deep Learning
  • 9. 9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 新しいタイプの アナリティクス 新しいタイプのデータ既存のデータ 既存のアナリ ティクス・業務 • EDW & ETL データのロードやバランシン グ • コスト & 柔軟性 • 新しいスキルセットの習得 • コモディティHWを使ってスケールアウト • お客様のプロファイルや履歴を360度か ら⾒るシングルビュー • クリックストリーム分析によるお客様へ の最適な商品の提供 • 巨⼤な過去データに対しての⽀払い請求 分析 New Historical View IT Optimization New Data Influencers • 「使⽤ベース」保険のためのセンサーや テレマティクスデータを収集 • センチメント • ロスコントロールや予防サービスの強化 • 必要ベースのカバレッジ vs. 既存のカバ レッジ New Analytics Applications • テキスト分析やリンク分析による⽀払い 請求の異常値発⾒や不正検地 • リンク分析によるリスク分析の強化 • 新しい予測データを使⽤し、⽀払い請求 の深刻度や頻度を強化 保険業務でのデータ活⽤例
  • 10. 10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks® の顧客は、新たなビジネス⽬標を達成する、コストを削減することのいずれか の理由で当社の技術を利⽤しています。 Customer Journeyは、弊社が保持する多くのユースケースを案内する事によりお客様のニー ズに応えます。 ソーシャル マッピング リスク評価 テレマト リックス ロス コントロー ル コール分析 センサー データ 製品設計 M & A デューデリ ジェンス レコメン デーション サイバー セキュリ ティ リスク モデリング リスクアペ タイト ロスコント ロール Cat モデル 調査計画 ⽀払い請求 深刻度 カスタマー サポート センチメン ト分析 リスク分析 広告掲載 ⽀払い請求 分析 セグメン テーション クロス セル 顧客維持 代理店 スコアカー ド 不正調査 運⽤コスト 削減 メインフ レームのオ フロード 履歴レコー ド サービス としての データ パブリック データ取得 不正予防 デバイス データ 取り込み ⾼速レポー ティング デジタル 保護 不正緩和 ⽀払い能⼒ 分析
  • 11. 11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 事例のご紹介
  • 12. 12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データ活⽤による新規ビジネスの展開 運転傾向・⾞の使⽤環境に基づ いた柔軟な保険提案の実現 Ã Snapshot plug-in デバイスは運転の 詳細を収集 Ã Progressiveは、1000万マイル以上 の運転データを保存 (約1600万 Km) Ã Webアプリ経由で、顧客は⾃⾝の運 転詳細を⾒ることができ、安全向上 に努めることが可能 Ã Snapshotとusage-based insurance は2014年には、Progressiveに2.6 億 ドルの貢献(約273億円) Innovate Renovate Claims Notes Mining Individual Driving Histories Usage-Based Insurance (UBI) Web Log Analysis Online Ad Placement Sensor Data Ingest PREDICTIVE ANALYTICS A C T I V E A R C H I V E D A T A D I S C O V E R Y D A T A D I S C O V E R Y D A T A D I S C O V E R Y E T L O N B O A R D Safe Roads 既存データの 可視化 データ拡充 新規基盤構築 新規モデル作成 新規サービス提 供
  • 13. 13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
  • 14. 14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 爆発するデータ容量に対応したサービス改善 Metadata Capture Threat Predictions Attacker Detection Unified Security Security Log Analysis Threat Archive Device Data Ingest Threat Detection Legacy Offload Data Science Speeds Time to Protection à 脅威検出時間が4時間から2秒に à 防御回数が5000倍に à 10ペタバイト以上のデータを 使って機械学習した結果、脅威 が可能に à AmbariとCloudbreakを使ってク ラスターを管理 Innovate Renovate Digital Security PREDICTIVE ANALYTICS E T L O N B O A R D D A T A D I S C O V E R Y D A T A D I S C O V E R Y D A T A D I S C O V E R Y E T L O N B O A R D E T L O N B O A R D A C T I V E A R C H I V E P R E D I C T I V E A N A L Y T I C S S I N G L E V I E W Proactive Safeguards 増え続けるセキュリティ攻撃 に対応した新規基盤及び サービスレベルの改善 既存データの ⾒える化及び データ拡充⾬ 既存システム のオフロード コスト最適化 新規モデル作成 新規データ活⽤ 新規サービス提 供
  • 15. 15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved スマートメーター活⽤による 新しいマーケティング・顧客サービスの導⼊ 1.3 Million Smart Meters EDW Offload Mobile App for Customer Sites Ingest 300 GB per Day Product Cross-Sell データ活⽤による新しい 電⼒提供サービス スマートメーターによるデータ 量増加に対応した環境構築 年数回の顧客訪問(検針) →13万個のスマートメーター 数億円のDWHコスト最適化 11時間かかっていたETL処理を 45分に削減 個客に応じた新たなサービス ⾰新的サービスを主体としたビ ジネモデルに変⾰ Innovate Renovate Smart, Efficient Homes D A T A D I S C O V E R Y D A T A E N R I C H M E N T P R E D I C T I V E A N A L Y T I C S S I N G L E V I E W A C T I V E A R C H I V E E T L O N B O A R D SINGLE VIEW S I N G L E V I E W P R E D I C T I V E A N A L Y T I C S On-site customer data capture Optimized engineering schedule Tailored servicing Customer sentiment 既存環境の最 適化・可視化 データ拡充 予測分析 Data Discovery 新規サービス提 供
  • 16. 16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データ活⽤による製造プロセスの最適化 Scientific Search Sensor Data Storage Vaccine Yield Optimization Innovate Renovate The Journey to the Golden Batch10年間、550万通りの製造データ を結合・分析 最適なワクチン製造⼯程を特定 初年度に40,000ダースの製造増 加に成功。10億円の利益に直結 マッキンゼーの調査の結果、 50%の製造⼯程改善が認められ る。 Epidemiology DATA DISCOVER Y A C T I V E A R C H I V E D A T A D I S C O V E R Y D A T A D I S C O V E R Y The Golden Batch 数百万通りのワクチン製造 プロセスから最適な⼯程を特定 既存データの 結合・共有 データ拡充 予測分析 Data Discovery 新規サービス提 供
  • 17. 17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ⾮構造化データ活⽤による鉄道の最適化 Optimize Maintenance Schedule Innovate Renovate The Journey to the Golden Batch旧来のメンテナンス履歴、時間 などの作業による膨⼤なコスト が課題 ⾞両搭載のセンサー、GPS、画 像データを⼀括管理 リアルタイムに路線で起こって いる問題を把握 分析により、将来起こりうる問 題を事前予測、Proactiveなメン テナンスを⾏う。 DATA DISCOVER Y Safe Rail 位置情報、センサー、画像を活⽤し たメンテナンス作業の最適化 既存データの 結合・共有 データ拡充 予測分析 Data Discovery 新規サービス提 供 New Insights from new data set EDW Offload Ingest sensor / GPS data D A T A D I S C O V E R Y D A T A E N R I C H M E N T A C T I V E A R C H I V E E T L O N B O A R D P R E D I C T I V E A N A L Y T I C S Ingest Video Images Optimized Maintenance schedule 北⽶⼤⼿鉄道会社様
  • 18. 18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved eBay: 毎⽇50TB以上のデータが⽣成 Source: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay http://www-conf.slac.stanford.edu/xldb2011/talks/xldb2011_tue_1055_TomFastner.pdf
  • 19. 19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ヘルスケア業界で、データプラットフォームの構築 Preventive Care OPEX Efficiency Billing & Payments Clinical Docs Vital Sign Monitoring Single Patient Record Medical Decision Support Lab Notes Archive EPIC EMR Replication EPIC Enrichment Privacy Database Device Data Ingest 効果 払い戻し要求があった場合に も、患者の状況を把握できる ようになった。 患者様の情報などを、効率的 テキストサーチを⾏う事が可 能になった。 19000の患者様の情報に対し てのあるクエリが、2週間か かっていたバッチ処理が、半 ⽇で終わるようになった。 課題 35の病院、500のクリニッ ク、年間100万の患者 主に、運営、財務、費⽤ のデータを分析していた。 データが増えてもスケー ルアウトさせられなかっ た。 ソリューション すべてのデータをHadoop にリプリケートした 組織内のデータだけでな く、3rdパーティのデータ を利⽤するようになった
  • 20. 20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworksのご紹介
  • 21. 21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Hadoop / Spark / NiFi を中核に置いたソフトウェアを開発・販売、サービスの提供 • Hortonworksについて • 100%オープンソース • 会社設⽴3年⽬で株式公開 • 顧客数 800社以上(2015年Q4) • ビジネスモデル • 1年間契約のサブスクリプション(サポートサービス) • コンサルティングサービス / プロジェクト⽀援サービ ス Hadoopを早くから導⼊されたお客様も Hortonworksのディストリビューションを採⽤ 開発 & データツール インフラストラクチャ オペレーションツール RDBMSEDW MPP データシステム 分析ツール & アプリケーション BusinessObje cts BI Microsoft Analytics Platform System 1,600を超えるエコシステムパートナー Hortonworks テクノロジーパートナー • Connected Data Platformsを提供 • Hortonworks Data Platform (HDP) • 様々なデータを蓄積する (data at rest) • Hortonworks DataFlow (HDF) • リアルタイムのデータを扱う(data in motion) データ収集、蓄積、分析プラットフォーム
  • 22. 22 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ホートンワークスジャパン株式会社 設⽴ • 2014 Q3 オフィス • ⼭王パークタワー(東京都千代⽥区 永⽥町2丁⽬11−1 3F) サービス • サポートサービス: 24時間365⽇、⽇本語でサービス提供 • プロフェッショナルサービス: クラスタ設計・構築⽀援等 社員数 • 14名 (as of 2016/09) • Hadoop、Spark、HBase関連の書籍執筆者も在籍 • ⽇本初のApache NiFi Project Committerが在籍 3F
  • 23. 23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Communityへの貢献 コミッターの多くがHortonworksの社員です。 Apache Hadoop プロジェクトに関わるコミッターの 約1/3はHortonworksの社員です。Apache NiFiの⼤半 を始めとする多くの重要なプロジェクトに関わって います。 コミッターはコネクティッド・データプラット フォームを改良し、⾰新を続けています。 Hadoopのロードマップに関わっています。 コミュニティに対し、重要なリクワイアメントを⾔ える⽴場にいます。 1,500を超えるエコシステムパートナー Hortonworks テクノロジーパートナー 専⾨家集団 開発に深く携わるコア・メンバーにより構成 Hortonworks はApache Communityに ⾮常に深く関与しています。
  • 24. 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 100% Open Source Connected Data Platforms Eliminates Risk オープンソースソフトウェア・最先端テクノ ロジーの活⽤によるデータ活⽤提案 Maximizes Community Innovation 全世界のコミュニティの⼒を活⽤した最先端 技術の活⽤ Integrates Seamlessly 世界中のソリューション・IT Technologyとの 親和性 M A X I M U M C O M M U N I T Y I N N O VAT I O N T H E I N N O VAT I O N A D VA N TA G E P R O P R I E T A R Y H A D O O P T I M E INNOVATION O P E N C O M M U N I T Y
  • 25. 25 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks: Big Data Hadoop Solutions リーダー Hortonworks is a Leader of Big Data Hadoop Solutions Fortune 100 の40%の企業が採⽤ 75% 通信業界 65% 損害保険業界 55% 製造業 46% 卸売、⼩売業界 40% ヘルスケア “The Forrester Wave™: Big Data Hadoop Solutions”
  • 26. 26 © Hortonworks Inc. 2011 – 2016. All Rights Reserved ビッグデータを⽀える静的・動的データプラットフォーム Connected Data Platforms • HadoopはData at Rest(蓄積されたデータ)の基礎 • IoTの登場により、Data in Motion(流れているデータ)の必要性 • モダンデータアプリケーションはData in MotionとData at Restの両 ⽅のデータを利⽤してお客様の価値を最⼤化 • 最適な保険料⾦の選定システム • 故障予測サービス • サイバーセキュリティ • その他のインダストリーアプリなど Data Operating System
  • 27. 27 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks Data Platform のご紹介
  • 28. 28 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データの蓄積、分析プラットフォーム Hortonworks Data Platform (HDP) Data Operating System クリックストリーム センサー ソーシャル モバイル 位置情報 サーバーログ バッチ インタラクティブ サーチ ストリーミング マシンラーニング 既存データ
  • 29. 29 © Hortonworks Inc. 2011 – 2016. All Rights Reserved runs on ETL RDBMS Import/Export Distributed Storage & Processing Framework Secure NoSQL DB SQL on HBase NoSQL DB Workflow Management SQL Streaming Data Ingestion Cluster System Operations Secure Gateway Distributed Registry ETL Search & Indexing Even Faster Data Processing Data Management Machine Learning Hadoop Ecosystem
  • 30. 30 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データの蓄積、分析プラットフォーム Hortonworks Data Platform (HDP)
  • 31. 31 © Hortonworks Inc. 2011 – 2016. All Rights Reserved HORTONWORKS DATA PLATFORM Hadoop & YARN Flume Oozie Pig Hive Tez Sqoop Cloudbreak Ambari Slider Kafka Knox Solr Zookeeper Spark Falcon Ranger HBase Atlas Accumulo Storm Phoenix 4.10.2 DATA MGMT DATA ACCESS GOVERNANCE & INTEGRATION OPERATIONS SECURITY HDP 2.2 Dec 2014 HDP 2.1 April 2014 HDP 2.0 Oct 2013 HDP 2.2 Dec 2014 HDP 2.1 April 2014 HDP 2.0 Oct 2013 0.12.0 0.12.0 0.12.1 0.13.0 0.4.0 1.4.4 1.4.4 3.3.23.4.5 0.4.00.5.0 0.14.0 0.14.0 3.4.6 0.5.0 0.4.00.9.30.5.2 4.0.04.7.2 1.2.1 0.60.0 0.98.4 4.2.0 1.6.1 0.6.0 1.5.21.4.5 4.1.02.0.0 1.4.0 1.5.1 4.0.0 1.3.1 1.5.1 1.4.4 3.4.5 2.2.0 2.4.0 2.6.0 2.7.1 1.4.6 1.0.0 0.6.0 0.5.02.1.00.8.2 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0 HDP 2.3 Oct 2015 4.2.0 0.96.1 0.98.0 0.9.1 0.8.1 1.4.1 1.1.2 2.7.3 1.4.6 1.3.0 0.9.0 0.6.02.4.00.10.0 3.4.61.5.25.5.1 0.91.0 0.7.01.7.04.7.0 1.0.1 0.10.00.7.0 1.2.1+ 2.1*** 0.16.0 HDP 2.5* 2H2016 4.2.0 1.6.2+ 2.0** 1.1.2 2.7.1 1.4.6 1.2.0 0.6.0 0.5.02.2.10.9.0 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0 HDP 2.4 Mar 2016 4.2.01.6.0 1.1.2 Zeppelin Ongoing Innovation in Apache 0.6.0 HDP 2.5 – Shows current Apache branches being used. Final component version subject to change based on Apache release process. ** Spark 1.6.2+ Spark 2.0 – HDP 2.5 support installation of both Spark 1.6.2 and Spark 2.0. Spark 2.0 is Technical Preview within HDP 2.5. *** Hive 2.1 is Technical Preview within HDP 2.5. 互換性などのテスト
  • 32. 32 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Ambari(クラスタ管理)
  • 33. 33 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Ambari(SQLクエリ)
  • 34. 34 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hive performance http://hortonworks.com/blog/announcing-apache-hive-2-1-25x-faster-queries-much/ LLAP: http://www.slideshare.net/techblogyahoo/hivellap
  • 35. 35 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Apache Zeppelin (データサイエンティスト向けUI)
  • 36. 36 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Demonstration Hortonworks Data Platform (HDP) 1. クラスタの管理 – Ambari (クラスタ管理), Hive(Hadoop SQLエンジン), Ranger (監査) 2. オーストラリア州の納税額を使ったデータ分析 – Zeppelin (データ分析ツー ル)
  • 37. 37 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
  • 38. 38 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks DataFlow のご紹介
  • 39. 39 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks DataFlowとHortonworks Data Platformにより、 ビックデータ基盤のエンド・ツー・エンドソリューションを提供します。 Hortonworks Data Platform powered by Apache Hadoop Enrich Context Store Data and Metadata Internet of Anything Hortonworks DataFlow powered by Apache NiFi 動的・鮮度が 重要な⾒識 静的・過去データ による⾒識 Connected Data Platform データ収集プラットフォーム
  • 40. 40 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Lambda (λ) Architecture Source: http://lambda-architecture.net/
  • 41. 41 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Ingestion Simple Event Processing Engine Complex Event Processing Destination Data Bus Build Predictive Model From Historical Data Deploy Predictive Model For Rea-time Insights Perishable Insights Historical Insights Lambda (λ) Architecture
  • 42. 42 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworks DataFlow
  • 43. 43 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 過去8年間にNSAによっ て開発 「NSAのイノベーターは、 考えられる中で最も困難 な国家安全保障の問題の ⼀部に取り組んだ」 「商業エンタープライズ は、これを利⽤して地理 的に 離れたサイトからの情報 フローを迅速に制御、管 理、分析し、総合的な状 況認識を⽣み出すことが できる」 -- NSAディレクター Linda L. Burger⽒ 国家安全保障局が開発したNiFi
  • 44. 44 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 130以上のシステムとの連携が可能 HTTP Syslog Email HTML Image Hash Encrypt Extract TailMerge Evaluate Duplicate Execute Scan GeoEnrich Replace ConvertSplit Translate HL7 FTP UDP XML SFTP Route Content Route Context Route Text Control Rate Distribute Load AMQP
  • 45. 45 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Demonstration Hortonworks DataFlow (HDF) 1. Twitterのリアルタイム分析 - NiFi, Solar
  • 46. 46 © Hortonworks Inc. 2011 – 2016. All Rights Reserved デモ環境 検索エンジン HDFS 分散ストレージ データフロー コントローラー ソーシャル データ
  • 47. 47 © Hortonworks Inc. 2011 – 2016. All Rights Reserved クラウドでの利⽤
  • 48. 48 © Hortonworks Inc. 2011 – 2016. All Rights Reserved クラウド環境での利⽤ - Azure編
  • 49. 49 © Hortonworks Inc. 2011 – 2016. All Rights Reserved クラウド環境での利⽤ - AWS編 http://hortonworks.com/blog/quickly-launch-hortonworks-data-platform-amazon-web-services/
  • 50. 50 © Hortonworks Inc. 2011 – 2016. All Rights Reserved クラウド環境での利⽤ - OpenStack編
  • 51. 51 © Hortonworks Inc. 2011 – 2016. All Rights Reserved クラウド環境での利⽤ - Baremetal編 Zookeeper Master Nodes * 3 Ambari * 1 YARN(RM), HDFS(NN) HA Other master components Hardware Software(HDP) components ambari- server MySQL (master-slave) PostgreSQL HDFS: DataNodes YARN: NodeManagers Slave Nodes * 3+
  • 52. 52 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hortonworksを始める為の5ステップ 1. Hortonworksサンドボックスを試す hortonworks.com/sandbox 2. チュートリアルを試す hortonworks.com/tutorials 3. Future of Data 勉強会に参加する futureofdata.connpass.com 4. Hortonworks Community Connect (HCC)に参加する hortonworks.com/community 5. サポートサービスを検討する http://hortonworks.com/support
  • 53. 53 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Hadoop Summit 2016 Tokyo Apache Hadoop / Spark、機械学習、データサイエンス、 IoT、ビッグデータなど、データ活⽤最新動向を⼀挙紹介 http://hadoopsummit.org/tokyo facebook.com/hadoopsummit @hadoopsummit Promotion Code APAC2020%OFF eBay, Yahoo Japan, Daimler Trucks Asia, Coca-Cola East Japan, 楽天, Verizon, LinkedIn, セガ, Criteoなどデータ活⽤先進企業からの登壇決定!