SlideShare a Scribd company logo
Hadoop 
Big 
Data 
成功案例分享 
陳育杰 Eric Chen 
Senior AVP. , Etu Business Development 
eric_chen@etusolution.com 
Oct. 8, 2014
2 
Big Data 新應用架構 
RDB 
Business 
Intelligence 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
HBase 
MapReduce 
HDFS 
Impala 
Mahout 
Pig
3 
Big Data 新應用架構 
Hadoop as a “Data Store” 
RDB 
Business 
Intelligence 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
HBase 
MapReduce 
HDFS 
Impala 
Mahout 
Pig
4 
Big Data 新應用架構 
Hadoop as a “Data Pre-processing 
Platform” 
RDB 
Business 
Intelligence 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
QL Pig 
Join, 
Aggrega,on, 
Filter, 
Sor,ng, 
HIVE 
HBase 
Correla,on 
…….. 
HDFS 
Impala 
Mahout 
MapReduce
5 
Big Data 新應用架構 
Hadoop as a “DB” 
RDB 
BI 
ETL 
Business 
Analy9cs 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
HIVE 
HBase 
MapReduce 
HDFS 
Impala 
Mahout 
Pig 
API 
ODBC
Big Data 新應用架構 
Hadoop as a “Data Analytics 
Engine” 
ETL 
RDB 
Business 
Analy9cs 
Business 
Intelligence 
Voice file 
Video file 
Image file 
Doc file 
Txt file 
XML file 
Web Logs 
Click event 
Social 
network 
Associated 
map News 
Feeds 
Sensor 
Embedded 
RFID Tags 
Geographic 
GPS 
Event 
Others 
Mahout 
HIVE 
HBase 
MapReduce 
HDFS 
Pig 
Impala 
6 6
7 
應用案例 
l 精準推薦與消費者洞察 
l DW Offload – 資料載入與查詢 
l 生產良率即時告警
8 
精準推薦與消費者洞察
9 
精準推薦與消費者洞察 
Etu Recommender 
Application 
轉化率分析 
推薦演算法 
客戶相似 
度分析 
資料 
擷 
取 
商品關聯 
性分析 
推薦清 
單 
推薦引擎 
歷史交易資料 
• 訂單資料 
• 購買紀錄 
Web 互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
Mobile Web 
互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
Etu Insight 
User-­‐defined 
Recommenda/on 
Result 
Filter 
廣告關聯 
性分析 
內容關聯 
性分析 
Product 
Recommendation 
商品推薦 
Content 
Recommendation 
內容推薦 
Ad 
Recommendation 
站內廣告推薦
10 
精準推薦與消費者洞察 
Clicks 每一個點擊代表一個動作和意圖 
是訂單資料和會員系統無法告訴你的 
• 瀏覽商品 
• 看廣告 
• 看新聞 
• 看網友評論 
• 按讚 
• 分享 
• 下載表單 
• 兌換優惠券…..
11 
精準推薦與消費者洞察 
場景#2 
哪些人只 
看不買? 
場景#3 
誰愛小米? 
iPhone? 
Etu Recommender 
Application 
轉化率分析 
推薦演算法 
客戶相似 
度分析 
資料 
擷 
取 
商品關聯 
性分析 
推薦清 
單 
推薦引擎 
歷史交易資料 
• 訂單資料 
• 購買紀錄 
場景#1 
誰是我的 
忠實粉絲 
Web 互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
Mobile Web 
互動資料 
• 瀏覽 
• 點擊 
• 搜尋 
• 購物車 
• 結帳 
• 跨網域用戶行為 
User-­‐defined 
Recommenda/on 
Result 
Filter 
廣告關聯 
性分析 
內容關聯 
性分析 
場景#4 
廣告費都 
丟到水裡 
Product 
場景#5 
網站的使 
用者體驗 
如何? 
Recommendation 
商品推薦 
Content 
了? 
Recommendation 
內容推薦 
Ad 
Recommendation 
站內廣告推薦 
Etu Insight 
(Customer Behavior Data Warehouse) 
流量分析 
新客戶 
vs. 
回頭客 
漏斗分析 
每天多少流 
量能轉化為 
訂單 
品牌偏好度 
各商品分類 
最受歡迎品 
牌 
來源網站和 
訂單效益 
關聯性分析 
不同版位效 
益分析,評 
估網站使用 
者體驗
12 
精準推薦與消費者洞察 
Customer 
Behavior 
Recommenda/on 
Etu Recommender 
商品 
內容 
廣告 
Consumer Connect 
List 
Customer 
Behavior 
Recommenda/on 
Etu Recommender 
商品 
內容 
廣告 
Consumer Connect 
List 
DW 
CRM 
Consumer Discovery 
Analytics core 
推薦運算叢集 
3600 
Customer 
View 
Customer Profile Discovery 
Data 
Converter 
Customer Behavior 
Data Warehouse 
HIVE JDBC 
/ODBCDriver 
Analytics core 
推薦運算叢集 
客戶行為分析叢集 
Event 
Collector 
Customer Behavior 
Data Store 
Event 
Collector 
Customer Behavior 
Data Store
13 
消費者洞察,資料策略的第一步
14 
DW Offload – 資料載入與查詢
15 
DW Offload – 資料載入與查詢 
l 客戶 : 某大醫院 
l 需求 : HIS 系統與院際其他系統資料整合 
l 困難與挑戰 : 
ü 原 HIS 系統資料庫支援度差,需先將資料匯出處理 
ü 來源資料量非常龐大, ETL 載入效率非常差 
ü 原資料庫對大量資料的查詢效率不佳,無法應付大量且即時的查詢 
需求 
SSIS 
SQL 
SQL 
Server 
查詢結果 
資料入庫 
時間過長 
資料查詢 
時間過長 
Oracle 
Informix 
SQL 
Server
16 
DW Offload – 資料載入與查詢 
Sqoop 
SQL 
查詢結果 
Impala 
HDFS 
第一期方案 
Informix 
1. 以 Etu Software Appliance 搭配 Sqoop 做資料入檔,解決資料載入 
時間過長問題。 
2. 使用 Impala 查詢 Hadoop 中的資料,解決資料查詢時間過長問題。
17 
DW Offload – 資料載入與查詢 
最終方案 
Sqoop 
ETL 
Impala 
HDFS 
Oracle 
Informix 
SQL 
Server 
EDW 
/ 
DM 
API 
Web 
Service 
1. Hadoop 成為組織內部的 data pool (ODS),所有資料先進行格式統一, 
錯誤資料清洗等轉置工作,並儲存在 HDFS 中。 
3. EDW / DM 或應用系統所有資料需求,皆統一由 Hadoop 提供,解決跨 
來源資料整合問題。
18 
從 RDB 邁向 Big Data BI
19 
生產良率即時告警
20 
生產良率即時告警 
製程資料 
組裝包產線 
SMT產線 
統計分析改善 
統計分析 
製作圖表 
良率低 
主因素 
組裝包產線 
現有技術架構 
RDB 資料儲存、運算與彙整 
RDB 
不及時 
算得慢 
擴充成本高 
N 
hours 
SPC 
SMT 
SFCS 
SMT 
Data 
Files 
SMT產線 
SMT產線 
註: 
SFCS: 
Shop 
Floor 
control 
system; 
SPC: 
Solder 
Paste 
Control 
SPI: 
Solder 
Paste 
Inspec/on 
資料探勘 
特徵規則(傳統運算) 
SPC 
SFCS 
SMT 
SFCS 
SPI 
1. 生產問題無法及時發現: 資料處理與計算時間過長導致生產問題無法及時發現 
2. 運算效能不彰: 採用資料庫進行運算時,產生過多Temp Files與資料轉換,系統資源浪費且效率差 
3. 容量擴充成本高: 因應產線擴充,機台測試資料增加與保存時間延長所需成本過高(Scale Up)
21 
生產良率即時告警 
製程資料 
組裝包產線 
組裝包產線 
SMT產線 
SMT產線 
SMT產線 
SPC 
SFCS 
SMT 
SFCS 
SPI 
新一代 Big Data 技術架構 
統計分析加以確認 
統計分析 
製作圖表 
及時 
算得快 
擴充成本低 
良率低 
資料探勘 
RDB 主因素 
N 
mins 
MPP 
DB 
特徵規則 (平行運算) 
SMT 
No 
SQL 
SMT 
Data 
Files 
HDFS 
SPC 
SFCS 
1. 生產問題及時發現: 資料處理與計算時間大幅縮短,可以提升品質判斷速度,減少產線損失 
2. 運算效能佳: 採用平行運算與分散式檔案系統,減少過多Temp Files與資料轉換,生成統計表提供查詢 
3. 容量擴充成本低: 因應產線擴充,機台測試資料增加與保存時間延長可線性擴充 (Scale out)
22 
生產良率即時告警 
Real-time Big Data 
Data 
Stream 
Spark-­‐ 
Streaming 
Spark 
Impala 
DN 
RS 
Spark-­‐ 
Streaming 
Spark 
Impala 
DN 
RS 
Spark-­‐ 
Streaming 
Spark 
DN 
RS 
Impala 
… 
Data 
Stream 
Data 
Stream 
生產機台資料 
SPI Data 
On-the-fly Pattern 
Matching  Alert 
Real-time Analytics 
- Machine Learning (Rec. Cluster..) 
- Iterative Algorithms 
Near Real-time Query 
- Ad-hoc query 
- Reporting 
Long term data store 
- Batch process 
- Offline analytics 
- Historical Mining Spark  Impala work together
23 
Real-time Big Data
24 
Workshop
Thank 
you 
318, 
Rueiguang 
Rd., 
Taipei 
114, 
Taiwan 
T: 
+886 
2 
7720 
1888 
F: 
+886 
2 
8798 
6069 
www.etusolu/on.com

More Related Content

PPTX
3GPP TS 38.300-100まとめ
PDF
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
PDF
C#, C/CLI と CUDAによる画像処理ことはじめ
PDF
スマホでLPWAを使ってみた話
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
PDF
Secure element for IoT device
PDF
Apache Drill を利用した実データの分析
PDF
Support cours : Vos premiers pas avec le pare feu CISCO ASA
3GPP TS 38.300-100まとめ
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
C#, C/CLI と CUDAによる画像処理ことはじめ
スマホでLPWAを使ってみた話
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
Secure element for IoT device
Apache Drill を利用した実データの分析
Support cours : Vos premiers pas avec le pare feu CISCO ASA

What's hot (20)

PPTX
Eigrp IPv6
PDF
What’s new in cloud run 2021 後期
PPTX
Deep Dive into the Linux Kernel - メモリ管理におけるCompaction機能について
PDF
PythonによるOPC-UAの利用
PDF
20210317 AWS Black Belt Online Seminar Amazon MQ
PDF
Alphorm.com Formation Hacking et Sécurité, l'essentiel
PDF
LoRaWAN v1.1仕様読解 Class A
PDF
Accelerate SDN/NFV Network ~ネットワーク高速化のアレコレ~ - OpenStack最新情報セミナー 2016年3月
PPTX
LINEのMySQL運用について 修正版
PDF
PDF
LoRaWAN AS923 と ARIB STD-T108
PDF
Google Cloud のネットワークとロードバランサ
PDF
インフラCICDの勘所
PDF
Alphorm.com Formation CCNP ENCOR 350-401 (6of8) : Sécurité
PPTX
Infrastructure as Code自身のテストを考える
PDF
alphorm.com - Formation Linux LPIC-1/Comptia Linux+
PDF
初心者でもわかるActive directoryの基本
PDF
オンプレを少しずつコンテナ化する
PDF
Building Internet Server using CentOS 7 and CentOS Web Panel (CWP)
PPTX
Temel kullanici gruplari
Eigrp IPv6
What’s new in cloud run 2021 後期
Deep Dive into the Linux Kernel - メモリ管理におけるCompaction機能について
PythonによるOPC-UAの利用
20210317 AWS Black Belt Online Seminar Amazon MQ
Alphorm.com Formation Hacking et Sécurité, l'essentiel
LoRaWAN v1.1仕様読解 Class A
Accelerate SDN/NFV Network ~ネットワーク高速化のアレコレ~ - OpenStack最新情報セミナー 2016年3月
LINEのMySQL運用について 修正版
LoRaWAN AS923 と ARIB STD-T108
Google Cloud のネットワークとロードバランサ
インフラCICDの勘所
Alphorm.com Formation CCNP ENCOR 350-401 (6of8) : Sécurité
Infrastructure as Code自身のテストを考える
alphorm.com - Formation Linux LPIC-1/Comptia Linux+
初心者でもわかるActive directoryの基本
オンプレを少しずつコンテナ化する
Building Internet Server using CentOS 7 and CentOS Web Panel (CWP)
Temel kullanici gruplari
Ad

Similar to Hadoop Big Data 成功案例分享 (20)

PDF
選擇正確的Solution 來建置現代化的雲端資料倉儲
PDF
Emc keynote 1130 1200
PDF
Big Data Projet Management the Body of Knowledge (BDPMBOK)
PDF
阿里巴巴数据中台实践分享.pdf
PPT
民间秘方
PDF
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
PPT
Sybase Analytic Appliance
PPTX
Actuate presentation 2011
PDF
《数据库发展研究报告-解读(2023年)》.pdf
PDF
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
PDF
Etu DW Offload 解放資料倉儲的運算效能
PDF
企业系统商务智能设计
PDF
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
PDF
Greenplum技术
PDF
Easy to recap AWS reinvent 2017
PDF
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
PDF
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
PDF
如何快速实现数据编织架构
PPTX
Etu Data Lake
PDF
Dtcc ibm big data platform 2012-final_cn
選擇正確的Solution 來建置現代化的雲端資料倉儲
Emc keynote 1130 1200
Big Data Projet Management the Body of Knowledge (BDPMBOK)
阿里巴巴数据中台实践分享.pdf
民间秘方
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Sybase Analytic Appliance
Actuate presentation 2011
《数据库发展研究报告-解读(2023年)》.pdf
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
Etu DW Offload 解放資料倉儲的運算效能
企业系统商务智能设计
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Greenplum技术
Easy to recap AWS reinvent 2017
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
如何快速实现数据编织架构
Etu Data Lake
Dtcc ibm big data platform 2012-final_cn
Ad

More from Etu Solution (20)

PDF
終歸:分群消費者x多元商機的實現
PDF
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
PDF
猜你喜歡:虛實並進,贏在全通路
PDF
投客所好:互聯內外,啟動投信藍海數據戰
PDF
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
PDF
啟程:Data Technology 的待客之道
PDF
Track C-1 大數據時代的產品 ─ 創新與洞察決策
PDF
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
PDF
Track C-2 洞見未來 - Tableau 創造大數據新價值
PDF
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
PDF
Track B-1 建構新世代的智慧數據平台
PPTX
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
PDF
Track A-2 基於 Spark 的數據分析
PDF
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
PDF
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
PDF
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
PDF
Cloudera 助力台灣大數據產業的發展
PDF
Data Leaders in Action - 資料價值領袖風範與關鍵行動
PDF
Opening: Big Data+
PDF
數位媒體的客戶洞察行銷術
終歸:分群消費者x多元商機的實現
歡迎回來:全面圖譜,金融 3.0 顧客行銷新視界
猜你喜歡:虛實並進,贏在全通路
投客所好:互聯內外,啟動投信藍海數據戰
致詞歡迎:Big Data 無所不在,Data Technology 無 C 不歡
啟程:Data Technology 的待客之道
Track C-1 大數據時代的產品 ─ 創新與洞察決策
Track C-3 Let's Play Marketing - 瘋創意 玩推薦 就該這樣搞行銷
Track C-2 洞見未來 - Tableau 創造大數據新價值
Track B-3 解構大數據架構 - 大數據系統的伺服器與網路資源規劃
Track B-1 建構新世代的智慧數據平台
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-2 基於 Spark 的數據分析
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Big Data Tornado - 2015 台灣 Big Data 企業經典應用案例分享
Cloudera 助力台灣大數據產業的發展
Data Leaders in Action - 資料價值領袖風範與關鍵行動
Opening: Big Data+
數位媒體的客戶洞察行銷術

Hadoop Big Data 成功案例分享

  • 1. Hadoop Big Data 成功案例分享 陳育杰 Eric Chen Senior AVP. , Etu Business Development eric_chen@etusolution.com Oct. 8, 2014
  • 2. 2 Big Data 新應用架構 RDB Business Intelligence ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE HBase MapReduce HDFS Impala Mahout Pig
  • 3. 3 Big Data 新應用架構 Hadoop as a “Data Store” RDB Business Intelligence ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE HBase MapReduce HDFS Impala Mahout Pig
  • 4. 4 Big Data 新應用架構 Hadoop as a “Data Pre-processing Platform” RDB Business Intelligence ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE QL Pig Join, Aggrega,on, Filter, Sor,ng, HIVE HBase Correla,on …….. HDFS Impala Mahout MapReduce
  • 5. 5 Big Data 新應用架構 Hadoop as a “DB” RDB BI ETL Business Analy9cs Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others HIVE HBase MapReduce HDFS Impala Mahout Pig API ODBC
  • 6. Big Data 新應用架構 Hadoop as a “Data Analytics Engine” ETL RDB Business Analy9cs Business Intelligence Voice file Video file Image file Doc file Txt file XML file Web Logs Click event Social network Associated map News Feeds Sensor Embedded RFID Tags Geographic GPS Event Others Mahout HIVE HBase MapReduce HDFS Pig Impala 6 6
  • 7. 7 應用案例 l 精準推薦與消費者洞察 l DW Offload – 資料載入與查詢 l 生產良率即時告警
  • 9. 9 精準推薦與消費者洞察 Etu Recommender Application 轉化率分析 推薦演算法 客戶相似 度分析 資料 擷 取 商品關聯 性分析 推薦清 單 推薦引擎 歷史交易資料 • 訂單資料 • 購買紀錄 Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 Mobile Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 Etu Insight User-­‐defined Recommenda/on Result Filter 廣告關聯 性分析 內容關聯 性分析 Product Recommendation 商品推薦 Content Recommendation 內容推薦 Ad Recommendation 站內廣告推薦
  • 10. 10 精準推薦與消費者洞察 Clicks 每一個點擊代表一個動作和意圖 是訂單資料和會員系統無法告訴你的 • 瀏覽商品 • 看廣告 • 看新聞 • 看網友評論 • 按讚 • 分享 • 下載表單 • 兌換優惠券…..
  • 11. 11 精準推薦與消費者洞察 場景#2 哪些人只 看不買? 場景#3 誰愛小米? iPhone? Etu Recommender Application 轉化率分析 推薦演算法 客戶相似 度分析 資料 擷 取 商品關聯 性分析 推薦清 單 推薦引擎 歷史交易資料 • 訂單資料 • 購買紀錄 場景#1 誰是我的 忠實粉絲 Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 Mobile Web 互動資料 • 瀏覽 • 點擊 • 搜尋 • 購物車 • 結帳 • 跨網域用戶行為 User-­‐defined Recommenda/on Result Filter 廣告關聯 性分析 內容關聯 性分析 場景#4 廣告費都 丟到水裡 Product 場景#5 網站的使 用者體驗 如何? Recommendation 商品推薦 Content 了? Recommendation 內容推薦 Ad Recommendation 站內廣告推薦 Etu Insight (Customer Behavior Data Warehouse) 流量分析 新客戶 vs. 回頭客 漏斗分析 每天多少流 量能轉化為 訂單 品牌偏好度 各商品分類 最受歡迎品 牌 來源網站和 訂單效益 關聯性分析 不同版位效 益分析,評 估網站使用 者體驗
  • 12. 12 精準推薦與消費者洞察 Customer Behavior Recommenda/on Etu Recommender 商品 內容 廣告 Consumer Connect List Customer Behavior Recommenda/on Etu Recommender 商品 內容 廣告 Consumer Connect List DW CRM Consumer Discovery Analytics core 推薦運算叢集 3600 Customer View Customer Profile Discovery Data Converter Customer Behavior Data Warehouse HIVE JDBC /ODBCDriver Analytics core 推薦運算叢集 客戶行為分析叢集 Event Collector Customer Behavior Data Store Event Collector Customer Behavior Data Store
  • 14. 14 DW Offload – 資料載入與查詢
  • 15. 15 DW Offload – 資料載入與查詢 l 客戶 : 某大醫院 l 需求 : HIS 系統與院際其他系統資料整合 l 困難與挑戰 : ü 原 HIS 系統資料庫支援度差,需先將資料匯出處理 ü 來源資料量非常龐大, ETL 載入效率非常差 ü 原資料庫對大量資料的查詢效率不佳,無法應付大量且即時的查詢 需求 SSIS SQL SQL Server 查詢結果 資料入庫 時間過長 資料查詢 時間過長 Oracle Informix SQL Server
  • 16. 16 DW Offload – 資料載入與查詢 Sqoop SQL 查詢結果 Impala HDFS 第一期方案 Informix 1. 以 Etu Software Appliance 搭配 Sqoop 做資料入檔,解決資料載入 時間過長問題。 2. 使用 Impala 查詢 Hadoop 中的資料,解決資料查詢時間過長問題。
  • 17. 17 DW Offload – 資料載入與查詢 最終方案 Sqoop ETL Impala HDFS Oracle Informix SQL Server EDW / DM API Web Service 1. Hadoop 成為組織內部的 data pool (ODS),所有資料先進行格式統一, 錯誤資料清洗等轉置工作,並儲存在 HDFS 中。 3. EDW / DM 或應用系統所有資料需求,皆統一由 Hadoop 提供,解決跨 來源資料整合問題。
  • 18. 18 從 RDB 邁向 Big Data BI
  • 20. 20 生產良率即時告警 製程資料 組裝包產線 SMT產線 統計分析改善 統計分析 製作圖表 良率低 主因素 組裝包產線 現有技術架構 RDB 資料儲存、運算與彙整 RDB 不及時 算得慢 擴充成本高 N hours SPC SMT SFCS SMT Data Files SMT產線 SMT產線 註: SFCS: Shop Floor control system; SPC: Solder Paste Control SPI: Solder Paste Inspec/on 資料探勘 特徵規則(傳統運算) SPC SFCS SMT SFCS SPI 1. 生產問題無法及時發現: 資料處理與計算時間過長導致生產問題無法及時發現 2. 運算效能不彰: 採用資料庫進行運算時,產生過多Temp Files與資料轉換,系統資源浪費且效率差 3. 容量擴充成本高: 因應產線擴充,機台測試資料增加與保存時間延長所需成本過高(Scale Up)
  • 21. 21 生產良率即時告警 製程資料 組裝包產線 組裝包產線 SMT產線 SMT產線 SMT產線 SPC SFCS SMT SFCS SPI 新一代 Big Data 技術架構 統計分析加以確認 統計分析 製作圖表 及時 算得快 擴充成本低 良率低 資料探勘 RDB 主因素 N mins MPP DB 特徵規則 (平行運算) SMT No SQL SMT Data Files HDFS SPC SFCS 1. 生產問題及時發現: 資料處理與計算時間大幅縮短,可以提升品質判斷速度,減少產線損失 2. 運算效能佳: 採用平行運算與分散式檔案系統,減少過多Temp Files與資料轉換,生成統計表提供查詢 3. 容量擴充成本低: 因應產線擴充,機台測試資料增加與保存時間延長可線性擴充 (Scale out)
  • 22. 22 生產良率即時告警 Real-time Big Data Data Stream Spark-­‐ Streaming Spark Impala DN RS Spark-­‐ Streaming Spark Impala DN RS Spark-­‐ Streaming Spark DN RS Impala … Data Stream Data Stream 生產機台資料 SPI Data On-the-fly Pattern Matching Alert Real-time Analytics - Machine Learning (Rec. Cluster..) - Iterative Algorithms Near Real-time Query - Ad-hoc query - Reporting Long term data store - Batch process - Offline analytics - Historical Mining Spark Impala work together
  • 25. Thank you 318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069 www.etusolu/on.com