SlideShare a Scribd company logo
Data Pipeline Matters
-- 以 Tracking Pixel 為例
Data Pipeline Matters !!
Take Tracking Pixel as an Example
Jazz Yao-Tsung Wang
Data Architect of TenMax.io
Initiator of Taiwan Data Engineering Association
Co-Founder of Taiwan Hadoop User Group
Shared at 2017-11-12 <2017 台灣資料科學年會>
Hello!
I am Jazz Wang
Co-Founder of Hadoop.TW
Initiator of Taiwan Data Engineering Association (TDEA)
Hadoop Evangelist since 2008.
Open Source Promoter. System Admin (Ops).
- 11 years (2002/08 ~ 2014/02) Researcher in HPC field.
- 2 years (2014/03 ~ 2016/04) Assistant Vice President (AVP),
Product Management of ‘Big Data Platform Management Product’
- 1.5 years (2016/04 ~ Now) Data Architect of Real-Time Bidding
You can find me at @jazzwang_tw or
https://fb.com/groups/dataengineering.tw
https://slideshare.net/jazzwang
2
3
0.0 先暖場一下
畢竟不是每個人都了解線上廣告這個圈子
來點基本背景趨勢簡介
電子商務
數位行銷
新零售
4
數位轉型
Digital Transformation (DX)
早就悄悄地進行著
產 銷 人 發 財
數位化 (e 化)
行動化 (M 化)
普及化 (U 化)
智能化 (AI化)
行銷 4.0 電子支付
數位金融
虛擬貨幣
智慧製造
工業 4.0
社交網路
人資 4.0?
“
5
羊毛出在狗身上,
豬來買單!
廣告一直是支撐免費服務的基石
線上廣告的五大技術特點
媒體概念的多樣性
• 入口網站、垂直網站、搜尋引擎、電子商務網、優惠
代碼網:越來越靠近使用者轉化的特徵
• 反思:ROI 越高,引導潛在客戶的能力卻降低
數據驅動的投放決策
• 機械化:電力 → 互聯網+:數據力
• DMP:對受眾貼標籤 Tagging
• DSP:依歷史投放結果,調整投放策略
技術和計算導向
• 較精細的受眾定向 – 更精準的廣告成效預估
• 計算驅動的廣告決策與競價交易– 最佳化能力
• 數位行銷:成本低,可高度客製化
效果的可量測性
• 可忠實呈現展示(Impression)與點擊(Click)
• 比較不同時期不同產品的點擊率絕對值沒意義
• 特定時期同類產品的點擊率差異比較才有意義
素材與投放方式的標準化
• 標準化的驅動力:受眾定向與程序化購買
• 影音廣告的 VAST 標準
• 即時競價的 OpenRTB 標準
導購 導流
6
大數據
羊毛出在狗身上,豬來
買單!
追蹤
預估
Tracking Pixel 是讓這一切
發生的根本
7
1.
Tracking Pixel
如何產生資料?
什麼是 Tracking Pixel ?
有哪些應用場景 ?
Tracking Pixel 會在哪裡產生哪些資料呢?
▷ 追蹤像素(Tracking Pixel)
○ 一個大小 1 x 1 像素,通常是透明的圖片
○ 也稱為 web bugs, beacons, tracking bugs, page tags
○ 埋在網站或 e-mail 中,用來追蹤使用者行為跟線上廣告的成效
▷ 基本應用場景
○ E-mail (EDM) 開信率
○ 網站到訪率、跳出率、哪些頁面最熱門
○ 線上廣告的曝光率(Impression)、可視曝光率(Viewable Impression)、
點擊率(Click)、到達率(Landing)、轉化率(Conversion)
▷ 進階應用場景
○ 搭配 cookie 可以做到更精準的受眾定向(Targeting)
○ 個人化瀏覽體驗(Personalized web experiences)
○ 跨網域 cookie syncing / matching ( 跨螢用戶追蹤的基礎 )
What is Tracking Pixel ?
8
▷ 實作上有兩種 Tracking Pixel
○ Client Based Tracking : 使用 cookie
○ Server Based Tracking : 不用 cookie
<img src=”http://hive.3du.me/images/hive_labs.png?uid=XXXXXXXXXX”>
▷ 常見實作
○ 使用第三方服務
■ Google Analytics
https://analytics.google.com
■ Facebook Pixel
https://www.facebook.com/business/help/651294705016616
■ Doubleclick Pixel Loader
https://support.google.com/richmedia/answer/6187378
○ 自建服務
■ Piwik
https://piwik.org/docs/tracking-api/
Tracking Pixel 的種類
9
Google Analytics 的 Tracking Pixel 資料產生流程
10
1.http://hive.3du.me
11
1.http://hive.3du.me
2.HTML Response
Google Analytics 的 Tracking Pixel 資料產生流程
12
1.http://hive.3du.me
2.HTML Response
3.GET analytics.js
Google Analytics 的 Tracking Pixel 資料產生流程
13
1.http://hive.3du.me
2.HTML Response
3.GET analytics.js
4.GET /collect?v=1&t=pageview&_ ...
5.回傳 1x1 Tracking Pixel Image
Google Analytics 的 Tracking Pixel 資料產生流程
14
1.http://hive.3du.me
2.HTML Response
3.GET analytics.js
4.GET /collect?v=1&t=pageview&_ ...
5.回傳 1x1 Tracking Pixel Image
以上過程中也寫入了一個 3du.me 網域
的 cookie 用來識別這是同一個裝置的
同一個瀏覽器
Google Analytics 的 Tracking Pixel 資料產生流程
來源 IP - - [日期:時間 +時區] "GET /Lab-000.html HTTP/1.1" 200
2910 "來源頁面 http://hive.3du.me/Home.html" "瀏覽器 user-agent
Firefox/56.0" "hive=1; _ga=GA1.2.645201055.1510221111;
_gid=GA1.2.1103712346.1510221111; _gat=1"
15
1.http://hive.3du.me/Lab-000.html
2.HTML Response
3.GET analytics.js
4.GET /collect?v=1&t=pageview&_ ...
5.回傳 1x1 Tracking Pixel Image
當訪客瀏覽其他頁面時(如:Lab-000.html)
就會連同這些 cookie 一起告訴網站主
若網站主有打開 access log 印 cookie
的參數,就會在日檔裡看到這些 cookie
對 GA 來說,這些 cookie 是判斷首次造訪
或回訪的依據。
Google Analytics 的 Tracking Pixel 資料產生流程
Tracking Pixel 產生的紀錄分散於不同角色
16
1.http://hive.3du.me
2.HTML Response
3.GET analytics.js
4.GET /collect?v=1&t=pageview&_ ...
5.回傳 1x1 Tracking Pixel Image
訪客
Visitor
網站主
Publisher
分析服務
Service
廣告網路
Advertising
Network
廣告主
Demand
網站主、分析服務
、廣告網路,互相
拿不到對方的資料
網站主用自身資料
來跟廣告網路要錢
廣告網路也用自身
資料跟廣告主要錢
廣告主想從訪客
身上賺到錢
▷ Tracking Pixel 會在線上廣告生態系的不同角色,
留下不同的足跡。這些角色因為無法取得對方的資料,
必須透過對方產生的報表來「付費 / 收費」。
⇨ 這些 web service 的 access log 跟收錢有關,不能漏記~
⇨ 快速回應(Response Quickly)、儘早落地(Write Early)
▷ 能產生商業價值的是由大量訪客足跡所拼湊出的「訪客特徵
(Audience Profile)」。誰能同時掌握真實客戶資料與匿名的訪
客足跡,就能組出更精準的「客戶洞察(Custom Insight)」
⇨ 這些 access log 要靠後續的離線分析來產生商業價值~
小結
17
18
2.
分析 Tracking Pixel 數據
的 Data Pipeline 設計
攸關營運成本
比較不同 Data Pipeline 的設計與營運成本
Lambda Architecture
Kapa Architecture
Serverless / Microservice
19
3.GET /analytics.js
4.GET
/collect?t= pageview
小規模 Tracking Pixel 的日誌分析 Data Pipeline
WEB-1
WEB-2LB
BI Report
Dashboard
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩
⑪ ⑫ ⑬
成本
分析
代碼
優點:資料流短而單純,易於維護與除錯
缺點:當 log 資料量過於龐大時,資料庫的同時寫入速度跟資料量會是效能瓶頸
異常補資料用
20
3.GET /analytics.js
4.GET
/collect?t= pageview
批次 Tracking Pixel 的日誌分析 Data Pipeline
WEB-1
WEB-2
LB
Spark-1
Spark-2
BI Report
Dashboard
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭
⑮ ⑯ ⑰
成本
分析
代碼
優點:適用 log 資料量龐大、需要複雜分析的情境
缺點:資料流長,不易維護與除錯,
21
3.GET /analytics.js
4.GET
/collect?t= pageview
串流 Tracking Pixel 的日誌分析 Data Pipeline
LB
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭
⑮ ⑯ ⑰
成本
分析
代碼
優點:適用 log 資料量龐大、需要複雜分析的情境
缺點:資料流長,不易維護與除錯,
WEB-1
WEB-2
異常補資料用 BI Report
Dashboard
22
Serverless Tracking Pixel Architecture
https://cloud.google.com/solutions/serverless-pixel-tracking
23
Serverless Tracking Pixel Data Pipeline
① ② ③ ④ ⑤
⑥ ⑦
成本
分析
代碼
優點:技術門檻略低,不需自架網頁服務,不怕流量龐大
缺點:僅適用 Server Based Tracking。雲服務元件是黑盒子,不易除錯。
BI Report
DashboardServing Collecting Analysing
http://docs.aws.amazon.com/AmazonS3/latest/dev/WebsiteHosting.html
將「靜態網頁」存放在「雲儲存」服務
是運用雲服務的 Best Practice!!
24
不同雲儲存服務的 Log 格式
▷ Azure Blob Storage
○ Storage Analytics Log Format
○ https://docs.microsoft.com/en-us/rest/api/storageservices/storage-anal
ytics-log-format
▷ Google Cloud Storage
○ Access and storage log format
○ https://cloud.google.com/storage/docs/access-logs#format
▷ Amazon S3
○ Server Access Log Format
○ http://docs.aws.amazon.com/AmazonS3/latest/dev/LogFormat.html
▷ 某些行業的 access log 跟收錢有關 ⇨ 數據是 21 世紀的黑金
▷ 但這些 access log 要靠後續的離線分析來產生商業價值~
▷ 練習設定 Tracking Pixel 的 Data Pipeline 是個瞭解資料工程
相關技術的好開始。
▷ 選擇 Data Pipeline 時,請根據開發成員的技能樹、應用需求
(Ex. QPS、HA、Scalability)、資料生成量與資料運算量等進行
評估。
▷ 也請別忘了營運成本不單純只有 Data Pipeline 的運算成本,
還包括網路傳輸成本、備份機制、監控機制、維運人力成本(網
路管理員、系統管理員、DataOps / Data Engineer)。
▷ 若資料不敏感,可存放於雲服務,可考慮用 Serverless 架構
▷ 若有 Client based Tracking 種 cookie 需求,可用 Lambda、
Functions 服務來實作。
結語
25
Thank You!
Q & A
26

More Related Content

PDF
Introduction to K8S Big Data SIG
PDF
Hadoop 生態系十年回顧與未來展望
PDF
Big Data Projet Management the Body of Knowledge (BDPMBOK)
PDF
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
PDF
Hadoop.TW : Now and Future
PDF
Full Stack Monitoring with Prometheus and Grafana (Updated)
PDF
When R meet Hadoop
PDF
Hadoop Deployment Model @ OSDC.TW
Introduction to K8S Big Data SIG
Hadoop 生態系十年回顧與未來展望
Big Data Projet Management the Body of Knowledge (BDPMBOK)
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Hadoop.TW : Now and Future
Full Stack Monitoring with Prometheus and Grafana (Updated)
When R meet Hadoop
Hadoop Deployment Model @ OSDC.TW

What's hot (20)

PDF
Data Engineering in Taiwan: PAST, NOW and FUTURE
PDF
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
PDF
2006-11-16 RFID and OSS for Agriculture
PDF
淺談台灣巨量資料產業發展現況
PDF
Life of Big Data Technologies
PDF
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
PDF
2016-07-12 Introduction to Big Data Platform Security
PDF
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
PDF
俞晨杰:Linked in大数据应用和azkaban
PDF
罗李:构建一个跨机房的Hadoop集群
PPTX
大數據
PDF
杨少华:阿里开放数据处理服务
PDF
Hadoop大数据实践经验
PPT
Hadoop 與 SQL 的甜蜜連結
PDF
翟艳堂:腾讯大规模Hadoop集群实践
PDF
Hadoop 2.0 之古往今來
PDF
How to run an AI Project @pixnet
PDF
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
PDF
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
PDF
唯品会大数据实践 Sacc pub
Data Engineering in Taiwan: PAST, NOW and FUTURE
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
2006-11-16 RFID and OSS for Agriculture
淺談台灣巨量資料產業發展現況
Life of Big Data Technologies
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2016-07-12 Introduction to Big Data Platform Security
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
俞晨杰:Linked in大数据应用和azkaban
罗李:构建一个跨机房的Hadoop集群
大數據
杨少华:阿里开放数据处理服务
Hadoop大数据实践经验
Hadoop 與 SQL 的甜蜜連結
翟艳堂:腾讯大规模Hadoop集群实践
Hadoop 2.0 之古往今來
How to run an AI Project @pixnet
那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
唯品会大数据实践 Sacc pub
Ad

Viewers also liked (20)

PDF
From Browser Fingerprint to SuperCookie
PPTX
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
PPTX
Bring back Reupload!
PDF
[系列活動] 無所不在的自然語言處理—基礎概念、技術與工具介紹
PDF
20160912- [開放文化基金會] 開源推廣及政策向政委建言及請益
PDF
靠寫程式來翻轉醫療-從人類基因體大數據開始
PDF
Kubernetes 架構與虛擬化之差異
PDF
Seagate - ceph day taiwan 2017 opening session
PDF
Mothra - A FreeBSD send-pr tool for bugzilla system
PPT
Personal Robotics Program Fund Fundraising Deck from 2006
PPTX
API Token 入門
PPTX
用 Go 語言 打造微服務架構
PDF
Introduction to HCFS
PDF
2017-03-27 From Researcher To Product Manager
PDF
社群、協會、國際連結
PDF
20171106 - Privacy Design Lab - LINDDUN
PDF
Don't Ask, Don't Tell - The Virtues of Privacy By Design
PDF
Safeguarding privacy in research design
PDF
#Ready4EUdataP Privacy by Design: effetti pratici sui sistemi IT Giancarlo Butti
PPTX
Privacy by design
From Browser Fingerprint to SuperCookie
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
Bring back Reupload!
[系列活動] 無所不在的自然語言處理—基礎概念、技術與工具介紹
20160912- [開放文化基金會] 開源推廣及政策向政委建言及請益
靠寫程式來翻轉醫療-從人類基因體大數據開始
Kubernetes 架構與虛擬化之差異
Seagate - ceph day taiwan 2017 opening session
Mothra - A FreeBSD send-pr tool for bugzilla system
Personal Robotics Program Fund Fundraising Deck from 2006
API Token 入門
用 Go 語言 打造微服務架構
Introduction to HCFS
2017-03-27 From Researcher To Product Manager
社群、協會、國際連結
20171106 - Privacy Design Lab - LINDDUN
Don't Ask, Don't Tell - The Virtues of Privacy By Design
Safeguarding privacy in research design
#Ready4EUdataP Privacy by Design: effetti pratici sui sistemi IT Giancarlo Butti
Privacy by design
Ad

Similar to Data Pipeline Matters (11)

PDF
Keynote: What Is the next Big Data?
PDF
ESD 2012 Keynote: What Is the next Big Data?
PDF
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
PDF
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
ODP
Big Data : The Missing Puzzle of Mobile Computing
PPTX
網路廣告的基本架構
PPTX
電子商務資料分析 上課投影片
PDF
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
PDF
資料分析的前奏曲 談資料收集的挑戰
PDF
Emc keynote 1130 1200
PDF
北區13校GDSC聯合流會.pdf
Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data : The Missing Puzzle of Mobile Computing
網路廣告的基本架構
電子商務資料分析 上課投影片
周世恩/資料分析前的奏曲 : 談資料收集的挑戰
資料分析的前奏曲 談資料收集的挑戰
Emc keynote 1130 1200
北區13校GDSC聯合流會.pdf

Data Pipeline Matters

  • 1. Data Pipeline Matters -- 以 Tracking Pixel 為例 Data Pipeline Matters !! Take Tracking Pixel as an Example Jazz Yao-Tsung Wang Data Architect of TenMax.io Initiator of Taiwan Data Engineering Association Co-Founder of Taiwan Hadoop User Group Shared at 2017-11-12 <2017 台灣資料科學年會>
  • 2. Hello! I am Jazz Wang Co-Founder of Hadoop.TW Initiator of Taiwan Data Engineering Association (TDEA) Hadoop Evangelist since 2008. Open Source Promoter. System Admin (Ops). - 11 years (2002/08 ~ 2014/02) Researcher in HPC field. - 2 years (2014/03 ~ 2016/04) Assistant Vice President (AVP), Product Management of ‘Big Data Platform Management Product’ - 1.5 years (2016/04 ~ Now) Data Architect of Real-Time Bidding You can find me at @jazzwang_tw or https://fb.com/groups/dataengineering.tw https://slideshare.net/jazzwang 2
  • 4. 電子商務 數位行銷 新零售 4 數位轉型 Digital Transformation (DX) 早就悄悄地進行著 產 銷 人 發 財 數位化 (e 化) 行動化 (M 化) 普及化 (U 化) 智能化 (AI化) 行銷 4.0 電子支付 數位金融 虛擬貨幣 智慧製造 工業 4.0 社交網路 人資 4.0?
  • 6. 線上廣告的五大技術特點 媒體概念的多樣性 • 入口網站、垂直網站、搜尋引擎、電子商務網、優惠 代碼網:越來越靠近使用者轉化的特徵 • 反思:ROI 越高,引導潛在客戶的能力卻降低 數據驅動的投放決策 • 機械化:電力 → 互聯網+:數據力 • DMP:對受眾貼標籤 Tagging • DSP:依歷史投放結果,調整投放策略 技術和計算導向 • 較精細的受眾定向 – 更精準的廣告成效預估 • 計算驅動的廣告決策與競價交易– 最佳化能力 • 數位行銷:成本低,可高度客製化 效果的可量測性 • 可忠實呈現展示(Impression)與點擊(Click) • 比較不同時期不同產品的點擊率絕對值沒意義 • 特定時期同類產品的點擊率差異比較才有意義 素材與投放方式的標準化 • 標準化的驅動力:受眾定向與程序化購買 • 影音廣告的 VAST 標準 • 即時競價的 OpenRTB 標準 導購 導流 6 大數據 羊毛出在狗身上,豬來 買單! 追蹤 預估 Tracking Pixel 是讓這一切 發生的根本
  • 7. 7 1. Tracking Pixel 如何產生資料? 什麼是 Tracking Pixel ? 有哪些應用場景 ? Tracking Pixel 會在哪裡產生哪些資料呢?
  • 8. ▷ 追蹤像素(Tracking Pixel) ○ 一個大小 1 x 1 像素,通常是透明的圖片 ○ 也稱為 web bugs, beacons, tracking bugs, page tags ○ 埋在網站或 e-mail 中,用來追蹤使用者行為跟線上廣告的成效 ▷ 基本應用場景 ○ E-mail (EDM) 開信率 ○ 網站到訪率、跳出率、哪些頁面最熱門 ○ 線上廣告的曝光率(Impression)、可視曝光率(Viewable Impression)、 點擊率(Click)、到達率(Landing)、轉化率(Conversion) ▷ 進階應用場景 ○ 搭配 cookie 可以做到更精準的受眾定向(Targeting) ○ 個人化瀏覽體驗(Personalized web experiences) ○ 跨網域 cookie syncing / matching ( 跨螢用戶追蹤的基礎 ) What is Tracking Pixel ? 8
  • 9. ▷ 實作上有兩種 Tracking Pixel ○ Client Based Tracking : 使用 cookie ○ Server Based Tracking : 不用 cookie <img src=”http://hive.3du.me/images/hive_labs.png?uid=XXXXXXXXXX”> ▷ 常見實作 ○ 使用第三方服務 ■ Google Analytics https://analytics.google.com ■ Facebook Pixel https://www.facebook.com/business/help/651294705016616 ■ Doubleclick Pixel Loader https://support.google.com/richmedia/answer/6187378 ○ 自建服務 ■ Piwik https://piwik.org/docs/tracking-api/ Tracking Pixel 的種類 9
  • 10. Google Analytics 的 Tracking Pixel 資料產生流程 10 1.http://hive.3du.me
  • 11. 11 1.http://hive.3du.me 2.HTML Response Google Analytics 的 Tracking Pixel 資料產生流程
  • 12. 12 1.http://hive.3du.me 2.HTML Response 3.GET analytics.js Google Analytics 的 Tracking Pixel 資料產生流程
  • 13. 13 1.http://hive.3du.me 2.HTML Response 3.GET analytics.js 4.GET /collect?v=1&t=pageview&_ ... 5.回傳 1x1 Tracking Pixel Image Google Analytics 的 Tracking Pixel 資料產生流程
  • 14. 14 1.http://hive.3du.me 2.HTML Response 3.GET analytics.js 4.GET /collect?v=1&t=pageview&_ ... 5.回傳 1x1 Tracking Pixel Image 以上過程中也寫入了一個 3du.me 網域 的 cookie 用來識別這是同一個裝置的 同一個瀏覽器 Google Analytics 的 Tracking Pixel 資料產生流程
  • 15. 來源 IP - - [日期:時間 +時區] "GET /Lab-000.html HTTP/1.1" 200 2910 "來源頁面 http://hive.3du.me/Home.html" "瀏覽器 user-agent Firefox/56.0" "hive=1; _ga=GA1.2.645201055.1510221111; _gid=GA1.2.1103712346.1510221111; _gat=1" 15 1.http://hive.3du.me/Lab-000.html 2.HTML Response 3.GET analytics.js 4.GET /collect?v=1&t=pageview&_ ... 5.回傳 1x1 Tracking Pixel Image 當訪客瀏覽其他頁面時(如:Lab-000.html) 就會連同這些 cookie 一起告訴網站主 若網站主有打開 access log 印 cookie 的參數,就會在日檔裡看到這些 cookie 對 GA 來說,這些 cookie 是判斷首次造訪 或回訪的依據。 Google Analytics 的 Tracking Pixel 資料產生流程
  • 16. Tracking Pixel 產生的紀錄分散於不同角色 16 1.http://hive.3du.me 2.HTML Response 3.GET analytics.js 4.GET /collect?v=1&t=pageview&_ ... 5.回傳 1x1 Tracking Pixel Image 訪客 Visitor 網站主 Publisher 分析服務 Service 廣告網路 Advertising Network 廣告主 Demand 網站主、分析服務 、廣告網路,互相 拿不到對方的資料 網站主用自身資料 來跟廣告網路要錢 廣告網路也用自身 資料跟廣告主要錢 廣告主想從訪客 身上賺到錢
  • 17. ▷ Tracking Pixel 會在線上廣告生態系的不同角色, 留下不同的足跡。這些角色因為無法取得對方的資料, 必須透過對方產生的報表來「付費 / 收費」。 ⇨ 這些 web service 的 access log 跟收錢有關,不能漏記~ ⇨ 快速回應(Response Quickly)、儘早落地(Write Early) ▷ 能產生商業價值的是由大量訪客足跡所拼湊出的「訪客特徵 (Audience Profile)」。誰能同時掌握真實客戶資料與匿名的訪 客足跡,就能組出更精準的「客戶洞察(Custom Insight)」 ⇨ 這些 access log 要靠後續的離線分析來產生商業價值~ 小結 17
  • 18. 18 2. 分析 Tracking Pixel 數據 的 Data Pipeline 設計 攸關營運成本 比較不同 Data Pipeline 的設計與營運成本 Lambda Architecture Kapa Architecture Serverless / Microservice
  • 19. 19 3.GET /analytics.js 4.GET /collect?t= pageview 小規模 Tracking Pixel 的日誌分析 Data Pipeline WEB-1 WEB-2LB BI Report Dashboard ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ 成本 分析 代碼 優點:資料流短而單純,易於維護與除錯 缺點:當 log 資料量過於龐大時,資料庫的同時寫入速度跟資料量會是效能瓶頸 異常補資料用
  • 20. 20 3.GET /analytics.js 4.GET /collect?t= pageview 批次 Tracking Pixel 的日誌分析 Data Pipeline WEB-1 WEB-2 LB Spark-1 Spark-2 BI Report Dashboard ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ 成本 分析 代碼 優點:適用 log 資料量龐大、需要複雜分析的情境 缺點:資料流長,不易維護與除錯,
  • 21. 21 3.GET /analytics.js 4.GET /collect?t= pageview 串流 Tracking Pixel 的日誌分析 Data Pipeline LB ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ ⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ 成本 分析 代碼 優點:適用 log 資料量龐大、需要複雜分析的情境 缺點:資料流長,不易維護與除錯, WEB-1 WEB-2 異常補資料用 BI Report Dashboard
  • 22. 22 Serverless Tracking Pixel Architecture https://cloud.google.com/solutions/serverless-pixel-tracking
  • 23. 23 Serverless Tracking Pixel Data Pipeline ① ② ③ ④ ⑤ ⑥ ⑦ 成本 分析 代碼 優點:技術門檻略低,不需自架網頁服務,不怕流量龐大 缺點:僅適用 Server Based Tracking。雲服務元件是黑盒子,不易除錯。 BI Report DashboardServing Collecting Analysing http://docs.aws.amazon.com/AmazonS3/latest/dev/WebsiteHosting.html 將「靜態網頁」存放在「雲儲存」服務 是運用雲服務的 Best Practice!!
  • 24. 24 不同雲儲存服務的 Log 格式 ▷ Azure Blob Storage ○ Storage Analytics Log Format ○ https://docs.microsoft.com/en-us/rest/api/storageservices/storage-anal ytics-log-format ▷ Google Cloud Storage ○ Access and storage log format ○ https://cloud.google.com/storage/docs/access-logs#format ▷ Amazon S3 ○ Server Access Log Format ○ http://docs.aws.amazon.com/AmazonS3/latest/dev/LogFormat.html
  • 25. ▷ 某些行業的 access log 跟收錢有關 ⇨ 數據是 21 世紀的黑金 ▷ 但這些 access log 要靠後續的離線分析來產生商業價值~ ▷ 練習設定 Tracking Pixel 的 Data Pipeline 是個瞭解資料工程 相關技術的好開始。 ▷ 選擇 Data Pipeline 時,請根據開發成員的技能樹、應用需求 (Ex. QPS、HA、Scalability)、資料生成量與資料運算量等進行 評估。 ▷ 也請別忘了營運成本不單純只有 Data Pipeline 的運算成本, 還包括網路傳輸成本、備份機制、監控機制、維運人力成本(網 路管理員、系統管理員、DataOps / Data Engineer)。 ▷ 若資料不敏感,可存放於雲服務,可考慮用 Serverless 架構 ▷ 若有 Client based Tracking 種 cookie 需求,可用 Lambda、 Functions 服務來實作。 結語 25