SlideShare a Scribd company logo
為什麼你裝了一堆 O11y 工具
卻沒人用?󰤇
Observability ≠ Shopping + Installing
DevOpsDays Taipei 2025
06 • 05 • 2025
MaiCoin Group 打雜小弟大叔
主要涉略範圍:SRE, IT, Data, QA
時常擔任團隊首位推動 DevOps 的人
目前 SRE 團隊 6 人 ↑
努力讓瑣事維持在 60% ↓
Hello! I’m smalltown
大家所維運的服務 24/7 不打烊
停機就等於燒錢!
可觀測性失敗的真正成本 = 停機時間 x 每分鐘損失
想說安裝完 Grafana 和 Prometheus 就搞定了
?
但是...工具≠能力
不過遇到問題仍然是... ssh + tail -f
!
用肉眼在每秒幾萬行的 Log 瀑布找問題
多到爆炸的指標!但找不到真正的問題
!
收集 10 萬條 metrics,找不到轉換率掉 7% 的原因
或是會看到 Dev 跟 Ops 互踢皮球
!
誤區一:以工具為中心的導入方式
!
安裝 → Default Dashboard → 下班
誤區二:只有 Ops 在乎指標
!
指標會說話,只是除了 Ops,沒人聽得懂它在說什麼
誤區三:噪音警報 ≠ 可觀測性
!
每天早上醒來,Slack 上的警報比我的未讀訊息還多
先把提問寫進程式,再讓答案寫進圖表
從三個面向讓 O11y 在團隊內落地
文化與角色 流程與自動化 平台與治理
!
讓 Dev、Ops 與管理層共
享責任,形成推動可觀測
性的基石
確保開發與運維一體化,
不再依賴手動追蹤
讓平台可持續運作,避免
工具閒置與浪費
共同訂出對齊業務的 SLO/SLA
從業務痛點出發,定義可觀測性需求
「為什麼要做可觀測性」的
根本驅動
Business KPI
讓團隊有清晰可以監控與
追蹤的 SLO/SLA
Service Level
提供實時與歷史的參考,
驗證服務是否符合期望
Telemetry
除了 Ops,Dev 也要一起輪值
Ops: 拒當人肉路由器
MON TUE WED THU FRI SAT
Ops Noah Lucas James Michael Jack Daniel
Dev William David John Cooper Adam Andrew
在 Incident Review 中學習,而不是抓戰犯
Timeline Follow-up
Impact
Root Cause
Action Items
用「5 Whys」而非「誰的錯」來檢討問題
Why1:為什麼連線數爆滿?— 因為 CPU 飆高,Pod 重啟
Why2:為什麼 CPU 飆高?— 因為查詢邏輯沒加緩存,導致頻繁重查資料
Why3:為什麼沒加緩存?— 因為該功能開發時沒有預估使用量
Why4:為什麼沒做好使用量預估?— 因為沒有與 DevOps 共同討論壓力測試
Why5:為什麼沒有討論壓力測試?— 因為缺少在需求階段就加入壓力測試
先挑一條最賺錢/最常出事的路徑做 E2E 追蹤
Login View Product Checkout Payment Done
Latency DB Error 2 Alert/Day SLA Breach
Git SHA, Version…etc
Build
Trace ID, Span ID, Log,
Metric…etc
Execution
在應用服務的生命週期中埋藏線索
假如什麼都沒有的話,今年的通靈王大賽就開始了!
將 Observability 3+1 本柱關聯起來
Alert → Metrics → Trace → Log → Trace → …
Runbook 有沒有不存在的一天 → RaC
Service
Document XXX as Code
再拖一陣子就可以都交給 AI Agent 就好了
近 7 天放 SSD
即時告警使用
Hot Data
30 天放 HDD
事故回溯使用
Warm Data
180 天上 Object Storage
稽核合規使用
Cold Data
Hot/Warm/Cold Data 各有其用
Cold Data 要定期檢視是否正常,不然...
1
刪除無用 Metrics
降低高雜訊 Alert
設定 Budget Alert
自動化通知
2
建立 RACI 矩陣
定期審核
3
成本治理三步驟
透過 RACI(Responsible, Accountable, Consulted, Informed)矩陣
明確各項監控與採購行為中「誰負責」和「誰付錢」
設計儀表板時,先問「這個指標能幫助誰?」
不要讓 Dashboard 只說工程師聽得懂的話
沒有最好,只有更好
!
以前追 Log 是靠第六感,現在靠 Trace,未來靠 AI。(希望啦)
第1階段 第2階段 現在
成
熟
度 🚧 起步:
只追重大服務
🛠 擴展:
引入 Trace
🚀 轉化:
支援商業視角
工具是手段
問題定義才是王道
培養見人說人話,見鬼說鬼話的能力
!
Tech Signal Dev Focus Ops Focus Manager Focus Conclusion
P95 Latency ↑ 查程式/SQL 主機負載 客戶體驗下降
我們的結帳流程本週慢了
300ms,可能影響轉換率
Alert Noise 過多 Debug 困難 OnCall 頻率上升
士氣降低、加班成
本
降 60% 噪音 = 少兩次夜班
加班費
套用 P-I-M-A 的說話框架
用非技術或業務語言
描述目前的異常現象
Problem
量化這個問題對業務
或系統造成的直接損
失或風險
Impact
指出唯一可驗證或反
駁此影響的技術指標
或數據
Metric
下一步應立刻執行的
技術或流程措施
Action
!
P:小明把程式裡「Debug 全開」,每天狂丟「INFO」、「DEBUG」到 CloudWatch Log
I:結果 CloudWatch Log 量一夕暴增,老闆月底看到帳單愣住,以為 AWS 帳號被盜
M:CloudWatch Log Insights 顯示當日寫入日誌大小超過 5 TB
A:立刻把 Log Level 調回 Error → 改用 FilterPattern 過濾關鍵資訊 → 設定每日 Log 用量告警
下週就能做
的幾件小事
1
列全公司 Top 3
停機痛點
選 1 條關鍵路徑
開始追蹤
2
在 Build 流程加
入 Git SHA,
Version
清掉 3 個無人使
用的 Dashboard
3 4
CREDITS: This presentation template was created by Slidesgo, including icons
by Flaticon, and infographics & images by Freepik
Thanks!
Do you have any
questions?
不問問題的話,今天晚上電話會響喔
一起來當同事吧!
! We’re Hiring!
● Senior Site Reliability Engineer
● Senior Data Engineer
● Senior IT Engineer
● Blockchain Engineer (Wallet Team)
● (Senior) Backend Engineer
● Micro Service Software Engineer
● Cyber Security Engineer

More Related Content

PDF
DevOpsDays Taipei 2025 - 🚒 DevOps 救火隊的逆襲:如何擺脫永無止境的電話鈴聲
PDF
子供の言語獲得と機械の言語獲得
PDF
金融業界における人工知能 2022/1/17
PDF
M1/M2型マクロファージの識別マーカー
PDF
強化学習その1
PDF
最適化超入門
PDF
星野「調査観察データの統計科学」第3章
PDF
プログラミングコンテストでのデータ構造
DevOpsDays Taipei 2025 - 🚒 DevOps 救火隊的逆襲:如何擺脫永無止境的電話鈴聲
子供の言語獲得と機械の言語獲得
金融業界における人工知能 2022/1/17
M1/M2型マクロファージの識別マーカー
強化学習その1
最適化超入門
星野「調査観察データの統計科学」第3章
プログラミングコンテストでのデータ構造

What's hot (20)

PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
PPTX
社会心理学者のための時系列分析入門_小森
PDF
用十分鐘 學會《資料結構、演算法和計算理論》
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
『バックドア基準の入門』@統数研研究集会
DOCX
マハラノビス距離とユークリッド距離の違い
PDF
自然言語処理基礎の基礎
PDF
論文紹介: An empirical evaluation of in-memory multi-version concurrency control
PPTX
誰も教えてくれなかったカルテの書き方
PDF
高速フーリエ変換
PDF
[DL輪読会]One Model To Learn Them All
PDF
自然言語処理によるテキストデータ処理
PDF
69【簡報設計】賈伯斯簡報的15個秘訣
PDF
論文紹介 Compressing Neural Networks with the Hashing Trick
PDF
高速な倍精度指数関数expの実装
PPTX
AtCoder Beginner Contest 034 解説
PDF
猫でもわかる! モデル検査器 SPIN 入門
PDF
物体検出の歴史まとめ(1) 20180417
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
社会心理学者のための時系列分析入門_小森
用十分鐘 學會《資料結構、演算法和計算理論》
【論文紹介】How Powerful are Graph Neural Networks?
【メタサーベイ】基盤モデル / Foundation Models
『バックドア基準の入門』@統数研研究集会
マハラノビス距離とユークリッド距離の違い
自然言語処理基礎の基礎
論文紹介: An empirical evaluation of in-memory multi-version concurrency control
誰も教えてくれなかったカルテの書き方
高速フーリエ変換
[DL輪読会]One Model To Learn Them All
自然言語処理によるテキストデータ処理
69【簡報設計】賈伯斯簡報的15個秘訣
論文紹介 Compressing Neural Networks with the Hashing Trick
高速な倍精度指数関数expの実装
AtCoder Beginner Contest 034 解説
猫でもわかる! モデル検査器 SPIN 入門
物体検出の歴史まとめ(1) 20180417
Ad

Similar to DevOpsDays Taipei 2025 - 為什麼你裝了一堆 O11y 工具,卻沒人用?🤷 (20)

PDF
SRE CH12 - Effective Troubleshooting
PDF
Hadoop 生態系十年回顧與未來展望
PPTX
2025 Vincent's Product Manager Portfolio
PDF
Monitoring Tools 大亂鬥 - AWS CloudWatch
PPTX
在B2B硬體產業運用 Agile 與 DevOps 的實務與心法
PDF
智慧化的IT架構管理
PDF
Ops as Code using Serverless
PDF
數據特性 vs AI產品設計與實作
PDF
過來人經驗 - 在企業中推行 DevOps 前該具備的認知與工具箱
PDF
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
PPTX
DevOpsDays Taipei 2023 - 使用Robot Framework實踐BizDevOps
PDF
Effective DevOps:一場文化與技術的轉型運動 (陳正瑋)
PDF
Effective DevOps (Agile Tour HsinChu 2017)
PDF
Claroty_compressed_Introduction overview
PPTX
從研發團隊管理及產品發展的角度看 DevOps
PDF
DevOps Tool Chain - Image Registry Troubleshooting and Best practices
PPTX
2024 Hello World Dev Conference 從觀察到實踐 打造符合公司需求的GitLab DevOps流水線
PDF
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏
PPT
第八組
PDF
2022 台灣企業AI趨勢報告.pdf
SRE CH12 - Effective Troubleshooting
Hadoop 生態系十年回顧與未來展望
2025 Vincent's Product Manager Portfolio
Monitoring Tools 大亂鬥 - AWS CloudWatch
在B2B硬體產業運用 Agile 與 DevOps 的實務與心法
智慧化的IT架構管理
Ops as Code using Serverless
數據特性 vs AI產品設計與實作
過來人經驗 - 在企業中推行 DevOps 前該具備的認知與工具箱
2020 AWS Summit - 如何有效管理 AWS 的成本結構與系統架構
DevOpsDays Taipei 2023 - 使用Robot Framework實踐BizDevOps
Effective DevOps:一場文化與技術的轉型運動 (陳正瑋)
Effective DevOps (Agile Tour HsinChu 2017)
Claroty_compressed_Introduction overview
從研發團隊管理及產品發展的角度看 DevOps
DevOps Tool Chain - Image Registry Troubleshooting and Best practices
2024 Hello World Dev Conference 從觀察到實踐 打造符合公司需求的GitLab DevOps流水線
2018AOI論壇_時機已到 AOI導入邊緣運算_SAS林育宏
第八組
2022 台灣企業AI趨勢報告.pdf
Ad

More from smalltown (20)

PDF
Kubernetes Summit 2024 - How GenAI Help you in K8s Ops
PDF
DevOpsDays Taipei 2024 - Evolution of DevOps: Lessons Learned from a Growing ...
PDF
SHOPLINE 職人聊天室: 警報管理 - 從系統和制度下手 By smalltown
PDF
Kubernetes Summit 2023: Head First Kubernetes
PDF
SRE Conference 2022 - How to Build a Healthy On-Call Culture
PDF
Kubernetes Summit 2021: Multi-Cluster - The Good, the Bad and the Ugly
PDF
DevOpsDays Taipei 2021 - How FinTech Embrace Change Management
PDF
Kubernetes Summit 2020 - DevOps: Where is My PodPod
PDF
CDK Meetup: Rule the World through IaC
PDF
AWS re:Invent re:Cap 2019: My ElasticSearch Journey on AWS
PDF
Cloud Native User Group: Shift-Left Testing IaC With PaC
PDF
DevOpsDays Taipei 2019 - Mastering IaC the DevOps Way
PDF
Kubernetes Summit 2019 - Harden Your Kubernetes Cluster
PDF
HashiCorp Vault Workshop:幫 Credentials 找個窩
PDF
TW SEAT - DevOps: Security 干我何事?
PDF
Cloud Native User Group: Prometheus Day 2
PDF
Kubernetes User Group: 維運 Kubernetes 的兩三事
PDF
DevOpsDays - DevOps: Security 干我何事?
PDF
AgileTW Feat. DevOpsTW: 維運 Kubernetes 的兩三事
PDF
Kubernetes Summit 2018 - Kubernetes: Stateless -> Stateful
Kubernetes Summit 2024 - How GenAI Help you in K8s Ops
DevOpsDays Taipei 2024 - Evolution of DevOps: Lessons Learned from a Growing ...
SHOPLINE 職人聊天室: 警報管理 - 從系統和制度下手 By smalltown
Kubernetes Summit 2023: Head First Kubernetes
SRE Conference 2022 - How to Build a Healthy On-Call Culture
Kubernetes Summit 2021: Multi-Cluster - The Good, the Bad and the Ugly
DevOpsDays Taipei 2021 - How FinTech Embrace Change Management
Kubernetes Summit 2020 - DevOps: Where is My PodPod
CDK Meetup: Rule the World through IaC
AWS re:Invent re:Cap 2019: My ElasticSearch Journey on AWS
Cloud Native User Group: Shift-Left Testing IaC With PaC
DevOpsDays Taipei 2019 - Mastering IaC the DevOps Way
Kubernetes Summit 2019 - Harden Your Kubernetes Cluster
HashiCorp Vault Workshop:幫 Credentials 找個窩
TW SEAT - DevOps: Security 干我何事?
Cloud Native User Group: Prometheus Day 2
Kubernetes User Group: 維運 Kubernetes 的兩三事
DevOpsDays - DevOps: Security 干我何事?
AgileTW Feat. DevOpsTW: 維運 Kubernetes 的兩三事
Kubernetes Summit 2018 - Kubernetes: Stateless -> Stateful

DevOpsDays Taipei 2025 - 為什麼你裝了一堆 O11y 工具,卻沒人用?🤷