SlideShare a Scribd company logo
🚒 DevOps 救火隊的逆襲
📞 如何擺脫永無止境的電話鈴聲
DevOpsDays Taipei 2025
06 • 05 • 2025
MaiCoin Group 打雜小弟大叔
主要涉略範圍:SRE, IT, Data, QA
時常擔任團隊首位推動 DevOps 的人
目前 SRE 團隊 6 人 ↑
努力讓瑣事維持在 60% ↓
Hello! I’m smalltown
過去一週你接到幾次 On-Call 電話?
根據統計健康的團隊落在 0.5~2 次/週/人
Incident 1
On-Call 2 Fixing
3
Tech Debt
4
頻繁的 On-Call 讓我們成為「救火隊」
!
團隊士氣低落、離職率高
眼袋深度 ↑ 健保卡點數 ↑
救火隊伴隨著
高壓與低滿意度
Downtime 也造成營運成本的上升
!
實際損失 = 停機時間 x 每秒請求數 x 每用戶平均營收
Bug 修不好,連財務長都會來 Code Review!
!
痛點一:警報疲勞
!
我不是在值班,就是在準備值班的路上
Manually Automation
痛點二:手動 SOP
!
人工登入執行指令,容易出錯
複製貼上最好別含 sudo rm -rf /
痛點三:技術負債滾雪球
!
別擔心,雪球滾到最後會變成豐富精彩的履歷?!
痛點四:管理層無法理解
Ops Team
我們的工作是『看不見的』
但成本卻是『看得見的』
Management
!
警報疲勞 1
欠技術債 2 溝通斷層
3
手動 SOP
2
形成逐漸侵蝕著團隊健康的慢性病
!
(告警 ↓) × (可用時間 ↑) = 開發力 ↑
讓救火隊轉型為產品導向的軟體團隊
救火隊轉型軟體團隊三步驟
減少告警數量 釋放團隊時間 自動化/平台化
!
⏳
定義 SLO、分級告警與抑
制規則,只留關鍵警報
用 Retro 找瓶頸,透過
Sprint 克服人性
針對高頻痛點開發工具,
打造可複製的內部平台
定義 SLO
讓技術團隊與業務團隊能以共同語言衡量服務可靠性
並在創新與穩定之間取得明確的平衡
SLO ≠ Slow
建立告警分級制度
P0 P1 P2
Definition
系統全面崩潰,客戶熱
線被打爆
系統出現部分故障,影
響用戶
一些小錯誤或功能異常
,影響有限,用戶可能
還沒注意到
設定規則篩掉告警雜訊
Rule 1
如果沒有用戶感覺到,
那就不該吵醒工程師
Rule 2
三次無效 → 調整閥值
→ 非商業影響則靜音
Rule 3:如果一個告警沒有任何 logs、metrics、traces 關聯
那它可能只是系統的情緒反應,不用太在意
Retro 會議 = 4Ls / 5 Why
⏳
Why?
Why?
為什麼今天網站掛掉了
Why?
Why?
Why?
所有 API Pod 同時
OOM,Kubernetes 進入 CrashLoop
最新版本程式的記憶體使用量暴增 10
倍
回傳檔案被塞進 4K貓咪影片當「驚
喜彩蛋」
開發者聽到主管說「客戶需要更多
Cache」,以為是「Cats」
當時他戴著降噪耳機,只開一條縫聽主
管講話
透過 Blameless 文化形成一個善的循環
從怪罪同事到怪罪系統
⏳
每個 Sprint 都要有一個目標
否則很容易又陷入「救火」模式
⏳
工時切分 60/30/10
⏳
日常工作 自動化 學習
一年多前
現在
80 10 10
60 30 10
區塊鏈節點維運服務的誕生
從救火到開發,從維運到產品
��
為什麼選擇區塊鏈節點?
因為它每天都在 Down,叫最大聲
Analysis + Retro + Decision Matrix
Agree & Commit Disagree &Commit
Disagree& Not
Commit
Option 1 🙌 🙌🙌🙌 🙌
Blockchain Ops 🙌🙌🙌 🙌
… 🙌🙌 🙌🙌🙌🙌🙌 🙌
撰寫 Product Requirement Document
Auto-Restarter Auto-Rotation Health Checker
Peer
Maintainer
Release
Pipeline
Snapshot
Manager
Desc … … … … … …
… … … … … … …
MVP … … … … … …
Auto-Restarter?! SRE = Service Restart Engineer
盡量不去重造輪子
Golang + Terraform + Kubernetes + Jenkins
利用半年的時間讓服務上線
Health Checker
Peer Maintainer Snapshot Manager
Auto-Rotation Release Pipeline
最基本且跟其他功
能有相依性
定期要做的手動任
務
確保定期 Rotation 的區
塊鏈資料有著落
需要跟 Developer 一
起合作完成擺最後
複製同樣的工作模式擴展到其他服務
提升團隊的工作滿意度
未來的 Roadmap
下一步:讓 AI 幫我輪值班(希望啦)
❌ 救火式的英雄主義
✅ 系統要能自救
明日行動清單
1
關掉一個雜訊告
警
召開一次 Retro
會議
2
下個 Sprint 預留
10% 時間
選一個 MVP開
始做
3 4
CREDITS: This presentation template was created by Slidesgo, including icons
by Flaticon, and infographics & images by Freepik
Thanks!
Do you have any
questions?
不問問題的話,今天晚上電話會響喔
一起來當同事吧!
! We’re Hiring!
● Senior Site Reliability Engineer
● Senior Data Engineer
● Senior IT Engineer
● Blockchain Engineer (Wallet Team)
● (Senior) Backend Engineer
● Micro Service Software Engineer
● Cyber Security Engineer

More Related Content

PDF
DevOpsDays Taipei 2025 - 為什麼你裝了一堆 O11y 工具,卻沒人用?🤷
PDF
Kubernetes Summit 2024 - How GenAI Help you in K8s Ops
PDF
DevOpsDays Taipei 2024 - Evolution of DevOps: Lessons Learned from a Growing ...
PDF
SHOPLINE 職人聊天室: 警報管理 - 從系統和制度下手 By smalltown
PDF
Kubernetes Summit 2023: Head First Kubernetes
PDF
SRE Conference 2022 - How to Build a Healthy On-Call Culture
PDF
Kubernetes Summit 2021: Multi-Cluster - The Good, the Bad and the Ugly
PDF
DevOpsDays Taipei 2021 - How FinTech Embrace Change Management
DevOpsDays Taipei 2025 - 為什麼你裝了一堆 O11y 工具,卻沒人用?🤷
Kubernetes Summit 2024 - How GenAI Help you in K8s Ops
DevOpsDays Taipei 2024 - Evolution of DevOps: Lessons Learned from a Growing ...
SHOPLINE 職人聊天室: 警報管理 - 從系統和制度下手 By smalltown
Kubernetes Summit 2023: Head First Kubernetes
SRE Conference 2022 - How to Build a Healthy On-Call Culture
Kubernetes Summit 2021: Multi-Cluster - The Good, the Bad and the Ugly
DevOpsDays Taipei 2021 - How FinTech Embrace Change Management

More from smalltown (20)

PDF
Kubernetes Summit 2020 - DevOps: Where is My PodPod
PDF
CDK Meetup: Rule the World through IaC
PDF
AWS re:Invent re:Cap 2019: My ElasticSearch Journey on AWS
PDF
Cloud Native User Group: Shift-Left Testing IaC With PaC
PDF
DevOpsDays Taipei 2019 - Mastering IaC the DevOps Way
PDF
Kubernetes Summit 2019 - Harden Your Kubernetes Cluster
PDF
HashiCorp Vault Workshop:幫 Credentials 找個窩
PDF
TW SEAT - DevOps: Security 干我何事?
PDF
Cloud Native User Group: Prometheus Day 2
PDF
Kubernetes User Group: 維運 Kubernetes 的兩三事
PDF
DevOpsDays - DevOps: Security 干我何事?
PDF
AgileTW Feat. DevOpsTW: 維運 Kubernetes 的兩三事
PDF
Kubernetes Summit 2018 - Kubernetes: Stateless -> Stateful
PDF
Kubernetes Day 2017 - Build, Ship and Run Your APP, Production !!
PDF
Docker Summit 2016 - Kubernetes: Sweets and Bitters
PDF
DevOpsDays Taipei 2017 - Terraform: Everything Is Code
PDF
COSCUP 2017 - infrastructure As Code
PDF
AWS Connect 2017 - Container (feat. AWS)
PDF
DevOps Summit 2016 - The immutable Journey
PDF
DevOps 2015 - Dancing with Chef
Kubernetes Summit 2020 - DevOps: Where is My PodPod
CDK Meetup: Rule the World through IaC
AWS re:Invent re:Cap 2019: My ElasticSearch Journey on AWS
Cloud Native User Group: Shift-Left Testing IaC With PaC
DevOpsDays Taipei 2019 - Mastering IaC the DevOps Way
Kubernetes Summit 2019 - Harden Your Kubernetes Cluster
HashiCorp Vault Workshop:幫 Credentials 找個窩
TW SEAT - DevOps: Security 干我何事?
Cloud Native User Group: Prometheus Day 2
Kubernetes User Group: 維運 Kubernetes 的兩三事
DevOpsDays - DevOps: Security 干我何事?
AgileTW Feat. DevOpsTW: 維運 Kubernetes 的兩三事
Kubernetes Summit 2018 - Kubernetes: Stateless -> Stateful
Kubernetes Day 2017 - Build, Ship and Run Your APP, Production !!
Docker Summit 2016 - Kubernetes: Sweets and Bitters
DevOpsDays Taipei 2017 - Terraform: Everything Is Code
COSCUP 2017 - infrastructure As Code
AWS Connect 2017 - Container (feat. AWS)
DevOps Summit 2016 - The immutable Journey
DevOps 2015 - Dancing with Chef
Ad

DevOpsDays Taipei 2025 - 🚒 DevOps 救火隊的逆襲:如何擺脫永無止境的電話鈴聲