SlideShare a Scribd company logo
2
Most read
6
Most read
10
Most read
大規模なリアルタイム監視の導入と展開
Sep. 29th , 2022
Wei He
User Support Section
Cloud Platform Enablement Department
Rakuten Group, Inc.
2
About Me
2016年 新卒入社 インフラエンジニア
サーバーの構築、仕様の標準化や自動化に取り組んでいる
TAMとしては、楽天市場、楽天ブックス、楽天Car等を担当
好きな言語はGo
趣味は登山と写真撮影
Wei He ( ギ・ヘ )
ユーザーサポート課
テクニカルアカウントマネジメントグループ
3
TAMの仕事内容
インフラを利用する上でのPoint of Contact
サービス開発者
こういうことを実現したい
この機能をこう使いましょう
こういうアーキテクチャにしましょう
必要に応じてエスカレーション
監視
課題発見
対策
試験 地道な改善を繰り返す
サービスのシステム改善
TAM インフラ開発者
ときにはツールやシステムも作成も行う
4
CONTENTS
1. 新しいメトリクス監視システムの実現
2. 社内デファクトスタンダードへの展開
5
CONTENTS
1. 新しいメトリクス監視システムの実現
2. 社内デファクトスタンダードへの展開
6
従来のメトリクス監視システムと課題
従来のメトリクス監視システム
• Ruby による内製
• SNMP を通してメトリクスを収集
• RRD Tool で NAS にメトリクスを保存
• メトリクス保存期間は2年
課 題
• メトリクス収集が Ruby の内製プログラムのため、
拡張が困難で、監視対象がOSと一部のミドルウェア
に限定されている
• メトリクスの間隔が5分に1回で、リアルタイムの
データがとれない
• 監視システムの開発後に利用しはじめた
Kubernetesに非対応
• 監視情報に欠損が出てしまうことがある
監視システム
可視化層
データ層
収集層
監視対象
7
• CNCF (Cloud Native Computing Foundation )のCortex を採用
• マルチテナント対応
• 長期間保存
• クラスタリングによる高可用性と水平拡張性
新しいメトリクス監視システムのアーキテクチャ
• サーバーやKubernetesのpodに各種の
Prometheus Exporterを起動
• メトリクスを公開
• Prometheus を採用
• サーバーやKubernetesのメトリクスを収集
• TSDB(Time-series Database)に書き込み
- Remote writeを利用
• Grafanaを採用
• TSDB (Time-series Database)からメトリクスを取得
従来のシステムの課題を解決できるPrometheusを中心に設計
監視システム
可視化層
データ層
収集層
監視対象
8
新しいメトリクス監視システムでの工夫
1. 各サーバーに適切なexporterを
簡単にインストールさせる
2. 障害耐性を高める
9
1. 各サーバーに適切なexporterを簡単にインストールさせる
背 景 既存も含む大量のサーバーに適切なexporterを定めインストールするのは不可能
• Node exporterなら問答無用にインストールできるが、OS領域でしか使えない
• 各種のミドルウェアのexporterのインストールに毎回人の判断が必要
どの環境でも問答無用にインストールでき、
90%以上のユースケースを満たすexporterを導入し、管理コストを削減する
https://www.netdata.cloud/
• OSSの分散リアルタイム監視システムNETDATAを導入
• OS及び各種のミドルウェアを自動で監視
- ミドルウェアはすべて自動検知
- サーバー別の設定は不要
- 1時間内の1秒単位のメトリクスを収集
• Prometheusと連携可能
• 導入が簡単
目 的
手 段
10
Netdataのミドルウェアの自動検知
jobs:
- name: local
url: http://localhost/server-status
- name: local
url: http://localhost/nginx-status
自動検知の仕組み
• 可能性のあるパターンを全て設定ファイルに記述
• 一般的なパターンは事前定義済み
• 一致したパターンのみメトリクスを収集
パターン設定の例:Nginx の status 監視
• いずれかのURLがnginxのstatusを返せば、
nginxを検出し監視
• 全部返せない場合はnginxが動作していないとみなす
⇒ 標準が異なるサーバーも同じ設定で監視可能
11
2. 障害耐性を高める
監視システムが依存している他のシステムが落ちると監視システムも落ちる
背 景
依存している他のシステムが一部落ちた時でも、最低限の監視を可能にする
手 段 Prometheus+Thanosを採用
目 的
https://prometheus.io/ https://thanos.io/
12
障害耐性の実現方法 (1/2)
• マルチテナント対応
• 大量のデータの保存
• 長期間保存
• Cache によるクエリの高速化
• クラスタリングによる
高可用性と水平拡張性を実現
• システムが複雑
1. ) コンポーネントが多数
2. ) 外部依存が多数
- Kubernetes, object storage, load balancer, etc.
監視システムは Cortex が落ちても最低限の動作の保証が必要
Cortexの利点 Cortexの課題
通常利用時
Cortexにアクセス
Server
Server
13
通常利用時
Cortexにアクセス
Server
Server
②障害耐性の実現方法 (2/2)
• Prometheus の local storage を利用
- Cortexがなくても短期間のメトリクスはアクセス可能
• Thanosを利用
- 複数の Prometheus を跨ってクエリ
- Object Storageの機能は不使用
LBも障害時にサーバー
に直接アクセス
Cortexが障害時に
アクセス
収集層は Prometheus + Thanos
14
CONTENTS
1. 新しいメトリクス監視システムの実現
2. 社内デファクトスタンダードへの展開
15
社内への展開
監視システム データの間隔 保存期間 利用の場合
従来のシステム 5分 2年 長期の傾向を把握したい時
新規のシステム 15秒 14日 通常の監視時
Netdata※ 1秒 1時間 リアルタイムの情報が必要な時
いきなり全て置き換えると抵抗がある人たちもいるので、
PoCを実施しながら、少しずつ導入。
従来のシステムとの違いを活かし共存を目指した。
3つのシステムの違い
※Netdataは新規のシステムの一部
16
小規模からデファクトスタンダードへ
① 小規模サービスへ導入
POCをして小さいサービスから導入。
フィードバックを元にシステムを改善。
② 中規模サービスへの導入
機能性と利便性が高く評価され、利用希望者が増加。
徐々に中規模サービスにも導入。
③ デファクトスタンダード化
口コミが社内で広がり、利用希望者がさらに増加。
全サービスに導入。 ① ② ③
小規模導入
中規模導入
デファクト
スタンダードへ
17
まとめ
社内デファクトスタンダードへの展開
新しいメトリクス監視システムの開発
• 既存システムと共存
• 小規模から導入し、フィードバックを元に改善
• 段階的に利用者を増やし、全社展開へ
• Netdata を exporter として採用し、管理コストを削減
• Cortex と Thanos を組み合わせ、障害耐性を実現
新卒でも、課題を見つけ、解決できるシステムを
開発すれば、全社に展開することができた!!!
大規模なリアルタイム監視の導入と展開

More Related Content

PDF
DataSkillCultureを浸透させる楽天の取り組み
PDF
楽天の規模とクラウドプラットフォーム統括部の役割
PDF
楽天のインフラ事情 2022
PDF
楽天における大規模データベースの運用
PDF
Travel & Leisure Platform Department's tech info
PPTX
Dockerからcontainerdへの移行
PDF
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
PDF
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
DataSkillCultureを浸透させる楽天の取り組み
楽天の規模とクラウドプラットフォーム統括部の役割
楽天のインフラ事情 2022
楽天における大規模データベースの運用
Travel & Leisure Platform Department's tech info
Dockerからcontainerdへの移行
OSS+AWSでここまでできるDevSecOps (Security-JAWS第24回)
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48

What's hot (20)

PPTX
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
PDF
楽天サービスを支えるネットワークインフラストラクチャー
PDF
KubernetesでRedisを使うときの選択肢
PPTX
Amazon SageMakerでカスタムコンテナを使った学習
PDF
コンテナ未経験新人が学ぶコンテナ技術入門
PDF
CyberAgentのPrivateCloudeを支えるStorage基盤
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
PPTX
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
PDF
100PBを越えるデータプラットフォームの実情
PDF
Dockerからcontainerdへの移行
PDF
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
PDF
How We Defined Our Own Cloud.pdf
PDF
大規模オンプレミス環境はGitOpsの夢を見るか(CI/CD Conference 2021 by CloudNative Days 発表資料)
PPTX
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
PDF
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
PDF
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
PDF
MonotaRO のデータ活用と基盤の過去、現在、未来
PDF
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
PDF
Fluentdのお勧めシステム構成パターン
PDF
ビジネスパーソンのためのDX入門講座エッセンス版
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
楽天サービスを支えるネットワークインフラストラクチャー
KubernetesでRedisを使うときの選択肢
Amazon SageMakerでカスタムコンテナを使った学習
コンテナ未経験新人が学ぶコンテナ技術入門
CyberAgentのPrivateCloudeを支えるStorage基盤
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
100PBを越えるデータプラットフォームの実情
Dockerからcontainerdへの移行
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
How We Defined Our Own Cloud.pdf
大規模オンプレミス環境はGitOpsの夢を見るか(CI/CD Conference 2021 by CloudNative Days 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
MonotaRO のデータ活用と基盤の過去、現在、未来
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
Fluentdのお勧めシステム構成パターン
ビジネスパーソンのためのDX入門講座エッセンス版
Ad

Similar to 大規模なリアルタイム監視の導入と展開 (20)

PDF
Team Foundation Server ~ 今を生きるエンジニアのための開発基盤とは 【BPStudy #63】
PDF
社内エンジニアを支えるテクニカルアカウントマネージャー
PPTX
とあるメーカーのRedmine活用事例
PDF
Application Re-Architecture Technology ~ StrutsからSpring MVCへ ~
PDF
[CTO Night & Day 2019] ML services: MLOps #ctonight
PDF
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...
PPTX
市場動向並びに弊社製品の今後の展望について
PDF
Enterprise agile dev ops-and-xr-techonology-adoption-for-fintech-20180324
PDF
AWS市場動向と求められる人材、その育成方法について
PDF
チーム×ツール Team Foundation Server & Service 共感しActionできる開発基盤 アルティメイタム【デブサミ 2013 ...
PPTX
Application Re-Architecture Technology ~ StrutsからSpring MVCへ ~
PPTX
intra-mart Accel series 2025 Spring updates
PPTX
Future customer experience
PDF
市場動向並びに弊社製品の今後の展望について
PPTX
Layout isfirstprocessofatomicdesign
PDF
基調講演「データのグループウェア化」
PDF
[3rd 長崎QDG] チームで、長期間で、たくさんのソフトウェアを快適に開発し、価値を生み続けるためのエンジニアリング
PDF
Agile 459 | 11/17 資料
PDF
ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること -
PDF
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
Team Foundation Server ~ 今を生きるエンジニアのための開発基盤とは 【BPStudy #63】
社内エンジニアを支えるテクニカルアカウントマネージャー
とあるメーカーのRedmine活用事例
Application Re-Architecture Technology ~ StrutsからSpring MVCへ ~
[CTO Night & Day 2019] ML services: MLOps #ctonight
[TL09] 突撃! 隣の Visual Studio Team Services / Team Foundation Server ~利用者からのベスト...
市場動向並びに弊社製品の今後の展望について
Enterprise agile dev ops-and-xr-techonology-adoption-for-fintech-20180324
AWS市場動向と求められる人材、その育成方法について
チーム×ツール Team Foundation Server & Service 共感しActionできる開発基盤 アルティメイタム【デブサミ 2013 ...
Application Re-Architecture Technology ~ StrutsからSpring MVCへ ~
intra-mart Accel series 2025 Spring updates
Future customer experience
市場動向並びに弊社製品の今後の展望について
Layout isfirstprocessofatomicdesign
基調講演「データのグループウェア化」
[3rd 長崎QDG] チームで、長期間で、たくさんのソフトウェアを快適に開発し、価値を生み続けるためのエンジニアリング
Agile 459 | 11/17 資料
ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること -
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
Ad

More from Rakuten Group, Inc. (20)

PDF
EPSS (Exploit Prediction Scoring System)モニタリングツールの開発
PPTX
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
PDF
楽天における安全な秘匿情報管理への道のり
PDF
What Makes Software Green?
PDF
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
PDF
Rakuten Services and Infrastructure Team.pdf
PDF
The Data Platform Administration Handling the 100 PB.pdf
PDF
Supporting Internal Customers as Technical Account Managers.pdf
PDF
Making Cloud Native CI_CD Services.pdf
PDF
Travel & Leisure Platform Department's tech info
PDF
OWASPTop10_Introduction
PDF
Introduction of GORA API Group technology
PDF
モニタリングプラットフォーム開発の裏側
PDF
楽天サービスとインフラ部隊
PDF
Rakuten Platform
PDF
Kafka & Hadoop in Rakuten
PDF
Unclouding Container Challenges
PDF
Functional Programming in Pattern-Match-Oriented Programming Style <Programmi...
PDF
アジャイル開発とメトリクス
PDF
AR/SLAM and IoT
EPSS (Exploit Prediction Scoring System)モニタリングツールの開発
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
楽天における安全な秘匿情報管理への道のり
What Makes Software Green?
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
Rakuten Services and Infrastructure Team.pdf
The Data Platform Administration Handling the 100 PB.pdf
Supporting Internal Customers as Technical Account Managers.pdf
Making Cloud Native CI_CD Services.pdf
Travel & Leisure Platform Department's tech info
OWASPTop10_Introduction
Introduction of GORA API Group technology
モニタリングプラットフォーム開発の裏側
楽天サービスとインフラ部隊
Rakuten Platform
Kafka & Hadoop in Rakuten
Unclouding Container Challenges
Functional Programming in Pattern-Match-Oriented Programming Style <Programmi...
アジャイル開発とメトリクス
AR/SLAM and IoT

大規模なリアルタイム監視の導入と展開