SlideShare a Scribd company logo
インフラデータ活用に向けた
NTT コミュニケーションズ
の取り組み
2018.10.16
技術開発部 Data Science TU / Cutting Edge SU
経営企画部次世代PF推進室
亀井聡
DataWorks Summit Tokyo 2018@赤坂インターシティカンファレンス
概要
 自己紹介,弊社の事業ドメインの紹介
 データサイエンスチームの立ち上げ
 インフラデータの活用に向けて
 今後の課題
自己紹介,弊社の事業ドメインの紹介
自己紹介
 亀井聡
 NTT コミュニケーションズ 株式会社
 技術開発部 Cutting Edge SU, Data Science TU
 経営企画部 次世代PF推進室 兼務
 〜2012.06 NTT サービスインテグレーション基盤研究所
 ネットワーク品質計測・トラフィック制御技術の研究に従事
 2012.07〜 NTT コミュニケーションズ 技術開発部
 インターネット可視化
 Data Science チーム・解析基盤の立ち上げ
 解析基盤の商用化に向けた検討
NTTコミュニケーションズの紹介と
事業ドメイン
 営業拠点: 40+ Countries/Regions, 110+ Locations
 SI, Managed Service, Security (WideAngle/MSS)
 ネットワークサービス: 190+ Countries/Regions
 Global Internet Transit(GIN), OCN, MobileOne, Enterprise VPN(UNO)
 データセンタ: 20+ Countries/Regions
 Nexcenter
 クラウドサービス: 15+ Countries/Regions
 CloudN, Enterprise Cloud (ECL)
NTTコミュニケーションにおける
データ解析の主要な目的
インターネットの変化を捉
えた意志決定
•主要通信の運び手がキャリ
アからITジャイアントに.
•サービス開発,設備投資を
適切に行うことが困難に.
•どこに回線を増設するか,
データセンタを配置するか.
Infrastructure Operation
Company として
•自動化やコスト削減.品質
向上等きめ細かなサポート.
•自営インフラの効率化.
•アウトソースされたエンタ
プライズNW・エッジNWの
運用効率化.付加価値生成.
新たなサービスを産み出す
•CDN / DDoS / SeCaaS w/
VxF基盤 / Data解析基盤
•領域・組織横断で連携した
意志決定を容易に,データ
ドリブンで実施する.
•解析基盤そのものの外販
6
データサイエンスチームの立ち上げ
データサイエンスチームの立ち上げ
 研究所でトラフィック解析業務→コムに異動して実トラフィックを対象に
 最初のテーマは Internet の可視化
 計測環境の立ち上げや社内データ調整の日々
 調整に際しては比較的高度な知識(技術だけじゃなく)が要求される
 人が足りない,優秀なインフラエンジニアは奪い合い
 データベースやマイニング,マーケティング部隊を統合
 社外に向けてコンサルティングを売っていくチームを方針転換
 まずは社内データ活用に舵を切って,うまくいったら外販する方針に
苦難(?)の歴史 1/4
 手動分析と職人芸のチーム(excel, spss, perl, …)
 個別案件(営業支援案件がほとんど)を個人のスキルで解決
 人によってツールも得意分野も異なり,異動とともに終了
 DB技術(かつてはHadoopも)の検討経験者もいた
 が,基盤としての検証がほとんどで活用経験が少ない.
 基盤の立ち上げ
 メモリをたくさん積んだマシンを用意してRに一度寄せる
 処理コードを git(lab) に載せて再現できるように(Reproducible Analytics)
初期アーキテクチャ
 ESXi
 docker(0.9ぐらいの頃)
 gitlab / rstudio
 Jenkins + Rmd でレポート
苦難(?)の歴史 2/4
 中心的なデータ
 Internet 計測データ
 Xflow データ
 tweet や web access データ
 オンメモリ処理だけじゃ苦しくなってきた
 データ取得組織からデータ授受すればいいと思っていたが,意外とやってると
ころなかった
 データ収集から可視化までひととおり動く環境を作って見せる必要が発生
 Elasticsearch を使ってみることにした
 Kibana が幹部陣に見せるには好評
 サービス側でいろいろいじれる
Elasticsearch 採用時のアーキテクチャ
 CoreOS
 docker
 rabbitmq / Elasticsearch-Kibana / logstash
 rstudio で解析
苦難(?)の歴史 3/4
 Kibana のダッシュボードが属人的に高度化
 Elasticsearch の大規模運用が意外とたいへん
 Elasticsearch/Lucene クエリが独特
 もう少し「固い」基盤を使いたい
 Hadoop 採用に至る
 container 上で動くもの,クラウドにも持っていけるもの,の観点で HDP 採用
 CoreOS
 Docker w/ swarm
 Ambari / Hadoop (HDP) / Kafka / Elasticsearch-Kibana
 presto
 redash / metabase
 rstudio / jupyterhub
 gitlab / gitlab-ci
Python
TensorFlow
Chainer
hivemall
Kibana
Presto
EMC Isilon
HDFS
Elasticsearch
R Markdown
/
Shiny
Hive
Connector
in Presto
Queue
File
Hive
Hadoop
ES-
Hadoop
MySQL/Postgr
eSQL
RDB
Connector
metabase
R
(Jenkins)
RPresto
Jupyter
Ambari
Spark
or
RPresto
es-hadoop
Logstash
Spark-Streaming
Storm
kafka-connect-es
elastic
Package
PyHive
PyHive
kafka-connect-hdfs
Kafka
(Confluent)
kafka-connect-amqp
filebeat
kafka-connector in Presto
NFS
Que/Store Analysis VisualizationData Shipment
苦難(?)の歴史 4/4
 ???「商用基盤にしようか」私「え?」
 商用レベルの運用を検討することに
 HDP/HDF ラインセンス購入
 データパイプライン(logstash や kafka の流量監視,HA化等)の検討開始
 Spark (Structured) Streaming にして HDP/HDF に組み込む案
 k8s の High Availability, Self Healing 機能による自律性の獲得
NTT Communications CONFIDENTIAL
[Document ID] [Distribution number]
L2/L3SW
L2/L3SW
Isilon
(NFS/HDFS Storage)
Isilon
(NFS/HDFS Storage)
yokozuna
幕張DC 25台
大手町DC 4台
Testbed Network
kubem
amb01 〜 03
kafka01 〜 07
tesla01 〜 04core01 〜 03
note01 〜 03
coredev01 〜 07
Internet
Cloud
Compute
Engine
Cloud
Storage
Container
Engine
Cloud
Dataproc
Cloud
Pub/Sub
On-premise
multi bare metals
Internet
Install
Option 1
Option 2
Option 3
User
インフラデータの活用に向けて
インターネットの計測の取り組み
 traceroute 等のアクティブ測定を用いたもの
 経路情報(BGP)データセットを用いたもの
 特定組織を通過するトラフィックをパッシブ計測したもの.
↓
 アクティブ測定では網羅的な評価が困難.
 経路情報データセットでは測定点から離れるほど不正確に.
 パッシブデータは取得可能な組織が限られる.
 日本国内を対象とした分析データがほとんど存在しない.
20
◼ ISP wars
• 国内主要トランジット事業者7社と契約し、各ASに経路広告を実施
◼ 各ASのcustomer ASとして、多様な分析が可能
• マルチホーム環境でのトランジットの引きの強さの調査
✓ 広告経路を利用した下りtrafficの調査
• peer経路も含めた各ASの隣接関係の調査
✓ customer ASのみに公開される情報の利用
21
IIJ KDDI GIN OCN Pacnet
-> Telstra
Softbank
/ODN
full
full full full
full
full
計測基盤
フルルート
測定用広告経路
トランジット比較環境
• インターネット上の様々なコンテンツに対する利用者の体感品質を測定する
• さまざまな回線を、パートナー会社のスタッフ宅等に設置
• 2013年11月から台数、測定エリア、回線、システムを更改しながら測定中
• 現在国内300箇所.Probe x ISP は 500.日々の計測数は20万程度.
internet
各ISP
一般家庭
プログラム配布
データ収集
データ分析・
可視化
NTTコム with パートナー会社
測定サイト①
他社回線
測定サイト②
・・・
測定端末の配布・回収測定に関する問い合わせ、
状況・契約確認等々
データ測定
回線契約・設
置・支払い
端末設定・状況確認・謝礼支払い等々
+NTTコムビル
でも測定
空いている
ポートを利用
OpenBlocks
101(W) x 142.1(D) x 41(H) ゴム足含まず
測定機器と
測定ソフト
22
インターネット計測システム
OCN+他社ISP(10以上)
フレッツ光+他社回線
Internet
測定サイト①
測定サイト②
Measure
Cloud n(Public Cloud)
Collector1 – 6
(fluentd)
Controller1-2 (Python)
db1(MySQL)
Queue1 – 3
(Kafka)
……
Collect
Wrangling
Language
Storage(NFS+HDFS)
@Makuhari, Otemachi
Core01-XX
@Makuhari, Otemachi
Wget LTSV
Ping Raw Log
Probe Master
@hive
Elasticsearch
Probe
Datamart
@hive
Wget Raw Log
Ping LTSV
Queue1 – 3
(Kafka)
Probe Attribute
@MySQL
SQL-Based OSS BI
Analyze
Ingest
Spark Streaming
Gitlab CI
Fluentd
…
rsync
Python
HiveQL
R
R
23
LB
Kibana
Control
Transfer
全体構成
計測状況
品質計測結果
 スループットと遅延でグラフ上にプロット.
 ひとつの点がひとつの計測器によるひとつ
のISPの計測結果を表わす.
 遅延が小さいほどスループットは高い傾向
はあるが,ばらつきは大きい.
x軸:平均遅延
y軸:最悪スループット
大きさ:データ数
•150M×300台/day(raw) 30TB
•500MB/day(変換後json/ltsv) 10TB
Windows Update での CDN 利用状況
from Akamai Cache
from Level3
from LimeLight
from Microsoft
from Akamai Transit
Windows10
▽
from Other
マルチCDNから自前化?
インターネットの計測
 インターネットは成長を続けている
 変化の中でうまく波に乗れたか,乗り遅れたかで明暗がわかれることも
 ハイパージャイアントのデータ寡占化が進む中,何かできないか?
インフラ運用で得られる主なデータ
計測系データ
•Flow / DPI / Capture
•どこからどこへ通信がされているか.
•サンプリング・識別後データ・生データ.
•汎用性はあるが全体で取ると量が膨大.装置負荷も高い.
•Application Log / Syslog
•装置ログ・サーバログ.
•粒度がバラバラ.非構造化.
•SNMP/MIB/Telemetry
•装置が持つ統計値
•汎用性は高いが,装置の接続構造がわからないと扱いが困難.
•Active Measurement / Probe
•実際にパケットを投げてみた結果
•ブラックボックステスト.他社設備も含めた結果が得られる.
•測定計画が自明ではない.
教師系データ
•網構成情報
•近年は論理構成がダイナミックに変化することも多く,必ずしも事前に与
えられない.
•故障・障害情報
•サービスによって粒度がバラバラ.
•場合によっては時期によって異なる場合も.
•インフラの組み換えも頻繁に行うため,学習データとしての単純な利用は
困難.
28
運用高度化の
取り組み
運用者のふるまい
• 障害に気付く
• チケット・アラート / ユーザ反応
• 障害箇所を探す
• データによる切り分け / 追加での計測
• 原因を探る
• 装置ログ / 追加での計測
• アクション
• 交換・再起動
• 接続先への連絡
複数ドメインやレイヤをまたぐことが多い
• ひとつひとつ解いても使い物になりにくい.
• データが足りない
• なにか起きた時に追加データを取る必要.
• 教師データが足りない
• 構成情報や障害情報が不十分.
障害時のWebアクセスの可視化
周期性を持つデータの異常検知
元データ 周期成分分解 + 異常検知
周期成分
周期成分を取り除いたデータに対して確率を求める
運用の高度化
 可視化するだけでも意味がある領域は結構ある
 高度なデータサイエンス手法の適用前にまずはデータを扱えるように
 インフラじゃないデータとの突合により得られるものも多い
 必ずしも運用目的とは限らない.ウェブアクセスとネットワーク品質,とか.
 自分達の強みでお客さまに貢献できるところを探している.
今後の課題
NTTコミュニケーションにおける
データ解析の主要な目的
インターネットの変化を捉
えた意志決定
•主要通信の運び手がキャリ
アからITジャイアントに.
•サービス開発,設備投資を
適切に行うことが困難に.
•どこに回線を増設するか,
データセンタを配置するか.
Infrastructure Operation
Company として
•自動化やコスト削減.品質
向上等きめ細かなサポート.
•自営インフラの効率化.
•アウトソースされたエンタ
プライズNW・エッジNWの
運用効率化.付加価値生成.
新たなサービスを産み出す
•CDN / DDoS / SeCaaS w/
VxF基盤 / Data解析基盤
•領域・組織横断で連携した
意志決定を容易に,データ
ドリブンで実施する.
•解析基盤そのものの外販
34
今後の課題
 データサイエンスチームとしての課題
 基盤人材不足→外注を併用
 アナリストはいるがコンサルタントが足りない→ドメイン知識を磨く
 R/SQL は書けるが CI/Stream のようなシステムコードが苦手→頑張る?
 社内での活用から社外での活用に向けて
 強みを発揮できるところで暗黙知を形式知に
 運用分野等,社内できっちり使って社外展開を
 KPIを見ながらサービスを改良できる意志決定に

More Related Content

PDF
データ分析基盤について
PDF
グループ会社を巻き込んで勉強会をやってみるには
PDF
KafkaとAWS Kinesisの比較
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PPTX
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
PDF
Kafka Connect:Iceberg Sink Connectorを使ってみる
PDF
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021
データ分析基盤について
グループ会社を巻き込んで勉強会をやってみるには
KafkaとAWS Kinesisの比較
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Kafka Connect:Iceberg Sink Connectorを使ってみる
Apache Arrow Flight – ビッグデータ用高速データ転送フレームワーク #dbts2021

What's hot (20)

PPTX
Power BI チュートリアル 導入・初級編
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
PDF
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
PDF
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
PPTX
Semi-Supervised SVM
PPTX
Delta lakesummary
PDF
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
PPTX
Snowflake Architecture.pptx
PDF
What's New in MySQL 5.7 Replication
PDF
Git Flowを運用するために
PDF
Apache spark 2.3 and beyond
PPTX
Apache Ignite vs Alluxio: Memory Speed Big Data Analytics
PDF
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
PPTX
マルチクラウドDWH(Snowflake)のすすめ
PDF
Iceberg + Alluxio for Fast Data Analytics
PDF
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
PDF
PostgreSQL: XID周回問題に潜む別の問題
PDF
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
PPTX
Ceph アーキテクチャ概説
PDF
Hadoopのシステム設計・運用のポイント
Power BI チュートリアル 導入・初級編
Apache Hadoop YARNとマルチテナントにおけるリソース管理
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Semi-Supervised SVM
Delta lakesummary
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
Snowflake Architecture.pptx
What's New in MySQL 5.7 Replication
Git Flowを運用するために
Apache spark 2.3 and beyond
Apache Ignite vs Alluxio: Memory Speed Big Data Analytics
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
マルチクラウドDWH(Snowflake)のすすめ
Iceberg + Alluxio for Fast Data Analytics
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
PostgreSQL: XID周回問題に潜む別の問題
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
Ceph アーキテクチャ概説
Hadoopのシステム設計・運用のポイント
Ad

Similar to NTT Communications' Initiatives to Utilize Infrastructure Data (20)

PPTX
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
[de:code 2019 振り返り Night!] Data Platform
PDF
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
PDF
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
PPTX
intra-mart Accel series 2024 Spring updates
PPTX
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
PPTX
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
PDF
Beginner must-see! A future that can be opened by learning Hadoop
PDF
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
PDF
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
PDF
Spark SQL - The internal -
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PPTX
IoTデバイスデータ収集の難しい点
PDF
Microsoft の深層学習への取り組み
PDF
クラウド時代のOpenFlow/SDNを活用したインフラストラクチャの実現 ~ネットワーク仮想化ソリューションのご紹介~
PDF
20240725_BigData_JAWS資料_大規模な通信制御信号処理の環境下におけるAthenaのパフォーマンス比較.pdf
PPT
インタリオカンファレンス案内(修正版)3
PDF
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
[de:code 2019 振り返り Night!] Data Platform
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
ONIC2017 プログラマブル・データプレーン時代に向けた ネットワーク・オペレーションスタック
intra-mart Accel series 2024 Spring updates
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Beginner must-see! A future that can be opened by learning Hadoop
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
日本語における自然言語解析とその応用 〜COTOHA VA & API〜
Spark SQL - The internal -
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
IoTデバイスデータ収集の難しい点
Microsoft の深層学習への取り組み
クラウド時代のOpenFlow/SDNを活用したインフラストラクチャの実現 ~ネットワーク仮想化ソリューションのご紹介~
20240725_BigData_JAWS資料_大規模な通信制御信号処理の環境下におけるAthenaのパフォーマンス比較.pdf
インタリオカンファレンス案内(修正版)3
JAWS-UG広島 - 2019-07-12 - 金融ビッグデータを守るリソースポリシー実例
Ad

More from DataWorks Summit (20)

PPTX
Data Science Crash Course
PPTX
Floating on a RAFT: HBase Durability with Apache Ratis
PPTX
Tracking Crime as It Occurs with Apache Phoenix, Apache HBase and Apache NiFi
PDF
HBase Tales From the Trenches - Short stories about most common HBase operati...
PPTX
Optimizing Geospatial Operations with Server-side Programming in HBase and Ac...
PPTX
Managing the Dewey Decimal System
PPTX
Practical NoSQL: Accumulo's dirlist Example
PPTX
HBase Global Indexing to support large-scale data ingestion at Uber
PPTX
Scaling Cloud-Scale Translytics Workloads with Omid and Phoenix
PPTX
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFi
PPTX
Supporting Apache HBase : Troubleshooting and Supportability Improvements
PPTX
Security Framework for Multitenant Architecture
PDF
Presto: Optimizing Performance of SQL-on-Anything Engine
PPTX
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
PPTX
Extending Twitter's Data Platform to Google Cloud
PPTX
Event-Driven Messaging and Actions using Apache Flink and Apache NiFi
PPTX
Securing Data in Hybrid on-premise and Cloud Environments using Apache Ranger
PPTX
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
PDF
Computer Vision: Coming to a Store Near You
PPTX
Big Data Genomics: Clustering Billions of DNA Sequences with Apache Spark
Data Science Crash Course
Floating on a RAFT: HBase Durability with Apache Ratis
Tracking Crime as It Occurs with Apache Phoenix, Apache HBase and Apache NiFi
HBase Tales From the Trenches - Short stories about most common HBase operati...
Optimizing Geospatial Operations with Server-side Programming in HBase and Ac...
Managing the Dewey Decimal System
Practical NoSQL: Accumulo's dirlist Example
HBase Global Indexing to support large-scale data ingestion at Uber
Scaling Cloud-Scale Translytics Workloads with Omid and Phoenix
Building the High Speed Cybersecurity Data Pipeline Using Apache NiFi
Supporting Apache HBase : Troubleshooting and Supportability Improvements
Security Framework for Multitenant Architecture
Presto: Optimizing Performance of SQL-on-Anything Engine
Introducing MlFlow: An Open Source Platform for the Machine Learning Lifecycl...
Extending Twitter's Data Platform to Google Cloud
Event-Driven Messaging and Actions using Apache Flink and Apache NiFi
Securing Data in Hybrid on-premise and Cloud Environments using Apache Ranger
Big Data Meets NVM: Accelerating Big Data Processing with Non-Volatile Memory...
Computer Vision: Coming to a Store Near You
Big Data Genomics: Clustering Billions of DNA Sequences with Apache Spark

NTT Communications' Initiatives to Utilize Infrastructure Data