Submit Search
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
2 likes
1,032 views
H
Hadoop / Spark Conference Japan
Hadoop / Spark Conference Japan 2019 『機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)』 小野寺 誠(マップアール・テクノロジーズ株式会社)
Technology
Read more
1 of 52
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
More Related Content
PDF
Kafka・Storm・ZooKeeperの認証と認可について #kafkajp
Yahoo!デベロッパーネットワーク
PDF
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
PPTX
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
PDF
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
NTT DATA Technology & Innovation
PPTX
Apache Avro vs Protocol Buffers
Seiya Mizuno
PPTX
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
Miki Shimogai
PPTX
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
PPTX
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
NTT DATA Technology & Innovation
Kafka・Storm・ZooKeeperの認証と認可について #kafkajp
Yahoo!デベロッパーネットワーク
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
NTT DATA Technology & Innovation
Apache Avro vs Protocol Buffers
Seiya Mizuno
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
Miki Shimogai
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
NTT DATA Technology & Innovation
What's hot
(20)
PDF
大規模ソーシャルゲーム開発から学んだPHP&MySQL実践テクニック
infinite_loop
PDF
性能測定道 事始め編
Yuto Hayamizu
PDF
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Takahiko Ito
PDF
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
NTT DATA Technology & Innovation
PDF
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
PPT
整数列圧縮
JAVA DM
PDF
トランザクション処理可能な分散DB 「YugabyteDB」入門(Open Source Conference 2022 Online/Fukuoka 発...
NTT DATA Technology & Innovation
PDF
Hive on Tezのベストプラクティス
Yahoo!デベロッパーネットワーク
PDF
Cephのベンチマークをしました
OSSラボ株式会社
PDF
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
PDF
なかったらINSERTしたいし、あるならロック取りたいやん?
ichirin2501
PDF
Data platformdesign
Ryoma Nagata
PDF
[B31,32]SQL Server Internal と パフォーマンスチューニング by Yukio Kumazawa
Insight Technology, Inc.
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
PDF
DBパフォーマンスチューニングの基礎:インデックス入門
Akira Shimosako
PDF
検索基盤Qass
takahito takabayashi
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
PDF
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
NTT DATA Technology & Innovation
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
Apache NiFi の紹介 #streamctjp
Yahoo!デベロッパーネットワーク
大規模ソーシャルゲーム開発から学んだPHP&MySQL実践テクニック
infinite_loop
性能測定道 事始め編
Yuto Hayamizu
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Takahiko Ito
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
NTT DATA Technology & Innovation
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
整数列圧縮
JAVA DM
トランザクション処理可能な分散DB 「YugabyteDB」入門(Open Source Conference 2022 Online/Fukuoka 発...
NTT DATA Technology & Innovation
Hive on Tezのベストプラクティス
Yahoo!デベロッパーネットワーク
Cephのベンチマークをしました
OSSラボ株式会社
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
なかったらINSERTしたいし、あるならロック取りたいやん?
ichirin2501
Data platformdesign
Ryoma Nagata
[B31,32]SQL Server Internal と パフォーマンスチューニング by Yukio Kumazawa
Insight Technology, Inc.
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
DBパフォーマンスチューニングの基礎:インデックス入門
Akira Shimosako
検索基盤Qass
takahito takabayashi
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
NTT DATA Technology & Innovation
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
Apache NiFi の紹介 #streamctjp
Yahoo!デベロッパーネットワーク
Ad
Similar to 機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
(20)
PDF
tut_pfi_2012
Preferred Networks
PDF
Monitoring Intelligence
netopscoding
PDF
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
PDF
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
Koichi Hamada
PDF
時系列分析による異常検知入門
Yohei Sato
PDF
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Web Services Japan
PDF
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
PDF
Fighting advanced malware using machine learning (Japanese)
FFRI, Inc.
PDF
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
Koichi Hamada
PDF
Apache Spark on Azure
Tusyoshi Matsuzaki
PPT
Big data解析ビジネス
Mie Mori
PDF
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
MapR Technologies Japan
PDF
ビッグデータ
Shigeru Kishikawa
PDF
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
PDF
異常検知 - 何を探すかよく分かっていないものを見つける方法
MapR Technologies Japan
PDF
MapReduce解説
Shunsuke Aihara
PDF
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
The Japan DataScientist Society
PDF
Our recent activities on cybersecurity researches using AI (Nov. 20, 2020)
Takeshi Takahashi
PDF
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
Takaya Nakanishi
PPTX
東北大学AIE - 機械学習中級編とAzure紹介
Daiyu Hatakeyama
tut_pfi_2012
Preferred Networks
Monitoring Intelligence
netopscoding
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
Koichi Hamada
時系列分析による異常検知入門
Yohei Sato
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Web Services Japan
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
Fighting advanced malware using machine learning (Japanese)
FFRI, Inc.
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
Koichi Hamada
Apache Spark on Azure
Tusyoshi Matsuzaki
Big data解析ビジネス
Mie Mori
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
MapR Technologies Japan
ビッグデータ
Shigeru Kishikawa
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
異常検知 - 何を探すかよく分かっていないものを見つける方法
MapR Technologies Japan
MapReduce解説
Shunsuke Aihara
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
The Japan DataScientist Society
Our recent activities on cybersecurity researches using AI (Nov. 20, 2020)
Takeshi Takahashi
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
Takaya Nakanishi
東北大学AIE - 機械学習中級編とAzure紹介
Daiyu Hatakeyama
Ad
More from Hadoop / Spark Conference Japan
(16)
PDF
What makes Apache Spark?
Hadoop / Spark Conference Japan
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
PDF
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan
PDF
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Hadoop / Spark Conference Japan
PDF
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
Hadoop / Spark Conference Japan
PDF
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
PDF
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Hadoop / Spark Conference Japan
PDF
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan
PDF
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
Hadoop / Spark Conference Japan
PDF
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
PDF
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
PDF
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Hadoop / Spark Conference Japan
PDF
The Future of Apache Spark
Hadoop / Spark Conference Japan
PDF
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
What makes Apache Spark?
Hadoop / Spark Conference Japan
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Hadoop / Spark Conference Japan
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
Hadoop / Spark Conference Japan
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Hadoop / Spark Conference Japan
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
Hadoop / Spark Conference Japan
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Hadoop / Spark Conference Japan
The Future of Apache Spark
Hadoop / Spark Conference Japan
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
1.
© 2019 MapR
TechnologiesMapR Confidential 1 2019/3/14 マップアール・テクノロジーズ株式会社 機械学習、グラフ分析、SQLによる サイバー攻撃対策事例(金融業界)
2.
© 2019 MapR
TechnologiesMapR Confidential 2 自己紹介 小野寺 誠 (おのでら まこと) 2017年3月にMapRに入社。セールスディレクター。 主に、機械学習、ディープラーニングに注力 MapR入社前は、外資系総合ITベンダーやネットワークセキュリティベンダー でデータベース製品の営業や金融業界担当のアカウント営業を担当
3.
© 2019 MapR
TechnologiesMapR Confidential 3 MapRはデータ主導のイノベーションを加速。 - 分析からAIまでの全範囲のワークロード - エッジファースト、クラウド、コンテナ、 データネイティブ - オープンで適応的 - シングルセキュリティモデル - ミッションクリティカルな信頼性 - MapRを使用すると、すべてのデータを - 簡単に作成、管理、および編成すること ができます。 MapRは最先端のAIおよび分析に最適化された「データウェア」です。
4.
© 2019 MapR
TechnologiesMapR Confidential 4 サイバー攻撃対策について
5.
© 2019 MapR
TechnologiesMapR Confidential 5 皆様の会社がサイバー攻撃を受けた時の 被害額は、どのくらいになるでしょうか?
6.
© 2019 MapR
TechnologiesMapR Confidential 6 情報セキュリティ10大脅威 順位 脅威の内容 1位 (1位) 標的型攻撃による被害 2位 (3位) ビジネスメール詐欺による被害 3位 (2位) ランサムウェアによる被害 4位 (ー) サプライチェーンの弱点を悪用 した攻撃の高まり 5位 (8位) 内部不正による情報漏えい 順位 脅威の内容 6位 (9位) サービス妨害攻撃によるサービ スの停止 7位 (6位) インターネットサービスからの 個人情報の窃取 8位 (7位) IoT機器の脆弱性の顕在化 9位 (4位) 脆弱性対策情報の公開に伴う悪 用増加 10位 (12位) 不注意による情報漏えい ():昨年の順位 IPA 情報セキュリティ10大脅威2019 https://www.ipa.go.jp/security/vuln/10threats2019.html をもとに作成
7.
© 2019 MapR
TechnologiesMapR Confidential 7 標的型メール攻撃の件数推移 平成31年3月7日 警察庁発表 平成30年におけるサイバー空間をめぐる脅威の情勢等について
8.
© 2019 MapR
TechnologiesMapR Confidential 8 サイバー攻撃から情報流出までのメカニズム ファイヤー ウォール ファイヤー ウォール 1 侵入とバックドア(RAT)設置 コマンド &コントロールサーバー 2 感染拡大 権限昇格 & 情報搾取 3 管理者 ユーザの特権 2,3 の繰り返し4 情報漏えい5 クレジットカード情報 各種個人情報
9.
© 2019 MapR
TechnologiesMapR Confidential 9 攻撃者の視点:サイバーキルチェーン 偵察 武器化 配送 (デリバリ) 攻撃 (エクスプロイト) インス トール 遠隔操作 (C&C) 目的の実行侵入拡大
10.
© 2019 MapR
TechnologiesMapR Confidential 10 インシデントレスポンスとフォレンジック調査 準備 検知 分析 封じ込め 根絶 復旧 事件後 の対応 教訓 ログ保管 SIEM フォレンジック調査
11.
© 2019 MapR
TechnologiesMapR Confidential 11 SIEM(Security Information and Event Management) アプリケ ーション WAF IDS IPS OS スイッチ ルーター コンプライア ンス リアルタイム アラート レポート (ポリシー遵守 状況など) イベント, ログ & フロー 収集&正規化 統合&相関 セキュリティイベントやログを一元的に管理・分析。 不正アクセスの痕跡や兆候をリアルタイムに検知、分析、可視化する製品。 ファイヤー ウォール SIEMの範囲 DNSAD
12.
© 2019 MapR
TechnologiesMapR Confidential 12 セキュリティログ分析の実態 IDS FW IDS DMZ 本店・営業店ネットワーク データセンター インターネット バンキング 融資 コールセンター … WAF FW 顧客 PC タブレット モバイル IDS グループ会社ネットワーク FW IDS パートナー会社ネットワーク FW 行員 グループ会社 社員 パートナー 社員 SIEM システムが分断されているため攻撃を受けた時の影響範囲や証跡調査が難しい。 = ユーザ、アプリ、シスログ、ネット ワーク、マシンのログ・ファイル 分断された ツール SIEM 見落とされた ログ・ファイル 見落とされた ログ・ファイル 見落とされた ログ・ファイル
13.
© 2019 MapR
TechnologiesMapR Confidential 13 SIEMを補完するビッグデータテクノロジー MapR-DB: time series, structured data MapR-FS: emails, blogs, tweets, log files, unstructured data NFS/Sqoop/Flume: pure log files Agile, self- service data exploration ETL into operational reporting formats (e.g., Parquet) Multi-tenancy: job/data placement control, volumes Access controls: file, table, column, column family, doc, sub- doc levels ソース Auditing: compliance, analyze user accesses Snapshots: track data lineage and history Table Replication: global multi-master, business continuity MapR Converged Data Platform Enterprise Storage Database Event Streaming MapR-FS MapR-DB MapR Streams MapR Streams: real-time event data SIEM リアル タイム 検知 DMZ (公開系) データ センター …
14.
© 2019 MapR
TechnologiesMapR Confidential 14 セキュリティ分析にビッグデータテクノロジーが必要な理由 包括的なセキュリティビュー システム横断的なログやトラフィック情報の取得 履歴データの蓄積 リアルタイムな脅威の検知 ログやトラフィック情報の相関分析 機械学習他さまざまな手法による異常検知 フォレンジック調査にかかる時間の短縮 セキュリティログなどの情報提供依頼への対応
15.
© 2019 MapR
TechnologiesMapR Confidential 15 ある金融業界のお客様事例 ネットワーク異常検知 •ネットワーク機器から発生するトラフィックフローを収集分析 •1ファイルあたり10,000行、1MB •1秒あたり2ファイル •1日あたり172,800ファイル、172GB •日々成長!
16.
© 2019 MapR
TechnologiesMapR Confidential 16 • Flow:機械学習(Spark MLlib),グラフ分析(GraphX),SQL(Drill/Hadoop) • HTTP:SQL(Drill/Hadoop) • DNS:SQL(Drill/Hadoop) 以下の3つの情報の分析を実施。
17.
© 2019 MapR
TechnologiesMapR Confidential 17 ハイレベルダイヤグラム
18.
© 2019 MapR
TechnologiesMapR Confidential 18 NetFlowのフロー情報の分析 Drill
19.
© 2019 MapR
TechnologiesMapR Confidential 19 IPFIXのフロー情報の分析 FireEye
20.
© 2019 MapR
TechnologiesMapR Confidential 20 このログデータからどのように意味を解釈できるでしょうか? NetFlowのログのサンプル 95.167.77.37|198.55.195.113|0.0.0.0|5|5|4|240|142101 1880|1421011873|59256|23|2|6|0|12389|14495|0|0 218.77.79.38|198.55.197.48|0.0.0.0|5|5|1|40|14210118 83|1421011873|45713|8081|2|6|0|4134|14495|0|0 50.116.194.23|206.200.253.71|0.0.0.0|5|5|9|3811|1421 011877|1421011873|443|61063|27|6|0|6336|14495|0|0 206.200.253.71|50.116.194.23|0.0.0.0|5|5|9|2039|1421 011877|1421011873|61063|443|26|6|0|14495|6336|0|0 …
21.
© 2019 MapR
TechnologiesMapR Confidential 21 Flow情報 • flowStartNanoseconds • flowEndNanoseconds • sourceIPv4Address • destinationIPv4Address • octetDeltaCount • packetDeltaCount • droppedOctetDeltaCount • droppedPacketDeltaCount • sourceTransportPort • destinationTransportPort • ingressInterface • egressInterface • npulseStreamId • protocolIdentifier • flowEndReason • fragmentFlags • tcpControlBits • bitflowDirection • ipClassOfService • basicList
22.
© 2019 MapR
TechnologiesMapR Confidential 22 念のため、機械学習の基礎、、、
23.
© 2019 MapR
TechnologiesMapR Confidential 23 機械学習の実施イメージ 学習データ 新しいデータ モデル開発 モデル利用 予測 パターン認識内包されたパターン パターンの探索・抽出 学習アルゴリム
24.
© 2019 MapR
TechnologiesMapR Confidential 24 仮説とモデル① 仮説1.ビールの売上は、暑い日や通行人が多い時や晴天の時に沢山売れる。 仮説2.住宅価格は、部屋数と敷地面積が大きいほど高額になる 仮説1のモデル例. ビールの売上 = 2 x 気温 + 3 x 通行人 + 1.5 x 天気 仮説2のモデル例 住宅価格 = 5 x 部屋数 + 3 x フロアー数 目的変数 ターゲット 特徴、説明変数パラメータ(算出)
25.
© 2019 MapR
TechnologiesMapR Confidential 25 仮説とモデル② 仮説3.突然、巨額取引をしたり人、頻繁にカードを使ったり、新しい加盟店を利用し始める 人は詐欺が多い 仮説3のモデル例 不正取引確率 = Sigmoid(z) z= 3 x 取引金額比 + 4 x 取引件数 + 2 x 新規加盟店比率 Sigmoid = 1/(1+e-z) 0 0.5 1 不正取引 正常取引 不正取引確率 z
26.
© 2019 MapR
TechnologiesMapR Confidential 26 住宅価格の例 サイズ(㎡) x1 部屋数 x2 駅徒歩(分) x3 築年数 x4 価格(M) y 理論価格 y 100 5 10 30 40 120 4 20 4 50 80 3 5 15 80 150 8 8 10 100 110 6 3 20 ?⇒要予測 … … … 教師データ
27.
© 2019 MapR
TechnologiesMapR Confidential 27 主成分分析 射影誤差を最小化するようなベクトルを探すことにより次元削減可能。 情報を集約・合成。以下は、2次元を1次元にした例。 射影誤差 劇場への観客動員数 DVD 売上 枚数 映画の人気 分散が最大
28.
© 2019 MapR
TechnologiesMapR Confidential 28 主成分分析(3次元→2次元) 3次元 U V U V 2次元 分散が最大 分散が2番目に大きい
29.
© 2019 MapR
TechnologiesMapR Confidential 29 異常検知への応用 オリジナル 再構築後 差分
30.
© 2019 MapR
TechnologiesMapR Confidential 30 K-Meansクラスタリングのイメージ 特徴(例): ・保有する金融商品 ・預金量 ・住宅ローンの残高 ・デビットカードの使用頻度 ・オンラインバンキングの使用頻度 ・支店への訪問頻度 ◇顧客セグメンテーション(銀行)
31.
© 2019 MapR
TechnologiesMapR Confidential 31 Flow分析 1日に約150百万のフローを観測。 「一定期間内に送信元IPがどのくらいの異なるポートに接続するか」などが重要。 10分間隔で以下のような統計を収集 Number of Unique Destination IPs Number of Unique Destination Ports Number of Unique Protocols Used Number of Unique End Reason Maximum Duration of a Flow Number of Flows Number of Bytes Number of TCP Flows Number of UDP Flows Number of ICMP Flows Number of other protocol Flows Number of Internal Flows Number of Internal Bytes Number of Internal to External Flows Number of Internal to External Bytes 上記の統計値(最小値、25パーセンタイル値、中央値、平均値、75パーセンタイル値、 最大値)を算出して、標準化を実施。これらが機械学習の特徴になる
32.
© 2019 MapR
TechnologiesMapR Confidential 32 Number of Bytes のヒストグラム
33.
© 2019 MapR
TechnologiesMapR Confidential 33 ヒストグラムの変換について
34.
© 2019 MapR
TechnologiesMapR Confidential 34 主成分分析の次元とエラーについて 15次元を最終的に9次元に。次元圧縮前のオリジナルデータと復元後のデータを比較し て大きな差異がある時に異常を検知。 次元 誤 差
35.
© 2019 MapR
TechnologiesMapR Confidential 35 K-Meansクラスタリングで分析結果 重心の数と誤差でプロット。主成分分析と同じ規模の誤差になるように重心数を調整 0 50,000 100,000 150,000 200,000 250,000 0 20 40 60 80 100 120 K-Means 誤 差 重心の数
36.
© 2019 MapR
TechnologiesMapR Confidential 36 異常の考え方 20分ごとに、主成分分析とK-Meansクラスタリングを実施して異常検出。 1回の異常と宣言できないため、一定期間内に5回連続した場合に異常とした。
37.
© 2019 MapR
TechnologiesMapR Confidential 37 機械学習以外のFLOW分析について グラフ分析(GraphX) • ページランク • 連結コンポーネント分析 SQL(Drill/Hadoop) • 不審な周期的なイベントの検知 • 不審な長期間通信の検知
38.
© 2019 MapR
TechnologiesMapR Confidential 38 グラフ分析について グラフは頂点と頂点を結ぶ辺で成立。頂点がオブジェクトで、辺がオブジェクト間の関係。 小野寺 平林 フォロー 頂点 頂点 辺 Webページ:頂点 リンク:辺
39.
© 2019 MapR
TechnologiesMapR Confidential 39 ページランクについて ページランクは、Googleの検索結果のランキングを決めるためのアルゴリズム。 以下のようなサイトからのリンクがあるとページランクは高かくなるという原理。 ・より数多くのウェブサイト ・よりページランクの高いウェブサイト ・よりリンク先を厳選したウェブサイト GraphXを利用しネットワークのトラフィック情報に適用。 IPアドレスのページランクのスコアが翌日から 大幅に変更された場合異常と判断。 特に、低いランクのノードが悪意のある目的のために 内部的にデータを収集し、突然ランクアップする可能性があります。 https://ja.wikipedia.org/wiki/ページランク
40.
© 2019 MapR
TechnologiesMapR Confidential 40 連結コンポーネント分析 Spark Graph Xを使用。毎日20,000以上の内部IPアドレス間のトラフィックが、 約200の巨大な連結コンポーネントに。 ノードが接続先のIPアドレスを変更して接続することは極めて少なく異常を検知。 連結コンポーネント 連結コンポーネント
41.
© 2019 MapR
TechnologiesMapR Confidential 41 SQL:不審な長期間通信の検知 Drillを利用して、CREATE TABLE ~ AS SELECT …で表として作成。 #1.以下の内容でグループ化 sourceIPv4Address, destinationIPv4Address, sourceTransportPort, destinationTransportPort, protocolIdentifier #2. 以下の条件で絞り込み flowEndNanoseconds – flowStartNanosecondsが一定数以上 #3.以下の値を取得 flowStartNanosecondsの平均値, sourceIPv4Address,destinationIPv4Address, sourceTransportPort,destinationTransportPort, protocolIdentifier, (flowEndNanoseconds – flowStartNanoseconds)の合計値, octetDeltaCountの合計値
42.
© 2019 MapR
TechnologiesMapR Confidential 42 SQL:不審な周期的なイベントの検知 マルウェアとC&Cサーバーとの通信と、メールクライアントがメールサーバーに ポーリングする通信は似ているため、悪意のある通信を検知することは難しい。 C&Cサーバーと通信するサーバーが多くのサーバーと接続することは、ほとんどないため、 多くの内部サーバーに接続するIPアドレスについては問題ないものとみなし誤検知を削減。 Drillを使用して、接続状況を可視化。
43.
© 2019 MapR
TechnologiesMapR Confidential 43 以下の3つの情報の分析を実施。 • Flow:機械学習(Spark MLlib),グラフ分析(GraphX),SQL(Drill/Hadoop) • HTTP:SQL(Drill/Hadoop) • DNS:SQL(Drill/Hadoop)
44.
© 2019 MapR
TechnologiesMapR Confidential 44 HTTP情報 • observationTimeMilliseconds • sourceIPv4Address • destinationIPv4Address • sourceTransportPort • destinationTransportPort • protocolIdentifier • npulseStreamId • HTTPRequestURL • HTTPRequestHost • HTTPRequestMethod • HTTPRequestAgent • HTTPResponseType • HTTPRequestReferer • HTTPResponseCode • basicList Fireeye PXボックスは、認識されたHTTPトラフィックからHTTPヘッダー情報を再構築 します。
45.
© 2019 MapR
TechnologiesMapR Confidential 45 HTTPの異常検知 HTTPは、お客様側で既に調査を実施しているため、単純なHTTPの異常検知を実施。 1.以下の内容でグループ化 sourceIPv4Address 2.以下の条件で絞り込み sourceTransportPort ≠80, sourceTransportPort≠443, HTTPRequestAgent is not null, sourceIPv4Address is not null, HTTPRequestAgent数が一定の範囲内 3.以下の値を取得 sourceIPv4Address, HTTPRequestAgent 数
46.
© 2019 MapR
TechnologiesMapR Confidential 46 以下の3つの情報の分析を実施。 • Flow:機械学習(Spark MLlib),グラフ分析(GraphX),SQL(Drill/Hadoop) • HTTP:SQL(Drill/Hadoop) • DNS:SQL(Drill/Hadoop)
47.
© 2019 MapR
TechnologiesMapR Confidential 47 DNS情報 • observationTimeMilliseconds • sourceIPv4Address • destinationIPv4Address • sourceTransportPort • destinationTransportPort • protocolIdentifier • npulseStreamId • dnsQName • dnsIPv4Address • dnsTTL Fireeye PXボックスはDNSトラフィックを再構築し、IPFIXトラフィックに詳細なDNS 情報を表示します。 以下に、DNSデータで使用可能なフィールドを示します。サイバー 犯罪者は、ドメイン名を隠して捜査から逃れようとするため、異常なDNSトラフィック を調べることは、重要な手法となります。
48.
© 2019 MapR
TechnologiesMapR Confidential 48 悪質なDNSクエリの検知 1日あたりのDNSクエリ数は200,000以上。既に、お客様側でDNSトンネリングなどへの 対策を実施済みであるため悪質なDNSクエリの検知に注力 #1.dnsQNameでグループ化 #2.以下の条件で絞り込み dnsQNameのサイズが一定の範囲, sourceTransportPort ≠53, dnsQName is not null, dnsQName not like ‘%companyname%’ , dnsQName not like '%arpa’, dnsQName not like '%amazonaws%’ , dnsQName not like ‘%COMPANYNAME%’ , dnsQName not like '%cloudfront%’ , dnsQName not like '%globenews%’, 3.以下の値を取得 sourceIPv4Addressの数, dnsQName
49.
© 2019 MapR
TechnologiesMapR Confidential 49 ダッシュボード XXX.XXX.XXX.XXX XXX.XXX.XXX.XXXXXX.XXX.XXX.XXXXXX.XXX.XXX.XXXXXX.XXX.XXX.XXX
50.
© 2019 MapR
TechnologiesMapR Confidential 50 サブネット間、ホスト間の接続
51.
© 2019 MapR
TechnologiesMapR Confidential 51 ご清聴ありがとうございました。
52.
© 2019 MapR
TechnologiesMapR Confidential 52
Editor's Notes
#5:
・本日は、サイバー攻撃対策です。 ITベンダーではなく、エンドユーザの方で、 セキュリティまたは、ネットワーク部門の方は手をあげていただけませんか。 更に、既にHadoop、Sparkなどのビッグデータテクノロジーを使っている方はいらっしゃいますか? ビッグデータを導入している部門の方も手をあげていただけませんか? 更に、セキュリティで導入している方はいらっしゃいますか?
#6:
あるセキュリティベンダーの2018年2月の調査レポートでは、世界全体で6000億ドル、日本円にして66兆円 世界GDPの約0.8%程度の被害総額になると言われてます。 2021年には世界全体で660兆円というレポートもあります。 また、GDPRに違反すると、企業の全世界売上の4%、または2000万ユーロ(約26億円)のいずれか高い方という非常に高額な制裁金が課される可能性があるのです。 マルウェアが侵入してから、検知するまでに平均146日かかる
#12:
各製品毎にコンソールを立ち上げるのは大変。 時系列やIPアドレス単位で集計して、それを横断的に参照したりできるから、便利。 相関が、、というのを抜きにしても便利 フロントエンドのWeb、アプリケーションサーバ、データベースの情報を突合させることで、トランザクション情報から全体的な利用状況の可視化も可能だ。
#14:
We can help by providing a converged data platform for your security log analytics that is scalable, enterprise grade, and supports not only your uses case today, but use cases for new attacks tomorrow.
#15:
リアルタイムな脅威の検出 - 対応するサービスチケットのない新しい管理者アカウントの作成 - ユーザーがある場所から物理的にログインし、別の場所のデータ資産にログインする - 重要なデータベースサーバーから転送されたデータ - ホストから指定されたIPへの大量のトラフィックの流れ - 珍しい時間にデータベースサーバーにアクセスする従業員 - 短いウィンドウ内で2つの異なる国からログインするユーザー フォレンジック調査時間の短縮 数か月後に複数からのセキュリティログを要求する調査 答えなければならない質問の種類: ある期間内に何が起こったのですか? どのように脅威が入ってきたか、どのように特定のIP /ユーザーと関連したか? どのくらいのデータが影響を受けましたか? これと同様なものは過去にどこかで発生していましたか?
#16:
NASDAQ
#25:
天気は、カテゴリ変数
#51:
The big picture and drill down capabilities