SlideShare a Scribd company logo
データ の位置づけ
- Hackathon から サービスになったら、取り組みたいコト -
畠山 大有 | Daiyu Hatakeyama
Architect && Software Engineer && Applied Data Scientist
Microsoft Japan
/dahatake
@dahatake
/in/dahatake
/dahatake
/dahatake
データが
ビジネスを動かす
新しい原動力になる
正解の無い世界へ
踏み込む
従業員 管理者
仮説の域を出にくい世界
顧客
Web /
Mobile
Operational
Store
IoT Device
Data Lake
Visualize
(Graph表現など)
API
Build ML
Model
Data
Warehouse
Data Catalog
Search
Streaming
Web /
Mobile
Operational
Store
IoT Device
Data Lake
Visualize
(Graph表現など)
API
Build ML
Model
Data
Warehouse
Data Catalog
Search
Streaming
アプリケーションが
ビジネスシナリオに沿っているのか?
その継続的な確認に
データという側面を追加できる
価値創造のために
仮説 (Goal)
データ (metrics)
Next Action
爆速
1. Goal (仮説)
KPI
測定 Metric
Customer Journey
Funnel
5. Experiment (実験)
データ分析
最初の一歩
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
日付
売上
= ここでの目的変数
UPC
商品コード
店舗
説明
コスト
カテゴリー
店舗名
など…
何が起こっているのか?
現状把握
なぜそれが発生したのか?
何の相関関係があるのか?
次に何をすればいい?
そのための予測は?
• 各店舗の売り上げは?
• 売れ筋トップ製品は何か?
• 売上最悪の店舗は何が原因?
• 次の四半期の売上は?
• 利益を上げるためにはどのような
ステップが考えられる?
何が起こっているのか?
現状把握
なぜそれが発生したのか?
何の相関関係があるのか?
次に何をすればいい?
そのための予測は?
訪日外客数データ
現状把握
現状把握
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
Excelがナレッジワークを変えてきた
Low-Code・No-Code 技術 現場のエキスパートが
現場でオートメーションを実現
コードを書かずとも出来るコトは多々ある!
まとめ
• ビジネス上の課題の仮説
• 文章化していること
• 例: 一昨年より実施している施策の売り上げ増への効果を知りたい
• 生データ
• 集計しないもの。計算はツールの方でいくらでも出来る
• データの意味・価値の分かる人の参画
• 丸投げできない
データの分析に必須な 3つの武器
日本が
Software と データ を自在に扱える
武器にすれば
無敵じゃね?😎
■参考ブログ記事
訪日外客数データで Power BI レポート作成(データクレンジング編) - Qiita
訪日外客数データで Power BI レポート作成(データ可視化 基本編) - Qiita
訪日外客数データで Power BI レポート作成(データ可視化 中級編) - Qiita
訪日外客数データで Power BI レポート作成(データ可視化 上級編) - Qiita
データ分析におけるデータ可視化の極意 - Qiita
■利用データ
・訪日外客数データ(出典:日本政府観光局)
訪日外客数・出国日本人数データ|統計・データ|日本政府観光局(JNTO)
・世界人口データ(出典:UNFPA 世界人口白書 2022 年版の統計より)
世界人口ランキング・国別順位(2022年版) (memorva.jp)
・外国為替公示相場ヒストリカルデータ(出展:みずほ銀行)
為替相場情報 | みずほ銀行 (mizuhobank.co.jp)
・訪日外国人の国内流動データ(出展:国土交通省)
総合的な交通体系を目指して:集計データファイル - 国土交通省 (mlit.go.jp)
テーブルリレーションイメージ
Step-by-Step Achievements スムーズな学習環境
 無料
 日本語対応
 ブラウザーのみでOK
ハンズオン環境も含めて
 ダウンロード可能なサンプルコード
 Product/Service, 技術レベル,
job role, などに応じたガイダンス
 Video, チュートリアル, ハンズオン
 スキルアップを促す
 ユーザー プロファイル毎に
カスタマイズ
www.microsoft.com/learn
www.microsoft.com/ja-jp/events
Invent with purpose.
Appendix.1
データ加工
• 何を意味しているのか?
• いつ、どこで、取得したのか?
• 入手漏れが無いのか?
• 項目同士に関連があるのか?
• 欠損や例外がどれだけ
含まれているのか?
「ゴミデータからは、
ゴミの結果しか生まれない」
日付
売上
= ここでの目的変数
UPC
商品コード
店舗
説明
コスト
カテゴリー
店舗名
など…
データ準備
クリーニング
DeviceID OEM Name SSD (GB)
CPU Clock
(GHz) Region OS Install Date
1 Hewlett Packard 500 3.2 US 12/12/2016
2 HP 1000 1233 US 05/02/2017
3 Hewlett-Packard 250 -7.8 USA 05/32/2017
4 hp 217 4.2 MEA 04/10/2016
5 Hewlet Packard NA 4.1 Latam 05/15/2087
6 DELL 250 0 Japan 03/13/2017
7 dell NULL 9.2 Japan 04-17-2016
8 “” 500 3.5 China 2015.02.141
9 Hewlett pakerd 500 2.8 China 3/2
答え: No… なぜなのか見ていきましょう
DeviceID
OEM Name
SSD (GB)
DeviceID OEM Name SSD (GB) …
1 Hewlett Packard 500 …
2 HP 1000 …
3 Hewlett-Packard 250 …
4 hp 217 …
5 Hewlet Packard NA …
6 DELL 250 …
7 dell NULL …
8 “” 500 …
9 Hewlett pakerd 500 …
目的: 不足値や一貫性の無い値 の是正
OS Install Date
OS Install Date
CPU Clock
OS Install Date
*
Region
…
CPU Clock
(GHz) Region OS Install Date
… 3.2 US 12/12/2016
… 1233 US 05/02/2017
… -7.8 USA 05/32/2017
… 4.2 MEA 04/10/2016
… 4.1 Latam 05/15/2087
… 0 Japan 03/13/2016
… 9.2 Japan 04-17-2016
… 3.5 China 2015.02.141
… 2.8 China 3/2
*注意: 範囲選択を注意して行わないと、モデルの安定性に影響がある
目的に応じて
データは加工される
データ可視化
1変数の解析
多変数の解析
予測
最適化・自動化
工程能力指数
コスト(クレーム、人件費、欠品)
稼働率
箱ひげ図
ヒストグラム
検定
回帰分析
相関分析
主成分分析
外観検査
品質特性値予測
製造工程
自動化
リソース最適化
ソフトセンサー
クレーム率
各工程データを統合して活用
統合データ
機械学習
モデル解釈
工程データがサイロ化されているため、
工程全体を考慮した品質管理ができない状態に
工程1 工程2 工程3 工程N
・・・
原材料
データ
ソース ?
?
どこの工程が原因か
わからない...
データがバラバラで
関係性がすぐにわからない...
統合データにより工程をまたがった分析が可能に
工程1 工程2 工程3
統合データ
工程N
・・・
原材料
運転条件 外部環境
作業員特性
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
工程1
工程2
工程N
・・・
原材料
統合
データ
要因探索
→ 不良の原因を発見する
品質予測
→ 早期に不良品を予測する
Factory.csv
Factory_ProcessA.csv
Factory_ProcessB.csv
Factory_ProcessC.csv
Factory_Result.csv
機械学習を用いた予測モデルの開発とその解釈
データ加工
ほぼ毎回やる事
分析用には
印刷・見た目を重視して
Excel を使わない
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう
国名
扱いにくいデータ
(同じ内容を意図した列が複数ある)
扱いやすいデータ
(列単位で)
郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう

More Related Content

PDF
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
PDF
データベース設計徹底指南
PDF
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PDF
Dockerからcontainerdへの移行
PDF
イミュータブルデータモデル(世代編)
PPTX
ログの書き方がチームの生産性を爆上げする話
PPTX
BigQuery Query Optimization クエリ高速化編
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データベース設計徹底指南
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
機械学習モデルの判断根拠の説明(Ver.2)
Dockerからcontainerdへの移行
イミュータブルデータモデル(世代編)
ログの書き方がチームの生産性を爆上げする話
BigQuery Query Optimization クエリ高速化編

What's hot (20)

PPTX
最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Py...
PDF
イミュータブルデータモデルの極意
PDF
『バックドア基準の入門』@統数研研究集会
PDF
テスト文字列に「うんこ」と入れるな
PDF
例外設計における大罪
PPTX
Net なプロジェクトでも jenkins を使ってみた
PDF
KiCadで雑に基板を作る チュートリアル
PDF
ディープラーニングのフレームワークと特許戦争
PPTX
DockerコンテナでGitを使う
PDF
ドメイン駆動設計 本格入門
PDF
SQL大量発行処理をいかにして高速化するか
PPTX
ノンパラメトリックベイズ4章クラスタリング
PPTX
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...
PDF
信号処理・画像処理における凸最適化
PPTX
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
PDF
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
PDF
Rにおける大規模データ解析(第10回TokyoWebMining)
PDF
潜在ディリクレ配分法
PDF
【Unite Tokyo 2019】Understanding C# Struct All Things
PPTX
Ethics of AI - AIの倫理-
最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Py...
イミュータブルデータモデルの極意
『バックドア基準の入門』@統数研研究集会
テスト文字列に「うんこ」と入れるな
例外設計における大罪
Net なプロジェクトでも jenkins を使ってみた
KiCadで雑に基板を作る チュートリアル
ディープラーニングのフレームワークと特許戦争
DockerコンテナでGitを使う
ドメイン駆動設計 本格入門
SQL大量発行処理をいかにして高速化するか
ノンパラメトリックベイズ4章クラスタリング
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...
信号処理・画像処理における凸最適化
遠赤外線カメラと可視カメラを利用した悪条件下における画像取得
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
Rにおける大規模データ解析(第10回TokyoWebMining)
潜在ディリクレ配分法
【Unite Tokyo 2019】Understanding C# Struct All Things
Ethics of AI - AIの倫理-

Similar to 郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう (20)

PPTX
データ分析概略
PPTX
佐賀大学 - データ分析と向き合う
PDF
オープンセミナー岡山 これから始めるデータ活用
PDF
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上
PDF
S01 t3 data_engineer
PPTX
20181219_全部見せます、データサイエンティストの仕事
PDF
Data Science on Hadoop
PPTX
企業等に蓄積されたデータを分析するための処理機能の提案
PDF
データサイエンスとデータエンジニア
PDF
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
PDF
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
PPTX
法政大学 MBA 中小企業向けITとの付き合うコツ
PPTX
02_2_20240611_Qlik Cloud データ統合 しっかり学ぶ勉強会 #2 - データパイプラインの作成「データマートの作成」
PDF
(道具としての)データサイエンティストのつかい方
PPTX
Saga Smart Center: データ分析の基礎
PPTX
【日商USA】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~
PDF
スキルチェックリスト 2017年版
PDF
避けては通れないビッグデータ周辺の重要課題
PDF
Qlik viewご紹介 v1.0
PDF
Casual datascience vol3
データ分析概略
佐賀大学 - データ分析と向き合う
オープンセミナー岡山 これから始めるデータ活用
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上
S01 t3 data_engineer
20181219_全部見せます、データサイエンティストの仕事
Data Science on Hadoop
企業等に蓄積されたデータを分析するための処理機能の提案
データサイエンスとデータエンジニア
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
法政大学 MBA 中小企業向けITとの付き合うコツ
02_2_20240611_Qlik Cloud データ統合 しっかり学ぶ勉強会 #2 - データパイプラインの作成「データマートの作成」
(道具としての)データサイエンティストのつかい方
Saga Smart Center: データ分析の基礎
【日商USA】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~
スキルチェックリスト 2017年版
避けては通れないビッグデータ周辺の重要課題
Qlik viewご紹介 v1.0
Casual datascience vol3

More from Daiyu Hatakeyama (20)

PPTX
ChatGPT Impact - その社会的/ビジネス価値を考える -
PPTX
テクノアカデミー郡山 現役ソフトウェアエンジニアが語る。IT の今と未来
PPTX
Webサイトの最適化
PPTX
DXのための内製化のススメ
PPTX
JDMC Azureアプリ開発入門
PPTX
JAZUG12周年 俺の Azure Cosmos DB
PPTX
Microsoft の変革
PPTX
明治大学 データサイエンス・AIに関するオムニバス授業 エバンジェリストというキャリア
PPTX
Green Software Foundation Global Summit 2022 Tokyo グリーンソフトウェアとは?
PPTX
コミュニケーション戦略を前提にしたOutlookやTeams活用
PPTX
Python に行く前に Excel で学ぶデータ分析のいろは
PPTX
AI の光と影
PPTX
東京大学 メディアコンテンツ特別講義 Sustainability
PPTX
Wiz国際情報工科自動車大学校 特別講演 Teams活用しよう!
PPTX
Wiz国際情報工科自動車大学校_特別講演_ITの織り成す未来
PPTX
東洋経済 製造業DXフォーラム 2022: 製造業のための Sustainability との 向き合い方
PPTX
明治大学理工学部 特別講義 AI on Azure
PPTX
Microsoft の Sustainability への取り組み
PPTX
クラデベ - Developer のための Sustainability 入門
PPTX
世界最先端2030年カーボンネガティブを目指すマイクロソフトのサステナビリティとIoT
ChatGPT Impact - その社会的/ビジネス価値を考える -
テクノアカデミー郡山 現役ソフトウェアエンジニアが語る。IT の今と未来
Webサイトの最適化
DXのための内製化のススメ
JDMC Azureアプリ開発入門
JAZUG12周年 俺の Azure Cosmos DB
Microsoft の変革
明治大学 データサイエンス・AIに関するオムニバス授業 エバンジェリストというキャリア
Green Software Foundation Global Summit 2022 Tokyo グリーンソフトウェアとは?
コミュニケーション戦略を前提にしたOutlookやTeams活用
Python に行く前に Excel で学ぶデータ分析のいろは
AI の光と影
東京大学 メディアコンテンツ特別講義 Sustainability
Wiz国際情報工科自動車大学校 特別講演 Teams活用しよう!
Wiz国際情報工科自動車大学校_特別講演_ITの織り成す未来
東洋経済 製造業DXフォーラム 2022: 製造業のための Sustainability との 向き合い方
明治大学理工学部 特別講義 AI on Azure
Microsoft の Sustainability への取り組み
クラデベ - Developer のための Sustainability 入門
世界最先端2030年カーボンネガティブを目指すマイクロソフトのサステナビリティとIoT

Recently uploaded (10)

PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf

郡山 Connect 2022 ハッカソン 基調講演 - Hackathon からサービスインになったらデータを扱いましょう