Upload
Download free for 30 days
Login
Submit Search
Casual datascience vol3
1 like
92 views
K
KazuhiroSato8
カジュアル勉強会 データサイエンスを学ぶ第3回 公開用資料
Education
Read more
1 of 97
Download now
Downloaded 13 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
More Related Content
PDF
Casual datascience vol4
KazuhiroSato8
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Shunsuke Nakamura
PDF
Casual datascience vol2
KazuhiroSato8
PDF
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
KazuhiroSato8
PPTX
Machine Learning Seminar (2)
Tomoya Nakayama
PDF
20180807_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
PDF
全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
PPTX
頻度論とベイズ論と誤差最小化について
Shohei Miyashita
Casual datascience vol4
KazuhiroSato8
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
Shunsuke Nakamura
Casual datascience vol2
KazuhiroSato8
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
KazuhiroSato8
Machine Learning Seminar (2)
Tomoya Nakayama
20180807_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
頻度論とベイズ論と誤差最小化について
Shohei Miyashita
Similar to Casual datascience vol3
(20)
PPTX
20181219_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
PDF
(道具としての)データサイエンティストのつかい方
Shohei Hido
PPTX
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V6
Shunsuke Nakamura
PPTX
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで
Shunsuke Nakamura
PDF
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
PPTX
Nttr study 20130206_share
Noriyuki Futatsugi
PPTX
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Daiyu Hatakeyama
PDF
パターン認識 04 混合正規分布
sleipnir002
PPTX
30分でわかる『R』によるデータ分析|データアーティスト
Satoru Yamamoto
PPT
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
hnisiji
PPTX
MLaPP輪講 Chapter 1
ryuhmd
PPTX
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
Shunsuke Nakamura
PDF
はじパタLT2
Tadayuki Onishi
PDF
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
Atsushi KOMIYA
PDF
bigdata2012ml okanohara
Preferred Networks
PDF
tut_pfi_2012
Preferred Networks
PDF
東大計数特別講義20130528
Yoichi Motomura
PDF
第1回 Jubatusハンズオン
Yuya Unno
PDF
第1回 Jubatusハンズオン
JubatusOfficial
PDF
PFI Christmas seminar 2009
Preferred Networks
20181219_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
(道具としての)データサイエンティストのつかい方
Shohei Hido
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V6
Shunsuke Nakamura
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで
Shunsuke Nakamura
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
Nttr study 20130206_share
Noriyuki Futatsugi
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Daiyu Hatakeyama
パターン認識 04 混合正規分布
sleipnir002
30分でわかる『R』によるデータ分析|データアーティスト
Satoru Yamamoto
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
hnisiji
MLaPP輪講 Chapter 1
ryuhmd
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
Shunsuke Nakamura
はじパタLT2
Tadayuki Onishi
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
Atsushi KOMIYA
bigdata2012ml okanohara
Preferred Networks
tut_pfi_2012
Preferred Networks
東大計数特別講義20130528
Yoichi Motomura
第1回 Jubatusハンズオン
Yuya Unno
第1回 Jubatusハンズオン
JubatusOfficial
PFI Christmas seminar 2009
Preferred Networks
Ad
More from KazuhiroSato8
(15)
PDF
Casual learning-machinelearningwithexcelno8
KazuhiroSato8
PDF
Casual learning anomaly_detection_with_machine_learning_no1
KazuhiroSato8
PDF
Casual learning machine_learning_with_excel_no7
KazuhiroSato8
PDF
Casual data analysis_with_python_vol2
KazuhiroSato8
PDF
Casual datascience vol5
KazuhiroSato8
PDF
Casual learning machine learning with_excel_no6
KazuhiroSato8
PDF
Casual learning machine learning with_excel_no5
KazuhiroSato8
PDF
Casual learning machine learning with_excel_no4
KazuhiroSato8
PDF
Basic deep learning_framework
KazuhiroSato8
PDF
Casual learning machine learning with_excel_no3
KazuhiroSato8
PDF
Casual learning machine learning with_excel_no2
KazuhiroSato8
PDF
Casual learning machine_learning_with_excel_no1
KazuhiroSato8
PDF
エクテック カジュアル勉強会 データサイエンスを学ぶ第1回
KazuhiroSato8
PDF
Casual data analysis_with_python_vol1
KazuhiroSato8
PDF
Casual datascience vol1
KazuhiroSato8
Casual learning-machinelearningwithexcelno8
KazuhiroSato8
Casual learning anomaly_detection_with_machine_learning_no1
KazuhiroSato8
Casual learning machine_learning_with_excel_no7
KazuhiroSato8
Casual data analysis_with_python_vol2
KazuhiroSato8
Casual datascience vol5
KazuhiroSato8
Casual learning machine learning with_excel_no6
KazuhiroSato8
Casual learning machine learning with_excel_no5
KazuhiroSato8
Casual learning machine learning with_excel_no4
KazuhiroSato8
Basic deep learning_framework
KazuhiroSato8
Casual learning machine learning with_excel_no3
KazuhiroSato8
Casual learning machine learning with_excel_no2
KazuhiroSato8
Casual learning machine_learning_with_excel_no1
KazuhiroSato8
エクテック カジュアル勉強会 データサイエンスを学ぶ第1回
KazuhiroSato8
Casual data analysis_with_python_vol1
KazuhiroSato8
Casual datascience vol1
KazuhiroSato8
Ad
Recently uploaded
(17)
PDF
7_「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」明治大学付属中野八王子中学校宮本ゆりかさん.pdf
ssuser3fcec0
PDF
9_前田音葉さん:「Yakushima Islandってなんか変じゃない?」.pdf
ssuser3fcec0
PPTX
PPT KANJI IRODORI SHOKYUU 1 BAB 9 (FURIGANA)
hayyinfatika
PDF
10_「孤独は敵なのか?」 桜花学園高等学校堀川愛可さんinspirehigh.pdf
ssuser3fcec0
PDF
14_「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」公文国際学園高等部古澤琴子.pdf
ssuser3fcec0
PDF
5_「AIと仲良くなるには?」日本大学東北高等学校南梨夢乃さんinspirehigh.pdf
ssuser3fcec0
PDF
3_「本当の『悪者』って何?」鷗友学園女子中学校_福島 雪乃さんinspirehigh.pdf
ssuser3fcec0
PDF
My Inspire High Award 2024(岡田秀幸).pptx.pdf
ssuser3fcec0
PDF
外国人が日本のテーブルマナーに驚く理由は?_公文国際学園高等部 角田 恵梨佳さん
ssuser3fcec0
PDF
11_「なぜ議会への関心が低いのか?」長野県長野西高等学校 片桐 菜々美さん.pdf
ssuser3fcec0
PDF
共同売店から考える沖縄の新しい流通のしくみ2025琉球大学流通原論講義資料.pdf
Kyodo-Baiten Fanclub 共同売店ファンクラブ
PDF
「なぜ、好きなことにいつかは飽きるの?」大塚莉子 - My Inspire High Award 2024.pdf
ssuser3fcec0
PDF
8_「世の中の流行はどのようにして生まれるのか」学校法人聖ドミニコ学園竹野はるいpptx.pdf
ssuser3fcec0
PDF
12_星の杜中学校小倉ももこ『家族ってなに』inspirehigh発表物.pdf
ssuser3fcec0
PDF
12_「家族とは何か」星の杜中学校小倉ももこ『家族ってなに』inspirehigh.pdf
ssuser3fcec0
PDF
6_「老いることは不幸なこと?」植草学園大学附属高等学校森 珠貴さんinspirehigh.pdf
ssuser3fcec0
PDF
13_「他者と自分、対立を防ぐには?」市原中央高等学校 大野リリinspirehigh.pdf
ssuser3fcec0
7_「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」明治大学付属中野八王子中学校宮本ゆりかさん.pdf
ssuser3fcec0
9_前田音葉さん:「Yakushima Islandってなんか変じゃない?」.pdf
ssuser3fcec0
PPT KANJI IRODORI SHOKYUU 1 BAB 9 (FURIGANA)
hayyinfatika
10_「孤独は敵なのか?」 桜花学園高等学校堀川愛可さんinspirehigh.pdf
ssuser3fcec0
14_「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」公文国際学園高等部古澤琴子.pdf
ssuser3fcec0
5_「AIと仲良くなるには?」日本大学東北高等学校南梨夢乃さんinspirehigh.pdf
ssuser3fcec0
3_「本当の『悪者』って何?」鷗友学園女子中学校_福島 雪乃さんinspirehigh.pdf
ssuser3fcec0
My Inspire High Award 2024(岡田秀幸).pptx.pdf
ssuser3fcec0
外国人が日本のテーブルマナーに驚く理由は?_公文国際学園高等部 角田 恵梨佳さん
ssuser3fcec0
11_「なぜ議会への関心が低いのか?」長野県長野西高等学校 片桐 菜々美さん.pdf
ssuser3fcec0
共同売店から考える沖縄の新しい流通のしくみ2025琉球大学流通原論講義資料.pdf
Kyodo-Baiten Fanclub 共同売店ファンクラブ
「なぜ、好きなことにいつかは飽きるの?」大塚莉子 - My Inspire High Award 2024.pdf
ssuser3fcec0
8_「世の中の流行はどのようにして生まれるのか」学校法人聖ドミニコ学園竹野はるいpptx.pdf
ssuser3fcec0
12_星の杜中学校小倉ももこ『家族ってなに』inspirehigh発表物.pdf
ssuser3fcec0
12_「家族とは何か」星の杜中学校小倉ももこ『家族ってなに』inspirehigh.pdf
ssuser3fcec0
6_「老いることは不幸なこと?」植草学園大学附属高等学校森 珠貴さんinspirehigh.pdf
ssuser3fcec0
13_「他者と自分、対立を防ぐには?」市原中央高等学校 大野リリinspirehigh.pdf
ssuser3fcec0
Casual datascience vol3
1.
カジュアル勉強会 @仙台 データサイエンスを学ぶ 第3回 株式会社
エクテック 取締役 兼データサイエンティスト
2.
第5回までの流れ 1部 1. 第1回のおさらい 2. データへの取り組み方 3.
色々なアプローチ 2部 1. アプローチ具体例 2. 分析環境 3. 周辺技術と知識 第2回 (2020/02/01 ) 1部 1. データとは 2. 身近なデータ 3. データと科学 2部 1. データアプローチ 2. データで実現 3. 活用事例 第1回 (2020/01/24 )
3.
第5回までの流れ 1部 1. 第3回のおさらい 2. 機械学習 3.
データと機械学習 2部 1. データと分類 2. データと回帰 3. データとクラスタリング 第4回 (2020/03/07 ) 1部 1. 第2回のおさらい 2. データの加工 3. データの前処理 2部 1. データの正規化 2. 予測と分類① 3. 予測と分類② 第3回 (2020/02/15 )
4.
第5回までの流れ 1部 1. 第4回のおさらい 2. データの在り方 3.
データと可視化① 2部 1. データと可視化② 2. データと可視化③ 3. データと個人情報 第5回 (2020/03/28 )
5.
本日のアジェンダ 第2回のおさらい (Go over) データの加工 (Data Processing) データの前処理 (Data
Pre-processing) データの正規化 (Data Normalization) 予測と分類① (Forecasting & Classification1) 予測と分類② (Forecasting & Classification2) 2部1部
6.
第2回のおさらい (Go over)
7.
レコードセット, データベース, テーブル データクレンジング 破損または不正確なデータを 検出および修正するプロセス
8.
破損または不正確なデータを 検出および修正するプロセス データの品質を把握する データのクレンジングをする前に、 データがどの程度、”綺麗”なのかを確認する
9.
破損または不正確なデータを 検出および修正するプロセス データをクレンジングする ⽋損の補完や表記の揺れの標準化, ノイズの排除など ⽬的に適した⼿法を定義し、適⽤する必要あり
10.
破損または不正確なデータを 検出および修正するプロセス データを名寄せ、統合する 名寄せ(マッチング)によって重複データの特定 統合(マージ)を⾏う
11.
なんらかの理由により記録されなかった値 ⽋損データ 全ての変数の値が観測されている データを「完全データ」 ⽋損データ = 不完全データ
12.
データが不完全, ⽋損データであると ⽋損データ 統計的処理が不可能になる 結果にバイアスが⽣じる データそのものが無駄になる
13.
⽋損値の除去 予測値で補完する⽅法 尤度(確率)で補完する⽅法
14.
⽋損値
17.
出現率を⾒て、補完。
18.
補完前後で、出現回数の 分布を確認する。
19.
⽋損データが⼤きいと 推論による補完は厳しい
20.
ホワイトノイズ ランダムウォーク ※詳しくは第3回で説明します
21.
Python R ⾼校数学 微分積分
統計学 収集⼒ 客観的思考⼒ numpypandas scikit-learn Tensorflow Keras Caretggplot2 dplyer matplotlib CRAN R Studio Pycharm PyScripter Atom Visual Studio ⾃然⾔語 レコメンド 時系列
22.
データの加⼯ (Data Processing)
23.
なぜ、データを加⼯するのか
24.
(1分間)
25.
なぜ、データを加⼯するのか データサイエンス分野 “精度” を⾼めたいから
26.
データ加⼯ 特徴量エンジニアリング
27.
特徴量エンジニアリング いかにデータ量を増やすか いかにデータの質を⾼めるか
28.
いかにデータ量を増やすか 同じ画像に対して、 ⾓度を変えて、増やす
29.
いかにデータ量を増やすか 同じ画像に対して、 RGBを変えて、増やす
30.
いかにデータ量を増やすか 同⼀パターンに対して、 範囲内で変化を与えて、増やす
31.
いかにデータの質を⾼めるか ホワイトノイズ ランダムウォーク
32.
ホワイトノイズ ホワイトガウスノイズ
33.
ホワイトノイズ ホワイトガウスノイズ ⽐較的パターン性のあるノイズ
34.
ランダムウォーク “酔歩”と訳されるが、 パターンに規則がなく、予測不能
35.
いかにデータの質を⾼めるか 精度を⾼めるにおいて、 そのノイズは意味のあるノイズ?
36.
データの前処理 (Data Pre-processing)
37.
そのデータは、 ⽂字列?数値?
38.
One-hot Encoding
39.
教育科目 英語 数学 国語 理科 社会
40.
教育科目 英語 数学 国語 理科 社会 英語 数学 国語
理科 社会 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1
41.
データの加⼯において 基本中の基本に位置する⼿法 データをxxxであるか否かの 「1 or 0」で表現する⼿法
42.
教育科目 英語 数学 国語 理科 社会 英語 数学 国語
理科 社会 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1
43.
他の列から再現できてしまう 列の存在は予測精度に 悪影響を及ぼす可能性
44.
教育科目 英語 数学 国語 理科 社会 英語 数学 国語
理科 社会 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1
45.
データがスパースになる (≒列がむやみに増える)
46.
Label-Encoding
47.
教育科目 英語 数学 国語 理科 社会 ラベル 1 2 3 4 5
48.
順序性がない値に 適⽤するのは避ける
49.
アルゴリズムによって有効な 場⾯が限られてくるため 注意が必要
50.
連番で表現される順序が 予測したい値に関係するほど 有効なデータになる
51.
順序の差が⼀定でない ものは避ける
52.
Count-Encoding
53.
教育科目 英語 数学 国語 理科 社会 実施回数 10 15 11 12 5
54.
教育科目 英語 数学 国語 理科 社会 実施回数 10 15 11 12 5 10 15 11 12 5 + 教育科目
55.
出現する値の頻度へと 変換する⼿法
56.
Label-Encoding と相性が良い
57.
Target-Encoding
58.
教育科目 英語 数学 国語 理科 社会 受講人数 10人以上 10人以下 10人以下 10人以下 10以上
59.
教育科目 英語 数学 国語 理科 社会 受講回数 10 15 11 12 5 10人以上 割合算出 22% 51% 32% 24% 10% +
60.
教育科目 英語 数学 国語 理科 社会 受講回数 10 15 11 12 5 10人以上 割合算出 22% 51% 32% 24% 10% 10人以上 割合算出 0.22 0.51 0.32 0.24 0.10
61.
予測にとって有効なデータ に変換されてくれる
62.
が、問題もある
63.
Leak問題
64.
教育科目 英語 数学 国語 理科 社会 受講回数 10 15 11 12 5 10人以上 割合算出 22% 51% 32% 24% 10% 10人以上 割合算出 0.22 0.51 0.32 0.24 0.10
65.
⼿に⼊らないはずのデータを ⼿に⼊れた状態で予測してしまう
66.
単純化
67.
架空のデータ ID 年齢 性別
居住地 病気 10001 42 男 仙台市泉区xxx 大腸ガン 10002 59 女 仙台市泉区yyy 胃ガン 10003 34 女 仙台市若林区xxx ウィルス感染症 10004 61 男 仙台市青葉区xxx ウィルス感染症 10005 77 男 仙台市青葉区yyy 心疾患 10006 46 女 仙台市青葉区zzz 胃ガン 10007 52 男 仙台市若林区zzz 糖尿病1型 10008 71 男 仙台市宮城野区xxx 喉頭ガン 10009 66 男 仙台市太白区xxx 心疾患 10010 54 女 仙台市太白区yyy 胃ガン 10011 41 男 仙台市若林区yyy 糖尿病2型
68.
架空のデータ ID 年齢 性別
居住地 病気 10001 42 1 3 1 10002 59 0 3 7 10003 34 0 4 5 10004 61 1 5 5 10005 77 1 5 6 10006 46 0 5 7 10007 52 1 4 2 10008 71 1 1 4 10009 66 1 2 6 10010 54 0 2 7 10011 41 1 4 3
69.
架空のデータ ID 年齢 性別
居住地 病気 10001 42 1 3 1 10002 59 0 3 7 10003 34 0 4 5 10004 61 1 5 5 10005 77 1 5 6 10006 46 0 5 7 10007 52 1 4 2 10008 71 1 1 4 10009 66 1 2 6 10010 54 0 2 7 10011 41 1 4 3
70.
架空のデータ ID 年齢 性別
居住地 病気 10001 40代 1 3 1 10002 50代 0 3 7 10003 30代 0 4 5 10004 60代 1 5 5 10005 70代 1 5 6 10006 40代 0 5 7 10007 50代 1 4 2 10008 70代 1 1 4 10009 60代 1 2 6 10010 50代 0 2 7 10011 40代 1 4 3
71.
Round化
72.
「丸める」「平たくする」 ことで単純化する
73.
Binning
74.
年齢 23 15 36 39 55
75.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50
76.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50 階級・階層に分ける
77.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50 10 20 30 1 1 0 0 0 1 0 0 0 1 0 1 0 1 1 1 0 0
78.
年齢 23 15 36 39 55 年齢層 20 10 30 30 50 10 20 30 1 1 0 0 0 1 0 0 0 1 0 1 0 1 1 1 0 0 One-hot
化
79.
予測したいデータとの関係性が 複雑(=⾮線形)でも、 ある程度予測することが可能
80.
休憩 (10分間)
81.
データの正規化 (Data Normalization)
82.
正規化とは?
83.
対象の特徴をあらかじめ 決められた基準に加⼯すること
84.
主に画像データなどの 前処理として⾏うもの
85.
RGB(0~255)を 0~1で表現する
86.
なぜ、正規化するの?
87.
学習コスト(計算時間) を抑えるため
88.
正規化 最⼤値 最⼩値 元の値 最⼩値
89.
予測と分類① (Forecasting & Classification1)
90.
予測と分類② (Forecasting & Classification2)
91.
Jupyter上で ⾒ていきます
92.
ノイズのあるSin波を予測 Auto-Encorderで⽂字判定 ⼈名だけで国籍判定
93.
ホワイトノイズを Sin波に付加 ノイズをもとに モデル学習して 予測
94.
Adéla Adela adela 1→4→5→12→1 11カ国 の人名を ベクトル化 &
ゼロパディング これらデータを用いてモデル学習 & モデル精度の比較
95.
simple Auto-Encoder ノイズのあるデータ Convolutional Auto-Encoder De-noise
Auto-Encoder Auto-Encoder 様々な種類の オートエンコーダ を試す
96.
次回のアジェンダ 第3回のおさらい (Go over) 機械学習 (Machine Learning) データと機械学習 (Data
& ML) データと分類 (Data & Classification) データと予測 (Data & Prediction) データとクラスタリング (Data & Clustering) 2部1部
97.
EOS
Download