SlideShare a Scribd company logo
機械学習セミナー
@Life	is	tech!	大阪オフィス
自己紹介
• 名前:真木勇人 まきはやと(twitter: @mkhyt)
• 所属:奈良先端科学技術大学院大学 (NAIST)
▸ 情報科学研究科 D1 知能コミュニケーション研究室
• 専門
▸ 信号処理、機械学習
▸ 研究テーマ:機械学習を利用した脳情報の分解・解読
0 200 400 600 800
−20
0
20
40
0 200 400 600 800
−10
0
10
Amplitude[µV]Amplitude[µV]
0 0.2 0.4 0.6 0.8
-10
0
10
0
20
-20
40
N1
P2
N2
P3
Target
Non-targ
(a)
(b)
今日の目的
• 将来機械学習を使うかもしれないエンジニアに、機械学習の
原理、使用上・ビジネス上のポイントを知ってもらう。
機械学習
とは
機械学習
• いわゆる「人工知能」の基盤技術
音声認識
顔画像検出
対話システム(Siri)
レコメンドシステム
手書き文字認識
機械翻訳
ユーザークラスタリング 異常検出
Machine Learning
将来的な応用
同時音声翻訳
自動運転
リアルタイム声質変換ソースコード生成
医療画像診断
機械に
学習(発見)させる方法
データから法則性(ルール)を
自動的に
機械学習の
モチベーション
例:ビニールハウスの害虫発生予測
• ビニールハウスの内外に温度計・湿度計が1つずつ設置
• 温度と湿度がある条件を満たすと、ビニールハウス内に害虫が発生
「データサイエンティスト養成読本機械学習入門編」(技術評論社)から改変して引用
時間
予測モデル
(ルール)
アラート飛ばす
アラート飛ばさない
入力 出力
ルールをどうやって決める?
気温
生データ
外気温平均
内気温平均
外湿度平均
内湿度平均
当日の季節
特徴抽出
特徴ベクトル
人手でルールを決めてみよう
• 過去のデータを眺めてみる(架空のデータ)
外気温(℃) 内気温(℃) 外湿度(%) 内湿度(%) 季節 害虫発生
data1 33.5 37.1 70.2 72.4 0 1
data2 35.4 41.5 53.2 55.8 0 0
data3 31.8 35.4 63.3 62.0 0 1
data4 24.7 28.0 68.9 70.0 0 0
data5 10.6 25.2 61.1 63.8 1 1
data6 5.1 22.1 44.5 52.9 1 0
data7 6.3 20.4 70.7 75.3 1 0
data8 12,5 23.6 62.7 77.9 1 1
夏=0, 冬=1 なし=0, あり=1
「内気温が30℃以上」ならアラート?
「夏かつ内気温30℃以上」または「冬かつ内気温25℃以上」ならアラート??
「夏かつ内気温30℃以上かつ内湿度60%以上」または「冬かつ内気温25℃以
上かつ内湿度%60以上」ならアラート???
「内気温が30℃以上」ならアラート?
「夏かつ内気温30℃以上」または「冬かつ内気温25℃以上」ならアラート??
「夏かつ内気温30℃以上かつ内湿度60%以上」または「冬かつ内気温25℃以
上かつ内湿度%60以上」ならアラート???
外気温(℃) 内気温(℃) 外湿度(%) 内湿度(%) 季節 害虫発生
data1 33.5 37.1 70.2 72.4 0 1
data2 35.4 41.5 53.2 55.8 0 0
data3 31.8 35.4 63.3 62.0 0 1
data4 24.7 28.0 68.9 70.0 0 0
data5 10.6 25.2 61.1 63.8 1 1
data6 5.1 22.1 44.5 52.9 1 0
data7 6.3 20.4 70.7 75.3 1 0
data8 12,5 23.6 62.7 77.9 1 1
人手でルールを決めてみよう
• 過去のデータを眺めてみる(架空のデータ)
夏=0, 冬=1 なし=0, あり=1
高次元かつ大量のデータに対して人手で
法則性(ルール)を構築するのは困難
ルールの構築を自動化するのが機械学習
(機械にルールを発見させる)
機械学習の手法
•教師あり学習 Supervised Learning
‣ 分類 Classification
‣ 回帰 Regression
•教師なし学習 Unsupervised Learning
‣ クラスタリング Clustering
‣ 次元削減 Dimensionality Reduction
‣ 異常検出 Anomaly Detection
教師あり学習
• トレーニングデータ(過去のデータ)使って、関数 f (予測モデル)
を推定する問題(関数近似問題)
• トレーニングデータ: 特徴ベクトルと正解ラベルの事例セット
xを入力して、yを予測する
x = (x1, x2) = (気温, 湿度) y = 害虫発生あり or 発生なし,
Day1 x = (30, 70) y = あり
Day2 x = (24, 65) y = なし
・
・
・
・
・
・
・
・
・
回帰と分類
•回帰
▸ 予測値が数値である問題
▸ 例1) 気温からテーマパークの来場者数を予想する
▸ 例2) 年齢と喫煙本数から残りの寿命を予想する
•分類
▸ 予測値がクラスである問題
▸ 例1) 単語からスパムメールを見分ける
▸ 例2) 手書きの文字を認識する
予測モデル
回帰モデルの学習と予測
特徴

ベクトル
正解

ラベル
都市1 x(tr1)
y(tr1)
都市2 x(tr2)
y(tr2)
・
・
・
・
・
・
トレーニングデータ
学習アルゴリズム
リッジ回帰

ニューラルネットなど
を推定予測モデル
推定
• 例:非雇用率から犯罪発生率を予想する
=(犯罪発生率)
=(非雇用率)
未知のデータ 予測値
予測モデル
分類モデルの学習と予測
特徴

ベクトル
正解

ラベル
Day1 x(tr1)
y(tr1)
Day2 x(tr2)
y(tr2)
・
・
・
・
・
・
トレーニングデータ
学習アルゴリズム
パーセプトロン

SVMなど
を推定予測モデル
= あり or なし
未知のデータ
予測値
• 例:気温と湿度から害虫の発生を予測する
温度
湿度
=
あり
なし
推定
最小二乗学習
•多くの機械学習アルゴリズムの原型
:正解ラベルの値
:予測モデル
:誤差
‣2乗誤差関数を最小化
前処理
正規化
• 年収と年齢から、残りの寿命を予想する
年収
年齢
予測モデル:
200万 ∼ 3000万
18歳 ∼ 80歳
年収が相対的に大きく影響してしまう
• 平均0、分散1になるように、特徴量ごとに正規化
: x1の平均
: x1の標準偏差
ダミー変数
• 年収と居住地から、残りの寿命を予想する
年収
居住地
予測モデル:
200万 ∼ 3000万
関東、関西、中部
• カテゴリ変数を扱えるようにダミー変数を導入
数値
カテゴリ
関東 関西 中部
該当するところは1、他は0
機械学習を

使いこなす

ために
機械学習のメリット
•メリット
‣アルゴリズムが汎用的、様々な問題に適用
可能
‣(うまく学習すれば)人間を上回る精度・速
度を実現可能
‣人間には扱いきれない高次元・大量なデー
タを取り扱い可能
‣(場合により)コスト削減
機械学習のデメリット
•デメリット
‣ 大量かつ良質なデータが必要
‣ 欠損値、フォーマット不揃い、網羅性
‣ データ前処理ニスト?
‣ 計算に長時間または豊富なマシンパワーが必要な場合
がある
‣ 結果の解釈が容易でない場合がある
‣ 特徴量の選択、ハイパーパラメタの調整など、すべて
自動になるわけではない
ビジネス利用への4つの壁
•河本「会社を変える分析の力」講談社 ← めっちゃ良い本
データの壁 分析の壁
問題
ビジネス
価値
十分な質・量の
データを保有し
ているか?
適切な手法を選
択・実装し、高
い精度を実現で
きるか?
KKDの壁
KKDに対する
優位性があるか?
費用対効果の壁
データ・計算に
かかる費用を上
回る効果を上げ
るか?
K=勘, K=経験, D=度胸
おまけ:人工知能は人間を超えるか
•答え:問題によりけり
•画像認識は人間を超えたといわれている
•音声認識は人間の方が遥かに優れている
•当分超える見込はないと思う(個人の見解)
応用編
Support Vector Machine
SVMの戦略
▸マージン最大化
カーネル法による非線形化
パーセプトロン
データが線形分離可能な
ら、必ず決定境界を見つ
け出す
どの決定境界に収束する
か不確定(初期値に依存)
パーセプトロン
データが線形分離可能な
ら、必ず決定境界を見つ
け出す
どの決定境界に収束する
か不確定(初期値に依存)
new
黒い決定境界だと誤分類!
パーセプトロン
new
new
赤い決定境界だと誤分類!
データが線形分離可能な
ら、必ず決定境界を見つ
け出す
どの決定境界に収束する
か不確定(初期値に依存)
パーセプトロン
マージン
データが線形分離可能な
ら、必ず決定境界を見つ
け出す
どの決定境界に収束する
か不確定(初期値に依存)
マージン最大化!
線形分離のみ
SVMの戦略
マージン最大化
▸カーネル法による非線形化
やや上級者向け
高次元空間への写像
3次元空間へ写像
写像
線形分離不能 線形分離可能
画像出所:http://sudillap.hatenablog.com/entry/2013/04/08/235610
https://www.youtube.com/watch?v=3liCbRZPrZA&feature=youtu.be
計算量の爆発 (次元の呪い)
• 2次以下の特徴を抽出する写像
1000次元
501501次元
表現力 計算量
低次元 低い 少ない
高次元 高い 多い
高次元の表現力を実現
しつつ、計算は低次元
で行なうアイディア
カーネル法!
カーネルトリック
max.
s.t.
• SVMの定式化
(λはラグランジュ乗数)
カーネルトリック
max.
s.t.
高次元化した特徴ベクトル
内積さえ計算できればOK
にアクセスする必要無し
内積の性質を満たす関数K(カー
ネル関数)で置き換えて計算
• SVMの定式化
(λはラグランジュ乗数)
カーネル関数 1/2
多項式カーネル
変形
d次以下のすべての項を
持つ特徴ベクトルの内積
カーネル関数 1/2
多項式カーネル
変形
d次以下のすべての項を
持つ特徴ベクトルの内積
計算は低次元!
表現力は高次元!
ではなく
についての式なので
高次元化した
の内積に等しいので
カーネル関数 2/2
RBFカーネル
変形
次元の特徴ベクトルの内積
カーネル法による決定境界
カーネルなし

(線形カーネル)
RBFカーネル
参考文献
• 比戸 他, データサイエンティスト養成読本 機械学習入門編, 技術評
論社
• 河本, 会社を変える分析の力, 講談社
• 杉山, イラストで学ぶ機械学習 最小二乗法による識別モデル学習を
中心に, 講談社
• Bishop, Pattern Recognition and Machine Learning, Springer
• 高村, 自然言語処理のための機械学習入門, コロナ社
実践パート
Kaggleに挑戦して
みよう
Kaggle
• 世界最大のデータサイエンティストコミュニティ
• データ解析のコンペティションを多数開催
• 賞金が出る
• 他企業の協賛コンペ多数、ジョブマッチング
タイタニック生存者予想
•Kaggleのチュートリアルコンペ
•タイタニック搭乗者のプロフィールから、その人が生きて
帰ったかどうかを予想する
•トレーニングデータ:891人分
•テストデータ:418人分
データに含まれる情報
•Pclass: 搭乗者のクラス (1st, 2nd, 3rd)
•Name, Sex, Age, Fare(料金)
•SlibSp: 同乗した兄弟または配偶者の数
•Parch: 同乗した親または子供の数
•Ticket: チケット番号
•Cabin: 客室
•Embarked: 出発港 (Cherbourg, Queenstown,
Southampton)
Pythonライブラリ
• numpy, scipy: 数値計算ライブラリ
• pandas: データ解析ライブラリ
• scikit-learn: 機械学習ライブラリ
• matplolib: グラフ描写ライブラリ
• IPython: 対話型シェル
• 1つずつ入れるとめんどいので、Anacondaおすすめ
• Kaggleのサイト上でも動かすことができる
コードを書いてみよう
• STEP1

scikit-learnの使い方を調べ、SVMで学習と予測をおう

できたら、出力部分のコメントアウトを解除して実行、
Kaggleに提出して精度を確認
• STEP2

「Fare」と「Age」をそれぞれ正規化した変数「NorFare」
と「NorAge」を作ろう

できたら、FareとAgeの代わりに特徴ベクトルに追加しよう

再度実行、Kaggleに提出して精度を確認
コンタクト:@mkhyt on twitter
以上

More Related Content

PDF
機械学習の理論と実践
PDF
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
PDF
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
PDF
[DL輪読会]Understanding Black-box Predictions via Influence Functions
PDF
Bayesian Neural Networks : Survey
PDF
失敗から学ぶ機械学習応用
PPTX
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-
PDF
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
機械学習の理論と実践
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Bayesian Neural Networks : Survey
失敗から学ぶ機械学習応用
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-
【論文調査】XAI技術の効能を ユーザ実験で評価する研究

What's hot (20)

PPTX
深層学習の非常に簡単な説明
PDF
4 データ間の距離と類似度
PDF
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
PDF
グラフィカルモデル入門
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
PDF
数学で解き明かす深層学習の原理
PDF
統計的因果推論への招待 -因果構造探索を中心に-
PDF
機械学習チュートリアル@Jubatus Casual Talks
PDF
ベイズ統計入門
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PPTX
深層学習の数理
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PDF
continual learning survey
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PDF
cvpaper.challenge 研究効率化 Tips
PDF
機械学習による統計的実験計画(ベイズ最適化を中心に)
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
PDF
Deep Learning Lab 異常検知入門
PDF
機械学習モデルの判断根拠の説明
深層学習の非常に簡単な説明
4 データ間の距離と類似度
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
グラフィカルモデル入門
データサイエンス概論第一=2-1 データ間の距離と類似度
数学で解き明かす深層学習の原理
統計的因果推論への招待 -因果構造探索を中心に-
機械学習チュートリアル@Jubatus Casual Talks
ベイズ統計入門
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
機械学習モデルの判断根拠の説明(Ver.2)
深層学習の数理
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
continual learning survey
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
cvpaper.challenge 研究効率化 Tips
機械学習による統計的実験計画(ベイズ最適化を中心に)
Recent Advances on Transfer Learning and Related Topics Ver.2
Deep Learning Lab 異常検知入門
機械学習モデルの判断根拠の説明
Ad

Similar to 機械学習 入門 (20)

PDF
Hands on-ml section1-1st-half-20210317
PPTX
機械学習の基礎
PPTX
MLaPP輪講 Chapter 1
PDF
Jubatusにおける大規模分散オンライン機械学習
PPTX
[輪講] 第1章
PPTX
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-(改訂版)
PDF
Jubatusの特徴変換と線形分類器の仕組み
PPTX
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
PDF
レコメンドアルゴリズムの基本と周辺知識と実装方法
PPTX
0610 TECH & BRIDGE MEETING
PPTX
Machine learning
PDF
bigdata2012ml okanohara
PPTX
PDF
それっぽく感じる機械学習
PPTX
Machine Learning Fundamentals IEEE
PPTX
東北大学AIE - 機械学習入門編
PDF
機械学習とコンピュータビジョン入門
PDF
予測型戦略を知るための機械学習チュートリアル
PDF
第1回 Jubatusハンズオン
PDF
第1回 Jubatusハンズオン
Hands on-ml section1-1st-half-20210317
機械学習の基礎
MLaPP輪講 Chapter 1
Jubatusにおける大規模分散オンライン機械学習
[輪講] 第1章
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-(改訂版)
Jubatusの特徴変換と線形分類器の仕組み
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
レコメンドアルゴリズムの基本と周辺知識と実装方法
0610 TECH & BRIDGE MEETING
Machine learning
bigdata2012ml okanohara
それっぽく感じる機械学習
Machine Learning Fundamentals IEEE
東北大学AIE - 機械学習入門編
機械学習とコンピュータビジョン入門
予測型戦略を知るための機械学習チュートリアル
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
Ad

機械学習 入門