機械学習入門

機械学習セミナー
@Life is tech! 大阪オフィス

自己紹介
• 名前：真木勇人まきはやと(twitter: @mkhyt)
• 所属：奈良先端科学技術大学院大学 (NAIST)
▸ 情報科学研究科 D1 知能コミュニケーション研究室
• 専門
▸ 信号処理、機械学習
▸ 研究テーマ：機械学習を利用した脳情報の分解・解読
0 200 400 600 800
−20
0
20
40
0 200 400 600 800
−10
0
10
Amplitude[µV]Amplitude[µV]
0 0.2 0.4 0.6 0.8
-10
0
10
0
20
-20
40
N1
P2
N2
P3
Target
Non-targ
(a)
(b)

今日の目的
• 将来機械学習を使うかもしれないエンジニアに、機械学習の
原理、使用上・ビジネス上のポイントを知ってもらう。

機械学習
• いわゆる「人工知能」の基盤技術
音声認識
顔画像検出
対話システム（Siri）
レコメンドシステム
手書き文字認識
機械翻訳
ユーザークラスタリング異常検出
Machine Learning

将来的な応用
同時音声翻訳
自動運転
リアルタイム声質変換ソースコード生成
医療画像診断

機械に
学習(発見)させる方法
データから法則性(ルール)を
自動的に

機械学習の
モチベーション

例：ビニールハウスの害虫発生予測
• ビニールハウスの内外に温度計・湿度計が1つずつ設置
• 温度と湿度がある条件を満たすと、ビニールハウス内に害虫が発生
「データサイエンティスト養成読本機械学習入門編」（技術評論社）から改変して引用
時間
予測モデル
(ルール)
アラート飛ばす
アラート飛ばさない
入力出力
ルールをどうやって決める？
気温
生データ
外気温平均
内気温平均
外湿度平均
内湿度平均
当日の季節
特徴抽出
特徴ベクトル

人手でルールを決めてみよう
• 過去のデータを眺めてみる（架空のデータ）
外気温(℃) 内気温(℃) 外湿度(%) 内湿度(%) 季節害虫発生
data1 33.5 37.1 70.2 72.4 0 1
data2 35.4 41.5 53.2 55.8 0 0
data3 31.8 35.4 63.3 62.0 0 1
data4 24.7 28.0 68.9 70.0 0 0
data5 10.6 25.2 61.1 63.8 1 1
data6 5.1 22.1 44.5 52.9 1 0
data7 6.3 20.4 70.7 75.3 1 0
data8 12,5 23.6 62.7 77.9 1 1
夏＝0, 冬＝1 なし＝0, あり＝1
「内気温が30℃以上」ならアラート？
「夏かつ内気温30℃以上」または「冬かつ内気温25℃以上」ならアラート？？
「夏かつ内気温30℃以上かつ内湿度60%以上」または「冬かつ内気温25℃以
上かつ内湿度%60以上」ならアラート？？？

「内気温が30℃以上」ならアラート？
「夏かつ内気温30℃以上」または「冬かつ内気温25℃以上」ならアラート？？
「夏かつ内気温30℃以上かつ内湿度60%以上」または「冬かつ内気温25℃以
上かつ内湿度%60以上」ならアラート？？？
外気温(℃) 内気温(℃) 外湿度(%) 内湿度(%) 季節害虫発生
data1 33.5 37.1 70.2 72.4 0 1
data2 35.4 41.5 53.2 55.8 0 0
data3 31.8 35.4 63.3 62.0 0 1
data4 24.7 28.0 68.9 70.0 0 0
data5 10.6 25.2 61.1 63.8 1 1
data6 5.1 22.1 44.5 52.9 1 0
data7 6.3 20.4 70.7 75.3 1 0
data8 12,5 23.6 62.7 77.9 1 1
人手でルールを決めてみよう
• 過去のデータを眺めてみる（架空のデータ）
夏＝0, 冬＝1 なし＝0, あり＝1
高次元かつ大量のデータに対して人手で
法則性（ルール）を構築するのは困難
ルールの構築を自動化するのが機械学習
(機械にルールを発見させる)

機械学習の手法
•教師あり学習 Supervised Learning
‣ 分類 Classification
‣ 回帰 Regression
•教師なし学習 Unsupervised Learning
‣ クラスタリング Clustering
‣ 次元削減 Dimensionality Reduction
‣ 異常検出 Anomaly Detection

教師あり学習
• トレーニングデータ（過去のデータ）使って、関数 f (予測モデル)
を推定する問題（関数近似問題）
• トレーニングデータ: 特徴ベクトルと正解ラベルの事例セット
xを入力して、yを予測する
x = (x1, x2) = (気温, 湿度) y = 害虫発生あり or 発生なし,
Day1 x = (30, 70) y = あり
Day2 x = (24, 65) y = なし
・
・
・
・
・
・
・
・
・

回帰と分類
•回帰
▸ 予測値が数値である問題
▸ 例1) 気温からテーマパークの来場者数を予想する
▸ 例2) 年齢と喫煙本数から残りの寿命を予想する
•分類
▸ 予測値がクラスである問題
▸ 例1) 単語からスパムメールを見分ける
▸ 例2) 手書きの文字を認識する

予測モデル
回帰モデルの学習と予測
特徴 
ベクトル
正解 
ラベル
都市1 x(tr1)
y(tr1)
都市2 x(tr2)
y(tr2)
・
・
・
・
・
・
トレーニングデータ
学習アルゴリズム
リッジ回帰 
ニューラルネットなど
を推定予測モデル
推定
• 例：非雇用率から犯罪発生率を予想する
=(犯罪発生率）
=(非雇用率）
未知のデータ予測値

予測モデル
分類モデルの学習と予測
特徴 
ベクトル
正解 
ラベル
Day1 x(tr1)
y(tr1)
Day2 x(tr2)
y(tr2)
・
・
・
・
・
・
トレーニングデータ
学習アルゴリズム
パーセプトロン 
SVMなど
を推定予測モデル
= あり or なし
未知のデータ
予測値
• 例：気温と湿度から害虫の発生を予測する
温度
湿度
=
あり
なし
推定

最小二乗学習
•多くの機械学習アルゴリズムの原型
：正解ラベルの値
：予測モデル
：誤差
‣2乗誤差関数を最小化

正規化
• 年収と年齢から、残りの寿命を予想する
年収
年齢
予測モデル：
200万 ∼ 3000万
18歳 ∼ 80歳
年収が相対的に大きく影響してしまう
• 平均0、分散1になるように、特徴量ごとに正規化
: x1の平均
: x1の標準偏差

ダミー変数
• 年収と居住地から、残りの寿命を予想する
年収
居住地
予測モデル：
200万 ∼ 3000万
関東、関西、中部
• カテゴリ変数を扱えるようにダミー変数を導入
数値
カテゴリ
関東関西中部
該当するところは1、他は０

機械学習を 
使いこなす 
ために

機械学習のメリット
•メリット
‣アルゴリズムが汎用的、様々な問題に適用
可能
‣(うまく学習すれば)人間を上回る精度・速
度を実現可能
‣人間には扱いきれない高次元・大量なデー
タを取り扱い可能
‣(場合により)コスト削減

機械学習のデメリット
•デメリット
‣ 大量かつ良質なデータが必要
‣ 欠損値、フォーマット不揃い、網羅性
‣ データ前処理ニスト？
‣ 計算に長時間または豊富なマシンパワーが必要な場合
がある
‣ 結果の解釈が容易でない場合がある
‣ 特徴量の選択、ハイパーパラメタの調整など、すべて
自動になるわけではない

ビジネス利用への4つの壁
•河本「会社を変える分析の力」講談社 ← めっちゃ良い本
データの壁分析の壁
問題
ビジネス
価値
十分な質・量の
データを保有し
ているか？
適切な手法を選
択・実装し、高
い精度を実現で
きるか？
KKDの壁
KKDに対する
優位性があるか？
費用対効果の壁
データ・計算に
かかる費用を上
回る効果を上げ
るか？
K=勘, K=経験, D=度胸

おまけ：人工知能は人間を超えるか
•答え：問題によりけり
•画像認識は人間を超えたといわれている
•音声認識は人間の方が遥かに優れている
•当分超える見込はないと思う（個人の見解）

応用編
Support Vector Machine

SVMの戦略
▸マージン最大化
カーネル法による非線形化

パーセプトロン
データが線形分離可能な
ら、必ず決定境界を見つ
け出す
どの決定境界に収束する
か不確定(初期値に依存)

け出す
new
黒い決定境界だと誤分類！

new
new
赤い決定境界だと誤分類！
け出す

マージン
け出す
マージン最大化！
線形分離のみ

SVMの戦略
マージン最大化
▸カーネル法による非線形化
やや上級者向け

高次元空間への写像
3次元空間へ写像
写像
線形分離不能線形分離可能
画像出所：http://sudillap.hatenablog.com/entry/2013/04/08/235610

https://www.youtube.com/watch?v=3liCbRZPrZA&feature=youtu.be

計算量の爆発 (次元の呪い)
• 2次以下の特徴を抽出する写像
1000次元
501501次元
表現力計算量
低次元低い少ない
高次元高い多い
高次元の表現力を実現
しつつ、計算は低次元
で行なうアイディア
カーネル法！

カーネルトリック
max.
s.t.
• SVMの定式化
(λはラグランジュ乗数)

カーネルトリック
max.
s.t.
高次元化した特徴ベクトル
内積さえ計算できればOK
にアクセスする必要無し
内積の性質を満たす関数K（カー
ネル関数）で置き換えて計算
• SVMの定式化
(λはラグランジュ乗数)

カーネル関数 1/2
多項式カーネル
変形
d次以下のすべての項を
持つ特徴ベクトルの内積

多項式カーネル
変形
d次以下のすべての項を
持つ特徴ベクトルの内積
計算は低次元！
表現力は高次元！
ではなく
についての式なので
高次元化した
の内積に等しいので

RBFカーネル
変形
次元の特徴ベクトルの内積

カーネル法による決定境界
カーネルなし 
(線形カーネル)
RBFカーネル

参考文献
• 比戸他, データサイエンティスト養成読本機械学習入門編, 技術評
論社
• 河本, 会社を変える分析の力, 講談社
• 杉山, イラストで学ぶ機械学習最小二乗法による識別モデル学習を
中心に, 講談社
• Bishop, Pattern Recognition and Machine Learning, Springer
• 高村, 自然言語処理のための機械学習入門, コロナ社

実践パート
Kaggleに挑戦して
みよう

Kaggle
• 世界最大のデータサイエンティストコミュニティ
• データ解析のコンペティションを多数開催
• 賞金が出る
• 他企業の協賛コンペ多数、ジョブマッチング

タイタニック生存者予想
•Kaggleのチュートリアルコンペ
•タイタニック搭乗者のプロフィールから、その人が生きて
帰ったかどうかを予想する
•トレーニングデータ：891人分
•テストデータ：418人分

データに含まれる情報
•Pclass: 搭乗者のクラス (1st, 2nd, 3rd)
•Name, Sex, Age, Fare(料金)
•SlibSp: 同乗した兄弟または配偶者の数
•Parch: 同乗した親または子供の数
•Ticket: チケット番号
•Cabin: 客室
•Embarked: 出発港 (Cherbourg, Queenstown,
Southampton)

Pythonライブラリ
• numpy, scipy: 数値計算ライブラリ
• pandas: データ解析ライブラリ
• scikit-learn: 機械学習ライブラリ
• matplolib: グラフ描写ライブラリ
• IPython: 対話型シェル
• 1つずつ入れるとめんどいので、Anacondaおすすめ
• Kaggleのサイト上でも動かすことができる

コードを書いてみよう
• STEP1 
scikit-learnの使い方を調べ、SVMで学習と予測をおう 
できたら、出力部分のコメントアウトを解除して実行、
Kaggleに提出して精度を確認
• STEP2 
「Fare」と「Age」をそれぞれ正規化した変数「NorFare」
と「NorAge」を作ろう 
できたら、FareとAgeの代わりに特徴ベクトルに追加しよう 
再度実行、Kaggleに提出して精度を確認

コンタクト：@mkhyt on twitter
以上

機械学習入門

More Related Content

What's hot (20)

Similar to 機械学習入門 (20)