SlideShare a Scribd company logo
数理統計 : モデルを選ぶ
****専攻 **** ****
1
**********************
研究室のMy本棚
情報幾何 漸近論 数理統計 その他 印刷した論文
2
線形回帰 ≹ ∽≡∰ ∫≡∱≸
0.0 0.2 0.4 0.6 0.8 1.0
1.01.21.41.61.82.0
x
y
3
0.0 0.2 0.4 0.6 0.8 1.0
1.01.21.41.61.82.0
x
y
線形回帰 ≹ ∽≡∰ ∫≡∱≸
4
0.0 0.2 0.4 0.6 0.8 1.0
0.00.10.20.3
x
y
データが変わるとモデルも変える
5
0.0 0.2 0.4 0.6 0.8 1.0
0.00.10.20.3
x
y
直線では上手くフィットしない
6
0.0 0.2 0.4 0.6 0.8 1.0
-0.10.00.10.20.3
x
y
0.0 0.2 0.4 0.6 0.8 1.0
-0.10.00.10.20.3
x
cb(x)
2次曲線のほうが当てはまりが良い
7
データを予測するモデル
≹ ∽≡∰ ∫≡∱≸
≹ ∽≡∰ ∫≡∱≸∫≡∲≸∲
∮∮∮
≹ ∽≡∰ ∫≡∱≸∫⊢⊢⊢∫≡≮≸≮
どれを選ぶ?
8
高次のモデルは低次のモデルを含む
≦≡∰ ∫≡∱≸≧⊽≦≡∰ ∫≡∱≸∫≡∲≸∲≧
≡∰∻≡∱∻≡∲ ∲≒ について
高次のモデルほど(データの)表現力が豊か
(i.e. 2次のモデルは1次のモデルを含む)
⇒ 高次のモデルを使えばよい?
9
4次のモデルでやってみた
0.0 0.2 0.4 0.6 0.8 1.0
0.00.10.20.3
x
y
0.0 0.2 0.4 0.6 0.8 1.0
0.00.10.20.3
x
cb(x)2次のモデルとほとんど変わらないような・・・
10
余計な次元は使わない
同様のデータを説明する仮説が二つある場合、
より単純な方の仮説を選択せよ
[オッカムの剃刀]
(同等の性能なら)
シンプルなモデルのほうが良いよ
11
• Akaike Information Criterion 最小化:
出来るだけ次元を削減する
: モデルがデータに当てはまる度合い.≠∨≞⊵∩
が同じなら, 次数が小さいほうが選択される≠∨≞⊵∩
≁≉≃∺∽⊡∲≠∨≞⊵∩∫∲≰
: モデルの次数≰
12
他の基準もある
≁≉≃∺∽⊡∲≠∨≞⊵∩∫∲≰
≂≉≃∺∽⊡∲≠∨≞⊵∩∫≰≬≯≧≮
≍≄≌∺∽≂≉≃∽∲
≇≉≃∺∽⊡∲≠∨≞⊵∩∫∲≴≲≇≈⊡∱
∮∮∮
どれが良いかは宗教論争
13
• 新しい情報量基準を計算:
自分の卒論の宣伝
外れ値を自動的に無視.
≉≃≂ ∺∽≮⊢≤≂∨≞≱∻≞≰⊯∩∫≴≲≞≇⊯∻≂ ≞≈⊡∱
⊯
14
ところで最近よく言われること
ビッグデータ?
(統計やってます)
わたし
はじめてあう人
15
ビッグデータは統計ではない(?)
• 「少ないデータからいかに推測するか」が統計
• 数が多けりゃだいたいどうにかなる
• 「処理できるかどうか」という計算機の問題
いや・・・高級な処理は負荷かかるし・・・
どうせ簡単な統計処理しかできないし・・・
16
• ビッグデータ… ではなく
高次元データ
高次元データが注目されている(らしい)
ビッグデータ = データの数が多い
高次元 = データの種類が多い
17
• 色んな種類のデータがある(=高次元)けど
意味のあるデータは一部しかない
世の中のデータの大半は無意味
意味のあるデータを「選ぶ」
18
• 各個体は多様な遺伝子を持っている:
たとえば遺伝子
遺伝子 a b c d e f g h …
個体1 1 0 0 1 1 1 0 1 …
個体2 0 1 1 1 1 1 0 1 …
個体3 1 1 1 0 1 1 0 1 …
個体4 0 0 0 1 1 0 1 0 …
…
個体100 1 1 1 0 1 0 1 1 …
データの種類(多い)
※データの数=100 (少ない)
19
• 色々なモデルを考える:
どの遺伝子が病気に影響するか?
遺伝子aのみが影響すると仮定したモデル
遺伝子bのみが影響すると仮定したモデル
遺伝子a,bが影響すると仮定したモデル
遺伝子a,b,d,e,…が影響すると仮定したモデル
全ての遺伝子が影響すると仮定したモデル
…
モ
デ
ル
を
選
ぶ
20
あるモデルが選ばれた
遺伝子a,d,e,hが影響すると仮定したモデル
が選ばれたとする.
遺伝子a,d,e,hが病気に影響していると考えられる.
※ホントはこの表現はよくない
その他の遺伝子は無関係.
21
• (とりあえず)色んな種類のデータを用意する.
• 有用なデータを「選ぶ」.
どのデータが有用かは分からない
学生のテストの点数を予測したい
•身長
•体重
•視力
•塾に通った年数、…etc
有用なデータを
「選ぶ」
22
• 不要なデータを自動的に無視: スパース推定
実はモデルを選ぶまでもない
Least
Absolute
Shrinkage and
Selection
Operator
≌≁≓≓≏∺∽≡≲≧≭≩≮⊯
⊩≫≹⊡≘⊯≫∲∲ ∫⊸≫⊯≫∱
⊪
23
ディスカッションの時間があるらしい…
24
• 数理的なテクニックのイメージを掴むこと
• 証明には(あんまり)興味が無い
• プログラムは書か(け)ないが
アルゴリズムを考えるのは好き
• 工学系の話の数理的な裏付けとか大好き
自分の興味対象:
おわり.
25

More Related Content

PDF
Listを串刺し
PDF
おかしなアンケート
PDF
How to study stat
PDF
How to study stat for freshmans
PDF
kggk3
PDF
kggk2
PDF
golden ratio
PDF
kggk
Listを串刺し
おかしなアンケート
How to study stat
How to study stat for freshmans
kggk3
kggk2
golden ratio
kggk
Ad

20141130 for upload