SlideShare a Scribd company logo
データマイニング
  クラス分類(IV) -
手書き文字データの説明
    k-NN

        瀬々 潤
  sesejun@is.ocha.ac.jp
・数字判別の問題
・k-最近点分類法
先週までの話
• クラス分類問題を扱ってきた
 • 例題として、コンタクトレンズを処方するか、し
     ないかのデータ
•   手法として扱ってきた物
    •決定木
    •NaiveBayes
    •AdaBoost
•   テスト(属性)が、離散値(例題では2値)で表さ
    れるもののみ扱った
数字判別の流れ
172                                                                                    ¨
                                                                  D. DECOSTE AND B. SCHOLKOPF




                                                                                                 画像



                                                                                                文字判別で利用する
                                                                                                形式に変換

                                                                                                  この授業ではこちらに注力

                                                                                                文字の判別
Figure 2. The first 100 USPS training images, with class labels.


(1993) used an enlarged training set of size 9709, containing some additional machine-
printed digits, and note that this improves the accuracy on the test set. Similarly, Bot-
tou and Vapnik (1992) used a training set of size 9840. Since there are no machine-
                                                                                                             4
数字画像をデータへ変換
      •   画像データを数値に変換します
          •今回利用するUSPSの画像データは,256階調(8bit)の
           白黒画像
              •
            ラスタ画像(ベクタ画像ではない)
              •
            各ドットが1つの値(輝度)を持つ
          •縦,横それぞれ16ドット=256ドット
              •
            256次元のデータ
      •   文字の書き順や,どちらの方向に向かって線を引いたか,
          と言った情報は,利用できないものとします.

                  黒っぽい                           比較的白っぽい


クラス       0,0     0,1   0,2   0,3   0,4   …   15,12   15,13   15,14   15,15

 2        46      0     22    0     46    …   106     188     138      0
                                                                           5
問題例(1/3): 名称
            クラス
                                属性(アトリビュート,カラム)
           (ラベル)

          ID    クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

          1      2    46    0     22    0     …   138      0

  サンプル    2      1    0     59    13    0     …    13      42
(トランザク    3      8    0     46    56    50    …    42      0
  ション、
 タップル、    …     …     …     …     …     …     …    …       …
 レコード)
          ID    クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

          100    ?    59    13    0     28    …    13      42

          …     …     …     …     …     …     …    …       …


    •    今回は属性の名称としてドットの位置が入っています                              6
問題例(2/3): 訓練とテスト
訓練データ(Training Data): 各サンプルのクラスが分かっている

      ID   クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

      1     2    46    0     22    0     …   138      0

      2     1    0     59    13    0     …    13      42

      3     8    0     46    56    50    …    42      0

      …    …     …     …     …     …     …    …       …

テストデータ(Test Data): 各サンプルのクラスが不明
      ID   クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

     100    ?    59    13    0     28    …    13      42

      …     …    …     …     …     …     …    …       …


                                                          7
問題例(3/3): 問題設定

• 訓練データとテストデータが与えられたとき、テスト
 データのクラスを予測せよ。
 •今回の文字の例では、予め数字の分かっている文字
  画像が与えられている(訓練データ)
 •新しい文字が与えられた時(テストデータ)、その
  文字に何の数字が書かれているかを予測する


• 画像の問題と言っても、結局クラス分類問題になる

                             8
この授業で用いるデータ
•   USPSの数字データ
    • http://www.cs.toronto.edu/ roweis/data.html
•   0から9の数字それぞれ1,100個
    • 1,000個を訓練データ,100個をテストデータとして扱う
•   全体で10,000個の訓練データ,1,000個のテストデータ
    • このままだと,データがとても大きいので,1,000個の訓練
      データと100個のテストデータのバージョンも配布します
•   画像はすでに,数値に変換をしたものを配布します


•   クラス分類問題だけでなく、クラスタリングでもこのデータを
    利用します
                                                9
クラス分類問題
•   データは訓練データとテストデータに分かれている
•   テストデータのクラスを予測をする問題
•   数字の例では、訓練データが256次元。

訓練データ
         モデル
         を作成


                        予測


テストデータ
               モデルの適用

                              10
多クラスのクラス分類
•   多くのクラス分類アルゴリズムは,2個のクラス(○ or  あ
    るいは,1 or -1 )を分類する用に作成されている
•   数字を当てる問題は,0∼9まで9つ種類があり,実際にはとても
    難しい問題
    •多クラスのクラス分類問題と呼ばれる
    •因に,数値を当てる問題は,回帰問題(regression)と呼ばれる
•   この授業では簡単のため,数値を当てる問題を「0か,それ以
    外」か「1か,それ以外か」といった問題に変更して解く
    •簡単に多クラスに拡張できるアルゴリズムは,本授業内でも,
     多クラスで話を進める



                                     11
画像の距離
       •   2つの画像の距離を測りたい。
           •どの画像が似ているのか、違っているのか。
       •   一例として、マンハッタン距離:
           •点と点を軸に添って測った距離の和
x2
       x

           |dx1 | + |dx2 |
 dx2                                 (A)        (C)
                    y
                              (A) 0001111001110guatda.com/cmx.p010...100
           dx1
                              (C) 0001110000110guatda.com/cmx.p010...100
                        x1
                              多次元ベクトル(上記の図は64次元)

       実数でも計算可能(値の差の絶対値を取れば良い)
       この後の例ではグレースケール(白,黒だけでなく,
       その中間色もある)で話を進める                                     12
様々な距離
•   実数値のデータの距離
    •それぞれのサンプルを多次元上の1点と見なす
        •
      ユークリッド距離
        •
      マンハッタン距離
    •様々な距離があり、状況によって適切なものを利用する

        x2                           x2
               x                             x
                    
                         dx2 + dx2
                           1     2
                                                 |dx1 | + |dx2 |
         dx2                          dx2
                            y                             y

                   dx1                           dx1
                                x1                            x1
    (A) 直線距離(ユークリッド(ノルム)距離)               (B) マンハッタン距離
相関係数(correlation coefficient)
 •   点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える.
 •   点x, y 間の相関係数(Pearson s R)は次式で与えられる
                n
                    i=1 (xi
                       − x)(yi − y )
                         ¯        ¯
     r = n             n
           i=1 (xi − x)2
                     ¯       i=1 (yi − y )2
                                       ¯
 •  2次元上のn点の配置を見ている
  y         y                      y




                x              x                 x
        r≈1             r≈0            r ≈ −1
       正の相関            相関なし            負の相関

 •   距離関数ではない(三角不等式が満たされない)
k-最近点分類法
  (k-最近傍法、
k-Nearest Neighbor)
1-最近点分類
  •最も白と黒が一致する=マンハッタン距離が最も近い
  •最も距離が近い訓練データのクラスを予測とする手法を
  1-最近点分類と呼ぶ

点2の輝度                                          点2の輝度
      B                A                            B               A
                                                                            Eが○なので,
                                   Qに最も近い点はE                                Qを○と予測
           C                                            C
  D                E                            D               E
               Q               G                            Q               G
       F               I                            F               I

                   H                                            H
  K        J               L                    K       J               L
                                    点1の輝度                                       点1の輝度
      (A) 訓練データ                                (B) サンプルのクラス予測



                                                                                   16
K-最近点分類 (K-Nearest Neighbor)
•   属性が似ているサンプルは,クラスも似ている


1. クラスを予測したいテストデータのサンプルをQとする.
2. Qから訓練データ中で最も距離が近いk個のサンプルを選択.
   • 距離空間の選択は任意(後述)
3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス
   とする.
点2の輝度
                                 点2の輝度                            A
                         A                        B
         B                                                C
                 C
                                             D                    E
    D                    E                            F
             F                        3-NN                    Q           G
                     Q           G           H            J
    H            J                                                    I
                             I
                                              K                   L
     K                   L
                                     点1の輝度                                    点1の輝度
     (A) 訓練データ                               (B) サンプルのクラス予測                      17
K-NNの距離関数やKの決め方
•   距離関数
    •近いピクセル同士の距離を重要視する
    •数字の認識に重要そうな場所を重要視する
    •「重要視」は距離関数としては「重み」をつけることに相
     当
        •
       端の点の輝度が50ずれるのより,中央付近の点の輝度が
       10ずれることを重要視するなど
•   Kの値
    •与えられたデータによって値が変化する
    •今のところ答えはない(なので、えいやっ!と決める)
    •いろいろ実験してみて決める
        •
       手動ではなく,自動で実験するには・・・
        •
       クロスバリデーション。統計的な手法、など。
                                 18

More Related Content

PDF
Datamining 5th Knn
PDF
SSA-SOINN
PDF
E-SOINN
PDF
2値分類・多クラス分類
PDF
PoisoningAttackSVM (ICMLreading2012)
PPTX
Javaプログラミング入門【第4回】
PDF
東京大学工学部計数工学科応用音響学 D2 Clustering
PDF
距離と分類の話
Datamining 5th Knn
SSA-SOINN
E-SOINN
2値分類・多クラス分類
PoisoningAttackSVM (ICMLreading2012)
Javaプログラミング入門【第4回】
東京大学工学部計数工学科応用音響学 D2 Clustering
距離と分類の話

What's hot (20)

PDF
人工知能10 サポートベクトルマシン
PDF
PDF
「リア充」で学ぶ線形計画問題(ver0.5.3)
PDF
東京都市大学 データ解析入門 3 行列分解 2
PDF
PRML 4.1 Discriminant Function
PDF
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
PDF
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
PDF
コンピュータ先端ガイド2巻3章勉強会(SVM)
PPTX
パーセプトロン型学習規則
PPTX
スプラトゥーン2 × 数学(訂正版)
PDF
Information-Theoretic Metric Learning
PDF
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
PPTX
Javaプログラミング入門【第5回】
PDF
線形識別モデル
PDF
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
PDF
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
PDF
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
PDF
20111107 cvim(shirasy)
PDF
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
PDF
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
人工知能10 サポートベクトルマシン
「リア充」で学ぶ線形計画問題(ver0.5.3)
東京都市大学 データ解析入門 3 行列分解 2
PRML 4.1 Discriminant Function
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
コンピュータ先端ガイド2巻3章勉強会(SVM)
パーセプトロン型学習規則
スプラトゥーン2 × 数学(訂正版)
Information-Theoretic Metric Learning
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
Javaプログラミング入門【第5回】
線形識別モデル
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
20111107 cvim(shirasy)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
Ad

Viewers also liked (12)

PDF
Datamining r 2nd
PDF
Datamining r 4th
PDF
Datamining r 3rd
PDF
Datamining 9th Association Rule
PDF
bioinfolec_20070706 4th
PDF
Datamining 3rd Naivebayes
PDF
Datamining 2nd decisiontree
PDF
Ohp Seijoen H20 02 Hensu To Kata
PDF
080806
PDF
Datamining r 1st
PDF
Datamining 4th adaboost
PDF
080806
Datamining r 2nd
Datamining r 4th
Datamining r 3rd
Datamining 9th Association Rule
bioinfolec_20070706 4th
Datamining 3rd Naivebayes
Datamining 2nd decisiontree
Ohp Seijoen H20 02 Hensu To Kata
080806
Datamining r 1st
Datamining 4th adaboost
080806
Ad

Similar to Datamining 5th knn (20)

PDF
Appendix document of Chapter 6 for Mining Text Data
PPTX
距離とクラスタリング
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
PDF
DS Exercise Course 4
PPTX
Pythonとdeep learningで手書き文字認識
PDF
PDF
距離まとめられませんでした
PDF
PFI Christmas seminar 2009
PDF
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
PPTX
Ym20121122
PDF
PRML復々習レーン#9 前回までのあらすじ
PDF
Relative attributes
PPTX
[機械学習]文章のクラス分類
PPTX
卒研発表 バースカ(確認済み)
PDF
数式をnumpyに落としこむコツ
PPTX
Prml 1.3~1.6 ver3
PDF
データマイニング勉強会3
PDF
行列計算を利用したデータ解析技術
PDF
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
DOCX
マハラノビス距離とユークリッド距離の違い
Appendix document of Chapter 6 for Mining Text Data
距離とクラスタリング
データサイエンス概論第一=2-1 データ間の距離と類似度
DS Exercise Course 4
Pythonとdeep learningで手書き文字認識
距離まとめられませんでした
PFI Christmas seminar 2009
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
Ym20121122
PRML復々習レーン#9 前回までのあらすじ
Relative attributes
[機械学習]文章のクラス分類
卒研発表 バースカ(確認済み)
数式をnumpyに落としこむコツ
Prml 1.3~1.6 ver3
データマイニング勉強会3
行列計算を利用したデータ解析技術
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
マハラノビス距離とユークリッド距離の違い

More from sesejun (20)

PDF
RNAseqによる変動遺伝子抽出の統計: A Review
PDF
バイオインフォマティクスによる遺伝子発現解析
PDF
次世代シーケンサが求める機械学習
PDF
20110602labseminar pub
PDF
20110524zurichngs 2nd pub
PDF
20110524zurichngs 1st pub
PDF
20110214nips2010 read
PDF
Datamining 9th association_rule.key
PDF
Datamining 8th hclustering
PDF
Datamining 6th svm
PDF
Datamining 3rd naivebayes
PDF
Datamining 7th kmeans
PDF
100401 Bioinfoinfra
PDF
Datamining 8th Hclustering
PDF
Datamining 9th Association Rule
PDF
Datamining 8th Hclustering
PDF
Datamining 7th Kmeans
PDF
Datamining R 4th
PDF
Datamining 6th Svm
PDF
Datamining 4th Adaboost
RNAseqによる変動遺伝子抽出の統計: A Review
バイオインフォマティクスによる遺伝子発現解析
次世代シーケンサが求める機械学習
20110602labseminar pub
20110524zurichngs 2nd pub
20110524zurichngs 1st pub
20110214nips2010 read
Datamining 9th association_rule.key
Datamining 8th hclustering
Datamining 6th svm
Datamining 3rd naivebayes
Datamining 7th kmeans
100401 Bioinfoinfra
Datamining 8th Hclustering
Datamining 9th Association Rule
Datamining 8th Hclustering
Datamining 7th Kmeans
Datamining R 4th
Datamining 6th Svm
Datamining 4th Adaboost

Recently uploaded (9)

PDF
Syslabo_Company Guide_for saleshub_20250808
PDF
【QYResearch】世界製薬業界の市場変革と将来展望における多角的な事業展開の探求
PPTX
「AI×仕事の進め方」研修資料.pptx RIZAPビジネスイノベーション株式会社
PPTX
Document from Suhani (2).pptx on the following topic
PDF
西都 採用サイト掲載用ピッチ資料 | 安心して働ける環境と成長できるキャリアパス
PDF
Fellowship Co.,Ltd. Company Overview for Students
PPTX
株式会社フライク_______採用ピッチ資料_____update20250801
PDF
自動鉱山スキャナー、グローバルトップ11企業のランキングと市場シェア2025~2031年.pdf
PDF
AI活用の成果が変わる!生成AI時代の速読・読解力トレーニング「AI Reading Lab」
Syslabo_Company Guide_for saleshub_20250808
【QYResearch】世界製薬業界の市場変革と将来展望における多角的な事業展開の探求
「AI×仕事の進め方」研修資料.pptx RIZAPビジネスイノベーション株式会社
Document from Suhani (2).pptx on the following topic
西都 採用サイト掲載用ピッチ資料 | 安心して働ける環境と成長できるキャリアパス
Fellowship Co.,Ltd. Company Overview for Students
株式会社フライク_______採用ピッチ資料_____update20250801
自動鉱山スキャナー、グローバルトップ11企業のランキングと市場シェア2025~2031年.pdf
AI活用の成果が変わる!生成AI時代の速読・読解力トレーニング「AI Reading Lab」

Datamining 5th knn

  • 1. データマイニング クラス分類(IV) - 手書き文字データの説明 k-NN 瀬々 潤 sesejun@is.ocha.ac.jp
  • 3. 先週までの話 • クラス分類問題を扱ってきた • 例題として、コンタクトレンズを処方するか、し ないかのデータ • 手法として扱ってきた物 •決定木 •NaiveBayes •AdaBoost • テスト(属性)が、離散値(例題では2値)で表さ れるもののみ扱った
  • 4. 数字判別の流れ 172 ¨ D. DECOSTE AND B. SCHOLKOPF 画像 文字判別で利用する 形式に変換 この授業ではこちらに注力 文字の判別 Figure 2. The first 100 USPS training images, with class labels. (1993) used an enlarged training set of size 9709, containing some additional machine- printed digits, and note that this improves the accuracy on the test set. Similarly, Bot- tou and Vapnik (1992) used a training set of size 9840. Since there are no machine- 4
  • 5. 数字画像をデータへ変換 • 画像データを数値に変換します •今回利用するUSPSの画像データは,256階調(8bit)の 白黒画像 • ラスタ画像(ベクタ画像ではない) • 各ドットが1つの値(輝度)を持つ •縦,横それぞれ16ドット=256ドット • 256次元のデータ • 文字の書き順や,どちらの方向に向かって線を引いたか, と言った情報は,利用できないものとします. 黒っぽい 比較的白っぽい クラス 0,0 0,1 0,2 0,3 0,4 … 15,12 15,13 15,14 15,15 2 46 0 22 0 46 … 106 188 138 0 5
  • 6. 問題例(1/3): 名称 クラス 属性(アトリビュート,カラム) (ラベル) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 サンプル 2 1 0 59 13 0 … 13 42 (トランザク 3 8 0 46 56 50 … 42 0 ション、 タップル、 … … … … … … … … … レコード) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … • 今回は属性の名称としてドットの位置が入っています 6
  • 7. 問題例(2/3): 訓練とテスト 訓練データ(Training Data): 各サンプルのクラスが分かっている ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 2 1 0 59 13 0 … 13 42 3 8 0 46 56 50 … 42 0 … … … … … … … … … テストデータ(Test Data): 各サンプルのクラスが不明 ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … 7
  • 8. 問題例(3/3): 問題設定 • 訓練データとテストデータが与えられたとき、テスト データのクラスを予測せよ。 •今回の文字の例では、予め数字の分かっている文字 画像が与えられている(訓練データ) •新しい文字が与えられた時(テストデータ)、その 文字に何の数字が書かれているかを予測する • 画像の問題と言っても、結局クラス分類問題になる 8
  • 9. この授業で用いるデータ • USPSの数字データ • http://www.cs.toronto.edu/ roweis/data.html • 0から9の数字それぞれ1,100個 • 1,000個を訓練データ,100個をテストデータとして扱う • 全体で10,000個の訓練データ,1,000個のテストデータ • このままだと,データがとても大きいので,1,000個の訓練 データと100個のテストデータのバージョンも配布します • 画像はすでに,数値に変換をしたものを配布します • クラス分類問題だけでなく、クラスタリングでもこのデータを 利用します 9
  • 10. クラス分類問題 • データは訓練データとテストデータに分かれている • テストデータのクラスを予測をする問題 • 数字の例では、訓練データが256次元。 訓練データ モデル を作成 予測 テストデータ モデルの適用 10
  • 11. 多クラスのクラス分類 • 多くのクラス分類アルゴリズムは,2個のクラス(○ or  あ るいは,1 or -1 )を分類する用に作成されている • 数字を当てる問題は,0∼9まで9つ種類があり,実際にはとても 難しい問題 •多クラスのクラス分類問題と呼ばれる •因に,数値を当てる問題は,回帰問題(regression)と呼ばれる • この授業では簡単のため,数値を当てる問題を「0か,それ以 外」か「1か,それ以外か」といった問題に変更して解く •簡単に多クラスに拡張できるアルゴリズムは,本授業内でも, 多クラスで話を進める 11
  • 12. 画像の距離 • 2つの画像の距離を測りたい。 •どの画像が似ているのか、違っているのか。 • 一例として、マンハッタン距離: •点と点を軸に添って測った距離の和 x2 x |dx1 | + |dx2 | dx2 (A) (C) y (A) 0001111001110guatda.com/cmx.p010...100 dx1 (C) 0001110000110guatda.com/cmx.p010...100 x1 多次元ベクトル(上記の図は64次元) 実数でも計算可能(値の差の絶対値を取れば良い) この後の例ではグレースケール(白,黒だけでなく, その中間色もある)で話を進める 12
  • 13. 様々な距離 • 実数値のデータの距離 •それぞれのサンプルを多次元上の1点と見なす • ユークリッド距離 • マンハッタン距離 •様々な距離があり、状況によって適切なものを利用する x2 x2 x x dx2 + dx2 1 2 |dx1 | + |dx2 | dx2 dx2 y y dx1 dx1 x1 x1 (A) 直線距離(ユークリッド(ノルム)距離) (B) マンハッタン距離
  • 14. 相関係数(correlation coefficient) • 点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える. • 点x, y 間の相関係数(Pearson s R)は次式で与えられる n i=1 (xi − x)(yi − y ) ¯ ¯ r = n n i=1 (xi − x)2 ¯ i=1 (yi − y )2 ¯ • 2次元上のn点の配置を見ている y y y x x x r≈1 r≈0 r ≈ −1 正の相関 相関なし 負の相関 • 距離関数ではない(三角不等式が満たされない)
  • 16. 1-最近点分類 •最も白と黒が一致する=マンハッタン距離が最も近い •最も距離が近い訓練データのクラスを予測とする手法を 1-最近点分類と呼ぶ 点2の輝度 点2の輝度 B A B A Eが○なので, Qに最も近い点はE Qを○と予測 C C D E D E Q G Q G F I F I H H K J L K J L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 16
  • 17. K-最近点分類 (K-Nearest Neighbor) • 属性が似ているサンプルは,クラスも似ている 1. クラスを予測したいテストデータのサンプルをQとする. 2. Qから訓練データ中で最も距離が近いk個のサンプルを選択. • 距離空間の選択は任意(後述) 3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス とする. 点2の輝度 点2の輝度 A A B B C C D E D E F F 3-NN Q G Q G H J H J I I K L K L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 17
  • 18. K-NNの距離関数やKの決め方 • 距離関数 •近いピクセル同士の距離を重要視する •数字の認識に重要そうな場所を重要視する •「重要視」は距離関数としては「重み」をつけることに相 当 • 端の点の輝度が50ずれるのより,中央付近の点の輝度が 10ずれることを重要視するなど • Kの値 •与えられたデータによって値が変化する •今のところ答えはない(なので、えいやっ!と決める) •いろいろ実験してみて決める • 手動ではなく,自動で実験するには・・・ • クロスバリデーション。統計的な手法、など。 18