第 4 回さくさくテキストマイニング勉強会



  初めての機械学習
〜機械が学習するって何?〜


       早川 敦士
http://www.slideshare.net/gepuro/
     に資料が公開されています。
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
自己紹介


         早川 敦士
    電気通信大学電気通信学部
     システム工学科 三年
     TwitterID: @gepuro

さくさくテキストマイニング勉強会がきっかけで
    テキストマイニングを始めました。

 統計学や品質管理に興味があります。
自己紹介

              はてなダイアリー
      http://d.hatena.ne.jp/gepuro/

                    所属
     Microcomputer Making Association
  http://wiki.mma.club.uec.ac.jp/hayakawa

         ICES (留学生国際交流会)

           新入生歓迎実行委員会

DBCLS (ライフサイエンス統合データベースセンター)
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
機械学習とは 〜初めに〜

   機械学習については、初めて勉強しました。
   名前だけは、よく聞くけど実態がよく分からず
    にいました。
   そろそろ機械学習に挑戦してみたい。
   今日は、この場をお借りして機械学習について
    学んだ事を発表したいと思います。
   テキスト分類の学習という点に焦点をあてて話
    したいと思います。
機械学習とは




まずは wikipedia で調べてみました。
機械学習とは



機械学習(きかいがくしゅう、 Machine learning )と
●

は、人工知能における研究課題の一つで、人間が自
然に行っている学習能力と同様の機能をコンピュータ
で実現させるための技術・手法のことである。
           ( wikipedia 機械学習より)
機械学習とは



機械学習のアルゴリズムは3つの分類がある。
●




       教師あり学習
       教師なし学習
        強化学習
機械学習とは


教師あり学習
●




事前にデータとラベルを与えて、素性抽出をし
て、分類器を作成すること。

例:サポートベクターマシーン、単純ベイズ分
●

類器、ブースティング etc
機械学習とは


教師なし学習
●




データの分布など、データ背後にある特徴を見
つける学習

例:クラスター分析、主成分分析、自己組織化
●

マップ etc
機械学習とは

強化学習
●




ある環境内において、行動によって発生する報
酬を元に、現在取るべき行動を決定する方法を学
習する

報酬が最大化するように行動し、これを繰り返
●

して、より良い行動を出来るようにする。

動的計画法に似ている。
●
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
学習手順




機械学習って言うのが、どーいうのか分かった
●


し、どんな風にして教師あり学習を行なっていく
のだろうか?
学習手順




機械学習って言うのが、どーいうのか分かった
●


し、どんな風にして教師あり学習を行なっていく
のだろうか?
学習手順



1.正しいラベルが付けられたコーパスを用意する
2.コーパスを訓練・検証・テストセットに分割
3.訓練セットで素性抽出し、分類器モデル構築
4.検証セットで素性の選択・調整をする
5.テストセットで分類器を評価する
学習手順


何故、コーパスを3つに分ける?
●




a)構築した分類器を正しく評価する為に、テスト
セットが必要になる。

b)検証セット無しでは、分類器の精度向上の為に
使用するコーパスが準備出来無い。
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
教師ありテキスト分類器




例えば、こんな分類器がある。
●




 文書分類、品詞タグ付け、文分割、対話動作タ
イプの識別、含意関係の決定 etc
教師ありテキスト分類器


●文書分類:テキストにカテゴリのラベル付け
●品詞タグ付け:その単語の品詞タグを選択

●文分割:続いてきた文が終了するかどうか判別

●対話動作タイプの識別:発言が挨拶、質問、回答、主

張、釈明のどのタイプの行動か
●含意関係の決定:与えられたテキスト断片が仮説と

呼ばれる他のテキストの意味を含むか否か
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
決定木

入力データのラベル選択のフローチャート
●




              wikipedia より
決定木


構成要素
●




決定節点:素性の値をチェックする
●




葉節点:ラベルを割りあてる
●




根節点:フローチャートの最初の決定節点
●
決定木



決定木の構築
●




1.節点を一つだけもつ決定株を考える
2.どの素性が分類の正答率が高いか
3.高頻度で現れるラベルを割りあてる
4.決定株をより大きな決定木に育てる
決定木


決定木の特徴
●



●単純で分かりやすい
●階層構造を持つカテゴリに分類するのに適している

●決定着の株にいくほど過学習が起きる

●スポーツ、自動車、推理小説など、独立したトピックご

とに分類する場合に決定木の上部付近では、限られ
た分岐しか行えない
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
単純ベイズ分類器


入力に対してどのラベルを割り当てるか決定するの
●

に、全ての素性が影響する




       トーマス・ベイズ (1702 年 ~1761 年 )
単純ベイズ分類器

手順
●




1.ラベルの出現頻度=事前確率を計算する
2.それぞれ素性が出現する確率を求める
3.ラベル尤度=事前確率x素性の貢献度
4.最も高い尤度と推定されるラベルを入力値とする
5.このラベルから素性を生成する
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
最大エントロピー分類器



分類器の性能を最大化するパラメータのセットを探す
●

対数線形モデルとも言う

訓練コーパスの全体尤度を最大化する
最大エントロピー分類器


考え方
●



●乱数でパラメータの初期値を決め、最適解に近づくよ
うに繰り返す。
●最適化否かの判断基準は必ずしも存在しない。

●単純ベイズ分類器のモデルを一般化したもの
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
単純ベイズ・最大エントロピー分類器
           の比較
単純ベイズ分類器との比較
●




単純ベイズ分類器:
●

事前確率と素性・ラベルのペアで素性の貢献度を知る
多くのコーパスが必要
生成的分類器

最大エントロピー分類器:
●

素性とラベルの組み合わせが自由
少ないコーパスでも可能
条件付き分類器
単純ベイズ・最大エントロピー分類器
         の比較
分かる事            単純ベイズ分類器   最大エントロピー分類器
入力に対しての可能性の高い       ○          ○
ラベル
入力に対してのラベルの尤度       ○          ○
可能性の高い入力値           ○           ☓
入力値の尤度              ○           ☓
ラベルに対しての入力値の尤       ○           ☓
度
2つのうち1つの値を持つ入       ○           ☓
力に対して、可能性の高いラ
ベル
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
まとめ


機械学習には様々なアルゴリズムがある。
●




それぞれに特徴があり、適材適所で使う必要がある。
●




学習させる事によって、テキストの分類が出来る。
●
目次

●自己紹介
●機械学習とは

●学習手順

●教師ありテキスト分類器

●決定木

●単純ベイズ分類器

●最大エントロピー分類器

●単純ベイズ・最大エントロピー分類器の比較

●まとめ

●参考資料
参考資料




            出版  O'RELLY  
           入門 自然言語処理
Steven Bird, Ewan Klein, Edward Loper 著
 萩原 正人、中山 敬広、水野 貴明 訳
おわり




ご清聴ありがとうございました。

More Related Content

PDF
Confluence上でレポート自動生成によってKPIを共有する
PDF
論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...
PDF
春期インターンシップについて(レキサス)
PDF
第17回コンピュータビジョン勉強会@関東
PDF
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
PPTX
ベイズ基本0425
PDF
社内勉強会-ナイーブベイジアンフィルタの実装
PPTX
Prml 1.3~1.6 ver3
Confluence上でレポート自動生成によってKPIを共有する
論文輪読会 - A Multi-level Trend-Renewal Process for Modeling Systems with Recurre...
春期インターンシップについて(レキサス)
第17回コンピュータビジョン勉強会@関東
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
ベイズ基本0425
社内勉強会-ナイーブベイジアンフィルタの実装
Prml 1.3~1.6 ver3

Viewers also liked (19)

PPTX
Webサービスを分類してみた
PPTX
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PPTX
機械学習基礎(3)(クラスタリング編)
PDF
ナイーブベイズによる言語判定
PDF
合コンで学ぶベイズ推定
PDF
いいからベイズ推定してみる
PPTX
機械学習基礎(2)(パラメータ推定)
PDF
機械学習基礎(1)(基礎知識編-最適化問題)
PDF
クラシックな機械学習の入門 2.ベイズ統計に基づく推論
PPT
大森ゼミ新歓
PDF
はじめてのベイズ推定
PDF
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
PDF
カップルが一緒にお風呂に入る割合をベイズ推定してみた
PPTX
要因計画データに対するベイズ推定アプローチ
PDF
ベイズ入門
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
PDF
最適化超入門
PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Webサービスを分類してみた
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
機械学習基礎(3)(クラスタリング編)
ナイーブベイズによる言語判定
合コンで学ぶベイズ推定
いいからベイズ推定してみる
機械学習基礎(2)(パラメータ推定)
機械学習基礎(1)(基礎知識編-最適化問題)
クラシックな機械学習の入門 2.ベイズ統計に基づく推論
大森ゼミ新歓
はじめてのベイズ推定
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
カップルが一緒にお風呂に入る割合をベイズ推定してみた
要因計画データに対するベイズ推定アプローチ
ベイズ入門
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
最適化超入門
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Ad

Similar to Machine learning for biginner (8)

PPTX
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
PPTX
Un supervised learning
PDF
Centerlossを読んでみた_20170618@abeja
PPTX
機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介
PPTX
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
PDF
Pythonによる機械学習入門 ~Deep Learningに挑戦~
PDF
Nlpaper.challenge2 nlp2
PDF
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
第7回 KAIM 金沢人工知能勉強会 回帰分析と使う上での注意事項
Un supervised learning
Centerlossを読んでみた_20170618@abeja
機械学習をこれから始める人が読んでおきたい 特徴選択の有名論文紹介
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Nlpaper.challenge2 nlp2
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
Ad

More from Atsushi Hayakawa (20)

PDF
tidyverse.orgの翻訳
PDF
Zepp play soccerで測ってみた
PDF
dataclassとtypehintを使ってますか?
PDF
トライアスロンとgepuro task views V2.0 Japan.R 2018
PPTX
バンクーバー旅行記
PPTX
Analyze The Community Of Tokyo.R
PPTX
Visual Studio CodeでRを使う
PDF
トライアスロンと僕 - Japan.R 2017
PDF
simputatoinで欠損値補完 - Tokyo.R #65
PDF
useR!2017 in Brussels
PPTX
Japan.R 2016の運営
PPTX
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
PDF
統計的学習の基礎 4.4~
PDF
Splatoon界での壮絶な戦い&Japan.Rの宣伝
PDF
最近のクラウドストレージの事情と私情
PDF
gepuro task views
PDF
nginxのログを非スケーラブルに省メモリな方法で蓄積する
PDF
implyを用いたアクセスログの可視化
PDF
イケてる分析基盤をつくる
PDF
らずぱいラジコン
tidyverse.orgの翻訳
Zepp play soccerで測ってみた
dataclassとtypehintを使ってますか?
トライアスロンとgepuro task views V2.0 Japan.R 2018
バンクーバー旅行記
Analyze The Community Of Tokyo.R
Visual Studio CodeでRを使う
トライアスロンと僕 - Japan.R 2017
simputatoinで欠損値補完 - Tokyo.R #65
useR!2017 in Brussels
Japan.R 2016の運営
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
統計的学習の基礎 4.4~
Splatoon界での壮絶な戦い&Japan.Rの宣伝
最近のクラウドストレージの事情と私情
gepuro task views
nginxのログを非スケーラブルに省メモリな方法で蓄積する
implyを用いたアクセスログの可視化
イケてる分析基盤をつくる
らずぱいラジコン

Machine learning for biginner