SlideShare a Scribd company logo
5
Most read
8
Most read
9
Most read
Jaccard係数の計算式(1)
KH CoderではJaccard係数を多用しています。たと
えば語Aと語Bの共起の程度をJaccard係数で測る計
算式は以下のようになります。
「語Aを含み」なおかつ「語Bを含む」文書の数
「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数
図解にするとより分かりやすく→
語Aを含む文書 語Bを含む文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると?
語Cを含む文書
• 単純に共起する数をかぞえると、語Aの有無に関係
なくどこにでも多く出現する語Cが上位に。
• Jaccard係数では割合を見るので、語Cは下位になり、
語Aがある時に特によく出てくる共起語が上位に
語Aを含む文書
それでも、ある程度は数も必要
語Dを含む文書
• 語Dはほぼすべて語Aと共起しているが、数が少ない
ので「語Aが出てくるときには語Dもよく出てくる」
とは言えない
• Jaccard係数では割合を見るので語Dも下位に
→ 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視
• 一部の係数は、(c) 語Aも語Bも含まない文書がたく
さんあると、語Aと語Bの類似度が高いと見なす
• 計量テキスト分析では、(c)の文書は常に大量に存在
するので、(c)を無視するJaccard係数を採用
語Aを含む文書 語Bを含む文書
すべての文書
(c) 語Aも語Bも含まない文書
ところで「文書」ってなに?
• 設定を変えなければ(デフォルトでは)
– Excel・CSVデータの場合は、1つのセルが1つの「文書」
– テキストデータの場合は、1つの段落(改行で区切れられ
た部分)が1つの「文書」
• 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる
• KH CoderではH1からH5による見出しを加えることで、
節・章・部など様々な単位での分析が可能

More Related Content

PDF
Jaccard係数の計算式と特徴(2)
PDF
統計的係り受け解析入門
PPTX
学習時に使ってはいないデータの混入「リーケージを避ける」
PDF
研究室における研究・実装ノウハウの共有
PPTX
SHAP値の考え方を理解する(木構造編)
PDF
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
PDF
ベイズ推論による機械学習入門 第4章
PDF
強化学習その1
Jaccard係数の計算式と特徴(2)
統計的係り受け解析入門
学習時に使ってはいないデータの混入「リーケージを避ける」
研究室における研究・実装ノウハウの共有
SHAP値の考え方を理解する(木構造編)
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
ベイズ推論による機械学習入門 第4章
強化学習その1

What's hot (20)

PDF
Statistical Semantic入門 ~分布仮説からword2vecまで~
PPTX
差分プライバシーとは何か? (定義 & 解釈編)
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
PDF
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
PDF
[DLHacks]DeepなSSM
PDF
LDA入門
PDF
cvpaper.challenge 研究効率化 Tips
PPTX
Visual Studio CodeでRを使う
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PPTX
最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Py...
PDF
機械学習で泣かないためのコード設計
PDF
研究発表を準備する(2022年版)
PDF
Hyperoptとその周辺について
PDF
エンジニアも知っておきたいAI倫理のはなし
PDF
機械学習で泣かないためのコード設計 2018
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
Active Learning 入門
Statistical Semantic入門 ~分布仮説からword2vecまで~
差分プライバシーとは何か? (定義 & 解釈編)
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
最適輸送の計算アルゴリズムの研究動向
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
[DLHacks]DeepなSSM
LDA入門
cvpaper.challenge 研究効率化 Tips
Visual Studio CodeでRを使う
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Py...
機械学習で泣かないためのコード設計
研究発表を準備する(2022年版)
Hyperoptとその周辺について
エンジニアも知っておきたいAI倫理のはなし
機械学習で泣かないためのコード設計 2018
【DL輪読会】時系列予測 Transfomers の精度向上手法
Active Learning 入門
Ad

Viewers also liked (20)

PDF
KH Coder 2 チュートリアル(スライド版)
PDF
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
DOC
النص الكامل لمدونة الشغل
PDF
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
PDF
GraphX Advent Calendar Day17
PPTX
おそ松さんとラブライブ!の2ちゃんねるスレ分析
PPTX
ライトノベル市場の現状分析
PPTX
日本ゲーム産業史(関西大学講演)Up用
PPTX
電子書籍アプリレビューのテキストマイニング分析
PPTX
「なろう系」の特徴は?
PDF
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
PDF
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
PPTX
Jap2017 ss65 優しいベイズ統計への導入法
PDF
広告プラットフォーム立ち上げ百鬼夜行
PDF
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
PDF
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
PDF
マッチングサービスにおけるKPIの話
PPTX
アドテクスタジオのデータ分析基盤について
PDF
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
PDF
エクセルでテキストマイニング TTM2HADの使い方
KH Coder 2 チュートリアル(スライド版)
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
النص الكامل لمدونة الشغل
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
GraphX Advent Calendar Day17
おそ松さんとラブライブ!の2ちゃんねるスレ分析
ライトノベル市場の現状分析
日本ゲーム産業史(関西大学講演)Up用
電子書籍アプリレビューのテキストマイニング分析
「なろう系」の特徴は?
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Jap2017 ss65 優しいベイズ統計への導入法
広告プラットフォーム立ち上げ百鬼夜行
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
マッチングサービスにおけるKPIの話
アドテクスタジオのデータ分析基盤について
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
エクセルでテキストマイニング TTM2HADの使い方
Ad

More from khcoder (7)

PDF
KH Coder 3 チュートリアル(スライド版)
PDF
【旧版】KH Coder 3 チュートリアル(スライド版)
PDF
Quick Start Tutorial of KH Coder 3
PDF
[OUTDATED] Quick Start Tutorial of KH Coder 3
PDF
Executing SQL Queries and Making Plugins
PDF
Example of Using R #1: Exporting the Result of Correspondence Analysis
PDF
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)
Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3
Executing SQL Queries and Making Plugins
Example of Using R #1: Exporting the Result of Correspondence Analysis
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...

Jaccard係数の計算式と特徴(1)