19. Sim (A, B) = 0.4
Sim (A, C) = 0.3
Sim (B, C) = 0.3
2016/10/01 REQUIRE26 32
カテゴリデータの近接性
個体 v01 v02 v03 v04 v05 v06 v07 v08 v09 v10
A a a a b c c b a a b
B a b c b a a b b c b
C b a c b b c a a c a
A B C
A -
B 0.4 -
C 0.3 0.3 -
20. ポイント : dに積極的な意味があるか?
ある例 : 性別
難しい例 : ⽣物の特徴の有無
† 翼の有無
† 毒性の有無
2016/10/01 REQUIRE26 33
⼆値データの近接性
個体A
Outcome 1 0 Total
個体B 1 a b a+b
0 c d c+d
Total a+c b+d a+b+c+d
21. 2016/10/01 REQUIRE26 34
⼆値データの近接性
Similarity measure 数式
S1: Matching coefficient sij = (a + d) / (a + b + c + d)
S2: Jaccard coefficient (1908) sij = a / (a + b + c)
S3: Rogers and Tanimoto (1960) sij = (a + d) / [a + 2(b + c) + d]
S4: Sneath and Sokal (1973) sij = a / [a + 2(b + c)]
S5: Gower and Legendre (1986) sij = (a + d) / [a + (1/2) * (b + c) + d]
S6: Gower and Legendre (1986) sij = a / [a + (1/2) * (b + c)]
Everitt et al, 2011
22. dij + dim ≧ djmなら、幾何学的に算出
ユークリッド距離 (l2 norm)
2016/10/01 REQUIRE26 35
連続データの距離の算出
⊿ =
i
j
m
dij
dim djm
0
0
0
dij = Σ wk(xik – xjk)2
k = 1
p 1/2
23. マンハッタン距離 (City block distance)
ミンコフスキ距離
2016/10/01 REQUIRE26 36
連続データの距離の算出
dij = Σ wk | xik – xjk|
k = 1
p
dij = Σ wr
k (xik – xjk)r
k = 1
p 1/r
24. キャンベラ距離
xik = xjk = 0 の場合 : 0
xik ≠ 0 or xjk ≠ 0の場合 :
ピアソンの相関係数
-1 < dij < 1
尺度系が合わない測度間の距離には使えない
† cf. xi = (1, 2, 3) vs xj = (3, 6, 9)
2016/10/01 REQUIRE26 37
連続データの距離の算出
dij = Σ wk |xik – xjk| / (|xik| + |xjk|)
k = 1
p
62. 2016/10/01 REQUIRE26 77
参考⽂献
Rajilic-Stojanovic M, de Vos WM. The first
1000 cultured species of the human
gastrointestinal microbiota. FEMS Microbiol
Rev 2014; 38: 996-1047.