智慧型計算實驗室
指導教授: 林文揚 教授
作者: 藍琳
簡報人: 王敏賢
On the Feasibility of Rough-Set-based
ADR Signaling from Spontaneous
Reporting Data with Missing Values
甚麼是ADR
• Adverse Drug Reaction(藥物不良反應)
• ADR rule:
Predc, drug → symptom
• e.g. sex=“Female”, drug=“d1” → symptom=“s1”
ADR 案例
• 1950年在德國上市的Thalidomide在當時被
認為是最安全且快速的鎮定劑之一,經常
用在抑制懷孕期間的嘔吐感。
• 造成超過12000畸形胎兒,並在多個國家被
發現容易造成多發性神經炎。
Thalidomide產生畸形胎兒
Spontaneous Reporting System(SRS)
• 自發性通報系統
• FDA Adverse Event Reporting System (FAERS)
• 所有通報資料以line-oriented格式儲存,並
定期開放。
FAERS開放資料
FAERS開放資料
FAERS定期公佈研究報告
http://goo.gl/VJzvCG
Drug Safety Labeling Changes
http://goo.gl/FEoWsj 2008-01~2014-10 ,每個月一份清單
The 2*2 contingency table
Predc. Symptom Other symptom Total
Drug a b a + b
other drugs c d c + d
Total a + c b + d N = a + b +c + d
•For ADR signal detection
ADR信號量測方式
• Frequentist methods
– Proportional Reporting Ratio(PRR)
– Reporting Odds Ratio(ROR)
• Bayesian methods
– Bayesian Confidence Propagation Neural network(BCPNN)
– Multi-item Gamma Poisson Shrinker(MGPS)
d)c/(c
b)a/(a


db
ca
/
/
ADR信號量測方式
0
7
14
21
28
35
04Q1
04Q3
05Q1
05Q3
06Q1
06Q3
07Q1
07Q3
08Q1
08Q3
09Q1
09Q3
10Q1
10Q3
11Q1
11Q3
12Q1
12Q3
13Q1
13Q3
世界不會永遠是美好的!!
SRS資料問題
• 資料並非完全嚴謹,無法驗證其可靠度。
• 在資料探勘的過程中,帶有缺漏值的資料
對結果影響很大。
Missing Value
幾個處理Miss Value的傳統方法
• Deletion methods:
– Listwise deletion
– Pairwise deletion
5104523
3528835
3720493
4709159
Total
Listwise
Pairwise-age
Pairwise-gender
ROUGH SET BASED METHOD
Rough Set Theory
• 由波蘭數學家Zdzisław I.
Pawlak(1926-2006)在1982
年提出,是一個用來分析
帶有不確定性資料的工具。
• 用以求出明確集(crisp set)
的上、下逼近集合。
一些簡單的名詞
Case Height Weight Gender
1 170 60 Male
2 165 55 Female
3 155 45 Female
4 150 65 Male
S={U,A}
•U={1,2,3,4}
•A={Height,Weight,Gender}
Lower and Upper Approximations
• 目前有一資訊系統 S={U,A} , 設X、P分別為
U、A的子集合,則PX的上下近似集定義如
下:
}][|{ X
P
eUeXP 
}][|{  X
P
eUeXP
Lower and Upper Approximations
Lower approximation
Set X
Upper approximation
Example
Case Height Weight Age
1 170 75 18
2 165 50 30
3 165 60 18
4 145 75 18
5 145 50 30
6 170 45 45
7 145 50 45
8 170 45 30
X={1,2,6,8}
P={Weight, Age}
Equivalence classes:
{1,4}
{2,5}
{3}
{6}
{7}
{8}
}8,6{
}][|{


XP
X
P
eUeXP
}8,6,5,4,2,1{
}][|{


XP
X
P
eUeXP 
ROUGH SET STRATEGIES TO DATA
WITH MISSING DATA
原有的列聯表
•在Information system完整的情況下,a、b、c及d四
個值是確定的。
Predc. Symptom Other symptoms
Drug a b
Other Drugs c d
帶有近似範圍的列聯表
The specific
attribute
symptom Other symptoms
drug
Other drugs
•利用粗糙集理論目的是求出該crisp set的上
下逼近集合。
對缺漏值的兩種解釋
• Lost(?):
– 原本應該存在的資料但遺失或被刪除。
– 不應被忽略。
• Don’t care(*):
– 缺漏的屬性值可有可無。
Characteristic relation
& Characteristic set
• Lost(?)
– Similarity characteristic relation:
– Similarity characteristic set:
.)( ?,such thatallfor
),(),(ifonlyandif)(),(


axPa
ayaxPRyx S


)}(),(|{),( PsRyxyxPKs 
Characteristic relation
& Characteristic set
• Don’t care(*):
– Tolerance characteristic relations:
– Tolerance characteristic set:
.*)(*)( Paayax
ayaxPRyx T


allfor,or,
or),(),(ifonlyandif)(),(


)}(),(|{),( PRyxyxPK TT 
Lower and Upper approximations
• Singleton approximation
})(|{ XxKUxXP P
k
g 
})(|{  XxKUxXP P
k
g
• Subset approximation
}),(,|),({ XxpKUxxpKXPK
s  
}),(,|),({  XxPKUxxPKXP
K
S 
• Concept approximation
}),(,|),({ XxPKXxxPKXPK
c  
}),(,|),({  XxPKXxxPKXP
K
c 
Lower approximation
Set X
Upper approximation
Incomplete
SRS data
Attribute set
P
Strength
Computation
• global
• local
Characteristic set
K(P, x)
• tolerance (don’t care)
• Similarity (lost)
Approximation PX
• singleton
• subset
• concept
known rule :
Predc , drug  reaction
• Analyze the feasibility of the 12 different methods
Rough Set : Basic Idea
Example
the singleton approximation& global
ISR Age Gender Drug PT
1 ? ? d1 s1
2 a2 ? d2,d3 s1,s2
3 a1 g1 d1 s1
4 a1 g1 d2,d3 s1,s2
5 ? ? d2,d3 s1,s2
6 ? g2 d1 s1
7 ? g1 d1 s1
8 a1 g1 d3 s1,s2
}8{)8,(}4{)4,(
}73{)7,(}3{)3(
}6{)6,(}2{)2(
}542{)5,(}7631{)1(




PKPK
,PKP,K
PKP,K
,,PK,,,P,K
SS
SS
SS
SS
.)( ?,such thatallfor
),(),(ifonlyandif)(),(


axPa
ayaxPRyx S


Similarity characteristic relation:
Example
the singleton approximation& global
Gender = g1 PT = s1 other PT
Drug = d2 Xa={4} Xb={}
other drugs Xc={3,7,8} Xd={}
}8{)8,(}4{)4,(
}73{)7,(}3{)3(
}6{)6,(}2{)2(
}542{)5,(}7631{)1(




PKPK
,PKP,K
PKP,K
,,PK,,,P,K
SS
SS
SS
SS






dd
cc
bb
aa
XPXP
XPXP
XPXP
XPXP
}8,7,3,1{}8,7,3{
}4{}4{
})(|{ XxKUxXP P
k
g 
})(|{  XxKUxXP P
k
g
Example
the singleton approximation& global
Gender = g1 PT = s1 other reactions
Drug = d2 [1, 1] 0
other drugs [3, 4] 0
)(
)(
PRR
)(
)(
bac
dca
bac
dca





333.1
)01(3
)04(1
PRR75.0
)01(4
)03(1






Experiment
No.
Rule
Drug Name Symptom
The suitable
of group
(Age or
Gender)
Marked
year in US
Year
withdrawn
in US
R1-1
AVANDIA
MYOCARDIAL
INFARCTION
18~ 1990 2010R1-2 DEATH
R1-3 CEREBROVASCULAR
ACCIDENT
R2
TYSABRI
PROGRESSIVE
MULTIFOCAL
LEUKOENCEPHALOPATH
Y
18~ 2004 2005
R3
ZELNORM
CEREBROVASCULAR
ACCIDENT Female 2002 2007
實驗結果
0
53
106
159
212
265
0
1
2
3
4
5
04Q1
04Q2
04Q3
04Q4
05Q1
05Q2
05Q3
05Q4
06Q1
06Q2
06Q3
06Q4
07Q1
07Q2
07Q3
07Q4
08Q1
08Q2
08Q3
08Q4
09Q1
09Q2
09Q3
09Q4
10Q1
10Q2
10Q3
10Q4
11Q1
11Q2
11Q3
11Q4
12Q1
12Q2
12Q3
12Q4
13Q1
13Q2
13Q3
A Value
PRR
Method 1 M(s, g, g) for R1-2
PRR_ld PRR_lower PRR_pd PRR_upper
Threshold=2 A_ld A_rs A_pd
0
53
106
159
212
265
0
1
2
3
4
5
04Q1
04Q2
04Q3
04Q4
05Q1
05Q2
05Q3
05Q4
06Q1
06Q2
06Q3
06Q4
07Q1
07Q2
07Q3
07Q4
08Q1
08Q2
08Q3
08Q4
09Q1
09Q2
09Q3
09Q4
10Q1
10Q2
10Q3
10Q4
11Q1
11Q2
11Q3
11Q4
12Q1
12Q2
12Q3
12Q4
13Q1
13Q2
13Q3
A Value
ROR
Method 1 M(s, g, g) for R1-2
ROR_ld ROR_lower ROR_pd ROR_upper
Threshold=2 A_ld A_rs A_pd
Q & A

More Related Content

PDF
Storytelling For The Web: Integrate Storytelling in your Design Process
PDF
2024 Trend Updates: What Really Works In SEO & Content Marketing
PPTX
期末專題說明
PPTX
架設Hadoop叢集以及mapreduce開發環境
PDF
Honey's Data Dinner#8 資料科學實用技術、工具與實例分享
PPTX
How to building WEKA model and automatic test by command line
PPTX
Model evaluation
PPTX
Cloudera introduction
Storytelling For The Web: Integrate Storytelling in your Design Process
2024 Trend Updates: What Really Works In SEO & Content Marketing
期末專題說明
架設Hadoop叢集以及mapreduce開發環境
Honey's Data Dinner#8 資料科學實用技術、工具與實例分享
How to building WEKA model and automatic test by command line
Model evaluation
Cloudera introduction
Ad

Rough-set-based ADR signaling from SRS data with missing values

Editor's Notes

  • #2: 我們想利用粗糙集理論來處理帶有缺漏值的資料,以利於能更早發現ADR訊號。
  • #3: ADR全名為藥物不良反應,是病患在服藥後跟其產生不良反應的關係,我們將這種關係表示成如下的ADR規則。 不良反應的情形很廣,輕則頭暈昏睡、食慾不振,重則憂鬱症、殘障或死亡。
  • #4: 沙利竇邁是在60年代德國上市的一種鎮定劑,被大量用於抑制孕婦害喜症狀,一年後醫生發現大量懷有畸胎的孕婦接服用該藥物。
  • #6: 藥物的不良反應症狀不可能在藥廠試驗時全部都被發現,各國FDA相關的單位都有各自的通報系統來處理藥廠、醫院的通報,並在觀測到ADR信號時提出警告甚至是強制將藥物下架。中國、歐盟、美國、世界衛生組織等都有相關的通報單位,台灣FDA在近兩年才成立通報系統,可惜的是目前暫不開放資料,應是無資訊能力整理通報資料。 目前實驗的資料都是由美國FDA的FAERS單位所開放,主要是資料量大且有一定程度經過整理。
  • #7: 所有通報資料以line-oriented格式儲存,以錢字號當分隔符號。簡報結束後時間分享處理過程。
  • #8: 自發性通報系統不保證所有欄位值都完整。
  • #11: 用列連表來觀察數據,透過兩個以上的屬性來分類。圖中abcd代表該類別的案例數量。
  • #17: 會刪掉近兩百萬筆資料,通常通報缺漏資料的可能來自同單位,所以很有可能會集中在某個時間點,最差情況可能只留下30%的資料量。
  • #23: indiscernibility relation不可分辨關係
  • #35: 論文使用的資料集從04Q1到13Q3,目前公佈最新到14Q3,每季約有6萬到19萬筆的通報紀錄,