2. 資料探勘 資料探勘( Data Mining )是一種專門的程序,可在大量存放的資料中,找出先前並不知道,但最後可有效理解的資訊,並可利用這些找出的資訊建立一個預測或分類的模型,或識別不同資料庫之相似性,產生的資訊可協助決策者進行更週延的決策。
3. 資料探勘的方法 資料探勘的工具是利用資料以建立一些模擬真實世界的模式( Model ),利用這些模式描述資料中的特徵及關係。這些模式有兩種用處:( 1 )瞭解資料的特徵與關係可以提供決策時所需要的資訊,例如關聯模式( Association Model )可以幫助超市或百貨商場規畫貨品擺設; ( 2 )資料的特徵可做預測,例如從郵寄名單中預測出那些客戶最可能對你的推銷做回應,你可以只對特定的對象做推銷,增加行銷。
18. 發掘關聯式規則 發掘關聯式規則( Mining Association Rule )在給定的一個銷售資料庫中,每一筆交易可能含有一項或多項商品以構成該次交易,想從交易商品項目中發現重要關聯性,也就是相同交易中,某些商品項目產生連帶其它商品項目出現。 Agrawal 等學者提出一個數學模式,用以說明發掘關聯式規則的問題,令 I ={ i1 , i2 , … , in } , I 即是所欲討論的項目( Items )所組成的集合,在此 I 可想像成百貨店或超市內所有商品組成的集合, D 是一個交易的集合,亦可視為一特定資料庫,其中每一個交易 T 是項目的集合,像 T I ,注意,每筆交易中商品項目購買的數量是不考量的,另外每筆交易皆有一個交易序號 TID 作為識別。
23. 關聯式法則的定義及相關名詞介紹 假設一商品物項集合 (itemset) I 包含了所有可能的商品物項 {i1 , i2 ,… im} ,並設 D 為一群商品交易紀錄的集合,且每一筆交易紀錄 (transaction) T 所包含的就是一群物項的集合,所以所有的 T 出現的物項都是可以被 I 所涵蓋的,而不管該物項的數量。一個關聯式法則的形成為前提物項集合 (antecedent itemset) 結果物項集合 (consequent itemset) ,前後兩種物項集合都是 I 的子集合,且兩者的交集為空集合,對於一個關聯式法則為 X Y , X 、 Y 為兩個包含於 I 的非空集合,則支持度是 D 中包含了 X Y 的交易所佔百分比。信賴度 (confidence) 是 D 中同時包含 XY 之交易數和包含 X 之交易數的比值。 ( 支持度與信賴度都是介於 0 與 1 之間 )
24.
25. 一個有效的關聯式法則,必須滿足”信賴度大於等於使用者預設最小信賴度 C 且支持度大於等於使用者預設最小支持度 S 的關聯式法則” 。而對於一個物項集,我們定義其支持度為包含該物項集合的交易個數。高頻物項集合 (frequent itemset 或 large itemset) 為支持度大於等於使用者預設最小支持度 S 乘以交易總數 D 的物項集合。例 : 若 {XY} 是一個高頻物項集合且 {XY} 的支持度除以 {X} 的支持度 C 則 X Y 是一個有效的關聯式法則。最後產生有效的關聯式法則,是由高頻物項集合推導而來。
28. 存在 k 種物項的物項集合稱之為 k- 物項集合 (k-itemset) 令 C k 表示有 k 個物項的候選物項集合 ( 或稱為候選 k- 物項集合 ) 所組成的集合, L k 表示有 k 個物項的高頻物項集合 ( 或稱為高頻 k- 物項集合 ) 所組成的集合,則用遞回方式產生候選物項。 集合的過程可以表示為:
29.
30. 上述的關聯式規則架構發展至今,不管是本身架構上或是應用面上的使用仍有諸多不適, 需要予以調整, 如( 1 ) Piatesky-Shapiro 曾經指出項目集間的獨立關係,如果 support ( X => Y ) support ( X ) * support ( Y ) ,則在規則中的項目將趨近於獨立的關係。( 2 )在關聯規則的架構下並沒有辦法討論項目間關聯的方向是否一致、關聯程度的大小、興趣程度等;以一個例子說明此類問題,以早餐店為例,若只討論兩個項目商品,牛奶及麵包,此兩項目在 500 筆的交易記錄,其銷售狀況如下表所示: