51. 特徵工程-特徵粹取-日誌
• 根據domain know-how,人工取出有意義的資訊
• 常見任務包含
– Data Preprocessing(程式需求量大)
• data cleaning:解決dirty data
• data integration:將多個來源資料整合
• data transformation:將所有資料轉換成另外一種格式
• data reduction:將相同的資料刪掉,或將資料取樣
– Data Description
• 看集中趨勢
• 看離散程度
• 衡量資料位置
• 透過圖形顯示統計描述
– Data Mining(進階的Data description)
52. • Measuring the Central Tendency(看集中趨勢)
– Mean:求平均
– Median:求中間數
– Mode:求出現頻率最高的數字,只有一個數也稱unimodal,兩個稱bimodal,
三個稱trimodal,多個稱multimodal
– Midrange:(min+max)/2
– 其他
特徵粹取-Data Description
53. • Measuring the Dispersion of Data(看離散程度)
– Range:max-min,最簡單的離散量數
– IQR(inter-quartile range,四分位數距):Q3-Q1,可克服極端資料值 , ex:若
n=10則IQR=5
– Five number summary:min,Q1,median,Q3,max
– Variance:數字越大表示各數據越偏離
– standard deviation:sqrt(variance),用來描述資料點與平均觀查值離多遠
– coefficient of variation(變異係數):standard deviation/mean*100,標準差佔
平均數之比重
特徵粹取-Data Description