SlideShare a Scribd company logo
DATA SCIENCE 101 
by T. C. Hsieh (謝宗震), Ph.D. 
2014.10.23
About Me 
Education 
• National Tsing-Hua University, Ph.D. 
in Statistics, 2009-2013 
Experience 
• Post-doc, NTHU, 2014 
• Lecturer and Hacker, DSP, since 2013 
• Officer, TW.R group, since 2013 
• Statistics consultant, personal studio, 
since 2008 
Skills 
• Data manipulation, Data mining and 
statistical learning, Ecology statistics, 
R programing 
Blog 
• 讀數⼀一格 http://readata.org
Agenda 
• 資料科學簡介 
• ⽣生活中的資料科學案例 
• 資料科學社群經驗分享 
http://goo.gl/LC5voZ
http://goo.gl/eDFrA5
什麼是資料科學?
什麼是資料科學?
http://commons.wikimedia.org/wiki/File:Scientists_montage.jpg 
科學是透過理性辯證, 
來接近真理的⼀一種⽅方法。 
http://goo.gl/3njGHf
http://commons.wikimedia.org/wiki/File:Scientists_montage.jpg 
科學是透過理性辯證, 
來接近真理的⼀一種⽅方法。 
科學是透過理性與經驗交互辯證, 
來接近真理的⼀一種⽅方法。
我認為科學⽅方法可分為以下四個步驟: 
1. 觀察現狀,提出問題 
2. 將真實問題轉換成科學模型 
3. 進⾏行實驗、分析 
4. 將結果導回真實問題 
http://goo.gl/mFqQN6 
在有限的時間下,! 
你想怎麼分配資源來學習這四步?
什麼是資料科學? 
⼈人類活動與⾃自然現象的記錄
1 + 1 = 2? 
+ = ?
1 + 1 = 2? 
數據化的記錄總會喪失部分訊息 
⼀一個問題是否能透過資料解決 
和資料的收集與記錄⽅方式有關
什麼是資料科學? 
使⽤用科學⽅方法分析資料,解決真實世界的問題
好像有點複雜,其實...
http://goo.gl/rbkzfO 
資料科學就跟做菜⼀一樣
最初的動機是因為饑餓 
(求知若渴!?)
資料=⻝⾷食材 
http://goo.gl/sbONBy
資料庫=冰箱 
http://goo.gl/wbozmd 
為什麼需要冰箱? 
資料要⽤用什麼形式存放?
分析⼯工具=廚具 
http://goo.gl/h9nDzO 
Math, Statistics, Computer Science, … 
R, Python, SAS, SPSS IBM, …
分析⽅方法=⻝⾷食譜 
http://goo.gl/J6TLsQ 
A/B Test, Regression, Doe, 
Classification, Clustering, 
Data Mining, Machine Learning…
資料呈現=擺盤 
http://goo.gl/8eR5IM 
Data Visualization or Data Presentation, 
User Interface / User Experience
那資料科學家呢?
http://goo.gl/QJ6L2n 
資料科學家=廚師=全能的超⼈人
對廚師表⽰示尊敬!!!
如果你跟我⼀一樣當不成超⼈人
我們可以是各有所⻑⾧長的 
資料科學團隊 
http://goo.gl/1td0gt
延續團隊的觀點, 
從Data Lifecycle來談資料科學
Data lifecycle and Data Science Process 
Raw Data Clean Data 
Data Model 
Product 
by CK Liu - Z > B的資料科學
Professional Roles of Data Science 
Data Engineers Data Analysts 
Raw Data Clean Data 
Data Model 
Product 
Product Managers 
by CK Liu - Z > B的資料科學
Machine Learning 
Data visualization 
Mathematics 
Statistics 
Computer Science 
Domain Experties 
Communication 
Core Skills of Data Analysts
Viz 
ML 
Math 
Stat 
CS 
Com 
DE 
Core Skills of 
Data Science Team 
by Rachel Schutt - Next-Gen Data Scientists
分享⼀一些⽣生活案例
台北市頂級豪宅房價預測 
http://www.rich-house.com.tw/
台北市頂級豪宅房價預測 
http://goo.gl/Tc0Zm6
內政部不動產實價登錄資料 
2012 Aug. - 2013 Sep. 
全台灣的租賃、買賣、預售 
約47萬筆數據> Open Data Q&A
台北市市政府的豪宅標準: 
每⼾戶總價8000萬元以上,及房價每坪100萬元以上或單⼾戶80坪以上房型 
得豪宅物件403件,再從這群豪宅物件中找出頂級豪宅40件進⾏行預測。
統計模型:Generalized Additive Model (GAM) 
重要因⼦子:⾯面積⼤大⼩小、屋齡、⾏行政區、是否購買⾞車位、⾼高低樓層 
> gam(log10(總價)~s(⾯面積)+s(屋齡)+⾏行政區+⾞車位+樓層) 
得到校正後決定係數 (adjust R square) 93.5% 之房價預測模型
Web application is available ! 
http://goo.gl/vT1Smr
台北市頂級豪宅房價預測 
http://goo.gl/Tc0Zm6
關於 Generalized Additive Model
媒體報導關聯性分析 
─以太陽花學運為例
http://readata.org/datasci/ecfa-and-data-science/
故事從這裡說起...
http://juan.tw/?p=2269
http://g0v.today
⽂文播組沒說完的話: 
我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒 
有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大, 
但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了...... 
還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下 
來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。 
https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS
That is data-driven ! 
我問⾃自⼰己⼀一個問題 
現場⽂文播資料可以怎麼⽤用?
現場情況 V.S. 現場⽂文播
現場情況 V.S. 現場⽂文播 V.S. 新聞報導
有沒有辦法量化 新聞媒體報導的真實性? 
基本上 沒有完美的辦法
不過 媒體的關聯性應該有辦法
怎麼量化關聯性? 
先設想 你需要什麼 / 有什麼資料
Data science101
怎麼獲取媒體報導資料?
Data science101
除了堅毅不拔的複製 / 貼上之外... 
你還會什麼?
Data science101
特別感謝
Ronny Wang and NewsDiff
我收到了三萬多筆學運相關報導的原始資料
怎麼量化關聯性? 
接著問 這些資料可以怎麼⽤用?
Data science101
使⽤用關鍵字頻作為基本量化元素 
http://johnsonhsieh.github.io/study-area-statR/#49 
https://github.com/JohnsonHsieh/study-area-statR/blob/gh-pages/src/tm.R
這個過程⽤用了以下技術
Quick references 
• Statistics with R (Johnson) 
• slide: http://johnsonhsieh.github.io/study-area-statR/#49 
• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ 
• Text Mining with R (Jiawei) 
• slide : https://docs.google.com/presentation/d/ 
1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQh 
Q/edit#slide=id.p 
• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8
怎麼計算關聯性?
Pearson correlation coefficient 
最廣為⼈人知的相關性指標 
但是本案例中完全⽤用不上
觀察資料的結構 
該怎麼計算關聯性?
Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage 
probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)
Data science101
這個過程⽤用了以下技術
最後得到所謂的媒體關係圖
http://readata.org/datasci/ecfa-and-data-science/
臺北市⻑⾧長選戰觀察
我覺得利⽤用資料學⽅方法 
來規劃選舉策略是很有潛⼒力的
譬如說:決策樹 
(Classification And Regression Trees)
Data science101
基本上,我拿不到 
被視為機密的⺠民調原始數據
但是,我⽤用統計⽅方法 
還原數據 (Gibbs Sampling)
TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 
利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據
TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 
利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據
TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 
利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據
Data science101
決策樹基本概念 
https://github.com/braz/DublinR-ML-treesandforests/
負⾯面競選
負⾯面競選 
何以在各個⺠民主國家如此盛⾏行?
Data science101
台北市⻑⾧長⺠民調(wikipedia) 
利⽤用LOESS法預測 9/16 - 10/16 每⼀一天候選⼈人的⺠民調⽀支持度 (含未表態)
社群正/反內容熱度(林克傳說) 
熱度百分⽐比指與候選⼈人相關的內容出現在⼀一個⼈人的塗鴉牆之平均機率
整理成以下表格進⾏行作圖
Data science101
⼩小結 
• 資料科學主要精神 
• Data-driven thinking 
• 核⼼心技術 
• ⽐比⼤大⼩小、⽐比差異 
• 找相關、找趨勢 
(ex: 新聞關聯性、負⾯面競選) 
• 做預測 (ex: 豪宅房價) 
• 做分類 (ex: ⺠民調決策樹) 
• 做推薦 
http://shop.oreilly.com/product/0636920029182.do
資料科學相關社群
TW.R 
Taiwan R User Group 
MLDM Monday
吳 
⿑齊 
軒 
張 
家 
⿑齊 
https://www.facebook.com/twdsconf
Taiwan R User Group 
MLDM Monday 
Free R Online Tutorials is here !!!! 
Meetup: http://www.meetup.com/Taiwan-R/ 
YouTube: https://www.youtube.com/user/TWuseRGroup
Mar 2013, Spider & Crawler 寫作相關主題
Jul 2013, Joint Meeting
Jan 2014, OSSF Data Science with R Workshop
Aug 2014, ETL with R
May 2014, Data visualization
Aug 2014, Taiwan Data Science Conference with R tutorial
2014.10.20 Taiwan R user group 2nd Year Anniversary
DSP 
The Data Science Program 
資料科學計劃
Data science101
http://dasp.im
Dec 2013, Team Training #1
Mar 2014, Team Training #2
Data science101
Jan 2014, Data Fiesta
Jan 2014, Data Fiesta
http://dsp.im
我的社群經驗 
Greg Wilson 
by Vijaysree Venkatraman - When All Science Becomes Data Science 
參與參與社群讓我 
• 遇⾒見良師益友 
• 接觸更多真實問題 (ex: code for Healthcare) 
• 懂得團隊協作 (ex: R tutorial, DSP training)
Let DSP ask a question: 
如果DSP要舉辦⼀一個 
資料科學冬令營 for ⼤大學⽣生 
你有什麼建議?
Joint Us 
TW.R 
www.meetup.com/Taiwan-R/ 
DSP 
dsp.im 
Lecturers 
Mentors 
Volunteers
thank you

More Related Content

PDF
Self improvement in the big data era
PDF
資料科學推廣教育的實踐
PDF
D4SG : 資料科學開創公共服務的新契機
PDF
Who believes in data science
PDF
Data science and ECFA media analysis
PDF
資料科學計劃的成果與展望
PDF
Talk to data science in 10 minutes
PDF
Big Data 成功與失敗的真相
Self improvement in the big data era
資料科學推廣教育的實踐
D4SG : 資料科學開創公共服務的新契機
Who believes in data science
Data science and ECFA media analysis
資料科學計劃的成果與展望
Talk to data science in 10 minutes
Big Data 成功與失敗的真相

What's hot (18)

PDF
資料原力,改變社會
PPTX
【D4SG】新竹縣環保局-便利資訊看板(雛形)
PDF
2016台灣資料科學年會開場投影片
PDF
劉正山/世代之爭爭什麼 ? 談談如何從調查資料挖掘出豐厚的意義
PPTX
How to develop big data
PDF
D4SG creates new opportunities for public service
PDF
DSP資料科學教學模式分享
PPTX
2013調查報導工作坊 - 資料搜尋與處理
PDF
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
PPTX
Open data
PDF
Power BI x R
PDF
Data Science: Z > B 的資料科學
PDF
行動廣告與大數據資料分析策略與執行
PPTX
DSP Wellcome
PPTX
從統計到資料科學
PPTX
一名女科技人的反思
PPTX
2013.11.04 Data Journalism Introduction
PPTX
從人工智慧反思教育現場
資料原力,改變社會
【D4SG】新竹縣環保局-便利資訊看板(雛形)
2016台灣資料科學年會開場投影片
劉正山/世代之爭爭什麼 ? 談談如何從調查資料挖掘出豐厚的意義
How to develop big data
D4SG creates new opportunities for public service
DSP資料科學教學模式分享
2013調查報導工作坊 - 資料搜尋與處理
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
Open data
Power BI x R
Data Science: Z > B 的資料科學
行動廣告與大數據資料分析策略與執行
DSP Wellcome
從統計到資料科學
一名女科技人的反思
2013.11.04 Data Journalism Introduction
從人工智慧反思教育現場
Ad

Similar to Data science101 (20)

PDF
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
PDF
資料科學團隊人才培育分享 ─ 以 DSP 為例
PDF
談已發展與發展中國家數位落差
PDF
數位落差與發展策略(黃勝雄老師)
PDF
Data Strategy (資料策略)
PDF
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
PDF
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
PPT
網路星期二 : Open Data 與 NGO
PDF
20161108 網路星期二:『資料力,做公益』- 開創公共服務的新契機
PDF
[網二] 『資料力,做公益』- 開創公共服務的新契機
PDF
Open Campus 2012 @ Taipei
PDF
20151126 資料定義與介紹
PDF
Data for social good – data driven charity
PPTX
思翱倍力:對於大數據應用的十個觀點與省思20160525
PDF
N世代情報收集術
PDF
政府資料開放加值應用研究 研討會簡報
PDF
無中生有 - 利用外部數據打造新商業模式
PDF
SoWork跨國企業市場情報
PDF
淺談台灣巨量資料產業發展現況
PDF
Big Data 現象,以及現象中的我們
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
資料科學團隊人才培育分享 ─ 以 DSP 為例
談已發展與發展中國家數位落差
數位落差與發展策略(黃勝雄老師)
Data Strategy (資料策略)
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
網路星期二 : Open Data 與 NGO
20161108 網路星期二:『資料力,做公益』- 開創公共服務的新契機
[網二] 『資料力,做公益』- 開創公共服務的新契機
Open Campus 2012 @ Taipei
20151126 資料定義與介紹
Data for social good – data driven charity
思翱倍力:對於大數據應用的十個觀點與省思20160525
N世代情報收集術
政府資料開放加值應用研究 研討會簡報
無中生有 - 利用外部數據打造新商業模式
SoWork跨國企業市場情報
淺談台灣巨量資料產業發展現況
Big Data 現象,以及現象中的我們
Ad

More from Johnson Hsieh (8)

PDF
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
PDF
資料視覺化的力量
PDF
iNEXT: An R package for interpolation and extrapolation in measuring species ...
PDF
媒體報導關聯性分析:以太陽花學運為例
PDF
Statistics with R
PDF
iNEXT: an r package for interpolation and extrapolation species diversity
PDF
Intro shiny coscup2013
PPT
Paper Summary
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
資料視覺化的力量
iNEXT: An R package for interpolation and extrapolation in measuring species ...
媒體報導關聯性分析:以太陽花學運為例
Statistics with R
iNEXT: an r package for interpolation and extrapolation species diversity
Intro shiny coscup2013
Paper Summary

Data science101