SlideShare a Scribd company logo
如何在大數據時代提升資料力
謝宗震 (johnson@dsp.im)
DSP 智庫驅動 首席資料科學家
D4SG 計畫共同發起人
2016/10/29 @北護資管
version 4.0
• 學歷:清華數學、統計碩、統計博
• 2007年開始寫R
• DSP 智庫驅動資料科學家
• D4SG 資料英雄計畫主持人
• 「資料力,做公益」的交流與媒合平台
• 農業政策、家庭暴力、社會安全、NPO營運優化
謝宗震 博士
johnson@dsp.im
什麼是資料科學?
什麼是資料科學?
Self improvement in the big data era
Self improvement in the big data era
我認為科學方法可以分成四個步驟
1. 觀察現狀,提出問題假設
2. 將真實問題轉換成科學模型
3. 進行實驗、分析、計算
4. 將結果導回真實問題
在有限的時間下,你怎麼分配資源來教學/學習這四個步驟?
什麼是資料科學?
人類活動與自然現象的紀錄
所有的資料
真實世界
巨量資料
開放資料
開放
政府資料
個人
資料
一張圖讀懂資料治理
1 + 1 = 2 ?
+ = ?
資料的
極限
1 + 1 = 2 ?
數據化的記錄總會喪失部分訊息
一個問題是否能透過資料解決
和資料蒐集與記錄的方式有關
資料的
極限
12
資料的
品質
資料品質的控管成敗與否,將影響之後
的資料分析、報表、決策指標。
13
資料的
品質
資料品質的控管,
可用探索性資料分析規劃品管規則。
http://wush.ghost.io/data-team-hello-world/
什麼是資料科學?
使用科學方法分析資料,解決真實世界的問題
15
Big Data Bra
https://trueandco.com/
歐巴馬競選網站主視覺實驗
價值6000萬美元的AB測試
Original trial VS. Family trial
https://goo.gl/77ZwXz
歐巴馬競選網站主視覺實驗
Summary Original trait Family trait
Visitors 51,794 51,696
Sign-up 4,425 4,996
Conv. Rate 8.54% 9.66%
✔
https://goo.gl/seNBAw
https://goo.gl/seNBAw
市場的68種性格
http://goo.gl/mwtzsE
Self improvement in the big data era
Trendsetters
Top Tiers
Soccer Moms
Great Outdoors
American Dreamers
Downtown Melting Pot
火災預防和宣導
資料科學怎麼做
紐奧良市的火災風險地圖
火災預防和宣導
火災警報器之發放
消防檢查頻度與力度
消防與救災資源配置優化
http://goo.gl/PUwoQB
紐奧良市的火災風險地圖
所
得
指
標
建
物
指
標
租
屋
指
標
統計模型
煙霧警報器未安裝率
紐奧良市的火災風險地圖
http://goo.gl/PUwoQB
火災風險 = (火災致死率 + 煙霧警報器未安裝率) / 2
紐奧良市的火災風險地圖
紐奧良市的火災風險地圖
幫助市府發放 8,000 個煙霧警報器
Self improvement in the big data era
全美 178 個城市的火災風險地圖
擴大辦理
各城市的火災風險地圖
http://labs.enigma.io/smoke-signals/
https://github.com/enigma-io/smoke-signals-model
資料集跟原始碼
開放給大眾使用
台灣怎麼做?
結合公益與實務,採用長期專案方式,將實驗性的概念測試,
鍛鍊為完整的資料公益解決方案,甚至能夠被複製使用
D4SG.org
資料英雄計畫
Data for Social Good Fellowship
GOV/NGO
提案組織
資料英雄
執行團隊
Self improvement in the big data era
火災風險地圖
高雄市消防局
顧客旅程地圖
資料盤點
火災風險地圖
高雄市消防局
資料分析規劃
預期成果
警報器發放指標
村里火災風險比較
( = 警報器申請數 – 火災發生風險)
● 媒合公共服務性組織與民間熱血的資料英雄
● 選擇高社會影響力與可再利用的資料科學專案
● 當局主管積極支持、專員參與合作
● 利用三個月的工作時間共同完成
http://d4sg.org
執行
方式
http://d4sg.org
積極
參與
政府、非營利或是其他公益性組織
成為資料英雄計畫的提案者!
[申請提案] (http://bit.ly/c4proposal)
具備資料工程與分析能力的企業人士或學生
透過團隊合作發揮專業技能做公益,學會一些實用的新技能。
[申請資料英雄] (http://bit.ly/c4fellowship)
欲提升提升品牌曝光度、強化正面形象的企業
強化企業品牌,提昇社群團體、非營利組織與政府單位的肯定。
[贊助D4SG] (http://bit.ly/c4sponsorship)
【成果】火災風險地圖
提案單位:高雄市政府消防局
關鍵詞:危險因子、火災預防、配置優化
【成果】家暴案件預警及風險管理系統
提案單位:臺北市家庭暴力暨性侵害防治中心
關鍵詞:通報熱點、決策預警、督導管理
【成果】農地種電空間變遷
提案單位:國家太空中心、天下雜誌
關鍵詞:衛星影像、農地變遷、綠能政策
http://d4sg.org
瞭解
更多
http://d4sg.org
• 09/07 (三) 開放資料公益提案
• 10/26 (三) D4SG成果發表會
• 11/08 (二) 提案徵求說明會 (網路星期二)
• 11/20 (日) 提案申請截止
• 12/07 (三) 資料英雄申請截止
• 12/14 (三) 公告錄取 (提案主題、資料英雄)
• 01/04 (三) 實體媒合會
• 01/07 (六) 正式開始
• 02/25 (六) 期中聚會
• 04/15 (六) 成果發表
重要時程
怎麼開始?
資管背景的你
45
• 如何判斷講者的演講是否成功?
• 怎麼判斷一首歌好不好聽?
• 怎麼判斷一部電影好不好看?
• 怎麼測量戰爭?
• 怎麼測量貧窮?
想像力
不設限
46
從資料的角度來解決問題
怎麼度量、怎麼收集、怎麼呈現
• 在Uber之前,大家都認為沒辦法測量計程車載客數據
• 在GA之前,沒人知道怎麼收集Growth Hacking的資料
想像力
不設限
47
How to Measure Anything:
Finding the Value of Intangibles
in Business 3rd Edition
by Douglas W. Hubbard
Customer Journey
48
為賦新詞強說愁
觀察現狀-問對問題-取得資料
從 Design Thinking 看 Data
Customer journey map
49 Reference:http://www.servicedesigntools.org/
The customer journey map is an oriented graph
that describes the journey of a USER by
representing the different touchpoints that
characterize his interaction with the service.
“The goal of the customer journey map is really to get a holistic
view of what the customer is going through from their point of view
and really what it’s like for them on a personal level, that human
level.” (Kerry Bodine, 2014)
50
51
Healthcare
醫療保健
http://cft.kktix.cc/events/cfh-2014-summer
Code for Healthcare 工作坊, Aug. 2014, 高雄醫學大學
高雄氣爆 (2014.07.31)
高雄氣爆 (2014.07.31)
如何合理分配大量傷患
54
發生氣爆或地震時
Code for Healthcare: Lex55
人員
流程
對應數據、資料
Code for Healthcare: Lex et al.
Code for Healthcare: Lex et al.
消防弟兄的規劃與許願清單
局部放大
https://goo.gl/sKXh4k
秀一個酷炫的玩意,給一隻陽春版的釣竿
如何激發學習動機?
立委現形記
• 資料來源:立法院公報 parser (零時政府)
• http://dev.g0v.tw/Project-TWLY.html
• 關聯性算法:Jaccard 相似度指標 (Jaccar 1901)
• https://en.wikipedia.org/wiki/Jaccard_index
• 視覺化呈現:Gephi
• https://gephi.org/
Self improvement in the big data era
魏揚:「請大家冷靜自制,我們不是要製造暴力,革命不用製造暴力,
革命是要推翻體制,但不一定要流血!」
http://anti-tigerblue.net/report/80
Self improvement in the big data era
拿文字報導做關鍵字分詞
觀察媒體間的用字關聯性
Self improvement in the big data era
• 資料來源:電子媒體網站 (爬蟲備份)
• https://github.com/johnsonhsieh/ecfa
• 關聯性算法:Morisita相似度指標 (Morisita 1959)
• https://en.wikipedia.org/wiki/Morisita%27s_overlap_index
• 視覺化呈現:Gephi
• https://gephi.org/
https://timdream.org/wordcloud/
同場加映
文字雲產生器
電腦賦詩
Mark Chang
• Computational Poetry 電腦賦詩
• 藏頭詩產生器
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
• 參考資料:Computational Poetry 電腦賦詩 (Mark Chang)
• http://www.slideshare.net/ckmarkohchang/computational-poetry
• 主要演算法:Recurrent Neural Network
• https://en.wikipedia.org/wiki/Recurrent_neural_network
• 原始論文與程式碼:
Chinese Poetry Generation with Recurrent Neural Networks
• http://aclweb.org/anthology/D/D14/D14-1074.pdf
• https://github.com/XingxingZhang/rnnpg
Demo
藏頭詩產生器
https://app.kxg.io/poem/
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
Self improvement in the big data era
• 參考資料:NeuralArt 電腦作畫 (Mark Chang)
• http://www.slideshare.net/ckmarkohchang/a-neural-algorithm-of-artistic-style
• 主要演算法:Convolutional Neural Network
• https://en.wikipedia.org/wiki/Convolutional_neural_network
• 原始論文與程式碼: A Neural Algorithm of Artistic Style
• http://arxiv.org/abs/1508.06576
• https://github.com/andersbll/neural_artistic_style
Try, Learn and Share
如何提升資料素養?
“If you can’t do, teach.”
91
資料科學夏令營
https://dsp.im/camp-nccu-summer-2015/
92
93
94
95
社群參與:Data Mixer 資料人聚會
http://goo.gl/h5s2mg
96
社群參與:Taiwan R User Group
https://www.facebook.com/Tw.R.User/
97
黑客松:公益加值資料工作坊
http://hack.dsp.im/d4sg-hackathon
[ 挑戰 1 ] 採購問答機器人 (Chatbot Challenge)
[ 挑戰 2 ] 海闊天空,開放創新 (Open Challenge)
DSP智庫驅動馬上報名 (11/02 公佈錄取隊伍)
https://goo.gl/XjvhYv
http://d4sg.org
• 09/07 (三) 開放資料公益提案
• 10/26 (三) D4SG成果發表會
• 11/08 (二) 提案徵求說明會 (網路星期二)
• 11/20 (日) 提案申請截止
• 12/07 (三) 資料英雄申請截止
• 12/14 (三) 公告錄取 (提案主題、資料英雄)
• 01/04 (三) 實體媒合會
• 01/07 (六) 正式開始
• 02/25 (六) 期中聚會
• 04/15 (六) 成果發表
重要時程
100
推薦書籍 (科普書)
自學良伴
• 聰明學統計的13又½堂課
(http://www.books.com.tw/products/0010617019)
• 統計學,最強的商業武器
(http://www.books.com.tw/products/0010710939?loc=P_asb_004)
• 統計學,最強的商業武器:實踐篇
(http://www.books.com.tw/products/0010687439?loc=P_asb_001)
101
推薦書籍
自學良伴
• 60本免費的資料科學書籍
(http://dataology.blogspot.tw/2015/09/60.html)
• An Introduction to Statistical Learning
with Applications in R (2013)
102
線上課程
自學良伴
• 慕課 (http://course.cool3c.com)
• R語言翻轉教室 (http://datascienceandr.org)
• kaggle Tutorial (https://www.kaggle.com/wiki/Tutorials)
• Launch Your Career in Data Science
(https://www.coursera.org/specializations/jhu-data-science)
• 對周遭事物保持熱情,不盲從能批判
• 數學很重要,是你發揮創意的基石
• 程式很重要,讓你有具體實作能力
最後,我想說…
thank you
johnson@dsp.im

More Related Content

PDF
D4SG : 資料科學開創公共服務的新契機
PDF
Data science101
PDF
資料科學推廣教育的實踐
PDF
資料科學計劃的成果與展望
PDF
Talk to data science in 10 minutes
PDF
Who believes in data science
PDF
Data science and ECFA media analysis
PDF
資料原力,改變社會
D4SG : 資料科學開創公共服務的新契機
Data science101
資料科學推廣教育的實踐
資料科學計劃的成果與展望
Talk to data science in 10 minutes
Who believes in data science
Data science and ECFA media analysis
資料原力,改變社會

What's hot (15)

PDF
D4SG creates new opportunities for public service
PDF
DSP資料科學教學模式分享
PDF
Big Data 成功與失敗的真相
PPTX
【D4SG】新竹縣環保局-便利資訊看板(雛形)
PPTX
DSP Wellcome
PDF
劉正山/世代之爭爭什麼 ? 談談如何從調查資料挖掘出豐厚的意義
PDF
Data Science: Z > B 的資料科學
PDF
2016台灣資料科學年會開場投影片
PDF
行動廣告與大數據資料分析策略與執行
PDF
開場致詞 -- 2014 台灣資料科學愛好者年會
PPTX
2013調查報導工作坊 - 資料搜尋與處理
PDF
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
PPTX
Open data
PPTX
從統計到資料科學
PDF
Power BI x R
D4SG creates new opportunities for public service
DSP資料科學教學模式分享
Big Data 成功與失敗的真相
【D4SG】新竹縣環保局-便利資訊看板(雛形)
DSP Wellcome
劉正山/世代之爭爭什麼 ? 談談如何從調查資料挖掘出豐厚的意義
Data Science: Z > B 的資料科學
2016台灣資料科學年會開場投影片
行動廣告與大數據資料分析策略與執行
開場致詞 -- 2014 台灣資料科學愛好者年會
2013調查報導工作坊 - 資料搜尋與處理
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
Open data
從統計到資料科學
Power BI x R
Ad

Viewers also liked (20)

PPTX
教育中的資料科學:深又大
PDF
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望
PDF
心理學x資料科學-黃從仁
PDF
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
PPTX
李育杰/The Growth of a Data Scientist
PDF
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
PDF
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會
PDF
李慕約&王向榮/如何備料:資料的抓取、清理以及串接
PDF
余致緯/用數據解決都會城市的停車問題
PDF
給軟體工程師的不廢話 R 語言精要班
PDF
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
PDF
[DSC 2016] 系列活動:李祈均 / 人類行為大數據分析
PDF
[系列活動] 給工程師的統計學及資料分析 123
PDF
[系列活動] 使用 R 語言建立自己的演算法交易事業
PDF
[系列活動] Machine Learning 機器學習課程
PDF
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
PDF
[系列活動] 機器學習速遊
PDF
[系列活動] 智慧城市中的時空大數據應用
PDF
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
PDF
Pandas!資料處理與分析的利器!
教育中的資料科學:深又大
李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望
心理學x資料科學-黃從仁
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
李育杰/The Growth of a Data Scientist
曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學
「資料視覺化」有志一同場次 at 2016 台灣資料科學年會
李慕約&王向榮/如何備料:資料的抓取、清理以及串接
余致緯/用數據解決都會城市的停車問題
給軟體工程師的不廢話 R 語言精要班
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
[DSC 2016] 系列活動:李祈均 / 人類行為大數據分析
[系列活動] 給工程師的統計學及資料分析 123
[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] Machine Learning 機器學習課程
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 機器學習速遊
[系列活動] 智慧城市中的時空大數據應用
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
Pandas!資料處理與分析的利器!
Ad

Similar to Self improvement in the big data era (20)

PDF
網路2.0時代情報蒐集術
PPTX
2013.11.04 Data Journalism Introduction
PDF
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
PDF
找到適合的彼此- 行動裝置的志工媒合系統
PPTX
2013.09.15.data.journalism.101 v1
PDF
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
PDF
從專家到社群 即時資訊採集分析系統
PDF
數位科技工具在自我學習上的運用
PDF
N世代情報收集術
PPTX
Information needs assessment
PDF
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805
PDF
20161108 網路星期二:『資料力,做公益』- 開創公共服務的新契機
PDF
[網二] 『資料力,做公益』- 開創公共服務的新契機
PDF
GDSC NYCU下學期社員大會
PPTX
Subgroup-Discovery-2021.pptx
PDF
Data Strategy (資料策略)
PDF
DSP 資料科學計畫簡介
PDF
EdTech創新培育理論模式與經驗分享-20161023
PDF
[台灣人工智慧學校] 人工智慧民主化在台灣
PDF
資料科學家未曾公開之資安研究事件簿
網路2.0時代情報蒐集術
2013.11.04 Data Journalism Introduction
MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧
找到適合的彼此- 行動裝置的志工媒合系統
2013.09.15.data.journalism.101 v1
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從專家到社群 即時資訊採集分析系統
數位科技工具在自我學習上的運用
N世代情報收集術
Information needs assessment
AI數位轉型—智能數據驅動新經濟:標準化、自動化、無人化、智慧化、無憂化,20220805
20161108 網路星期二:『資料力,做公益』- 開創公共服務的新契機
[網二] 『資料力,做公益』- 開創公共服務的新契機
GDSC NYCU下學期社員大會
Subgroup-Discovery-2021.pptx
Data Strategy (資料策略)
DSP 資料科學計畫簡介
EdTech創新培育理論模式與經驗分享-20161023
[台灣人工智慧學校] 人工智慧民主化在台灣
資料科學家未曾公開之資安研究事件簿

More from Johnson Hsieh (8)

PDF
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
PDF
資料視覺化的力量
PDF
iNEXT: An R package for interpolation and extrapolation in measuring species ...
PDF
媒體報導關聯性分析:以太陽花學運為例
PDF
Statistics with R
PDF
iNEXT: an r package for interpolation and extrapolation species diversity
PDF
Intro shiny coscup2013
PPT
Paper Summary
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
資料視覺化的力量
iNEXT: An R package for interpolation and extrapolation in measuring species ...
媒體報導關聯性分析:以太陽花學運為例
Statistics with R
iNEXT: an r package for interpolation and extrapolation species diversity
Intro shiny coscup2013
Paper Summary

Self improvement in the big data era