SlideShare a Scribd company logo
大数据时代的图书馆
                    big data:
              From the Library of Books
                to the Library of Data


                    上海图书馆 刘 炜
                     kevenlw @ gmail.com



12年7月18日星期三                                1
There were 5 exabytes of information created between
              the dawn of civilization through 2003, but that much
              information is now created every 2 days, and the pace
              is increasing.

              从开天辟地至2003年,人类大约总共生产了5
              exabytes的信息。现在我们每两天就制造这么多信
              息。

                         ----Eric Schmidt, Former Google CEO, Techonomy Conference,
                                                                     August 4, 2010




12年7月18日星期三                                                                           2
Data is becoming the new raw material of business: an
              economic input almost on a par with capital and
              labour. “Every day I wake up and ask, ‘how can I flow
              data better, manage data better, analyse data better?”

              数据正在成为一种新的原材料,与资本和劳动力几
              乎同等重要。每天清晨我一醒来就会问自己:我能
              如何使数据运行得更顺畅、管理得更有效、分析得
              更透彻?

                --Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The
                                                          Economist, February 25, 2010




12年7月18日星期三                                                                              3
大纲 Outline
              大数据概念 What is Big Data?
              大数据的缘起 Where it comes from?
              大数据为什么重要 Why Big Data?
              大数据实例 Two Case Studies
              大数据与数字图书馆 Big Data and Digital
              Librarianship
              大数据时代图书馆员的角色 Library role to
              Tame the Big Data


12年7月18日星期三                                    4
什么是大数据
                   What is BD?

              数量庞大 Volume     当每个人都拥有不止⼀一台电脑,每
                              个手机都是⼀一台传感器;当摄像头
                              无所不在,每件东西都有⼀一个RFID
              变化迅速 Velocity   标签;当每个人的每个活动、甚至
                              每个心情都记载于社会性网络,而
                              互联网把所有这⼀一切都连结在⼀一起
              类型众多 Variety    的时候,每时每刻产生的信息可能
                              是⼀一个巨大的矿藏。它不仅勾画出
                              现实世界正在发生的图景,而且蕴

              价值巨大 Value      藏着惊人的秘密。这是在过去的岁
                              月中采取任何方式都无法获知的。



                                        From IBM


12年7月18日星期三                                        5
泥板文书 Cuneiform




12年7月18日星期三                    6
大数据来自何处
              Where BD comes from?




              Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups)
                                Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)(
12年7月18日星期三                                                                                                                                 7
大数据有多大?




      Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-
                                   infographic/ctlinfographic/
12年7月18日星期三                                                                                   8
大数据有多大?




      Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-
                                   infographic/ctlinfographic/
12年7月18日星期三                                                                                   9
Yottabyte
                                       Zettabyte
                             Exabyte
                  Petabyte




              兆、京(吉)、太、拍、艾、泽、尧字节
12年7月18日星期三                                                    10
大数据来自何处
              Where BD comes from?

              科学计算 The large data collections of “big
              science” projects

              网络应用 The data holdings of a Google,
              Facebook or other large Web company
              (Taobao, Twitter)

              企业数据 The enterprise data of large, non-
              Web-based companies (IBM, TATA, etc.)

                                           From Jim Hendler


12年7月18日星期三                                                   11
清醒认识大数据
                   Why BD?

              多大才大 How BIG is big?

              大意味着什么 What BIG means?

              为什么要大数据 Why BIG so attractive?

              谁来驯服大数据 Who deal with BIG Data?



12年7月18日星期三                                     12
大数据特点
              New Characteristics

              结构化程度不高 NoSQL, weak structural

              向第三方应用开放 Third party application
              and extension (open for mashup)

              向语义化方向发展 Semantics (e.g..
              schema.org, RDF)


                                       From Jim Hendler

12年7月18日星期三                                               13
大数据是一项颠覆性技术,继信息高速公路、数
              字图书馆、赛百基础设施之后的新热点,一脉相
              承。Tame the Web到Tame the Big Data

              大数据研究有助于释放复杂数据中的智能。

              大数据的价值并不在于能帮我们做出神奇的事
              情,而是成为我们日常社会生活的基础设施。

              对于图书馆而言,大数据是Data Preservation和
              Data Curation的自然延伸




12年7月18日星期三                                      14
对大数据的需求
               New Requirements
              全网搜索 (Web-scale) data search

              众包建模 “Crowd-sourced” modeling

              快速虚拟整合 Rapid (and potentially ad hoc)
              integration of datasets

               可视化及局域建模分析Visualization and analysis
              of only-partially modeled datasets

              数据开放、复用及联结政策,Policies for data
              use, reuse and combination.
                                             From Jim Hendler


12年7月18日星期三                                                     15
大数据解决方案示意




         Source:http://jameskaskade.com/wp-content/uploads/2011/11/BigDataPaaS5.png
12年7月18日星期三                                                                           16
举例:两个领域
               Two Case Studies

              数据驱动型研究(数据密集型科
              学)Data Driven Research (Data
              Intensive Science)

              开放政府(信息公开服务)Open
              Government (Information Services)


12年7月18日星期三                                       17
数据驱动型研究
              Data Driven Research
              假设驱动型研究

                逐渐涌现:
                 数据驱动
                  模拟
                 预测驱动
                 自动试验
               虚拟团队研究
              等等新型研究模式

                  From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                       18
科学研究的第四范式
          The Fourth Paradigm
              1.上千年前:经验描述
              2.数百年前:理论总结
              3.几十年前:现象模拟
              4.当前:eScience,融
               合经验总结、理论与
               模拟;数据由仪器采
               集或模拟得到;经云
               端或众包处理;由数
               据科学家和计算机专
               家参与管理并可视
               化,最终交科学家分
               析总结。


12年7月18日星期三                     19
科学的摸样
              The Map of Science




     From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP7
12年7月18日星期三                                                                                                  20
政府信息公开                                     Government Data Sharing: “Year 1”

                                                  Open-Gov                                                                                   Tetherless World Constellation




                                                                             data.gov online                                    Open Government                                 data.gov relaunch
          January 1, 2009




                                                                                                      December 8, 2009
                             Openness will strengthen




                                                                                                                                                                 May 21, 2010
                                                           May 21, 2009

                            our democracy and promote                                                                          Directive released                               with semantic web
                                                                             57 Data Sets                                      ~2000 Data Sets                                  featured
                            efficiency and effectiveness
                            in Government.                                                                                                                                       >305,000 Data Sets
                                     --- President Obama



        2009                                                                                                                                                                               2010 …
                                                                                                                         January 19, 2010
                                                                    June30,2009




                                                                                  Putting Govt Data                                                                              ~6000 Data Set
                                                                                  online-
                                                                                  Data.gov.uk beta                                          data.gov.uk online




                                                                                                                                                                  From Jim Hendler


12年7月18日星期三                                                                                                                                                                                           21
政府信息公开
                  Government Data Sharing: Year 2

               Open-Gov   Tetherless World Constellation




                                       From Jim Hendler

12年7月18日星期三                                                22
政府信息公开
               Government Data in the linked open data cloud


               Open-Gov                 Tetherless World Constellation




                   Government Data is
                   currently over ½ the cloud in
                   size (~17B triples), 10s of
                   thousands of links to other
                   data (within and without)

               http://linkeddata.org/
                                                   From Jim Hendler
12年7月18日星期三                                                              23
政府信息公开
               Open-Gov
                    Tetherless World Constellation




                               From Jim Hendler
12年7月18日星期三                                          24
政府信息公开            Linking GDP of the US and China


                                           Open-Gov                    Tetherless World Constellation



      GDP of the US (Billion Dollar)




                               This mashup was built in less than 4 hours –
                               including conversion of data, web interface, and
                               visualization!
   GDP of China (Billion Chinese Yuan )




                                          [Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn
                                                                                       From Jim Hendler
12年7月18日星期三                                                                                               25
大数据与图书馆
              Big Data enabled Library




              Source:http://blogs.loc.gov/loc/2009/02/how-big-is-the-library-of-congress/

12年7月18日星期三                                                                                 26
大数据与图书馆
              Big Data enabled Library




   Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html

12年7月18日星期三                                                                                    27
大数据与图书馆
              Big Data enabled Library




   Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a-
                                  series-of-big-data-reports/
12年7月18日星期三                                                                                   28
大数据对图书馆为什么重要?
              Why Library’s matter?

              数据保存 Data Preservation
              数据看护 Data Curation
              大数据公共服务 Public Big Data Services
              大数据是图书馆信息服务和资源发现必须面
              临的问题,是图书馆资源发现克服目前技术
              和模式的局限性,获得突破创新的关键。



12年7月18日星期三                                      29
目前的图书馆“大数据”服务
              Current Library BD Services


              数字图书馆 Digital Library

              机构库 Institutional Repository

              资源到所,服务到人,嵌入一线,融入过程。
              Ubiquitous Services

              决策咨询服务 Think Tank Consultancy




12年7月18日星期三                                   30
图书馆的大数据业务
          Library Powered BD Services
              Search/Discover) Serendipitous)Finding)                   Integrated)search)
                               Collabora&ve)Searching)                  Automa&c)paper)download)
                                                                        Con&nual)queries)
                               Structural)Search)                       Paper)recommenda&on)
                               Keeping)Current)                         Alert)
                                                                        )
              Gather)           Collec&ng)                              Project))and)Personal))
                                                                        Internal)search)
                                Manage)                                 Refereed)and)Grey)literature)
                                Organizing)
                                                                        )
              Create)           Annota&ng)                              Tag,)annotate,)rate))
                                Review)&)Rate)                          Templates)
                                Describe)                               Mul&Lauthor)authoring)
                                Write)
              Share)                                                    Bibliography)management)
                                Publish)                                Version)management)
                                Sharing)                                Copyright)tools)(CC)and)SC))
                                Rights)                                 Linking)up)data,)models)and)other)
                                                                        components)


                              From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                                                  31
图书馆的大数据业务
          Library Powered BD Services
              Search/Discover) Serendipitous)Finding)                   Integrated)search)
                               Collabora&ve)Searching)                  Automa&c)paper)download)
                                                                        Con&nual)queries)
                               Structural)Search)                       Paper)recommenda&on)
                               Keeping)Current)                         Alert)
                                                                        )
              Gather)           Collec&ng)                              Project))and)Personal))
                                                                        Internal)search)
                                Manage)                                 Refereed)and)Grey)literature)
                                Organizing)
                                                                        )
              Create)           Annota&ng)                              Tag,)annotate,)rate))
                                Review)&)Rate)                          Templates)
                                Describe)                               Mul&Lauthor)authoring)
                                Write)
              Share)                                                    Bibliography)management)
                                Publish)                                Version)management)
                                Sharing)                                Copyright)tools)(CC)and)SC))
                                Rights)                                 Linking)up)data,)models)and)other)
                                                                        components)
         最重要的:数据的有序组织和规范控制
                              From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                                                  31
大数据时代图书馆员角色
                     BD Librarian
              可信的看护者                                           格式监管
              Trusted curator                                  Format authority

              可信的管理员                                           内容增值Add value
              Trusted data manager                             content provider

              质量审核                                             元数据/词表提供
              Quality arbiter                                  Metadata / controlled
                                                               vocabulary provider
              知识播种机
              Knowledge                                        服务增值Add value
              disseminator                                     service provider
                       From:	
  Carole	
  Goble	
  “the	
  Future	
  of	
  Research”
12年7月18日星期三                                                                            32
新岗位,新称号
        New Position with New Requirements




  From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”
12年7月18日星期三                                                                                     33
新岗位,新称号
        New Position with New Requirements




  From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”
12年7月18日星期三                                                                                     34
可视化:Twitter数据流




              Source: http://www.flickr.com/photos/walkingsf/6635655755/in/photostream/
12年7月18日星期三                                                                              35
DEMO
              演示:大数据可视化




12年7月18日星期三               36
12年7月18日星期三   37
大数据时代的图书馆
                    big data:
              From the Library of Books
                to the Library of Data


                    上海图书馆 刘 炜
                     kevenlw @ gmail.com



12年7月18日星期三                                38

More Related Content

PPTX
大數據的基本概念(上)
PDF
Bigdata bizoppor
PPTX
开放数据-中文
PDF
Hadoop Big Data 成功案例分享
PDF
如何備料:資料的抓取、清理以及串接
PDF
20160802企業大數據應用心法與技法—撿、找、人算、神算
PDF
Big Data 現象,以及現象中的我們
PDF
大數據時代的必備工具-Google Analytics
大數據的基本概念(上)
Bigdata bizoppor
开放数据-中文
Hadoop Big Data 成功案例分享
如何備料:資料的抓取、清理以及串接
20160802企業大數據應用心法與技法—撿、找、人算、神算
Big Data 現象,以及現象中的我們
大數據時代的必備工具-Google Analytics

What's hot (20)

PDF
Data Leaders in Action - 資料價值領袖風範與關鍵行動
PPTX
PPTX
大數據
PDF
20140206 victor gau - r簡介 @ ksdg
PDF
轉兌數據的價值 — 從導購到策購
PDF
那些你知道的,但還沒看過的 Big Data 風景
PDF
Dtcc ibm big data platform 2012-final_cn
PPTX
何謂大數據
PDF
資料科學團隊人才培育分享 ─ 以 DSP 為例
PPTX
資料價值 — 一位資料產品經理的視野
PDF
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
PDF
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
PDF
DSP 資料科學計畫簡介
PDF
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
PPTX
大数据 数据挖掘
PDF
鄧白氏大數據2015_SalesMarketing
PPT
Postmortem of 'Person of Interest' - Big data rc sharing
PDF
Big Data vs. Open Data
PDF
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
PDF
Big Data For CIO_大數據白皮書_2015
Data Leaders in Action - 資料價值領袖風範與關鍵行動
大數據
20140206 victor gau - r簡介 @ ksdg
轉兌數據的價值 — 從導購到策購
那些你知道的,但還沒看過的 Big Data 風景
Dtcc ibm big data platform 2012-final_cn
何謂大數據
資料科學團隊人才培育分享 ─ 以 DSP 為例
資料價值 — 一位資料產品經理的視野
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
DSP 資料科學計畫簡介
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
大数据 数据挖掘
鄧白氏大數據2015_SalesMarketing
Postmortem of 'Person of Interest' - Big data rc sharing
Big Data vs. Open Data
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
Big Data For CIO_大數據白皮書_2015
Ad

Viewers also liked (11)

PDF
海量資料與圖書館
PPTX
Altmetrics presentation mla'14 chinese version
PDF
Altmetrics 2014-4-15-slideshare
PDF
Introduction to big data
PDF
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
PPTX
BDTC2015 小米-大数据和小米金融
PPTX
大數據導讀
PPTX
大数据漫谈-bilibili
PDF
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
PDF
超基本網站分析,數據會說話(網路版)
PPTX
行動廣告與大數據資料分析策略與執行
海量資料與圖書館
Altmetrics presentation mla'14 chinese version
Altmetrics 2014-4-15-slideshare
Introduction to big data
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
BDTC2015 小米-大数据和小米金融
大數據導讀
大数据漫谈-bilibili
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
超基本網站分析,數據會說話(網路版)
行動廣告與大數據資料分析策略與執行
Ad

Similar to Silf2012lw3 (20)

PDF
Big data, big deal ms it168文库
PDF
Big data, big deal ms it168文库
PDF
淘宝数据可视化[2010 SD2.0]
PPT
云计算091124(李德毅院士)
PPT
数据可视化
PDF
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
PPTX
Big Data and Future
PDF
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
PDF
垂直互联网站点的技术改造
PDF
云存储与虚拟化分论坛 生活在云端 蔡礼洪
PDF
云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc
PDF
Hadoop
PDF
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
PDF
肖永红:科研数据应用和共享方面的实践
PDF
Big Data World Forum
PDF
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
PDF
IT445_Week_11.pdf
PDF
Ptmind
PPTX
数据的价值和灵魂
Big data, big deal ms it168文库
Big data, big deal ms it168文库
淘宝数据可视化[2010 SD2.0]
云计算091124(李德毅院士)
数据可视化
Big Data 101 一 一個充滿意圖與關聯世界的具體實現
Big Data and Future
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
垂直互联网站点的技术改造
云存储与虚拟化分论坛 生活在云端 蔡礼洪
云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc
Hadoop
何时浮云散尽(在北邮北邮纪阳老师移动互联网课程上的讲义)
肖永红:科研数据应用和共享方面的实践
Big Data World Forum
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
IT445_Week_11.pdf
Ptmind
数据的价值和灵魂

More from Shanghai Library (20)

PDF
数字阅读推广与大数据
PDF
阅读:从哪里来?向何处去?
PDF
PDF
关于馆藏资源语义聚合及相关标准规范的思考
PDF
从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义
PDF
数字人文与关联数据
PDF
Smart library
PDF
Meet up Google Glass
PDF
资源发现可以更美
PDF
Archive it2b
PDF
ADLS 2013 Shen Zhen
PDF
20130521 ecust
PDF
20130339广州
PDF
研讨班概述
PDF
数字阅读汇报
PDF
Hangzhoulib
PDF
馆庆汇报5月
PDF
数字阅读 问答
KEY
深圳Ils1
KEY
M library
数字阅读推广与大数据
阅读:从哪里来?向何处去?
关于馆藏资源语义聚合及相关标准规范的思考
从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义
数字人文与关联数据
Smart library
Meet up Google Glass
资源发现可以更美
Archive it2b
ADLS 2013 Shen Zhen
20130521 ecust
20130339广州
研讨班概述
数字阅读汇报
Hangzhoulib
馆庆汇报5月
数字阅读 问答
深圳Ils1
M library

Silf2012lw3

  • 1. 大数据时代的图书馆 big data: From the Library of Books to the Library of Data 上海图书馆 刘 炜 kevenlw @ gmail.com 12年7月18日星期三 1
  • 2. There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing. 从开天辟地至2003年,人类大约总共生产了5 exabytes的信息。现在我们每两天就制造这么多信 息。 ----Eric Schmidt, Former Google CEO, Techonomy Conference, August 4, 2010 12年7月18日星期三 2
  • 3. Data is becoming the new raw material of business: an economic input almost on a par with capital and labour. “Every day I wake up and ask, ‘how can I flow data better, manage data better, analyse data better?” 数据正在成为一种新的原材料,与资本和劳动力几 乎同等重要。每天清晨我一醒来就会问自己:我能 如何使数据运行得更顺畅、管理得更有效、分析得 更透彻? --Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The Economist, February 25, 2010 12年7月18日星期三 3
  • 4. 大纲 Outline 大数据概念 What is Big Data? 大数据的缘起 Where it comes from? 大数据为什么重要 Why Big Data? 大数据实例 Two Case Studies 大数据与数字图书馆 Big Data and Digital Librarianship 大数据时代图书馆员的角色 Library role to Tame the Big Data 12年7月18日星期三 4
  • 5. 什么是大数据 What is BD? 数量庞大 Volume 当每个人都拥有不止⼀一台电脑,每 个手机都是⼀一台传感器;当摄像头 无所不在,每件东西都有⼀一个RFID 变化迅速 Velocity 标签;当每个人的每个活动、甚至 每个心情都记载于社会性网络,而 互联网把所有这⼀一切都连结在⼀一起 类型众多 Variety 的时候,每时每刻产生的信息可能 是⼀一个巨大的矿藏。它不仅勾画出 现实世界正在发生的图景,而且蕴 价值巨大 Value 藏着惊人的秘密。这是在过去的岁 月中采取任何方式都无法获知的。 From IBM 12年7月18日星期三 5
  • 7. 大数据来自何处 Where BD comes from? Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups) Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)( 12年7月18日星期三 7
  • 8. 大数据有多大? Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge- infographic/ctlinfographic/ 12年7月18日星期三 8
  • 9. 大数据有多大? Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge- infographic/ctlinfographic/ 12年7月18日星期三 9
  • 10. Yottabyte Zettabyte Exabyte Petabyte 兆、京(吉)、太、拍、艾、泽、尧字节 12年7月18日星期三 10
  • 11. 大数据来自何处 Where BD comes from? 科学计算 The large data collections of “big science” projects 网络应用 The data holdings of a Google, Facebook or other large Web company (Taobao, Twitter) 企业数据 The enterprise data of large, non- Web-based companies (IBM, TATA, etc.) From Jim Hendler 12年7月18日星期三 11
  • 12. 清醒认识大数据 Why BD? 多大才大 How BIG is big? 大意味着什么 What BIG means? 为什么要大数据 Why BIG so attractive? 谁来驯服大数据 Who deal with BIG Data? 12年7月18日星期三 12
  • 13. 大数据特点 New Characteristics 结构化程度不高 NoSQL, weak structural 向第三方应用开放 Third party application and extension (open for mashup) 向语义化方向发展 Semantics (e.g.. schema.org, RDF) From Jim Hendler 12年7月18日星期三 13
  • 14. 大数据是一项颠覆性技术,继信息高速公路、数 字图书馆、赛百基础设施之后的新热点,一脉相 承。Tame the Web到Tame the Big Data 大数据研究有助于释放复杂数据中的智能。 大数据的价值并不在于能帮我们做出神奇的事 情,而是成为我们日常社会生活的基础设施。 对于图书馆而言,大数据是Data Preservation和 Data Curation的自然延伸 12年7月18日星期三 14
  • 15. 对大数据的需求 New Requirements 全网搜索 (Web-scale) data search 众包建模 “Crowd-sourced” modeling 快速虚拟整合 Rapid (and potentially ad hoc) integration of datasets 可视化及局域建模分析Visualization and analysis of only-partially modeled datasets 数据开放、复用及联结政策,Policies for data use, reuse and combination. From Jim Hendler 12年7月18日星期三 15
  • 16. 大数据解决方案示意 Source:http://jameskaskade.com/wp-content/uploads/2011/11/BigDataPaaS5.png 12年7月18日星期三 16
  • 17. 举例:两个领域 Two Case Studies 数据驱动型研究(数据密集型科 学)Data Driven Research (Data Intensive Science) 开放政府(信息公开服务)Open Government (Information Services) 12年7月18日星期三 17
  • 18. 数据驱动型研究 Data Driven Research 假设驱动型研究 逐渐涌现: 数据驱动 模拟 预测驱动 自动试验 虚拟团队研究 等等新型研究模式 From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 18
  • 19. 科学研究的第四范式 The Fourth Paradigm 1.上千年前:经验描述 2.数百年前:理论总结 3.几十年前:现象模拟 4.当前:eScience,融 合经验总结、理论与 模拟;数据由仪器采 集或模拟得到;经云 端或众包处理;由数 据科学家和计算机专 家参与管理并可视 化,最终交科学家分 析总结。 12年7月18日星期三 19
  • 20. 科学的摸样 The Map of Science From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP7 12年7月18日星期三 20
  • 21. 政府信息公开 Government Data Sharing: “Year 1” Open-Gov Tetherless World Constellation data.gov online Open Government data.gov relaunch January 1, 2009 December 8, 2009 Openness will strengthen May 21, 2010 May 21, 2009 our democracy and promote Directive released with semantic web 57 Data Sets ~2000 Data Sets featured efficiency and effectiveness in Government. >305,000 Data Sets --- President Obama 2009 2010 … January 19, 2010 June30,2009 Putting Govt Data ~6000 Data Set online- Data.gov.uk beta data.gov.uk online From Jim Hendler 12年7月18日星期三 21
  • 22. 政府信息公开 Government Data Sharing: Year 2 Open-Gov Tetherless World Constellation From Jim Hendler 12年7月18日星期三 22
  • 23. 政府信息公开 Government Data in the linked open data cloud Open-Gov Tetherless World Constellation Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) http://linkeddata.org/ From Jim Hendler 12年7月18日星期三 23
  • 24. 政府信息公开 Open-Gov Tetherless World Constellation From Jim Hendler 12年7月18日星期三 24
  • 25. 政府信息公开 Linking GDP of the US and China Open-Gov Tetherless World Constellation GDP of the US (Billion Dollar) This mashup was built in less than 4 hours – including conversion of data, web interface, and visualization! GDP of China (Billion Chinese Yuan ) [Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn From Jim Hendler 12年7月18日星期三 25
  • 26. 大数据与图书馆 Big Data enabled Library Source:http://blogs.loc.gov/loc/2009/02/how-big-is-the-library-of-congress/ 12年7月18日星期三 26
  • 27. 大数据与图书馆 Big Data enabled Library Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html 12年7月18日星期三 27
  • 28. 大数据与图书馆 Big Data enabled Library Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a- series-of-big-data-reports/ 12年7月18日星期三 28
  • 29. 大数据对图书馆为什么重要? Why Library’s matter? 数据保存 Data Preservation 数据看护 Data Curation 大数据公共服务 Public Big Data Services 大数据是图书馆信息服务和资源发现必须面 临的问题,是图书馆资源发现克服目前技术 和模式的局限性,获得突破创新的关键。 12年7月18日星期三 29
  • 30. 目前的图书馆“大数据”服务 Current Library BD Services 数字图书馆 Digital Library 机构库 Institutional Repository 资源到所,服务到人,嵌入一线,融入过程。 Ubiquitous Services 决策咨询服务 Think Tank Consultancy 12年7月18日星期三 30
  • 31. 图书馆的大数据业务 Library Powered BD Services Search/Discover) Serendipitous)Finding) Integrated)search) Collabora&ve)Searching) Automa&c)paper)download) Con&nual)queries) Structural)Search) Paper)recommenda&on) Keeping)Current) Alert) ) Gather) Collec&ng) Project))and)Personal)) Internal)search) Manage) Refereed)and)Grey)literature) Organizing) ) Create) Annota&ng) Tag,)annotate,)rate)) Review)&)Rate) Templates) Describe) Mul&Lauthor)authoring) Write) Share) Bibliography)management) Publish) Version)management) Sharing) Copyright)tools)(CC)and)SC)) Rights) Linking)up)data,)models)and)other) components) From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 31
  • 32. 图书馆的大数据业务 Library Powered BD Services Search/Discover) Serendipitous)Finding) Integrated)search) Collabora&ve)Searching) Automa&c)paper)download) Con&nual)queries) Structural)Search) Paper)recommenda&on) Keeping)Current) Alert) ) Gather) Collec&ng) Project))and)Personal)) Internal)search) Manage) Refereed)and)Grey)literature) Organizing) ) Create) Annota&ng) Tag,)annotate,)rate)) Review)&)Rate) Templates) Describe) Mul&Lauthor)authoring) Write) Share) Bibliography)management) Publish) Version)management) Sharing) Copyright)tools)(CC)and)SC)) Rights) Linking)up)data,)models)and)other) components) 最重要的:数据的有序组织和规范控制 From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 31
  • 33. 大数据时代图书馆员角色 BD Librarian 可信的看护者 格式监管 Trusted curator Format authority 可信的管理员 内容增值Add value Trusted data manager content provider 质量审核 元数据/词表提供 Quality arbiter Metadata / controlled vocabulary provider 知识播种机 Knowledge 服务增值Add value disseminator service provider From:  Carole  Goble  “the  Future  of  Research” 12年7月18日星期三 32
  • 34. 新岗位,新称号 New Position with New Requirements From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade” 12年7月18日星期三 33
  • 35. 新岗位,新称号 New Position with New Requirements From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade” 12年7月18日星期三 34
  • 36. 可视化:Twitter数据流 Source: http://www.flickr.com/photos/walkingsf/6635655755/in/photostream/ 12年7月18日星期三 35
  • 37. DEMO 演示:大数据可视化 12年7月18日星期三 36
  • 39. 大数据时代的图书馆 big data: From the Library of Books to the Library of Data 上海图书馆 刘 炜 kevenlw @ gmail.com 12年7月18日星期三 38