SlideShare a Scribd company logo
数字档案开发利用前沿
刘炜
上海图书馆
113年7月7⽇日星期⽇日
213年7月7⽇日星期⽇日
•图书馆:人类精神创造的记录收藏之所
•档案馆:人类活动的选择性记录收藏之所
•博物馆:人类有特定目的的实物收藏之所
313年7月7⽇日星期⽇日
Library Archive Museum
图书馆、档案馆、博物馆
构成传统社会人类所有社会
知识(记忆)的总和。
413年7月7⽇日星期⽇日
档案馆与图书馆
资料性 凭证性
513年7月7⽇日星期⽇日
干部人事档案与一般文书档案
干部人事档案 普通(文书)档案
目的 人事管理,内部 凭证/资料, 利用
立卷 以人为标目 各类文件皆可立档
真实性
以当前情况为真,历史
错误必须纠正
以保留原貌为真
生命周期 与干部任职周期一致
根据档案管理要求,长期
保存
存档形式
不断积累,因人而变,
动态
静态,原貌
613年7月7⽇日星期⽇日
大 纲
档案信息化一般过程、方
法、目标、现状与问题等
数字档案前沿:数字人文
和大数据
713年7月7⽇日星期⽇日
什么是档案?
档案:人类一切活动的记录留存。
Who:国家机构、社会组织以及个人;
When:过去和现在;
What:政治、军事、经济、科学、技术、文化、
宗教等活动;
Why:对国家和社会有保存价值;
How:各种文字、图表、声像等不同形式和载
体。
813年7月7⽇日星期⽇日
什么是档案?
过去和现在的国家机构、社会组
织以及个人从事政治、军事、经济、
科学、技术、文化、宗教等活动直接
形成的对国家和社会有保存价值的各
种文字、图表、声像等不同形式的历
史记录。
——中华人民共和国档案法
913年7月7⽇日星期⽇日
档案的分类
三种分类角度:
•概念分类:为了具体认识档案
•实体分类:为了科学管理档案
•检索分类:为了准确查寻档案。
1013年7月7⽇日星期⽇日
干部人事档案的数字化管理
•纸本为主,计算机辅助管理
•数字档案与纸本互为备份;
•数字档案为主,纸本为辅。
1113年7月7⽇日星期⽇日
档案事业规划目标
两个翻一番:档案馆面积翻一
番、档案藏量翻一番
一个翻两番:纸质档案数字化数
量翻两番。
1213年7月7⽇日星期⽇日
档案信息化
“所谓档案信息化,就是在国家档案行政
管理部门的统一规划和组织下,在档案管
理活动中全面应用现代信息技术,对档案
信息资源进行处置、管理和提供利用服
务。”
——杨公之:《档案信息化导论》,中国档案出版社 2001年9月第一版
1313年7月7⽇日星期⽇日
档案信息化基本内容
• 基础设施建设
• 档案信息资源建设:目录建设、数字
化
• 档案管理系统及网站建设
• 管理制度及标准规范建设
1413年7月7⽇日星期⽇日
档案馆网站
国家档案局:
www.saac.gov.cn。Alexa 流量
排名: 全球914,125   中国
93,506  外链数: 767 
上海档案信息网:
www.archives.sh.cn。Alexa流
量排名: 全球2,215,990 无国内
排名,外链数: 79 
浙江省档案馆:
www.zjda.gov.cn。Alexa流量
排名: 全球644,615   中国:
77,448  外链数: 97 
国家图书馆:
www.nlc.gov.cn。Alexa流量
排名: 全球 50,129   中国:
5,756  外链数: 3,338 
上海图书馆:
www.library.sh.cn。Alexa流
量排名: 全球 88,223   中国:
10,474  外链数: 817 
1513年7月7⽇日星期⽇日
档案数字化
把原本以纸张载体(或缩微)为主要形
式的档案转化成计算机可以处理的形
式。
一般须经过原件扫描和元数据加工,通
过档案计算机管理系统来管理和使用。
原生数字档案的收集也可作为数字档案
进行管理和提供服务。
1613年7月7⽇日星期⽇日
档案数字化的优点
管理和使用方便快捷,能极大地促进利用,从
而使档案馆的价值得到彰显;
支持远程访问,支持与上级及兄弟单位共享,
甚至系统和区域内的档案馆藏连为一体;
数字化之后的档案作为原始档案的代表物,能
够减少原件的使用从而促进原件的保存。
减少长期存储的成本,以及减少存储空间。
1713年7月7⽇日星期⽇日
档案数字化的缺点
计算机技术进步迅速,更新换代频繁,档案系
统需要不断升级,以适应发展;
数字载体可靠性差,尚无法满足长期存储需求
(目前一般依靠不断迁移升级存储来实现);
易于拷贝和篡改也带来安全性问题;
1813年7月7⽇日星期⽇日
1913年7月7⽇日星期⽇日
如何看待档案数字化
数字化不应看成是其它方式的替代,而
应该作为一种补充。更好地保存原件。
缩微技术在长久保存方面依旧有其难以
替代的优势。
保存原始资料提高了原始资料作为证据
的内在价值。
2013年7月7⽇日星期⽇日
明确数字档案对象
2113年7月7⽇日星期⽇日
应用相关国际标准
ISO
15489 ISO
23081
ISO
19005-
1
ISO
15836
ISO
17799
ISO
18492
ISO
14721
IEC
82045
ISO
19005-
1
ISO
9001
2213年7月7⽇日星期⽇日
档案事业信息化问题
动力机制问题
目标需求问题
资源投入问题
人才培养问题
技术应用问题
2313年7月7⽇日星期⽇日
档案1.0
封闭不透明
以管理为中心
满足一方需要
害怕技术革新
不重视服务效益
档案员作为看门人具
有权威性
只喜欢“完美的”产
品
档案员因博学而重要
传统
坐等用户上门
档案2.0
开放透明
以用户为中心
崇尚标准化
拥抱新技术
重视服务效益和社会影
响
档案员作为社会进步助
推器
认可渐进完善型产品
档案员因工作而美丽
创新与灵活性
不断寻求改变以吸引新
用户
走向档案2.0
2413年7月7⽇日星期⽇日
为什么要档案2.0
增强职业性和专业性
促进技术进步
带来更加广泛的用户
实现更大的职业价值
2513年7月7⽇日星期⽇日
档案2.0五原则
档案是为了利用的
为档案找用户
为用户找档案
节省用户时间
档案馆是一个不断发展的有机整体
2613年7月7⽇日星期⽇日
数字人文
数字档案前沿
2713年7月7⽇日星期⽇日
什么是“人文”?
人文,是指“人文科学”(Humanities)
人文科学,通常指语言学(古代或现代),文
学,历史,哲学,宗教,视觉和行为艺术
有时还包括人类学、地区研究、传播学、文化
研究、法律等。
在我国,人文与社会科学通常不作严格区分
2813年7月7⽇日星期⽇日
什么是数字人文?
数字人文,是用计算机的方法研究人文科学
早期的例子如文献计量学,现在依赖于新的基
础设施
依赖于对材料的细粒度管理,即对知识内容单
元进行提取和重新组织、检索及可视化
海量、大范围的人文计算能够看到前人所无法
看到的东西,得出以前不可能得出的结论
数据和方法,是数字人文的两大支柱
2913年7月7⽇日星期⽇日
3013年7月7⽇日星期⽇日
人死后的数字档案怎么办?
3113年7月7⽇日星期⽇日
互联网档案
3213年7月7⽇日星期⽇日
3313年7月7⽇日星期⽇日
3413年7月7⽇日星期⽇日
3513年7月7⽇日星期⽇日
各国的数字存档计划
• 网站存档
• 电邮存档
• 数据Data存档
• 多媒体存档
• 社会性网络存
档
• 短信存档
• ......
3613年7月7⽇日星期⽇日
3713年7月7⽇日星期⽇日
英美政府数据公开计划
3813年7月7⽇日星期⽇日
3913年7月7⽇日星期⽇日
4013年7月7⽇日星期⽇日
数字人文基础设施
Digital Infrastructure
研究机构、网络、计算设施、人员、数据资料
4113年7月7⽇日星期⽇日
盛宣怀档案库
盛宣怀(1844年11月4日-1916年4月27日)
4213年7月7⽇日星期⽇日
盛宣怀档案本体
•数量:17.8万件,1亿多字
•时间:自1856年至1936年跨度80年(前20年为其父亲盛康所
记,死后20年为后人所记)
•类型:日记、信函、文稿、帐册、上谕、奏折、文件登记簿、号
簿、目录、账册、单据、发票、剪报、请帖等等。
•盛宣怀家族史、盛宣怀与赈灾、盛宣怀与铁路、盛宣怀与近代教
育、盛宣怀与西学、盛宣怀与晚清官场等
•涉及重大事件如洋务运动、义和团运动、辛亥革命、中日战争、
中外商务谈判、四川保路运动、东南互保事件等;
•涉及人物如孙中山、李鸿章、黄兴、谭嗣同、梁启超、翁同和、
沈葆桢、郑观应、张之洞、左宗棠、丁汝昌、袁世凯、辜鸿铭、胡
雪岩、詹天佑等约三千人;
王元化先生说:“‘盛档’原件如能公布,将能补史之阙,纠史之偏,正史之讹。”
4313年7月7⽇日星期⽇日
数字视频档案如何⽀支持⼈人⽂文研究4413年7月7⽇日星期⽇日
趋 势
文献-数据:细粒度化
字符-语义:知识化
局部-网络:全球化
分散-聚集:规模化(大数据)
文字-图像:可视化
4513年7月7⽇日星期⽇日
大数据
数字档案前沿
4613年7月7⽇日星期⽇日
(
4713年7月7⽇日星期⽇日
4813年7月7⽇日星期⽇日
YottabyteZettabyte
Exabyte
Petabyte
兆、京(吉)、太、拍、艾、泽、尧字节
4913年7月7⽇日星期⽇日
There were 5 exabytes of information
created between the dawn of
civilization through 2003, but that
much information is now created every
2 days, and the pace is increasing.
从开天辟地至2003年,人
类大约总共生产了5艾字节
(exabytes)的信息。现在我
们每两天就制造这么多信
息。
----Eric Schmidt, Former Google CEO,
Techonomy Conference,
August 4, 2010
http://techonomy.typepad.com/blog/2010/08/google-privacy-and-the-new-explosion-of-
data.html
5013年7月7⽇日星期⽇日
什么是大数据?
“Big data is data that exceeds the processing
capacity of conventional database systems. The data
is too big, moves too fast, or doesn’t fit the
strictures of your database architectures. To gain
value from this data, you must choose an alternative
way to process it.”
大数据是超出了传统数据库系
统处理能力的数据,由于体量
太大、变化太快或很难削足适
履应用于现有数据库架构,必
须考虑其它处理手段,才能充
分发挥价值。
----Edd Dumbill, From O’Reilly
Reference: “What is big data? An introduction to the big data landscape.”, Edd Dumbill, http://
radar.oreilly.com/2012/01/what-is-big-data.html
5113年7月7⽇日星期⽇日
大数据的特征
Variety From IBM
Volume
VelocityValue
5213年7月7⽇日星期⽇日
大数据有多大?
Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-
infographic/ctlinfographic/
5313年7月7⽇日星期⽇日
大数据有多大?
Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-
infographic/ctlinfographic/
5413年7月7⽇日星期⽇日
数字档案应用的将来
三级档案系统:脱机系统,政务联网,
扩展应用系统,分别规定不同角色权
限,实现不同功能需求
数据同步根据要求分级别实现
扩展应用采用开放数据方式,提供注
册、认证等API服务
整个系统作为政府公共数据平台的一部
分,提供各类增值服务接口
5513年7月7⽇日星期⽇日
谢谢!
5613年7月7⽇日星期⽇日

More Related Content

PDF
記憶傳聲圖書館-PHONOPEDIA
PDF
中国图书馆图书分类法(Chinese library classification clc)
PPTX
National library of India. Library and information science
PPTX
New china
PPT
China 中国 Ppt Presentation
PPTX
Education system in china
PPT
China Presentation
PPTX
Chinese education
記憶傳聲圖書館-PHONOPEDIA
中国图书馆图书分类法(Chinese library classification clc)
National library of India. Library and information science
New china
China 中国 Ppt Presentation
Education system in china
China Presentation
Chinese education

More from Shanghai Library (20)

PDF
数字阅读推广与大数据
PDF
阅读:从哪里来?向何处去?
PDF
PDF
关于馆藏资源语义聚合及相关标准规范的思考
PDF
从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义
PDF
数字人文与关联数据
PDF
Smart library
PDF
Meet up Google Glass
PDF
资源发现可以更美
PDF
ADLS 2013 Shen Zhen
PDF
20130521 ecust
PDF
20130339广州
PDF
Silf2012lw3
PDF
研讨班概述
PDF
数字阅读汇报
PDF
Hangzhoulib
PDF
馆庆汇报5月
PDF
数字阅读 问答
KEY
深圳Ils1
KEY
M library
数字阅读推广与大数据
阅读:从哪里来?向何处去?
关于馆藏资源语义聚合及相关标准规范的思考
从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义
数字人文与关联数据
Smart library
Meet up Google Glass
资源发现可以更美
ADLS 2013 Shen Zhen
20130521 ecust
20130339广州
Silf2012lw3
研讨班概述
数字阅读汇报
Hangzhoulib
馆庆汇报5月
数字阅读 问答
深圳Ils1
M library
Ad

Archive it2b