大数据对档案工作的影响_第1页
大数据对档案工作的影响_第2页
大数据对档案工作的影响_第3页
大数据对档案工作的影响_第4页
大数据对档案工作的影响_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据对档案工作的影响 大数据时代对档案现代化影响和要求 发布日期: 2013-11-25 发布: 2013年 6期目录 本期共收录文章 20篇 自 20 世纪 50 年代以来,随着计算机、网络和通信技术的迅速发展,人类 社会开始由工业社会进入信息社会。特别是 20 世纪 90 年代互联网的出现,信 息量呈几何级数增长。国际数据公司(IDC)在 2011 年发布了新的数字宇宙研 究报告(Digital Universe Study )从混沌中提取价值(Extracting Value from Chaos),该报告显示全球信息总量每过两年就会增长 1 倍。仅 2011 年, 全球被创建和复制的数据总量就有 1.82ZB,相较 2010 年同期上涨超过 1ZB, 预计到 2020 年这一数值将增长到 35ZB。面对信息爆炸,人们采取了种种应对 策略。近些年来,大数据的方法和思想得到了越来越多的重视和应用。在 IT 界, 大数据一词虽然没有统一定义,但是对于它的特征达到了一定的共识。一般认 为大数据具有四个方面的特征:一是数据全,即数据包含所有的样本,数据可 能体量巨大,也有可能不大;二是数据类型繁多,包括网络日志、文本、图片、 音视频、地理位置信息等;三是价值密度低,单位数据信息含量有限;四是处 理速度快。人类社会即将或已经步入了大数据时代,它将深刻地影响社会的方 方面面。 中国论文网 /4/view-4464311.htm 档案界在档案信息化过程中必须保持对信息技术发展的高度敏感,及时追 踪新技术趋势,深入研究各种信息技术引入档案工作的可能性、必要性及其可 能带来的积极意义和消极意义。大数据技术和思想对档案信息化工作的影响和 要求主要体现在以下几点。 1 促成档案概念的泛化 档案的概念与本质问题是档案学的基本问题,在档案学界已经讨论了多年。 冯惠玲、张辑哲主编的档案学概论(第 2 版)中对档案的定义是“档案是社 会组织和个人在社会实践活动中直接形成的具有清晰、确定的原始记录作用的 固化信息”,认为 “原始记录性 ”是档案的本质属性。虽然在信息时代,早已出现 “电子档案”的概念,但是,在电子文件收集、整理、归档和保管过程中依然沿 用纸质档案的分类和鉴定方法。在信息稀缺和保存信息代价巨大的纸质时代, 甄选和保存对社会和个人具有明显价值的档案是合理的和必要的。许多信息虽 然具有“原始记录性 ”,但因其单位信息价值有限而不能作为“档案”保存的,比 如网络访问日志、鼠标在网页上的轨迹、顾客在购物商场里的行进记录等。 但是,在大数据时代,大规模数字存储系统的应用使数据存储的成本越来越 低,许多以前不能存储的信息都可以保存下来。当这些价值密度低的数据汇合 成 PB 级别时,人们便可以从中挖掘出价值。商场可以根据大量顾客在商场的 行进路线、滞留时间、关注方向等数据来设计商品的布局;日本先进工业技术 研究所的专家可以根据人体对汽车座椅施加压力的数据建立模型进行乘坐者身份 识别,从而实现汽车防盗功能;当收集了大量的机械运行时产生的震动、温度、 转速等数据后,就可以建立预测模型,在机械故障发生之前消除存在的隐患。 这些价值密度低的原始记录在大数据时代整体上便产生了巨大的价值,具有了 档案的完全属性。这促使学者重新审视“电子档案” 的范围。 学者们一般把“ 档案”定义为事件结束后经过整理归档的文件,且将档案分 割为小的相对独立的信息单元。在信息化时代,记录即是档案,数字化的记录 一旦生成便变成了不可删改的档案。广泛应用于社会实践的税务管理系统、户籍 管理系统、车辆交通管理系统等实时地将“记录” 转化为 “档案”,而每一条记录 都将变成具有长期保存价值的档案,这些单位价值密度低的记录信息将作为不 可分割的整体来发挥档案的价值。在大数据时代,档案概念存在着严重的泛化 问题,不能不引起关注。 2 有利于破除档案信息化难题 档案工作不管对于国家还是社会组织、企业来说都是一项基础服务性质的 工作。档案工作长时间以来都存在着效益滞后的问题,使档案信息化工作陷进 投入资金不足、领导重视不够的困境。财政对档案信息化建设的投入,是以获 得良好的效益为前提的。传统纸质信息时代对大量的档案信息资源进行分析整 合开发需要耗费巨大的人力物力。大数据时代的到来使这一问题迎刃而解。只 要拥有良好的数字资源基础,计算机快速处理海量的不同类型信息的能力就能 够快速地廉价地挖掘档案信息资源潜在价值,为经营和管理决策服务,从而产 生看得见的效益。 长期以来,档案信息化没有明晰的总体规划方案。人们普遍认为,“档案数 字化的目的不外乎两个:为保护档案尤其是濒危档案而制作数字化副本;为实 现网络环境下的档案信息共享利用而数字化”,这种认识将档案信息化局限于传 统档案工作手段的计算机化而对档案信息资源整体价值重视不够,从而难以挖 掘档案深层次的价值。帮助人们认识客观世界、辅助决策、产生效益才是档案 利用的生命力所在。大数据分析并不是档案人员的专长,但是,为大数据分析 提供基础数据则是档案工作在信息时代的价值所在。抓住大数据的机遇,才能 避免被边缘化,从而使档案工作摆脱困境。大数据时代要求数据资源的开放, 这对我国档案信息化建设也具有导向作用。2008 年美国建成了 网站, 这是美国联邦政府的公开信息资料库。网站从 2009 年的 47 个数据集迅速发展 起来,到 2012 年 7 月 3 周年时,数据集已达 45 万个,涵盖了 172 个机构,产 生了广泛的社会和经济影响,有力地推动了美国社会和经济的发展。档案信息 化必须在大数据时代构建社会公开信息资源库中占据一席之地,这也应当成为 我国档案信息化的目的之一。 3 对电子文件工作产生深刻影响 电子文件归档与管理规范(GB/T18894-2002 )已经颁布,但是,在档 案工作实践中档案工作者大多依然沿用纸质时代的鉴定方法对单份的电子文件 进行归档处理。更有甚者,有些档案部门对电子文件界定不清而不愿接收电子 化记录从而造成档案信息缺失。维克托迈尔-舍恩伯格在大数据时代一书 中指出,在大数据的价值链上有三种类型的公司,即,基于数据本身的公司、 基于技能的公司和基于思维的公司。基于数据本身的公司是一些拥有大量数据 或者至少可以收集到大量数据的公司,但不一定有从数据中提取价值或者用数 据催生创新思想的技能,他们通过将数据授权给其他公司而创造价值。很显然, 档案部门应该做大数据的拥有者。档案人员应该重新审视对电子文件的态度。 长期以来存在着两种电子文件的保管模式,一种是分散式保管,一种是集中式 保管。在大数据时代,数据是最核心的财富,最先考虑对数据的拥有才是明智 的。不管是采用集中式还是分散式的管理模式,档案部门应该占据数据链的中心, 处于收集数据和挖掘数据价值的黄金位置。 在大数据时代,要求对信息进行“数据化” 而不仅仅是 “数字化”。数据化是 指将现象变成指标分析的量化形式的过程,而不仅是转化成“0”和“1” 的数字格 式的过程。对电子文件管理来说,即是要求拥有完善的元数据和实现全文检索。 目前,电子文件元数据的研究集中在保证电子文件现实的真实性、完整性、可 读性、安全性方面,对电子文件未来的可能出现的开发利用重视不够。完善的 元数据标准是为大数据分析与应用提供优质数据的基础。基于词频和语义的分 析将是大数据分析的重要手段,因此,实现信息的全文录入就有了更重要的意 义。当前,很多档案部门重“数字化” 而轻“数据化”,对纸质档案进行图片化处理, 造成文件格式混乱、元数据收集不全,这都将成为未来大数据开发利用的障碍。 有些学者片面强调电子文件的技术安全性而人为地为电子文件设置重重技术保 障措施,也将为利用增加障碍。对于电子文件安全性的保障应该更侧重管理制 度方面的完善,而不是增加技术复杂度。 信息技术的快速发展,使人类由信息稀缺的时代进入了大数据时代。大数 据时代的到来深刻地改变着我们的思维、工作和生活方式。档案信息资源是社会 信息资源体系中的重要组成部分,其未来的发展必然要面对大数据的挑战,也 必然会改变档案事业的方方面面。正如国家信息化专家委员会副主任丁家俊所 言:“如果你不能够顺应大数据的潮流,企业也好,个人也好,都可能变成一个 落伍者!”只有积极地认识和准备这次挑战,档案事业才能得到健康的发展。 (作者单位:河南省南阳市林业技术推广站 来稿日期:2013-08-14) 转载请注明来源。原文地址:/4/view-4464311.htm “大数据”时代电子档案工作的若干 思考 发布日期: 2014-12-24 发布: 2015年 1期目录 本期共收录文章 20篇 摘 要:电子档案是“转化” 或“处理”而来,不是 “建设”而来。理想化电子档 案工作环境的功能设计在现实环境下缺乏可行性,仅靠加大档案信息化的资金 投入并非电子档案工作的有效保障措施,唯有转变思维方式,学会运用信息化 思维、技术性思维和商业化思维,才是档案信息化的成功之路。 中国论文网 /4/view-6409069.htm 关键词:大数据;电子档案工作;思考;商榷 档案管理2013 年第 6 期刊发了张淑芳同志撰写的浅议“大数据” 时代 下的电子档案建设趋势一文(以下简称“张文” )。作者从相关概念的界定、 电子档案建设的政策依据、电子档案建设的保障措施三个方面,多层次阐述了 “大数据”时代下电子档案建设的趋势,文章在给予我们许多新知识、新观念、 新理论、新观点的同时,也有一些值得讨论和商榷的地方。这里提出来与张淑 芳同志商榷,如有不妥之处请张淑芳同志及广大档案界同仁给予指正。 1 电子档案建设的提法有待商榷 张文在题目中使用了“电子档案建设” 这样一个词组,个人以为这种用法不 妥。一是“电子档案建设 ”没有一个明确的含义,在知网中运用句子检索 “电子档 案建设”+“是指”,或“ 电子档案建设 ”+“指” , 再或“ 电子档案建设”+“ 是” 进行检 索,没有检索到相关句子。这就是说,在现有文献中没有对“电子档案建设” 进 行明确的界定或定义。二是从词典上查阅,“建设” 一词的意思是指:“创立新事 业;增加新设施;充实新精神。”1电子档案组合在一起应该是创立、增加或者充 实一种新的档案之义,但从张文中的表述看,“电子档案是指通过计算机磁盘等 设备进行存储,与纸质档案相对应、相互关联的通用电子图像文件集合”。2 是“以电子影像技术为支撑,将纸质档案转化为电子信息” 或者是“把应用系统的 电子信息进行凭证化处理后”的产物。是档案的另一种载体方式。简单理解即: “电子档案”是“转化”或“ 处理” 而来的,不是创立、增加、充实得来的。三正是 因为这个词组意思不明,用法欠妥,所以在文献中采用这种用法的也很少,百 不及一。据笔者在中国知网文献数据库中检索,在篇名中涉及“电子档案” 的 2695 篇文献中只有 14 篇使用“电子档案建设” ,约占 0.5%;在主题中涉及“ 电子 档案”的 10294 篇文献中只有 39 篇使用“ 电子档案建设 ”, 约占 0.38%; 在全文中 涉及“电子档案 ”的 60864 篇文献中只有 468 篇使用 “电子档案建设”,约占 0.76%。据此,个人以为在标题中使用“电子档案工作 ”较为妥当。 2 电子档案概念存在矛盾 关于电子档案的概念,我国的档案学者给出的定义不尽相同。这里我们不 讨论张文中关于“ 电子档案 ”的概念与其他学者所下定义的差别,主要讨论张文 中有关“电子档案 ”概念表述存在的一些矛盾之处。关于“电子档案”,张文中是 这样表述的:“ 电子档案是指通过计算机磁盘等设备进行存储,与纸质档案相对 应、相互关联的通用电子图像文件集合。在大数据背景下,电子档案是具备数 量巨大、结构复杂、类型众多特征的数据集合。”3这一表述前后及与其文中 其他部分关于电子档案的表述存在一些矛盾之处。 其一:张文电子档案概念第一句中强调了三点:一是“通过计算机磁盘等设 备进行存储” ,二是“ 与纸质档案相对应、相互关联”,三是“通用电子图像文件 集合”。而在后一句中则没有了“ 与纸质档案相对应、相互关联 ”,“通用电子图 像文件集合” 也变成了“ 类型众多特征的数据集合 ”。从范围上看,前一句中“电 子档案”所指的是与纸质档案相对应、相互关联的电子图像文件,而后一句中则 指的几乎是所有电子数据。从类型上看,前一句中“电子档案” 所指的是电子图 像文件,而后一句中则指的几乎是所有类型的电子数据。前后表述意思不一。 其二,张文对电子档案的建设目标的表述是:“一言概之,就是实现纸质档 案的电子化管理和电子信息的档案化管理。”4从这一表述中,我们可以将“ 电 子档案”理解为 “纸质档案的电子化 ”和“电子信息的档案化 ”的产物。而这在电子 档案概念的表述中只看到了“纸质档案的电子化” 部分,没有看到 “电子信息的档 案化”的部分。 作者在论文中给其讨论或论述的主体下定义,对其讨论或论述的问题进行 界定是正常的,也是必要的。但这种定义或界定,在一篇论文中前后要保持其 内涵与外延相一致。否则就应当给予说明,以避免读者在阅读时产生误解或异 议。 3 电子档案工作环境的功能的部分设计缺乏现实可行性 张文中对电子档案环境的功能设计做了比较详尽的阐述,认为:“理想中的 电子档案环境应是为各类档案提供统一的形成、积累、捕获、迁移、鉴定、管 理、归档、查询、加载、展现、应用的平台。”应当说这是一个不错的、理想化 的方案。在现实中缺乏可行性。 首先,以“ 统一电子档案入口 ”为例。要实现“能够以影像技术、条形码技术、 版式电子数据文件等技术为支撑,实现对不同介质、不同类别的档案进行标准 化封装处理,转化为统一的入口文件,并保证电子档案的真实性、完整性、有 效性和可追溯性” 。5 而这就意味着要对一个单位中所有业务应用系统进行改 造或增加相应的功能模块。就一般单位而言,除了系统内的办公自动化(OA) 系统外,还有诸如专门的财务管理系统、人事管理系统、招生系统,课程管理 系统、教学管理系统、科研管理系统、后勤管理系统、图书馆管理系统,以及 销售管理系统、仓贮管理系统、安防系统等众多系统。以高校为例,一个普通 高校使用的系统就多达十几二十个,这些系统有国家教育行政管理部门统一配 发的,有省级教育行政管理部门统一配发的,也有国家及地方财政主管机关下 发使用的,有的则是住在地党委政府要求使用的,有些是单位自行开发的,还 有的是从市场上购买的商品化软件。这些系统出自不同的主管部门,由不同开 发单位开发,使用不同的开发和运行平台,不同的后台数据库,有着不同的数 据结构。这种情况下,在系统使用后要求这么多不同层次、不同隶属、不同平 台、不同运行环境、不同数据库及数据结构的加上一个统一的电子档案入口, 不仅经费支出远超一般单位的承受能力,就是与这么众多开发单位进行需求上 的专业沟通与协调就不是单位档案管理人员所能承担得起的。“统一电子档案入 口”的设想,如果没有国家层面的顶层设计,指望每个基层单位的档案工作者的 努力,很难实现。 转载请注明来源。原文地址:/4/view-6409069.htm 对大数据的发展及思考 发布日期: 2014-11-10 发布: 2014年 38期目录 本期共收录文章 19篇 随着物联网、移动互联网、下一代互联网和云计算技术的发展,人类社会进 入了“BIG DATA” 时代,全球数据生产在高速增长。根据 IBM 的统计,每天会 产生超过 2.51018 字节的信息,全球 90%的数据都是在过去两年里生成的。据 IDC 预测,未来 10 年全球数据量将以 40%的速度增长,2020 年全球数据量将 达到 35ZB,为 2009 年的 44 倍。 中国论文网 /1/view-6282032.htm 大数据的概念及发展 大数据概念最初起源于美国,是由思科、威睿、甲骨文、IBM 等公司倡议 发展起来的。大约从 2009 年始,“大数据” 成为互联网信息技术行业的流行词汇。 大数据已成为继云计算等之后的全球性新热点,其关键词在全球范围内迅 速升温,短短四年间,“ 大数据 ”关键词的搜索量指数双倍增长。由维基百科可 知,“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和 处理的数据集合。” 大数据,或者说海量数据,指的是在人类社会运用了现代信 息技术之后,掌握了比以前数量大得多的各种数据。最早提出“大数据时代已经 到来”的机构是全球知名咨询公司麦肯锡。它是一个不断演变的概念,当前的兴 起,是因为从 IT 技术到数据积累,都已经发生重大变化。所谓大是相对的,随 着信息技术的发展,在这 20 多年里,我们讨论的数据量从以 K 计算,发展到 M、G、T、P 等,每次都提高了三个数量级。 如今,大数据时代已经来临,它将在众多领域掀起变革的巨浪。但我们要 冷静的看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件 的堆砌。在政府公共服务、医疗服务、零售业、制造业、以及涉及个人位置服 务等领域大数据将得到广泛应用,并产生巨大的社会价值和产业空间,预测 2020 年,大数据应用市场规模将达到近 2600 亿美元。大数据是传统数据的延 伸,是对传统数据在深度和广度上的补充。发展大数据是促进政务信息资源开 发利用的必然要求,是提高政府决策科学化水平的必然要求,是提高城市管理 精细化水平的必然要求,是促进现代服务业发展的必然要求。 2012 年 3 月 29 日,美国奥巴马政府推出“大数据研究与开发计划” ,提出 “通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加 快科学、工程领域的创新步伐,强化美国的国土安全,转变教育和学习模式”。 2014 年年初,英国商业、创新和技能部宣布,将注资 6 亿英镑发展 8 类高新技 术,其中对大数据的投资即达 1.89 亿英镑。法国政府为促进大数据领域的发展, 将以培养新兴企业、软件制造商、工程师、信息系统设计师等为目标,开展一 系列的投资计划。法国政府在其发布的数字化路线图中表示,将大力支持 “大数据”在内的战略性高新技术。大数据 “可爱又可怕”。一方面,大数据给人 们的生活带来了诸多方便,给企业提供了更多的商业机会;另一方面,大数据 又增加了重要信息泄露的风险,家庭住址、密码、手机号码、支付密码等个人 信息都存在被盗用的危险,有可能会给受害人造成较大的精神及财产损失。 数 据的爆炸式增长出乎人们的想象,使得适应和应对数据增长成为整个社会关注 的焦点,大数据的概念也在这一背景下诞生的。但是并不是所有的数据都可以 称其为大数据,大数据的判断需要基于 4 个层面,即大数据的 4V 特性包括体 量(Volume)、多样性(Variety)、价值密度(Value)、速度(Velocity), 体量指非结构化数据的超大规模和增长,总数据量的 80%90%,比结构化数 据增长快 10 倍到 50 倍,是传统数据仓库的 10 倍到 50 倍;多样性指大数据的异 构和多样性,很多不同形式(文本、图像、视频、机器数据),模式或者模式 不明显,不连贯的语法或句义;价值密度指大量的不相关信息,对未来趋势与 模式的可预测分析,深度复杂分析(机器学习、人工智能 Vs 传统商务智能(咨 询、报告等);速度指实时分析而非批量式分析,数据输入、处理与丢弃,立 竿见影而非事后见效。 应对大数据的几点思考 大数据正成为继云计算、物联网、移动互联网之后信息技术领域的又一热点, 是现有产业升级与新产业诞生的重要推动力量。大数据建设面临机遇,也要面 对挑战。 很重要的一点便是个人隐私保护的问题。随着许多部委信息化建设进入“数 据大集中”阶段,这些部门纷纷建设数据中心。现在“ 鸡蛋放在一个篮子里”,风 险比以前分散存储的大。一旦出现信息安全问题,危害及影响面更大。透视“棱 镜门 ”不难发现 ,信息技术的发展 ,使得获取他人信息易于探囊取物,大数 据时代的隐私与信息安全危机等问题已向全球发出预警。目前,人们生活越来 越多地与互联网发生关联,而目前中国互联网监管还存在漏洞,相关法律法规 还存在空白。个人数据有可能被滥用、隐私被侵犯、电信诈骗等网络犯罪案件 高发,犯罪手段花样不断翻新,令人担忧。目前,许多国家都已经出台了个人 隐私保护法。建议政府部门加强个人隐私保护立法工作,严厉打击侵犯个人隐 私的行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论