




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、随着社会现代化的建设不断深入,土地规划、国土资源管理迅猛发展,一方面产生了数量巨大的、异质的文档信息;另一方面,人们的信息需求呈现出多样化、高效化、个性化、专深化等特点。原有的国土资源档案信息服务系统,仅依靠数据库的查询检索机制和统计学方法已经不能满足现实的需要,迫切需要有效的信息分析工具,才能从大量数据库中抽取有用的信息和知识。在数字国土资源档案馆建设中,如何从海量数据中发掘出有价值的信息,满足不同档案用户的信息需求,数据挖掘技术将会起到巨大作用。一、数据挖掘的概念及功能1.概念。数据挖掘(Data Mining简称DM,又称数据开采,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用
2、数据中,提取隐含其中的、以前未知的、但又具有潜在应用价值的信息和知识的过程,它是一种决策支持过程。它是从大型数据库或数据仓库(Data Warehouse简称DW中发现并提取隐藏在其中的信息的一种新技术,主要是为了帮助决策者寻找数据间潜在的关联,发现被忽略的要素,对预测和决策行为十分有用。数据挖掘是知识发现(Knowledge Discovery in Database简称KDD的一个特定步骤,也是其核心部分。2.功能。(1类描述。对每个类的汇总的、简洁的、精确的描述可以通过数据特征化、数据区分和数据比较来实现。(2关联分析。用来发现关联规则,这些规则揭示属性一直频繁地在给定数据集中出现的条件
3、。(3分类与预测。利用数据挖掘算法由计算机根据某种规则自动对大量数据进行分类。(4聚类分析。根据最大化类内的相似性、最小化类间的相似性原则对大量数据进行类聚或分组,从而产生属性相近的各个类。(5孤立点分析。所谓孤立点,是指数据集合中与多数数据的特征或行为完全不一致的数据,即利用各种算法找出数据之间的规则。(6演变分析。可以根据数据的特征对数据的发展变化作出相应的预测和分析。二、在国土资源档案馆中应用数据挖掘技术的可行性1.知识服务的需求。国土资源档案馆经过多年的业务建设,目前已存有大量的档案信息资源,近几年更是成倍增长。如何解决好海量信息的存储开发与利用,向档案用户提供知识服务,是关系到档案馆
4、未来的生存与发展的重大问题。运用数据挖掘技术,可以有效管理海量数据,并针对用户特定的需求提供OLAP分析,利用可视化的人机交互等技术提供知识服务。2.物质基础的形成。一方面,国土资源档案馆经过多年的信息化建设,已建立起完善的国土资源档案信息数据库和各类档案专题数据库,具备相当的物质条件和人才储备,并积累了大量数据,为数据挖掘在国土资源档案馆应用奠定了一定的物质基础。另一方面,国土资源档案馆的数字化发展是我国国土系统信息化建设的重要组成部分,国家对此给予了高度的重视并提供了大量政策上和经济上的支持,为行业性数据挖掘的实施提供了良好的政策环境和经济保障。3.实现技术的成熟。数据挖掘经过近几年的发展
5、,已经形成相对成熟的技术体系,特别是在数据存取、数据预处理、数据抽取以及联机分析处理技术等各方面都取得了很大进展,为数据挖掘的应用奠定了技术基础。另外,数据挖掘技术在发达国家的电信、制造、医疗、零售、金融等领域已有较深程度的应用,并创造了良好的经济效益,这些成功应用的例子为我们提供了极其宝贵的经验。三、数据挖掘在国土资源档案馆中的应用1.支持国土资源档案馆的决策管理。传统的国土资源档案馆大多依靠经验进行决策,存在主观、片面、盲目等诸多问题,无法适应时代发展的要求,采用数据挖掘技术能够为领导层的科学决策提供强有力的保障。首先,数据挖掘能将国土资源档案信息管理系统的各种内部数据和外部信息汇集起来,
6、经过处理和转换,形成集中统一、随时可用的决策信息,防止因信息不足造成的错误决策。其次,利用数据仓库系统提供的OLAP工具可以对集成数据进行多维分析比较,对决策假设进行审查和验证,提高决策的可靠度和可行性,达到合理利用有限资金、优化国土资源档案馆的资源配置的目的。第三,数据挖掘工具可以从历史数据中找出潜在的模式,并在模式的基础上自动作出预测,这对启发决策者的创新思维、应对信息化社会的挑战具有重大意义。2.优化国土资源档案馆的档案信息资源。目前,国土资源档案馆虽然建立了档案信息数据库,但数据是零散的、模糊的。档案工作者可利用数据挖掘技术优化档案信息资源。利用文本挖掘,运用关联、分类、聚类等方法,打
7、破原有的整理体系,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,从而建立面向主题的、集成的、稳定的数据集合,并逐渐建立起国土资源档案知识库;对Web访问信息进行挖掘,分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化,对用户每次利用的档案信息进行关联分析,发现各类档案信息之间的关联规则或比例关系,优化馆藏;利用OLAP和信息挖掘工具从海量数据中分析出事物之间的关联,挖掘出隐藏于其中的规律信息,形成满足用户需要的深层次信息产品。3.拓展国土资源档案馆的信息服务方式,提高服务质量。数据挖掘技术可以为国土资源档案馆实现网络信息服务的智能化、个性化、精品化提供支
8、持工具。(1档案信息智能检索服务。智能检索系统可调用用户兴趣模型,自动修正检索策略,支持概念检索、模糊检索、联想检索及多语言检索;可依用户兴趣将检索结果迅速聚摘要本文在论述数据挖掘技术内涵及其功能、方法的基础之上,结合国土资源档案馆的实际工作,探讨了数据挖掘技术在国土资源档案馆中的应用价值。关键词数据挖掘国土资源web挖掘档案馆兰台世界2007.6理论版11数据挖掘在国土资源档案馆中的应用广东省国土资源档案馆曾洪周数字兰台类和分类,充分挖掘那些隐性主题和语义结构信息,提高查全率和查准率。(2档案信息定制与定题服务。多适用于科研型档案用户,例如通过挖掘相关专家的访问记录,通过对不同专家、不同时期
9、的检索实例的总结、归纳、学习,形成专家知识模型,从而为该专家不间断地提供其研究领域的档案资料。(3档案信息决策服务。可针对社会信息需求或既定任务,充分运用数据挖掘技术,对有用的信息内容再进行深层次分析与挖掘,向用户提供能够用于决策支持、科学研究、解决问题等知识服务方面的规则和模式。(4档案信息跟踪与推送服务。数据挖掘可跟踪记录用户访问信息,及时更新用户兴趣模型以反映用户信息需求的变化,推荐相关专题档案信息。4.支持国土资源档案馆的未来发展。国土资源档案馆的未来发展方向是数字档案馆,在其长远的发展进程中,如何解决好海量数据的压缩与存储、分类检索、组织管理、交互界面等问题,知识的有效组织与发现,是
10、这一时期所面临的重要课题。鉴于数据挖掘技术在数据的组织与分析、数据挖掘、知识发现等方面存在的巨大潜力,学术界普遍认为数据挖掘可以为数字档案馆的建设提供关键技术。比如:电子文件的自动著录和标引、自动分类及智能检索;元数据的界定与自动抽取;海量信息的有效存储和利用、超大规模分布式数据库的快速存取以及分布式资源库互操作性的实现等都能够借助和参考数据挖掘技术。目前,对档案管理人员来说,数据挖掘技术还是个陌生事物,但是在社会信息化浪潮的推动下,未来的国土资源档案馆与数据挖掘技术的结合将更加紧密。尽管数据挖掘在档案馆领域的应用还处于起步阶段,但基于其在数据的组织、分析和知识发现等方面的巨大优势和对信息的深
11、层挖掘能力,它必将能够提高数据分析的自动化和智能化水平,促进档案信息资源的开发利用,从而大幅度地提升国土资源档案馆的管理水平及业务工作能力,并最终为我国数字国土资源档案馆的建设发挥重要作用。参考文献:1.李朝葵.数据挖掘及其在图书馆中的应用J.情报杂志,2002(62.宇然.数据挖掘技术与档案管理J.兰台世界,2002(83.吴加琪.数据仓库及数据挖掘技术在档案馆中的应用J.湖北档案,2004(1作者邮箱:zenghz_lw(责编:陈智兵书稿档案是出版社在编辑、出版图书过程中形成的,按照一定的规律收集、整理、保存起来的,具有查考价值的文件材料(包括文字、图表、声音、图像等,是编辑出版工作的真实
12、记录,是国家档案的一个重要组成部分。按内容划分,书稿档案可分为主体材料和背景材料。主体材料包括:选题论证材料及审批材料,如审批、落实选题过程中的各种请示、报告,上级的指示、批复;法律材料,如各种合同书、授权书、意向书;作品的原稿(手迹;审查材料,如责任编辑的初审意见、外审意见、会审意见、编辑室主任及总编辑(副总编辑的复审终审意见;书稿的加工材料,如责任编辑加工整理书稿记录、责任编辑撰写的出版说明、对作品的评价、作者对书稿的修改记录;装帧设计材料,如封面设计、插图绘制、版式设计通知单及设计制作记录;付印材料,如发稿、发排通知单、发稿后的变动情况记录、校对作业单及各校次的质量记录、付印清样、付印及
13、定价的审批手续、版权数据文件;结果材料,如各版次的样书、稿酬结算单及支付记录、经济效益记录、版权贸易合同、意见书及与之有关的各种资料。背景材料包括:电话记录、面洽记录、会议记录、组稿过程记录,著作权人及作者、著作权人代表登记表,责任编辑与作者就有关书稿问题的往来信件,对图书的宣传评论材料、广告、重要的读者来信、获奖或受查处情况记录,新书发布会资料。一、电子环境下书稿档案的特点按照传统的管理方式,上述材料都要在图书出版后一个月内,对其进行收集、整理、归档保管。而电子时代,传统的按部就班的管理方式受到了挑战。书稿档案从操作方式、载体形式到内容形式都发生了质的变化,具有以下几方面的特点:1.随意性操
14、作。在书稿档案文件的形成过程中,人们已经大量地使用计算机网络进行操作和信息交流。目前,由于没有统一的规范,形成书稿档案文件的操作方式存在很大的随意性。例如,对于作品的原稿,大部分作者是用下载的方式形成电子稿,有的作者用打印的方式形成打印稿,个别作者则用手工的方式形成纸质稿。又如,选题时形成的请示、报告和上级的指示、批复,一般都是用计算机起草,以网络的方式传递,但需要本单位领导审查时,还要用打印的方式形成打印件。另外,版权数据文件也都是以网络的方式传递。再如,法律文件、审查材料、校对材料、付印材料、结果材料以及大部分背景材料,都是要用打印的方式形成。这些方式的选择,很大程度上是约定俗成,并没有一定之规,操作者觉得哪种方式方便,就采取哪种方式,随意性很强。2.多种载体共存。由于网络传输、激光照排、校对软件、电子扫描等高新技术的应用以及新型材料的使用,书稿档案的载体形式发生很大的变化,出现了多种载体共存的现象。目前的书稿档案文件,有的是以纸质材料为载体,如法律文件中的各种合同书、授权书、意向书。它们是需要当事者双方签字才可以生效,在数字签名的法律效力没有得到广泛承认之前,法律文件的载体材料
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45554-2025种猪生产性能测定技术规范
- GB/T 45517-2025玩具及儿童用品中苯酚的测定高效液相色谱法
- 医护职业形象与服务礼仪培训体系
- 职业卫生健康培训总结
- 如何确保生产的可持续性计划
- 河北全国计算机职称考试题库单选题100道及答案
- 物业买卖协议书
- 转运车免责协议书范本
- 近海船买卖合同协议
- 民建房屋协议书
- 软装清洗培训教程课件
- DG-TJ08-112-2016 道路隧道机电设备安装工程施工质量验收规范
- 化工厂节能降耗措施
- 肝癌科普讲座课件
- 医保监管容错机制研究报告
- 《临床研究注册》课件
- 《中医病因病机》课件
- 2023年贵州烟草专卖局笔试试题
- 光子量子计算技术
- 【企业发展能力分析实例-以某公司为例9100字(论文)】
- 教科版五年级科学下册第四单元教学设计教案
评论
0/150
提交评论