基于知识管理的数字档案馆中的数据挖掘

上传人：n*** IP属地：贵州上传时间：2020-03-31 格式：DOC 页数：6 大小：44KB 积分：20 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于知识管理的数字档案馆中的数据挖掘基于知识管理的数字档案馆中的数据挖掘数字档案馆作为传统实体档案馆在信息时代的新型组织形式是实体档案馆在信息时代不断创新和发展的必然是迎接知识经济时代挑战拓展传统实体档案馆功能满足用户需求提供个性化多样化服务的关键也是提高社会档案意识的新契机那么如何从数字档案馆浩如烟海的大量数字化资源中提炼挖掘出有价值的对数字档案馆进行知识积累知识创新有着数据支撑作用的有效信息这是未来数字档案馆建设所面临的重要课题数据挖掘技术正是解决这一难题的有效途径数据挖掘是当今计算机领域的热点其成果也广泛应用于图书情报领域笔者受这些研究的启发力图就数据挖掘技术在基于知识管理的数字档案馆中的应用进行探讨 1 数据挖掘定义与分类 1 1 数据挖掘的定义数据挖掘是一门很广义的交叉学科脱胎于计算机虽然已应用到诸多领域图书情报界的实践也已经充分验证其价值但在档案界数据挖掘仍然被当成深奥的技术和理论很多档案工作者对个这概念还是云雾迷蒙比较模糊那么什么是数据挖掘呢数据挖掘 Data Ming 就是从大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先不知道的但又是潜在的有用信息和知识的过程这个过程的目的是为了发现隐藏在大量数据泥沙中的知识金矿因此将数据挖掘定义为数据中的知识挖掘更为恰当所以数据挖掘也被人称为知识挖掘知识抽取等 1 2 数据挖掘的分类数据挖掘可以根据挖掘任务的不同把数据挖掘方法分为概念描述关联分析分类分析聚类分析偏差检测等多种类型具体如下 1 2 1 概念描述 Concept description 就是通过分析和比较将某类相互关联的数据进行汇总归纳出此类对象的相关特征对关于此类的大量信息进行描述这些描述是抽象的有意义的它的类型有两种特征性描述和区别性描述 1 特征性描述适用于描述某类对象的共同之处例如某档案馆的档案数据库中存在大量的用户基本信息其中涉及姓名年龄工作利用喜好等信息如果对历史研究者进行描述很有可能得出以下结果以高校教师学生为主以编修各种志书撰写史学研究文章为目的 2 区别性描述用于描述两个或多个类对象之间的差异例如对企业用户和历史研究者特征进行比较也许能得出以下规则主要利用生产管理和科研管理方面的档案信息以取得一定经济效益和社会效益为目的 1 2 2 关联分析 Association analysis 就是描述数据库中数据项之间存在的相关特性即挖掘出隐藏在数据项之间的相互关系具体来说若其中两项数据或多项数据存在着某种关联其中一项数据就能依据其它数据进行预测关联分析能发现用户利用不同档案信息之间的关联分析预测用户利用模式 1 2 3 分类分析 Classification analysis 就是将数据库中的数据有序的聚合在一起有助于人们对事物的全面把握分类分析可分为结构化数据分类分析如关系数据库中的数据和非结构化数据分类分析如文本数据分类分析的具体过程为用一组特征不同的类别为一个数据集合中的数据进行分类然后找出描述这些数据的模型并根据这个模型将数据划分到不同的类别中利用这个模型可以预测未知的数据分类分析可以通过已有用户档案数据库中的数据揭示用户特征和用户利用行为之间的关系并按照影响用户行为的程度对这些数据进行分类用来预测未来的用户行为 1 2 4 聚类分析 Clustering analysis 就是将数据库中的数据划分为不同数据类的过程它与分类分析不同前者是在预先不考虑已知分类模型的情况下把数据放入不同的分类中聚类的目的是根据最大化类内的相似性最小化类间的相似性这一原则合理的划分数据集合简单来说就是使类内的差别最小化类间的差别最大化这样就可以把类似的数据组织在一起并导出某种规则 1 2 5 偏差检测 Deviation detection 就是通过发现数据库中的异常情况对偏差的数据进行分析的过程重点是发现数据中的异常变化数据库中的数据变异可能是人为错误引起的更有可能是数据更新等自然变化的结果偏差检测的意义在于可以有效排除大量不相关的数据例如某档案馆在形成某种编研成果之前先在用户信息数据库中进行检索并与档案馆数据库中的已有资源结合再用数据挖掘技术将不想关的用户利用模型排除把剩下的作为重点制定有针对性的编研策略 2 基于知识管理的数字档案馆中的数据挖掘前面已经介绍了数据挖掘的概念及模式那么基于知识管理的数字档案馆的数据挖掘应该是怎样的呢笔者认为首先应对数字档案馆资源知识管理和数据挖掘的关系定位数字档案馆的知识资源要被组织和发现这是数字档案馆实现现代化科学管理提供快捷优质服务的基础对数字档案馆实施知识管理是应对知识经济时代挑战最大化数字档案馆知识资源潜力最终实现数字档案馆知识创新的必然要求没有实施知识管理的数字档案馆无法满足未来发展的需要缺乏管理对象的知识也成了无源之水数据挖掘是组织和发现数字档案馆中知识资源的有效途径为数字档案馆实施知识管理创造了条件是两者得以无缝链接的承上启下阶段这里的数据挖掘不能看成是纯粹的信息处理技术它是对信息处理技术集群进行协调和管理的方法和策略基于知识管理的数字档案馆中的数据挖掘是以网络和数字化资源为基础立足于多种信息技术的协调和配合以实施挖掘算法和挖掘模型为手段以组织和发现数字档案馆中已存在的知识资源为实施知识管理提供管理对象为目的让数字档案馆有效利用知识实现知识创新的过程 3 基于知识管理的数字档案馆中的主要挖掘对象 3 1 数字档案馆中的固化资源这是存在于数字档案馆中的显性知识即记录于一定物质载体上的知识包括已数字化的馆藏资源现行电子文件检索工具编研成果与数字档案馆工作相关的各种法律法规规章制度行业标准等围绕数字档案馆建设所产生的研究成果技术资料及有助于数字档案馆发展的其它相关知识 3 2 数字档案馆中的智力资源这是存在于数字档案馆中的隐性知识是存在于档案馆行政管理人员政策法规研究人员信息技术人员对外协调人员等头脑中所储备的大量非编码智力资源包括各种管理方法计算机处理技术处理问题的能力等由于人是知识管理的核心是知识管理中最活跃的最主动的因素所以对这部分知识的挖掘也是数字档案馆知识挖掘的重点 3 3 用户利用行为信息用户的利用行为信息包括两方面利用信息和反馈信息利用信息是用户为了解决现实问题满足学术科研生产等需求在实施具体利用行为时所产生的信息包括访问内容访问频率访问时间等它们反映出用户对数字化资源的个性化多样化需求及利用规律反馈信息是在档案利用这一连续活动中档案利用者发现的问题和情况提出的要求意见评价和效益等对这些数据的挖掘可用于对用户未来利用趋势的分析预测以及提出在此基础上的管理决策为提高数字档案馆的服务水平提供依据 4 挖掘过程如图所示在数字档案馆的运行过程中一旦确定某个主题首先就要对这个主题进行定义明确数据挖掘的要求和目的在对问题进行定义的同时对档案数据库中的显性知识和隐性知识进行收集提取并对其进行概念描述归纳出需求的相关特征通过聚类分析按照相似性和差异性形成不同的需求分类模型并把数据放入不同的分类中通过需求分类模型与用户利用信息的结合进行差异分析和偏差检测排除大量不相关的数据形成挖掘结果之后便对挖掘结果进行评价形成的挖掘结果有可能存在无关的数据也有可能不满足需求如果不符合挖掘要求和目的整个数据挖掘过程就要退回到数据收集阶段并重复挖掘过程这可以用 if not then 规则来进行描述反之则达到数据挖掘要求能为数字档案馆知识管理所用并充实到原有数据库中实现档案馆的知识创新 5 数据挖掘时应注意的问题 5 1 数据挖掘方法的选择由于数据挖掘方法功能的各不相同所以要针对挖掘需求和目标采用适合的模式和算法特别是在对多个数字档案馆进行跨馆跨库挖掘的时候各馆可能采用不同的数据库系统内核如 ORICLE SQL SERVER DBII 等等且各馆馆藏内容也大相径庭所以在进行数据挖掘的时候应立足于所处的数字化馆藏环境在方法的选择上有的放矢不能一概而论 5 2 数据挖掘结果的准确性即对数据挖掘质量的控制问题数字档案馆数据库中涉及大量的数据信息在这些海量数据面前不可避免的会出现冗长甚至错误的数据所以在进行数据挖掘时应根据数据挖掘任务的不同选择适合的挖掘类型和算法并对出现的错误数据进行修正处理加工为档案馆提供科学合理的各种分析报告和相关预测信息指导档案馆工作人员采取正确手段并为档案馆改进服务作出决策提供智力支持 5 3 用户隐私的保护档案馆利用数据挖掘技术优化服务提高管理水平的同时也不可避免的增加了侵犯用户隐私权的可能性因为用户在利用数字档案资源的过程中涉产生大量的个人信息这些信息包括用户的姓名工作学历兴趣等它们一旦被其它别有用心的人所获取用户就有可能受到进而造成用户对档案馆的反感影响到用户的二次利用所以档案馆应该妥善保管这些信息建立有效的隐私保障机制不能在未得到用户授权的情况下将他们的个人隐私泄漏出去 5 4 人力资源的保障数据挖掘脱胎于计算机领域要在基于知识管理的数字档案馆中实施数据挖掘必然离不开优秀的计算机专业人员和管理人员但只强调专业技术忽视对其业务技能的培养也会制约数字档案馆的发展所以在数字档案馆建设过程中需要加强对专业技术人员的档案知识补充同时调整档案馆管理人员的知识结构使他们尽可能的掌握必要的网络数据库基础知识从实体管理到信息管理从信息管理到知识管理已是档案馆发发展的不可逆转进程基于知识管理的数字档案馆是档案馆发展的必然组织形式数据挖掘可以快速有效地分析和处理来自数字档案馆内外的海量数据和信息使隐性知识显性化显性知识结构化为数字档案馆的科学管理和服务水平的不断提高提供了有力支持使档案馆向着知识化的方向发展随着信息技术的不断深入和挖掘算法的不断改进数据挖掘必将与数字档案馆的知识管理结合得更加紧密显现出更加强大的生命力注释邵峰等于忠清数据挖掘原理与算法 M 北京中国水利水电出版社 2003 P2 Jiawei Han Micheline Kamber Data Ming Concepts and Techniques M Morgan Kaufmann Publishers 2001 P5 苏新宁数据挖掘理论与技术 M 北京科学技术文献出版社 2003 P25 苏新宁数据挖掘理论与技术 M 北京科学技术文献出版社 2003 P28 徐拥军王宏论企业档案在企业知识管理中的作用 J 档案学通讯 2004 3 李昕信息管理与知识管理比较分析 J 贵阳市委党校学报 2006 5 史江李金峰档案利用信息反馈工作的问题与对策探讨 J 档案学通讯 2007 3 参考文献邵峰等于忠清数据挖掘原理与算法 M 北京中国水利水电出版社 2003 Jiawei Han Micheline Kamber Data Min

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于知识管理的数字档案馆中的数据挖掘

文档简介

温馨提示

最新文档

评论

基于知识管理的数字档案馆中的数据挖掘

文档简介

温馨提示

最新文档

评论

相关文档