




全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅析知识发现及其在数字图书馆的应用论文关键词知识发现实现技术图书馆 论文摘要本文在对知识发现的定义、功能、基本过程及其主要的技术实现方法进行简要概念的同时,重点阐述了知识发现技术在数字图书馆网站建设、馆藏资源建设、书库的科学管理、提高用户满意度及为用户提供个性化服务等几方面的应用 随着数据库技术的迅速发展和数据库管理系统的广泛应用,即数字化信息时代的到来,人们对客观世界的认识愈来愈全面,相应地,积累的数据也越来越多。快速增长的海量数据存放在大型和大挝数据库中。在这些浩如烟海的数据中隐藏着许多有用的信息。目前的数据库系统虽然高效地实现了对这些数据的录入、修改、统汁、查询等功能,但简单的数据查询检索机制和统it-学分析方法只能满足某些低层次的需求,而无法发现数据库中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,大量的数据并未得到充分利用,这种现象常常被称为“数据丰富但信息贫乏”。人们迫切需要高性能的数据分析工具来全面、深入、有效地处理数据,从大量数据资源中挖掘出对数据高度概括和抽象的一般知识,对其进行高层次的分析以便更好地利用这些数据来帮助自己做出正确的决策,知识发现正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为自己和智能地把少量的数据转换为有用的信息和知汉提供了手段 1知识发现概述 11知识发现的定义及特点 知识发现一词是在1989年8月于美国底特律召开的第十一届国际联合人工智能学术会议上正式提出来的。知识发现(IlowledgeDiscoveryinDatabase,简称KDD)的定义有几种版本,目前被广泛认可的是由Fayyad提出的:知识发现是指识别出存在于数据库中有效的、新颖的、具有潜在效用的并最终可被人理解的模式的特定过程。它是一种高级的处理过程,与传统的信息检索相比,知识发现所得到的信息具有先前未知的、有效的和可实用三个特征。 12知识发现的功能 知识发现不仅是面向特定数据库的简单检索、查询、调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。通过知识发现,有价值的知识、规划或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务,一个KDD系统应该能够同时搜索、发现多种模式的知识,以满足用户的期望和实际需要,且能够挖掘出多种层次的模式水平,还应允许用户指导、挖掘、搜索有价值的模式信息。可具体描述为以下几方面: 121概念描述 就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。 122关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网,形成带有可信度的规则。 123自动预测趋势与行为 就是对大型数据库进行扫描,找寻潜在的预测信息,辨认出那些隐藏的模式,以便能够分类识别未知数据的归属或类型,即将未知事例映射到某种离散类型之一。 124聚类分析 主要是根据事物的特征对其进行聚类或分类,即所谓“物以类聚”,以期从中发现规律和典型模式。 125偏差检测 数据库中常有一些带有偏差的异常记录,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法就是通过对以上异常记录的分析,对差异和极端特例进行描述。 13知识发现的基本过程 知识发现的整个过程包括在指定的数据库中用数据采掘算法提取模型,以及围绕数据采掘进行的预处理和结果表达等一系列的计算步骤。具体分为以下9个步骤: 用户调查,确定确究目标和用户需求; 搜集数据,创建目标数据集:选择一个数据集中在变量或者数据样本的子集上,接着进行的数据挖掘就是在此生成的数据集上进行的。数据可以来自于现有事务处理系统,也可以从数据仓库中得到; 数据清理和预处理:对搜集到的数据进行再加工,除去错误和冗余数据,处理丢失数据,更新数据和时间信息并将其准备成数据采掘工具所需的表达式; 数据简化和投影:找出能实现数据挖掘目的的有用的特征,通过降低维数和数据转换以减少变量的有效数目,或者寻找变量的等价表示; 根据数据挖掘的目的,确定适当的数据挖掘方法; 根据所要挖掘的模式类型,选择适当的数据挖掘算法; 进行数据挖掘,挖掘出用户感兴趣的模式,并表达成易于理解的形式如分类规则或决策树、回归、聚类等; 评价和解释发现的模式,并对所挖掘的模式进行可视化。验证的方法是输入一组历史数据,运用该模式比较数据挖掘的结果与已知历史结果的差异。差异过大时,有必要反复执行步骤至。模式的验证是知识发现成败的关键; 知识整理及应用:把所挖掘出来的知识整理并应用到用户的系统中。 以上9个步骤可以进一步归纳为三大部分,至步称为数据准备阶段;至步为数据挖掘阶段;、步则称作数据挖掘后处理。 14知识发现的主要技术方法 141统计分析方法 统计分析方法是利用统计学、概率论的原理对关系中各属性进行统计分析,从而找出它们之间的关系和规律。常用的统计分析方法有差别分析、因子分析、相关分析、多元回归分析、偏最小二乘回归方法等。 142神经网络型方法 它是在生物神经研究的基础上,根据生物神经元和神经网络的特点通过简化、归纳、提炼总结出来的一类并行处理网络。神经网络利用其非线性映射的思想和并行处理的方法,用视经网络本身结构可以表达输入与输出的关联知识。它通过不断学习、调整网络结构,最后以特定的网络结构来表达输入空间与输出空间的映射关系,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。 143遗传算法 遗传算法基于生物进行理论中的基因重组、突变和自然选择等概念设计一系列的过程来进行问题的搜索,最终达到优化的目的。遗传算子主要有三种:繁殖(选择)算子、交叉(重组)算子和变异(突变)算子。遗传算法可起到产生优良后代的作用,经过若干代遗传,将会得到满足要求的后代(问题的解)。遗传算法具有计算简单、优化效果好的特点,它在处理组合优化问题方面有一定优势,可用于聚类分析等。 144粗糙集方法 粗糙集技术是波兰ZPawlak教授在1982年提出的一种智能决策分析工具,是一种刻划不完整性和不确定性的数学工具。粗糙集技术直接从给定问题出发,根据不可分辨关系和不可分辨类别,对数据进行分析推理,从中发现隐含的知识。揭示潜在的规律。在知识发现领域,粗糙集理论被广泛应用于不精确、不确定、不完全的信息的分析和知识获取。 145决策树方法 决策树方法就是以信息论中的互信息(信息增益)原理为基础寻找数据库中具有最大信息量的字段,建立决策树的一个结点。再根据不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树。然后对决策树进行剪枝处理,最终把决策树转换为规则,再利用规则对新事物进行分析。典型的决策树方法有分类回归树,ID3,G45等,决策树方法主要用于分类挖掘。 146基于可视化方法 是在图形学、科学可视化和信息可视化等领域发展起来的。包括:几何投射技术、基于图标技术、面向像素的技术、层次技术和基于图表技术。 2知识发现技术在数字图书馆的应用 数字图书馆是综合运用多方面高新技术支持的数字信息资源系统。它将分散于不同载体、不同地域的数字化信息资源以网络化方式互相联结,提供利用,实现资源共享。用户可以通过网络高效、方便地查询、检索信息以获得信息服务,并且其信息存贮和用户访问不受时间和地域限制。数字化图书馆可以突破文献单元的局限,以知识单元作为基准进行信息挖掘和知识发现,为服务读者和科学管理提供可靠的数据。图书馆服务器中记录读者借阅图书资料等日志数据是海量的。随着馆藏量的增加及图书馆社会化功能进一步增强,图书馆要处理和提供的信息越来越多,越来越复杂,为数字图书馆的知识发现研究提出了必要性。 21基于数字图书馆结构的知识发现技术,可以指导图书馆网站建设 数字图书馆网页不是简单的互联网上的图书馆主页,而是一整套面向对象的分布式的、与平台无关的数字化资源的集合,是利用超文本标记语言编制起来并利用超文本链接而建立联系的一种信息组织方式。链接是网页的普遍现象,只有通过与其它的网页及其本身的内容的链接,网页能才相互交换信息,扩大使用价值。基于数字图书馆的结构的知识发现主要是从网页的组织结构和链接关系中发现知识,目的是发现数字图书馆页面的结构及其模式,在此基础上对页面进行分类和聚类,或对相关网页进行分析,从而可以评价网页的质量,优化检索方式,指导图书馆网站建设。 22分析读者需求,优化馆藏资源建设 文献经费问题一直是普遍存在的困绕图书馆发展的瓶颈。如何有效使用有限的经费,充分利用宝贵的馆藏空间添置读者真正需要的文献,提高文献资源的利用效率,使文献购置费发挥最大效益成为图书馆决策层考虑的首要问题。图书馆中服务器记录读者借阅图书资料等日志数据,每天产生大量可以对采访工作产生指导作用的数据,如自动化系统的流通数据、图书馆的历史采购数据、查询系统的各种查询数据等。通过对图书馆业务系统借阅、流通状况、检索请求及馆藏书目库进行分析挖掘,按类统计文献拒借集和频繁借阅集,并以此分析出文献的利用率,对于那些借阅频率较大且连续续借的文献,应以量化的方式反馈给采访部门以加重采购的力度,及时补充短缺的文献,剔除过时的文献或减少部分文献的采购复本量。 23知识发现技术有利于加强书库科学管理,合理安排读者阅览空间,提高图书馆服务质量 图书馆的书库、阅览室等各种可使用的空间是有限的。不断增加的馆藏,读者群的变化,使得调整库区空间,频繁倒架成为图书馆经常面临的一大难题。采用模糊聚类分析技术,通过对历年借阅数据的统计,根据对图书种类增长趋势的预测,防微杜渐,在上架的时候预留适当的架位;通过对注销数据的分类分析统计与样本库比较,以确认若丢失率超过一定比例的原因出现在哪些方面,给出在制度上或人员上加强管理的建议;对罚赔款数据的挖掘则可提供对诸如特定书刊在借阅期限和人员限制等的建设性建议,以提高服务质量。 24知识发现技术在提高读者满意度方面的作用 随着数字化、网络化的发展,图书馆为渎者服务的水平和质量不能仅从馆藏数量、馆舍面积、计算机和网络设计等物理设施条件去衡量,而应更多地从读者对图书馆服务的认知、感受和期望等方面去评价。读者满意度调查研究是一项十分复杂的工程。其指标构成体系内容繁多,我们仅以:服务态度;服务效果,主要内容包括:图书馆开设的对读者有帮助的各种培训,讲座或课程;能够及时向读者提供最新电子资源信息;能够满足读者在交叉学科学习和研究方面的需求;关注和理解读者的个性化需求,提供对读者有帮助的服务;环境设施条件;信息资源获取,馆藏期刊资源能够满足读者需求;馆际互借和文献传递及时、高效;馆藏图书资源能够满足读者的需求;读者可以远程获取图书馆电子资源;读者能够在图书馆网站非常方便地找到所需信息;综合评价等级5项为主要指标,以读者对5项指标评价的等级(优、良、中、差)为其属性取值。应用ID3算法,可以得出服务效果是图书馆服务质量综合评价最为关键的因素,其次为信息资源获取。在以后的工作中,图书馆员应更多地从这两方面去努力,提高读者满意度。 25通过对图书馆用户使用记录的挖掘,为读者提供个性化服务 图书馆服务系统中保持有大量的读者借阅信息,如何高效、准确地提取数据,针对读者的使用行为、习惯、偏好、特点及读者特定的需求,向读者提供满足其个性化需求的信息内容和特定功能的服务是目前图书馆领域中一项非常有意义的研究内容。 图书馆可以根据用户以前借阅的文献资料,经常访问的网页(Web服务器访问日志)、Cookie、用户注册数据、电子邮件查询响应数据及Web购买数据,进行用户背景分析、用户群体的分类分析、用户偏好分析、用户检索满意度分析等,采用不同的知识发现技术如聚类分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育与培训行业:教育培训机构品牌建设与营销策略研究报告
- 城市公共自行车智能化改造对城市交通影响评估报告
- 2025年元宇宙社交平台虚拟社交场景下的用户需求分析报告
- 2025年能源行业环保报告:能源行业污染防治技术与政策要求
- 2025年医院电子病历系统在医疗信息化中的数据挖掘与分析优化报告001
- 2025年医药行业CRO模式下的临床试验结果解读与报告撰写报告
- 2025年数字货币在数字货币钱包的安全性评估与优化研究报告
- 2025年医药企业研发外包(CRO)模式药物研发精准医疗与个性化治疗报告
- 2025年医药企业研发外包(CRO)合同管理与法律风险防范报告
- 2025年医药流通企业供应链优化与成本控制物流信息化建设案例分析报告
- 2024-2025学年下学期高一化学苏教版期末必刷常考题之原电池与电解池
- 公司系统主数据管理制度
- 2025年烟台市中考地理试卷真题(含答案及解析)
- 工厂安全手册从火灾到其他事故的应急响应
- 肯德基服务管理制度
- 2025至2030中国微晶玻璃行业产业运行态势及投资规划深度研究报告
- 部编版二年级语文下册期末测试卷(含答案)
- 2025年甘肃省高考化学试卷真题(含答案解析)
- 公安院校公安专业招生考生患病经历申报表
- 自考本科日语试题及答案
- ISO 37001-2025 反贿赂管理体系要求及使用指南(中文版-雷泽佳译-2025)
评论
0/150
提交评论