基于Multi-Agent 数据挖掘技术的联合虚拟参考咨询服务探讨.doc_第1页
基于Multi-Agent 数据挖掘技术的联合虚拟参考咨询服务探讨.doc_第2页
基于Multi-Agent 数据挖掘技术的联合虚拟参考咨询服务探讨.doc_第3页
基于Multi-Agent 数据挖掘技术的联合虚拟参考咨询服务探讨.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Multi-Agent数据挖掘技术的联合虚拟参考咨询服务探讨张炜1吕娟1 洪霞21扬州大学图书馆2扬州大学实验室与设备管理处江苏扬州225009摘 要介绍了智能Multi-Agent技术、数据挖掘技术、挖掘过程和挖掘方法,针对分布式联合虚拟参考咨询中智能化的知识挖掘任务,提出了一个基于Multi-Agent的联合虚拟参考咨询挖掘系统模型,并探讨了基于Multi-Agent的数据挖掘技术在分布式联合虚拟参考咨询服务中的应用。关键词数据挖掘Multi-Agent联合虚拟参考咨询服务联合虚拟参考咨询服务(Collaborative Virtual Reference Services,以下简称CVRS)是指将多家参考咨询服务机构依据一定的规范和协议建立起协作关系,通过一个统一的咨询平台,形成结合分布式、合作式的多馆CVRS模式,实现将实体图书馆以外的用户与多馆专家、学科专业知识联系起来的问答式服务。它是以数字信息资源为基础,通过FAQ知识库、web表单、电子邮件、实时咨询互动、学习中心等形式,充分利用各成员馆的信息资源特色和人才优势,尽最大可能满足用户在任何时间、任何地点的各种信息需求,并建成超大规模、可扩展的、可互操作的知识库集群,实现多馆知识、学习中心的共享共建和增值服务,提高了参考咨询在网上的表现力和可视度,这是虚拟参考咨询服务在网络上延伸的一种新的表现形式。由于互联网上的信息网络资源浩如烟海,且存在着大量信息垃圾,同时随着学术研究的日趋复杂,用户在虚拟参考咨询服务中提出的检索任务和信息需求已不仅仅是信息线索或参考数据的获取,而更注重获取浓缩专深的知识单元或咨询问题的全面深层解答,因此,面对“信息丰富而知识贫乏”的数字化时代的挑战,面对用户信息需求的变化,如何充分利用智能化手段挖掘出大量显性信息当中的有价值的隐性知识作为用户满意的咨询结果,向用户提供知识层次的参考咨询服务,已成为当前图书馆界一项非常有意义的研究内容。本文就此初步探讨把数据挖掘技术和人工智能领域中的Multi-agent相结合,应用于分布式联合虚拟参考咨询中智能化的知识挖掘,提出一个基于Multi-Agent的数据挖掘系统模型,拟把Multi-Agent本身的特点引入到CVRS数据挖掘过程中,使它具有自治性、自动反应性、交互性及适应环境性等特点,以便进一步为用户提供有针对性、快速智能化的虚拟参考咨询个性化服务。1、 Agent和 Multi-agent技术1.1 Agent系统 关于Agent内涵极其丰富,表现各不相同。有“Agent是人工智能领域的概念,它表示可以和环境进行交互的具有一定智能的物理实体或抽象对象。” 1、“Agent是在分布式系统中持续自主发挥作用的并且能以主动交互服务的方式完成一系列操作的计算实体,它是一种基于分布式系统技术的设计模式。” 2等等,虽然表达不一,但有一点是共识的,即它是在特定环境下,为达到预定目的而采取的一种模拟人类智能行为并提供相应服务的一组计算机程序,是能代表用户执行计算和信息处理任务的智能化软件实体,它具有自主性、反应性、主动性、社会性、智能性等特点。1.2 Multi-Agent系统Multi-Agent系统是指由多个Agent组成的、具有一定组织结构的多Agent联邦,它作为解决复杂系统的一个有效方法,利用并行分布式处理技术和模块化设计思想,把复杂系统划分成相对独立的Agent 子系统,通过Agent之间的协商与合作来完成对复杂问题的求解3。它是典型的分布式计算系统,系统中每个Agent成员都是独立和自主的,有它独立的局部知识库、目标和行为,各Agent 间能协调相互之间的行为,通过合作达到共同的目标。Multi-Agent系统为各Agent成员提供一个交互的框架,并合理地分配任务使各Agent成员能够更好地协同工作。与单Agent相比,Multi-Agent具有不存在全局控制、数据是分散或分布的、计算过程是异步、并发或并行等特点。2、 数据挖掘技术2.1数据挖掘概念数据挖掘(Data Mining)也称知识发现(knowledgediscovery),源自人工智能的机器学习领域,是在一个已知状态的数据集上,通过设定一定的学习算法,从数据中获取所需的知识4。数据挖掘根据其主要研究对象的数据结构形式的不同,一般粗分为面向数值的数据挖掘和web数据挖掘两种类别。本文讨论的是web数据挖掘,也就是利用数据挖掘技术从用户的Web文档集合和在站点内进行浏览的Web活动中抽取人们感兴趣的、潜在的、有用的规律和模式,其研究对象是半结构化和非结构化的文档数据,数据内容基本上没有语义信息的描述,仅仅依靠HTML语法对数据进行结构上的描述。它分为web内容挖掘、web结构挖掘、web使用挖掘三种类型。2.2 数据挖掘过程用户数据挖掘过程包括挖掘目标的确定、前期的数据预处理和数据转换、数据挖掘和对挖掘结果的解释与应用。其中数据挖掘阶段将挖掘算法的实施与对挖掘得到的知识模式进行的分析、评估集成在一起,以便将搜索限制在有价值的模式上,这是一个反复迭代进行的过程。需要对挖掘结果进行不断的实践应用、测试、和比对,直至用户满意。本文主要是探讨基于虚拟参考咨询系统中的咨询用户会话、web日志、web文本文件及用户行为模式的挖掘,挖掘系统的体系结构如下图1所示:各类信息源 结构化挖掘库有价值的规则模式规则模式预处理 分类、聚类 模式分析 解释与应用数据转换 关联分析 评 估特征提取图1数据挖掘的体系结构2.3 数据挖掘方法目前数据挖掘技术很多,同一个挖掘方法存在多个不同的挖掘算法。从挖掘功能上主要有分类分析、聚类模式分析、关联规则分析、序列模式分析等方法。(1)分类是根据数据对象寻找相应的分类规则,再根据规则对数据对象进行归纳分类,找出各类的特征属性。可用于对访问某文档的用户进行偏好描述。在web挖掘中,分类主要是将用户配置文件归属给定的用户类别,可以通过指导性归纳学习算法进行分类。(2)聚类是把具有相似特征的用户或数据项归类,在web挖掘中,聚类分析主要用于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类,以便为用户提供个性化服务。页面聚类则是将内容相关的页面归类,搜索引擎可以利用这些信息为用户的查询提供相关的超链接。(3)关联规则是挖掘数据项之间的联系,可用于发现用户会话中经常被用户一起访问的页面集合及服务器上多种页面之间的联系。通常使用Apriori算法或其优化算法。(4)序列模式是在时序数据集中发现时间上具有先后顺序的数据项。在Web挖掘中,序列模式识别寻找用户会话中在时间上有先后关系的页面请求。利用发现的序列模式可以预测用户访问模式,发现在一个时间段内访问某一文件的所有客户的相同特征等。3、基于Multi-Agent的CVRS数据挖掘3.1基于Multi-Agent的CVRS分布式数据挖掘模式的客观性选择常规的数据挖掘算法和模型主要适合于集中式存储的数据。由于分布式联合虚拟参考咨询系统中的各成员馆的FAQ、问答知识库、专家信息库和学习中心等数据均分布于不同地理位置的站点上,具有数据量庞大、分布式存放和独立自治的特点,若采用集中式数据挖掘方式,必须通过网络或其他移动介质将分布式存储的数据合并到一个集中数据仓库中,虽然网络带宽在增加,但还是比不上数据增长的速度,导致通过有限的网络带宽来移动大容量的数据,这就要求有高速的数据通讯网络,传输代价比较大,同时数据传输中还存在着数据的私有性和保密性得不到保证的数据安全问题,因此采用集中式数据挖掘算法对于大容量、分布式的数据分析应用显然是不合适的。随着信息量的不断增加、信息跨地域格局的不断形成、网络技术和分布式人工智能技术的不断发展,在分布式环境下,把Agent特性与分布式挖掘技术相结合,显示出强大的优势。针对Agent特点,每个局部子网对应一个Agent集合实现局部数据挖掘,每个局部数据挖掘都是在全局数据挖掘目标的指导下分布进行,异地独立数据集的挖掘进程是并行的,而异地依赖数据集挖掘需要通过多个异地Agent之间的协作进行,之后仍可并行进行,这样通过多Agent间的相互协调、分布式合作和资源共享,能实现各成员馆虚拟参考咨询服务的优势互补,且进行交互式多Agent挖掘,无需数据的收集和集中,能实现不同结点或子网中的分布式、并行挖掘,避免了因建立庞大知识库而造成的知识管理和扩张的困难,提高了数据的安全性和挖掘效率,降低了数据移动所带来的通讯代价,增强了数据挖掘系统的灵活性。3.2基于Multi-agent的CVRS分布式数据挖掘模型基于Multi-agent的数据挖掘系统能从不同地理位置的各成员馆数据站点中进行分布式数据挖掘,其模型如图2所示。基本原理是:收集Agent采集分散于各成员馆服务器上的局部知识库,并将它们保存在各自的数据库中;预处理Agent主要是整理、重构异构数据,使之转化为标准的结构化数据。消除重复记录数据,推导缺值数据,数据格式转换及数据的连续属性离散化等操作;数据挖掘Agent依据各自的算法进行数据并行挖掘;决策Agent是对数据挖掘Agent所给出的结果进行评价和解释,并与结果预处理Agent、数据挖掘Agent协调;协调Agent用来初始化和管理Agent,以及负责结果预处理Agent与决策Agent、挖掘Agent间的通信。结果预处理Agent是对挖掘结果进行垂直筛选式的二次挖掘(此挖掘算法所规定的阈值应低于一次挖掘的对应值),形成预处理结果;用户接口Agent将预处理结果依用户偏好的形式输出最终处理结果,另一方面获取用户对挖掘结果的反馈信息,经结果预处理Agent反馈给各挖掘Agent,以及时修正各自的行为,提高挖掘精度。其中用户信息库存放着两类信息:一类是用户管理信息,另一类是用户的兴趣和爱好等信息;局部知识库存放各成员馆FAQ知识库和咨询问答库等。数据挖掘agent收集agent 局部知识库n关联规则agent序列分析agent分类、聚类agent用户接口agent协调agent用户决策agent关联规则agent序列分析agent分类、聚类agent全局知识库局部知识库1预处理agent收集agent 决策agent结果预处理agent预处理agent用户信息库 数据挖掘agent图2基于Multi-Agent的CVRS分布式数据挖掘模型其中数据挖掘Agent主要是采用关联规则Agent、序列分析Agent、分类Agent、聚类Agent四种。基于web结构挖掘主要适用于关联规则Agent的作业,基于web使用的挖掘主要适用于序列分析Agent,主要从web的Server Logs、Error Logs、Cookie Logs等用户访问日志和用户注册、查询等数据中抽取感兴趣的模式,基于web内容的挖掘主要以各种格式的文本文档为挖掘对象,适用于分类Agent或聚类Agent 5。4、基于Multi-Agent的数据挖掘技术在CVRS服务中的应用分布式联合虚拟参考咨询系统中每天都会产生大量的数据, 这些数据背后蕴藏了丰富的、未知的、有用的知识,对图书馆提供智能化的参考咨询服务是非常有价值的。4.1 挖掘用户咨询与FAQ、咨询问答知识库及专家信息库的关联,实现智能自动匹配分布式联合虚拟参考咨询系统中知识库是核心,它包括FAQ库、咨询问答库和学习中心库,虽然系统具有知识库管理功能,但智能化程度还不高,主要体现在对提问关键词的匹配和智能分析上,同时在联合数字参考咨询服务中一般都是由用户自己浏览专家的介绍,然后选择合适的专家。特别是在专家数量多的情况下,这种用户浏览的方式更加不便用户对专家的选择。而Agent能够智能检索信息,帮助用户通过某种辅助工具查找到相关的概念,进行自然语义扩展和查询域修整。因此通过对FAQ和咨询问答知识库中的问题答案结构化,利用关联规则agent挖掘,把用户的咨询与结构化的知识库按照预先设定的相似度进行自动匹配,可实现知识库与用户咨询的精确智能映射,这样,一方面可以省去用户浏览知识库的麻烦,更重要的是克服了用户在检索知识库过程中由于检索策略的失误而影响了知识库的价值的发挥;同时为了充分利用专家资源,可通过网络的协作建立分布在各成员馆的专家信息库,对专家的专业特长和相关信息进行结构化描述,利用Agent挖掘进行用户提问与专家信息库的智能映射,实现智能化的用户选择专家的功能。 4.2 挖掘数字资源,提供高质高效的虚拟参考咨询服务面对丰富的数字资源、文献资源以及大量无序的信息资源,要快速准确地检索、分析、优化组合出用户满意的咨询结果比较困难,这就需要利用关联Agent、聚类Agent等挖掘技术对文献、用户进行关联和归类分析,在准确描述这些信息资源的基础上,做到自动采集和专题整理,从而保证咨询人员快速、准确的得到所要回答问题的答案,实现对咨询问题的全面深层解答,进一步提高虚拟参考咨询服务的效率。 4.3 挖掘知识库和用户需求信息,合理配置资源,提供个性化服务利用智能Agent与分布式挖掘相结合的技术,可以通过对联合虚拟参考咨询中用户行为、咨询问题记录、学科知识三维数据的分析挖掘,利用智能Agent跟踪访问咨询服务系统的用户信息库、咨询问答库以及服务器日志分析等,采用挖掘Agent自动提取知识,智能分析用户的信息需求,并动态地对随机来访的用户信息进行收集、统计和分析,发现用户的需求模式和趋势,建立用户需求模型,从而推断不同用户的个人偏好和兴趣,发挥Agent的记忆和分析功能,主动地搜索符合用户需要的网络信息,自动探测相关信息的变化和更新,以便主动根据用户的信息需求推送给用户可能需要的问题或答案,提示用户链接与其专业领域更密切的页面,向用户提供符合其专业特点和需求的个性化最新信息,达到动态跟踪用户需求的目的,真正实现网络参考咨询个性化的智能咨询服务模式。同时结合用户对资源的需求类别和需求量的不同,有针对性、合理的配置图书馆数字资源,满足用户的需求。运用文本挖掘技术对用户的的咨询E-Mail文本数据进行特征抽取Agent、聚类Agent、分类Agent分析,分析文档数据库的内容,发现文档数据库中概念、文档之间的相互关系和相互作用,从中探求、掌握用户需求规律,可有效地解决参考咨询服务中的用户需求定位问题,以更好地提供个性化服务,其主要关键技术是开发汉语自动分词和抽词技术。5、结语随着信息时代智能化、网络化的飞速发展和应用,如何从分布式数据的汪洋大海中及时发现有用的知识,已成为数字化时代虚拟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论