(计算机应用技术专业论文)基于企业协作信息网平台的信息检索系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于企业协作信息网平台的信息检索系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于企业协作信息网平台的信息检索系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于企业协作信息网平台的信息检索系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于企业协作信息网平台的信息检索系统的设计与实现.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)基于企业协作信息网平台的信息检索系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

碡于企业协作信息网j 卜台的信息检索系统的设计与实现 摘要 摘要 本文主要介绍了为满足制造企业间协作的信息化要求雨实现的制作企业协作嘲 信息平台。以及为了更好的满足用户的协作信息要求而设计的基于该平台的信息检索 子系统。制造企业协作网信息平台提供了b s 模式的信息管理方式,其中检索子系统 主要基于向量空间模型,对用户的查询请求进行分析处理后和后台协作信息文档集匹 配,并将检索结果返回给用户。系统的目标是将尽量多的符合要求的文档反馈给用户, 以满足他们的要求,实现协作的最终目的。 首先介绍了课题背景、研究内容和意义,并概述了b i s 模式的管理信息系统的相 关概念以及本文所基于的实验环境制造企业协作网信息平台的具体功能和实现 技术。然后,简单介绍了信息检索的相关知识,给出了在现有的协作网信息平台上尝 试以向量空阀模型为基础来实现信息检索子系统的方法,并介绍了详细设计思路:采 用向量空间模型对文档和查询分别建立特征向量子空间,利用相似度计算方法进行检 索比较。同时,结合使用相关反馈技术和查询扩展技术,增强与用户的交互操作,最 终达到提高检索准确率和召回率的目的。随后,介绍了检索子系统实现中涉及的关键 技术,包括对协作数据信息进行采集和训练的模式和方法。最后简单介绍了检索子系 统的实现、使用以及对系统进行测试的相关情况。从实验结果看,将统计方法和语义 方法相结合来实现信息检索系统是很有效果和研究价值的。 关键字:信息检索,向量空间模型,b s 模式,特征项,相关反馈,查询扩展 作者:杨蓓虹 指导老师:朱巧明 a b s t r a c tt h ed e s i g na n dl m p l e r n c n l a t i o no f i n f o r m a t i o nr e t r i e v a ls y s t e m 。,b a s e 。d o n e n t e r p r i s e c o 1 1 a b o r a t i o n i n f o r m a t i o n n e t w o r k p l a t f o r m a b s t r a c t t h i sa r l i c l em a i n l yi n t r o d u c e st h er e a l i z a t i o no fm a n u f a c t u r ee n t e r p r i s ec o l l a b o r a t i v e i n f o r m a t i o nn e t w o r kp l a t f o r ma n dt h ed e s i g na n di m p l e m e n t a t i o no fi n f o r m a t i o nr e t r i e v a l s u bs y s t e mb a s e do ni tt om e e tt h en e e d so fm a n u f a c t u r e e n t e r p r i s e su s e r s t h e m a n u f a c t u r ee n t e r p r i s ec o l l a b o r a t i v ei n f o r m a t i o nn e t w o r kp l a t f o r mp r o v i d e sab sm o d e i n f o r m a t i o nm a n a g e m e n tw a y , a n dt h er e t r i e v a ls u b s y s t e mi sm a i n l yb a s e do nv e c t o rs p a c e m o d e i ;i tc a r r i e so na n a l y s i sp r o c e s s i n go fu s e r 。si n q u i r yr e q u e s t s ,m a t c h e sw i t ht h e b a c k s t a g ed o c u m e n t sc o l l e c t i o na b o u tc o o p e r a t i v ei n f o r m a t i o n ,a n dr e t u r n st h er e t r i e v a l r e s u l tt ou s e r s t h eg o a lo ft h es y s t e mi st of e e db a c kt h ep r o p e rd o c u m e n t st ou s e r sa sf a r a sp o s s i b l e s oa st os a t i s f yt h e i rr e q u e s t sa n dr e a l i z et h ec o l l a b o r a t i v er e l a t i o n s h i p f i r s tt h ea r t i c l ei n t r o d u c e st h et o p i cb a c k g r o u n d ,t h er e s e a r c hc o n t e n ta n ds i g n i f i c a n c e o u t l i n e ss o m er e l a t e dc o n c e p t sa b o u tm a n a g e m e n ti n f o r m a t i o ns y s t e mb a s e do nb sm o d e a sw e l la st h ef u n c t i o na n dr e a l i z et e c h n o l o g yo ft h ee x p e r i m e n t a le n v i r o 啪e n t m a n u f a c t u r ee n t e r p r i s ec o l l a b o r a t i v ei n f o r m a t i o nn e t w o r kp l a t f o r m t h e nm a k e sa d e s c r i p t i o no ni n f o r m a t i o n r e t r i e v a lt e c h n o l o g y , p r o v i d e st h em e t h o d t or e a l i z et h e i n f o r m a t i o nr e t r i e v a ls u bs y s t e mb a s e do nv s mo nt h ee x i s t i n gc o l l a b o r a t i v ei n f o r m a t i o n n e t w o r kp l a t f o r m ,a n di n t r o d u c e st h ed e t a i l e dd e s i g nm e n t a l i t y :u s e sv e c t o rs p a c em o d e lt o e s t a b l i s ht h ei n d e xs u b - v e c t o rs p a c eo fd o c u m e n t sa n dq u e r i e ss e p a r a t e l y , c a r r i e so nt h e r e t r i e v a lc o m p a r i s o nb yc o m p u t i n gt h e i rs i m i l a r i t i e s a tt h es a m et i m e ,r e l e v a n c ef e e d b a c k a n dq u e r ye x p a n s i o nt e c h n o l o g ya r eu s e dt o g e t h e rt oe n h a n c ec o m m u n i c a t i o nw i t hu s e r s a r i df i n a l l yt oah i g h e rp r e c i s i o na n dr e c a l la r ea c h i e v e d a f t e r w a r d s ,i n t r o d u c e st h e i n v o l v e de s s e n t i a lt e c h n o l o g yi nt h er e a l i z a t i o no fr e t r i e v a ls u bs y s t e m ,i n c l u d i n gt h e p a t t e r n sa n dm e t h o d st og a t h e ra n dt r a i nt h ec o l l a b o r a t i v ed a t a f i n a l l ys i m p l yi n t r o d u c s t h er e a l i z a t i o na n dt h eu s eo f t h er e t r i e v es u bs y s t e ma sw e l la st h et e s tr e s u l t st ot h es y s t e m f r o mt h er e s u l t so ft h ee x e r c i s e sw ec a nc o n c l u d et h a tt h ec o m b i n e du s a g eo fs t a t i s t i c a l m e t h o da n ds e m a n t i cm e t h o dt or e a l i z ei n f o r m a t i o nr e t r i e v a ls y s t e t ni sf u l lo fe f f i c i e n c y ar i ds i g n i f i c a n c ei nt h ef u t u r e t h e d e s i g na n di m p l e m e n t a t i o no f i n f o r m a t i o nr e t r i e v a ls y s t e m a b s t r a c t ! ! ! 型! ! ! 1 1 1 1 1 1 兰! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 竺苎! ! ! ! ! ! 兰! ! ! ! ! 堂! ! ! 竺 k e yw o r d s :i n f o r m a t i o nr e t r i e v a l ,v e c t o rs p a c em o d e l ,b sm o d e ,i n d e xt e r m , r e l e v a n c ef e e d b a c k ,q u e r ye x p a n s i o n w r i t t e nb y :y a n gb e i h o n g s u p e r v i s e db y :z h uq i a o m i n g 拱十企业协作信息峭平台的信息检索系统的设计与实现 第一章引言 1 1 问题的提出 第一章引言 随着信息技术在全球的迅猛发展以及互联网络与计算机的普及,人们每天都在与 成千上万的信息打交道。在1 9 9 9 年,w e b 上大约有8 0 0 兆的网页,i n t e r n e t 通信量大 约每1 0 0 天翻一倍,而与此相比,人的大脑记忆是有限的,这就导致了“信息过载” 1 。2 1 世纪是信息的时代,i n t e m e t 上的丰富信息既给人们带来了方便,同时也由= :j _ 二 它动态的开放特性使人们逐渐淹没在浩瀚的数据信息海洋中。为了找到合适有用的信 息,人们常常需要耗费大量的时间为代价。如何能够从众多的信息资源中快速、准确 地寻找到所需要的信息已经成为困扰用户的一大难题。 同时,中国制造业经过数年的飞速发展,目前的规模已位居世界第四。苏州是中 国经济增长最快的城市之一。苏州经济增长浓缩了中国经济增长的进程。近几年苏州 制造业的发展,很熏要的就是我们借助于制造业全球化和全球经济这样的动力。对于 制造企业而言,如何实现信息化过程已是关系到企业生存发展的关键问题之一。制造 业信息化过程是将信息技术、自动化技术、现代管理技术与制造技术相结合,带动产 品设计方法和工具的创新、企业管理模式的创新、企业问协作关系的创新,实现产品 设计制造和企业管理的信息化、生产过程控制的智能化、制造装备的数字化、咨询服 务的网络化。其中主要内容是要实现原料采购、产品设计、产品生产、产品销售和整 个管理流程的信息化或数字化。当前,企业面临越来越大的竞争压力,他们希望通过 信息化建设,提升企业管理水平,提商企业在各方面的竞争力。 因此,迫切需要找到一种能够有效地从大量数据中检索出有效信息的方法和工 具,以协助企业实现信息化过程,提高竞争能力,而其中关键的技术就是对信息检索 功能的实现。 1 2 国内外研究状况 由于目前信息过载造成的检索困难这个问题,关于信息检索系统的研究已经如火 女l : 荼的展开了,而且商用检索系统的研究和发展也已经逐步趋于成熟。近年来,w e b 的检索应用日益广泛,搜索引擎的诞生使得人们更有目标性的寻找自己所需要的信 i 罅一章t j l 苦 皋十企业协作信息l l 畸、卜台的信息榆索系统的设汁,实_ i j l l 恩。然而,针对于某个领域内容的检索应用还不是很多,本文所涉及的就是专门关于 制造企业协作网信息平台的检索应用。 1 2 1 信息检索的形式 早在4 0 0 0 多年前,人类就开始有了信息组织和信息检索的活动,比如书的目录 信息就是一种方便检索的数据结构。现在普遍使用的索引( i n d e x ) ,即选择一组词或 概念,并通过指针与相关信息( 或对象) 关联,就是一种很好的表现形式。基于索引 产生的来源不同,可以分为以计算机为中心的信息检索和以人为中心的信息检索。对 于前者,信息检索问题主要是建立合理有效的索引,高性能的处理用户的查询,开发 排序算法以改善查询应答子集的“质量”;而对于后者,信息检索的主要问题则是研 究用户的行为,理解他们的主要需求,根据这些需求改进和完善检索系统的组织和操 作f ”。 在本课题中,我们主要是采用以计算机为中心,以人为辅助的检索策略,在检索 中综合考虑了人的作用,引进了相关反馈等交互操作,以改善和提高检索的性能和效 采。 1 。2 。2 信息检索的发展 从上个世纪5 0 年代人们就开始了对信息检索技术的探索与研究,并将研究成果 广泛应用于图书馆等信息服务部门。如由s a l t o n 等人开发的s m a r t 信息检索系统, 利用向量空间表示检索信息内容,大大提高了信息查询的准确性。向量空间模型是近 年来使用较多且效果较好的一种信息检索模型,并且是商用捡索系统广泛采用的检索 模型之一。然而,目前比较成熟的正在使用的信息检索系统并没有用到太多的语言学 知识,而理想的检索系统应该是将统计信息与语义信息相结合,使系统对查询做到 “真斧的理解”i ”。 当前,信息检索技术除了应用于图书馆、情报部门等专用领域外,还广泛应用于 w e b ,其最具特征性的标志就是w e b 搜索引擎的诞生。目前,对于西文的信息检索工 作,国内外己经做出了大量的研究和探索,并获得了很好的研究成果;而对于中文的 信息检索工作来讲,由于中西文的差异性,对此的研究还正在展开之中。因此这个研 究方向仍具有广大潜力,并一直为国内外大学和研究所学者所关注。 苎主垒些塑堡堕璺型兰鱼塑堕r 皇丝墨墨竺塑堡生兰壅塑竺二至! 堕 1 3 本文所做的工作 对于制造企业协作网信息平台的企业用户来说,要想获取所需信息目前主要有两 种基本手段:一是分类浏览( 即按照供应、需求、地域等多个类别) ,二是按关键字 查询( 即根据输入的关键字信息做出简单的匹配操作) 。显然这些并不能获得理想的 满足用户要求的结果。而且随着数据薰的增大,当用户输入的检索要求太粗略时会导 致大量数据的匹配结果,而当用户输入的检索要求太细致时则导致匹配不到任何结 果,然而,这都不是我们系统设计的初衷。本课题研究的主要内容就是如何解决企业 用户的检索要求,返回令用户满意的检索结果。具体而言,本课题以制造企业协作网 信息平台为实验环境,在此基础上实现了以向量空间模型为主的原型信息检索系统, 并对中文信息检索进行了一些实验性的探讨。 由于研究内容的特点,本课题实现的意义如下: 本系统是针对特定的应用需求对象( 企业协作关系) 而开发的,主要目的是 实现企业用户问相互的、自动的协作关系,并对原有系统在功能上做出补充 和完善,以充分发挥系统的协作特色。 本系统主要依赖信息检索技术为实现手段,对目前的基于关键词层面的检索 做出了提高,即对于用户的输入请求,系统将会做出一定的分析之后才进行 检索操作,以期获得更丰富准确的结果。这里将涉及到中文信息检索的些 问题,对此做出的实验将是非常有意义的。 本系统将实现一种多种模型相结合的信息检索方案。目前,信息检索的实现 主要分为基于统计和基于语义两大方法。显然。单纯的使用统计的方法将会 影响检索的准确性,而仅仅考虑语义信息的方法则需要大量后台语料资源的 支持,对语义信息分析的结果将直接影响检索的结果。因此,将这两种检索 方法的模型结合起来,取长补短,应该是明智而值得尝试的选择。 1 4 论文的组织结构 本文的内容主要分为六章,各章的内容简要描述如下: 第二章首先介绍了b i b 模式的制造企业协作网信息平台,并描述了该平台的基本 架构、目前所具备的功能以及具体实现技术。 第一章引言 基于企业协作信息网平台的情息榆索系统的设计与实现 第三章首先介绍了信息检索、信息检索系统和信息检索模型,阐述了信息检索的 实现方法和衡量信息检索系统性能的评估标准。然后介绍了基于制造企业协作网平台 的以向量空阃模型为主的信息检索子系统的具体设计思路并详细描述了实现步骤。 第四章介绍了制造企业协作网平台的检索子系统实现过程的关键技术,并在数据 收集和处理方面结合实验环境,对已获得的实验训练语料做出特性处理。 第五章描述了制造企业协作网检索子系统的实现过程以及测试过程,并对测试结 果进行了分析。 第六章结合当前的实验结果,对信息检索的实际化应用方面做了总结,并对现有 系统的进一步完善提出了展望。 錾于企业协作信息网平台的信息检索系统的设计与实现第二章制造企业协作! 堑壹皇平台笪设计 第二章制造企业协作网信息平台的设计 2 1 尉s 模式的管理信息系统 随着i n t e m e t 技术的飞速发展,基于b s 模式的交互式w e b 管理信息系统f j 益受 到人们的青睐。微软公司推出的a s e n e t 正适应了这一要求,它是创建动态w e b 页 的种强大的服务器端新技术1 3 1 。基于b s 模式的制造企业协作网信息平台架构主要 分为三个层次,如图2 1 所示:客户端w e b 浏览器、w e b 服务器、数据库服务器。用 户通过客户端浏览器输入u r l 访问w e b 服务器,w e b 服务器请求数据库服务器,并 将获得的结果以h t m l 形式返回客户端浏览器。其中w e b 服务器包含系统的应用逻 辑,它的主要任务是根据用户发出的请求,通过a d o n e t 与数据库进行连接,向数 据库服务器提出数据处理请求,之后再将数据库服务器的处理结果提交给客户端浏览 器,供用户查看。 u s e r l 而l 请承 u i ,一 由3 昌r 响应 用 邕i 一j 厂1 1 回攀鼍i 逻 9 时l d b 辑 一 菁 一 i 0 一 一 一 w 曲b r o w s e rw e bs e r v e rd bs e r v e r 图2 1b ,s ( b r o w s e r s e r v e r ) 模式下的系统架构图 m i c r o s o f t 目前最先进的a sp n e t 技术提供了真正的面向对象的w e b 开发方法, 它包含一套丰富的类库,使开发人员能够简便灵活地进行w e b 应用的开发。利用n e t 架构的强大、安全、高效的平台特性,使得开发效率大大提耐引。本文讨论的制造企 业协作网信息平台就是采用n e t 技术,以c # 为语言开发工具实现的交互式w e b 管 理信息系统,主要用于完成基于b s 模式的数据管理和数据维护功能。 2 2 国内制造业门户网站简介 随着近年来全球制造业的飞速发展,中国的制造业也随之被带动起来。同时制造 业信息化的要求也r 益强烈。据统计,国内关于制造业信息化的门户网站主要有以f 几个: s 辫一章制造企业协作嘲信息平台的设计基于企业协作信息网平台的信息检索系统的设汁与实现 制造业信息化网站,h t t p :w w w m i e g o v c r d 中国制造业信息化门户,h t t p :州v e - w o r k s , n e t o n 西北制造业信息化网,h t t p :w v “v n w r a i e c o n d 广西制造业信息化网,h t t p :w w w m i e g x s t i n e t c n 河南省制造业信息化网站,h t t p :w w w h a m i e g o v c n 福建制造业信息化网,h t t p :w w w f m i e o r g c n 江苏省制造业信息化工程网站,h t t p :w w w j s m i e g o v c n 从目前的制造业门户网站可以看出,目前的制造业信息化网站主要是对项目、动 态、政策等信息做出公示,适合读者浏览,并且也只支持简单的关键字查询功能。而 对于本文涉及的制造企业协作网平台而言,我们不仅要做到支持关键字的查询匹配, 丽且要使得能够匹配到尽量多而有效的信息,加强检索的功能和效果。 2 3 制造企业协作网信息平台简介 本文所指的制造企业协作平台是指目前已经运行的“苏州制造业协作网站”。它是 由苏州市总工会职工技术协会、苏州市工业经济联合会、苏州大学教职工技术协会联 合主办,是一个公益性、专业化、服务型的区域制造业门户网站。网站通过对区域制 造企业的产品、技术、装备、人才等信息资源的集聚、整合。旨在为广大制造企业及 用户所共享,为推进苏州制造业基地的发展,乃至在建设长江三角洲国际制造业基地 中发挥积极作用。网站初设十三个扳块( 如图2 2 所示) :行业动态、相关政策、会 展培训、产品展示、加工供求、难题咨询、专业人才、技术交易、设备调剂、机床维 修、协会之窗、会员交流等,这些栏蜀基本上囊括了广大制造企业信息交互的主要内 容。网站的信息交互不仅仅局限于一般产品和加工配套的宣传推广,还涉及制造业中 的金属切削、模具、热处理、焊接、铸造、电镀、压铸等各种专业技术的协作应 用,使企业间的单个协作、同行业同专业的集群协作、跨地区的专业协作,都能通过 专业信息服务平台传递,无所不及、超越时空。简言之,制造企业协作网信息平台主 要是用于协助企业在计算机网络技术环境的支持下,突破地域、时间等限制,进行相 互交流、信息共享,达到协作的目的。系统中用户角色分为管理员、高级会员、普通 会员和非注册过客,前三类用户具有访问和管理权限,非注册过客只有访问权限。管 理员可以对高级会员和普通会员进行管理。系统主要实现的功能有:身份认证、信息 6 基于企业协作信息嘲甲台的信息捡索系统的设汁与实现第二章制造企业协作网信息平台的设计 检索、信息浏览、信息管理与维护、用户注册、用户管理、b b s 交流等。可见,其 中检索功能的好坏是关系协作能否良好实现的关键点。下面就这些功能做简单描述。 2 。3 1 身份认证功能 图2 2 系统功能结构图 用户在制造企业协作网首页录入用户名和密码信息,系统将获得的用户名和密码 信息通过组件来检验用户登录的身份,并给出用户在整个系统中的权限,它将影响到 用户在协作网平台上可使用的功能。 2 3 2 信息检索功能 用户可以按照关键字对协作信息进行初步检索,也可以对列示的选项做出选择来 进行高级检索。用户可对检索结果进行相关的排序和筛选操作。 2 3 。3 信息浏览功能 用户可以对列示的协作信息进行翻页和排序操作,也可以选择某个信息类别进行 同类别信息浏览。会员用户可以定制所需要的协作信息的显示浏览格式。 墅兰塞堡! 堡垒些塑堡爆信息平台的设计 基于企业浒作信息网甲台的信息检索系统的酸计与实现 2 3 4 信息管理与维护功能 管理员及企业会员可以在权限允许的范围内对信息进行管理和维护操作。在发布 和更新信息时,对某些关键字段进行有效性验证,在删除信息时,将被删除信息导入 备份表,以方便对误删除数据的及时恢复。同时,系统对每个数据管理操作进行记录, 以方便核对数据操作。 2 3 5 用户注册功能 对企业提供在线注册功能,以方便更多企业利用本系统平台来实现突破地域的协 作。企业通过输入用户名、密码、e m a i l 、企业代码等信息,经过有效性验证后即可 成为普通会员。 2 3 6 用户管理功熊 管理员可以对所有会员进行权限管理,维护本系统的健康运行,防止某些会员散 步虚假的协作信息。管理员可以禁止和恢复会员的发布权限,可以管理和维护协作类 别信息。 2 3 7b b s 交流功能 为企业会员提供了方便的交流合作平台。会员之间可以发布合作意见或短小的协 作意向信息,以实现真正的协作关系,达到协作的目的。 此外,制造企业协作网信息平台还提供了短消息服务功能。用户可以随时对浏览 的协作信息发布简短的意见和建议企业通过查看短消息及时得到协作反馈信息,从 而达到互动协作的目标。 2 4 制造企业协作网信息平台的实现技术 根据制造企业用户的需求,我们采用,n e t 技术,以c # 为语言开发工具,实现 了基于b s 模式的制造企业协作网信息平台。该系统的基本界面如图2 3 所示: 基于企业协作信息婀平台豹信息捡索系统的设计与实现 第二章制造企业协作旧信息甲台盼设计 图2 3 制造企业协作网信息平台界面图 从图上可以看到,主页上提供了用户的登录窗口,导航条上列出了各个板块的超 链接,每个板块中列出了各自信息的超链接,用户可以通过简单的点击操作查看具体 的信息内容。 在协作平台的开发过程中,我们采用a d o n e t 处理数据,编写d l l 组件统一 完成与数据库的交互操作,完成了协作网信息平台要求的各项功能。 2 。4 。1 使用a d o 。n e t 处理数据 a d 0 n e t 是由- n e tf r a m e w o r k 为数据库中的数据进行交互而提供的一组对象 类的名称。它可以与许多类型的对象交互,包括数据库中的数据、电子邮件中的数据、 应甩程序文档数据,以及x m l 中的数据等等。a d o n e t 提供了两个托管的数据供 应程序来实现与数据库的通信,分别是m a n a g e dp r o v i d e rf o rs q ls e r v e r 和m a n a g e d p r o v i d e rf o ro l ed b 。由于系统采用0 r a c l e 为后台数据库,我们采用后者来实现 与数据库的交互。该数据供应程序由4 个核心对象组成:c o n n e c t i o n 对象、c o m m a n d 埘象、d a t a r e a d e r 对象和d a t a s e t 对象,应用逻辑通过对这4 个对象进行编程柬实现 鹤一苹制造企业协作嘲信息平台的设计 基于企业协作信息网平台豹信息检索系统的设计i 实现 b s 方式的数据管理和维护,如图2 4 所示。 图2 4 a d o n e t 访问数据库原理圈 我们以上述的访问原理为依据,实现了制造协作平台中对数据库的访问和处理操 作,实现了企业用户提出的功能要求。 2 。4 2 业务逻辑层的实现 由于a s p n e t 对应用程序使用的组件提供“零注册”的方法【1 】,同时考虑到实 现过程中代码的复用性和某些功能的独立性,因此编写了4 个d l l 组件,通过调用 组件的方式来实现系统的功能,下面简单介绍下各组件的功能。 a u t h e n t i c a t i o n d l l :用于实现对身份的认证。用户在协作网平台首页登录,后 台对其输入的用户名、密码信息进行验证,判断用户的身份,由此确定该用 户在整个系统中的权限和功能,如图2 5 所示。 基十企业狮作信息州平台的信息检索系统的设计与实现 第二章制造企业协作网信息。f 台的设计 g u e s t m e m b e r a d m i n i s t r a t o r 图2 5 身份认证组件功能原理图 d b a c o n t r 0 1 d l l :用于实现跟数据库的连接和对数据库的交互操作,包括查询、 插入、更新、删除等操作如图2 6 所示。基于上述使用a d o n e t 对数据 处理原理的描述,很容易实现这个功能。在该d l l 组件中,系统不仅实现 了对数据库的基本操作,同时还对某些重要操作进行了记录备份,以方便管 理人员对所有操作进行查阅和及时更改。 u s e r s e l e c t i n s e r t u p d a t e d e l e t e 图2 6 数据管理操作组件功能原理图 m e s s a g e d l l :用于实现短消息的发布和接受,类似于普通b b s 中信箱的功能, 如图2 7 所示。企业用户可以使用该功能和其他企业用户及时联系,以实现 更好的协作关系。 b b s s e r v i c e d l l :用于实现会员用户问的交流,类似于普通b b s 的功能,如图 2 7 所示。企业会员可以通过发贴、跟贴的方式对各类协作信息提出评价和 协商意向,以达到会员间协作的目的。 u s e r 图2 7 短消息组件与b b s 组件功能原理图 羔兰兰塑堕尘些塑堡塑堕星兰鱼塑堡盐茎垒些塑堡堡墨翌堂堂塑笪星丝墨墨笙墼塑堡兰茎堡 2 5 本章小结 本章首先对b s 模式的管理信息系统做出了简单的介绍,然后根据目前国内制造 业信息化成果和信怠化过程的了解,提出了本文所描述的制造企业协作网信息平台所 要达到的甘标。随后,我们对该协作信息平台所要实现的功能做出细致的分析,给出 了相应的设计架构。最后,对在具体实现过程中所采用的主要技术做出了阐述,并描 述了在本协作信息平台系统中的实现方法。 接于企监协作信息m 平台的信息检索系统的设计与实现 第三章检索子系统的杖讨 第三章检索子系统的设计 制造企业协作网信息平台的设计涉及到各类制造业资料的组织问题,主要包括这 些内容的结构和分类组织,内容的联结,并且把这些信息有条理的显示给用户。比如 可以把制造业分为医药、化工、金属锻造、书画工艺等众多类别。各个类别的信息通 过w e b 页面和链接关联并显示出来。这样,用户可以通过简单的浏览操作查看感兴 趣的内容。但是,对于较大型的管理信息平台而言,显然仅仅依靠分类目录和链接来 浏览信息是远远不够的。信息量的增多不但使用户付出了成倍的查找时间,而盛在浏 览过程中用户往往很容易迷失方向而难以找到所需的信息内容。目前,制造企业协作 网信息平台仅提供了按照日期、名称等信息进行检索的功能。因此,对于本平台而言, 加强信息检索功能成为必不可少的要求。为此,我们考虑在原信息平台下加入信息检 索子系统的设计方案,期望能够帮助企业用户更为有效的实现检索的目的和协作的要 求。 3 1 信息检索相关概念 通常,对信息处理之前需要将信息做出一定的组织。顾名思义,组织是把数据按 照一定的结构、顺序、排列方式组织起来,检索( r e t r i e v a l ) 是重新获得或恢复,是 进行搜索、定位及读出数据的过程。可见,信息组织就是按照信息检索的需要,对数 据及其特性进行组织,而信息检索就是根据用户的信息需求,从大量的文档集中检索 出与用户信息需求相关的文档子集吐 3 1 1 文档表示 要正确地执行文档表示的任务,首先要将文档的有用信息输入计算机中,为此应 对文档进行科学的抽象,建立它的数学模型,用以描述和代替文档。用简单而准确的 方法将文档表示成计算机能够处理的形式是进行信息检索的基础。最经典的数学模型 是6 0 年代末s a l t o n 等人提出的v s m ( v e c t o rs p a c em o d e l ) 模型,也就是向量空间模型, 它成功地被用于著名的s m a r t 文档检索系统f 4 。在向量空间模型中,文档被抽象成 n 维欧氏空问中的向量,这个n 维欧氏空间也被称作n 维特征空i 司。向量的每维代 第三章榆索了系统的设计 基于企业协作信息网平台的信息检索系统的设计与实现 表该文档的一个特征,其值表示该特征项与文档相关的权重j 。 文档的特征应该具有以下特点:是能够对文档进行充分表示的语言单位;文档在 特征空间中的分布具有较明显的统计规律:特征的提取比较容易实现,计算复杂度不 太大。事实上,任何文档都可以看作是由最基本的语言符号所组成的字符串。西文文 档是出字母和标点组成的字符串,而中文文档是由汉字和标点组成的字符串。在中文 文档中,汉字是最基本的语言单位,词或短语是最小的具有语义的语言单位。字构成 词。词构成短语。因此在中文文档分类中可以采用字、词或短语作为文档的特征。另 外,在中文文档分类中也可以采用n g r a m 项作为文档的特征( 比如在“风力发电”一 词中,“风力”、“力发”、“发电”,“风力发”都可以称作n - g r a m 项) 。由于信息检索 有涉及面向语义的操作,而词或短语是最小的具有语义的语言单位,所以在中文信息 检索中常采用词作为文档的特征,这样,每一个特征项用词代表,称为特征词。 3 2 通用信息检索系统 信息检索系统包含信息组织和信息检索两大子系统,即文档集的创建和对文档集 的查询。信息检索系统通过文档集的逻辑组织和抽象来支持信息检索。如图3 1 所 示:。 一。一一。一。一一。 输 入 : 反馈操作 图3 1 典型的信息检索系统结构 输 出 娃十企业协作信息悯平台的信息检索系统的设计与实现第三章检索子系统的设谴 3 2 信息检索模型 信息检索系统的目标就是从纷繁复杂的大量信息中,筛选出符合用户需求的信 息。信息检索技术的研究方法分为基于统计和基于语义两大类别。基于统计的方法是 应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最 好的文档:而基于语义的方法则尝试对需求实现一定程度语法和语义的分析,即对用 户输入的自然语言文档进行一定程度的理解:并重新生成查询。目前信息检索模型主要 有:布尔模型( b o o l e a nm o d e l ) 、向量空间模型( v e c t o rs p a c em o d e l ) 以及概率模型 ( p r o b a b i l i s t i cm o d e l ) 等1 5 l ,如图3 2 所示,下面就目前使用较多的模型做出简单介 贸 。 3 2 。1 布尔模型 图3 2 信息检索模型分类 布尔模型( b o o l e a nm o d e l ) 是最简单的信息检索模型,用户可以根据检索项在文档 中的布尔逻辑关系提交查询,搜索引擎根据事先建立的倒排文件结构来确定查询结 果。这里的查询是由逻辑算子a n d ,o r ,n o t 连接若干“项目”( t e r m ) 构成的查询表 达式a 如:“飞碟”、“飞碟”a n d “美国”、“飞碟”a n d ( “中国”o r ( n o t “科幻小说”) ) 。 标准布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。 查询结果一股不进行相关性排序。如查询“计算机”,只要文档中出现关键间- t 计算机”, 则全部包含在查询结果中。很明显布尔模型的优点是简单、速度快、查询表达式易于 器一 ,。l 第二章检索予系统的设计基十企业协作信息嘲甲台的信息检索系统的设计与实现 掌握,缺点则是不够精确。不能反映不同“项目”对一个文档的重要程度的差异,而且 对于检索结果地位平等,无法排序【1 】o 3 2 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ) 是s a l t o n 等人在2 0 世纪6 0 年代术提出的,该 方法的基本思想要点是:将文档d 和查询q 都用向量表示( 该向量由特征项组成, 并以某种方式为其赋权值) ,如图3 3 所示。 图3 3 文档与查询的矢量表示 向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息,根 据向曩空间的相似性,排列查询结果。项是指用来表示文档的内容特征的基本语言单 位( 字、词、词组或短语等) ,文档可以用项的集合来表示。向量空间模型不仅可方 便地产生有效的查询结果,而且能提供相关文档的文摘,并进行查询结果分类,为用 户提供准确定位所需的信息。该方法的基本思想要点是:将文档d 和查询q 都用向 量表示;检索的过程就是计算文档向量与查询向量之间的相似度;根据相似度值的不 同,对检索结果进行排序;根据检索结果,进一步做出相关反馈( r e l e v a a c ef e e d b a c k ) 检索1 】1 4 】。显然,向量空间模型中特征项的选择和其权值的计算将是影响检索性能的 关键。 文档的向量空间表示( 如图3 4 所示) 皋十企业协作信息阔r 台的信息检索系统的设计与实现第三章捡索子系统的设计 d i d 2 d n t 1 w i ,1 w 1 2 w 1 ,n t 2 w 2 ,iw 2 ,2w 2 ,n t m w m 1w n 2w 。 文档文档 向量空间 图3 4 文档的向量空间表示 若有1 1 个项目( t e r m ) ,文档d i 就可以表示为一个n 维向量:w i ,j 表示文档d i 的第j 维的权值,即特征项权值( t e r mw e i g h t ) 。 计算向量之问的相似程度 向量间相似程度的度量方法有许多,可以采用取向量之间夹角余弦的方法。设查 i 旬n t q = ( q l ,吼,玩) ,文档向量d = “,嚷,砖) ,相似度计算公式如下: 鸟;xd , v s m 的把文档内容简化为特征项及其权值的向量表示,把对文档内容的处理简 化为向量空间中向量的运算,使问题的复杂性大大降低。但过多的简化会导致大量文 档结构信息的丢失,而这在自然语言中是至关重要的。此外在权值和相似度的计算中 也做了许多简化工作,对不同语言单位构成的项都只考虑其统计信息并采用统一的权 值计算方法,所以计算出的权值未必反映其真实的重要性吐 3 2 。3 概率模型 基于贝叶斯概率论原理的概率模型( p r o b a b i l i s t i cm o d e l ) 使用概率论的方法来解决 查询和文档间相关性度量的问题。此时信息检索问题即转化为求条件概率问题。给定 查询q ,该模型估计在文档集中的文档d j 和查询e 相关的概率,以此作为对结果文 档排序的标准。假定在文档集中存在一个文档子集r ,是查询e 的答案,也就是随, 1 7 絷二章检索了系统的设计 基十企业协作信息埘半台的信息检索系统的设计1 j 实现 垓文档子集中的文档和查询相关,而不在这个子集中的文档被认为是不相关的,它们 组成文档集k ,检索的过程可以看作是一个提供r 的描述的过程。检索初期作为查 询的描述是很不充分的,但经过一个不断重复的反馈过程,即用户在返回的文档集中 指定哪些是真j 下相关的文档,模型可以逐渐掌握足够的描述信息,可以较为准确的估 计相关文档的描述,从而为文档进行排序。简单来说,如果p r o b ( r l d i ,q ) p r o b ( n r i d ,q ) 那么d 是检索结果,否则不是检索结果。概率模型能够按照相关频率减少的顺序将结 果文档排序返回给用户,它的不足在于需要预先将文档分成相关的和不相关的两个文 档集,在查询不足的时候如此分类的实现具有主观性质,并且分类精度不高,从而造 成性能f 降【”。 3 2 4 潜在语义索引 经过多年的探索,人们发现通过将某个查询的语义信息与文档的语义信息进行匹 配可以提高查询的性能,即将自然语言处理技术引入信息检索领域嘲。其中比较容易 实现和应用的就是潜在语义索引( l a t e n ts e m a n t i ci n d e x i n g ) 技术。 潜在语义索引技术是一种被证实比在s a l t o n 的s m a r t 系统中使用的传统向量空 间技术性能更好的信息检索的向量空间技术。它首先从全部的文档集中生成一个特征 项一文档矩阵,该矩阵的每个分量为整数值,代表某个特定的特征项出现在某个特定 文档中次数。然后将该矩阵进行奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) , 较小的奇异值被剔除。结果奇异向量以及奇异值矩阵用于将文档向量和查询向量映射 到一个子空间中,在该空间中,来自特征项一文档矩阵的语义关系被保留,同时特征 项用法的变异被挪制。最后,可以通过标准化的内积计算来计算向量之间的夹角余弦 相似度,再将文档按与查询的相似度降序排列【7 1 。潜在语义索引的实现相对比较简单, 但其计算量却相对比较大,这也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论