




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义的信息检索方法研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江人学硕上学位论文摘要 摘要 信息检索的目的是从海量数据中找出符合用户需求的信息。在互联网应用 中,存在大量关于信息如何检索的需求,这些需求分布在各个应用中,这种情况 一方面导致大量冗余工作的产生,另一方面,由于传统关系数据库的局限性,造 成了信息检索效率过低和检索结果的查全率、查准率不高的问题。 针对以上问题,本文在查阅国内外最新文献和研究成果的基础上,对于信息 索引的可移植性提出了一种基于语义本体的可配置信息索引方法,对索引结构的 各项组成、属性约束进行分析,同时对分布式架构的组成和自适应调整过程进行 总结,通过本体技术对索引结构和分布式结构建立语义本体模型。同时对于提高 信息检索的查全率和查准率问题,本文将基于用户行为的查询扩展方法和基于词 频统计的查询扩展相结合,设计了一个基于w e b 语义的查询扩展结构。通过对索 引结构和分布式结构所建立的本体模型进行规则推演和应用,结果表明该方法具 有高度的可配置性和可扩展性。最后使用搜狗搜索引擎共享的查询日志和语料库 对基于w e b 语义的查询扩展方法进行实验和分析,结果表明该方法在查询语义扩 展、检索结果扩展以及查询结果的准确率上具有良好的性能。 关键词:语义,本体,信息索引,查询扩展 浙江大学硕士学位论文 a b s t r a c t t h ep u r p o s eo fi n f o r m a t i o nr e t r i e v a li st of i n dt h ei n f o r m a t i o nw h i c hm e e t st h e u s e r sd e m a n d sf r o mh u g ed a t a t h e r e r em a n yd e m a n d sa b o u tr e t r i e v a li n f o r m a t i o n f r o mh u g ed a t ai nt h ei n t e r n e ta p p l i c a t i o n s ,w h i c hd i s t r i b u t ei nv a r i o u sp r o j e c t sa n d r e s u l t e di nal a r g en u m b e ro fr e d u n d a n tw o r l ( s w h i l eb e c a u s eo ft h el i m i t a t i o n so f t r a d i t i o n a lr e l a t i o n a ld a t i v e ,r e t r i e v a li n f o r m a t i o nw i t hi tw i l lr e s u l ti ns o m e p r o b l e m ss u c h f i t sl o w e f f i c i e n c y , l o wr e c a l lr a t ea n dl o wp r e c i s i o n t os o l v et h ep r o b l e m sm e n t i o n e da b o v e ,t h i sp a p e rd e e p l ya n a l y z e st h el a t e s t l i t e r a t u r ea n dr e s e a r c hf i r s t ,t h e np r e s e n t sac o n f i g u r a b l ei n f o r m a t i o ni n d e xm e t h o d b a s e ds e m a n t i co n t o l o g y , w h i c ha n a l y z e st h ec o m p o n e n t s ,a t t r i b u t ec o n s t r a i n to f i n d e xs t r u c t u r ea n ds u m m a r i z e st h ec o m p o s i t i o na n da d a p t i v ea d j u s t m e n tp r o c e s so f t h ed i s t r i b u t e da r c h i t e c t u r e ,t h e ne s t a b l i s has e m a n t i co n t o l o g ym o d e lo fi n d e x s t r u c t u r ea n dd i s t r i b u t e da r c h i t e c t u r ew i t ho n t o l o g yt e c h n o l o g y a n di no r d e rt o i m p r o v et h e r e c a l lr a t ea n dp r e c i s i o nr a t eo fi n f o r m a t i o nr e t r i e v a l ,t h i sp a p e r s u m m a r i z e st h eq u e r ye x p a n s i o nm e t h o db a s e do nu s e rb e h a v i o ra n dw o r df r e q u e n c y , t h e nd e s i g naa r c h i t e c t u r eo fq u e r ye x p a n s i o nb a s e do nw e bs e m a n t i c s b y e x t r a p o l a t i n gr u l e st h eo n t o l o g ym o d e lo fi n d e xs t r u c t u r ea n dd i s t r i b u t e da r c h i t e c t u r e e s t a b l i s h e d ,t h er e s u l t ss h o wt h eh i g hd e g r e eo fc o n f i g u r a b i l i t ya n ds c a l a b i l i t yo ft h i s m e t h o d f i n a l l yt h ee x p e r i m e n ta n da n a l y s i so ft h eq u e r ye x p a n s i o nm e t h o db a s e do n w e bs e m a n t i cw i t hq u e r yl o g sa n ds e m a n t i cc o r p u ss h a r e db ys o g o us e a r c he n g i n e s h o w st h eg o o dp e r f o r m a n c eo ft h em e t h o da b o u tt h eq u e r ye x p a n s i o n ,t h ee x p a n s i o n a n da c c u r a c yo ft h er e t r i e v a lr e s u l t s k e y w o r d s :s e m a n t i c s ,o n t o l o g y , i n f o r m a t i o ni n d e x ,q u e r ye x p a n s i o n 浙江大学硕士学位论文图目录 图目录 图1 1s c h e m a 模式树3 图2 1 信息检索功能架构1 1 图2 2 核心引擎数据流程1 3 图2 3 倒排索引建立流程1 4 图2 - 4 传统分布式结构图1 7 图2 5 基于网络存储和可扩展体系结构的服务器系统2 0 图2 6 词语、文档以及概念之间的所属关系图2 2 图2 7 基于用户行为描述的主题模型2 3 图2 8 信息索引语义架构图2 4 图2 - 9 信息检索语义架构图2 5 图2 1 0l u c e n e 功能结构图2 6 图3 1 可配置信息检索整体架构2 8 图3 2 信息索引建立流程2 9 图3 3 新建域的详细流程3 0 图3 4 映射信息结构图31 图3 5 映射信息配置详细流程3l 图3 - 6 可配置的索引结构元本体3 3 图3 7 域配置模块语义映射模型3 5 图3 8 映射关系语义模型3 6 图3 - 9 自适应分布式结构3 7 图3 1 0 自适应分布式配置流程3 8 图3 11 白适应分布式配置数据流向图3 9 图3 1 2 配霄信息读取详细流程4 0 图3 1 3 数据写入详细流程4 2 图3 1 4 可配置的分布式结构元本体4 3 图3 1 5 分布式架构的语义映射模型4 5 图4 1 基于语义的查询扩展架构4 6 图4 2 查询扩展流程图4 7 图4 3 基于用户行为的查询扩展流程4 9 图4 4 查询候选项产生的详细流程图5 l 图5 1 域结构的类体系图5 3 图5 2 分布式架构的类结构5 4 图5 3 元本体牛成的规则5 5 图5 4 查询扩展的数量与检索的结果数量5 8 图5 5 查询扩展的数量与结果的前2 0 0 条信息准确率5 8 浙江大学硕十学位论文表目录 表目录 表2 1 简单的倒排结构表1 4 表5 1 基于用户行为的重要关键词项产生5 6 表5 2 基于词频的重要关键词项扩展5 7 l v 浙江大学硕士学位论文第1 章绪论 第1 章绪论 1 1 问题的提出 信息检索的目的,是根据人们的检索请求,从海量数据中查找出符合用户 需求的信息。在现代互联网项目中,随着项目包含信息量的爆炸式增长,存在着 大量关于信息如何检索的需求,这些需求分布在各个应用中,或者使用已有的关 系数据库实现,或者自行建立索引实现。例如在家具信息网络站点中,存在对家 具信息进行检索的系统,而在食品信息网络站点中,存在对食品信息进行检索的 系统,两套检索系统相互独立,互不干涉。 由于他们在技术上是属于同一种类型的需求,这种情况造成了两个主要问 题:一方面,造成了大量冗余工作的产生,例如在家具信息网络站点和食品信息 网络站点中需要信息检索系统时,需要进行重复开发,浪费了大量的人力物力; 另一方面,由于传统关系数据库的局限性,使用数据库来支持信息检索已经越来 越力不从心,突出表现为在海量数据上进行信息检索时效率过低问题和使用简单 的基于关键词匹配或者内容匹配等非智能化方式对信息进行检索而不能满足人 们对于信息准确率要求的问题,例如人们在输入“电脑”查询时,可能同时希望 得到计算机相关的信息等,因为“电脑”和“计算机 在语义上是等价的。 为了解决上述系统移植问题,s a b i n 等人乜1 和s t u m p t n e r 等人。订提出了可配置 化的思想,即在系统进行设计阶段,将其按照功能等因素,划分为独立的不同模 块,然后通过大量的可配置化方法,对模块进行组装。根据这个思想,可以将信 息检索系统分为索引结构模块和索引存储模块,当前对信息检索系统可配置化的 研究也主要集中在这两个方面。 由于互联网中信息十分庞杂,遍及各个行业,而不同行业对数据格式,信息 检索的字段属性、排序要求等都各具特点,所以信息索引必须在索引建立时,必 须对整个索引结构进行配置,使得信息索引可以在不同的数据格式和检索需求中 进行方便地移植。同时随着系统平台巾信息量的不断增长,单纯的单服务器信息 浙江大学硕十学位论文第l 章绪论 存储模式已经无法满足需求,于是便出现了分布式系统h 1 ,即利用独立计算机的 集合来存储数据。在信息索引中存储模块配置即是分布式结构的配置,是指在系 统上层视图中,底层分布式结构的任何变动,包括服务器根据需要进行动态增减 等,不会对上层的信息检索和索引功能产生影响。 而针对当前信息检索技术由非智能化导致检索结果在查全率和查准率不能 满足用户需求的问题,很多国内外的学者提出了语义搜索嵋1 的概念,即通过语义 w e b 1 技术,对当前搜索引擎所获得结果进行扩展和重排序,使之更加符合人们的 检索需求,最终实现基于语义的信息检索系统。虽然当前主流的搜索引擎在考虑 信息检索时或多或少地考虑了语义等因素的搜索结果的影响,例如g o o g l e 适应 p a g e r a n k 来构建w e b 连接结构,并在此基础上对用户的检索结果进行改进和优化, 但是这并不是真正意义上的语义搜索。当前很多国内外学者采用不同的方法和技 术对语义搜索进行了深入而广泛的研究,取得了不少有益的成果。文献口1 对语义 搜索研究所涉及到的方法进行了总结,其中包括:图理论、匹配算法、逻辑描述 等相关,而当前的研究主要集中在匹配算法上,通过对信息检索的用户行为、检 索语句以及结果集的分析和匹配,来达到符合用户需求的语义结果。 1 2 研究现状 对于信息检索系统中索引结构模块和索引存储模块的可配置化、语义搜索, 特别是可配置模块的组织形式、关系、约束以及语义搜索中的u r l 链接预测、页 面相似度比较、查询语义扩展等,当前已经有来自学院和工业界的人士做了许多 研究,并产生了不少成果。 1 2 1 可配置化方法研究 关于信息索引的可配置化方法研究,主要有面向对象的实体映射、基于 s c h e m a 描述的方法、基于规则的推理方法、基于实例的推理方法以及基于语义本 体的方法等。 面向对象的实体映射方法在h i b e r n a t e 以及a d o n e t 中运用十分广泛。这 浙江大学硕士学位论文第1 章绪论 种方法主要利用数据的抽象化处理,即通过定义严格的访问接口,来访问封装在 对象中的数据n 们,通过配置文件或者注释来对数据库表中的字段属性、约束关系 以及组成关系等建立关系模型n ,例如一对一关系、一对多关系、多对多关系、 新增约束、删除约束、更新约束等,并将这些关联在数据实体对象中进行映射, 下列代码是典型的h i b e r n a t e 实体映射配置。 在面向对象的实体映射方法中,映射模式主要关注两个方面的内容n 射,其一 是关于实体对象的模型建立,其二是关于实体间关系的模型建立,前者解决实体 对象与数据源实体问的映射关系,而后者主要解决对象之间的继承、聚合等关系。 然而这种面向对象的实体映射机制导致实体操作需要硬编码在程序中,当数据源 的数据结构有所改变时,实体对象也需要作相应的修改。这种频繁的修改将使得 数据源与实体对象间的字段语义失衡,使得程序人员难以理解实体对象相应字段 的真实含义,导致维护困难,影响程序的可扩展性和可移植性。 基于s c h e m a 描述的配置方法运用丰富的s c h e m a 信息来定义数据的结构、属 性等,使x m l 文档和对象实体问产生有效的关联3 ,川。在此基础上,出现了若干 个变种方法,包括基于函数依赖到关系模式的方法引,通过d t d 树将x m l 文档生 成一定层次结构的树模型,再通过特定函数,在树结构上生成依赖关系表;基于 x m l 中数据键的模式到关系模式规范的转换过程n 引,通过s c h e m a 信息寻找x m l 键 值,并对键值进行操作;基于对象关系模式的方法7 1 、信息保留算法n 踟等,图卜1 描述了一棵典型的s c h e m a 模式树。 s c h o o l c o u r s e 国c n o c n a m es t u d e n t t ,t s n 0 s n a m ec r e d i t g r a d e g u a r d i a n 图1 1s c h e m a 模式树 浙江大学硕上学位论文第l 章绪论 然而这种以s c h e m a 信息为中心的配置方法使得配置信息在网络间的交互变 得困难,因为实体对象在不同的服务器之间进行传输时,必须要共享相同版本的 s c h e m a 信息,才能正确理解彼此之间所蕴含的数据语义信息。为了解决这个问题, 很多人进行了研究,例如l d w e i b ,a a w a d i n 叫等人提出了一种非s c h e m a 描述的 配置方法,通过对x m l 文档中的结构树进行独立编码,每个树节点有自己特殊 的标志,使得在传输后直接从特殊标志中解读出节点所包含的数据语义。然而, 这种方法仅仅有效解决了树结构数据的语义编码和解码问题,现实中的数据结构 和关联、约束关系远比树状结构复杂得多,使得这种方法的运用和实现存在一定 的局限性。 基于规则的推理方法是专家系统中运用最广泛的方法,最典型最简单的例子 是x c o n 啪- 2 系统。在规则推理模式中,知识被分解描述成一系列的规则,它的一 般表现形式为: i f 条件成立 t h e n 结论l e l s e t h e n 结论2 基于规则的推理方法首先需要根据系统中所包含的各类关联和约束,配置出 规则库,然后根据不同的条件,在规则库中进行匹配,若有规则匹配成功,则导 出该规则所推理出的结论。由于传统的规则推理方法需要规则具有全面性和确定 性的特点,存在一定的局限性,所以在此基础上,发展出了基于模糊匹配的规则 推理方法等,以泛逻辑学瞳羽为基础,对人类的思维过程进行柔性描述,从而配置 模糊规则,并且在理论和应用方面都取得了不错的进展。在泛逻辑学基础上产生 的模糊规则推理方法最大的优点在于,将离散的条件和离散的结论分别连续化, 即如果两个模糊条件在语义上相差不大,那么他们的相应结论也应该是相差不 大,那么可以将这两个条件和两个结论分别看做是连续的,主要的成果有 i p e r f i1i e v a 心3 等对i f - t t t e n 模糊规则的连续性模型。 然而规则的难以维护性使得该方法无法在大规模的复杂系统中得到运用,对 4 浙江人学硕士学位论文第l 章绪论 于规则的更新,特别是规则的增加和修改,需要将增加或者修改的规则与规则库 中所有的规则以及相应的规则串进行匹配,判断其存在的冲突,这将导致规则库 的运行存在高资源耗费和低系统运行效率问题。 基于实例推理的方法是目前较多研究和解决人工智能的方法之一,它跟基于 规则的推理方法的最大不同之处在于,基于实例的推理是一种基于相似度比较的 相似或者类比的推理方法。在基于实例的推理方法中,首先将人们的行为或者经 验分割成独立的实例,然后建立大规模的产品实例库。当对新问题进行求解时, 首先在实例库中对实例进行搜索,然后通过相似度计算将相似的产品实例推荐给 用户并进行选择心4 5 1 ,如果推荐的实例不符合用户的要求,可以将实例进行适当 的修改,然后将修改后的新实例存到实例库中。这涉及到该方法的两个重要方面 汹1 ,其一是实例库的维护,包括实例的表示、实例的检索、实例的修改和存储; 其二是产品实例相似度的计算方法。 然而基于实例推理的方法在理论上存在一定的缺陷,包括实例的表示方式、 修改方式等都缺乏理论基础,而且实例的相似度计算直接决定了实例推理方法结 果的准确性,而相似度计算方法依赖于实例的表示方式,所以具有很大的不确定 性和不稳定性。另外基于实例的推理方法需要人工对推荐实例进行甄别、修改以 及确定,这种无法自动完成的可配置化过程显然在应用上存在很大的局限性,特 别是对那些要求能自动并且精确自我调整的系统 随着语义本体心7 1 的不断发展,越来越多的人开始采用本体技术来研究产品的 可配置性。本体的概念最初来自于哲学,而在人工智能界,由n e c h e s 等人最早 给出本体的定义:给出构成相关领域词汇的基本属于和关系,以及利用这些属于 和关系构成的规定这些词汇外延的规则的定义,即定义了组成芋题领域的词汇表 的基本术语及其关系,以及结合这些属于和关系来定义词汇表外延的规则。 当前很多国内外学者对基于本体的可配置化方法进行了研究,例如y i s h a i 心引 等人摹于本体知识方法设计的d i n n e r 工具,能通过对关系数据库表内字段的语 义分析,自动推荐基于第一主键和第二主键建立索引。s o in in e n 比圳等人则在可配 置的产品本体中定义了约束( c o n s t r a i n t ) 、属性( a t t r i b u t e ) 等各类组成,并通 浙江大学硕+ 学位论文第l 章绪论 过这些定义对产品本体进行配置。而z h a n g 啪1 等人在基于产品配置的本体中,继 续定义了组件( c o m p o n e n t ) 、资源( r e s o u r c e ) 、端口( p o r t ) 以及功能( f u n c t i o n ) 等。但是这些定义过于分散,d o n g 口妇等人基于这些已有的定义,对产品可配置性 本体进行总结,提出了基于本体技术的产品可配置的四层结构,即实例层、模型 层、元模型层和描述层,通过在元模型层对产品的可配置性建立元本体 ( m e t a o n t o l o g y ) 模型来实现基于本体方法的可配置模型。而x i a n g j u n 2 1 等人更 是基于多本体系统,通过为配置过程建立本体,对分布式结构的调整过程进行分 析和建模。虽然已经有很多人利用本体技术,或者对推荐索引建立、或者对分布 式调整过程、或者对抽象的产品配置等做了很多研究,但是还没有对信息索引的 整体可配置性进行系统研究并建立模型。本文所采用的关于信息索引和索引存储 可配置化方面的研究,主要运用语义本体技术并建立模型。 1 2 2 语义搜索研究 为了优化信息检索的效果,提高信息检索满足用户检索需求的能力,当前也 有很多学者对检索优化进行了研究,主要包括基于用户行为的信息推荐、基于相 似度计算的信息推荐以及基于语义的查询扩展方法等。 网络用户在互联网络中的访问行为取决于他的兴趣和爱好,看似毫无规律, 但是多个不同用户的信息访问行为通常存在某种相似性和共性,表现为一种网络 的群体行为。用户的行为分析包括用户浏览的页面数、访问链接的顺序、访问链 接的时间、在不同链接上停留的时间等,表现为用户黏度的分析、用户属性的分 析、用户对相应内容页面感兴趣程度的分析等。 基于用户行为的推荐技术主要分为两大类: 1 、基于用户行为的u r l 预测:通过对用户访问过的u r l 的顺序、停留时i 白j 等总结,运用贝叶斯网络、马尔可夫链等概率计算模型,对用户下一次访问的u r l 链接进行预测,推荐可能性最高的链接给用户。这种方法对用户的身份和行为属 性要求较高,而且需要对历史u r l 进行总结、分类和聚类,而当日订针对这方面的 研究也很多,例如z u k e r m a n 。”等人提出的基于齐次离散m a r k o v 链,通过转移矩 6 浙江大学硕士学位论文第1 章绪论 阵对描述用户的浏览特征进行预测的方法;b o e r g e s 嘲1 等人再次基础上提出的采 用多阶矩阵,提高预测的准确率的方法等。而马少平口铂等人结合他们的方法,提 出了多m a r k o v 链用户浏览预测模型,通过对用户类别的定义,在预测u r l 时首 先对用户所有的类别进行判断,然后再根据判断概率对该类别中的u r l 预测进行 加权,修正了传统预测模型中对用户兴趣不加区分的局限性,极大提高了预测的 准确率。 2 、基于用户行为的信息推荐:一个用户对于跟他有相同或者相似爱好的人购 买过的商品、浏览过的信息,通常也比其他商品、信息更感兴趣,这就是基于用 户行为的信息推荐基础。在基于用户行为的信息推荐方法中,一般分为三个步骤 。驯:1 ) 根据购买商品或者浏览信息等行为,聚类出最相似的k 个用户;2 ) 计算 这些用户浏览过的信息的u r l 集合,并根据这些信息的重要性,赋予每个u r l 一个基础权重;3 ) 从u r l 集合中找出权重值最大的信息推荐给其他用户。对于 相似用户的聚类以及信息权重的计算方法是基于用户行为推荐方法的核心部分, 通常将用户使用浏览过的信息向量表示,通过计算不同用户向量的c o s 或者s i n 值来比较用户的相似度;而信息的权重则通过k 个用户浏览的频率进行计算。 基于相似度计算的推荐技术是指通过计算,将相似度较高的信息进行聚类并 且排序,当用户访问其中的一条信息时,同时向用户推荐跟这条信息最相似的其 他信息。基于相似度计算的技术可分为三大类。盯1 ,分别为:基于词汇选择的相似 度计算;基于词频的相关性计算以及基于概率的相关性计算。但是这些传统的相 似度计算方法中缺乏语义含义,所以很多学者对他们进行了完善。例如文献。州在 词汇相似度计算的基础上,对词汇进行集聚预处理,及通过对词汇的回指、省略、 链接以及语义联系等手段,使词汇结合成一条完整的语句,然后对语句链进行相 似度计算。由于相邻的词汇往往具有相关性,这些相关词汇的有序集合所组成的 语句链之间具有一定的凝聚力,比单纯的词汇向量相似度计算具有更高的精确 度。文献。州则通过词聚类的方法生成科一子词,并使用种子词来计算文档的相似度。 词聚类主要有三种方法:两个词首位小h ) j h ,获得一个新的词汇;将词汇的上位抽 取出来,作为一个新的词汇:通过现有的词汇集,将意义相近的词汇整合成词聚 浙江大学硕上学位论文第l 章绪论 类,作为新词汇。这些通过在相似度计算中增加不同因素的方法,极大提高了信 息相似度计算的准确度。 基于语义的查询扩展技术主要是指利用语言学、概率学等多种学科及技术, 通过对用户原始查询进行分析和提取,抽取出用户潜在的查询,并将这些潜在的 查询与原查询合并获得一个新的查询,使得信息检索结果更加全面准确和满足用 户的查询需求,这其中的核心是用户潜在查询如何抽取的问题。传统的查询扩展 技术h 叫2 3 包括用户查询同志分析、文档相关性分析以及基于关联规则的查询扩展 方法。用户查询日志分析是指通过用户的历史访问记录,抽取出用户的兴趣点, 在用户进行新查询时,使用这些总结出来的兴趣向量对查询进行扩展。例如一个 喜欢体育的人,在他查询“火箭”时,可能会将他的查询扩展为“火箭n b a 姚 明 等。文档相关性分析则是分析搜索引擎抓取的所有文档,对在同一个文档中 出现的词汇进行分析,例如“电脑”与“计算机”经常在同一个文档中出现,则 将“电脑”与“计算机”归结为同一语义,在用户查询“电脑”时,将查询扩展 为“电脑计算机”。而基于关联规则的查询扩展则类似于基于用户行为的相似度 计算方法,通过对不同用户的浏览记录进行聚类,若用户输入不同的查询,但是 访问的链接具有很高的重叠性,则他们的这些查询具有语义相似性,可以将它们 进行组合扩展。 而随着w i k i p e d i a 、百科等外部知识库的出现,越来越多的学者开始利用这 些外部源来对用户的查询进行扩展,本文主要将这基于用户行为和基于词频的方 法相结合,在基于用户行为的查询方法产生关键词项基础上,应用外部源等本体 库对关键词项进行进一步的语义扩展。 i 3 本文的主要工作和组织结构 1 3 1 研究内容 本论文参考国内外各类文献和研究成果,围绕信息检索系统中的信息索引和 语义搜索功能,丌展研究基于语义的信息索引方法、分布式技术以及查询扩展技 浙江大学硕士学位论文第l 章绪论 术: 在分析当前主流的信息索引方法及其组成要素的基础上,利用语义本体 对信息索引过程建立模型,实现信息索引在多数据源条件下和不同数据 结构、不同行业间的可移植性。 在分析当前主流的分布式结构以及优点和缺点的基础上,利用语义本体 建立自适应的分布式架构模型,实现分布式架构与分布式系统的松耦合, 在分布式架构进行动态调整时,不影响分布式系统的服务提供。 在深入分析当前基于用户行为和基于外部源对查询进行语义扩展的方 法、架构以及流程的基础上,对这两种方法进行整合改进,优化对查询 的语义扩展,使信息检索系统的检索结果在查全率和查准率方面更加全 面,更加符合用户的检索需求。 1 3 2 组织结构 本论文共分为六章,后续章节组织结构如下: 第二章:介绍基于语义的信息检索方法的总体架构、流程,阐述系统的关键 技术,包括可配置的信息索引方法、自适应分布式技术以及基于w e 语义的查询 扩展技术,同时对信息检索系统的语义架构进行描述。由于信息检索系统的底层 使用l u c e n e 进行索引的组织和管理,所以在最后简要介绍了l u c e n e 的结构和功 能模块。 第三章:在讨论可配置信息索引技术和分布式技术的基础上,提出了一个基 于语义的可配置信息索引方法,通过分析信息索引和分布式架构的流程,通过本 体技术对索引结构和分布式架构建立模型,实现了信息索引的可移植性和分布式 架构的自适应调整。 第四章:提出了基于语义的查询扩展方法的整体架构,分析方法的详细流程, 名对架构的功能模块、子流程以及详细方法等进行阐述。 第五章:在p r o t 6 9 6 中对信息索引和分布式架构的语义本体建立模型并生成 规则,然后通过规则引擎对系统进行实现和测试。同时使用新闻语料库,对基于 浙江大学硕士学位论文第l 章绪论 外部源的查询扩展框架进行测试和比较。 第六章:对目前的研究工作进行总结,并指出需要进一步改进和完善的地方, 同时指出今后的研究方向。 1 4 本章小结 本文首先指出了信息检索系统移植性以及语义搜索的重要性和本文所要研 究的问题,即可配置的信息索引和基于语义的查询扩展问题。接着详细介绍了国 内外在该领域的研究现状,并对各个方法作了评价。最后介绍了本文要做的主要 工作和组织结构。 1 0 浙江大学硕士学位论文第2 章基于语义的信息榆索总体架构 第2 章基于语义的信息检索总体架构 2 1 信息检索架构 图2 1 描述了一个完整的信息检索架构,可分为两部分:信息索引和信息检索。 其中信息索引部分从数据源获取原始信息,并建立索引,而信息检索部分则接收 用户的查询请求,将查询请求进行解析并封装成查询器,然后在索引上进行查询 并返回查询结果。 x m l 等文档:j 数据库等数据源 。一。 一h h 一一- _ 。- 。一 一。 数据搜集和录入系统 图2 - 1 信息检索功能架构 架构的中f u j 为核心引擎部分,其中 1 、 数据封装与分发模块和信息索引配置模块组成了信息的语义索引模 块,其中信息索引配置模块保存和维护信息索引结构、分布式集群结 构的本体和舰则信息,数据封装与分发模块通过使用这些信息,对外 部数据源进行识别和封装,并将索引信息发送到指定的集群中建立索 浙江大学硕上学位论文第2 章基于语义的信息检索总体架构 引; 2 、 数据索引( 或数据更新) 模块和查询模块( 即时数据) ,主要负责对索 引文件的底层访问,其中前者为底层的信息索引系统提供调用接口, 将分发和封装模块产生信息包保存为索引文件,而后者则为上层信息 检索服务系统提供调用接口,根据查询包读取索引文件中的信息,在 本系统中使用开源信息检索包l u c e n e 对索引文件进行组织和访问; 3 、 信息检索配置模块和查询扩展模块组成了信息的语义检索模块,其中 检索配置模块主要对信息检索的w e b 语义库进行组织和管理,包括用户 检索同志、外部源本体库等,当查询扩展模块在获取用户查询请求后, 通过访问w e b 语义库,生成一系列的候选查询项并进行评估,生成最终 的扩展查询,然后封装成查询器进行信息检索。 4 、 监控服务模块,主要对系统的运行状态、索引信息状态等进行监控。 5 、 语义本体模块,主要存放各类语义信息,包括查询扩展w e b 语义库、信 息索引结构本体库以及分布式架构本体库等,对这些语义信息进行组 织和管理。 架构的最上层和最下层为信息检索和数据录入部分,调用核心引擎提供的信 息索引接口和信息检索接口,以规范化的命令格式提供对信息建立索引和对用户 请求进行查询。另外,在视图的最右边,我们定义了查询语句标准和数据录入格 式标准,以统一用户使用规范。 架构的最左边为服务配置部分,是整个系统的配置管理模块,为系统用户提 供一系列的配置功能,包括对索引结构本体、分布式架构本体、查询扩展的相关 属性以及w 曲语义库等。 信息检索系统核心引擎的实现了信息索引和检索的核心功能,其中信息索引 的流程为: l 、用户输入索引命令。 2 、数据索引模块解析命令,从语义构建模块获取相关的索引信息和数据源信 息,访问数掘源,获得原始数据。 浙江大学硕十学位论文 第2 章基于语义的信息检索总体架构 3 、将原始数据进行分词,然后根据语义构建模块对索引数据的格式进行封 装,并分发到索引集群中。 信息检索的流程为: 1 、用户输入查询请求。 2 、查询模块解析查询请求,从语义构建模块对查询进行扩展并生成结果排序 向量,然后根据完成扩展的查询生成查询器。 3 、使用查询器在索引集群中进行信息检索,并通过排序向量对结果进行评分 和排序,然后生成查询结果返回给用户。 图2 2 描述了整个信息索引和检索的数据流程。 幽2 - 2 核心引擎数据流程 2 2 基于语义信息检索的关键技术 2 2 1 可配置的信息索引方法 随着数据量的不断增加,传统的使用数据库表进行信息顺序查找的方法已经 越来越不能满足人们对于信息检索在性能上的要求,这个时候就出现了索引。索 引的主要优点有以下几个: 1 、 索引技术通过各种方法优化信息检索的速度,这是建立索引的最主 要的原因; 2 、 通过索引可以对信息进行分组、多级排序以及配置不同的信息过滤 器,增加信息的组合样式,满足不同用户对信息多样化组合与排序 浙江大学硕十学位论文 第2 章基于语义的信息检索总体架构 的要求。 3 、 可以通过索引对信息的查询过程进行优化组合,极大提高系统的性 能。 索引按照文件的组织结构,可分为动态索引结构和静态索引结构,其中动态 索引结构以树结构为主,包括b 树结构、m 路动态搜索树以及r 树等,而静态索 引结构则包括线性索引、h a s h 和散列索引和倒排索引等,其中倒排索引是当前主 流搜索引擎所采用的基本索引方式。 倒排索引不但可以应用于结构化的信息索引,也可以应用于非结构化的信息 索引,所以被搜索引擎广泛应用于对网页内容建立索引。图2 3 描述了使用倒排 索引的方式对文档集合建立索引的流程: 协合吲对嚣行副对觜行专 统计词汇及 剖壮驴索 其在文档中 的属性 图2 - 3 倒排索引建立流程 假定文档集合中存在f i l e l 、f i l e 2 、f i l e 3 以及f i l e 4 这四个文档,分别含有词汇 a 、b 、c 、d 、c ) 、 b 、c 、f 、b ) 、 a 、c 、e 、a ) 、 c 、g 、h ) ,首先对四 个文档分别编号为# 9 6 0 0 1 、# 9 6 0 0 2 、# 9 6 0 0 3 、# 9 6 0 0 1 ,然后运用分词器进行分词, 获得关键词集合a 、b 、c 、d 、e 、f 、g 、h ,并对这些关键词在文档中的词频、 位置等信息进行统计,可以获得这四个文件的倒排表结构。表2 1 描述了倒排结 构表。 表2 1 简单的倒排结构表 关键词倒排表信息( 文档编号、词频、位置) a ( # 9 6 0 0 1 ,1 ,1 ) ;( # 9 6 0 0 3 ,2 ,1 ,4 ) b ( # 9 6 0 0 1 ,1 ,2 ) ;( # 9 6 0 0 2 ,2 ,1 ,4 ) c ( # 9 6 0 0 1 ,2 ,3 ,5 ) ;( # 9 6 0 0 2 ,1 ,2 ) ;( # 9 6 0 0 3 ,1 ,2 ) ; ( # 9 6 0 0 4 ,1 ,1 ) d ( # 9 6 0 0 1 ,1 ,4 ) 1 4 浙江大学硕士学位论文第2 章基于语义的信息检索总体架构 续表2 1 e ( # 9 6 0 0 3 ,1 ,3 ) f ( # 9 6 0 0 3 ,1 ,3 ) g ( # 9 6 0 0 4 ,1 ,2 ) h ( # 9 6 0 0 1 ,1 ,3 ) 当关键词过多,导致倒排表过大时,通常采用b + 树等方法,对关键词建立再 次索引,来增加检索的效率。同时,使用基于倒排表的信息检索方法,在对倒排 表进行集合运算时需要一定的运算空间,同时当新增或者删除倒排信息时,因为 倒排文件比较大,往往需要消耗大量的资源。 目前信息检索系统缺乏可配置性,对数据库和网络上的海量数据索引造成了 很大的不方便,无法对一个系统进行自定义配置。系统的各种域结构以及面向的 需要建立索引的数据结构往往固化在整个系统中,在系统的开发阶段,由程序员 根据特定用户的特定需求,固化在程序中,整个系统只能针对某一个领域中的某 一种特定的数据结构建立索引,使得系统缺乏灵活性。 信息索引的可配置包括域信息以及从数据库到索引域信息的映射。域信息指 的是信息结构相同或者相似的一类信息的结合,比如所有的新闻信息组成新闻 域,所有招商信息组成的招商域。用户配置就要实现可以根据需要方便地进行域 信息的增加、查看和删除等配置;映射信息指的是用户将自己已有的数据库字段 和域中的字段进行映射,以便对这些数据库内的数据建立索引并进行检索,映射 信息的配置包括映射信息的增加和删除等配置操作,在映射配置的基础上进行信 息检索索引的建立。 对于基于配置的信息索引方法目自订已经有一定程度的研究,例如网络文摘配 置搜索引擎提出了提出了一种以关键字和链主题目录的形式,在一定程度上实现 了域信息结构的配置功能。通过以过滤器的形式,对网络上抓取的页面进行关键 词过滤以及链主题目录过滤,将符合特定范围的网页信息进行存储。但是这种方 法只针对于网络上抓取的网页信息,并且只是种简陋的信息分类,相对来讲, 浙江大学硕上学位论文第2 章基于语义的信息检索总体架构 域结构信息具有很强的结构性和类别别性。不同于简单的关键词和链主题目录, 域结构信息对数据进行结构化分析,产生不同的域字段以及各种字段格式,然后 在建立索引的过程中,对不同的域以及域中的字段,建立不同的索引。 用于配置搜索结果的系统和方法与网络文摘配置搜索引擎方法类似,不同点 在于,前者根据网络上抓取的网页内容以及这些内容的关键词匹配和链主题目录 形式进行分类配置,而这种方法则在用户检索以及搜索引擎之间增加了一个配置 层。即在用户输入特定的查询时,首先读取用户的一些自定义的配置参数,然后 根据这些自定义的参数对用户的查询语句过滤以及处理,再将这些处理后的查询 语句提交到搜索引擎,并获取搜索引擎的检索结果。 虽然以上两种方法在一定程度上提出了配置的想法,但是主要存在一下不 足: 1 、两种方法的配置概念过于简陋,或者仅仅依据用户的关键词进行匹配过 滤,或者通过其他的一些配置编码。这种程度的配置只适用于对检索过程中结果 的一些简单处理,使得检索到的结果适当地接近用户的需求。 2 、这两种方法的配置着眼点都聚集在用户的检索过程中,都只是在用户针 对通用信息( 包含各种新闻信息、人才信息等其他信息的数据仓库) 进行检索时, 加入一些必要的自定义配置信息,进行结果过滤,而没有涉及到在建立索引过程 中对通用信息的分类配置。 针对以上不足,本文提出了一种更加灵活、完善的基于语义的可配置索引建 立方法,针对现有配置方法的不足,增加了建立索引过程中关于域信息结构的配 置以及从不同数据库结构到同一个域结构的映射信息配置,在不影响检索系统安 全性和效率的自订提下,增加了检索系统的通用性和可适用范围,实现了索引过程 中的高度可配置化。 2 2 2 自适应分布式技术 随着计算机网络的发展,用户对网络系统的透明性要求同益增强,进而出现 了分布式计算环境概念。事实已经证明,分布式系统在许多方而,如资源共享、 1 6 浙江大学硕士学位论文第2 章基于语义的信息检索总体架构 高可用性及并行处理和通信等方面优于独立主机系统。在信息检索领域,特别是 网络信息检索领域,些采用集中式方式网络信息检索系统,当负载增大时,用 户的查询请求往往难以得到及时响应。为此,采用分布式信息方式,构建分布式 信息检索系统,可以在一定程度上解决所面临的问题。同时,由于信息资源建设 任务的庞大和繁重,很多检索系统只能独立完成某领域或某方面的资源建设工 作,但用户却往往需要全面的资源服务。而分布式检索系统可以提供一种整合不 同信息资源,提供集成信息服务的可能。即在信息资源分散建设的环境下,提供 集成的、全面的信息服务。 目前各种分布式系统的模式包括:分布式数据( 客户i n 务器系统) 、分层式处 理、分散的分布式网络等。传统的分布式系统实现了数据的分流,但是分布式结 构固化在分布式系统中,并且系统中各个服务器的数据不存在冗余,在这种情况 下当某一台服务器出错时,虽然系统仍能正常运行,但是会确实一些数据,使运 行结果的精确度有所影响。图2 4 描述了传统的分布式结构图: 客户端 幽 元信息j i l t 务掰 冗1 u i 间 兀f _ 息服务器 图2 4 传统分布式结构图 其中元信息服务器存放数据信息以及定义各种信息操作,负载服务器负责接 受客户端的操作,调整元信息服务器之i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 诊所电子设备管理制度
- 试剂耗材分级管理制度
- 财务结账流程管理制度
- 财富管理中心管理制度
- 货架仓库安全管理制度
- 货物验收流程管理制度
- 货运签收单据管理制度
- 应急通道协议书范本
- 服装代工合同协议书范本
- 劳务担保协议书范本
- 二年级下册数学教案 《生活中的大数》练习课 北师大版
- GB∕T 16762-2020 一般用途钢丝绳吊索特性和技术条件
- 电网施工作业票模板
- 精选天津市初中地理会考试卷及答案
- T∕CAEPI 31-2021 旋转式沸石吸附浓缩装置技术要求
- 国家级高技能人才培训基地建设项目实施管理办法
- 彩盒成品检验标准
- 落地单排脚手架
- 高层购物中心AAC墙体板材施工方案
- 人教精通版小学英语五年级下册期末测试
- 《活板》综合练习
评论
0/150
提交评论