已阅读5页,还剩110页未读, 继续免费阅读
(通信与信息系统专业论文)语义检索中若干关键问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学博t 学位论文 摘要 语义检索中若干关键问题的研究 摘要 信息爆炸是当今信息社会的一大特点,当前信息检索技术面临着i n t e m e t 网络 信息更新越来越快,用户检索结果要求越来越精确的严重挑战,如何有效的找到所 需信息因而成为了一个关键问题,语义检索是解决这一问题的非常有潜力的方法。 在语义万维网兴起以及相关理论和技术成熟的共同作用下,语义检索己成为近来的 一个快速发展的新兴的研究课题。本文对语义检索中若干关键问题进行了研究,论 文的主要工作包括以下内容: 1 席文以查询关键字词义特性和本体实例之间语义关联强弱分析为切入点,提 出了一种综合词义关系和语义关联分析的查询目标分析方法,提高了查询关键字到 本体概念映射的完整性和准确性,帮助搜索引擎有效的确定用户的查询目标,解决 了传统搜索引擎不能很好理解用户意图的问题。 2 判定概念实体之间的语义相似度是语义检索技术中的一个重要问题。本文综 合考虑实例多重继承关系、属性及属性值的层次关系,提出了一种语义相似度计算 方法,并利用继承关系的树状结构特点对语义相似度的计算过程进行了优化。实验 表明本文提出的算法,在本体知识库的多种组成情况下,均能够有效的提高相似度 计算的准确率。在实例多重继承关系相对复杂的情况下,准确率提高更加明显。 3 本文对如何满足不同用户的个性化查询需求进行了研究,提出了一种基于语 义关联的用户偏好分析方法。该方法能够显式和隐式地获取用户兴趣,通过网页归 类,将用户对网页的偏好转化为对本体知识库中实例的偏好,借助本体实例之间语 义关联的推理,实现用户偏好的扩散,发现隐含的用户偏好。在建立用户偏好模型 过程中,该方法综合了时问因素,可以对查询发生时用户对网页的关注情况做出准 确预测。在该偏好学习方法的基础上,我们实现了相应的查询优化系统和查询扩展 系统,实验表明,本文提出的方法可以有效的发现用户偏好,提高查询的准确率。 4 如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究 的重要方向。本文中提出了一种基于知识推理的信息检索方法,综合了描述逻辑推 理能力和传统搜索引擎技术。该方法以描述逻辑形式表达用户查询需求,依赖传统 搜索引擎召回可能相关的网页,通过模糊描述逻辑推理判断网页与用户查询需求的 相关性。实验表明,本文提出的方法可以显著的提高搜索引擎的查询效果。 北京邮电大学博上学位论文摘要 5 介绍了本文的研究工作在“综合信息服务系统”原型中的应用,提出了一 种整合语义检索技术、坐席服务技术和位置服务技术的新的综合信息服务提供方 法,弥补了传统的坐席服务技术和信息检索技术各自的局限性。 关键词:信息检索:查询优化:语义关联;语义网:语义相似;本体;个性化; 查询扩展;用户偏好记录;知识推理;模糊描述逻辑 r e s e a r c ho ns e m a n t i cs e a r c ha n dr e l a t e dt e c h n o l o g y i nc l n t e n tc 跫n m r y , h o wt oa d _ i i c v eu s 曲l li n f o r m a t i o nf o rt h eu s c i sf r o mh u g em o u n t o fi n f o r m a t i o ni s0 1 1 1 eo ft h em a i np r o b l e m sc o n f r o n t e dw i t hp e o p l e , a n ds e m a n t i cs e a r c h i sa h o p e f i l lw a yt os o l v ei lt h er i s i n go ft h es e m a n t i cw e ba n dt h em a t u r i n go fr e l a t e d t h e o r ya n dt e c h n o l o g i e s ,t o g e t h e rd r i v et h er a p i d l y - d e v e l o p i n gs e m a n t i cs e a r c hr e s e a r c h a r e a s e v e r a lk e yp r o b l e m si ns e m a n t i cs e a r c hd o m a i na r ea d d r e s s e di nt h i sd i s s e r t a t i o n , a n do u rw o r ki nt h i sd i s s e r t a t i o nc a nb ed i v i d e di n t ot h e f o l l o w i n gp a r t s i d i 如c nb yt h ea n a l y z i n gt h es y n o n y m i cc h a r a c t e r i s t i co ft h ek e yw o r d sa n dt h e i n t e n s i t yo fs e m a n t i ca s s o c i a t i o na m o n gt h eo n t o l o g yi n s t a n c e s , w ep r o v i d eau s e r s i n t e n t i o na n a l y s i ss e h c m e , w h i c hs y n t h e s i z e st h es y n o n y m i cr e l a t i o na n dt h es e m a n t i c a s s o c i a t i o n t h em e t h o dc a ni m p r o v et h ea o e u r a c ya n dc o m p l e t e n e s so ft h em a p p i n g f r o mk e yw o r dt oo n t o l o g ye n t i t i e s , i n f e rt h eu s e r si n t e n t 2 d e t e r m i n i n gt h es e m a n t i cs i m i l a r i t yi sa ni m p o r t a n ti s s u ei nt h ed e v e l o p m e n to f s e m a n t i cs e a r c ht e c h n o l o g y as c h e m ew a s p r e s e n t e dt oc a l c u l a t et h es e m a n t i cs i m i l a r i t y , w h i c ht o o km u l t i i n h e r i t a n c eo fe n t i t i e s ,h i e r a r c h i c a ls t r u c t u r eo ft h ep r o p e r t i e sa n d p r o p e r t yv a l u e si n t oc o n s i d e r a t i o n , a n dt h e no p t i m i z e dt h ec o m p u t i n gp r o c e s sb a s e do i l t h et r e es t l - u c l u r eo fi n h e r i t a n c er e l a t i o n s h i p t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h e s c h e m ec a l lc a l c u l a t es e m a n t i cs i m i l a r i t ym o r ep r e c i s e l y 3 u s e rp r o f i l e s , d e s c r i p t i o n so fu s e ri n t e r e s t s 啪b eu s e db ys e a r c he n g i n e st o p r o v i d ep e r s o n a l i z e ds e a r c hr e s u l t s au s e rp r o f i l e sa n a l y z i n gm e t h o db a s e do ns e m a n t i c a s s o c i a t i o ni sp r e s e n t e d t h i sm e t h o d 髓i 璐t h ee s e i 篙i n t e r e s t sb yt h ei m p f i d tm e t h o d s a n de x p f i c i tm e t h o d s ,a n dc r e a t e si l t 鸵l p r o f i l e s b yc l a s s i f y i n gu s e r s i n t e r e s t si n t o i n s t a n c e si na l lo n t o l o g yk n o w l e d g eb a s e ,a n dt h e np r o p a g a t e su s e rp r e f e r e n c e st of i n d u 辩略l a t e n ti n t e r e s t sb ya n a l y z i n gt h es e m a n t i ca s s o c i a t i o na m o n gt h eo n t o l o g yi n s t a n c e s i t i n t e g r a t e su s e r s e u r r c n ta n dh i s t o r yp r e f e r e n c e st op r o c e s st h es e a r c hr e s u l t s t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tu s e 幅l a t e n tp r e f e r e n c e sc a r lb el e a r n e da c c u r a t e l ya n d p e r s o n a l i z e ds e a r c hb a s e do nu s e rp r e f e r e n c ey i e l d ss i g n i f i c a n ti m p r o v e m e n t so v e rt h e o d g i n a lr e s u l t s 4 a st h ec o m p e t i t i o no fw e bs e a r c hm a r k e ti n c r e a s e s , t h e r ei sa h i g hd e m a n df o r a c c u r a t e l y j u d g i n gt h er e l a t i o n sb e t w e e n t h ew e b p a g e sa n d t h eu s e r sr e q u i r e m e n t i nt h i s p a p e r , w ep r o p o s ea l l i n f o r m a t i o nr e t r i e v a lm e t h o dt h a tt i g h t l yi n t e g r a t e sd e s c r i p t i o nl o g i c r e a s o n i n ga n dt r a d i t i o n a li n f o r m a t i o nr e t r i e v a lt e c h n i q u e t h em e t h o de x p r e s s e st h e u s e r ss e a r c hi n t e n t i o nb yd e s c r i p t i o nl o g i ct oi n f e rt h eu s e r ss e a r c h 州e c t ,a n ds e l e c t s h i g h - q e a t i t yk e y w o r d sa c c o r d i n gt ot h es e m a n t i cc o n t e x to ft h es e a r c ho b j e c t f u r t h e r , f u z z yd e s c r i b i n gl o g i ci si n t r o d u c e dt oc o n 丘l l nt h er e l a t i o n sb e t w e e nt h ew e bp a g e sa n d t h eu s e r ss e a r c hr e q u i r e m e n t , a n dt h em e t h o dt oc a l c u l a t et h em e m b e r s h i pd e g r e eo f w e b p a g e s w l tt h es e a r c hr e q u i r e m e n ti sp r e s e n t e d a p r o t o t y p ei si m p l e m e n t e da n de v a l u a t e d , a n dt h er e s u l t ss h o wl a r g ei m p r o v e m e n t so v e re x i s t i n gm e t h o d s 5 t h es e m a n t i cs e a r c hm e t h o d s , p r o p o s e di nt h ed i s s e r t a t i o n , h a db e e ni m p l e m e n t e d i n “i n t e g r a t e di n f o r m a t i o ns e r v i c es y s t e m i nt h ed i s s e r t a t i o n , w ei n t r o d u c e dt h es y s t e m , a n dd i s c u s s e dt h ew a yo fi n f o r m a t i o np r o v i s i o nw h i c hi n t e g r a t e dc a l lc e n t e r , l b s ( 1 0 c a t i o nb a s e ds e r v i c e s ) a n ds e m a n t i c s e a r c hb yc o n c r e t ed e m 0 k e yw o r d s :i n f o r m a t i o nr e t r i e v a l ;q u e r yr e f i n e m e n t ;s e m a n t i c a s s o c i a t i o n ; s e m a n t i cw e b ;s e m a n t i cs i m i l a r i t y ;o n t o l o g y ;p e r s o n a l i z a t i o n ;q u e r ye x p a n s i o n ;u s e r p r o f i l e ;k n o w l e d g er e a s o n i n g ;f u z z yd e s c r i p t i o nl o g i c 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文 中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得北京邮电大学或其他教育机构的学位或证r 1 5 而使用过的材料与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示了谢意 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:整掏 日期:立! 塑:垒:兰 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期 问论文工作的知识产权单位属北京邮电大学学校有权保留并向国家有关部门或机构送交论文的复 印件和磁盘,允许学位论文被查阅和借阅:学校可以公布学位论文的全部或部分内容,可以允许采 用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注释: 本学位论文不属于保密范围,适用本授权书。 本人签名:堑轴, 日期:堇立:生:垒 导师签名: 北京邮电大学博i :学位论文 第1 章绪论 第1 章绪论 1 1研究工作的背景和意义 1 1 1研究背景 随着i n t e r a c t 技术的不断发展和完善,万维网己成为人们获取信息的一个重要 渠道。截止2 0 0 2 年底,万维网上约有9 0 4 万个网站,2 5 亿个网页,1 9 0 亿字节以 上的网页数据,同时网页数量正以每天7 5 0 万的速度净增长【1 】。截至2 0 0 5 年6 月 3 0 日【2 1 ,我国网站总数已超过6 7 万,c n 下注册的域名数约6 2 万。相对于万维网 庞大的信息量,人的注意力和信息处理能力非常有限,以搜索引擎为代表的信息检 索技术已代替手工浏览,成为人们从万维网获取信息的最主要的手段。 传统信息检索主要研究在用户信息需求和待检索的文档集合已知的情况下,如 何从文档集合中找出能满足用户信息需求的合适的文档。在过去的几十年中,信息 检索技术取得了极大的发展,其研究范围不再仅仅局限于对文本的索引和查找,而 是扩大到了研究信息检索的模型、文本自动分类、用户交互和检索结果可视化等领 域。在万维网出现之后,信息检索技术成为了万维网搜索引擎的基础,被越来越多 的人在日常生活和工作中使用。 万维网在给信息检索带来机遇的同时,也给传统的信息检索技术带来了新的问 题,如:查找范围的不再是一个可以确定的文档集合,而是不断更新和变化的网页 集合;网页之自j 具有链接关系,而不象传统的文档集合只是一个线性的集合。文献 【3 】对万维网上的信息检索方法进行了讨论,介绍了建立网页索引的方法,检索结果 排序的方法等,文献中的调查显示大部分用户对于当前搜索引擎的检索结果质量并 不满意。 现有的万维网搜索技术虽然可以帮助用户找到一些相关的具有相当可信度的 网页,然而其完成的工作仅仅能称为“第一次”过滤。也就是说,在搜索引擎从几 十亿张网页中过滤出的可能是几十万甚至几百万张网页结果中,我们需要自己做 “第二次”,。第三次”,甚至“第n 次”过滤,才能真j 下满足我们的信息需求。人 们希望有突破性的信息检索技术出现,该信息检索技术应该支持更加强大的信息检 索功能,具备理解语义和自动扩展、联想能力,并能为用户提供个性化的服务。本 文对语义检索技术的研究j 下是在上述背景和需求下进行的有意义的尝试。 北京邮电大学博上学位论文第1 章绪论 1 1 2研究的意义 从理论意义上讲,语义检索技术的研究促进了当前互联网技术的发展。当前互 联网技术存在缺陷,主要在于其设计目的是面向用户的直接阅读和处理,而没有提 供机器可读的语义信息,因而限制了计算机自动分析处理以及进一步的智能化处理 的能力;语义互联网【4 】力求使计算机和网页之自j 能够从语义层次上互相理解和沟 通,被认为是下一代的互联网。语义检索的思想和语义互联网一脉相承,语义检索 技术可以看作是语义网技术的一部分,对语义检索领域的研究可以直接推动语义网 技术的发展 从应用意义上讲,语义检索能够弥补传统信息检索的不足。传统信息检索技术, 其特点是将用户的检索请求和全文中的每一个词进行比较,采用关键词匹配的形 式,不考虑检索请求具体的含义,这种检索形式已越来越不能适应人们日益提高的 信息需求。语义检索将用户查询需求通过语义理解和计算转换成语义概念,从而检 索出与此概念相关的、用户真正想要信息,克服了传统信息检索技术的局限性。 1 2研究工作背景 本文作者在博士研究生期间,主要从事下一代网络及信息检索相关的研究工 作。作为主要研发人员参加的项目包括:国家自然科学基金重点项目“智能移动业 务平台的基础性研究”、中国下一代互联网示范项目( c n g i ) “通用业务平台”以 及国家重点基础研究发展规划( 9 7 3 ) “一体化可信网络与普适服务体系基础研究”项 目等,具体负责了平台中协议网关子系统及智能检索子系统的需求分析、设计及实 现的工作。概括起来,与论文直接相关的研究工作是: ( 1 ) c n g i 通用业务平台 本项目受中国下一代互联网示范项目支持( n o c n g m 4 8 1 d ) ,其研究内容 为开发一个构建在口骨干网上,能够综合各种接入手段,能够应用于各种网络环 境,方便快速生成多种业务的软件平台。通用业务平台能够大大缩短各种复杂业务 的开发周期,促使业务生成向个性化、多样化、实用化发展,提高网络资源利用率, 最大限度地实现基础设施的产业价值,从而推动整个社会进步发展。 作者作为平台中的主要负责人员之一,参加了该项目的前期调研、需求分析、 设计、代码实现及测试工作;负责协议网关组的管理工作,带领项目组成员,开发 完成了平台至短信中心、彩e 中心、定位中心、p a r l a y 服务器、s i p 服务器、邮件 服务器的接入模块。该项目于2 0 0 6 年底顺利通过了专家组的检查和考核,通过第 2 北京邮电大学博士学位论文第1 章绪论 三方测试,达到合格标准。 ( 2 ) 智能移动业务平台的基础性研究 本项且为国家自然科学基金重点项目( n o 6 0 4 3 2 0 1 0 ) ,其研究内容为提供一 个开放的、智能化的业务创建软件平台,其涉及:智能业务提供研究、智能信息服 务提供方法研究、v h e 研究、业务个性化研究、上下文感知技术研究等几大方面。 本项目是促使开展本文工作的核心支撑项目,项目的前期作了大量的数据收 集、整理工作,为本文语义检索研究的展开提供了实验数据基础在项目的支持下, 作者带领项目组成员,开发完成了有坐席参与的智能检索子系统原型,已经取得了 一定成果,目前这个项目还在进行当中 ( 3 ) 一体化可信网络与普适服务体系基础研究 本项目为国家重点基础研究发展规划( 9 7 3 ) 项目( n o 2 0 c r 7 a 硌0 r 7 1 0 0 ) ,其研 究内容为创建个性化、多元化服务的全新普适服务模型与机制,提出普适服务的服 务标识和连接标识解析映射理论,给出服务层连接标识机理;以及根据普适服务的 思想设计新的服务命名机制和查询机制;普适服务的业务开发等。此项目本实验室 承担其中的业务示范开发部分。 本项目为0 7 年新项目,作者参与了项目的前期调研及方案设计工作,语义检 索系统拟作为示范业务应用到这个项目中来。目前这个项目还在进行当中。 限于篇幅和内容的一致性,本文主要给出作者针对语义信息检索相关问题的研 究成果,其他研发工作根据论文主题需要有相关介绍或者没有涉及。 1 3 研究工作的创新点 论文的主要创新点可简要归纳如下: ( 1 ) 不能准确理解用户查询意图是导致传统信息检索方法查全率和查准率不 高的个重要原因。本文针对传统基于关键字匹配的查询目标分析方法的不足,提 出了一种综合词义关系和语义关联分析的查询目标分析方法,该方法在电子词典和 本体知识库支持下,通过对组成查询关键字的多个词语之白j 的关联分析,可以有效 提高查询关键字到本体概念映射的完整性和准确性,帮助搜索引擎有效的分析用户 的查询目标,解决了传统搜索引擎不能很好理解用户意图的问题。 ( 2 ) 在语义检索技术中,用户的查询需求被映射到本体知识库中的概念,因 而经常需要分析概念之自j 的语义相似性,判断概念与用户需求的相关程度。本文首 先分析了实例多重继承和实例属性层次关系对实例相似性的影响,针对原有的实例 北京邮电大学博上学位论文 第1 章绪论 语义相似度计算方法的不足,提出了一种综合实例多重继承和本体知识库中实例属 性及属性值的层次关系因素的相似度计算方法。实验表明本文提出的算法,在本体 知识库的多种组成情况下,均能够有效的提高相似度计算的准确率,在实例多重继 承关系相对复杂的情况下,效果更加明显r ( 3 ) 本文对如何满足用户个性化查询需求进行了研究,提出了一种基于语义 关联的用户偏好分析方法,u p g s a 该方法能够显式和隐式地获取用户兴趣,通 过网页归类,将用户对网页的偏好转化为对本体知识库中实例的偏好,借助本体实 例之间语义关联的推理,实现用户偏好的扩散,发现隐含的用户偏好。在建立用户 偏好模型过程中,u p g s a 综合了时间因素,可以对查询发生时用户对网页的关注 情况做出准确预测。使用u p g s a 建立的用户偏好模型,我们实现了相应的查询优 化和查询扩展原型系统,实验表明,该方法能有效地分析用户偏好,起到优化查询 效果的作用。 ( 4 ) 在当前的互联网环境下,语义检索亟待解决两个技术问题:用户需求的 语义化和网页内容的语义化,即赋予用户需求和网页内容机器可理解的确切含义。 本文对用户需求和网页内容的语义化问题进行了研究,综合描述逻辑推理和信息检 索技术,提出了一种基于知识推理的语义信息检索方法m k r 。该方法以描述 逻辑形式表达用户需求,解决了用户需求的语义化问题;通过模糊描述逻辑推理判 断网页与本体概念隶属度,可以较准确的分析网页语义,判断网页与用户需求的相 关性实现了相应的原型系统,实验表明,i r k r 可以显著的提高传统搜索引擎的 查询效果 ( 5 ) 传统的坐席服务系统大多以黄页式数据为数据源,采用关键字匹配判断 信息与用户兴趣的相关性,只能囊括非常有限的知识范围,不具备动态扩充的能力, 无法保证判断的准确率;传统的信息检索技术虽然在一定程度上满足了用户的信息 查询需求,但其对用户的查询技巧有较高要求,不适合对最广大的老百姓提供服务。 本文成功的开发了“综合信息服务系统”原型,提出了一种整合语义检索技术、坐 席服务技术和位置服务技术的新的综合信息服务提供方法,弥补了传统的坐席服务 技术和信息检索技术各自的局限性。 1 4论文内容和结构 本论文的主要研究内容是在传统信息检索技术的基础上,通过分析网页含义和 用户个性化的特征,运用语义和推理技术,优化信息检索的过程。论文总共包括九 章,本章是第一章,作为全文的绪论,说明论文的结构和研究背景,第九章是论文 结束语,总结全文,给出进一步的研究工作和问题思考,提出一些研究建议和研究 4 北京邮电人学博士学位论文第1 章绪论 思路,其它七章的内容如下: ( 1 ) 信息检索技术综述( 第二章内容) 本章较为全面的介绍了信息检索技术的相关概念、发展历史及信息检索效果的 评价方法,其中重点介绍了全文信息检索和几种有代表性的全文信息检索模型,最 后对传统信息检索中存在的问题进行了分析。 ( 2 ) 语义检索综述( 第三章内容) 本章较为全面的介绍了语义信息检索技术的相关概念,以及当前描述语义信息 普遍使用的本体描述语言,最后,对语义信息检索近几年的研究现状进行了介绍、 整理。 ( 3 ) 查询目标分析( 第四章内容) 本章以查询关键字词义关系分析和本体实例之间语义关联分析为切入点,提出 了一种综合词义关系和语义关联分析的查询目标分析方法,提高了查询关键字到本 体概念映射的完整性和准确性,帮助搜索引擎有效的分析用户的查询目标,解决了 传统搜索引擎不能很好理解用户意图的问题。 ( 4 ) 语义相似分析( 第五章内容) 判定概念实体之间的语义相似度是语义检索技术中的一个重要问题。本章综合 考虑实例多重继承关系、属性及属性值的层次关系,提出了一种语义相似度计算方 法,并利用继承关系的树状结构特点对语义相似度的计算过程进行了优化。实验表 明本章提出的算法,在本体知识库的多种组成情况下,均能够有效的提高相似度计 算的准确率,在实例多重继承关系相对复杂的情况下,准确率提高更加明显。 ( 5 ) 用户偏好分析( 第六章内容) 本章对如何满足不同用户的个性化查询需求进行了研究,提出了一种基于语义 关联的用户偏好分析方法。该方法显式和隐式的获取用户对网页的偏好,并将其转 化为对本体知识库中实例的偏好;分析本体实例之间的语义关联,发现隐含的用户 偏好:综合用户偏好历史,建立用户当前偏好状态的数学模型,以预测用户对网页 的关注程度。在该偏好学习方法的基础上,实现了相应的查询优化系统和查询扩展 系统,实验表明,本章提出的方法可以有效的发现用户偏好,提高查询的准确率。 ( 6 ) 基于知识推理的语义检索( 第七章内容) 如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的 重要方向。本章综合描述逻辑推理能力和传统搜索引擎技术,提出了一种基于知识 5 北京邮电大学博上学位论文 第1 章绪论 推理的语义信息检索方法。该方法以描述逻辑形式表达用户查询需求,依赖传统搜 索引擎召回可能相关的网页,通过模糊描述逻辑推理判断网页与用户查询需求的相 关性。实验表明,本文提出的方法可以显著的提高搜索引擎的查询效果。 ( 7 ) 原型系统的设计与实现( 第八章内容) 本章对第四至七章中提出的语义检索方法在“综合信息服务系统”中的应用进 行了介绍,并通过具体的应用场景演示了综合呼叫中心、定位服务、语义检索的新 的信息服务提供方法。 全文各章节问的逻辑关系可用图1 1 表示。 1 5本章参考文献 图1 1 论文章节结构图 【1 】o c l cl n c w e bc h a r a c t e r i z a t i o n , 2 0 0 3 ,h t t p w e p o c i c o r g s t a t s ,s i z e b t m 6 韭塞坚皇盔兰堕主竺垡丝兰苎! 童堑丝 【2 1 中国互联网络信息中心,第1 6 次中国互联网络发展状况统计报告, h t t p :帅c a m c n e t c n u p l o a d t l l e s p d f 2 0 0 s 7 f 2 0 2 i o m 2 p d 1 3 】3m e i 勋删a n di 如i c h it a l 【。血i n f o m m l i o nr e t r i e v a lo nt h ew e b a c mo 唧埘唱s u r v e y s , 姗3 2 ( 2 ) :1 4 4 - 1 7 3 【4 】b e r i 础l d a l l l l c s c m a n t i c 呦s c i e n t i f i c a m e r i c a n , 2 0 0 1 2 8 - 3 7 7 北京邮i 乜大学博上学位论文 第2 章信息检索技术综述 2 1信息检索 第2 章信息检索技术综述 2 1 1信息检索概述 信息检索是指将信息按照一定的方式组织和存储起来,并针对用户的需求找出 所需信息的过程,又称为“信息存储与检索”1 1 。从这个定义可以看出,信息检索 实际分为信息存储和信息查找两个阶段。信息的存储就是将通过各种手段搜集到的 信息,进行特征分析处理,并按一定形式存储的过程;信息的查找是针对经过信息 存储阶段整理的信息进行的,是存储的逆过程。 在信息的存储过程中,信息标引人员或自动标引程序对各种信息进行主题分 析,将信息所包含的内容分析出来,形成多个能代表信息主题的概念,并用信息检 索语言的词语把这些概念表达出来,归入检索工具;而在信息检索过程中,首先对 信息需求进行主题分析,形成能代表检索需求的概念,并将这些概念转换成信息检 索语言的词语,然后在检索工具中进行匹配运算,从而找到所需的信息。因此,信 息检索的实质是一个匹配过程,是以用户需求的检索表达式与信息的存储之白j 的相 符性为基础的,如果两者不能匹配,那么信息检索就失去了基础。检索不到所需的 信息,存储也就失去了意义。 这里我们需要区分两个概念:信息检索和数据检索【2 】【3 】。数据检索的条件一 般具有清晰的定义,要求取得满足特定条件的所有对象,因而它的准确率要求是百 分之百,一般采用时间开销、空间开销的评价标准。信息检索的条件描述本身就是 一个研究的难点,一般很难做到完全准确,而检索的对象也可能是不准确的。造成 这一点的主要原因是,信息检索通常是对自然语言作处理,而自然语言没有很好的 结构,语义上存在模糊性。在一个信息检索系统中,数据检索是基本操作,它取得 符合一定条件的信息项,但在大多数情况下,这些信息项不能满足用户的需求。信 息检索的目的是为了取得与某个主题相关的信息,因此信息检索系统必须通过某种 技术表示自然语言文本来加速检索过程,提高检索精度。它不仅需要抽出某些语义 信息,。解释”文本所表达的语义内容,还需要比较文本的内容和用户的信息需求 的相关度。相关度的计算是信息检索科学的核心内容。在检索结束时,需要把相关 的信息尽可能地排在i j i 面,而返回尽量少的不相关的信息。 8 北京邮电大学博i :学位论文第2 章信息检索技术综述 2 1 2 发展历史 信息检索作为一门学科,其历史可以追溯到2 0 世纪中期。在此以前,信息存 储和传播主要以纸质为载体,信息检索活动也围绕着文献的获取和控制展开,研究 的目的也在于如何合理的组织图书等文献资料,从而方便用户的查找,“文献检索” 一度成为信息检索的同义词。2 0 世纪5 0 年代计算机得到了应用,人们开始使用“情 报检索”这个概念。当时的信息检索,更接近于数据库检索随着通讯技术与计算 机技术的紧密结合,信息载体类型的多元化以及传播手段的改进,情报检索研究和 文献检索的研究逐渐归于信息检索研究这一具有兼容性的概念,研究范围也日趋扩 展,形成了今天的“信息检索” ( 1 ) 脱机批处理检索( 1 9 5 4 1 9 6 5 ) 1 9 4 6 年世界上第一台电子计算机问世以后,5 0 年代初就有人开始研究其在信 息检索领域的应用。1 9 5 4 年,美国海军机械试验中心使用m m7 0 1 型机,初步建 成了计算机情报检索系统,这预示着以计算机检索系统为代表的信息检索自动化时 代的到来。5 0 年代中期到6 0 年代后期是信息检索的脱机批处理阶段当时计算机 还没有连接成网络,也没有远程终端装置,不能提供实时检索,只能进行文献的定 题检索( s e l e c t i v ed i s s e m i n a t i o no fi n f o r m a t i o n ) f f 回溯性检索( r e t r o s p e c t i v es e a r c h ) , 同时利用计算机编辑出版检索性刊物。 ( 2 ) 联机检索( 1 9 6 5 1 9 9 1 ) 1 9 6 5 年美国系统发展公司( s d o 研制成功o r b i t ( o n 1 i n er e t r i e v a lo f b i b l i o g r a p h i ci n f o r m a t i o n t i m es h a r e d ) 联机情报检索软件,开始了联机情报检索系 统阶段。与此同时,美国烙克希德公司成功研制了d i a l o g 检索系统。7 0 年代卫星 通讯技术、计算机技术以及数据库技术的同步发展,使得用户得以冲破时间和空白j 的障碍,实现了国际联机检索。远程实时检索多种数据库是联机检索主要的优点。 计算机检索技术从脱机阶段进入联机信息检索时期。联机检索是计算机技术、信息 处理技术和现代通讯技术三者的有机结合。 ( 3 ) w e b 信息检索( 1 9 9 1 目前) i n t e m e t 在六、七十年代初见雏形,八十年代末开始迅速流行。在i n t e m e t 环境 下,单纯的手工检索和机械检索都显现出各自或多或少的缺点,导致了信息检索从 传统模式向新型模式的转变:体系结构从终端主机方式到客户朋臣务器结构方式; 网络环境从局域网到i n t e m e t 等丌放网;应用接口从封闭界面到w w w 等;信息结 构从结构化到半结构化:系统功能从单纯信息检索到综合信息管理和服务等等。通 9 北京邮电大学博e 学位论文第2 章信息检索技术综述 常,这一阶段的信息检索被称为现代信息检索。 2 1 3效果评价 评价信息检索效果最直接的标准,是用户对检索结果的满意程度,但这一评价 标准是因人、因时、因环境而变化的,是已有知识及时间的函数,很难准确的量化。 目前通常用检索的实际效果来评价信息检索的质量,最基本和常用的评价指标包 括:检索精度( 又称为查准率,p r e c i s i o n ,p ) ,召回率( 又称为查全率,r e c a l l ,r ) , 前n 项精度( t o pnp r e c i s i o n ) ,1 1 点平均精度( 1 1 p o i n ta v e r a g ep r e c i s i o n ) ,f 度量 值( f - m e a s u r e ) 以及p r 等。 c r e a t e s - - ) a r t i f a c t ”。除了加长路径的长度,其他的一些 操作也可以应用到此查询模型。模型也可以更改为只关注某类的部分子类,例如 前面的模型可以更改为“a r t i s t - - ) c r e a t e s - - p a i n t i n go rs c u l p t u r e ”,类似的属性约束 也可以更改为只关注某些子属性。其他一些更复杂的查询也可以以相似的方式创 建。 文献 3 2 1 提出了另一种图形化查询生成接口。该方法给用户提供了一系列预 定义的领域相关的模版,用户可以选择模板作为查询的起点,也可以对模版进行 扩展和定制,如在模板中的某些类上增加属性约束,或者是将模版中的类用兼容 的类( 如子类或父类) 代替。 北京邮电大学博上学位论文 第3 章语义检索综述 在某些复杂查询中,个体的约束信息不一定是完全本体化的,因而一些研究 工作支持用关键字约束对目录和对象进行过滤。文献【3 3 】提出了将查询关键字作 为本体类的方法,实例与这些类之自j 有模糊的隶属度,该文献同时给出了一种基 于模糊逻辑的计算文档与查询需求之间的相关度的方法。 3 3 4信息查询个性化 信息查询个性化通过软件学习用户个性特征,把获得的个性化知识应用于信 息搜索过程中,在相同或是相近的信息资源中,针对两个不同用户的相似要求, 返回给不同用户不同的查询结果。语义信息检索中的个性化研究,旨在使用语义 信息记录用户偏好,实现用户偏好的确定、推理,为用户提供个性化的检索服务。 区别于以往的个性化信息检索,语义个性化研究中的用户偏好被映射到了本体概 念,具有了实际的含义,能够提供更加强大的推理分析能力。 文献 3 4 1 用本体层次概念树来表达用户的查询意图,树的每个概念节点的权 重表示用户的查询意图与该概念的相关性。该方法的缺陷在于,要求用户显示表 达其偏好,不能有效地适应用户兴趣的变化 文献 3 5 3 6 1 用本体知识库记录用户的个性化信息,本体中的每个概念均被 赋予一定的权重,以表示用户对该概念的偏好程度。在查询过程中,系统自动记 录用户的浏览行为,将用户浏览的网页自动归类到本体概念,并根据用户行为表 现出的对网页的兴趣,增加相应概念的偏好值。偏好的学习过程由系统自动完成, 不需要用户的显式参与。 3 3 5语义关联分析 通常语义关联分析被用于发现用户感兴趣的资源之自j 的关联 3 7 1 ,这些关联 本身就具有一定的价值。路径关联在许多领域有广泛的应用前景,文献1 3 8 通过 模板形式定义用户关注的对象关联关系,通过实体关系和模板的相似性分析,解 决诸如发现未知恐怖分子的国家安全问题。 如何区分有意义的关联和无意义的关联,是语义关联分析中一个重要的问 题,如“c o m p a n y a a n d t e r r o r i s t o r g a n i z a t i o n b a r er e l a t e d b e c a u s e t h e y b o t ho p e l a t e i 1 1t h es a m ec o u n t r y ”就太过于广泛,而没有实际的意义。文献1 3 9 首先提出了综 合查询上下文、概念层次位置、概念信息量、出度、入度、用户信任度和关联长 度等多种因素的语义关联计算方法。 北京邮电丈学博上学位论文第3 章语义检索综述 3 4小结 语义检索是当前信息检索领域中的一个研究热点,有着相当丰富的研究工 作,近些年来,这方面的工作也取得了一定的进展。本章首先介绍了语义检索的 基本概念和语义检索中语义信息的描述方法,在此基础上,我们对语义检索当前 的研究工作迸行了分类。对当前语义检索中的主要研究方向:语义查询优化、查 询目标分析、复杂约束查询、信息查询个性化和语义关联分析的研究内容、研究 进展进行了介绍。 3 5本章参考文献 【1 l 张雷,语义搜索的模型和应用,博士论文,上海交通大学,2 0 0 5 【2 】余传明,基于本体的语义信息系统研究哩论分析与系统实现博士论文,武汉大学, 2 0 0 5 【3 】v a l l e td , e la la n o n t o l o g y - b a s e d i n f o r m a t i o nr e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年内蒙古机电职业技术学院单招职业技能考试必刷测试卷及答案解析(夺冠系列)
- 2026年云南外事外语职业学院单招综合素质考试题库及答案解析(名师系列)
- 2026年四川艺术职业学院单招职业适应性考试题库及答案解析(名师系列)
- 2026年宿迁职业技术学院单招职业适应性考试题库附答案解析
- 房屋搭架安全协议书
- 房屋材料出售协议书
- 房屋签署售卖协议书
- 房屋资产转让协议书
- 手工课程免责协议书
- 手机回收合法协议书
- 湖北导游证必背12篇导游词
- 2025年河北保定市公安局招聘警务辅助人员48名考试笔试备考题库及答案解析
- 第三单元单元学习任务《文学短评》课件2025-2026学年统编版高中语文必修上册
- 注意缺陷多动障碍儿童社交技能培养方案
- 小学高级数学教师评审答辩资料范本
- 市政管道高压水射流清淤施工方案
- 江苏省苏州市阳光调研2025-2026学年高一上学期期中考试化学试题(含答案)
- 国防安全主题课件
- 2025-2026学年第一学期浙江省宁波市余姚市六校期中联考七年级语文试卷(含答案)
- 2025广东广州市越秀区流花街招聘党建工作指导员1人笔试考试参考题库及答案解析
- 教资考试论述题含答案
评论
0/150
提交评论