




已阅读5页,还剩71页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体技术的语义检索及其语义相似度研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: 处,本人承担一切相关责任。 日期:j 剖缸陋 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定, 即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学 校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论 文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用 影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密 后遵守此规定) 非保密论文 本人签名: 导师签名: 于保密范围,适用本授权书。 2 基于本体技术的语义检索及其语义相似度研究 摘要 随着网络技术的发展和i n t e r n e t 上信息量的激增,信息检索系 统作为网络信息平台的一个重要组成部分,在用户获取准确的网络信 息过程之中发挥着重要的作用。传统的信息检索仅仅是基于语法层面 上的简单匹配,缺乏对知识的表示、处理和理解能力,其实质在于信 息资源缺少统一的语义描述,用户难以查询到与需求相关的信息,难 以实现相关信息的语义融合,问题的关键在于将信息检索从传统的基 于语法的简单匹配提升到基于语义知识层面。 语义w e b ( s e a n t i cw e b ) 是w w w 的发明人t i mb e r n e r s l e e 倡导 的下一代万维网,致力于以计算机可处理形式表示信息。语义w e b 的 目的是让计算机能够“理解”w e b 上的信息,并在“理解”的前提下 更好地处理和利用这些信息,为人类提供更好的服务。本体具有良好 的概念层次结构和对逻辑推理的支持,能够通过概念之间的关系来表 达概念语义的能力,实现语义上的信息表示,可以很好地应用于信息 检索。基于本体的信息检索不同于传统的关键词检索,利用本体知识 库强化了概念之间的内在联系,通过逻辑推理可以发掘概念之间隐含 的和不明确的信息,实现语义智能信息检索。 首先对传统信息检索技术进行了分析研究,导致其检索质量低下 的根本原因在于传统信息检索采用基于语法的匹配方式,缺乏检索信 息的语义理解,探讨了将本体技术应用于信息检索,实现语义智能信 息检索。 其次分析研究了语义w e b 和本体技术,包括它的来源定义、框架 结构、研究现状和应用等。语义w e b 是对现有万维网的扩展和进化, 基于元数据和本体的语义和知识的表达,提供充分的丰富的语义信息 使得机器可以理解,达到机器可以自动处理信息的能力。另外详细分 析了本体技术在电信领域的应用情况,包括基于本体的网络系统管理 集成信息模型、语义w e b 技术应用于上下文感知的智能移动w e b 服务 和电信领域本体的构建等。 接着重点研究分析了基于本体的语义智能信息检索的关键技术, 包括本体技术、智能信息检索方法、领域本体构建和系统流程等。基 于对传统信息检索技术的不足和本体技术,设计了基于领域本体的语 义智能检索系统。分析了当前互联网上的手机商品在线网站的检索系 统,提出了基于本体的语义智能检索系统框架模型,构建了实验系统 的手机商品本体,并进行了智能信息检索系统的语义推理分析。 在前面技术理论和系统技术设计的基础上,实现了基于本体的手 机商品语义检索系统( m p p s r s ) 。该实验系统以手机商品领域为智能检 索对象,通过本体的语义推理处理,可以充分发掘检索信息之间隐含 的关联信息,为用户提供了良好的语义检索服务,从而在根本上解决 传统信息检索中资源对象语义信息缺乏的问题,更加准确和全面地查 询到用户需要的手机商品信息,实现语义智能信息检索。 然后分析了当前概念相似度研究现状,结合本体技术,在构建的 领域本体的基础上,提出了一种改进的基于领域本体的语义相似度的 计算模型,该模型结合基于距离的语义相似度和基于属性的语义相似 度,其中基于距离的语义相似度综合考虑并利用了本体类的层次关系 中的多种影响因素,如语义重合度、语义层次深度、语义距离、语义 密度以及相应的调节因子等,来计算领域本体内部概念之间的语义相 似度。 最后结合上一章具体探讨的改进的基于领域本体的语义相似度 计算模型,设计并实现了基于本体的电子镇流器荧光灯管产品检索 推荐系统( b l p r r s ) 。分析了某公司的实际需求,基于本体技术,结合 该公司产品特点,在抽取公司研发和销售的电子镇流器和荧光灯管产 品,构建了电子镇流器和荧光灯管的本体库的基础上,实现了实验系 统。通过调整实验系统中相应的各个调节因子,并将实验数据与专家 主观判断进行比较,分析并验证了改进的语义相似度计算方法的效 果,表明基于本体的语义相似度计算模型可以帮助扩展检索概念,提 供有效的产品检索结果。 关键词:语义w e b ,本体,语义智能检索,手机,语义相似度 r e s e a r c ho ns e m a n t i cr e t i u e v a l & i t ss e m a n t i cs i m i l a i u t yb a s e do n o n t o l o g yt e c h n o l o g y a b s t r a c t w i m 廿l ed e v e l o p m e n to fn e 觚o r kt e c h n 0 1 0 9 ya 1 1 dr 印i di 1 1 c r e a s i n g i i l f o m l a t i o no ni n t 锄e t ,协f 0 删o nr e t r i e v a ls y s t e mp l a y sa ni m p o r t a n t r 0 1 ea tc o n n l 】n jc 撕o nb e t w e e nu s e r sa n dr e s ( 儿盯c eo n 1 en e m o f k t h e t r a m t i o n a li 1 1 f o 咖a l c i o nr e t r ie 、r a li so m y b a s e d 田? a m m a r l a t c h ,w m c h1 a c k o ft 1 1 ep r e s e l l t 撕o n ,h a n d l 衄ga i l du 1 1 d e r s t a n d i l l go fh o w l e d g e t h ek e y p r o b l e mi sm a ti i l r 衄r 1 2 l t i o i nr e s o l l r c ei sl a c ko fs e m a n t i cd e s c r i p t i o n ,s o t h a ti ti sh a r df o ru s e r st or e t r i e v et 1 1 ei 1 1 f o n i 】a t i o nw 1 1 i c ht h e yr e a l l yw a n t a n di m p o s s i b l et oa s s o c i a t ei 1 1 f o 彻a t j o nr e s 仇ew i ms e m a l 】t i cf e a t l j r e t h ee s s e n t i a ls 0 1 u t i o nt om i s 讲砒i l e m1 i e smt 1 1 ei 1 1 f - o m :1 a t i o nr e t r i e v a l 丘o mt h e 仃:l d i t i o n a l 伊a i :n i l l a 叶b a s e d1 e v e lu p g r a d e dt ok n o w l e d g e - b a s e d s e i n a l l t i c1 e v e l s e n 啪t i cw e bi sa ne x t e n s i o no fm e c u n e n to n e 证w h jc h m f o r i 】诅t i o ni s 百v e nw e l l - d e f m e dn l ea i :曲g ,b e t t e re m 出l i l l gc o m p u t e r s a 1 1 dp e 叩1 et ow o r ki 1 1c o 叩e r a t i o n 。o n t 0 1 0 9 yh a s 廿1 eg o o d1 1 i 蝴c 1 1 i c a l s t n l c t u r eo fc o n c 印t sa n d 廿1 es l l p p o r to f1 0 百c a lr e a s o 血g ,a n ds e n 啪廿c i n r i 珈【1 a t i o nc a nb er e a l i z e dt h r o u g ht h es e 瑚a n t i cr e l 撕o n s l l i po fc o n c e p t s o n t 0 1 0 9 yt e c l l l l o l o g yc 趾b ew e l l 印p l i e d t oi n f o 彻撕o nr e t r i e v a l o n t 0 1 0 9 y - b a s e di 1 1 f b 加 1 a t i o nr e t r i e v 面i sd i 任e r e n t 行o m 廿1 e 仃a d i t i o n a 】 k e y w o r ds e 锄c h s e m a l 】t i ch l t e l l i 2 饥th l f c 嘞撕o nr e t r i e v a lc a nb e r e a l i z e db e c a u s eo n t 0 1 0 9 yk n o w l e d g eb a s es 仃e n g t l l e n sm ei 1 1 幽s i cl i l l k o fm ec o n c 印t s 锄dm e 砷p l i e da n du 1 1 c l e a ri 1 1 f o 如嘣i o nc a nb ed e d u c e d t 1 1 r o u 曲1 0 百c a lr e a s o n i n g 5 ,r h i sp a p e ra 1 1 a l y z e dt h e 衄d i t i o n a li 1 1 f - o m a t i o nr e t r i e v a lt e c h n 0 1 0 9 ) r a n dg o tt h a tm er e a s o no fm e1 0 wq u a l i t yo fi t sr e t r i e v a l 血n d 锄e n t a l l v 1 i e si 1 1m e 仃a d i t i o n a li n f o 加眦i o nr e t r i e v a lb a s e do nm e 眦t c m n gs v n t a x a 1 1 dl a c ko ft 1 1 es e m a n t i c so fi n f o m 】a t i o nr e t r i e v a l a n dm i sp a p e rp u t f o 州a r d e dm eo n t o l o g yt e c h n 0 1 0 9 i e st 0b e 印p l i e dt oi 1 1 f o n l 诅t i o n r e t r i e v a l a n o m e rw a y ,o n t o l o g yt e c h n 0 1 0 9 ya p p l i e di nm ef i e l do f t e l e c o m 埘岫i c a t i o n s a p p l i c a t i o n sw a sa n a l y z e di nd e t a i l ,i n c l u d i n g o n t 0 1 0 9 y b a s e d n e 觚o r km a l l a g e m e n t s y s t e mi 1 1 t e 伊a t e di 1 1 f o r r r 饿i o n r n o d e l ,s e m a i 】t i cw e bt e c l l i l 0 1 0 百e si 1 1t 1 1 ec o n t e x t a w a r es m a r tm o b i l e w e bs e r 讥c e sa n do n t o l o g yc o n s 仃u c t i o ni nt e l e c o 珈m u n jc a t i o n s 丘e l d t h 肌t h j sp 印e rf i o c u s e so nt 1 1 ea i l a l y s i so fs e v e r a lk e yt e c l l l l o l o g i e so f o n t o l o g y - b a s e d s e m a n t i c i i l t e l l i g e n t i 1 1 f 0 加舱t i o n r e t r i e v a l ,i 1 1 c l u m n g o n t 0 1 0 9 yt e c h n o l o g y ,n l em e t h o do fs e m a l l t i c1 1 1 t e l l i g e n th l f o n l l a t i o n r e t r i e v a l ,d o 眦i no n t o l o g yb u i l d i n gp r o c e s s ,a n ds y s t e mp r o c e s s b a s e d o na 1 1 a l y s i so f 仃a m t i o n a li 1 1 f o 撇t i o nr e t r i e v a lt e c h n o l o g ya 1 1 do n t 0 1 0 9 ) r t e c h n 0 1 0 9 i e s ,o n t 0 1 0 9 ) ,- b a s e ds e m a l l t i c1 1 1 t e l l i g e n tr e t r i e v a ls y s t e mw a s d e s i g n e d a r e ra 1 1 a l y s i so ft 1 1 ec u 玎e n ti 1 1 f - o m l a t i o nr e t r i e v a ls y s t e mo f o n - 1 i n ei n o b i l ep h o n ep r o d u c ts h o po nt h eh l t e m e tw e b s i t e ,m es e m a i 】t i c 血e 1 1 i g e n tr e t r i e v a ls y s t e m 丘a 加e w o d ( n l o d e lb a s e do no n t o l o g yw a s p r 叩o s e d t h e nm o b i l ep h o n ep r o d u c to n t 0 1 0 9 yw a sc o n s t l l l c t e df o rt h e e x p e r i m e n t a l s y s t e m ,a 1 1 dm es e m a l l t i cr e a s o 曲唱w a sa n a l y z e d i 1 1 s e m a i 】t i ch l t e l l i g e mh l f o 咖a l c i o nr e t r i e v a l a r e rt h a t ,m o b i l ep h o n ep r o d u c ts e m a n t i cr e t r i e v a l s v s t e m 口p s r s ) w a sd e v e l o p e db a s e do nm et e c l l l l o l o g yt 1 1 e o 巧a n ds y s t e m d e s i 印协p r e 访o u ss e c t i o n s m o b i l ep h o n ep r o d u c tw a st 1 1 e 硫e l l i g e m r e t r i e v a lo b j e c ti 1 1t h j s e x p e r i m e n t a ls y s t e m t 1 1 r o u g ht 1 1 es e m a n t i c r e a s o i 血1 9b a s e do no n t 0 1 0 9 y ,w ec a nm 1 1 ye x p l o r e 廿1 er e t r i e v a lo f i n f o n n 鲥o nw m c hu s e r si m p l i e d t l l i ss y s t e mo f f e r e dag o o ds e m a n t i c r e t r i e v a ls e r 访c e sw 恤c hf h n d a 加e n t a l l ys o l v et h es h o r t a g eo f 仃a d i t i o n a l i 1 1 f o 硼a 右o nr e t r i e v a li 1 1w 1 1 i c hi 1 1 f o 砌a t i o nr e s 仇l r c ew a sl a c ko fs e m a n t i c i 1 1 f o m l 撕o n ,a i l d l i ss y s t e mp r o 访d e du s e r s 廿1 e 瑚o r ea c c l - l r a t ea n d c o i n p r e h e l l s i v er e t r i e v a lr e s u l ta su s e r s i 1 1 q u i r i e sa l l da c l l i e v e ds e m a i l t i c h l t e l l i g e n tm f o m _ 1 a t i o nr e t r i e v a l a tl a s tb u ti 埘l p o 砌n tt w os e c t i o n si i l 恤sp a p e r ,t r a d i t i o n a lc o n c e p t 6 s e m a n t i cs i m i l a r i t yc o m p u t a t i o nm o d e l sw a sa n a l y z e d ,a j l db a s e do n d o m a i no n t o l o g y ,ar e f o n n a t i v es e m a n t i cs i m i l a 订t ya l g o r i t h mw a sp u t f o r w a r d s ,w h i c hi n t e 汀a t e ds e m a l l t i cs i m i l a r i 田b a s e do nd i s t a n c ea r l d s e m a n t i cs i m i l 撕t yb a s e do na t t r i b u t e f o rd i s t a n c e b a s e ds e m a n t i c s i m i l 撕t y ,s e v e r a li m p o r t a n te l e m e n t sw h i c ha r ei m p l i c a t e di nd o m a i n o n t o l o 囝,w e r et a k e ni n t oa c c o u n t ,s u c ha ss e m a n t i ca n c e s t o r ,s e m a n t i c d 印t h ,s e m a n t i cd i s t a n c e ,s e m a n t i cd e n s i t y ,r e l a t e da d j u s t n l e n tf a c t o r sa n d s oo n t h e na no n t o l o g yb a s e 仔o ma na c t l l a l c o m p a n y ,b a l l a s t sa n d l a m p s ,w a sd e v e l o p e da n das e m a n t i cs i m i l a r i t yr e t r i e v a le x p e r i m e n t a l s y s t e 札b a l l a s t s l a n l p sp r o d u c ti 沁t r i e v a lr e c o m m e n d a t i o ns y s t e m ( b l p r r s ) w a sd e v e l o p e d a j l dt h ee x p e r i m e n t a lr e s u l td e m o n s t r a t e d 恤s s e m a n t i cs i i n j l 撕t yc o m p u t a t i o nm o d e lc o u l dh e l pt oe x t e n dt h eq u e 拶 c o n c e p t ss e t sa n dp r o v i d ea ne f - f e c t i v ep r o c i u c tr e t r i e v a lr e s u l t k e yw o i s :s e m a l l t i c w 曲,o n t 0 1 0 9 y s e m a n t i c i n t e l l i g e n t r e t r i e v a l ,m o b i l ep h o n e ,s e m a n t i cs i n l i l 撕t y 7 第一章绪论 1 1 选题背景 2 0 世纪8 0 年代末,t i mb e r n e r s l e e 发明了基于统一资源定位符u r l 、超 文本传输协议h t t p 和超文本标记语言h t 儿的万维网( w o r l dw i d ew e b ) 。如今 万维网已经成为人们日常生活不可缺少的一部分,w e b 成为了网络信息的主要平 台,人们利用万维网获取各种信息资源。 今天万维网上的搜索信息的工具主要是关键词的搜索引擎。由于目前的w e b 因结构简单、语义缺乏,人们想要从w e b 上搜索到自己真正需要的信息存在相当 的困难。具体困难表现为:搜索结果给出的往往是大量的没有价值的信息链接, 很多检索结果和用户查询毫无关系,信息过量,返回太多的无关内容;即使给出 我们正确的相关页面,仍然需要人自己去浏览相关网页从大量的内容中获取自己 需要的相关信息,查询结果只能是位置查询,而不是信息查询n 1 ;基于关键词的 搜索方法不能理解用户的需要,目前搜索技术仅仅对关键词进行简单的匹配,而 不能根据用户查询目的进行查询内容的扩展,缺乏语义理解和关联。 如何在w e b 这样的分布式环境中找到有价值的信息,并从中提取出知识内 容已经成为目前信息检索和知识管理等研究领域的重要课题。目前的万维网上的 内容大多数还只是面向人类,只能供用户直接阅读和进行数据处理口3 。这些内容 对计算机来讲是不可识别的,没有提供计算机可以理解的语义信息。这些限制了 计算机在信息检索中的自动分析处理和进一步智能化的信息处理能力,直接制约 了万维网为人类提供更好的服务和更广泛的应用。 1 2 国内外研究现状及分析 信息检索( i n f o r m a t i o nr e t r i e v a l ) ,是指将信息按一定的方式组织和存储 起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的 存储与检索( i n f o r m a t i o ns t o r a g ea n dr e t r i e v a l ) ,这是广义的信息检索。狭 义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过 程,相当于人们通常所说的信息查寻( i n f o r 腿t i o ns e a r c h ) 。信息检索,包括 信息的存储、组织、表现、查询和存取等各个方面,其核心为文本信息的索引和 检索,起源于图书馆的参考咨询和文献索引工作,从1 9 世纪下半时期首先发展, 至2 0 世纪4 0 年代,索引和检索成为图书馆独立的工具和用户服务项目。从发展 阶段上看,信息检索经历了手工检索、计算机检索到目前的网络化、智能化检索 l o 等多个阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的 信息内容扩展到开放、动态、更新快、分布广泛、管理松散的w e b 内容;信息检 索的用户也从原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、 各专业人士等在内的普通大众。 w w w 技术对信息的传播方式带来了巨大的变化,也明显地促进了信息检索技 术的发展和应用,一大批搜索引擎产品也随之产生,为网络使用者提供了快速的 信息获取和网络信息导航工具。从某种程度上可以说,网络信息检索代表了当前 信息检索的发展方向,因而,本论文也将网络信息检索作为主要的研究对象。 随着因特网的迅猛发展、w 朗信息的增加,用户要在信息海洋里查找信息, 就象大海捞针一样,搜索引擎技术恰好解决了这一难题( 它可以为用户提供信息 检索服务) 。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发 的对象。 搜索引擎( s e a r c he n g i n e ) 是随着w 口信息的迅速增加,从1 9 9 5 年开始逐 渐发展起来的技术。据发表在科学杂志1 9 9 9 年7 月的文章1 9 e b 信息的可 访问性估计,全球目前的网页超过8 亿,有效数据超过9 t ,并且仍以每4 个 月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海 捞针”无功而返。 搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的 策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用 户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为 互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户 。搜索引 擎技术因而成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎是一种浏览和检索网络信息的工具。它以一定的策略在互联网中搜 集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务, 从而起到信息导航的目的。搜索引擎主要由搜索器、索引器、检索器、用户接口 这4 部分组成。 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看 信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多 面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智 能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、 信息更新不及时。这类搜索引擎的代表是:y a h o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、 g og u i d e 等。 2 机器人搜索引擎:由一个称为蜘蛛( s p i d e r ) 的机器人程序以某种策 略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检 索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面 向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工 干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这 类搜索引擎的代表是:a 1 t a v i s t a 、n o r t h e r nl i g h t 、e x c i t e 、i n f o s e e k 、i n k t o m i 、 f a s t 、l y c o s 、g o o g l e ;国内代表为: “天网”、悠游、o p e n f i n d 等。 3 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求 同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作 为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优 点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功 能,用户需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、i n f o m a r k e t 在分 号手。 传统的信息检索技术都是基于关键字的语法匹配和全文检索技术,主要借助 于目录、索引和关键词等方法来实现。此技术的优点是简单、快捷和容易实现, 但是其存在五个较为突出的问题: “忠实表达刀问题。由于在大多数情况下用户很难通过简单的几个关键 词来忠实地表达其检索需求,因此表达困难也就导致了检索质量难近人意。 无法准确揭示信息的实质内容。用题名、文摘或全文中出现的关键词来 标识文献的内容,常常不能充分揭示源信息的实质内涵。 检索算法采用词形匹配而非词义匹配。一义多词( 同义词) 现象的普遍 存在,导致了传统信息检索的查全率难以保证,而一词多义( 多义词) 现象则导 致在检索结果中包含了大量的无效信息,使得查准率也难以满足,在英文中,还 存在词形变换的问题( 如时态、单复数等) 。这些问题都是基于关键词匹配的检 索算法中所无法避免的。 “词汇孤岛刀问题。在人的大脑中,概念并不是孤立的,它总是与其他 概念之间存在各种各样的联系,正是这种联系造就了五彩缤纷的现实世界。而在 传统的信息检索中,这种概念之间的语义联系是很难描述的。 片面追求高的查全率导致了检索结果的数量过多,用户根本没有时间和 精力去处理检索得到的结果。 总之,在信息飞速增长的今天,传统的信息检索机制只是基于语法层面上的 简单匹配,缺乏对知识的表示、处理和理解能力,缺乏必要的智能性,难以适应 时代发展的需要。 1 3 本文研究的目的和研究内容 传统的信息检索的问题实质在于信息资源缺少统一的语义描述,用户难以查 1 2 询到与需求相关的信息,难以实现相关信息的语义融合。如何使信息资源具有应 用程序可以理解的含义,方便用户查找与自己需求相关的信息,这是目前信息检 索技术迫切需要解决的问题。目前的互联网上的内容大多数还只是面向人类,只 能供用户直接阅读和进行数据处理,对计算机来讲是不可识别的,没有提供计算 机可以理解的语义信息。这些限制了计算机在信息检索中的语义分析处理能力, 直接制约了搜索信息的智能化。传统的信息检索技术采用的只是基于语法层面上 的简单匹配,缺乏对知识的表示、处理和理解能力。解决问题的关键在于将信息 检索从传统的基于语法的简单匹配提升到基于语义知识层面。因此,本文的主要 研究目的就是在于通过赋予检索信息的具体语义内涵,使得可供检索的信息具有 知识( 或上下文) 层面的语义能力,来解决传统信息检索过程中所存在的问题, 以提高信息检索的质量和效率。 语义智能信息检索技术研究具有很高的学术理论意义和非常广阔的应用前 景。本文在前人的研究基础上,主要做了以下几个方面的工作: 深入分析了传统信息检索技术的优缺点; 针对传统信息检索技术的缺点和不足,将本体技术应用于信息检索中的新思 路,建立了语义智能信息检索的体系结构; 详细分析了本体技术在电信领域的应用情况; 深入研究了语义智能信息检索系统模型中所涉及到的本体技术、领域本体构 建、智能信息检索方法和系统流程等等关键技术; 设计并实现了基于领域本体的语义智能信息检索系统,系统以手机商品领域 为智能检索对象,构建了实验系统的手机商品本体知识库,利用j e a na p i ,开 发并实现了基于本体的手机商品语义检索系统( m p p s r s ) 。通过本体的语义推理处 理,充分发掘检索信息之间隐含的关联信息,为用户提供了良好的语义检索服务, 从而在根本上解决传统信息检索中资源对象语义信息缺乏的问题,更加准确和全 面地查询到用户需要的手机商品信息,实现语义智能信息检索。 分析了当前概念相似度的计算方法及其特点和不足,结合本体技术,在构建 的领域本体的基础上,探讨了结合基于距离的语义相似度和具有属性的语义相似 度的计算算法,并通过构建某公司的实际电子镇流器和荧光灯管的特定领域本体 的基础上,设计开发了基于本体的电子镇流器荧光灯管产品检索推荐系统,分 析并验证了改进的语义相似度计算方法的效果,表明基于本体的语义相似度计算 模型可以帮助扩展检索概念,提供有效的产品检索结果。 1 。4本文组织结构 全文共由八章组成。第一章绪论。其中阐述了信息检索的概念、目的以及性 能参数,并分析了当前国内外信息检索的研究现状和存在的缺点和不足,提出了 1 3 本文研究的目的和研究内容。 第二章语义w e b 和本体技术。介绍了语义w e b 的提出和概念,具体分析了语 义w e b 的体系结构、当前研究机构和研究现状,并分析了语义w e b 技术的应用情 况,对未来语义w e b 技术的研究进行了展望。接着就本体技术在电信领域的应用 研究,结合语义w e b 和本体技术,具体分析研究了其应用于电信领域,包括基于 本体的网络系统管理集成信息模型、语义w e b 技术应用于上下文感知的智能移动 w e b 服务和电信领域本体的构建情况等。 第三章基于本体技术的语义智能信息检索关键技术。针对语义智能信息检索 体系结构中的若干关键技术进行了深入的研究,包括本体技术、智能信息检索方 法、领域本体的构建和信息检索系统的流程等。 第四章基于本体技术的语义智能信息检索系统的设计。结合上一章智能信息 检索体系的关键技术,分析了当前传统手机商品在线网站的缺点,设计了手机商 品语义检索实验系统( m p p s r s ) ,提出了有效的解决方案,包括系统框架模型、手 机商品领域本体构建和语义推理等。 第五章基于本体技术的语义智能信息检索实验系统的实现。介绍了m p p s r s 实验系统的相关情况。在前面章节理论分析和技术设计的基础上,以手机产品作 为智能检索对象,设计开发了肝p s r s 实验系统。本章主要介绍了仲p s r s 实验系 统的开发实现过程和在押p s r s 实验系统中的语义检索算法,并演示了系统所实 现的功能。 第六章基于本体技术的语义相似度研究。分析了当前概念相似度研究现状, 结合本体技术,在构建的领域本体的基础上,提出了一种改进的基于领域本体的 语义相似度的计算模型,该模型结合基于距离的语义相似度和基于属性的语义相 似度,其中基于距离的语义相似度综合考虑并利用了本体类的层次关系中的多种 影响因素,如语义重合度、语义层次深度、语义距离、语义密度以及相应的调节 因子等,来计算领域本体内部概念之间的语义相似度。 第七章基于领域本体的语义相似度检索实验。分析了某公司的实际需求,基 于本体技术,结合该公司产品特点,在抽取公司研发和销售的电子镇流器和荧光 灯管产品,构建了电子镇流器和荧光灯管的本体库的基础上,利用了上一章具体 探讨的改进的基于领域本体的语义相似度计算模型,设计并实现了基于本体的电 子镇流器荧光灯管产品检索推荐系统( b l p 砌迟) 。实验系统中调整相应的各个调 节因子,并将实验数据与专家主观判断进行比较,分析并验证了改进的语义相似 度计算方法的效果,表明基于本体的语义相似度计算模型可以帮助扩展检索概 念,提供有效的产品检索结果。 第八章对本论文工作进行了总结和展望。总结了本文所做的研究工作,指出 1 4 并分析了实验系统中尚不完善的部分,对将来的工作进行了展望。 1 5 第二章语义w e b 和本体技术 2 1 引言 1 9 9 0 年,t i mb e r n e r s l e e 发明了万维网( w o r l dw i d ew e b ) 。如今万维网 已经成为人们日常生活不可缺少的一部分,人们利用万维网获取各种信息资源。 万维网已经改变了人与人之间的相互交流方式和商业领域的运作方法。万维网已 经发展成为一个巨大的全球化信息资源库,人们进行在线查询获取信息,浏览在 线商店和通过填写表格预定商品等等。但是这些活动还没有很好地获得软件工具 的支持,用于今天万维网上的主要的工具只是基于关键词的搜索引擎,例如 y a h o o , g o 0 9 1 e 等。然而这些搜索工具给出的结果往往是大量的没有价值的信 息链接,即使给出我们正确的相关页面,仍然需要人自己去浏览相关网页从大量 的内容中获取自己需要的相关信息,搜索工具并不能给出这些有用的信息。当然, 通过提高搜索工具的查询能力可以更加有效地得到查询信息。但是这种改进是有 限的,不能从根本上解决问题。现在看起来网络上信息量的增加远远超出搜索工 具技术的改进。现在的搜索工具在某种程度上不能称为“蔗序获:取,似乎称为 “岔量查找 可能更加适当。另外,现在的搜索工具常常独立于应用程序,查询 结果不能被其它软件工具使用。 目前的万维网上的内容大多数还只是面向人类,只能供用户直接阅读和进行 数据处理。这些内容对计算机来讲是不可识别的,没有提供计算机可以理解的语 义信息。这些限制了计算机在信息检索中的自动分析处理和进一步智能化的信息 处理能力,直接制约了万维网为人类提供更好的服务和更广泛的应用。 如何使万维网上的内容成为计算机可以理解的内容,便于计算机更好地处 理,即给出一种计算机能理解的表示信息的手段,这就是语义w e b ( s e l a n t i cw e b ) 技术的研究方向和动机。 2 2 语义w e b 提出和概念 语义w e b 是由万维网的创始人t i 皿b e r n e r s l e e 于1 9 9 8 年首次提出的。在 发表于2 0 0 1 年5 月的s c i e n t i f i ca m e r i c a n 杂志上的“t h es e m a n t i cw e b 文 章中,t i mb e r n e r s l e e 对语义w e b 做了这样的描述口1 :语义w e b 是对当前w e b 的扩展,它通过具有良好定义的意义的信息,来更好的帮助计算机与人之间进行 交互协同工作。由此可见,语义w e b 是对下一代万维网的展望,致力于以计算 机可处理形式表示信息。语义w e b 的目的是让计算机能够“理解 w e b 上的信息, 1 6 并在“理解”的前提下更好地处理和利用这些信息,为人类提供更好的服务。 语义w e b 是一个梦想:期望w e b 上的数据通过另一种不同于现在的方式描述 和链接,使得这些数据不仅能够以各种灵活的方式展现出来,也能被不同的应用 程序所自动处理、综合和重用h 1 。在语义w e b 中,网页中所蕴涵的语义信息能够 使得计算机完成大部分的自动化处理工作,例如软件代理程序通过网页中的语义 可以为用户完成复杂的旅行计划制定等任务,即从当前“机器可阅读”的w w w 扩展为“机器可理解”的语义w e b 。 2 3 语义w e b 体系结构 在2 0 0 0 年的涮l ( e x t e n s i b l em a r k u pl a n g u a g e ) 大会上t i mb e r n e r s l e e 提出的语义w e b 的体系结构,描述了语义w e b 的设计和视图的主要层次,如图 2 1 所示嘲。语义w e b 的发展是按照、 层次结构来进行的,每一层是建立 在另一层基础上的。下面就体系结 构的各个层次分别进行说明。 2 3 1u n i c o d e 和u r i 最底层u n i c o d e 和u r i 是整个 语义w e b 的基础。语义w e b 采用 u n i c o d e 作为字符的编码方案,处 理资源的编码,解决跨区域的字符 编码的标准格式问题,实现信息的统一编码。另外采用统一资源标识符( u n i f o r m r e s o u r c e 工d e n t i f i e r s ,u r i ) 来标识资源及其属性。所有的资源都使用u r i 来 标识。我们熟悉的u r l ( u n i f o 珈r e s o u r c el o c a t o r ) 是u r 工的其中的一种形式。 但是u r i 仅仅是用来进行资源标示,在很多时候并不能通过万维网来访问到相应 的信息,这也就是与u r l 的一个区别。 2 3 2x 地、n 锄es p a c e 和x 地s c h e m a x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是一种使用用户自定义的词汇编写结 构化网络内容的语言,使用标签来对发布的内容进行标记,并使用文档类型定义 ( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 或) ( m ls c h e m a 来约束这些标签的结构。由 于不同的用户独立定义自己的标签,这样一来就可能产生定义出同名标签问题。 另外为了避免x m l 标签的同名冲突问题,采用了命名空间( n 锄es p a c e ,n s ) 机 制。不同命名空间之间可以使用同名标签,同一命名空间下使用不同的标签哺1 。 x m l 将内容和结构与数据的表现形式相分离,很好地支持了在不同应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教师招聘之《幼儿教师招聘》通关练习试题附参考答案详解(基础题)
- 南区家庭工程保洁方案(3篇)
- 老年长期照护服务模式下的跨学科合作研究报告
- 路桥工程防汛演练方案(3篇)
- 酒店工程人员激励方案(3篇)
- 聚焦2025智能制造装备研发资金申请可行性分析报告
- 医患关系失和原因
- 智能交通2025年多式联运信息平台功能升级与物流行业协同发展路径研究
- 车床与机械加工培训课件
- 二甲基甲酰胺装置操作工理念考核试卷及答案
- 市场管理考试试题及答案
- 2025至2030年中国大型电脑行业市场深度分析及发展前景预测报告
- 2024年秦皇岛市市直机关遴选考试真题
- 社区网格员笔试考试题库及参考答案
- 2025年中小学生科学知识竞赛试题及答案
- 2025年中医确有专长考试题及答案
- 胸腰椎压缩骨折课件
- 2025年度粉末涂料生产与销售合同范本
- 三力测试题库2025版考题及答案
- 企业安全生产无事故管理方案
- 2025北京京剧院招聘工作人员10人笔试模拟试题及答案解析
评论
0/150
提交评论