(计算机应用技术专业论文)基于本体和互信息的查询语义扩展模型的研究.pdf_第1页
(计算机应用技术专业论文)基于本体和互信息的查询语义扩展模型的研究.pdf_第2页
(计算机应用技术专业论文)基于本体和互信息的查询语义扩展模型的研究.pdf_第3页
(计算机应用技术专业论文)基于本体和互信息的查询语义扩展模型的研究.pdf_第4页
(计算机应用技术专业论文)基于本体和互信息的查询语义扩展模型的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于本体和互信息的查询语义扩展模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

颤露大譬竣士掌傅论又甲义捅望 基于本体和互信息的查询语义 扩展模型的研究 计算机应用技术专业硕士研究生夏磊 指导教师周竹荣副教授 摘要 随着i n t e m e t 技术的发展,入类已经步入信息时代。信息发布的自e l l 化和信息提供的 简单化,促进了w w w 的繁荣。然而随着湖上数字化信息量的日益庞大,w w w 上大量分 布的无结构和半结构他数据墨藏加羽了信怠检索的戮难度。因鼗如何抉速准确的检索禳关 信息已经成为当今信息领域的研究热点。e l j 于信息发布的自由化,人们将信息发布到网上 嚣孪,针对同一领域酶知识点,不阕的信息发毒者所使用躬特征溺或关键字可能不经耀同: 再加上用户在搜索信息时,大多数人仅仅是输入一个关键字进行搜索;遮两种情况的存在 叉增加了在飕上搜索到用户所需信息的难度。 在这种情况下,本文的研究以如何能使用户通过搜索弓l 擎得到更好的可用信息为目 的,构建了基于本体和互信息的查询语义扩展模型( q s eo m i ) 。本文的研究工作主要包 括以下几个方面: 1 、 研究如何将互信息与查询语义扩展相结合。互信息是用来表示两个单词之间 关联程度大小的量度;同时,查询语义扩展是将翊户输入的粪询关键字迸露 领域相关的扩展。本文在分析和讨论了这两种理论之后,给出了如何将这两 者结合在起,并剑建了查询语义扩展予模型,对其进行了讨论和研究; 2 、本文还对本体和互信息的优势分别进行了阐述,并利用其各自的特点及优势, 提出将二者结合在起,形成优势互补,使查询语义扩展能深入到语义理解 层次,能更进一步地抑制盲翻扩展而带来的信息冗余; 3 、 在上述工作的基础上,论文设计并实现了实验系统q s eo m l 。实验系统运行 情况及实验结果表明,基于本体和互信怠的查询语义个性化扩展麓较好的对 用户查询问句关键字进行领域相关的扩展,并在检索结果的查全率和查准率 上畜一定的提高。 本文的研究对q e 的相关理论有一定的促进作用,同时我们所研究的q s e m i 可在 支持用户个性化检索的同时,进行语义层睡上的扩展,这对查璃扩展优化这方瑶的研究有 定的推动作用。 , 关键词:领域本体互信息语义扩展领域相关 嚣鸯大学硕十学待论文英文摘要 q u e 秽s e m a n t i ce x p a n s i o hm o d e lba s e do n o n t o l o g ya n dm 咖a l 羔n 如n n 越i o n c 黼d i d 眦o fm a s 钯r sd e 辨em 萄键崦i nc o 唧u t e f a p p i i e a t i 豫:x i al e i s u p e r v i s o r :a s s o c i a t ep r o f z h o uz h u r o n g a b s 量r a e 专 a s 曩l ed e v e l o 巧甥o fl n 撼m c l 疑e h n o l o 鬈茄量l 啪锄- 挺i n gh 觞s t e p p e di n 蚀幽el n f o 黼a l i o n a p e s r h ef e d o mo fd e l i e v e r i n gi n 蠡珈阿n a t i o na n ds i m p l i 矗c a t i o no fp 1 o v i d i n gi n f l o r n l a t i o n a c c e l e r a t et h ew w w sf l o u r i s h i n g t h em o r ci n f o 瑚a t i o nt h e r e 棚co ni n t e m e t ,t 1 1 em o r ed i 炳c u l t 董of l 繇畦硷p 羚p 娌l 藏稻糯采i 鞠瓤诣e 魏e n v i o 潮e 瞪蝻l e h 酶f l l l e 莲韵砉鑫法爨糟翱嘲隧o f n o n s t r u c t u r a ia n dm u l s t m c t u r a l s oi tb e c o m e st ob eaf e s e a 糙hh o f i e l dt of i n do u l 也ew a yl or c t r i e v e 也er e l a 童e d i n f o n n a t i o nh i 曲e 筒c i e n t l y p u b l i s h e r sa l w a y su s ed l 腑r e n tk e y w o 磁so rt e 黼st od e s e r b et h e 龇m ek n o w i e d g ep o i m ,e v e nm o r c ,u s e r sa l w a y sj 憾t t y p ei no n ew o r dl os e a r c hi n f o 硼a t i o nt h e y 、瓣鑫s l l e h 砖e 嚣。撵e n o 蕤翔餐( e s 穗l 魏g sw o f s e u n d e r i n gs u c hb a c k 酽o u n d ,i tt ob eo u rr e s e a r c h sp u r p o s et om a k eu s e r sg e tm u c hm o r e u s e 允li n f o r | n 越i o n 啦e yn e e d w 毫p r o p o s e dt h eq u e 哆s e m a n t i ce x p 锄s i o nm o d e lb a s e d 锄 。渤l o g y 黼dm u t u a ll n f o 珊a t l o n ( q s e m i ) t oa c h l e v et l 豫p u q ) o 辩,o _ i l rf e s e a r c h e s 笛 f o l l o w s : l 、d i s c 璐s 赫w 轮e o 臻b l 麟氇em 激雌ll n f o 涨教i o n ( 鹾1 ) 鞠鑫q 鹋秽酞p 熊s i o 魏( c 匿) 。 m ii su s e dt oe x p r e s st h er e l a t i o nb e t 、v e e nt 、v ow o r d s ;m e 锄w h i l eq ei st oe x p 锄( 1 t h o s ek e y w o r d sv 吨i c hw e r ei n p u t e db yu s e r s i nt h i sp a p e r ,w eb u i l daq em o d e lt 0 c o m b i l e 蠕o s et w o 像e o r l e s 趱c ra n a l y s i n g 黼d 豫s e a f c h i n g 耄b e m ; 2 、i nt h i sp a p e r 、ea l s od e s c r i b et h ea d v a n t a g e so fo n t o l o 舒锄dm i w ba l s op u t 也e ml o g e 掇嚣耗e 绷s e 懿f o 饕魏d 幽e 稿w 掇疆萨so f 饿e 蠹倒雌c a nm a 薹( e 娃p 氆e d e f e c t so ft h e0 t h e rs i d e t 讯a 1 1 0 t h e fa d v a n 住t g eo fp 眦i n gt h e mt o g e t h e ri st h e y c a n 嘶n gt h es e m a n t i ci n t ot h eq e 锄dr e d u c et l l e 他“n d 锄c y “e x p a i l s i o n ; 3、web 壕l 纛氇ee x p e r l m e 毽s y s _ 沧攥q s 至鹾lh p o n 角o s ef o 毽n d 采i o n sw ej u s l m e n t i o n e da b o v e a 触rs u r v e y i n gt h er e s u l to ft h es y s t e m ,i tc a ni m p r o v et h er a t i o o fp 嗽i s i o na n df 越io f 妫ei n 如r m 教i o n 瓣l r i e v e n l eq s e _ - o m lw ep u tf o r w a r dc 觚s u p p o r tt h el l s e rp r o f i l em o d e l ;i ta l s oc a nu n d e r 蛐m d t h es 锄锄t i co fk e y w o r d si n p u t e d nh 勰s o m ef o r c e m e n te f r e c t i o nt ot h eq ef i e l d 1 ( e y w o r d s :d o m a i no n t o l o g y ;m i ;q e ;d o m a i nr e l a t e d ; i i 独创性声明 学位论文题目_ 。基王奎篮塑亘焦! 垦数查边疆幺芷展搓型叠究 本人提交的学位论文是在导师指导下进行的研究工作及取得的 研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加 了特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同 仁在文巾作了明确说明并表示衷心感谢。 叼胃 学位论文作者:次影签字日期:渺,箩年擘月尸甚 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院( 筹) 可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:醉保密, 口保密期限至年月止) 。 9口 学位论文作者签名:履品导师签名:厍i 葬 签字弱期:汐彳年月日签字露期:2 参舀8 年4 月二墨 职南大学硕十学位论文第一章绪论 第一章绪论1 帚一早珀v e 本章对论文研究的背景、国内外相关研究现状、研究的内容和意义以及论文的内容安 排予以说明。 1 1 论文研究背景 近年来,贶b 丰鬻的信息内容和易访阏性,使镄互联网已经融入到大众的旦常生活当 中,从最初的简单的信息获取发展到现如今的p l e a r n i n g ,扣b u s i n e s s ,e g o v e m m e n t 等 等。网络已经成为能自动地处理各种信息,具有良好的用户测览界面及动态显示数据的多 功能平台。丽互联网的功髓也由当初仅仅是发布数据,然后是交互缝获取数据发展翻今天 根据用户提出的需求来获取信息,并能进行智能检索,智能推荐等一定程度的智能化功能。 信息发糍鲮自由化秘信息提供的简单纯促进了w w w 的繁荣。然两,随着数据量的激 增,w w w 上大量分布的无结构和半结构化数据日益加剧了信息检索的困难度。现在大众 普遍使用的检索方式多是基于超链接的网页浏览或利用搜索引擎的快速资找,但它们的检 索效果都不能令人满意。 在传统的信息检索中,比如全文检索系统和大部分的搜索引擎,其模型的建立是基于 关键字的匹配或倒捧索引表的,只能根据用户输入的关键字进行选配检索。但是这往往会 导致由于用户所选择的词和文梢中发现的目标词不瓯配,从而导致检索效率低下乃至失败。 比如用户使用“电脑”作为检索词,而文档中出现的却是“计算机”,尽管它们描述的是完 全相嚣的概念僵是霹予计算辊嚣言,这两个都是完全不阂盼检索对象。因此查询扩展( ( 独e 搿 e x p a n s i o n ,q e ) 技术在原来查询的基础上加入了与用户用词相关联的词,组成新的更长, 鞭准确的查询,这样在一定程度上弥补了用户查询信息不足的缺陷。 1 2 国内外相关领域的研究现状 虽然传统懿信息捡索技术已经在缎大程度上褥到了实际的瘦耀,弗基取穆了摆当的成 功,但即使是当前最流行的商业搜索引擎g o o g i e 也无法克服信息检索技术与生俱来的问 题。例如如何从庞杂无序的信息海洋中快速定位用户需要查找的资料,以及如何把最符合 潮户意图酶謦标返回绘用户等等。 t i mb e m e r sl e e 在1 9 9 8 年提出了s e m a n t i cw 曲的概念之后,w 3 c 在2 0 0 1 年2 月正 式推出s e 攥懿l i e 溉ba c t v 姆,阏络嚣境下的语义检索进入信惠检索研究发展的主流。 传统的信息检索方法或搜索引擎,无论是关键字符的匹配,还是结合布尔逻辑运算提 供更为复杂的查询表达方式,都是以关键词匹配为基础的。这种方法有两种缺陷i i j : l 、检索结果只是在字露主符合用户的要求,实际志容往往偏离予用户熬需要; 2 、用户输入的查询稍有偏差,检索系统就无法确定用户的真正需簧,因而无法提供 正确的结果。 为了解决这些问题,研究者尝试从语义的角度进行考虑。通常的研究主要从离然语言 处理,基予概念的方法以及基于本体的思路等三个方面来实现语义在信息检索中的集成和 蒇用。 鼹南大学硕七学位论文第一章绪论 自然语言处理( n l p ) 技术则试图通过将某个落询的语义信息与文档的语义信息进行 匹配来提高套询的性蒯2 叫。n l p 技术已经被应用于大规模t e x tr e t r i e v a lc o n 龟f 铋c e ( 僦c ) 语料库,并获得一定程度豹成功嘲。 h s i n c h u nc h e n 首先提出基于概念的文本自动分类与语义检索【们。采用机器学习的方 法,实现了大量文本爨动分类,标注和检索。 概念怒关于具有菇同属性的一组对象,事件或符号的知识,是客观枣物在头脑中的反 映,由字、词、词组等概念描述元素表达出来。同概念可以由多个描述元素来表达,这 些描述元素在此概念的约束下构成7 同义关系。一个概念著菲独立存在酌,两是与其它概 念存在着关系,相互之间存在着联系,形成蕴含语义的关系网。在关系网中,可实现同义 调扩展检索,语义蕴禽扩展以及语义相关扩展等。此后,基于概念的检索被应用到数字图 书馆领域l 。 另一种经典的语义检索方式为隐含语义索引( l a t e n ts e m a n t i ci n d e x i n 辫l s i ) 方法【m 1 2 】。 它利用矩薄理论中酶“奇异值分解( s v d ) ”,将词频矩阵转纯兔奇冥矩蹲:首先从全部豹 文档集中生成一个标引项文档矩阵,该矩阵的每个分量为蹩数值,代表某个特定的标 引项出现在某个特定文档中次数;然后将该矩阵进褥奇异值分解,剔除较小的奇晃值,而 籍用其将文档向量和畿询向量映射到一个予空间。在该空间中,来自标弓| 项文档矩阵 的语义关系被保留,同时标引项用法的变异被计算;最后,可以通过标准化的内积计算来 计算向量之闷酶夹焦余弦相似度,再将文挡按与查询静摆似度降序捧列。这秘方法把不舍 森询字符串但相关的文档提取出来,经过转换之后,相关的词汇会经由文件所包禽的内容 相关,和“概念检索”有相似之处。使用l s i 技术就意味着搜索引擎在检索网页时i l 引,试 图把某些查询术语和其潜在的概念联系起来,有效魂解决了网义谲帮多义词的问题,提高 丁信息检索的精度。s n a s e l 【1 4 1 把l s i 中的概念映射到用w 6 r d n e t 建立的本体中,同时使用 嚣者进行检索,对提高蠢全率有一定帮助。 最早在1 9 9 4 年v o o r h e e s 就曾提出基于本体的查询扩展1 1 5 】,使用了本体中的概念进行 查询扩展,并得出最有效的方式是利用本体中的同义词和特定的子类关系进行扩展。此后 蒸予本体的查询扩展饼究侧重予两个方面;基于结构化的方法和基于注释的方法。翦者着 重从本体的结构信息中抽取出相似度衡量的依据,而后者则通过计算本体术语的定义中的 璧叠次数来鬻量语义檩似度。 m a l c i 在2 0 0 3 年提出了基于本体结构的方法f l 朝,基本的思想是利用本体中的路径来 进行用户畿询的扩展。在本体的结构图中,每一个概念的节点都与其他节点有着连通的路 径,因l 鼙:对鹰户查询进行扩展时,可畈选择与该节赢连通的路径上酶概念。在对概念选择 的时候,m a k i 提出了利用一系列的关系边和概念节点之间相似度的方法来进行排序,优先 选择与被扩展概念相似度大者。两计算摆似度依赖予本体的结构,铡如进行比较的概念之 间路径的数鳖,长度以及路径巾存在关系种类数,路径中节点种类等,都可作为衡簧的标 准。 2 0 0 4 车,n a v i g l l 在【1 7 】中掇出了基予本傣注释戆查询扩震方法。该方法假定了在本体 中相似的概念或术语也具有相似的定义,使用w 研d n e t 中的概念并对其进行扩展了注释。 确i l i p n o u f 在2 0 年使用了基于本体的方法在项目开发的经验霹中建立关于经验的索 2 骶南大学硕士学侥论文第一章绪论 弓引,g s o i d e r 在2 0 0 1 年提出了语义检索模型的体系结构,以便于从科学数据中提取语 义【9 】;k h a n 和m e l e o d 设计并实现了一个用本体构造的基于概念的模型用于文本检索1 2 0 1 。 朋没t 建立了一个应用本体技术豹信息检索系统f i n d 疆之系统潮。 中科院计算所智能信息处理开放研究实验室建立的基于本体论和多主体的信息检索 服务器澎j 是一静利用多智能主体和本体理论设诗的傣惑检索服务器,集成了赛瑟主体、预 处理主体、管理主体、信息处理主体和具有移动性的信息搜集生体,并利用本体对文档进 行领域分类,同时对用户的查询信息进行规范。文献【2 3 】介绍了一个基于本体的信息检索 主体砸l l s a ,用予在医疗专照领域检索参考文献。但这两项毳拜究都没蠢使用形式他静本 体语言来建立本体,没有考虑本体的推理问题,对本体的应用还是很粗略的。 宋竣蜂i 2 4 l 提出的基予本体的信息检索模型采用了接述逻辑俘为构造本体的本体语言, 使用本体中定义的词汇来标记文档,生成基于本体的文档逻辑视图和用户信息需求逻辑视 图,从而可以实现语义层次的梭索,使检索性能大大改善。但是该文只考虑了概念间和个 体闻的等价关系,忽鼹了本体所能提供豹许多有用的关系,如概念闻的包含关系、概念阁 的不相交关系、个体与概念间的成员关系等;同时对本体的构建采用的憋较简单的描述逻 辑,知识表达能力较弱。对于如何在较复杂的关系下实现更鸯效的信息检索、如何在较强 的描述逻辑下保证推理的效率等问题有待于进一步研究。 在现有的基于本体的信息检索研究中,无论是采用结构化的方法描述文档,还是采用 囱动标注的方法进行处理,郝怒在本俸豹概念层次基础上进褥的,这些方式较常规戆文档 处理方法如标引词抽取、页面标签标引、同义词相关词典等已l 经有了很大的进步,能够有 助于提取文档的语义内容方愿;在用户查询扩展方蘸,基于本体的方法也取得了缀大的进 展。 1 3 论文的意义和创新 本文主要在上述研究的基础上。针对当前基于本体的语义检索中查询扩展存在的一些 不足和问题,提出了相应的查询扩展模型和方法;针对语义扩展的精度和扩展的个性化要 求,分剐提出了基于至信患和本体酶协丽过滤模登j l 】查询语义扩展模型,组成了基于本体 和互信息的连询语义扩展模型。 本文在基予本体翻互信息的焘诲语义扩展模型的总体框絮下,从以下几个方藤进行了 研究: ( 一) 语义检索项的预处理 隽了缣证用户的凌询语义扩展能颓剩进行,需解决瑷下问题:一是构造合适麓领域本 体,以便能够恰当地描述和刻蹴相关领域的知识及其之间的关系;二是文档集的获取和预 处理。本体熬构造依赖于相应领域的文楼集,通过分析相应领域的知识和文档,本文在文 献 2 5 的基础上,构造了相应的本体的概念层次结构图,并实现了中文分词,做好了语义 扩展的前期工作。 ( 二) 基于本体翡互信惠戆蠢诲语义扩展模型鹩研究 在基予本体和互信息的查询语义扩展模型的研究中,涉及到两个主要的问题:首先是 对文档集的互信息计算之后,利用所构建的领域本体,对文档集中特征项关键字进行过滤, 3 弼南大学硕十学德论文第一章绪论 得到领域备选关键字集,作为查询扩展关键字的筛选源数据。其次越利用概念语义网 ( h o 鼎e t ) 对用户查询闯句进行预扩展,然后再利用凼互信息与本体协同过滤后所得的领域 备选关键字集进行筛选,与耀户兴趣模型楣结合,获丽得到最终用于检索静关键字。 ( 三) 语义发现模型研究 在利用豆信息与本体协同过滤时,出予语言在社会发展过程中是处予动态的,变化的, 两非完全是静止的状态,因此,我们会在某个固定的周期内定时地对所剑建的本体进行修 改和完善。这就涉及到两个问题; ( 1 ) 一方蘧,如何完成薪谣义酶自动发现。利用所褥到的互信惠矩阵与过滤后所得 到的关键字进行比对筛选,则可以较大程度的实现新语义的自动发现功能。另一方面,通 过用户的反馈,也可以手动发现新语义,同时还能通过用户的反馈发现原领域本体当中存 在酶错误或是语言过时的耀法之类酶闻题。 ( 2 ) 发现新语义并得到新语义集之后,如何实现本体的自动或半自动的更新,这又 是一个需要解决的问题。创建领域本体是一个相当庞大的工稷,同样,对领域本体的修改 和完善也是个庞大的工程。如果单靠人工手动的进行,将消耗大量酶入力、物力。因此, 如何实现本体的自动学习能力,是另一个藿要的问题。 这一系列的研究都以提高锈义检索的悫全率,达到查询语义扩展,为用户捡索出更多 有用的领域相关的信患为目的。 本文的主要贡献和创新之处在于: l 、提磁了一静基予互信息耨本体协同过滤的模墅 针对现有查询扩展策略缺纛有效的语义处理机制,在深入分析现有基于本体概念的查 询扩展策略的基础上,提出了利用互信息与本体相结合的方法,不仅能很好的从语义理解 角度来对查询问旬进行扩展,还能更好趣进行本体的自我更新,实现本体学习。 2 、提出了基于本体和互信息的用户查询语义扩展模型 查询扩展通常根据领域本体或是根据耀户输入的关键字棚关领域进行扩展,瓤忽略了 用户这个查询主体。将用户个性化模型引入查询扩展模型,能更好的检索出符合用户意图 的查询结聚。 1 4 论文的内容安排 本文在对传统的查询扩展理论的研究基础上,提出了基于本体和互信息的查询语义扩 震模型,沈较系统趣研究了本体及互信息在检索技术孛应用斡缨节。本文将按以下内容进 行组织:第一章为论文的绪论,讲解了论文研究内容的发展现状以及论文所作工作的创新 憔;第二章羞重为论文研究采用的相关理论,介绍了本研究所涉及的相关理论:森询扩展 毽论,互信息及本体理论;第三章给出了基予本体和互信息静凌询语义扩震模型静总体框 架,主要对模型所包括的文档预处理子系统,协同过滤子系统,语义扩展子系统和最终检 索子系统进行了大概的阐述;随后在第西、五章分别就协同过滤予系统和语义扩矮子系统 进行了深入详细的介绍。其中第四章给出了协同过滤子系统的结构和形式化模型,并对子 系统当中的概念进行了定义,制定出了相应的规则和提出了一些具体的算法;第五章给出 了语义扩袋子系统的结构和形式纯模型,并对子系统当中黪模块进行了形式纯定义,设计 了相应的算法。第六章为实验系统及实验评估;第七章为全文的总结与未来工作展望。 4 两南大学硕士学位论文第一章摆荚基狴理论 第二章相关基础理论 2 1 查询扩展理论 在信息检索中,往往出现由乎翔户所选择的词和文档中出现的目标调不匹配,从面导 致了检索效率低下乃至失败的现象。比如用户使用“电脑”俸为检索谲,而文档中出现的 却是“计算机”,尽管它们所描述的概念是相同的,但是对于计算机而言,这两个具有相同 概念静物体帮是两个宠全不同的且独立的个体。 雕l 豁第一个发现了所谓静“诿典润题” ( v 0 c a b u l a 搿p r o b l e m ) 忙引。它们的研究表明,通常情况下,两个人使用阿样的关键字来描 述同一物体的机率小予2 0 。通过对微软旗下的m s n 中的e n c a r d 2 7 1 在线百科全书网站连 续两个月的用户查询记录分析,他们发现4 9 的用户查询时只用一个攀词,3 3 的凌询由 两个单词构成,用户平均使用1 4 个单词来描述他们的查询【2 s 1 。当用户查询越短的时候, 不匹配静现象也就越酱遍;当囊竭词增多游,查询调在文搂中发现的概率也大大增加。因 此查询扩展( q u e r ye x p a n s i o n ) 技术在原来查询的基础上加入与用户用词相关联的词,组 成新的更长的,语义上更准确的查询。这样在一定程度上可以弥补用户粪询信息不足的缺 陷,逐渐发展成了倍惠检索( 1 n f o 嘲a t i o n 轴t r i e v a l ) 领域研究的一个重要方向。 查询扩展技术早在2 0 世纪7 0 年代就被提出来了。作为解决表达差异的一种有效方法, 即在原查询溺鳇基础土加入与爝户用词榛关熬词或词组,组成新的、更溅确的查询词序列, 在一定程度上能弥补用户表达与可能的候选段落的差别,尽可能以较小的遗漏检索出候选 文档。作为信息检索的一种方法,该技术用于提高信息检索时的查全率和查准率。目前的 倍怠检索系统,无论是中文豹还是英文豹,大部分都还是基于关键字进行查询,通避瘸户 输入的关键字,自动进行查询扩展,对扩展后得到的关键字的间义词或关联词进行检索, 把用户希望单凭输入的关键字查询无法检索到的结鬃返回绘用户。一般蠢两神扩展方式: ( 1 ) 加入的扩展词与原始查询词相近,例如用户要检索“计算机用“电脑”,“微 机”等词可以表达同样的概念。 ( 2 ) 扩展过程添加全新的谶汇,铡如检索“谤算橇”,可汉联想到榉惠善”,样微软” 等名词。 翦一种方式通常使雳词与调之间相关信息韵资源来进彳予,例如同义调词典,避义词词 典等等,这种主要使用的资源往往是经过专家的参岛,能够保证扩展的语义不会损失太多, 但这对资源配置的要求比较高,不一定能得到相关领域的全面的词典;第二种方式可利用 第一次捡索的结栗,分橱绕计出结采中酶襁关谲或是穰爝大撬模豹文缓作必诩练文栏集, 分析文档中词之间的共现关系,构建出相关的词库成语料库等。如果单纯依赖于第一次地 检索结果或利用大规模的文档作为训练文档集,通过数学的方法自动获得词的共现信息, 在英文信息检索中的应用已经获得了较为理想的检索效果。 2 1 1 基于全局和局部分析的查询扩展 全局分析是较早出现的具有实际应用价值的查询扩展优化方法,其基本思想是对全部 文档中的词或词组进彳亍相关分析,计算每对词或词组之间的关联程度。当一个新的查询到 来时,则搬据预先访算的词组棱关关系,将与查询愆谲关联程度最高的谪及词组加入到骧 5 弼南大学硕十学位论文第二章相关蒸础理论 套询当中,生成新的查询。早期的典型全局分析的方法是词聚类方法,它是将文档中出现 的词按共同发生的频率先行聚类,其后根据词的不周集合对查询进行扩展。目前常见的全 髑分析方法包括潜在语义索弓l 乙s ll 矧,楣似性词典l 矧等,其优势在于可以最大限度地探求 词与词之间的关系,并在词典建立之后以较高的效率进行查询扩展。但是,当文档集合非 常大对,建立全局的调关系词典在时闻和空阀上都是相当困难的,并且在文档集有所修改 之后,对语料库的更新的代价怒巨大的。因此,后来的研究主要集中在岛之对应的局部分 析上。 旱在1 9 7 7 年,a 凇和f 粥n 妇l 就提戮7 局部分辑的愚想阳。局部分析利用的是两次 奄询的方法来解决扩展问题。局部分析利用初次检索得到的与原查询最相关的几篇文章作 为扩展用词的来源,箍并非剩髑先前计算得到的全局词关系调典。蜀翦流行的局部分析方 法主要是局部反馈法。它是在相关反馈技术上发展起来的p 孤。相关反馈技术需要用户进 行交互,根据用户对初次检索结果的评价将相关的文章作为查询扩展用词的来源;而局部 反馈技术剿童接将初次查询所褥的前n 篇文章 筝为糨关文章,并以此为依据对查询进行扩 展。局部分析的方法是目前最流行的查询扩展方法。但这种技术对初次蠢询的结果依赖性 缀大,一旦初次查询的翦n 篇文档与原查询相关度不大时,大爨无关的词就会被加入查询, 从而严重降低查询精度,甚至导致检索结果比初次森询更差。 2 1 。2 基于词表的查询扩展、 词表是指一套词组或者词语的集合,有时也包括集合中词间的各种关系。虽然词表在 商业和实验性的信息稔索系统中应用得很普遍,但实验显示出的检索效率并不稳定。 有两种方式的入工词表: 普适性的、基于词语的词表,如w b r d n e t 【3 4 1 ,h o w n c t 【3 5 1 等,词袭中含有语义联系 妊阉义调或者反义词,但是这耪联系很少在信息检索系统中馒耀。 面向信息检索的、基于词组的词表,例如美国国会圈书馆主题词表( l i b 娜o f c o n g r e s ss u b j e c th e a d i n g s ) 和m e s h 医学主题词表等。 这些递表包含检索谲之阕的关系有:上位类检索词、下位类检索词、替代词和荚联诿, 通常这些是由专家研究得出,因此构造这些词表的代价非常昂贵,而且需要很长时间。 以w d 撼n e t 为例,是由g e o 秘m i l l e r 领导约普林薪顿大学研究小组基础上发腥起来的 个手工词表,可以以机读的方式获得。在w o r d n 敷中,词语进行分类,类中每个节点都 代表了单一意思的一个同义集。基于不同的词性有四种不同的类别,同时在这些类别之间 定义了诲多裰关联系。使耀w b 砖k 舔来进行查诲扩展时,查询中静所有检索诿都使用同义 词或者上下位词等的结合来扩展。很多的研究学者尝试使用w b d n e t 中定义的联系来进行 粪询扩展,由于w d f d n e t 是一个通用性的词表,在各个领域都可以广泛应用,缺乏专业领 域的词语问的联系,因此结果不太理想。 知网( h o w n e t ) 是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与 撅念之瓣以及概念所具有的属髅之翔的关系为内容的常识舞谈库,是最必出名的采用汉语 描述的本体。它通过义原( 即基本的不可再分的语亩单位,语义中的原) 的组合来表示各 种各样的单纯或复杂的概念,以及各个概念之间,概念的属性和属性之间的关系。它是 6 骶南大学硕十学位论文第二章楣关基础理论 由中科院计算机语言信息中心语言知识研究室主任蘧振东教授在1 9 8 8 年前后发表的论文 中所提出的观点的实现和研究。 2 1 。3 基予语义的查询扩展 常规的查询扩展方法虽然能够在同义词、近义调及统计的方法下钱得到较好的效果, 健前面两种方法需要入为的手动干预,速度慢,难度大,最理想的情况燕趋向于语义聚类。 但有时,这些聚类跟查询并无关联。此外,查询扩展也存在很多的潜在危险,最主要就是 查询偏移( q 毪e 咎d f 添) 现象。这种现象往往出现在焉户输入酶是具有多义魏词、词组或 是模棱两可的词的情况。例如o r a c i e ,在检索的过程中容易将o r l e 可作为“甲骨文”与 “0 r a c 1 e 公司”相混淆,以至于在查询扩展的路上越走越远。蕊基于本体的查询扩展在处 理类似情况的时候,常会比常规的扩展方法更为行之有效。 早在1 9 9 4 年r h e e s 就曾提出了基于本体的查询扩展【1 5 】,使用了本体中的概念进行 燕谗扩展,得出最有效兹方式是剩用本体中麓弱义调和特定的予类关系遴行扩展。 m a l ( i 在2 0 0 3 年提出了基予本体结构的方法1 1 6 】,利用本体的路径来进行用户查询扩展。 2 0 0 4 年n a v i g l i 【1 7 l 提出了基于本体注释的查询扩展方法,假定术语或概念之间存在相 似,利用w b r 斟e t 进行扩充注释,铁而进行相似度计算。 2 。2 互信息概念及算法【3 6 】 信息论是由香农( c 。e s h a n n o n ,1 9 l “2 0 0 1 ) 予2 0 世纪4 0 年代末创立的关于信息通 信的数学理论,香农研究了通过条噪声信道的输出信号来恢复输入信号的问题。在香农 为信怠量确定名称豹时候,数学家冯诺依曼( j 。毛。、b n 珏辩黼n ,1 9 3 1 9 5 7 ) 建议称荛 熵( e n t r o p y ) 。理由是不确定性函数在统计力学中已经用在熵下面了,番农接受了这个建 议。在热力学中,熵是物质系统状态的一个函数,它表示微观粒子之闻无规则的排歹| j 程度, 即表示系统混乱的程度。一个系统的熵就是它的无维织程度的度量,正如个系统中的信 息量是它的组织化程度的度量。信息量正好是熵的负数。由于信息论中的熵与势力学中的 熵无关,所以加戳区分,我嚣】将信惠领域燕麓不确定性的度量称失信惠壤。 对于信息接收者而言,通信的目的在于获取信息也就是说收信人事先对通信的内容并 不确知,冠邋过锝到信息消除了这种不确定性。因此,不确定的程度是信息量的一个量度。 不确定性越大,信息繁就越大,反之英| j 越小。 在信息处理领域,公式日= l o g k 中对数的底通常取2 ,相应的计量单位称为比特 ( b 1 1 ) ,以l o 为底酶瓣数称为晗特剜镰甜l e y ) ,以e 隽底的对数称为纳特秘嘲。在信息通 信中,并不是每个字出现的概率都相同的,而是具有特定的概率分布,令p 御为一个在有 限字符集q 上取值的隧机变量x 的概率密度函数: p ( x ) = p ( x = 功,x q ( 1 ) 随机变量的信息烧是该随机变量的平均不确定性程度: ( p ) = _ 日( x ) = 一p ( x ) p 助( x ) = p ( x ) p 6 = 岳 ( 2 ) 7 鼹南大学硕士学傅论文第二章楣荚溪础理论 根据数学期望的定义,信息熵的另一种解释是函数加高的数学期热即 日( x ) 鲫( 加高) a 两个离散型随机变量x 和】,的联合熵是确定两个随机变爨的值所 需的平均信息量,设,y p ,j ,) ,它们的联合熵由下式给出: 嚣( x ,玲= 一p ( x ,力l o g p ( 为力 鳓 j 纯蚱q y 给定另一个离散型随机变量z 个离散拟号随机变量】,的条件熵是在已知随机变量x 的 取值的条件下,确定y 的取值所需的平均信息量。设x ,p ,y ) ,l ,的条件熵由下式 给出: ( y f x ) = p ( x ) 日( j ,| x = x ) = p ( x ) 卜p ( y i x ) l o g p ( y i x ) 】= 一烈五y ) l o g p ( j ,i x ) * 毫n ,j e q 一脂q。q y “l , ( 5 ) 在熵值的计算中,有一个链规则,公式为: 日( x ,即= 日( x ) + 劈( ylx )( 6 ) 丑( x l ,置,骂鼍) = 嚣( x 1 ) + 日( x 2 | x 1 ) + + 日( x 。| x l ,x 2 ,以一1 ) 称为 熵的链规则。由熵的链规则可知: 露( 菇,粉= 嚣( 菇 + 露( y | x ) = 露( 玲+ 嚣( x | 扮 、 0 ) 予是,丑( ) 一日( xi 聊= 日( 砷一日( yix ) 这一差值称为随机变量x 和】,的互信息 ( m u t u a li n f o m l a t i o n ) ,记作科矽。两个随机变量的互信息可以解释为知道一个随机变量 麴取值后对另一个随机变量的不确定性的减少量,或者一个随机变量包禽的另一个随机变 量的信息鬃。 两个隧砉毽变量的置信息是非负,对称的量度,可以用予餐避鼹个随机变量的依赖程度 ( 或独立性) 。当两个随机变量独立时,它们的互信息刚好为o ,互信息的取值越大,表明 两个随飙变量地菝赖程度越焘。经推导可得: 职;即= 否p 似抛器 由于日( xix ) = 0 ,( x ) = ( x ) 一( 爿ix ) = ,( x ;x ) , 8 ( 8 ) 因此信息熵又称为自信息 西南大学硕士学位论文 第一章相荚熬础理论 ( s e i f i n f o r m a t i o n ) 。 置信息与熵的关系由图所示: h 月移 圈2 ,置信息与熵的关系翻 随机变量z 和y 在随机变量x 已知的条件下的条件豆信息由下式给出: h ,( x ;j ,iz ) = ,( ( x ;l ,) iz ) = ( xiz ) 一日( xiy ,z )( 9 ) 夏信息熬链栽剡由下式给出; ,( x l 。;d = ,( x l ;y ) + + ,( 以;】,ix i ,x 川) = j ( x ,;】,l ,h ) ( 1 0 ) 在研究自然语言词汇的搭配关系中,经常使用“互信息”作为描述两个单词之间关联 程度大小懿警度。这篓科互信息”是指点每煮的互繁息,它的计算方法内下式给滋: 煅;d 刮。g 端 ( 1 1 ) 其中p ( x ) 和p ( 力分别是随机变量x 和y 的概率,p 阢是二元搭配阢出现的概率。 当x 和y 表示单调时,互信息圳比较了二元单谣对鲫构成的固定搭配与仅仪是单 词工或y 的偶然出现的可能性,如果两个单词的互信息倒口,则说明它们存在着比较 紧密的二元搭配关系,取越大,这种搭配关系越紧密;如聚服功;d ,则说明它们的同 射出现仅仅属于偶然;如果历别 g 。 ( 4 ) 公理( a x i o 辍s ) :代表永真断言。 ( 5 ) 实例( i n s t a n c e s ) ;代表元素,从语义上讲实例表承的就是对象。 本体中基本的关系有四种; p 8 r t o f :表达概念之闻部分与整体的关系。 k i n d o f :表达概念之间的继承关系,类似于面向对象中的父类与予类的关 系。 i n s t a n c e o f :表达概念的安例与概念之间的关系,类似予面向对象中的对 象和类之间的关系。 a t 拓强疆t e f :表达某个概念是另一缀念豹属性。懿“价格”是“藏晶”的 一个属性。 除了网种基本的关系之外,本体还有很多其它的关系,可参见 3 5 网站。 2 3 3 本体描述语言 在具体购应用中,本体的表示方式是多种多群的,主要分为四大类跚i :非形式化,半 非形式化,半形式化,形式化。本体可以用自然语育来描述,也可以用框架、语义网络或 逻辑语言来描述。 1 2 砥南大学硕士学德论文第二章楣关基矬理论 比奇檬弗( s b e c h h o f e r ) 等人在分析了本体设计目标和威用实例的基础上,提如本体 语言应具备:明确的本体外延;必须为每个本体提供元数据;本体语言应包含类定义原 语;本体语言就包含耩性定义淼语;说明类与性质之阔的等价关系;对特殊的等价关系靛 说明:特定领域的公理与假设;必须给出类实例;集的势约束;支持字符模型等2 0 个方面 煞条件辫j 。 概括说来,从本体的特点与本体应用的需求出发,本体语言必须满足以下几个基本条 件; , ( d 本俸语言应该基于菜种形式的逻辑,这样才能进行接蘧。目前的犬部分本体语言都 是基于一阶谓词逻辑和描述逻辑的: 由予本体是共享概念模型的明确的形式讫规范说明,因此,本体的语言必须是机器 可读的; 本体语言还必须具备编码语言的表达性,编码的精确性和语言的语义性; 为实现本体闻豹交流与菸享,本体语言还鍪缀支持语法帮语义懿互操搏性l 教l ; ( d 从构成上看,本体语言作为一种知识表示语言,应至少提供以下语言工具; 本体语富的版本、名称域、本体描述性元数据等的定义语句和语法形式; 类的定义语句和语法形式; 类属性的定义语旬和语法形式; 本俸埃艨类及其属性; 本体文件的封闭方式等。 只有具备了以上基本组成部分的,才可以用计算机来识别和处理本体1 6 3 i 。 目前开发静本体语言主要怒基于一阶逻辑和描述逻辑的。虽然高阶逻辑是所有已知逻 辑中表达能力最强的,但是它的计算性相当差,虽然存在真命题,但不可证明。因此,一 般情提下黧栗不需要高除语义,蠢二阶逻辑是可以转换为一阶逻辑来表示的。 一阶逻辑是一种形式语言逻辑,研究的是假设与结论之间的蕴含关系,即用逻辑的方 法研究推理的规律。用一阶逻辑表达某一领域有关问题的知识,实际上就是如何用一阶逻 辑对自然语言进行符号化的问题。曩前歼发的基予阶逻辑的本体语言主要有:e y c l , o n t o l i n g u a 和l o o m 。 描述逻辑是一耪基于对象的知识表示的澎式纯,也q 概念表示语言或术语逻辑。它建 立在概念和关系之上,其中概念解释为对象的集合,关系解释为对象之间的二元芙系。描 述逻辑是一阶逻辑的一个可判定的子集,具有合适的定义的语义,并且具有很强的表达能 力。与一阶逻辑不同的是,描述逻辑系统能提供可判定的推理服务,能傺证推瑾憨熊停壹, 并返回正确的结果。阶逻辑鼠然有很强的表达能力,但推理过程复杂,不利于本体的检 验,两接述逻辑划更适用于本体检验,且描述逻辑的语法容易转换成x m 啪f 形式,因 此基于描述逻辑的本体模型更适合于网络环境下的概念建模和知识共享。 o w l ( w 曲o n t o l o 夥l 锄g u a g e ) w 曲本体语言是为了处理信息内容的应用而设计的, 两不是单纯给人类表示信意。o w l 通过提供一个舆有形式语义的附加谶汇表,使得它吃 e l jx m l ,r d f 和r d fs c h e m a 支持的w 曲内容更具有机器可解释性。o w l 被设计为满足 对w 曲本体语言的需求。o w l 是万维网联盟( w 3 c ) 与语义w 曲相关的系列规菠的一都 1 3 蘸离大学硕十学位论文第二牵摆芰基础理论 分,o w l 是w 3 c 推荐的语义网络“栈”中的一部分,这个栈表示如f 【“l : 、 名掾擞述 x 戴 绦橡纯交携静爱绥潦法蝣突张澄露任鳄诱义转策。 x 瑚l 。s c h 嘲a 迩义x 轧义棒的结构约戒的湃方。 餮静 薹童豫 袋器资滋娃及窀 l 之朗笑系黪羧粼揆氍,秀 黢荆楱墩挝毛l 毫r 简雅的游义,运髓教抛梭艰缆钐;| l x 毙璐法进鲐嵌这。 装淤s c h 硼8 始述f f 盼资源麓缎蒋鞲凝繁嬲泌鑫:戒,挝缓f 衍这镌 籀性和炎艰鳓糌遂绞次翰语义 游毛 渗勰了鬟爹麓建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论