(计算机应用技术专业论文)基于概念图匹配的语义搜索.pdf_第1页
(计算机应用技术专业论文)基于概念图匹配的语义搜索.pdf_第2页
(计算机应用技术专业论文)基于概念图匹配的语义搜索.pdf_第3页
(计算机应用技术专业论文)基于概念图匹配的语义搜索.pdf_第4页
(计算机应用技术专业论文)基于概念图匹配的语义搜索.pdf_第5页
已阅读5页,还剩123页未读 继续免费阅读

(计算机应用技术专业论文)基于概念图匹配的语义搜索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于概念图匹配的语义搜索 摘要 w e b 的飞速发展已经使它成为世界上最大的一个信息库,但是“信 息过载”问题又降低了它的可用性。当人们依赖于搜索引擎和信息检索 技术来寻找信息的时候,却发现目前的关键词搜索方法在很多情况下并 不能很好地满足他们的信息需求。究其原因是因为仅仅使用关键词并没 有明确地表达出用户查询的语义,即便是使用查询扩展和词义消歧的技 术也不能完全解决这个问题。于是,对“语义搜索”的要求便应运而生。 由于其跨领域的特性,语义搜索至今还没有一个公认的定义。不过, 自然语言处理、文本挖掘、知识表示及推理等方面工作的大幅进展,以 及语义网的兴起,已经大大推动了“语义搜索”的相关研究。本文所要 解决的语义搜索是一种基于明确的、形式化定义的语义信息而进行的匹 配查询内容的搜索技术。针对本文所面向的问题域匹配文本描述内 容的资源搜索,并且在比较了各种语义搜索常用的知识表示语言的特点 之后,我们最终选取了概念图来作为我们方法中的语义表示。它是一种 具有一阶谓词逻辑的完整表达能力的图形化表示,因而可以把语义匹配 归约到图匹配,而又不失逻辑的严密性。 本文的主要工作和贡献( 创新点) 可以概括为以下几个方面: 1 提出了一种限制到概念图的一个子集上的知识表示,以达到可以 在语义匹配时把概念图展开成树的形式的目的,但同时又保留了相对本 文的问题域而言是足够的表达能力。我们根据资源搜索的领域特征,为 每张概念图指定一个入口概念,并且对互指链接、支配概念等方面都做 了严谨的约束。该设计的结果是在概念图中保留了对否定描述的表达能 力,故而基本可以满足所有与资源搜索相关的概念图表示;同时又为之 后降低图匹配的计算复杂度打下了基础。 2 利用概念和关系的类型层次,定义了一种新的概念相似度和关系 相似度,在本体各部分有不同“密度”以及相似度的非对称性等方面做 了细化。从经典的概念图理论出发,我们通过概念和关系在类型层次上 途经最近公共父类的语义距离来导出相似度的定义。但同时,我们又在 其中引入了本体不同部分有不同“密度”的思想,为本体的不同层次之 间定义了不均匀的跨度。随后,我们又根据资源查询的特点,讨论了概 念相似度和关系相似度的几个非对称定义的变种,这为最后定义概念图 之间相似度的工作做好了铺垫。 3 在评判概念相似度方面,进一步提出了一种基于模糊逻辑的新方 法来表示颜色描述的语义,并为之关联一组相应的相似性量度。该项工 作展示了在数值空间发掘概念的“更深层次”语义的意义。有研究表明, 某些概念仅仅利用概念层次来决定语义相似度是不够的,颜色概念就是 一个典型的例子。我们从颜色空间模型上发掘颜色描述的“更深层次” 的语义,利用h s l 颜色空间三个分量上的隶属函数的合成来定义任意一 个非彩色颜色或彩色颜色的模糊语义,并且采用模糊概念图的逻辑形式 来表示这类语义信息。之后,我们又依据上述定义的隶属函数,针对查 询色和资源色的不同组合设计了一组相应的相似度评判函数。实验证明 该方法有助于减小相似度评判与人类感知之间的语义鸿沟。 4 引入了一个基于演绎推理的知识增益过程,来帮助获得更准确的 语义匹配结果。设计这样一个过程的目标是要尽量消除同义异构现象给 匹配带来的负面影响,并且借助世界知识在已有的概念图中加入推理出 来的被隐含的信息。为此,我们定义了图规则( 即背景知识) 的表示形 式,并从概念图的一阶推理法则中导出了一条经过简化的、适用于我们 知识表示( 包括表示资源和表示规则的概念图) 的推理法则。该法则确 保了推理过程的可靠性,但在某些情况下可能会牺牲完备性。不过,基 于问题域的特性,我们认为后者是可以接受的:我们并不是要得到所有 为真的知识。最后,我们还对知识增益过程的触发以及终止条件做了规 范,以保证该过程的有效性。 5 通过对用户搜索行为的建模,为概念图设计了一个涵盖过滤和排 序两类操作的混合匹配模型。该模型在概念图转换成树结构的基础上, 分别规定了在过滤条件和排序条件下,子树匹配相似度的不同定义方法, 以及最后如何合成为查询图( 树) 和资源图( 树) 之间的匹配量度。整 个相似度的计算过程是递归定义的,并且概念相似度与关系相似度是紧 密耦合的,这样就最大限度地保留了语义结构的信息。此外,所设计的 相似度定义还兼容了对否定条件的处理,并且利用两类调谐因子来增加 匹配过程的灵活性。通过对匹配算法主体的时间复杂度分析,证明为多 项式时间的算法,因而可以保证其在实际应用中的有效性。 在实际中,我们实现了一个名为a l p h a 的原型系统,并选用服装 领域来验证我们的方法。从实验结果来看,本文所提出的语义搜索方法, 其表现要整体优予关键词匹配的搜索,而响应时间则因为一些预处理的 步骤而基本可比于后者。因为并未针对所选的应用领域做特别的限制或 优化,所以我们相信该方法具有普适性,也可以部署到其他领域的资源 搜索的应用中。此外在理论方面,本文提出了基于数值空间的“更深层 次”的语义表示和匹配,以及融合了过滤( 精确) 和排序( 不精确) 条 件的混合匹配模型,对于在精确的语义搜索模型中引入模糊的、不精确 的语义部分进行了有益的探索。 关键词:语义搜索,信息检索,概念图,语义相似度,模糊不精确 语义,混合匹配模型 s e m a n t i cs e a r c hb ym a t c h i n g c o n c e p t u a lg r a p h s a b s t r a c t t h et r e m e n d o u s l yr a p i dd e v e l o p m e n to ft h ew e bh a sm a d ei tt h el a r g e s t i n f o r m a t i o nb a s et h a th u m a nb e i n g sh a v ee v e rh a d h o w e v e r , i n f o r m a t i o n o v e r l o a d i sr e d u c i n gt h eu s a b i l i t yo fi t w h e np e o p l et u r nt od e p e n do n s e a r c he n g i n e sa n di n f o r m a t i o nr e t r i e v a lt e c h n i q u e st ol o c a t ei n f o r m a t i o n t h e yw a n t ,t h e yt e n dt od i s c o v e rt h a tt h ec u r r e n tm e t h o d sb a s e do nk e y w o r d m a t c h i n go f t e nf a i lt ow e l lm e e tt h e i ri n f o r m a t i o nn e e d s i ti sm a i n l yb e c a u s e m e r e l yu s i n gk e y w o r d si sn o ts u f f i c i e n tf o rc l e a r l yd e s c r i b i n gt h es e m a n t i c s i nu s e rq u e r i e s e v e nb ya d o p t i n gq u e r ye x p a n s i o no rw o r ds e n s ed i s a m - b i g u a t i o n , t h ei s s u es t i l le x i s t s ,w h i c hr e q u e s t st h ee m e r g e n c eo f “s e m a n t i c s e a r c h c h a r a c t e r i z e da sc r o s s - d i s c i p l i n a r y , s e m a n t i cs e a r c hh a sn o t y e tg o ta w e l l a c k n o w l e d g e dd e f i n i t i o n h o w e v e r , t h e n o t i c e a b l e d e v e l o p m e n ti n n a t u r a ll a n g u a g ep r o c e s s i n g ,t e x tm i n i n g ,k n o w l e d g er e p r e s e n t a t i o na n di n f e r e n c e ,e t c ,t o g e t h e rw i t ht h er i s i n go ft h es e m a n t i cw e b ,h a sg r e a t l yd r i v e n t h er e s e a r c h e s0 1 1t h et o p i co f “s e m a n t i cs e a r c h t h es e m a n t i cs e a r c ht h i s p a p e rt r i e st oa t t a c kc a nb ed e f i n e da sak i n do fs e a r c ht e c h n i q u et h a tp e r - f o r m sq u e r yc o n t e n tm a t c h i n gb a s e do ne x p l i c i t l ya n df o r m a l l yd e f i n e d s e m a n t i ci n f o r m a t i o n a i m e da tr e s o u r c es e a r c hb ym a t c h i n gt h ec o n t e n to f t e x td e s c r i p t i o n s ,w ec h o o s ec o n c e p t u a lg r a p h sa st h es e m a n t i cr e p r e s e n t a - t i o ni no u ra p p r o a c h ,a f t e rw ec o m p a r e dav a r i e t yo fk n o w l e d g er e p r e s e n t a - t i o nl a n g u a g e st h a ta r ec o m m o n l yu s e di ns e m a n t i cs e a r c h c o n c e p t u a l g r a p h sa r eag r a p h i cr e p r e s e n t a t i o nf o rl o g i cw i t ht h ef u l le x p r e s s i v ep o w e r o f f i r s t - o r d e rl o g i c h e n c e ,t h ei s s u eo fs e m a n t i cm a t c h i n gc a nb er e d u c e dt o g r a p hm a t c h i n g ,w i t h o u tl o s so f t h er i g o ri nl o g i c t h em a i nc o n c e r n sa n dc o n t r i b u t i o n s ( i n n o v a t i o n s ) o ft h i sp a p e rc a nb e c o n c l u d e da sf o l l o w s : 1 i tp r o p o s e st h ek n o w l e d g er e p r e s e n t a t i o nt h a ti sr e s t r i c t e dt oa s u b s e to ft h ec o n c e p t u a lg r a p hn o t a t i o n ,s ot h a tt h eg r a p h sc a nb ee x - p a n d e dt ot r e e sd u r i n gs e m a n t i cm a t c h i n g ,w h i l es t i l lr e t a i n i n ge n o u g h e x p r e s s i v e n e s sr e g a r d i n gt h ep r o b l e md o m a i n a c c o r d i n gt ot h ec h a r a c t e r - i s t i c so fr e s o u r c es e a r c h ,w ed e s i g n a t ef o re a c hc o n c e p t u a lg r a p ha l le n t r y c o n c e p ta n dm a k er i g o r o u sc o n s t r a i n t so nc o r e f e r e n c el i n k s ,d o m i n a t i n gc o n - c e p t sa n d s oo n s u c hd e s i g ne n s u r e st h a tt h es u b s e ti ss t i l le x p r e s s i v ee n o u g h t om o d e ln e g a t i o n ss ot h a tm o s td e s c r i p t i o n si nr e s o u r c es e a r c hc a nb er e p r e s e n t e d ,a n dm e a n w h i l ei tm a k e sp o s s i b l et h ea l l e v i a t i o no ft h ec o m p u t a t i o n c o m p l e x i t yi ng r a p hm a t c h i n g 2 i td e f i n e san e ws e to fc o n c e p t u a ls i m i l a r i t ya n dr e l a t i o n a ls i m i - l a r i t yb yu s i n gt h et y p eh i e r a r c h yo fc o n c e p t sa n dt h a to fr e l a t i o n s ,r e - s p e c t i v e l y f r o mt h ec l a s s i c a lc o n c e p t u a lg r a p ht h e o r yw ed e r i v et h ed e f m i t i o no ft h es i m i l a r i t yb e t w e e nc o n c e p t sa n dt h a tb e t w e e nr e l a t i o n sa st h es e m a n t i cd i s t a n c em e a s u r e db yt h ep a t ht h r o u g ht h e i rc l o s e s tc o m m o np a r e n t a l o n gt h et y p eh i e r a r c h y o nt h eo t h e rh a n d ,w ei n c o r p o r a t et h et h o u g h tt h a t d i f f e r e n tp a r t so fa no n t o l o g yp o s s e s sd i f f e r e n t d e n s i t y a n dh e n c ea s s i g n u n e v e ni n t e r v a l sb e t w e e nd i f f e r e n to n t o l o g yl a y e r s t a k i n gt h ec h a r a c t e r i s t i c s o fr e s o u r c es e a r c hi n t oc o n s i d e r a t i o n , w ef u r t h e rd i s c u s ss e v e r a la s y m m e t r i c a l l yd e f i n e dv a r i a t i o n so ft h ec o n c e p t u a ls i m i l a r i t ya n dt h er e l a t i o n a ls i m i 1 a r i t y , w h i c hu n d e d i e st h ed e f i n i t i o no f t h eg r a p hs i m i l a r i t y 3 i nh o wt oe v a l u a t ec o n c e p t u a ls i m i l a r i t y , i tf u r t h e rp r o p o s e sa n o v e la p p r o a c hb a s e do nf u z z yl o g i ct or e p r e s e n tt h es e m a n t i c so fc o l o r d e s c r i p t i o n s ,a s s o c i a t e d w i t ha c o r r e s p o n d i n gc o l l e c t i o n o fs i m i l a r i t y m e a s u r e s t h i sr e s e a r c hd e m o n s t r a t e st h ev a l u eo fe x p l o i t i n g “d e e p e r s e m a n t i c so fc e r t a i nc o n c e p t so nn u m e r i c a ls p a c e s i th a sa l r e a d yb e e n r e c o g n i z e dt h a tt h ec o n c e p th i e r a r c h ya l o n ei sn o ts u f f i c i e n tt od e t e r m i n e t h e s e m a n t i cc l o s e n e s so fc e r t a i nc o n c e p t s ,w h i c hi st y p i c a li nt h ee x a m p l eo f c o l o r t h i sl e a d su st oe x p l o i t “d e e p e r s e m a n t i c so fc o l o rd e s c r i p t i o n so n c e r t a i nc o l o rs p a c em o d e l s w ef i r s td e f i n et h ef u z z ys e m a n t i c so fa na r b i t r a r y c o l o r , e i t h e ra c h r o m a t i co rc h r o m a t i c ,a st h ec o m p o s i t eo fa l lt h et h r e et o m - p o n e n tm e m b e r s h i pf u n c t i o n so nt h eh s lc o l o rs p a c e ,i nt h el o g i cf o r mo f f u z z yc o n c e p t u a lg r a p h s i nt e r m so ft h em e m b e r s h i pf u n c t i o n sd e f i n e d ,w e t h e nd e s i g nac o l l e c t i o no fs i m i l a r i t ye v a l u a t i o nf u n c t i o n sf o rd i f f e r e n tt o m - b i n a t i o n sb e t w e e naq u e r yc o l o ra n dar e s o u r c eo n e 砀ee x p e r i m e n t a lr e s u l t s h a v es h o w nt h a ts u c ham o d e l h e l p st or e d u c et h es e m a n t i cg a pb e t w e e nt h e s i m i l a r i t ye v a l u a t i o na n dt h eh u m a np e r c e p t i o n 4 i ti n t r o d u c e sak n o w l e d g ee n r i c h m e n tp r o c e d u r eb yd e d u c t i v ei n - f e r e n c e ,t om a k em o r ep r e c i s et h es e m a n t i cm a t c h i n g w ee x p e c tt h i sp r o c e d u r et ou n i 匆n o n - i s o m o r p h i cs e m a n t i cr e p r e s e n t a t i o n sa n dt oa d dt ot h e e x i s t i n gg r a p h sn e wi n f o r m a t i o ni m p l i e db yw o r l dk n o w l e d g e t oa c h i e v e s u c hag o a l ,w ed e f i n et h er e p r e s e n t a t i o no fg r a p hr u l e s ( i 。e 。b a c k g r o u n d k n o w l e d g e ) a n dt h es i m p l i f i e dr u l eo fi n f e r e n c et h a ti sd e r i v e df r o mt h e f i r s t - o r d e rr u l e so fi n f e r e n c ef o rc o n c e p t u a lg r a p h sb u tb e t t e rf i t so u rk n o w l e d g er e p r e s e n t a t i o n ( i n c l u d i n gt h ec o n c e p t u a lg r a p h sd e n o t i n ge i t h e rt h er e s o u r c e so rt h er u l e s ) t h er u l eo fi n f e r e n c eg u a r a n t e e ss o u n d n e s s w h i l ei t m a yu n d e rc e r t a i nc i r c u m s t a n c e ss a c r i f i c ec o m p l e t e n e s s c o n s i d e r i n gt h e c h a r a c t e r i s t i c so f t h ep r o b l e md o m a i n h o w e v e r , w et h i n kt h el a t t e ri st os o m e e x t e n ta c c e p t a b l e ,b e c a u s eo u rk n o w l e d g ee n r i c h m e n ti sn o tt og e te v e r y t h i n g t h a ti st r u e w ea l s os p e c i f yw h e nt ot r i g g e ro rt e r m i n a t eak n o w l e d g ee l l - r i c h m e n tp r o c e d u r e ,i no r d e rt oe n s u r ei t se f f e c t i v e n e s s 5 i td e s i g n sah y b r i dm a t c h i n gm o d e lf o rc o n c e p t u a lg r a p h sc o v e r - i n gb o t hf i l t e r i n ga n dr a n k i n go p e r a t i o n sb ym o d e l i n gu s e r s s e a r c hb e - h a v i o r a r e rc o n c e p t u a lg r a p h sa r ec o n v e r t e di n t ot r e e s ,t h em o d e lr e s t so n d i f f e r e n tm e a s u r e st oe v a l u a t et h es i m i l a r i t yb e t w e e ns u b t r e e su n d e rf i l t e r i n g a n dr a n k i n gc o n d i t i o n s ,r e s p e c t i v e l y , a n df o r m u l a t e sh o wt oc o m b i n et h et w o k i n d so fs i m i l a r i t yt or e p r e s e n tt h es i m i l a r i t yb e t w e e nt h eq u e r yg r a p h ( t r e e ) a n dt h er e s o u r c eo n e t h ec a l c u l a t i o ni si t e r a t i v e l yc a r r i e do u ta n dt h ec o n - c e p t u a ls i m i l a r i t yi st i g h t l yc o u p l e dw i t ht h er e l a t i o n a ls i m i l a r i t y , w h i c hf u r - t h e s tr e t a i n st h es e m a n t i cs t r u c t u r e m o r e o v e r ,t h ed e v i s e ds i m i l a r i t ya d - d r e s s e sn e g a t i o n sa n do f f e r sf l e x i b i l i t yd u r i n gm a t c h i n gb yu s i n gt w ok i n d so f t u n i n gf a c t o r s a f t e ra n a l y z i n gt h et i m ec o m p l e x i t yo f t h ep r i n c i p a lp a r ti nt h e g r a p hm a t c h i n ga l g o r i t h m ,w ep r o v ei tp o l y n o m i a l ,w h i c hg u a r a n t e e si t se l - f e c t i v e n e s si nr e a la p p l i c a t i o n s i np r a c t i c e w ei m p l e m e n t e dap r o t o t y p es y s t e mn a m e da l p h aa n d c h o s et h ec l o t h i n gd o m a i nt od e m o n s t r a t eo u ra p p r o a c h t h ee x p e r i m e n t a l r e s u l t sh a v es h o w nt h a tt h eo v e r a l lp e r f o r m a n c eo ft h ep r o p o s e ds e m a n t i c s e a r c ha p p r o a c hi ss u p e r i o rt oak e y w o r d - m a t c h i n g b a s e do n e ,w h i l ei t sr e s p o n s et i m ei sa l m o s tc o m p a r a b l et ot h el a t t e rd u et oc e r t a i np r e p r o c e s s i n g o p e r a t i o n s s i n c et h e r ei sn or e s t r i c t i o no ro p t i m i z a t i o np a r t i c u l a r l yd e s i g n e d f o rt h ec h o s e na p p l i c a t i o nd o m a i n ,w eb e l i e v et h ea p p r o a c hi sa p p l i c a b l et o o t h e rd o m a i n sc o n c e r n i n gr e s o u r c es e a r c h o nt h eo t h e rh a n d ,t h i sp a p e r t h e o r e t i c a l l yp r o p o s e st h er e p r e s e n t a t i o na n dm a t c h i n go f d e e p e r s e m a n t i c s b a s e d0 1 1n u m e r i c a ls p a c e s ,a n dt h eh y b r i dm a t c h i n gm o d e lt h a ti n t e g r a t e s b o t ht h ef i l t e r i n g ( t h ep r e c i s e ) a n dt h er a n k i n g ( t h ei m p r e c i s e ) q u e r yc o n d i t i o n s ,w h i c hc a nb et a k e n a sb e n e f i c i a le x p l o r a t i o no f i n c o r p o r a t i n gf u z z ya n d i m p r e c i s es e m a n t i c si n t ot h ep r e c i s es e m a n t i cs e a r c hm o d e l s k e yw o r d s :s e m a n t i cs e a r c h ,i n f o r m a t i o nr e t r i e v a l ,c o n c e p t u a lg r a p h s , s e m a n t i cs i m i l a r i t y , f u z z y i m p r e c i s es e m a n t i c s ,h y b r i dm a t c h i n gm o d e l 表目录 表8 一l 示例查询“d a r kr e d ”在一个关键词匹配系统中的检索结果。7 9 表8 - 2 示例查询“d a r kr e d ”在基于本体的相似度评判函数下的检索结果一8 0 表8 - 3 示例查询“d a r kr e d ”在模糊颜色匹配函数下的检索结果8 1 表8 _ 4 用于一般服装特征搜索实验的查询样例8 5 表8 - 5 背景知识库中的规则样例8 5 图目录 图3 1 一个概念图示例( “一件由n i k e 公司设计的深红色t 恤”) 2 1 图3 2 概念图之问逻辑运算的图示法2 5 图3 3 “一件不是深红色的n i k et 恤”的概念图表示2 7 图4 1 一个关于颜色的概念层次片断3 1 图5 一lr g b 颜色空阈模型” 3 7 图5 2h s l 颜色空间模型3 8 图5 3 模糊颜色各个维度上的隶属函数3 9 图5 - 4 颜色的t o n e 平面4 0 图5 5h s l 空间上的模糊颜色4 1 图5 - 6 彩色颜色的模糊概念图表示4 2 图5 7 非彩色颜色的模糊概念图表示4 2 图5 8 两个颜色描述之闻的比较( 在丑维度) 4 3 图5 - 9 两个彩色颜色在空间的每个维度上都有重叠4 4 图5 1 0 两个彩色颜色在空间的每个维度上都无重叠4 5 图5 1 l 彩色颜色与非彩色颜色之间的距离4 7 图6 1 两条示例图规则5 3 图6 2 一个资源图示例( “一件n i k e 的9 2 棉8 氨纶的鲜红色t 恤”) 5 4 图6 3 示例资源图的推理结果5 5 图7 1 一个查询图示例( “一件n i k e 豹不是深红色的弹力衬衣”) 6 1 图7 - 2 示例查询图转化为树结构后的结果6 2 图7 3 过滤关系引出的子树的匹配6 5 图7 _ 4 排序关系引出的子树的匹配6 7 图7 - 5 查询图与资源图的匹配示例6 9 图7 - 6 过滤子树匹配过程的算法复杂度7 1 图7 7 排序子树匹配过程的算法复杂度7 l 图8 1a l p 姒系统的体系结构7 5 图8 2 用户界面7 6 图8 3 区分过滤,排序条件的操作符7 7 图8 - 4c l o t h e s a g c n c y c o m 的颜色分类层次8 3 图8 5 颜色匹配的p r e c i s i o n r e c a l l 评价8 4 图8 - 6 一般服装特征搜索的p r c ! c i s i o n - r e c a l l 评价8 6 图a 3 1a 日= 0 的图例1 0 9 图a 3 - 2 引理a 3 1 的证明。1 1 0 图a 3 3 ( b - i i ) 情形下的图例1 1 1 图a 3 _ 4 ( b i v - 1 ) 情形下的图例1 1 2 图a 3 5 ( b i v - 2 ) 情形下的图例1 1 3 图a 3 石( b i v - 3 ) 情形下的图例1 1 3 图a 4 1 “一件r o o b a r b & c u s t a r d 的不是深红色的衬衣”的概念图表示1 1 5 图a 4 2 查询编辑器界面1 1 6 图a 4 3 选择操作符1 1 6 图a 4 4 点击“r e f i n e ”按钮来弹出一个新的“编辑器”1 1 7 图a 4 5 新弹出的编辑器1 1 7 图a 4 6 选择个体标识1 1 8 图a 4 7 点击“a d d 按钮来向查询图中添加构建完成的子图1 1 9 图a 4 8 点击“c o n f m n 按钮返回上层页面1 1 9 图a 4 9 点击“a d d 按钮来添加构建完成的查询条件。1 2 0 图a 4 1 0 一张予图完成1 2 0 图a 4 1 l 整张查询图完成1 2 1 图a 4 1 2 查询结果1 2 2 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 学位论文作者签名: 糊f 日期:乒卯6 年f 。月工日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密日。 ( 请在以上方框内打“4 ”) 学位论文作者签名: 眷鹚平 1 日期:舢“年f 。月必日 燧轹箝 日期。一年l 口月q 日 第一章绪论 1 1 为什么我们需要语义搜索? w e b 的飞速发展已经使它成为世界上最大的一个信息库,每天人们都从网上获 取大量的信息和资源( 如,电子商务、w e b 服务等) 。但是,也正是由于海量信息所 造成的“信息过载”( i n f o r m a t i o no v e r l o a d ) 问题,使得人们需要花费比过去更多的 时间和精力来过滤无关的信息,从而定位到他们所需的内容。由于人的信息处理能 力并不可能随着w e b 上所含信息量的指数级增长而有成比例的提高,所以这从某种 程度上反而降低了w e b 的可用性。于是人们开始依赖搜索引擎来寻找信息,这也就 刺激了对高效的信息检索( i n f o r m a t i o nr e t r i e v a l ) 【i l 技术的需求。 然而,虽然信息检索领域在过去的2 0 年里取得了极大的发展,在w e b 的搜索引 擎方面也提出了诸如h i t s t 2 1 和p a g e r a n k 3 】等算法来改进网页检索结果的排序质量, 但是目前大部分的搜索引擎( 如,g o o s e i 、y a h o o1 2 、m s ns e a r c h 3 等) 在匹配搜索 的内容方面所仰仗的技术仍然主要依赖于用户描述其信息需求( i n f o r m a t i o n n e e d ) 时 所用的关键词,而不是这些搜索项的字面背后所要表达的实际含意。这就可能会在 某些情况下导致用户不希望出现的结果,比如:一个要求“c r i m s o nt - s h i r t ”( “深红 色t 恤”) 的查询可能会找回一件“a l a b a m a c r i m s o nt i d e t - s h i r t ”,但这里的“a l a b a m a c r i m s o n t i d e ”实际上是一支球队的名字,其中的“c r i m s o n ”并不是服装的颜色;又 如,查询“s o f tc o l l a rs h i r t ”( “软领衬衣”) 可能会从系统取回“s o f ts h i r t w i t h as t r a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论