(计算机软件与理论专业论文)个性化搜索中用户语义意图自动识别技术研究.pdf_第1页
(计算机软件与理论专业论文)个性化搜索中用户语义意图自动识别技术研究.pdf_第2页
(计算机软件与理论专业论文)个性化搜索中用户语义意图自动识别技术研究.pdf_第3页
(计算机软件与理论专业论文)个性化搜索中用户语义意图自动识别技术研究.pdf_第4页
(计算机软件与理论专业论文)个性化搜索中用户语义意图自动识别技术研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)个性化搜索中用户语义意图自动识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、:li 上 站苦 分类号 udc 密级 学位论文 个性化搜索中用户语义意图自动识别技术研究 l p 。娃名: 导教师: 舒平芬 王大玲教授 东北大学信息科学与工程学院 申请学位级别:硕士学科类别:工学 学科专业名称:计算机软件与理论 论文提交日期:2 0 0 7 年1 2 月3 0 日论文答辩日期:2 0 0 8 年1 月2 8 日 学位授予眺如孑j 二亏同獭螂:啊岛察 评阅人:球树f 死杏吭托 东北大学 2 0 0 8 年1 月 l-,ui: -一j1, j a t h e s i sf o r t h s t u d y s e m a n ,0,f 、 、, , r l ,。 j - 摹 广 独创性声明 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加 以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为 获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示诚挚的谢意。 学位论文作者签名:钎乎芬 签字日期:争叼拭j 熹 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即 学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交 流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:磊辛平芬 导师签名: 刁丈矿 签字日期: 耐、o 、汁签字e l 期:伊9 y 少多 _ j 鼍 i _ t 1 f , 东北大学硕士学位论文摘要 个性化搜索中用户语义意图自动识别技术研究 摘要 目前大部分搜索引擎采用关键词匹配技术,即相同的查询关键词将返回相同的查询 结果。而实际上,对于同一个查询词,不同的用户其查询意图可能不同,同一个用户在 不同时期其查询意图也可能不同。个性化搜索技术正是为解决这一问题应运而生的,旨 在为用户不同的信息需求提供个性化的搜索结果。查询词多义性问题的研究是实现个性 化搜索的有效途径之一。 查询词的多义性降低了搜索结果的准确率。为解决这一问题,本文提出对用户提交 的具有多义的查询词进行用户语义意图自动识别的思想。用户的语义意图是指用户想表 达的该查询词在当前会话中的真实语义,而基于w e b 环境的语义消歧是识别用户语义意 图的关键技术之一。本文重点研究基于上下文的查询消歧和无上下文查询中的语义消歧 问题,并讨论了基于用户语义意图的查询扩展技术。 无上下文查询中的语义消歧是本文的一个创新点。针对现有的查询消歧方法不能解 决单个多义查询词的消歧问题,本文提出一种新颖的解决方案基于隐含上下文的查 询消歧方法i c b w s d 。该方法通过记录相邻的前一次查询和当前查询中用户点击的文档 信息来获取查询词的隐含上下文,再应用基于上下文的消歧方法对目标词进行消歧。 实验证明了i c b w s d 方法的可行性和推断用户查询意图的乐观前景。 关键词:个性化搜索;语义意图;词义消歧;查询上下文;语义相关度;查询扩展 一i i j 、 l - l 东北大学硕士学位论文 a b s t r a c t s t u d yo na u t o m a t i cl n d e n t i f i c a t i o no fu s e rs e m a n t i ci n t e n t i o n f o rp dsearchersonallzee a r c i i1 0 r 量,d a b s t r a c t c u r r e n t l y , m o s ts e a r c he n g i n e sa p p l yt h et e c h n i q u eo fk e y w o r d sm a t c h i n g ,i e t h es a m e r e s u l t sw i l lb er e t u r n e df o rt h es a m eq u e r yk e y w o r d b u ti nf a c t ,t h es a m ek e y w o r di s s u e db y d i f f e r e n tu s e r sm a yh a v et h ed i f f e r e n tq u e r yi n t e n t i o n e v e nt h es a m ek e y w o r di s s u e db yt h e s a m eu s e ri nd i f f e r e n tt i m em a yh a v ed i f f e r e n tq u e r yi n t e n t i o n t h ep e r s o n a l i z e ds e a r c h t e c h n i q u ea p p e a r sf o rp r o v i d i n gt h ep e r s o n a l i z e dr e s u l tf o r t h ep e r s o n a l i z e di n f o r m a t i o n r e q u i r e m e n tf r o md i f f e r e n tu s e r sa n ds o l v i n ga b o v ep r o b l e m t h er e s e a r c ho np o l y s e m yo f q u e r yw o r d si so n eo f t h eg o o da p p r o a c h e sf o ri m p l e m e n t i n gp e r s o n a l i z e ds e a r c h p o l y s e r n yo fq u e r yw o r d sd e c r e a s e st h ea c c u r a c yo f s e a r c hr e s u l t s t os o l v et h ep r o b l e m , t h i st h e s i sp r o p o s e st h ei d e ao fa u t o m a t i c a l yi d e n t i f i c a t i n gu s e rs e m a n t i ci n t e n t i o nw h e nt h e u s e ri s s u e sap o l y s e m yq u e r yw o r d h e r eu s e rs e m a n t i ci n t e n t i o nm e a n st h er e a lm e a n i n go f q u e r yt e r m st h a tu s e rw a n t st oe x p r e s si nc u r r e n ts e s s i o n ak e yt e c h n i q u eo fi d e n t i f y i n gu s e r s e m a n t i ci n t e n t i o ni sw o r ds e n s ed i s a m b i g u a t i o nb a s e do nw e be n v i r o n m e n t t h i st h e s i sp u t s e m p h a s i so ns t u d y i n gc o n t e x t - b a s e dq u e r yd i s a m b i g u a t i o na n dw o r ds e n s ed i s a m b i g u a t i o ni n c o n t e x t l e s sq u e r i e s i s ,a n dd i s c u s s i n gt h et e c h n i q u eo fq u e r ye x p a n s i o nb a s e do nu s e rs e m a n t i c i n t e n t i o n w o r ds e n s ed i s a m b i g u a t i o ni nc o n t e x t l e s sq u e r i e si sa ni n n o v a t i o no ft h et h e s i s an o v e l s o l u t i o n , i m p l i c i tc o n t e x tb a s e dw o r ds e n s ed i s a m b i g u a t i o n ( i c b w s d ) i sp r e s e n t e dt o s o l v et h ep r o b l e mt h a te x i s t i n gm e t h o d sc a n td e a lw i t l lt h es i n g l ew o r dd i s a m b i g u a t i o n t h i s a p p r o a c ho b t a i n st h ei m p l i c i tc o n t e x to fq u e r yt e r mb yr e c o r d i n gt h ei m m e d i a t ep r e c e d i n g q u e r ya n dt h e c l i c k e dd o c u m e n t si n f o r m a t i o no nt h ec u r r e n tq u e r y a f t e ro b t a i n i n gt h e i m p l i c i tc o n t e x t , c o n t e x t - b a s e dm e t h o di su t i l i z e dt od e t e r m i n et h es e n s eo ft h et a r g e tw o r d e x p e r i m e n t ss h o wi c b w s d i sf e a s i b l ea n dp r o m i s i n gi ni n f e r r i n gu s e r sq u e r yi n t e n t i o n k e yw o r d s :p e r s o n a l i z e ds e a r c h ;s e m a n t i ci n t e n t i o n ;s e n s ed i s a m b i g u a t i o n ;q u e r yc o n t e x t ; s e m a n t i cr e l a t e d n e s s ;q u e r ye x p a n s i o n i i i ?f;,tll, _ 0 _ ,l 东北大学硕士学位论文 目录 独创声明。 摘要。 a b s t r a c t 第1 章绪论。 1 1 问题提出 1 2 解决方案 1 3 研究的实际意义。 1 4 本文的组织结构 第2 章个性化搜索技术研究 2 1 个性化搜索概述 2 2 个性化搜索的现状5 2 3 个性化搜索中的用户建模6 2 3 1 用户兴趣模型7 2 3 2 用户意图模型8 2 3 3 用户目标的研究9 2 4 用户语义意图与个性化搜索9 2 5 本章小结1 0 第3 章基于查询上下文的语义消歧1 l 3 1 基于w e b 消歧方法的特性1 1 3 2w o r d n e t 简介1 2 3 2 1w o r d n e t 的心理语言学假设1 2 3 2 2w o r d n e t 的内容1 2 3 3 语义相关度1 3 3 3 1 语义相关度的概念1 3 3 3 2 语义相关性度量1 4 一v 一 目 录 18 l8 1 9 19 :! ( ) :! :! :! :; :! ! ; :1 6 :1 7 :1 8 2 9 :2 9 :;0 :;1 :;:! :;:; 3 4 :;6 :;7 4 5 2 案例分析:一3 7 4 5 2 1 样例的w o r d n e t 语义3 8 4 5 2 2 消歧结果分析3 9 4 6 本章小结4 1 第5 章基于用户语义意图的查询扩展4 3 5 1 查询扩展的研究现状4 3 5 2 用户语义意图的形式化表征4 4 5 3 基于用户语义意图的查询扩展4 5 5 3 1 选择扩展查询词4 6 一 一v i 一v 一 东北大学硕士学位论文第1 章绪论 第1 章绪论 1 1 问题提出 在目前的互联网领域,搜索引擎已经成为仅次于电子邮件的第二大应用。搜索引擎 的蓬勃发展极大地方便了i n t e m e t 用户查找信息和资源。然而,现有的搜索引擎大多采 用基于关键词匹配技术,使用向量空间模型对查询串和文档进行表征,然后计算查询词 向量和与文档向量之间的相似性,使用一定的排序算法( 如:g o o g l e 使用p a g e r a n k ) 给出查询结果列表。这类通过关键词匹配实现查找和自动更新的搜索引擎虽然涵盖的网 页数量巨大,但由于分词技术( 尤其是中文分词) 的局限以及查询词的多义和同义现象 使返回的很多结果不相关,检索质量很低。此外,由于缺乏对用户建模,搜索引擎的返 回结果对所有的用户都是相同的,即没有根据用户的身份特点和当前的查询意图进行个 性化服务。 查询词的多义现象在很大程度上影响了基于关键字匹配技术的通用搜索引擎的性 能,降低了搜索结果的准确性。如查询词“j a v a 主要有三种含义:一种新型的计算机 编程语言,印尼的爪哇岛,一种煮熟的咖啡。在实际的搜索过程中,往往存在以下两种 情况: ( 1 ) 不同的用户使用相同的查询词查询不同的信息 如:一个旅行家和一个编程人员可能提交同一个查询词“j a v a 来获取不同的信息。 通常情况下,旅行家想要查找关于印尼爪哇岛的信息,而编程人员则想要得到关于j a v a 编程语言的有关信息,但现有的搜索引擎对这两个用户返回相同的查询结果,而没有考 虑用户的身份。 ( 2 ) 同一个用户在不同时期有不同的查询需求 仅仅考虑用户的身份是不够的,因为用户的信息需求可能会随时间发生变化。如: 同一个用户使用查询词“j a v a ”,有时想查找j a v a 编程语言相关的信息,有时想得到关 于爪哇岛的资料( 假设该编程人员想去印尼旅游) 。 对于查询关键字“j a v a ,目前搜索引擎大多数返回结果都是和j a v a 编程语言相关 的信息,如果用户想查找印尼爪哇岛或j a v a 咖啡相关的信息,那么用户需要有足够的耐 心翻页查找,但大部分用户往往只是浏览返回结果的前几页,因此很难找到想要的信息。 那么,用户提交这样个查询词究竟想要得到怎样的信息呢? 如果我们能对用户当 在服务器端记录用户的行为信息,都可能会涉及隐私问题。站在方便用户的立场,本文 采用第二种方案来解决查询词的多义问题。 尽管语义消歧是自然语言处理和其他领域中众所周知的问题,但传统的方法并不能 灵活运用到基于w e b 的上下文环境中i 引。因此,基于w e b 环境的语义消歧方法成为识 别用户语义意图的关键技术。本文提出了一种基于w o r d n e t o - 1 的语义消歧方法。该方法 通过对相关关键词的集合进行处理来找出并抽取它们的隐含语义,最后根据上下文获取 最适合的语义信息。文章重点讨论无查询上下文的情况,即单个多义查询词的消歧问题, 充分利用w e b 搜索的特点和用户的搜索行为找到目标词的隐含上下文,再利用基于查 2 东北大学硕士学位论文第1 章绪论 询上下文的消歧方法获取用户的真实意图。 1 3 研究的实际意义 个性化搜索中对用户意图的研究目前大多还停留在行为意图的层次,并没有上升到 语义层次,本文则是对用户的语义意图进行研究和探讨。该研究的实际应用价值主要体 现在以下几个方面: ( 1 ) 提高查询的准确率。基于关键字匹配技术的通用搜索引擎并没有考虑查询词 的语义,因此返回结果虽然覆盖率高但准确率低,而识别了用户的语义意图可以过滤掉 大部分和用户的查询意图不相关的返回结果,因此会大大提高查询的准确率; ( 2 ) 节约用户的检索时间。有歧义的查询在w e b 查询中普遍存在,因此识别用户 的语义意图能节省用户查找所需信息的时间。根据最近的统计,如果我们通过有效的个 性化技术把用户花在g o o g l e 上搜索结果的时间减少1 ,则每个月可以节省1 8 7 ,0 0 0 小时( 2 1 年) 1 4 1 ; ( 3 ) 提高用户的搜索体验。由于我们采用了处理多义查询的第二种解决方案,在 整个搜索过程中不需要用户的额外参与,因此可以极大地提高用户的搜索体检; ( 4 ) 促进搜索引擎的发展和完善。心理学认为,如果行为能导致好的结果,用户 就有反复采取这种行为的趋势。因此,搜索引擎的返回结果能让用户满意,用户就会更 加依赖于它来查询所需要的信息,这给搜索引擎的发展和完善提供了动力。 1 4 本文的组织结构 根据本文的研究内容,其组织结构如下: 第1 章为绪论,主要是提出问题,并给出本文的解决方案。最后简要介绍了本文研 究工作的实际意义; 第2 章阐述本研究的应用背景个性化搜索技术。首先简要介绍个性化搜索的概 念和现状,然后阐述个性化搜索中的用户建模,识别用户的语义意图也属于个性化搜索 的研究范畴; 第3 章详细阐述识别用户语义意图的关键技术基于查询上下文的语义消歧,并 描述消歧过程中用到的w o r d n e t 本体以及语义相关度,最后用实验分析窗口大小和语义 相关性度量的选取对消歧算法性能的影响; 第4 章讨论无上下文查询中的语义消歧,提出基于隐含上下文的语义消歧i c b w s d 的框架,通过用户和搜索引擎的交互信息来获取隐含上下文,再结合第3 章的基于上下 3 第1 章绪论 4 东北大学硕士学位论文第2 章个性化搜索技术研究 第2 章个性化搜索技术研究 本文的研究也属于个性化搜索技术研究的范畴,因此,下面对个性化搜索的相关内容 及其所涉及的用户建模技术进行介绍。 2 1 个性化搜索概述 搜索引擎已经改变了我们使用互联网的方式,甚至形成了一种“搜索式”的使用习惯, 但这远远不够。用户不仅需要能搜寻到信息的搜索引擎,他们更希望做信息消费的主人, 让搜索引擎以“我 为中心,而不是“我 以搜索引擎为中心。 个性化搜索或者叫个人化搜索,p e r s o n a l i z e ds e a r c h s e a r c hp e r s o n a l i z a t i o n ,指的是搜索 引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包 括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。 搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性 的搜索结果,从而提高用户体验。由于用户的查询意图随时可能发生变化,所以个性化搜 索是个非常复杂的问题,随着时间和数据的积累,个性化搜索才可能相对准确。 2 2 个性化搜索的现状 2 0 0 4 年国内外各搜索引擎巨头纷纷推出自己的个性化搜索服务,尽管很多还是测试版 或是对个性化搜索的尝试,但搜索引擎服务提供商们已经意识到搜索引擎个性化是在品牌 忠诚度以外留住用户的主要方法,个性化搜索将成为搜索技术的新战场。 g o o g l e 推出自己的个性化搜索服务“p e r s o n a l i z e dw e bs e a r c h ,能够根据用户搜索的 词条进行学习,而用户无需进行额外的工作,一切个性化搜索的工作都在后台完成。在搜 索过程中,g o o g l e 个性化搜索为用户创建高级帐户,并根据用户长期行为排序搜索结果。 雅虎推出个性化搜索服务“m yy a h o o ! s e a r c h ”,目的是使注册用户可以用自己喜欢的方式 搜索想要的信息,并对搜索结果提供更好的管理和共享。a s kj e e v e s 推出了个性化搜索服 务“m yj e e v e s ,用户可以保存搜索记录并创建喜欢的目录以方便跟踪需要的网站。a o l ( 美国在线) 的个性化服务将赋予用户订制搜索操作、保留查询、管理处理和存储搜索结 果的能力。微软公司在m s n l 3 c t o m 网站上测试其个性化新闻搜索引擎b 测试版。 m s n b c n e w s b o t 对4 8 0 0 个新闻站点进行扫描,向用户提供一个“虚拟报摊,用户可以通 过对主题的搜索实现个性化新闻【5 1 。 中国搜索( 中搜) 推出的个性化搜索能根据用户定制的喜好,返回与用户最相关的搜 5 个性化搜索的核心和关键技术是用户建模,用户建模是指从和用户相关的信息( 如浏 览内容、浏览行为、背景知识等) 中归纳出可计算的用户模型的过程。用户模型质量的好 坏直接关系到个性化服务质量的好坏以及搜索引擎性能的优劣。根据建模过程用户的参与 程度,用户建模技术可以分为用户手工定制建模、示例用户建模和自动用户建模【6 j 。 ( 1 ) 用户手工定制建模 用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方法,如用户 手工输入感兴趣信息的关键词列表,或者是选择感兴趣的栏目等。在个性化服务发展的早 期,用户手工定制建模是用户建模的主要方法。m y y a h o o 是手工定制用户建模的典型代表。 但由于完全依赖于用户,容易降低用户使用系统的积极性,即使用户乐意手工输入用户模 6 东北大学硕士学位论文第2 章个性化搜索技术研究 型,用户也难以全面、准确地罗列自己感兴趣的栏目或关键词。此外,当用户兴趣发生变 化时,用户必须重新输入用户模型。 ( 2 ) 示例用户建模 示例用户建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的 建模方法。在建模过程中减少了对用户的依赖,用户模型则通过学习算法得到。由于用户 对自己的兴趣和偏好等最有发言权,因而用户提供的有关自己兴趣的示例最能集中、准确 地反映用户的兴趣和偏好等特点。示例一般通过用户在浏览的过程中对浏览过的页面标注 感兴趣、不感兴趣或者感兴趣的程度来得到。浏览过的页面及相应的标注成为用户建模的 示例。 ( 3 ) 自动用户建模 目前的示例用户建模方法都需要用户在浏览的过程中标注页面以得到示例,严重地干 扰了用户的正常浏览,降低了个性化服务系统的易用性。理想的用户建模方法应该无需用 户主动提供任何信息,系统根据用户的浏览内容和浏览行为自动构建用户模型。自动用户 建模( 即隐含用户建模) 就是基于这一思想提出来的。自动用户建模是指根据用户的浏览 内容和浏览行为自动构建用户模型。建模过程无需用户主动提供信息,因而不会造成对用 户的干扰,有利于提高个性化服务系统的易用性。用户兴趣模型和用户意图模型是自动用 户建模中最有代表性的两种,下面分别进行介绍。 2 3 1 用户兴趣模型 用户兴趣建模是用户模型中研究得最多的。通常假设用户的兴趣( 偏好) 可以反映用 户的搜索目的。用户输入的查询词、用户的b o o k m a r k 、用户浏览的页面内容、用户浏览的 行为等都能不同程度地反映用户的兴趣。其中,用户浏览行为在隐含用户建模中被广泛研 究。 显然用户兴趣与用户在网页上的浏览行为是密切相关的。m a r kc l a y p o o l 等人川用实验 证明了页面的浏览时间和拖动滚动条的次数可以有效揭示用户兴趣。曾春、周立柱等人嗍 指出用户的很多动作都能暗示用户的喜好,如查询、浏览网页和文章、标记书签、反馈信 息、点击鼠标、拖动滚动条、前进、后退等。谭琼、史忠植的研究唧指出用户访问时的停 留时间、访问次数、保存、编辑、修改等动作能够揭示用户兴趣。l i a n gt i n g p e n g 等人【1 0 】 指出网页平均阅读速度有助于确定用户兴趣的等级。 此外,有学者提出用户浏览时生理机能上的反应,包括眼睛的移动,心跳的变化,皮 7 n - g r a m 模型只能向前一步预测行为的基础上提出了向前考虑多步的动态n - g r a m 改进模型, 并用基于路径的方法对w e b 导航建模行为意图。k a t h y 等人【1 8 1 把用户的意图分为商业意图 和非商业意图,并对用户的在线商业意图进行检测。r o b e r t o 和s i l v a 【1 9 1 提出一种方法识别 用户在有语义支持的w e b 站点中进行导航时的意图,在用户建模时考虑了语言学和认知方 面的知识。 8 东北大学硕士学位论文第2 章个性化搜索技术研究 需要指出的是,本文虽然采用了文献 1 5 】中语义意图的概念,但两者的含义是有差别的, 我们将文献【1 5 】中定义的语义意图理解为用户的搜索动机,但由于对动机模型缺乏完善的 建模思想以及识别搜索动机的复杂性,我们将在以后的工作中作进一步的研究。 2 3 3 用户目标的研究 理解用户“为什么搜索”对搜索引擎满足用户的信息需求是至关重要的。对用户目标 的研究始于b r o d e r 2 0 提出w e b 搜索三分类:导航型、信息型和资源型。他通过调查问卷和 日志分析指出三种类型各占的百分比。随后,r o s e 和l e v i n s o n 2 1 1 在此基础上提出了识别 w e b 搜索中的用户目标,并首次把用户的搜索提高到“为什么搜索”的层次。该研究把b r o d e r 的事务型替换成资源型,并把信息类和资源类进一步划分成更具体的子类,自然地组织成 一个层次结构,通过手工分类和分析查询日志对用户搜索的潜在目标类别进行统计,发现 导航类查询远不如人们想像的那么普遍( 不足1 5 ) 。l e e 等人 2 2 1 通过查询日志、点击分 布、每个查询的平均点击频率以及锚文本分布信息来自动识别用户的目标。在文章中他们 只考虑了导航型和信息型两种类别。 基于上述目标分类的粗糙性问题,一种从自然语言处理的观点分析用户的目标被提出, 作者【2 3 1 根据汉语和英语的句法结构把用户的目标描述为v o p a i r ,即动词( v e r b ) + 宾语 ( o b j e c t ) 的结构对,从w r e b 搜索结果的s n i p p e t s 中识别出多样性的目标。和研究用户目标 的分类不同,s t r o h m a i e r 等人 2 4 1 研究的兴趣在于用户是如何表达他们的目标,以及如何以 一种半形式化的方法对目标进行表征。 2 4 用户语义意图与个性化搜索 r o s e 和l e v i n s o n 提出的三种类别很好地概括了用户搜索的目标,但还存在两个方面的 缺陷:1 ) 这三种目标类别过于粗糙,以至于不能满足许多更狭窄的用户目标,最终基于这 些粗糙分类的搜索结果数量还是很大,用户仍然面临信息过载问题;2 ) 仅仅对搜索目标进 行分类并不能解决多义查询词消歧问题。比如:某用户输入 j a v a 想查找关于爪哇岛的信 息,即使我们已知用户的搜索类别是信息类,但并不能确定用户想得至l jj a v a 编程语言的有 关信息还是爪哇岛的信息。为此,我们针对第二个缺陷提出对用户的语义意图进行识别。 当然,如果我们在将来的工作中能够对用户的搜索动机进行识别,那么第一种缺陷也会随 之克服。 用户语义意图的识别也属于个性化搜索研究的范畴,但本文并没有建立用户模型。这 是因为:用户的查询意图是随时间变化和随着用户自身需求的变化而变化的,我们并不否 9 北大学硕士学位论文第2 章个性化搜索技术研究 用户的身份和用户的历史行为在一定程度上可以为搜索引擎提供有价值的信息,但这种 户模型的建立和更新是有代价的。许多通用的搜索引擎没有建立用户模型,并不是它们 有意识到用户建模的重要性,而是以成本和响应时间为代价换取性能的少量提升,这对 用搜索引擎来说都是得不偿失的。因此,本文的语义意图只考虑用户和搜索引擎交互的 时信息,不涉及用户身份和历史记录等信息。 5 本章小结 在这一章中,我们首先介绍了个性化搜索的概念、现状和挑战,然后重点归纳和总结 个性化搜索中的用户建模技术,包括用户兴趣模型,用户意图模型和用户目标的研究成 ,最后阐述了用户语义意图和个性化搜索的关系。 1 0 东北大学硕士学位论文第3 章基于查询上下文的语义消歧 第3 章基于查询上下文的语义消歧 识别用户的语义意图,最关键的技术就是对查询进行语义消歧。要进行词义排歧的 词叫做目标词( t a r g e tw o r d ) ,目标词所嵌入的文本,叫做上下文( c o n t e x t ) 。消歧是一 个根据给定的上下文找到目标词最适合的语义的过程。虽然消歧技术是自然语言处理和 计算语言学领域中众所周知的问题,但传统的方法并不能灵活运用到基于w e b 的上下 文环境中。本章首先论述基于w e b 的消歧方法应该具备的性质,然后介绍本章所涉及 的两个概念w o r d n e t 和语义相关度,最后给出具体的消歧算法。 3 1 基于w - e b 消歧方法的特性 在我们看来,任何基于w e b 上下文环境的消歧方法必须具备广阔的应用前景和高度 的灵活性。下面我们列举了面向w e b 的消歧方法应该具有的一些特征: ( 1 ) 无监督的方法。在处理消歧问题的系统中有两种不同的方法【2 5 】:有监督的学 习方法( 用手工消歧的样本对系统进行训练) 和无监督的或基于字典的方法( 系统不需 要训练集,而是基于电子词典或其它相似资源的特定算法) 。尽管有监督的方法效果很 好,但主要问题是缺乏大量的语义标注的语料库,这就是典型的“知识获取瓶颈【2 6 1 。 因此,我们认为无监督的方法更适合w 曲环境; ( 2 ) 独立于特定的词汇资源。目前还没有哪一个词汇数据库能提供w e b 查询中可 能出现的任何概念,即便是功能强大的w o r d n e t 也不例外,如:“u m l ”( 统一建模语 言的缩写) 就没有出现在w o r d n e t 2 1 中。因此,只有利用多个词汇资源甚至w e b 资源, 才可以弥补这一不足; ( 3 ) 计算成本低。由于w e b 的动态特性和快速响应用户的要求,基于w e b 的消歧 方法的计算成本应尽可能低,即时间消耗应尽可能少。消歧方法的主要时间消耗在语义 相关度的计算上,因此选择一种合适的语义相关性度量是解决此问题的关键。 上述三个特征是一种理想的状态,很少有w e b 消歧系统能同时满足上述三个特征。 特征之间也有一定的制约性,如:要想满足第二个特征,就必须提供多个词汇资源,那 么在计算语义相关性时就会涉及对多个词汇资源的同时访问,这样计算的成本也会相应 地增加,时间消耗也随之增加。因此,在设计w e b 消歧系统时需要权衡三者的利弊, 根据自身系统的特点作出取舍。本文考虑到响应速度,只选取了单个词汇数据库资源一 一w 6 r d n e t 来获取词汇和语义信息。 1 】 东北大学硕士学位论文第3 章基于查询上下文的语义消歧 3 2w o r d n e t 简介 3 2 1w o r d n e t 的心理语言学假设 w o r d n e t 是由普林斯顿大学认知科学实验室开发的一个基于心理语言规则的英语词 汇数据库【2 7 1 。它是基于以下三个心理语言学假设: ( 1 ) 可分离性假设( s e p a r a b i l i t y h y p o t h e s i s ) :语言的词汇成分可以被离析出来并专 门针对它加以研究; ( 2 ) 可模式化假设( p a t t e r n i n gh y p o t h e s i s ) - 一个人不可能掌握他运用一种语言所 需的所有词汇,除非他能够利用词义之间存在的系统的模式和关系; ( 3 ) 广泛性假设( c o m p r e h e n s i v e n e s sh y p o t h e s i s ) 计算语言学如果希望能像人那 样处理自然语言,就需要像人那样储存尽可能多的词汇知识。 3 2 2w o r d n e t 的内容 w o r d n e t 通过将同义词的集合集中到称为s y n o n y ms e t s 或s y n s e t s 的组中来描述和分 类单词和概念。s y n s e t 有一个唯一的标识符,即所谓的s e n s e - t a g 。每一个s y n s e t 都有一 个和它关联的注释( g l o s s ) ,用来解释s y n s c t 表征的概念的意义。如: c a r , a u t o ,a u t o m o b i l e , m a c h i n e ,m o t o r c a r 是一个s y n s e t ,表征由注释4 - w h e e l e dm o t o rv e h i c l e ;u s u a l l yp r o p e l l e d b ya ni n t e r n a lc o m b u s t i o ne n g i n e 所定义的概念。同义词集合之间是以一定数量的关系类 型相关联的。这些关系包括同义反义关系( s y n o n y m y ,a n t o n y m y ) 、上下位关系 ( h y p o n y m y ,h y p e m y m ,t r o p o n y m y ) 、部分整体关系( e n t a i l m e n t ,m e r o n y m y ) 等。通 常,这些概念层次不能跨越词性边界,因此语义关联被限制在某个特定的词性口羽。如: 对于名词,当一个概念i s a - k i n d o f 另一个概念,则这两个概念之间存在i s a 关系,也是 所谓的上位关系h y p e m y m 。i s - a 层次还存在于动词中,表示i s - w a y o f - d o i n g ,也就是所 谓的t r o p o n o m y 。每一种层次都有一个非常概化的顶部节点,从上到下概念越来越具体。 图3 1 为概念“t r a i n 在w o r d n e t 中的i s a 层次示意图。 w o r d n e t 的描述对象包含c o m p o u n d ( 复合词) 、p h r a s a lv e r b ( 短语动词) 一c o l l o c a t i o n ( 搭配词) 、i d i o m a t i cp h r a s e ( 成语) 、w o r d ( 单词) ,其中w o r d 是最基本的单位。它并 不把词语分解成更小的有意义的单位( 这是义素分析法c o m p o n e n t i a la n a l y s e s 的方法) , 也不包含比词更大的组织单位( 如脚本、框架之类的单位) 。由于w o r d n e t 把4 个开放 词类区分为不同文件加以处理,因而w o r d n e t 中不包含词语的句法信息内容。 w o r d n e t 是一个免费的电子资源,目前的w i n d o w s 版本为w o r d n e t 2 1 ,其他系统 1 2 图3 1 概念“t r a i n ”在w o r d n e t 中的i s a 层次不恿图 f i g 3 1s c h e m a t i co fi s - ah i e r a r c h ya b o u t ”t r a i n ”i nw o r d n e t 3 3 语义相关度 鉴于本文中多次提到语义相关度,且第4 章中的会话边界识别和语义消歧过程中都 需要用到它,因此,这一节首先介绍语义相关度的概念,然后对各种语义相关度的度量 做简单的介绍。 3 3 1 语义相关度的概念 计算两个以词汇形式表达的概念之间的语义相似性或相关性是计算语言学中的一个 普遍的问题,主要用于语义消歧、信息抽取和检索、自动索引、词汇选取和文本中单词 的自动纠错等应用中【2 9 】。当前,计算语言学在这个主题上的研究主要侧重于在某个词汇 资源中两个词素( i 百- j 汇单位) 的语义相关性或语义距离( 语义相关性的倒数) 。 1 3 念特征的一种简单度量,概念所描述的信息越具体,则其所包含的信息量越高,概念越 笼统,信息量越低。如:“汽车 的信息量比“实体 的信息量高。概念信息量的形式 化描述如式3 2 : i c ( 加_ l o g l 咖s r g e ( q 阳( c 。) 万 ( 3 2 ) 其中,z c ( c ) 是概念c 的信息量,r o o t 是根节点,f r e q ( c ) 表示概念c 的频数( f r e q u e n c y c o u n t ) 。如果有词义标注的文本可以利用,那么概念的频率可以直接获得,因为每一个 概念和一个唯一的义项相关联。如果没有义项标注的文本可利用,则需要采用一种计算 1 4 东北大学硕士学位论文第3 章基于查询上下文的语义消歧 策略。r e s n i k 提出计算概念在某个语料库中出现的次数,然后除以和该词相关联的概念 个数。 r e s n i k l 3z , 3 2 1 用概念的信息量和名词概念在w o r d n e t 的i s a 层次关系中的位置信息来 计算概念的语义相关度。其主要思想是两个概念的语义相关性正比于它们共享的信息的 数量。共享信息的数量取决于包含这两个概念的层次中最低概念的信息量。这个最低概 念就是所谓的两个概念的“最小公共包含( 1 0 w e s tc o m m o ns u b s u m e r ) ”,r e s n i k 测度定 义如式3 3 : r e l a t e d 。e s ( q ,c 2 ) = 1 c ( 1 c s ( q ,c 2 ) ) ( 3 3 ) 注意到该测度并没有考虑概念本身的信息量,也没有直接考虑路径长度。因此,对 具有相同的最小公共包含的概念没有区分度。 ( 3 ) j i a n g c o n r a t h 测度 j i a n g 和c o n r a t h 3 3 1 使用了r e s n i k 定义的信息量,并用概念之间的路径长度对它进行 了扩充。既考虑了概念本身的信息量,也考虑了它们的最小公共包含的信息量。用公式 表示为式3 4 : 咖f 砌( c l ,c 2 ) = l c ( c 1 ) + l c ( c 2 ) 一2 木l c ( 1 c s ( q ,c 2 ) ) ( 3 4 ) 该公式计算的是两个概念的语义距离,即不相关性。为了保持测度的一致性,计算 其倒数即可( 式3 5 ) 。 1 陀肠纪d j c n ( e l ,c 2 ) 2 磊葫 。5 、 有两种特殊的情况会使分母为0 ,从而导致相关度未定义。第一种情况( 式3 6 ) : i c ( q ) = i c ( c 2 ) = 1 c ( 1 c s ( q ,c 2 ) ) = 0 ( 3 6 ) 如果最小公共包含恰好是根节点,由于根节点的信息量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论