




已阅读5页,还剩104页未读, 继续免费阅读
(信号与信息处理专业论文)web20网络热点发现与个性化检索研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学博士学位论文 r e s e a r c ho nn e t w o r k h o t s p o td e t e c t i o ni nw e b 2 0 a n dp e r s o n a li z e d _ n f o r m a t i o n r e t r i e v a _ d i s s e r t a t i o nf o rp h d d e g r e e b yl u m i n g d i r e c t e d b y 死形红钇哆一玩 d e p t , o fe l e c t r o n i ce n g i n e e r i n ga n di n f o r m a t i o ns c i e n c e , u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo fc h i n a h e f e i ,a n h u i ,er c h i n a j u n e ,2 0 1 2 中国科学技术大学博士学位论文 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名:牡 签字日期:2 鱼竺l 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 叼公开口保密( 年) 作者签名: 里丝! i 签字日期:兰! ! ! 至! 鳘 i i 导师签名 签字日期 中国科学技术大学博士学位论文 摘要 近几年来,所谓的w e b 2 0 网站和技术发展迅速,彻底改变了互联网的面貌。 w e b 2 0 网站强调自由创作和用户参与,数以亿计的网民在新一代的w e b 平台上 创造了海量的生动有趣的内容。越来越丰富的互联网信息资源使得用户难以在浩 如烟海的数据中找到其真正感兴趣的信息,因此,各种各样的信息检索和搜索引 擎技术得到了广泛的关注和巨大的发展。 现有的w e b 信息检索系统主要是搜索引擎,但是已有的搜索引擎还是存在 着很多不足,主要表现为:一是w e b 2 0 网站的内容被收录的比例很少;二是给 出的结果不能反映当前网络的流行信息和热点话题;三是检索结果没有针对用户 的兴趣爱好来排序和筛选。针对以上几点问题,论文所要探讨的就是如何在 w e b 2 o 环境下,帮助用户根据自己的兴趣爱好从w e b 2 0 的信息海洋里获取流行 的热点话题。 论文主要针对w e b 信息检索中的w e b 2 。0 社区网络热点发现以及个性化推荐 进行了研究,以更好地改善用户的检索体验。为了达到这个目标,论文首先提出 了研究的框架,然后探讨各个重要组成模块的关键技术,并针对w e b 2 0 网站的 特点提出相应改进的算法与模型。论文的主要内容和创新之处为: 1 针对w e b 2 0 网站信息组织和层次结构的特点,抽象出面向对象的分布式深 度爬虫( o b j e c t o r i e n t e dd i s t r i b u t e dd e e pc r a w l e r ,简称o o d d c ) ,使用较经 济的带宽来与真实数据保持同步,大大提高了爬虫的工作效率和采集数据的 实时性。实验结果也证实了面向对象的分布式实时深度爬虫的优点。 2 详细研究了w - e b 2 o 网站数据格式和内容标签( t a g ) 化的特点,在传统w e b 信 息抽取算法基础上,结合向量空间模型( v s m ) 和实体识别算法,采用少数几 个t a g 及其权重组成的向量来描述网页、图片、视频和博客等w 曲对象信息 本体的特征,建立了基于t a g 描述的统一信息表示模型。 3 基于t a g 描述的统一信息表示模型,改进了已有的话题检测与跟踪( t d t ) 算 法,用快速的聚类算法检测和聚合网络话题;同时结合用户反馈对于信息流 行程度的影响,提出一种有效的网络话题热度评估算法( h o t r a n k ) ,对所收集 的话题计算其热度,作为排序和推荐的依据。实践表明,以相关度和热度共 同作为检索结果的排序依据更加吸引用户。 4 针对现有用户兴趣模型的缺陷,提出一种基于主题的在线用户兴趣模型。此 模型自动提取用户访问网页的主题,并随时根据用户兴趣的变化以非常小的 代价更新。该用户兴趣模型可以运用到各种个性化服务中。实验证明基于此 i i i 中国科学技术大学博士学位论文 模型的个性化推荐系统具有良好的性能。 关键词:w e b ,信息检索,爬虫,热点发现,个性化 i v 中国科学技术大学博士学位论文 a b s t r a c t w i t ht h er a p i dp r o g r e s so fw e b2 0 t e c h n i q u e ,p l e n t yo ff a m o u sw e b s i t e sh a v e e m e r g e di nr e c e n ty e a r sw h i c hc h a n g e dt h ew h o l ei n t e r n e t i ti se m p h a s i z e di nw e b 2 0w e b s i t e st h a tu s e r sc a l lt a l ka n dp a r t i c i p a t ef r e e l y b i l l i o n so fp e o p l eh a v ec r e a t e d s t u p e n d o u sa m o u n to fi n f o r m a t i o no nt h i sn e wp l a t f o r m ,w h i c hm a k e si th a r d e rf o r p e o p l et of i n dw h a tt h e ya r er e a l l yi n t e r e s t e di n a sar e s u l t ,i n f o r m a t i o nr e t r i e v a la n d s e a r c he n g i n et e c h n i q u eh a sa t t r a c t e dal o to fa t t e n t i o na n de a r n e dq u i t eas u c c e s s 。 s e a r c he n g i n ep l a y sa ni m p o r t a n tr o l ei nw e bi n f o r m a t i o nr e t r i e v a ls y s t e m s n o w a d a y s h o w e v e gi ts t i l lh a ss o m ed e f e c t s :1 ) t h ec o n t e n t so fw e b2 0w e b s i t e s o c c u p yal i t t l ep e r c e n t a g e ,2 ) c u r r e n tp o p u l a ri n f o r m a t i o na n dh o tt o p i c sc a n n o tb e r e f l e c t e di nt h er e t u r n e dr e s u l t s ,3 ) r a n k i n ga n df i l t e r i n go ft h es e a r c hr e s u l t sh a v en o r e l a t i o n st ou s e ri n t e r e s t 。t h i sp a p e ra t t e m p t st os o l v et h ep r o b l e m so nh o wt oh e l p p e o p l ef i n dt h eh o t s p o tt h e ya r er e a l l yi n t e r e s t e di nt h eo c e a no fw e b2 0i n f o r m a t i o n t h i sp a p e rc o v e r st h et o p i c so fh o t s p o td e t e c t i o ni nw e b2 0s o c i a ln e t w o r ka n d p e r s o n a l i z e dr e c o m m e n d a t i o nf o rb e t t e ru s e re x p e r i e n c e t oa c h i e v et h e s eg o a l s ,t h i s p a p e rf i r s tp r o p o s e st h er e s e a r c hf r a m e w o r k a f t e rt h a t ,w ed i s c u s st h ek e yt e c h n i q u e s o fe a c hi m p o r t a n tp a r to ft h i ss y s t e m ;b e s i d e s ,i m p r o v e da l g o r i t h m sa n dm o d e l sa r e p r o p o s e da c c o r d i n gt ot h ef e a t u r e so fw e b2 0 t h em a i nc o n t e n ta n di n n o v a t i o n s i n c l u d e : 1 。c o n s i d e r i n gt h ec h a r a c t e r i s t i co fi n f o r m a t i o no r g a n i z a t i o na n dh i e r a r c h ys t r u c t u r e o fw e b2 0 w e b s i t e s ,w ec r e a t ea no b j e c t o r i e n t e ds e l f - a d a p t i n gd i s t r i b u t e d r e a l t i m ev e r t i c a lc r a w l e r , w h i c hc a l ls y n c h r o n i z ew i t ht h er e a l t i m ed a t aw h i l e o c c u p y i n gar e l a t i v es m a l lb a n d w i d t h t h ee f f i c i e n c yo fc r a w l e ra n dt h es p e e do f i n f o r m a t i o nc o l l e c t i o nh a v eb e e ni m p r o v e dal o t a f t e ras u f f i c i e n tr e s e a r c ho fd a t as t r u c t u r ea n dt h ef e a t u r eo fc o n t e n tt a g g i n go f w e b2 0w e b s i t e s ,w ed e v e l o pau n i f i e dt a g b a s e di n f o r m a t i o ne x p r e s s i o nm o d e l b yc o m b i n i n gt h et r a d i t i o n a lw e bo b j e c te x t r a c ta l g o r i t h m sw i t hv s mm o d e la n d n a m ee n t i t yd e t e c t i o na l g o r i t h m s ,i nt h i sm o d e l ,w ed e s c r i b ew e bo n t o l o g ys u c h a sp a g e s ,i m a g e s ,v i d e o sa n d b l o g sw i t hs e v e r a lw e i g h t e dt a g sa n d v e c t o r s b a s e do nt h et a g b a s e du n i f i e di n f o r m a t i o ne x p r e s s i o nm o d e l ,w ei m p r o v e d e x i s t i n gt d ta l g o r i t h m s 。i tc a nd e t e c tt o p i c sw i t hl e s sc o m p u t a t i o nc o s t w e d e s i g na ne f f e c t i v et o p i cp o p u l a r i t ye s t i m a t i o na l g o r i t h m ( h o t r a n k ) ,w h i c h v c o n s i d e rt h ei m p a c to fu s e rf e e d b a c k st oi n f o r m a t i o np o p u l a r i t y w eu s eh o t r a n k t oc a l c u l a t et h ep o p u l a r i t yo ft o p i c s w ec o l l e c t e df o rf u r t h e rr a n k i n gm a d r e c o m m e n d a t i o n 4 a i m i n ga tt h ed e f e c t so fc u r r e n tu s e r i n t e r e s tm o d e l s ,w es e tu pat o p i c - b a s e d o n l i n eu s e ri n t e r e s tm o d e l i tc a l la u t o m a t i c a l l ye x t r a c tt h et o p i c so fw e bp a g e s w h i c hu s e r sv i s i t e d ,a n du p d a t ei t s e l fw i t hv e r yl i t t l e c o s tw h e n e v e rn e c e s s a r y b a s e do nt h ev a r i a t i o no fu s e ri n t e r e s t t h i sm o d e lc a n b ea p p l i e dt om a n yk i n d s o fi n d i v i d u a ls e r v i c e s e x p e r i m e n t s h a v eb e e np r o v e dt h a tp e r s o n a l i z e d r e c o m m e n d a t i o ns y s t e mb a s e do nt h i sm o d e la c h i e v e dg o o dp e r f o r m a n c e k e yw o r d s :w e bi r ,t d t , c r a w l e r , p e r s o n a l i z e d r e c o m m e n d a t i o n v i 中国科学技术大学博士学位论文 目录 摘要i i i 第一章绪论1 1 1 概述1 1 2 网络热点发现与追踪研究现状2 1 2 1 话题检测与跟踪概述2 1 2 2 话题关系检测研究现状2 1 2 3 新话题检测研究现状3 1 2 4 国内研究现状3 1 3 个性化检索研究现状5 1 3 1 个性化服务系统概述5 1 3 2 个性化研究现状6 1 4 网络热点发现与个性化推荐8 1 5 本文的研究内容与结构安排8 1 5 1 本文的研究内容8 1 5 2 本文结构安排一9 第二章面向w e b 2 0 对象的分布式爬虫1 0 2 1 通用爬虫模型1 0 2 1 1 通用爬虫结构1 0 2 1 2 网页的重要程度l l 2 2 主题爬虫模型1 2 2 2 1 主题爬虫的原理1 2 2 2 2 主题爬虫的结构1 3 2 3 现有爬虫模型和算法的局限性1 3 2 4 面向对象的分布式爬虫模型1 5 2 4 1 特性和改进1 5 2 4 2 系统结构1 7 2 4 3 工作流程1 9 2 5 爬虫实验2 0 2 5 1 实验介绍2 0 2 5 3 实验过程2 1 2 5 4 结果与分析2 l v i i 中国科学技术大学博士学位论文 2 6 本章小结2 3 第三章基于t a g 的w e b2 0 信息表示模型2 5 3 1w e b 信息抽取2 5 3 1 1 信息抽取技术介绍2 5 3 1 2w e b 信息抽取算法2 6 3 2w e b 2 0 网页信息抽取的特点2 8 3 3 网页t a g 抽取2 9 3 3 1 基于视觉的页面分割算法3 0 3 3 2 中文分词3 l 3 3 3 实体抽取3l 3 3 4 用户t a g 的抽取3 3 3 3 5 综合抽取3 3 3 4 多媒体t a g 抽取3 4 3 5 一种基于规则和统计的混合实体识别算法3 5 3 5 1 概述3 5 3 5 2 系统框架3 5 3 5 3 实验结果及分析4 0 3 6本章小结4 l 第四章w e b2 0 下热点话题发现、评价与追踪4 2 4 1 传统t d t 技术4 2 4 1 1t d t 任务4 2 4 1 2t d t 相关技术4 3 4 2w e b2 0 下t d t 的挑战4 4 4 3w e b2 0 下的热点话题发现与追踪模型4 5 4 3 1 网页预处理4 6 4 3 2 话题发现模块4 7 4 3 3 热度评价算法5 0 4 3 4 基于热度的追踪算法5 3 4 3 5 热点检索5 5 4 4 实验结果与分析5 7 4 4 1 热点发现实验5 7 4 4 2 热点追踪实验6 0 4 5 本章小结6 2 第五章用户兴趣模型与个性化推荐6 3 v i i i 中国科学技术大学博士学位论文 5 1 用户兴趣模型概述6 3 5 2 用户信息收集6 4 5 2 1 显式用户信息收集6 5 5 2 2 隐式用户信息收集6 5 5 2 3 两种收集方式的比较6 7 5 3 用户兴趣模型的表达与建立6 8 5 3 1 基于关键词的用户兴趣模型6 9 5 3 2 基于概念的用户兴趣模型7 0 5 4 基于主题的在线用户兴趣模型7 1 5 4 1 模型概述7 1 5 4 2 用户档案聚类7 2 5 4 3 用户兴趣模型的建立与更新7 4 5 5 用户兴趣模型在个性化推荐中的应用7 6 5 5 1 个性化推荐基本方法7 6 5 5 2 基于用户兴趣模型的个性化推荐7 8 5 6 实验结果与分析7 9 5 6 1 实验数据7 9 5 6 2 评价方式7 9 5 6 3 实验结果7 9 5 7本章小结8 0 第六章总结与展望8 2 6 1 论文总结8 2 6 2 未来研究方向展望8 2 参考文献8 4 攻读博士学位期间发表的论文9 7 攻读博士学位期间参加的科研项目9 8 致谢9 9 i x 中国科学技术大学博士学位论文 声明 本文的研究得到了国家自然科学基金“网络信息热点发现与深度知识挖掘模 型研究( 课题编号:6 0 6 7 2 0 5 6 ) 和国家8 6 3 项目“基于网络热点的个性化集成检 索系统”( 课题编号:2 0 0 8 从0 l z l l 7 ) 的资助。 x 中国科学技术大学博士学位论文 第一章绪论 本章首先指出了现有w e b 信息检索的一些不足,引出了论文研究课题的重要 意义:然后回顾了论文所涉及的相关研究的历史与现状:给出了本文所要探讨的 基础研究框架,最后介绍了论文的研究内容和结构安排。 1 。1 概述 随着新兴媒体互联网的高速发展,互联网上的各种信息和应用正以几何级数 的速度膨胀。近年来,w e b 2 0 的大行其道加速了这种信息爆炸的趋势。人们越 来越依赖互联网获取信息,同样也被互联网的信息海洋所淹没,但是另一方面人 们还是经常觉得找不到想要的信息,或者没有感兴趣的内容,还有就是网站内容 千篇一律,完全不迎合用户的感受和兴趣。 我们考察互联网用户获取媒体信息的过程:用户在上网浏览时,经常需要查 询当前网页中出现的感兴趣内容,最常见的手段就是打开搜索引擎,手动输入关 键字,再从搜索结果中筛选寻找出有价值的信息。用户在使用搜索引擎的时候, 总是向它发送一些关键词,我们称之为输入,搜索结果我们称之为输出。这是一 个标准的输入输出过程。 这种方式存在以下三点问题: 1 从信息源来看:由于d e e p w e b 的存在和w e b 2 0 网站数据丰富更新迅速的特 点,传统的搜索引擎收录的网页主要是w e b l 。0 网站;它们收录的w e b 2 0 页 面只占很少一部分比例。但是事实上,由于w e b 2 0 网站的内容是用户创作 的,它所产生的内容远比传统网站来得丰富多彩,人们更加喜欢这些新鲜有 趣、生动活泼、形式多样的非正式内容。 2 。从检索结果来看:由于搜索引擎的运行机制的限制,它采用的排序算法没有 体现时间因素的影响,导致所给出的结果不能反映当前网络的流行信息和最 近的热点话题。然而很多时候,用户需要的往往是网络中最近的热点信息。 3 从用户角度:对于不同的用户搜索引擎返回的结果并无差别,这些结果没有 针对用户的兴趣爱好来排序和筛选:由于信息过载的问题,真正对用户有价 值的信息往往隐藏在纷繁复杂的条目中,很难快速获取。 本论文的课题是w e b 2 0 网络热点发现与个性化检索研究,正是为了解决以 上三个问题的。希望通过这两个方面的研究来给互联网用户带来全新的友好的检 索体验,帮助用户根据自己的兴趣爱好从海量的互联网信息里找到流行的热点信 息。下文将介绍这两个研究的概况和现状。 中国科学技术大学博士学位论文 1 。2 网络热点发现与追踪研究现状 网络热点发现与追踪这个课题与话题检测与跟踪( t o p i cd e t e c t i o na n d t r a c k i n g ,简称t d t ) 【1 一脉相承,但是有所区别,它把t d t 的算法和技术在 w e b 2 0 环境里结合w e b 2 0 网站自身的信息结构和组织特点而产生的一个新的研 究方向。 1 2 1 话题检测与跟踪概述 话题检测与跟踪是近年提出的一项信息处理技术,这项技术旨在帮助人们应 对日趋严重的互联网信息爆炸问题,对大规模新闻报道资料库进行分析和处理, 从中自动检测新的话题和跟踪已知话题。自从1 9 9 6 年以来,该领域进行了多次 大规模评测,为信息识别、采集和组织等相关技术提供了新的测试平台。由于话 题检测与跟踪相对于信息检索、数据挖掘和信息抽取等自然语言处理技术具有很 多共性,并且面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息 处理领域的研究热点。 话题识别与跟踪研究划分成五个相互独立但又紧密关联的子任务【2 】:对新闻 报道的切分( s t o r ys e g m e n t a t i o n ) ,新事件检测n e we v e n td e t e c t i o n ) ,报道关系识 蔓j 1 ( l i n kd e t e c t i o n ) ,话题识另l j ( t o p i cd e t e c t i o n ) 与话题跟踪( t o p i ct r a c k i n g ) 。 1 2 2 话题关系检测研究现状 话题关系检钡u ( l d t ) 【2 j 的主要任务是检测随机选择的两篇报道是否论述同一 话题。为了判断某个报道和话题是否相关,首先需要选择文档表示模型,然后再 进行计算和比较相似度。目前常用的模型主要有语言模型( l a n g u a g em o d e l ,l m ) 和向量空间模型( v e c t o rs p a c e m o d e l ,v s m ) 。j a m e s a l l a n t 3 j 和s c h u l t z 4 1 采用v s m 描述报道的特征空间,特征的权重一般采用常见的t f i d f 词频分布进行估算, 并利用余弦夹角公式计算报道之间的相似性。此外,l e e k t 5 1 和y a r n r o n 6 将参与检 测的两篇报道分别看作一个话题和一篇报道,采用l m 模型估算报道属于话题的 概率,并交换角色估计两种情形各自发生的条件概率,报道的相关性基于这两种 概率分布采用k l 7 】算法综合得出。p o n t e 和c r o f t 【8 】采用v s m 并结合特征扩展 技术,选择待测报道中主要特征作为扩展对象,根据围绕主要特征经常出现的上 下文【9 】对其进行扩展,特征空间由原始和扩展的特征项共同组合而成。特征扩 展技术是常见的优化手段,有助于减少多义词特征的干扰,也能一定程度上改善 2 中国科学技术大学博士学位论文 特征选择的稀疏性。 1 2 3 瓤话题检测研究现状 新事件检测( n e we v e n td e t e c t i o n ,简称n e d ) 【2 也称新话题检测,是辅助 话题检测( t d ) 的重要组成部分。j a m e sa l l a n 1 1 】和y i m i n gy a n g t l 2 1 的工作奠定了 n e d 研究的基础架构,他们建立一个在线系统识别新闻流中出现的新事件。它 的工作机制比较简单,每个被识别的后续报道需要与所有的已知事件计算相关 度,如果相似度全部小于设定的先验阈值,则判别为新事件的种子报道。后续研 究以此为基础,在两个方面做进一步探讨,即寻找更好的文档表示模型和深入挖 掘新闻报道的时间分布特征来改进相关性计算。 基于词频统计的文档表示模型中最常用的是向量空间模型( v s m ) ,事件与报 道的相似度计算一般采用余弦夹角和h e l l i n g e r 距离公式【l3 | 。v s m 的缺陷就是事 件空间中的噪声会造成干扰。为解决这个问题,y i m i n gy a n g 1 2 锵先验报道划分 为不同类别,只选择每个类别中最优的相关报道来描述事件模型,这种办法过滤 掉部分低质量的非相关报道,降低了噪声的影响程度,具备良好的性能。 统计模型的一个难题是区分同一话题的不同事件。由于话题经常被不同事件 触发而重复出现,因此话题描述的是所有相似事件具备的共性。不同的事件之间, 最大的区别就是事件发生的时间和地点并不一致,出现的人物和机构也大相径 庭,因此以该类名词为主的特征集合,对识别不同事件有着显而易见的标杆意义。 由此,k u m a r a n 1 4 1 、j a m e sa l l a n 15 1 、y i m i n gy a n g 1 6 1 和l a m 1 7 】等学者使用自然语 言处理( n l p ) 技术辅助统计策略解决n e d 问题,他们用到的最重要的n l p 技术 就是命名实体e ) 识别。比如k u m a r a n 【1 4 】以y i m i n gy a n g 1 6 】的分类方法为统计框 架,将报道描述成三种向量空间,分别为全集特征向量、仅包含n e 的特征向量 和排除n e 的特征向量,通过对比分析采用三种不同向量空间模型对新事件检测 精度和性能的影响,最终验证命名实体是区分不同事件的强大武器。 n e d 研究应用时间特征有两种方式,一种是基于文档提供的时间顺序,采 用k n n 分类技术;另一种是采用时间为参数的衰减函数 1o 】f 1 3 】改进基于内容的相 关度计算方法。这些研究相继改善了系统性能。因此,n e d 未来的研究趋势将 以区分话题与事件在时间轴上的概率分布为主线,并辅以自然语言处理( n l p ) 与 统计策略相结合来描述事件与报道。 1 2 4 国内研究现状 国外的研究以统计概率模型为主要方向,国内的研究侧重探索t d t 本身的 中国科学技术大学博士学位论文 特性。主要基于t d t 的两个特性:一是t d t 处理的数据对象是描述现实世界发 生事件的广义新闻报道,对于这类文档的语义理解是否确切很大程度上依赖于文 档中出现的命名实体元素【l 引,而中文实体与英文实体的识别方式存在比较大的 差异;二是事件的多篇报道之间有严格的时序关系,根据这些时序特征和分布图 样,可以揭示整个话题的演变过程【l 9 | 。 如前所述,命名实体是描述事件或者话题的特殊语言特征,是区分不同主题 的重要标志。t d t 系统利用命名实体改进整体性通过两个手段:一是对命名实 体施加特别的权重系数,以突出命名实体与其它语言特征比较而言的相对重要 性;二是使用线性规划来调整和优化两类特征在相关性运算过程中的作用。 国内较早实施通过命名实体手段优化t d t 系统的研究【2 0 】预先为人名、地名 和主题信息等不同的特征类别分配不同的权重系数,取得了一定程度的性能改 进,但是根据经验来分配相对权重无法保证系统在大部分情况下的鲁棒性。清华 大学的张阔【2 l 】提出一种解决方案,他们基于x 2 分布统计t d t 2 数据中不同实体 类别( 人名、地名和公司名) 和话题分类( 科技、财经、体育等) 的关联性,用关联 性的量化指标来修正特征类别的不同权重,在提供n e d 系统性能的同时保障了 系统的稳定性。使用命令实体带来的一个缺陷是同义词的干扰。宋丹和王卫东等 2 2 】建立从大到小的地理树对地名做特殊优化,考虑地理树路径的覆盖率以提高 地名匹配度,但这种方法应用范围比较局限。骆卫华【2 3 【2 4 】基于概念一致性匹配 同义的命名实体,通过训练语料建立一个别名数据库及后缀表,以判别同义词和 近义词;该方案无法识别最新出现的命名实体。 如前所述,话题包含的种子事件与后续事件的各个文档具备清晰一致的时序 关系,是判断事件是否相关的重要评估指标。其核心观点是,报道与事件时间越 接近,则它们属于同一话题的几率越大。中科院的贾自艳【2 0 】提出当前报道与话 题中最新事件的时间差与内容匹配度的统一协调机制,提高了检测与跟踪话题演 化趋势的性能。赵华【2 5 】提出的方案与之接近,通过不断训练话题演化期间各个 子事件发生的间隔周期,找出一个阈值作为设定话题区分的边界条件,如果后续 报道距离话题上个报道的时间差超过此阈值,则认为不属于该话题。该算法判断 简单直接,性能较好。 但是这两种方法的缺陷是依赖先验性假设与训练语料,性能不够稳定。来自 宋丹【2 2 的时间“覆盖矩阵”获得相对稳定的性能改进。它将相关性匹配双方的 时间信息分别映射到时间轴,基于对角线检测所有同步点及其时间间隔,然后计 算所有间隔的覆盖率来代表匹配双方时序关系的相似性。 总体而言,国内相关研究侧重使用命名实体和时序关系改进性能,在方法上 注重统计策略和自然语言处理技术相结合,在研究趋势上逐步面向融入数据挖 4 中国科学技术大学博士学位论文 掘、事件抽取和篇章理解等相关技术。 1 3 个性化检索研究现状 1 3 1 个性化服务系统概述 到目前为止,尚没有直接商用化的个性化搜索引擎,但是个性化服务相关的 技术已经有一些初步的成果。个性化服务通过记录和分析用户行为来理解和预测 用户兴趣,从而实现对用户的差异化服务。个性化服务技术的目标是推荐高质量 内容以改进网站的用户体验,从而提高自身产品的竞争力和吸引力。目前存在着 许多个性化服务系统阳,分成三种技术路线【2 7 】:基于规则的系统,基于内容过 滤的系统和协作过滤系统。 基于规则的系统:根据用户的静态特征和动态属性来生成在不同情况如何提 供服务的各种各样的规则。这些规则简单有效,但是质量很难保证,也不能跟随 用户兴趣的变化而动态调整或者自适应学习。规则数目增加,系统的管理成本也 会不断增加。典型系统有i b m 的w e b s p h e r e ( w w w i b m c o m w e b s p h e r e ) , i l o g ( w w w i l o g e o m ) ,b r o a d v i s i o n ( w w w b r o a d v i s i o n c o m ) 等。 基于内容过滤的系统:计算内容与用户兴趣的相关程度作为推荐权重,并且 通过设定阂值来过滤掉那些用户不感兴趣的内容。实现机制简单高效,快速解决 问题,但是只能作为用户已有兴趣的延续与拓展,无法学习和预测用户新的兴趣 点。典型系统如s v s k i l lw e b e r t 2 8 1 ,p e r s o n a lw 曲w a t c h e r 【2 9 1 ,c i t e s e e r 3 0 1 ,l e t i z i a 31 1 , i f w e b 3 2 1 ,p v a 3 3 1 ,e l f i 3 4 】和w e b p e r s o n a l i z e r 【3 5 】等。 协作过滤系统:根据用户群体之间的相似性来筛选和排序相关内容。优点是 可以智能预测用户可能的新兴趣点,但存在两个难点:一个是稀疏性,在系统启 动期间,由于新系统的用户评价相对稀少,用户聚类算法的效果比较差:另一个 是可扩展性,随着用户和内容的不断累积,系统不堪重负,性能下滑得很快。典 型的协作过滤系统如:l e t sb r o w s e 【3 6 1 、g r o u p l e n s 3 7 1 、s e l e c t 3 8 1 、 l i k e m i n d s ( w w w m a c r o m e d i a c o r n ) 、s i t e s e e r 3 9 1 等。 除了这三种典型的个性化系统外,还有一些个性化服务系统综合利用了基于 内容过滤和协作过滤这两种技术。这类系统如:w e b s i f t 4 0 、d y n a m i cp r o f i l e r 卜l j 等,目前,典型的个性化搜索的基本流程图可以用图1 1 表示 中国科学技术大学博士学位论文 图1 1 个性化搜索的基本流程图 首先要根据用户访问的历史信息和用户的历史行为,建立相应的用户模型, 这一步可以离线完成。用户模型建立完毕后,用户递交一个查询,根据已建好的 用户模型进行查询更新,即根据特定的用户扩展或更新用户查询的内容,将修正 后的查询内容递交给搜索引擎,如g o o g l e ,y a h o o ,b a i d u 等,根据搜索引擎返回 的结果结合己建的用户模型,对搜索返回的结果重排序,再将搜索结果返回给用 户,同时记下用户的浏览记录,存入历史信息中,以便后面进行用户模型的更新。 从处理的位置看,个性化搜索系统可分为服务器端系统和用户端系统,服务 器端的处理速度快,但是不太方便跟踪用户行为。而在客户端处理不仅能准确跟 踪用户行为,而且不侵犯用户的隐私权,这点对某些用户十分重要,缺点是处理 速度和用户的机器相关。目前的系统倾向于在客户端处理。 1 3 2 个性化研究现状 目前关于个性化的研究主要集中在以下三个方面:一是用户兴趣和行为描 述;二是重排序算法;三是用户反馈算法。 1 3 2 1 用户兴趣和行为描述 对个性化服务系统来说,要向用户提供个性化的检索结果,需要了解用户以 往的检索和浏览结果,在此基础上才能向用户提供甚至推荐用户可能感兴趣的检 索结果,因此对用户的兴趣与行为进行有效的建模【4 2 】是一个好的个性化搜索系 统的非常重要的部分。 根据用户研究来源数据集的不同,用户建模分成为基于兴趣的和基于行为的 两种类型【4 3 1 。对于用户兴趣的描述可以表示为加权矢量模型、类型层次结构模 中国科学技术大学博士学位论文 型、加权语义网模型、书签和目录结构等,此外,用户的兴趣又可以分为长 期兴趣和短期兴趣两种,如何有效地对这两种兴趣进行建模仍然是一个正在研究 的热点问题。对于用户行为的描述可以表示为用户浏览模式或访问模式。 在实际的应用中,我们经常同时使用基于兴趣和基于行为两种表达方式以实 现对用户行为的有效建模。 1 3 2 2 重排序算法 重排序算法就是当常用的搜索引擎( 如g o o g l e ,y a h o o ) 向用户提供了初步 的搜索结果后,要结合用户的兴趣模型对初步的搜索结果进行重新排序,使最后 的显示结果能够与用户的兴趣相匹配。目前一些主流的机器学习嗍和数据挖掘 算法【4 6 1 都在个性化服务的系统中有所应用。 1 3 2 3 用户反馈算法 用户反馈算法是用户对重排序后的结果做出一定的评
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 济宁市2024-2025学年九年级上学期语文期中测试试卷
- 集安市2024-2025学年七年级上学期语文月考模拟试卷
- 高速概论基本知识培训课件
- 电表用电安全知识培训课件
- ps操作考试及答案
- mvr考试试题及答案
- 电缆培训知识课件
- G合同工程完工验收鉴定书
- 北京护理编制考试题库及答案
- 高炉安全知识培训课件
- 公众责任保险附加电梯责任保险
- 儿童智能玩具调研报告
- 广州知识产权法院民事判决书
- 供配电技术基本知识课件
- 应急信息报送制度
- 铁道车辆构造与检修高职PPT完整全套教学课件
- 铜矿石买卖合同(标准版)
- 浙人美2011版四年级美术上册《水资源》教案及教学反思
- 西餐烹调工艺与实训PPT全套完整教学课件
- 2023年高等教育文学类自考-03297企业文化考试参考题库(含答案)
- 北京市建筑施工作业人员安全生产知识教育培训考核试卷(A-B-C-D-E)【完整版】
评论
0/150
提交评论