(计算机应用技术专业论文)web检索优化的关键技术研究.pdf_第1页
(计算机应用技术专业论文)web检索优化的关键技术研究.pdf_第2页
(计算机应用技术专业论文)web检索优化的关键技术研究.pdf_第3页
(计算机应用技术专业论文)web检索优化的关键技术研究.pdf_第4页
(计算机应用技术专业论文)web检索优化的关键技术研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)web检索优化的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘簧 摘要 本论文系统地介镪了作翥在w e b 检索优化领域的研究工作 互联网燕一个匿大静信惑资源宝簿 僵互联黼上大鬣的信息氇给鹾户如餐找 到所需要盼僚怠带来了掖大瀚澄难 在这稀瑟祭f 整索g 擎 懿g o o g l e y a h o o i n f o s e e k 等 迅速发展起来 搜索引擎w 以镬助用户更快地找到所需要的信息 但目前的搜索引擎返回给用户的信息墨依然有狠多用户不需簧的信息 本文探讨 的是如何在现有检索技术的纂础上 对现有稳索方法检到的文档 这魑文档可髂 有缀多怒无关文档 遴行分檬 毽动媳褥到受褰矮量的检索终暴 燕 章介绍了本领域的发展动态 踅点是介绍第十届和麓十一届t r e c 会 议的w e b t r a c k 项目 第三章介绍了w e b 检索的背景知t 重点楚介缁三种经典的检索禳鳖 确 尔检索模型 向量空间稔索禳登和概率检索模登 第嚣章奔绥了魏侮捌爰链接售惑优化w e b 梭索 麓点是奔绥p a g e r a n k 算法 h i t s 算法以及超链接姻似度嬲数并绘必了 乍翥驰实验数据 在作者的实骏中 使 用链接髓息对捡索性越的提蕊并没有起刘聪鼹的作用 其原因可自g 是佟者使黑的 评测方法 使用t r e c 提供的评测工麒进行评测 只考虑了文档的相关性而没有 考虑文稍的权威性 第纛章夯绥了黧侮利露逢孛锤扩震貔纯w e b 检索 羹点怒秘关反馈矧妇傣寻 找统计意义上静阚义调 第六章介缀了作老提出筑过滤器检索优化算法 并通过对魄实验测试了过滤 器检索优化算法的性能 作者在实验中发现过滤器检索优化算法能明驻地提商检 索性能 传豢还尝试了在过滤嚣检索优化算法中镬矮溜义诿 显然馕熙瓣义避豹 过滤嚣梭索拨纯算法也盟显她撮裹了检索性熊 但与不使用慰义谰的过滤器捻索 优化算法相比 性能反而略有下降 关键谲 w e b 棱索忧化 链接傣感 套询妻 震 a b s t r a c t t h et h e s i si n t r o d u c e st h er e s e a r c hw o r ki nt h e f i e l do ft h ew e b r e t r i e v a lo p t i m i z a t i o nt h o r o u g h l y w o r l dw i d ew e b w e b i sa no o e a no fe n o r m o u si n f o r m a t i o nr e s o u r c e s h o w e v e r au s e ro f t e nf i n d si td i f f i c u l ti nr e t r i e v i n g w h a th e s h e n e e d s u n d e rt h i sb a c k g r o u n d s e a r c he n g i n eb o o m si nr e c e n ty e a r s b u tp r e s e n t s e a r c he n g i n e ss t i l lr e t r i e v em u c hi n f o r m a t i o nt h a tu s e r sd on o tn e e d o nt h eb a s i so fe x i s t i n gr e t r i e v a lt e c h n i q u e s t h et h e s i si n t r o d u c e sh o w t oi m p r o v et h ep e r f o r m a n c eo fi n i t i a lr e t r i e v a l c h a p t e rt w o i n t r o d u c e st h ed e v e l o p m e n tt r e n d si nt h i sf i e l d o fw h i c h f o c a lp o i n ti st h ew e bt r a c ko ft r e c2 0 0 1a n dt r e c2 0 0 2 c h a p t e rt h r e ei n t r o d u c e st h eb a c k g r o u n dk n o w l e d g eo fw e br e t r i e v a l o fw h i c hf e c a lp o i n ti st oi n t r o d u c et h r e ek i n d so fc l a s s i c a lr e t r i e v a l m o d e l s t h eb o o l e a nr e t r i e v a lm o d e l t h ev e c t o rs p a c er e t r i e v a lm o d e la n d t h ep r o b a b i l i s t i cr e t r i e v a lm o d e l c h a p t e rf o u rr e c o m m e n d sh o wt ou t i l i z el i n ki n f o r m a t i o nt oo p t i m i z e w e br e t r i e v a l o fw h i c hf o c a lp o i n ti st oi n t r o d u c ep a g e r a n ka l g o r i t h m h i t sa l g o r i t h ma n dh y p e r 一1 i n ks i m i l a r i t yf u n c t i o n i nt h ee x p e r i m e n to f t h ea u t h o r 1i n ki n f o r m a t i o nh a s1 i t t l ee f f e c ti n i m p r o v i n gr e t r i e v a l p e r f o r m a n c e m a y b et h er e a s o ni st h a tt h ee v a l u a t i o nm e t h o du s e db yt h e a u t h o ro n l yc o n s i d e r st h er e l e v a n c eo fd o c u m e n t s b u tn o tc o n s id e r st h e a u t h o r i t vo fd o c u m e n t s c h a p t e rf i v er e c o m m e n d sh o wt ou t i l i z eq u e r ye x p a n s i o nt oo p t i m i z e w e br e t r i e v a l o fw h i c hf o c a lp o i n ti st oi n t r o d u c er e l e v a n c ef e e d b a c k a n dh o wt of i n do u ts y n o n y m sb ys t a t i s t i c a lm e t h o d i nc h a p t e rs i x t h ea u t h o rp u t sf o r w a r dan o v e lq u e r ye x p a n s i 0 1 1m e t h o d w h i c hi sn a m e da s f i i t e r q u e r ye x p a n s i o n a n dt h ea u t h o rt e s t st h e p e r f o r m a n c ei nm a n ya s p e c t s i nt h ee x p e r i m e n t t h ea u t h o rf i n d so u tt h a t f i i t e rq u e r ye x p a n s i o nc a ni m p r o v et h er e t r i e v a lp e r f o r m a n c eo b v i o u s l y t h ea u t h o rt e s t s u s i n gs y n o n y m s i nf i i t e r q u e r ye x p a n s i o n b u tt h e p e r f o r m a n c eo fu s i n gs y n o n y m si sa1 i t t l el o w e rt h a n t h a to fn o tu s i n g s y n o n y m s k e y w o r d s w e b r e t r i e v a l o p t i m i z a t i o n l i n k i n f o r m a t i o n q u e r y e x p a n s io n 复旦大学硕士学位论文第一章引言 第一章弓i 言 1 1 研究背景和研究日的 互联潮是一令巨大毂臻惑资澈宝库 健互联瓣上大量瓣售惑氇绘曩户鲡舞 找到所需要的信息带来了很大的困难 在这种背景下 搜索引擎 如g o o g l e y a h o o i n f o s e e k 等 迅速发展起来 搜索引繁可以帮助用户更快地找到所需要的 信患 僵茸前的搜索弓f 擎返回给用产的信息匿依然裔很多角户不需要的信怠 本 文探讨的是如何在现有检索技术的旗础上 对现有检索方法检出的文档 这些文 挡霹 l 有缀多是无关文程 进行分季厅 叁动缝褥至l 楚高覆鬟的检索缭栗 1 2 关予与本论文密翡相关豹项蠢 文本检索会议 t e x tr e t r i e v a lc o n f e r e n c e 简称t r e c 是文本检索领域最 投藏酶国际会谈之 栈表了当今毽赛文本检索领域的最高承平 在癸立穗老师 黄徽菁老师 牛军钰老师的指导下 作者参加了第十届t r e c 会议的w e b t r a c k 瑷嚣豹t o p i cr e l e v a n c et a s k 葙第卡一属t r e c 会议涎w e bt r a c k 矮霹懿t o p i c d i s t i l l a t i o nt a s k 1 3 本论文介绍 第二章分缮了本该竣豹发震动态 重煮是穷缮第十矮帮第十一簇t r e c 会 议的w e b t r a c k 项目 第三章奔缮了w e b 检索魄鹜焱熟识 熬点是会缓三秘经典戆检索模型 毒 尔检索模型 向量空间检索模型和概率检索模型 第四章介绍了如何利用链接信爨优化w e b 检索 重点楚舟绍p a g e r a n k 算法 h i t s 算法以及超链援相似凄蕊数并绘出了作者的实验数据 在作者的实验中 使 用链接信息对检索性能的提高并没有起到明显的作用 其原阂可能是作者使用的 译测方法 傻瘸t r e c 提供瀚评测王其进行译溺 只考虑了文档的孝蠢关往两没有 考虑文档的权威性 第五章奔缨了翔 霉琴l 髑套诲扩鼹优诧w e b 检索 重点怒程关爱谈窝懿俺寻 找统计意义上的同义词 第六章介绍了馋者提出的过滤器检索优化算法 并通过对比实验测试了过 滤器检索优化算法的性能 作者在实验中发现过滤嚣检索优化算法能明显地提高 检索性能 作者还尝试了在过滤器检索优化冀法中使用同义词 虽然使用同义词 的遵滤器检索伉纯冀法氇黉漫遣提藏了检索往能 毽与不使爝同义词的过滤器检 索优化算法相比 性能反而略有下降 第1 页 复旦大学硕士学位论文 第二章发展动态 第二章发展动态 2 1n i s t 的t r e c 计划 文本检索会议1 t e x tr e t r i e v a lc o n f e r e n c e 简称t r e c 是由美国国家 标准技术局 n i s t 和美国国防部d a r p a 共同发起的一个年度会议系列 从2 0 0 0 年起 a r d a 也成为t r e c 的发起单位 开始于1 9 9 2 年 迄今已举办了1 1 次 己成为文本检索领域最权威的国际会议之一 代表了当今世界文本检索领域的最 高水平 目前正在进行的是t r e c2 0 0 3 t r e c 会议的宗旨主要有三条 通过提供规范的大规模语料 g b 级 和对文本检索系统性能的客观 公正 的评测 来促进技术的交流 发展和产业化 促进政府部门 学术界 工业界间的交流和合作 加速技术的产业化 发展对文本检索系统的评测技术 下面介绍最近的两届 也是作者参加了的t r e cw e bt r a c k t r e cw e bt r a c k 研究的目的是如何在一个规模大的 有链接信息的 类似w e b 环境的 文档集里 找到用户需要的文本信息 2 2t r e c 一2 0 0 1w e bt r a c k 综述2 2 2 1 简介 t r e c 一2 0 0 1w e bt r a c k 使用的文档集是有1 6 m 个网页的w t l o g 文档集 它 有两个任务 t o p i cr e l e v a n c e 任务和h o m e p a g ef i n d i n g 任务 t o p i cr e l e v a n c e t a s k 非常像传统的t r e ca dh o c 任务 只不过所使用的是互联网用户真正提交 过的查询 用户查询作为t i t l e 字段 而n a r r a t i v e 字段和d e s c r i p t i o n 字段则 是由专家根据用户的查询来填写的 总共有5 0 个查询 h o m e p a g ef i n d i n g 任务 的查询是一个主页的名字 如 复旦大学 h o m e p a g ef i n d i n g 任务的主要难 点在于不但要找到正确的答案 而且要把正确的答案排在最前面 t r e c 一2 0 0 1w e bt r a c k 的t o p i cr e l e v a n c e 任务的结果又一次表明 在类似 传统的检索任务中 链接信息不一定提高检索性能 然而在h o m e p a g ef i n d i n g 任务中 没有使用链接信息的最好的r u n 的m r r 平均反比排名 这个数值越大 表示性能越好 只有使用链接信息的最好的r u n 的m r r 的一半 这说明在 h o m e p a g ef i n d i n g 任务中 链接信息起到了非常重要的作用 t r e c 一2 0 0 1w e bt r a c k 的研究目标之一是继续推进对a dh o c 即传统的检索 任务的研究 与此对应的是t o p i cr e l e v a n c e 任务 另一个是推进对如何利用链 接信息来提高检索性能的研究 与此对应的是h o m e p a g ef i n d i n g 任务 此外 t r e c 一2 0 0 1w e bt r a c k 还鼓励参赛者进行如下方面的研究 1 研究分布式信息检索技术能否提高检索的性能和 或效率 2 系统能否对用户查询中的拼写错误具有容错性 在t r e c 一2 0 0 1w e b 第2 页 复旦大学硕士学位论文 第二章发展动态 t r a c k 的t o p i cr e l e v a n c e 的5 0 个查询中是没有拼写错误的 如果参赛者有意 研究容错性 t r e c 组织者将把带拼写错误的查询发给他们 2 2 2 文档集 t r e c 一2 0 0 1w e bt r a c k 文档集和上一届是一样的 用的都是l og i g a b y t e s 的w t i o g3 文档集 包括i 6 9 m 个网页 2 2 3 任务 l t o p i cr e l e v a n c e 任务 t o p i cr e l e v a n c e 任务有5 0 个查询 t o p i c s 0 1 6 0 0 一个查询有三个字段 t i t l e 字段 n a r r a t i v e 字段和d e s c r i p t i o n 字段 其中t i t l e 字段是用户在互 联网上提交的查询 另外两个字段是由专家填写的 目的是明确用户的检索意图 方便评测人员评测 参赛者允许提交多个r u n t r e c 虽然没有规定参赛人员不能 使用n a r r a t i v e 字段和d e s c r i p t i o n 字段 但参赛者最好是只使用t i t l e 字段 提交t i t l e o n l y 的r u n 正式评价结果是对完全自动化处理的 只用t i t l e 字段的r u n 进行的 参赛 者也可以使用交互式方法 手工处理查询或使用n a r r a t i v e 字段和d e s c r i p t i o n 字段来探索提高检索性能的方法 但要标明这些r u n 不是全自动化的和 或不是 t i t l e o n l y 的 t r e c 组织者提供了t r e c 一9 的查询和对应的相关文档作为训练数据 t r e c 一9 和t r e c 一2 0 0 1 所用的文档集都是w t i o g 文档集 t o p i cr e l e v a n c et a s k 使用的评测标准有平均精度 返回1 0 0 篇时的精度 以及返回1 0 0 0 篇时的精度 各个r u n 的排名按平均精度从大到小排名 2 h o m e p a g ef i n d i n g 任务 t r e c 组织者提供了1 4 5 个h o m e p a g ef i n d i n g 任务的查询 要求参赛者根据 查询在w t i o g 文档集里找到查询对应的主页 比如查询 t e x tr e t r i e v a l c o n f e r e n c e 对应的主页就是鲢业 z i 艘 h o m e p a g ef i n d i n g 任务的评测标准是m r r 平均倒数排名 和前n 篇文档的 成功率 t r e c 组织者提供了i 0 0 个h o m e p a g ef i n d i n g 查询和对应的答案作为训练数 据 在h o m e p a g ef i n d i n g 任务中必须使用完全自动化的处理 不能使用交互式 或手工修改查询的方法 禁止通过人工检查测试查询的答案来对系统作出调整 2 2 4 结果 1 t o p i cr e l e v a n c e 任务的结果 t o p i cr e l e v a n c e 任务中共有7 7 个只用t i t l e 字段全自动的r u n 其中性能 第3 页 复旦大学硕士学位论文 第二章发展动态 最好的r u n 是f u b o l b e 2 f u b 提交 它没有使用链接信息 文档信息和u r l 中 的文字 这个r u n 的其它特征有 没有使用s t e m m i n g 只对单个词进行索引 没 有对词组进行索引 使用改进的概率检索模型和全自动的查询扩展 排名第二的是j u r uf u k k i b m h a i f a 研究院提交 这个r u n 使用了文档结 构信息和a n c h o r t e x t 信息 其它的特征有 使用向量空间检索模型 l e x i e a l a f f i n i t e s 技术 p o r t e rs t e m m i n g 技术 轻微禁用词过滤技术 排名第三的机构 r i c o h 的最好的r u n 是r i c m m 这个r u n 只使用了文档 的内容信息 它的其它特征有 使用概率检索模型 使用查询扩展 自动参数估 计 排名第四的机构 t i s ts y s t e m 的最好的r u n 是j s b t a w l 4 它使用了链接 信息 它的其它特征有使用向量空间检索模型 使用了数据库和伪反馈技术 总而言之 最好的r u n 大都只使用了文档的内容信息 没有使用链接信息 最好的r u n 大多使用了自动查询扩展技术 向量空问检索模型和概率检索模型在 性能上没有明显的差别 另外有2 0 个r u n 使用了n a r r a t i v e 字段和 或d e s c r i p t i o n 字段 包括两个 人工处理查询的r u n 其中最好的全自动处理的f u l lt o p i cr u n o k l o w t n 比最 好的t i t l e o n l y f u b o l b e 2 性能要高2 7 它除了使用文档内容信息外还使用了 u r l 的文字 2 h o m e p a g ef i n d i n g 任务的结果 有4 3 个r u n 参加了h o m e p a g ef i n d i n g 任务 其中最好的2 3 个r u n 要么使 用了u r l 中的文字 要么使用了链接信息 二者都没使用的最好的r u n i b m h o m e n r 的m r r 只有最好的r u n 的一半 但它也使用了文档的结构信息 只使用文档内容信息的最好的r u n 其m r r 只有最好的r u n 的3 0 并且在t o p l 0 中的有正确答案的查询个数只有最好的r u n 的一半 这说明在h o m e p a g ef i n d i n g 任务中 u r l 链接信息 文档结构信息都是非常重要的 这与t o p i cr e l e v a n c e 任务形成了鲜明的对比 h o m e p a g ef i n d i n g 任务中最好的r u n 是t n o u t l o e p c a u 它的性能非常出众 它对将近9 0 的查询都能在t o p l o 中找到答案 这里r u n 的特性是使用u n i g r a m 语言模型 u r l 先验概率 综合c o n t e n tr u n 和a n c h o r t e x tr u n 有趣的是排 名第二的机构的最好的r u n 没有使用a n c h o r t e x t 和链接信息 但使用了u r l 的深度 也许u r l 的深度是h o m e p a g ef i n d i n g 任务的一个重要的特征 第4 页 复旦大学硕士学位论文 第二章发展动态 2 3t r e c 一2 0 0 2w e bt r a c k 综述4 5 2 3 1 研究目标 1 研究如何找到k e yr e s o u r c e 与这个目标对应的任务是t o p i c d i s t i l f a t i 0 1 2 2 研究如何找到已经被用户命名过的网页 与这个目标对应的任务是 n a m e dp a g ef i n d i n g 此外 t r e c 一2 0 0 2w e bt r a c k 还鼓励参赛者进行分布式信息检索 带拼写错 误的查询 高效索引等方面的研究 2 3 2 文档集 t r e c 一2 0 0 2w e bt r a c k 用的文档集是 g o v 文档集 这个文档集是通过从美国 政府网站抓页获取的 它包括大约1 m 个网页和大约2 5 0 k 个非h t m l 文档 d o c p d f p s 等 它的字节数达到了1 8 1g i g a b y t e 2 3 3t o p i cd i s t i l l a t i o n 任务 t o p i cd i s t i l l a t i o n 的任务是根据用户的查询找到对用户非常有用的文档 作者称之为k e yr e s o u r c e 下面介绍k e yr e s o u r c e 的特征 传统的检索任务 a dh o c 的目的是找到相关文档 而t o p i cd i s t i l l a t i o n 的 目的是找到k e yr e s o u r c e 与相关文档相比 k e yr e s o u r c e 更少 比如我们 要找与查询 复旦大学 相关的网页 则网址h t t p w w w f u d a n e d u c n 有很 多网页 传统的检索任务要求把这些相关网页全部检出来 而在t o p i c d i s t i l l a t i o n 任务中 只有h t t p w w w f u d a n e d u c n 这个复旦大学网站的主页是 k e yr e s o u r c e 其它的相关网页并不是k e yr e s o u r c e 这样就大大减少了返 回结果的数量 k e y r e s o u r c e 文档的内容与它的链接 它的目的相比 可能更不重要 还是 以复旦大学的网站h t t p w w w f u d a n e d u c n 为例 虽然这个网站的主页并没 有提供详细的信息 但首页的链接指向很多能提供详细信息的文档 所以 h t t p w w w f u d a n e d u c n 对于查询 复旦大学 而言是个k e yr e s o u r c e t o p i cd i s t i l l a t i o n 的结果和目录分类 如y a h o o 提供的分类 是不同的 其区 别在于t o p i cd i s t i l l a t i o n 提供的关于某个主题 用户查询 的k e yr e s o u r c e 而目录分类是不考虑主题的 k e y r e s o u r c e 可以是 和某个主题 用户查询 高度相关的网站的h o m e p a g e 和某个主题 用户查询 高度相关的子网站的m a i n p a g e 对用户而言非常有用的文档 包括h t m l p d f d o c p s 等 一个包含有很多指向相关网页的链接的网页 通常我们把这种网页 称为h u b 一个对用户而言非常有用的服务 比如h t t p v wv n a s a g o s e a r c l l 第5 页 复旦大学硕士学位论文第二章发展动态 提供了n a s a 网站的检索服务 如果一个用户想了解有关n a s a 的 信息 这个检索服务将非常重要 除非这个网站有很多独立的k e yr e s o u r c e 否则不鼓励返回很多同一个网 站的文档 如果一个网站包含了很多相关文档 且这个网站的主题就是用户的查 询 则应该返回这个网站的主页 返回结果u r l 的级别要正确 如果查询是 w h i t eh o u s e 则应返回 w w w w h i r e h o u s e g o v 而不是w 1 l w w h i t e h o u s e g o v p r e s i d e n t 错在多了一个 级别 如果查询是 w h i t e h o u s e h i s t o r y 则应返回 w w w w h i t e h o u s e g o v h i s t o r y 而不是w w w w h i t e h o u s e g o v 错在少了一个级 别 下面用一个例子来说明k e yr e s o u r c e 和相关文档的区别 例如对于查询 o b e s i t y i nt h eo s 它的相关文档有 w 哪 s u r g e o n g e n e r a l g o v t o p i c s o b e s i t y c a l l t o a c t i o n p r i n c i p l e s h t m w w w s u r g e o n g e n e r a l g o v t o p i c s o b e s i t y c a l l t o a c t i o n f a c t s h e e t 0 2 p d f w w s u r g e o n g e n e r a l g o v t o p i c s o b e s i t y c a l l t o a c t i o n f a c t g l a n c e h t m w w w e d c g o v n c c d p h p d n p a o b e s it y t r e n d m a p s w n 唧 s u r g e o n g e n e r a l g o v t o p i c s o b e s i t y c a l l t o a c t i o n f a c t c o n s e q u e n c e s h t m 4 w o m a n g o v f a q e a s y r e a d o b e s i t y e r r h t m w w w s u r g e o n g e n e r a l g o v t o p i c s o b e s i t y c a l l t o a c t i o n f a c t s h e e t 0 3 p d f s c h o o l m e a l s n a l u s d a g o v r e s o u r c e o b e s i t y h t m l w w w n a l u s d a g o v t t i c t e k t r a n d a t a o 0 0 0 1 0 0 9 0 0 0 0 1 0 0 9 5 9 h t m l w 1 唧 s u r g e o n g e n e r a l g o v t o p i c s o b e s i t y c a l l t o a c t i o n 2 0 h t m 然而相关文档未必是k e yr e s o u r c e 查询 o b e s i t yi nt h eu s 的k e y r e s o u r c e 是 w w w s u r g e o n g e n e r a l g o v t o p i e s o b e s i t y w w w n l m n i h g o v m e d l i n e p l u s o b e s i t y h t m l w w w c d c g o v n c c d p h p d n p a o b e s i t y o d p h p o s o p h s d h h s g o v l i b r a r y p s c g o v l i b r a r y t o p b i b o b e s i t y h t m 这次的t o p i cd i s t i l l a t i o n 任务共有5 0 个查询 查询的格式如下例所示 第6 页 复旦大学硕士学位论文第二章发展动态 如上例所示 一个查询有t i t l e 字段 d e s c r i p t i o n 字段和n a r r a t i v e 字段 但检索系统只能使用t i t l e 字段 d e s c r i p t i o n 字段和n a r r a t i v e 字段是给评测 者看的 以便评测者能明白用户的检索意图 统一评测标准 使评测比较客观 t o p i cd i s t i l l a t i o n 的评测标准p i o 即检索系统返回的前十个结果中k e y r e s o u r c e 占的百分比 共有7 1 个r u n 参加了t o p i cd i s t i l l a t i o n 任务 其中最好的r u n 是清华大 学提交的t h u t d 5 除了使用文档的内容信息外 它还使用了文档结构信息和 a n c h o rt e x t 它以o k a p i 检索系统为基础 并使用了a n c h o rr e r a n k i n g s i t e u n i t i n g 等技术 2 3 4n a m e dp a g ef i n d i n g 任务 有时候用户希望通过名字来找到一个文档 例如一个用户希望通过查询 p a s s p o r ta p p l i c a t i o nf o r m 寻找到t r a v e l s t a t e g o v d s p l l p d f 这个任务有1 5 0 个查询 评测标准是m r r m e a nr e c i p r o c a lr a n k 和s u c c e s s r a t ea tn 共有7 0 个r u n 参加了n a m e dp a g ef i n d i n g 任务 第7 页 复旦大学硕士学位论文 第三章w e b 检索的简要介绍 第三章w o b 检索的简要介绍 3 1 万维网给信息检索带来的挑战和机遇6 78 万维网 w o r l dw i d ew e b 是个巨大的信息宝库 在上世纪8 0 年代末期万维 网诞生的时候 没有人能预料得到它对世界的影响 截止到1 9 9 9 年 仅万维网 上的文本信息达到t e r a b y t e 的数量级 下面的图描述从1 9 9 7 年到2 0 0 1 年万维 网上的网站数量的增长 图3 1 从1 9 9 7 年到2 0 0 1 年万维网上的网站数量的增长 万维网上如此多的信息使万维网成了一个巨大的信息宝库 但信息太多反而 使用户很难找到所需要的信息 万维网给信息检索带来的挑战有9 1 分布式的数据 万维网的数据散布在各台互联起来的计算机里 1 9 9 8 年 有人估计当时互联网上有二百四十万台w e b 服务器 2 数据易挥发 每天都会有很多网页被加到万维网上 也会有很多网页被 删除 3 海量信息 目前万维网上的信息已经非常的多 而且它还在爆炸性地增 长 4 非结构或半结构的数据以及冗余数据 万维网上的信息没有统一的格式 大多数都是非结构和半结构的信息 m l 的兴起有助于改善这一问题 而且 有大约3 0 的网页是重复的 5 信息质量没有保证 万维网是一个自由的社会 这一方面给了每个人发 表自己观点的机会 另一方面也使信息质量没有保证 6 万维网上使用了超过i 0 0 种不同的语言 根据f u n r e d e s 于1 9 9 8 年的统 计 万维网上7 6 4 的网页使用英文 4 8 的网页使用日文 4 4 的网页使用德 文 万维网给信息检索带来了前所未有的挑战 也给信息检索带来了前所未有的 机遇 一些提供面向万维网检索服务的网站迅速发展起来 最成功的有g o o g l e y a h o o i n f o s e e k 等 第8 页 复旦大学硕士学位论文第三章w e b 梭索的简要介绍 3 2 传统的信息检索模型 传统的信息检索模型主要有布尔模型 向量空间模型和概率模型 3 2 1 蘩奉凝念 传统的信息检索模型用称为索引项的关键词来表示一篇文档 索引项可以是 字 词或蠲缝 将一簇文搂表示泼了一批索弓l 瑷静集合惹 我翻簸会发琨不丽懿 索引项对描述这篇文档所起的作用是不一样的 通常我们认为如果一个词在每篇 文档都出现 那么它对描述文档起不到任何作用 如果一个词只在缀少的文档中 渤现 那么这个词就能显著缩小我们需要梭索的空间 即它对描述这篇文档能起 到很大作用 这就引出了权重的概念 令k 褒示一个索弓 矮 南表示一个文襁 w i 0 表汞索弓 颈k 在文榻d 中 的权重 权重w 艇化了项k 对描述文档d 所起到的作用 定义 令t 表示文樾集里簧骞不弱索弓 瑗熬数基 表示 令素雩l 顼 k k k k 表示索引项构成的集合 对于文档d 中有的索弓l 项k 权重w o 对于文挡d 中没窍豹索弓 顼k 权重w 0 这样我们就可以将文档d 表示成一个向量d j w h w w 向 量d 豹第i 维藏对应瑷k 在文档d j 中懿权重 我们假设索引项是相互独立的 独立性假设 即任意两个不同的权熏不会 受裂其它颂麴权耋戆影响 虽然这令瑕设鸯一些瓣题 毽套了这令缀设我翻藏可 以极大地降低以后处理的艇杂度 而且实验证明了这个假设对检索性能并没有造 成大的损密 3 2 2 布尔检索模型 布尔检索稹鏊是基子集台理论藕布尔代数翡一释简单豹猃索模鍪 在蠢尔捡 索模型中颂k 在文档d 中的权重w 0 l j 即权重是二值的 如果项k 出现 在文档d 中 哭 辩 l 如果k 泰爨褒奁文档d 中 刘撑 j 0 奁东謇检索模型 中在询被袭示成了布尔表达式 如用户要检索美国军事预算方面的文档 搬询就 表示为 美国a n d 犟事a n d 预算 布尔检索模型中文档帮囊诲相 娃度是二馑躲 s i m d q 0 玎 即文档要么是相关的 要么是无关的 布尔检索模型的优点怒定义清晰 使用简单 缺点是它对相关性判断太单一 要么是0 簧么是l 两没有介予0 帮1 之溺静氆 这样就无法对裣出的文档透 行排序 因为检出的文档相关度都是1 让更相关的文档排在前酾 3 2 3 向量空间检索模型 在毒尔查询模型中 颂在文楼中鲍权霪以及矮帮文楼鹃相似发帮只戆是o 或l 而向蹙空间检索模型刚突破了这一点 它的权重和相似度是在某个范围中 的一个实数 这样就可以将检出的文档按棚似度的大小进行排序 让更相关的文 第9 贸 复旦大学硕士学位论文 第三章w e b 检索的简要介绍 档排在前面 定义 对于向量空间检索模型而言 项k 在文档d 中的权重w i j o 是一个 非二值的实数 同样 项k 在查询中同样有非二值的权重 w i j i 0 这样 查询 q 就可以看成是一个向量q w u w z w 其中t 是文档集中的全部不同索 引项的个数 同样文档d 也可以看成一个向量西 w w w 这样 查询和文档都被表示成了如图2 4 所示的t 维向量 衡量文档和查询 的相关度就被转化成了计算文档向量和查询向量之间的相似度 向量之间的相似 度有很多种计算方法 在向量空间检索模型中 通常我们采用文档向量和查询向 量的夹角的余弦作为它们之间的相似度 图3 2 采用文档向量和查询向量之间的距离还是夹角作为它们之间的相似度 通常我们采 用文档向量和查询向量的夹角的余弦作为它们之间的相似度 咖 西 g 套坚 西l lq i w x w w 盯门 1 蛩 f i 跏 i 其中l 孑l 和i 1 分别表示向量磊和 的模 因为iq l 不会影响到排序 因而 它对所有的文档都是一样的 因子l 磊l 提供了一种归一化的方法 以避免长文档 总是被检出 第1 0 页 复旦大学硕士学位论文 第三章w e b 检索的简要介绍 因为w o w 0 所以s i m q d o 1 这样向量空间检索模型不是 去判定一个文档是否和查询相关 而是将文档按相关度从大到小进行排序 然后 按用户指定的数目返回相关度最大的若干篇文档 即使是一篇文档只是部分地匹 配了查询 它依然有被检出的机会 为了计算文档和查询和相似度 最重要的就是要确定项在文档中的权重和项 在查询中的权重 权重计算有很多方法 s a l t o n 和m c g i l l 对各种计算权重的方 法进行了分析和比较 这里不讨论计算方法的细节 而是把重点集中在最有效的 权重计算方法后面的思想 这种思想是把检索看成一个分类问题 现在有一个文档集c 和一个对相关文档r 的模糊描述 查询 我们要把 文档集c 分成两个部分 一个部分是相关文档的集合r 另一个是无关文档的集 合r 分类问题主要要解决两个问题 一个是怎样选择能够更好地描述对象的特 征 另一个是怎样选择能够更好地把一个对象和其它对象区分开来的特征 也就 是既要认清内涵 也要认清外延 内涵特征量化了类内的相似度 外延特征量化 了类间的区分度 一个成功的分类方法要注意做到相似度和区分度的平衡 做到 类内相似度大 类间区分明显 在向量空间模型中 类内的相似度用项k 在文档d 中出现的频数来量化 项在文档中出现的频数通常被称为t f 因子 它提供了用来衡量一个项在多大程 度上描述了一篇文档的标准 假设一个项k 在文档集里的n 篇文档中出现了 则我们可以用n 的倒数来衡量类间的区分度 通常我们把n 的倒数称为反比文档 频数或称为i d f 因子 项t 的i d f 越大 则它区分文档的能力越强 使用i d f 因子的原因是 一个出现在很多文档里的项对于将相关文档和无关文档区分开来 而言 没有多大作用 和一个好的聚类算法一样 一个有效的赋权策略要平衡好 t f 和i d f 这两个因子的效果 下面给出t f 和i d f 的定义式 设n 是文档集里的全部文档数 n 是含有项k 的文档数 f r e q 表示项k 在文档d j 里出现的次数 经过归一化的项k 在文档d j 中的文档频率t f 定义为 t f 墼 3 1 m a xp e q l i 其中m a 户8 印 表示文档d 的所有项中 在文档d 中出现得最多的那个项出 现的次数 如果项k t 没有出现在文档d 中 则t f o 项k 的反比文档权重i d f 定义为 r i d f l o g 兰 3 2 n 其中n 是文档集中所有文档的数目 n 是文档集中所有包含项k 的文档的数 目 s a l t o n 的实验表明 最好的权重计算方法是 第1 l 页 复旦大学硕士学位论文第三章w e b 检索的简要介绍 w i j t f l o g 型 3 3 n i 或是上式的变种 这种给项赋权的策略被称为t f i d f 方案 对于查询中的项 s a l t o n 建议用下式赋权 w o 5 4 肇盟 1 g 翌 m a x 8 9 7 g 胁 其中f r e q 是项k 在查询中出现的次数 m a xf r e q 是在查询中出现得最 多的那个项出现的次数 向量空间检索模型的主要优点是 1 实验证明它的赋权策略提高了检索性能 2 它的部分匹配策略使得没有完全满足查询条件但部分满足了查询条件 的文档也能被检索出来 3 它的c o s i n e 排序方法将检出的文档按文档和查询的相似度进行了排 序 尽管比较简单 向量空间检索模型是一种能适应各种文档集的有效的检索方 法 人们将向量空间检索模型和许多种检索方法进行了比较 在不用查询扩展和 相关反馈的情况下 向量空间模型的性能总是不低于其它方法的性能 而且因为 它简单 它花费的计算时间也非常少 由于以上原因 向量空间检索模型目前得 到了广泛的应用 3 2 4 概率检索模型 2 o 概率检索模型首先于1 9 7 6 年由r o b e r s t o n 和s p a r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论