(管理科学与工程专业论文)基于信息集结算子的web信息检索方法研究.pdf_第1页
(管理科学与工程专业论文)基于信息集结算子的web信息检索方法研究.pdf_第2页
(管理科学与工程专业论文)基于信息集结算子的web信息检索方法研究.pdf_第3页
(管理科学与工程专业论文)基于信息集结算子的web信息检索方法研究.pdf_第4页
(管理科学与工程专业论文)基于信息集结算子的web信息检索方法研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(管理科学与工程专业论文)基于信息集结算子的web信息检索方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于信息集结算子的w 幻信息检索方法研究 研究生姓名 武兴龙导师姓名 刘新旺东南大学 摘要 信息检索的研究已有多年历史 i 刍w o r l dw i d ew e b w w w 产生以来 如何在 海量的信息资源中检索到有用的信息更成为一个非常重要的课题 同时这方面的研 究也有了一定成果 y a g e r 提出的有序加权平均算子 o r d e r e dw e i g h t e da v e r a g i n g o p e r a t o r1 已经广泛应用于决策分析 专家系统 人工神经网 模糊系统等方面 它 提供了广泛的包括极大 极小和算术平均的参数化集成算子 并可以应用于各种信息 集成问题中 如何将o w a 应用到w e b 信息检索是一个非常值得考虑的问题 w e b 信息检索系统作为用户层和w e b 信息层之间的中间层 可以进一步地划 分为3 个层次 包括 搜索引擎与目录 元搜索引擎 信息检索a g e n t 本文就是按照 搜索引擎 元搜索引擎 a g e n t 三个层次提出了基于o w a 算子的w e b 信息检索模 型 旨在寻找提高网络信息检索效果的手段和方法的有效途径 并最终提高网络信息 的检索效果 使得网络信息资源得到充分有效地利用 全文主要包括七个部分 第一章对信息检索及w e b 信息检索的研究现状进行了 综述 为下文的进一步研究奠定了基础 第二章详细阐述了w e b 信息检索层次分类 介绍了几种传统信息检索模型 包括布尔模型 向量模型 概率模型 概念模型 并 且阐述了w e b 信息检索中的信息集成问题 综述了各种信息集结算子 第三章提出 了用户查询含数值权重的扩展的布尔信息检索模型 此模型中 文档采用了一种改进 的关键词频率一逆频率 t f i d f 方案 查询表达式用带有数字权重的检索关键词表 示 然后采用自下而上的匹配策略 用调整的几何平均算子和有序加权平均算子进行 信息集结 最终得到了每个文档对查询表达式的检索值 第四章建立了基于o w a 的 用户查询含语言值权重的扩展的布尔信息检索模型 这个模型与上个模型的不同在 于在查询语句中用语言值权重代替数值权重 匹配策略也是自下而上的 最终得到了 每个文档对查询表达式的检索值 第五章建立了基于o w a 进行结果融合的元搜索 引擎模型 本章中用o w a 算子进行结果融合 首先计算每篇文档在每个成员搜索 引擎各自的检索结果中的位置值 p o s i t i o nv a l u e 然后针对位置值的大小进行结果 的集结 即融合 第六章建立了一个信息检索a g e n t 模型 该模型中阐明了从用户 a g e n t 到信息源的五个层次 并给出了工作流程 其中用到o w a 算子 第七章是结 论和展望 另外 本文对每个模型都有简单的算例 以便更好的说明算法 关键词 w 曲信息检索 扩展的布尔模型 元搜索引擎 信息检索a g e n t o w a i s t u d yo nw e bi n f o r m a t i o nr e t r i e v a lb a s e do ni n f o r m a t i o n a g g r e g a t i o no p e r a t o r s g r a d u a t e x i n g l o n gw u s u p e r v i s o r l i ux i n w a n g s o u t h e a s tu n i v e r s i t y a b s t r a c t i n f o r m a t i o nr e t r i e v a lh a sal o n gh i s t o r y h o wt or e t r i e v a li m p o r t a n ti n f o r m a t i o n f r o mal a r g ea m o u n ti n f o r m a t i o nr e s o u r c e sh a sb e e nav e r yp o p u l a rr e s e a r c hs i n c e t h ee x i s to fw w w i nt h em e a nt i m e t h e r ea r es o m er e s u l t so ft h er e s e a r c h t h e o w a o p e r a t o ro fy a g e rh a sb e e nu s e do nd e c i s i o na n a l y s i s e x p e r t ss y s t e ma n dn e u r a l n e t w o r ke t c w h i c hi n c l u d e sv a r i o u sp a r a m e t e r i z a t i o no p e r a t o r sa n dc a nb eu s e di n v a r i o u si n f o r m a t i o ng a t h e r i n gp r o b l e m s oh o wt om a k eu s eo fi n f o r m a t i o no p e r a t o r s i n t ow e bi n f o r m a t i o nr e t r i e v a li sav e r yv a l u a b l ep r o b l e m a st h em e s o s p h e r eo ft h eu s e ra n dt h e e b w e bi n f o r m a t i o nr e t r i e v a ls y s t e m c a nb ed i v i d e di n t ot h r e ec l a s s i f i c a t i o n s w h i c ha r es e a r c he n 舀n e m e t a s e a r c he n g i n e a n di n f o r m a t i o na g e n t t h i sp a p e ri sj u s tf o l l o w i n gt h i sc o n c e p tt op r o p o s es e v e r a l i n f o r m a t i o nr e t r i e v a lm o d e l sb a s e do n0 r ao p e r a t o rt om a k ew e bi n f o r m a t i o nr e t r i e v a l m o r ee f f e c t i v ea n dm a k ef u l lu s eo fi n f o r m a t i o nr e s o u r c e so nt h ew j b t h i st h e s i si n c l u d e ss e v e nc h a p t e r s t h ef i r s tc h a p t e ri st h eb a s i so ft h er e s e a r c h w h i c hg i v e sa no v e r v i e wo fi n f o r m a t i o nr e t r i e v a la n dw e bi n f o r m a t i o nr e t r i e v a l t h e ni n t h es e c o n dc h a p t e r t h eh i e r a r c h yc l a s s i f i c a t i o no fw e bi n f o r m a t i o nr e t r i e v a lt r a d i t i o n a l f o r m a t i o nr e t r i e v a lm o d e l i n f o r m a t i o na g g r e g a t i o np r o b l e mi n e bi n f o r m a t i o nr e t r i e v a l a n di n f o r m a t i o na g g r e g a t i o no p e r a t o ra r ei l l u s t r a t e d t h ef o l l o w i n gf o u rm o d e l so f i n f o r m a t i o nr e t r i e v a lo nt h ew e ba r eb u i l ti nf o u rc h a p t e r s f i r s ta ne x t e n d i n gb o o l e a n m o d e lw h o s et e r me x p r e s s i o ni sn u m b e rw e i g h t e da n dw h i c hi sb a s e do no w ao p e r a t o r i sp r o p o s e d i nt h i sm o d e l 喇幽d o c u m e n t si sr e p r e s e n t e db ya ni m p r o v e dt f i d f s o l u t i o na n dm a t c h i n gs t r a t e g yf r o mb o t t o m u p u s i n g0 w aa n dg e o m e t r i cm e a n o p e r a t o rt oe v a l u a t et h em a t c h i n gd e g r e eo fd o c u m e n t sa n dr e t r i e v a le x p r e s s i o n a tl a s t t h er e t r i e v a ls t a t u sv a l u eo fe a c hd o c u m e n t sa r eo b t a i n e d s e c o n d a n o t h e re x t e n d i n g b o o l e a nm o d e lw h o s et e r me x p r e s s i o ni sl i n g u i s t i cw e i g h t e da n dw h i c hi sb a s e do n o w ao p e r a t o ri sp r o p o s e d t t l i 8r o o d e li sa l m o s tt h es a m ea st h er o o d e la b o v eb u t i i i sm o r eh u m a n i z e d t h i r d am e t a s e a r c hm o d e lb a s e do no w aw h i c hi st oa g g r e g a t e r e s u l t sf r o md i f f e r e n ts e a r c he n g i n e s t h ef o u r t h a ni n f o r m a t i o nr e t r i e v a la g e n tm o d e l w h i c hi n e l u d e sf i v ed i f i e r e n tl e v e l sf r o mt h eu s e rt oi n f o r m a t i o nr e c o u r s e si sb u i l t i n t h i sm o d e l w o r kp r o c e s so ft h em o d e li si l l u s t r a t e da n do w ai sa l s oi i s e d b e s i d e s t h e r e i sa ne x a m p l ef o re a c hm o d e lt om a k ei tc l e a r e ra n de a s yt ou n d e r s t a n d k e y w o r d s w 曲i n f o r m a t i o nr e t r i e v a l e x t e n d e db o o l e a nm o d e l s e a r c he n g i n e m e t a s e a r e h i n f o r m a t i o nr e t r i e v a la g e n t 0 弭丛 i i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果 尽我所知 除了文中特n j n 以标注和致谢的地方外 论文中不包含 其他人已经发表或撰写过的研究成果 也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意 研究生签名 期 迦乙坛 东南大学学位论文使用授权声明 东南大学 中国科学技术信息研究所 国家图书馆有权保留本人所送交学位 论文的复印件和电子文档 可以采用影印 缩印或其他复制手段保存论文 本人 电子文档的内容和纸质论文的内容相一致 除在保密期内的保密论文外 允许论 文被查阅和借阅 可以公布 包括刊登 论文的全部或部分内容 论文的公布 包 括刊登 授权东南大学研究生院办理 研究生签名捌当如师签名 1 1 研究背景 第一章绪论 信息检索的研究已有多年历史 早在上个世纪5 0 年代 当计算机被图书馆等部门 用于存储和管理文档时 信息检索就作为一个研究领域面诞生了 到了8 0 年代以后 信息检索领域在索引模型 文档内容表示以及匹配策略等方面取得了许多研究成果 w s c o o p e r 1 1 提出了布尔模型 布尔模型是一种简单而且常用的严格匹配模型 它 定义了一个二值变量集合来表示文档 这些变量对应文档中的特征项 一般是由文档 集中的词条或短语组成 如果词条对文档内容有贡献则赋予t r u e 否则为f a l s e 检 索时 根据用户提交的检索条件是否满足文档表示中的逻辑关系将检索文档分为两 个集合 匹配集和非匹配集 继而又产生了其他的模型例如向量空间模型 删 概率模 型 s 9 1 等 i n t e r n e t 是当今世界上规模最大 覆盖面最广 信息资源最丰富 发展最为迅速 的信息网络 网上信息服务大致可分为两类 一类为信息交流服务 如e m a i l 新闻 组与讨论组 公告板等 另一类为信息查询服务 主要有w w w f t p t e l n e t 以 及g o p h e r a r c h i v e 等 w w w 作为i n t e r n e t 最重要的一种形式 可以为用户提 供多种多样的信息服务 目前 用户对i n t e r a e t 上纷繁复杂的信息的查我 主要是通 过w w w 上的信息搜索工具来完成的 1 9 9 1 年 w o r l dw i d ew e b w w w 由欧洲量子核物理实验室c e r n 开发出 来 w w w 是一个分布式的 基于超媒体的i n t e m e t 信息浏览工具 它给用户提供 一个友好的界面来获取信息和i n t e r n e t 服务 用户可以通过w w w 来查询f t p 文 件传送协议1 文档 数据库以及g o p h e r 服务器上的资源 搜索引擎是除电子邮件之 外的最重要的网络服务 所谓w e b 信息检索 w e bi r 是指从大量w e b 文档的集 合d 中找到与给定的查询请求q 相关的 恰当数目的文档子集s 既w e b l r 的过 程对应于一个映射虫 d q 一s 与典型的数据库系统不同 w e b 信息检索的处理 对象是 文档资源 如无结构的文档 半结构化的文档 如h t m l x m l 文档 或结 构化的多媒体的信息 w e b 信息检索的服务对象是 用户 文档集合相对静止 用 户查询请求却是动态变化的 信息检索的处理目标是 发现相关信息 要求 部分匹 1 东南大学硕士学位论文 配 或 最佳匹配 而不是 精确匹配 或 多多益善 由于文本信息是记载和传播 信息的主要媒体 因而 信息检索 主要是指对文本信息的检索 o o o g l e i 成为如今世界上收集w e b 页面最多的搜索引擎 至2 0 0 5 年4 月2 1 为止 g o o g l e 中所收集的w e b 页面数量已经达到8 0 5 8 0 4 4 6 5 1 张 面对信息的海洋 用 户试图通过浏览w e b 来发现信息已经变得非常困难 往往花费了很多时间却所获甚 少 在这种情况下 如何有效地检索w e b 信息 以帮助用户从大量文档信息集合中 找到与给定查询请求相关的文档子集 也就成为一项重要而迫切的研究课题 1 2 研究现状 第一个w e b 信息服务是建立在传统的信息检索模型基础上的f 1o 然而 大多数 信息检索算法远不能满足w e b 上日益增长的信息量的的要求 如今的信息检索需 要新的技术 基于内容分析的搜索引擎 主要原理是把w e b 页面看成一个一个的 文档 利用传统的检索技术 比如布尔模型 向量模型 概率模型来处理 围绕如何 提高检准率 又提出了相关的技术 比如分词技术 抽词技术 计算词与文档相关 度的技术等 布尔模型 例如在y a h o o i n f o s e e k 等诸多网络检索站点均被采用 而 向量空间模型被应用于s m a r t 系统 但是因布尔模型匹配结果的二值性 所以 无法在匹配结果集中进行查询结果的相关性排序 布尔模型实现简单 检索速度 快 但文档表示能力差 无法区分特征项对文档内容贡献的重要程度 并且逻辑表 达式过于严格 往往会因一个条件未满足而忽略了其他全部特征 造成漏检 无法 满足用户的查询需求具有模糊性的情况 而且传统的检索方式中检索者虽然可以 利用检索语之间的逻辑运算及其组合来表达检索要求 但却无法描述检索者对检 索语的重视程度以及检索语对信息是否贴切 基于此 许多学者提出了扩展的布尔 模型 比如s h i j a yc h e n 和s h y i m i n gc h e n 指出现有的信息集结算子 p i i o i t l l o p e r a t o r s i n f l n i t e o l l eo p e r a t o r s 和w a l l e r k r a f to p e r a t o r s 在处理a n d 和0 r 运 算符时存在一些缺点 并且在几何平均算子的基础上得出了一种用于信息检索的几 何平均算子 是几何平均算子的变形 来克服这些缺点建立了扩展的布尔信息检索模 型 e h e r r e r 扣v i e d m a 1 2 t4 l 利用有序语言值集合建立了几个信息检索模型 在他的 模型中引入了用户查询语句语言值权重 同时 我们需要意识到随着网上信息资源的膨胀发展 传统搜索引擎在查全率和 查准率方面很难满足用户的要求 为了查询相关的内容 用户经常是同时使用多个搜 索引攀检索相同内容 然后在各个搜索引攀的结果中综合出最适合自己的内容 这就 是元搜索引攀 已有很多学者在这方面作了研究 1 1 元搜索引擎需要对多个独立 搜索引擎的返回结果进行处理 考虑到系统运行的效率与响应时间 大多数元搜索引 2 第一章绪论 擎只取每个搜索引擎返回的前几个搜索结果 这样必定影响信息的覆盖面 另外 由 于不同的搜索引擎在搜集信息的数量 收集信息的范围 采用的索引方法 使用的相 似度评价等方面的巨大差异 再加上元搜索引擎的设计者不能获取这些搜索引擎的 很多技术细节 对不同的搜索引擎返回大额结果不能很好地进行排序 基于这两点 我们利用信息集结算子建立了一个新的元搜索引擎 以提7 a w e b 信息检索效率 搜索引擎 元搜索引擎等w e b 信息检索系统通常作为一种大型的服务器程序运 行 同时响应多个用户的请求 这些系统不能够根据用户的兴趣需求来定制检索结 果 2 2 j 不同领域背景 知识结构的用户对文档相关性的判断以及检索结果的要求是 不一样的 即使同一个用户 在不同的时期也有所侧重 信息检索a g e n t 提供了一种 完全不同的w e b 信息检索模式口s 叫 a g e n t 技术是一种智能工具 用来解决薄弱的 网上信息驾驭能力和剧增的网络信息量之间的矛盾 a g e n t 是由一些智能化的程序 组成的自主性的软件实体 它能够较好地理解人的意愿和实现计算机的功能 a g e n t 能够从用户日常的检索 浏览等行为中学习用户的兴趣 推理用户的需求 为每个 用户建立个性化的文档集 能够主动地根据用户的兴趣需求从w e b 上检索相应的信 息 一些软计算方法在信息检索中得到了广泛的应用i 比如遗传算法 g e n e t i c a g o r i t m 2 s 2 s l 人工神经网络 a r t i f c i a ln e u r a ln e t w o r k s l 概率论 p r o b a b i l i s t i c r e a s o n i n g 2 9 a 2 1 粗糙集 r o u g hs e t s 3 3 t 叫 模糊理论 f u z z yl o g i c f u z z y s e t j 3 4 0 1 m i y a m o t o a e l 指出模糊集在信息检索中会发挥很大作用 信息集结算子包括很 多种 他们在信息检索问题中得到了应用t o p e r a t o rp n o r mo p e r a t o r i n f i n i t e o n e o p e r a t o r s w a l l e r k r a f to p e r a t o r s 而0 w a 是1 g e t 4 1 l 于1 9 9 8 年提出的 目前已广 泛应用于决策分析 专家系统 人工神经网 模糊系统等方面 4 4 1 它提供了广泛 的包括极大 极小和算术平均的参数化集成算子 并可以应用于各种信息集成问题 中 o w a 在信息检索问题中的应用的例子包括 4 5 将o w a 应用于数据库 使用标准 s q l 的m i c r o s o f ta c c e s s 中的模糊检索 用o w a 算子对关系型数据库 a c e s s 的 s e l e c t 语句中用逻辑运算符 o r a n d 连接的查询条件进行处理 最终得 到模糊检索的结果集 比如折扣率比较高但订货率比较低 运费比较贵的产品名称 最后还阐述了模糊检索在i n t e r n e t 上的应用 在 4 6 1 d 0g l o r i ap a s i 将o w a 的变形 形式i o w a 应用到元搜索引擎中 进行检索结果的融合 1 3 本文的主要工作及结构 在扩展的布尔模型中 如果要进行查询表达式和文档的匹配并且采用自下而上 3 东南大学硕士学位论文 的匹配策略 必然要进行信息集结 将中间匹配结果进行集结后得到最终的匹配结 果 这必然要用到信息集结算子 而在元搜索引擎模型中 成员搜索引擎的两大策 略是成员搜索引擎的选择和结果融合 在结果融合中必然也要用信息集结算子进行 信息集结 将各个搜索引擎的检索结果进行融合 得到最后的结果 而在信息检索 a g e n t 模型中 同样也是需要将各个a g e n t 检索的结果进行集结 本文就是按照w e b 信息检索的三个层次 分别建立了用户查询含数字权重的扩 展的布尔信息检索模型 用户查询含语言值权重的扩展的布尔信息检索模型 元搜索 引擎模型 信息检索a g e n t 模型 这四个模型都是用o w a 算子进行信息集结 最后 是结论和展望 在前面对研究现状进行归纳总结的基础上 第二章介绍了几种传统的信息检索 模型 布尔模型 向量模型 概率模型 概念模型 介绍了传统的文档表示方法尤其 是t f i d f 方案 详细阐述了w e b 信息检索层次分类 包括搜索引擎 元搜索引 擎和信息检索a g e n t 并简单阐述了w e b 信息检索中可能遇到的信息集成问题及用 于信息集成的集结算子 尤其是o w a 算子 第三章提出了基于信息集结算子的用户查询含数字权重的扩展的布尔信息检 索模型 此模型实际上是传统布尔模型的扩展 在此模型中 文档用了一种改进的 t fxi d f 方案 满足了w e b 文档的半结构化的特征 查询表达式用带有数字权重 的检索关键词表示 然后检索关键词用逻辑运算符连接 然后采用自下而上的匹配策 略 用调整的几何平均算子和有序加权平均算子o w a 进行信息集结 以评价文档对 查询表达式的满足程度 最后得到了每个文档对查询表达式的检索值 然而 在实际应用中 有些概念不可能精确地加以定量表示 或者精确地定量表 示它所花的代价太大 或者根本没有必要对其精确描述 在这些情况下 只需定性地 给以粗略描述就可以了 而不会用一些精确的数值来描述 在信息处理当中 当碰到 类似这些感性概念的时候 不可能 有时也没有必要 对其精确地处理 为此 我们在 查询语句中引入了语言值权重 第四章建立了基于o w a 的用户查询含语言值权重 的扩展的布尔信息检索模型 这个模型与上个模型的不同在于在查询语句中用语言 值权重代替数值权重 第五章建立了一个基于信息集结算子o w a 进行结果融合的元搜索引擎模型 元搜索引擎最关键的技术是成员搜索引擎的选择策略和结果融合策略 本文中用 o w a 算子进行结果融合 首先计算每篇文档在每个成员搜索引擎各自的检索结果中 的位置值 p o s i t i o nv a l u e 然后针对位置值的大小进行结果的集结 既融合 第六章建立了一个信息检索a g e n t 模型 该模型中阐明了从用户a g e n t 到信息 源的五个层次 并给出了工作流程 其中用到o w a 算子 另外 本文对每个模型都有简单的算例 以便更好的说明算法 4 第二章w e b 信息检索及信息集结算子 2 1w e b 信息检索层次分类及相关概念 2 1 1 传统信息检索模型 信息检索的目的是从大量纷繁复杂的信息中筛选出符合用户需要的信息 构造 检索模型是其核心技术 它包括三个方面的内容 文档与用户查询的表示 查询匹配策 略 匹配结果的相关度表示 下面介绍几种代表性的检索模型 布尔模型 向量空间模 型 概率模型 以及概念模型 1 布尔模型 布尔模型 是一种简单而且常用的严格匹配模型 它定义了一个二值变量集合来 表示文档 这些变量对应文档中的特征项 般是由文档集中的词条或短语组成 如 果词条对文档内容有贡献则赋予t r u e 否则为f a l s e 检索时 根据用户提交的检索条 件是否满足文档表示中的逻辑关系将检索文档分为两个集合 匹配集和非匹配集 在布尔模型中 用户可以根据检索关键词在文本中的布尔逻辑关系 用 a a n d v o r 一 n o t 等逻辑运算符将多个关键词连接成为一个逻辑表 达式来递交查询 匹配函数由布尔逻辑的基本法则确定 通过对文本表达式与用户查 询表达式的逻辑比较进行检索 所检索出的文本或者与查询相关 或者与查询无关 比如 查询表达式可以这样组成 aa n d ba n dc 同查询表达式 aa n db 相 比 希望检索到的文章数量会少 这就涉及到布尔模型的一个特征 如果检索关键词 之间用a n d 连接 那么越多的关键词会导致检索到更少文档 而且也许文档数量的 波动可能会比较严重 相应的 如果在a n d 连接的查询语句中省略一个或两个关键 词会导致检索到太多文档 而对o r 来说 如果检索关键词之间用d 兄连接 那么越多 的检索关键词会导致越多的文档被检索到 因匹配结果的二值性 所以无法在匹配结 果集中进行查询结果的相关性排序 布尔模型实现简单 检索速度快 在许多检索系统中得到应用 例如 y a h o o i n f o s e e k 等诸多网络检索站点均采用了这种模型 但布尔模型的文档表 示能力差 无法区分特征项对文档内容贡献的重要程度 并且逻辑表达式过于严格 5 东南大学硕士学位论文 往往会因一个条件未满足而忽略了其他全部特征 造成漏检 基于此很多学者提出了 扩展的布尔模型 m 1 4 这种模型一般是在检索关键词后加一个权重 以消除传统布 尔模型的这种缺陷 2 1 向量模型 传统向量空间模型的基本思想是 每篇文档和查询都包含一些用概念词表达的 揭示其内容的独立属性 而每个属性都可以看成是概念空间中一个维数 这样文档和 查询可以分别用空间的一个点表示 并且文档矢量与查询矢量之问就存在空间上的 不同距离 而这种距离关系在信息检索中的意义就是文档与查询之间的相似度 所以 文档与查询之间的相似度可以用矢量间的距离来衡量 相似度的计算方法有很多种 本文采用余弦系数法 即用两个矢量之间的夹角的余弦来表示文档与查询间的相关 度 夹角越大 距离越远 余弦越小 相关度越小 反之相关度越大 向量模型把文档看成一组独立的n 维词条向量 1 地 对每一个词条分量 都赋予一个权值毗 文档和用户的信息查询可以转化成为向量空间的向量匹配问 题f 4 7 1 假设文档向量为 叫1 w 2 用户查询为 g l 啦 我们用两个向量 夹角余弦来表示文档的相似度 很明显该角度与文档的相似度成反比 文档特征向 量m w 2 可以根据词条的频率来选取 一般来说 词条的重要程度和词条在 文档中的出现频率成正比 和文档集合中出现该词条的文档数量成反比 只要满足上 述条件 就可以构造一些函数来具体计算 p 范式模型可以看成一神扩展的布尔模型 在p 范式模型中 文档同样可以表示 成一组词条向量 1 w 2 其中w 表示第1 个词条在文档中的权重 它的取值 在 0 1 1 之间 当p o 时 该模型就退化为布尔模型 在实际应用中的取值一般 在2 5 2 间 3 概率模型 p r o b a b i l i s t i cm o d e l 概率模型睁q 是为了解决检索中存在的一些不确定性而发展起来的 以数学理论 中的概率论为原理的一种检索模型 它比布尔模型 向量模型有所改进的是考虑了 词条文档之间的统计概率 假设n 表示文档集合中的文档总数 r 表示文档集中与用 户查询相关的文档数 表示包含查询词条曩的文档数 鼠表示相关文档冠中包含词 条正的文档数 文档相似度的计算都和这些变量有关 词条 文档之间的内在关联在 该模型中得以体现 在这类模型中 如果查找到一个相关文档的可能性比查找到不相 关文档的可能性大 就执行查询 概率模型最大的特点也是最大的优点就是引入了相 关性概念 可以说相关性原理及排序原理是概率模型的理论核心 而有关概率的计算 及其数据来源 则是概率模型的技术难点 在此模型中 文本和用户查询的表示与布尔模型相同时 根据用户反馈 将 文本分成相关的和无关的两类 然后根据每个特征变量 词 在相关文本集合和 6 第二章w e b 信息检索及信息集结算子 无关文本集合的分布情况来计算它们的相关概率 并将它表示成几率 o r p r 1 一p 兄 r 表示 文本是相关的 r 表示是 文本是无关的 假设特 征变量是相互独立的 因此 文本d 和查询q 之间的相关几率可按如下公式计算 7 叩 d q k 三 k 州p d k 碣l r q 姒 1 1 叫p 叫d k l 吨r q v j k a 币g 一 l l 7 其中 如表示查询q 和文本d 匹配的特征变量 p 以i 咒q 表示该特征变量在相关 文本集中出现的概率 p d 1 1 r q 表示该特征变量在无关文本集中出现的概率 4 概念模型 概念模型是以概念为中心组织检索数据库的 我们用树状或网状结构来表示概 念的组织和分类来使用概念模型检索 就不再局限于词条本身 当用户输入一个查询 词条时 不仅要找出与查询表达式匹配的结果 而且搜索引擎根据该词语概念与其他 词语概念的内在关联 也要找出包含与查询表达式概念相同或相近的词语的文档 例 如 用户查找 c o l o rc h a n g e 搜索引擎可以找出 b e c o m e sb l a c k 等具有相近含义 的词语 概念模型不是简单的短语匹配 简单的短语匹配往往得到成千上万毫无意义 的结果 太多的无用结果法反而不能很好的满足用户的查询需求 它能够根据用户查 询词条的内在含义进行相近语义短语的查找 这个特点是其他的模型所没有的 信息检索系统有两项重要的评判指标 准确率 p r e c i s i o n 和查全率 r e c a l l 准确率是指检索到的真正相关文本占全部检索信息比率 其数学公式如下 准确率 检索到的真正相关文本数 检索到的文本数 查全率考察的是检索出的文本中真正相 关文本数占本集中所有相关文本数的比率 其数学公式如下 查全率 检索到的真 正相关文本数 全部相关文本数 在这几种模型中 经典布尔模型是条件最为严格的 模型 检索速度较快 但也被认为是功能最弱的 它的主要缺点是在于不支持部分匹 配 检索的准确率和查全率都不高 对于向量空间模型和概率模型的优劣 在不同的 应用环境下有不同的结果 概率模型的优势就在于它采用严格的数学理论 表示和应 用较为精确和完善 而向量空间模型则简单 快捷 计算复杂性小 便于处理 因此 有必要对布尔检索模型进行改进 2 1 2传统检索模型中的文档表示方法 在经典的布尔模型中 以简单的二值集合来定义文档 给定一组索引词 如果词 条对文档内容有贡献则赋予r l l l l e 否则为f a l s e 即 7 东南大学硕士学位论文 r d 护 焉 i f t je d 然后据此进行检索 根据用户提交的检索条件是否满足文档表示中的逻辑关系将检 索文档分为两个集合 匹配集和非匹配集 而在模糊检索中 可以用眠 表示文档和索引词之间的匹配程度 这个值的得 出通常用下面的频率 逆频率 t f i d f 方案 即目前被广泛采用的权值计算公 式 t f i d f 公式 w k f 五k i 嘶k 其中t m t e r mf r e q u e n c y 表示特征项t k 在文本功中出现的频率 i d i k i n v e r s e d o c u m e n tf r e q u e n c y 表示特征项 反比文本频率 一个著名的t f i d f 加权方法 w i k l o g n n t 其中血表示特征项t k 在文本玖中出现的次数 表示全都文本数 啦表示文本 集中出现t 的次数 2 1 3w e b 信息检索层次分类 目前 用于w e b 信息检索的系统繁多 目的 功能各异 这给用户带来了很多选 择 同时也带来了很大的迷惑 用户往往无法判断哪些系统最适合自身的需要 因此 有必要对这些系统进行合理的分类 w e b 信息检索系统作为用户层和w e b 信息层之间的中间层 可以进一步地划 分为3 个层次 包括 搜索引擎与目录 元搜索引擎 信息检索a g e n t 在层次分类中 每一层都建立在其下各层的基础之上 并向其上各层提供信息检索服务 这些层次分 类构成了w e b 信息检索中的一条生产 消费链 w e b 信息一搜索引擎与目录一元搜索 引擎一信息检索a e e n t 一用户 下面 我们对各个层次的特点 设计思想及相互关系 分别加以考察 见图2 1 图中用户和w e b 之间的三个层次可以看作三种不同的w e b 信息检索模式 下 面分别详细介绍 1 搜索引擎与目录 8 第二章w e b 信息检索及信息集结算子 i用户 j 信息检索a g e n t 元搜索引擎 lj 搜索引擎目录 工 w e b 图2 1 w e b 信息检索层次分类f 2 自从第一个搜索引擎w w w w w o r l dw i d ew e bw o r m 在c o l o r a d o 大学开发 成功以来搜索引擎技术得到了迅速的发展 搜索引擎能够提供方便快捷的检索功能 已经成为w e b 用户进行信息获取的一种最重要的手段 搜索引擎是i a t e r n e t 提供公 共信息检索服务的w e b 站点 它是以一定的技术和策略在i n t e r n e t 中搜集和发现网 络信息 并对网络信息进行理解 提取和处理 建立数据库 同时以w e b 形式提供一 个检索界面 供用户输入检索关键词 词组或短语等检索项 代替用户在数据库中查 找出与提问相匹配的记录 同时返回结果且按相关度排序输出 从而起到快速查找信 息的目的 搜索引擎所处理的信息资源主要包括万维网服务器上的信息 另外还包括 电子邮件和新闻组信息 搜索引擎服务的宗旨是为满足用户的信息需要 所以它是面 向用户的 采用的方式是交互式的 网络信息检索工具采用主动提交或自动搜索两种 方法搜索数据 所谓主动提交 即由i n t e r n e t 的主机 万维网服务站 自动列出有关信 息的简介 与之对应的网址及索引文档 然后由提供服务的检索公司统一组织和整 理 如a l i w e b 而自动搜集 是由被称之为r o b o t s 机器人 或s p i d e r 蜘蛛 的计 算机程序 定期或不定期地拷贝所访问的i n t e r n e t 主机的部分或全部内容 然后由提 供检索服务的公司统一对之进行标引或组织 如a l t v i s t a 等一大批检索工具 搜索引擎是一种最为常见的w e b 信息检索系统 主要由四部分组成 f 1 网络机 器人 是一个功能很强的程序 它会定期根据预先设定的地址去查看对应的网页 如 网页发生变化就重新获取该网页 否则根据该网页中的链接继续去访问 网络机器人 访问页面的过程就是对互联网上信息遍历的过程 2 索引器 网络机器人将遍历得到 9 东南大学硕士学位论文 的页面存放在临时的数据库中 索引器的作用就是将文档表示成为一种便于检索的 方式并存放在索引数据库中 索引一般按照倒排文件的格式存放 3 搜索软件 该软 件用来筛选引擎中无数的网页信息 从索引中找出与用户查询请求相关的文档 挑出 符合查询要求的网页并且把它们分级排序 与查询关键字相关性越大的越排在前 然 后将分级排序后的结果显示给查询用户 4 用户接口 为用户提供可视化的查询输入 和结果输出界面 在查询输入界面中 用户按照搜索引擎的查询语法指定待检索词条 及各种简单高级检索条件 在输出界面中 搜索引擎将检索结果展现为一个线性的文 档列表返回给用户 搜索引擎的工作原理是 使用网络机器人遍历w e b 将w e b 上分布的信息下载 到本地文档库 然后对文档内容进行自动分析并建立索引 对于用户提出的检索请 求 搜索引擎通过检查索引找出匹配的文档 或链接 并返回给用户 目前网络上的搜 索引擎一般使用两种技术来实现信息检索 一是使用网站分类技术 由专家对网站进 行归纳和分类 即把网站进行树状的分类 网站分类技术为网络信息导航带来了极大 的方便 但其描述能力不能深入到网站的内部细节 因此用户不能查询网站内部的重 要信息 二是使用全文检索技术 全文检索技术处理的对象是文本 它能够对大量文 档建立由字 词 到文档的倒排索引 在此基础上 用户使用关键词来对文档 网页 进 行查询时系统将给用户返回含该关键词的网页 全文检索是一个很成熟的技术 它 能够通过关键词匹配把相关的网页查出来 但是这又导致了它的缺陷一一返回的信 息量太大 此外还存在两个深层次的问题 即 忠实表达 问题和 表达差异 问题 在查询时 用户不需要知道搜索引擎中索引的具体组织形式 比较著名的搜索引擎 y a h o o 是采用的第一种组织方式 而g o o g l e 百度用的则是全文检索技术 2 元搜索引擎 虽然搜索引擎得到了广泛的使用 但是它仍然存在以下的缺点 1 q i n t e r n e t 上的信息资源是动态变化的 表现为信息量指数级增长 信息内容不断 更新 但是现有的传统的搜索引擎的信息覆盖率不高 一个单一搜索引擎平均 只能覆盖到整个资源的3 0 5 0 用户往往为了寻找目的数据和资源 而不断地在 多个搜索引擎间切换 这常常令用户事倍功半 现有传统搜索引擎对提供的检索信息没有进行综合处理 冗余和噪声信息含量 大 用户只能亲自从大量的反馈信息中提取自己的所需信息 现有的传统搜索引擎各自使用不同的索引技术 信息收集技术和关键字查询语 法技术 使得它们各自搜索的信息资源在很大程度上有相当大差异 同时给用 户查询带来很大的不便 1 0 第二章w e b 信息检索及信息集结算子 元搜索引擎是一种没有自己网页数据库的搜索引擎 当用户向元搜索引擎 发出查询请求时 元搜索引擎即根据该请求向多个直接搜索引擎 成员搜索引 擎 发出实际查询请求 然后将所有来自其它直接搜索引擎查询到的结果返回 给用户 近年来出现的元搜索引擎 m e t a s e a r c he n g i n e 极大程度上解决了一次 查询就可以获得多个搜索引擎有关查询结果的要求 极大地提高检索效率 节 省了用户的时间 元搜索引擎也被称为搜索引擎之上的搜索引擎 用户只需递 交一次检索请求 由元搜索引擎负责转换处理后提交给多个预先选定的独立搜 索引擎 并将所有检索结果集中统一处理 以统一的格式提交用户 能够在尽 可能短的时间内提供相对全面 准确的信息 目前比较成功的元搜索引擎有 m e t a c r a w l e r p r o f u s i o n d o p i l e i x q u i c k b y t e s e a r c h m a m m a s a w y s e a r c h t u r b o l 0 等 m e t a c r a w l e r 是目前公认的功能强大的元搜索引擎 它支持调用y a h o o l o o k s m a r t a l t a v i s t a 等1 2 个独立搜索引擎 元搜索引擎的基本设计思想可以总结如下 1 对用户查询请求进行预处理 分 别将其转换为若干个底层搜索引擎能处理的格式 2 向各个搜索引擎发送查询请 求 并等待其返回检索结果 3 对检索结果进行后处理 包括 组合各个搜索引擎返 回的检索结果 消除重复项 对结果进行排序等 有些搜索引擎在必要时还通过下 载w e b 文档来实现一些搜索引擎不支持的查询 或者对文档作进一步的分析以提高 信息检索的精度 p r e c i s i o n 4 向用户返回经过组合和处理后的检索结果 可见元搜 索引擎中最关键的两个技术是成员搜索引擎调度技术和结果融合技术 在上面介绍 的元搜索引擎中 大多数元搜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论