




已阅读5页,还剩101页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2 信息检索基础理论本章要点信息检索的基本原理查全率查准率信息检索的 相关性 问题检索系统的评价检索系统 /工具的结构及工作原理信息检索的主要数学模型2.1 信息检索的基本原理n 通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。n 存储是为了检索,检索又必须先进行存储。 信息检索的基本原理信息集合匹配与选择特征化表示特征化表示需求集合计算机信息检索原理示意图2.1.2 信息检索的相关性问题n 定义:检索结果与用户需求一致性程度n 影响因素:用户信息需求的表达相关度判断的算法用户的主观判断n 手检相关性 、 机检相关性n “相关性 ”(relevance),是指信息检索系统针对用户的查询 (query)从文档集中检出的文档与查询之间的一种匹配关系。 现代信息检索以自然语言文本为对象,从严格意义上讲, 文档与查询之间不再是数据库检索中的那种简单的匹配关系 。 但 “匹配 ”这一术语一直在使用,这里也接受这种说法。 手检相关性n 依赖于用户智能 知识结构、项目进展阶段、用户心理、认知行为、认知能力n 提高手检相关性的方法: 分析概念及学科属性;对检索工具的了解 调整检索策略机检相关性n 系统相关性 (1) 词频方法 (2) 位置方法 (3) 引用率方法 (4) 点击率方法 (5) 分类或聚类n 用户相关性(1) 基于词频统计的相关性n 当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现 频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权 ,最后排出一个结果来 (检索结果页面 ) 。n 早期的搜索引擎结果排序都是基于词频统计的,如 Infoseek, Excite, Lycos等,它们基本上是沿用了网络时代之前学术界的研究成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。n 词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。(2) 位置方法n 据 关键词在文中出现的位置 来判定文件的相关性。认为 关键词出现得越靠前,文件的相关程度就越高 。 (3) 引用率方法n 科学引文分析n 超链分析百度 Google PangRank算法n WEB中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术 。绝大部分链接分析算法都有共同的出发点: 更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重 。这个循环定义可以通过迭代算法巧妙打破。最著名的链接分析算法是 Stanford大学提出并应用到 Google搜索引擎中的 PageRank算法以及 IBM用于 CLEVER搜索引擎的 HITS算法。n HITS是 IBM Almaden研究中心开发的另一种链接分析算法。 它认为每个 WEB页面都有被指向、作为权威( Authority)和指向其他页面作为资源中心( Hub)的两方面属性 , 其取值分别用A(p)和 H(p)表示。 A(p)值为所有指向 p的页面 q的中心权重 H( q)之和,同样,页面 p的中心权重 H(p)值是所有 p所指向的页面 q的权威权重A(q)之和,如下式:A(p)=H(qi) (其中 qi是所有链接到 p的页面)H(p)=A(qi)(其中 qi是所有页面 p所链接到的页面) n 链接分析方法常常和基于内容的检索方法相结合。尽管很多基于较小的数据规模(数十 G)网页数据的实验并不能证明链接分析算法能够提高检索的性能。但是,很多人都相信, 链接分析方法能够反映 WEB社会的一些最自然的属性 ,应该能够在大规模真实环境下提高检索结果。 Google的使用成功也增强了大家的信心砝码。n PageRank定义的是 在 WEB中页面的访问概率 。访问概率越大的页面的 PageRank值也越大。具体的计算公式是:Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+ Pr(t2)/C(t2)+Pr(tn)/C(tn)即,每个页面的 PageRank (Pr)是无意中直接浏览到的概率和从上一页中继续访问的概率总和。其中, T是节点(页面)总数, C(t)是从页面t指出的超链接总数, d称为阻尼因子( damping factor),一般取值为 0.85。概率 Pr(t)反映了节点 t的重要程度。(4) 点击率方法n “鼠标投票 ”代表: Direct Hit(5) 分类和聚类n 分类:将一篇文章文本自动的识别出来,按照先验的类别进行匹配,确定。 n 聚类:将一组的文章文本信息进行相识性的比较,将比较相识的文章文本信息归为同一组的技术。 n 模糊聚类:没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等都是不确定因素。 相关性判断方法的 缺点分析n 标引停留在字符层次苹果?n 不能区分同形异义词公车?n 不能联想 自行车 单车 脚踏车 相关性研究的热点n 基于内容的理解n 联想功能及语义处理n 相关反馈技术n 提供信息导引功能2.1.3 信息检索的效果评价n 评价指标体系 查全率 查准率 漏检率 误检率评价指标体系n 查全率(检全率)n 查准率(检准率)评价指标体系n 漏检率n 误检率影响检索效果的主要因素n 存储 检索n 信息系统组织结构、检索系统功能问题n 检索策略、检索方法问题提高检索效果的措施n 熟悉各种信息检索系统特征n 认真分析课题需求n 灵活掌握检索方法和提高制定检索策略的能力网络信息资源检索效果评价n 索引数据库(范围、更新频率、索引建立的方式)n 信息组织管理评价指标n 信息 检索功能 评价指标 (检索方式、检索技术、检索限定 )n 检索 结果评价 指标(排序)n 检索 界面 的评价指标2.2 信息检索系统和工具n 手工检索系统n 穿孔卡片检索系统n 缩微检索系统n 光盘检索系统n 计算机信息检索 系统n 网络信息检索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 氢能重卡商业化运营模式2025年创新与市场拓展报告
- 和硕联合科技安全培训课件
- 广发银行牡丹江市阳明区2025秋招结构化面试经典题及参考答案
- 民生银行扬州市邗江区2025秋招结构化面试经典题及参考答案
- 考点解析公务员考试《常识》单元测评练习题(含答案解析)
- 2024安全监察人员题库检测试题打印及答案详解【各地真题】
- 广发银行郑州市金水区2025秋招笔试英文行测高频题含答案
- 华夏银行成都市龙泉驿区2025秋招数据分析师笔试题及答案
- 2024安全监察人员考前冲刺练习题带答案详解(突破训练)
- 2025年云南省发展和改革委员会所属事业单位招聘9人笔试高频难、易错点备考题库及参考答案详解
- 2025年上半年海南三亚市知识产权保护中心选聘事业单位6人重点基础提升(共500题)附带答案详解
- 2025年辽宁现代服务职业技术学院单招综合素质考试题库附答案
- 电力电缆模拟题及答案
- 2025年药物制剂工(中级)考试题库(附答案)
- 仿古建筑施工常见问题及应对策略
- 辽宁省沈阳市2024-2025学年八年级上学期期末考试英语试题(含答案无听力原文及音频)
- 小班晨间活动体能大循环
- 绿化小型工程合同范例
- 涂层材料与叶轮匹配性研究-洞察分析
- 讯问笔录课件教学课件
- 《建筑工程设计文件编制深度规定》(2022年版)
评论
0/150
提交评论