版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Lecture-11概率检索模型提纲11.1 概率论基础知识11.2 概率排序原理11.3 二值独立模型(BIM)11.4 概率模型的相关评论及扩展 (Okapi BM25 权重计算方法、基于贝叶斯网络的IR模型)11.1 概率论基础知识随机试验与随机事件概率和条件概率乘法公式、全概率公式、贝叶斯公式随机变量随机试验:可在相同条件下重复进行;试验可能结果不止一个,但能确定所有的可能结果;一次试验之前无法确定具体是哪种结果出现。随机事件:随机试验中可能出现或可能不出现的情况叫“随机事件” 概率:直观上来看,事件A的概率是指事件A发生的可能性,记为P(A) 条件概率:已知事件A发生的条件下,事件B
2、发生的概率称为A条件下B的条件概率,记作P(B|A) 乘法公式:P(AB)P(A)P(B|A)P(A1A2An)P(A1)P(A2|A1).P(An|A1An1) 全概率公式:A1A2An是整个样本空间的一个划分 贝叶斯公式: A1A2An是整个样本空间的一个划分1( )() (|)niiiP BP A P B A1() (|)(|),(1,., )() (|)jjjniiiP A P B AP ABjnP A P B A两事件独立:事件A、B,若P(AB)=P(A)P(B),则称 A 、B独立三事件独立:事件A B C,若满足P(AB)=P(A)P(B), P(AC)=P(A)P(C),P(
3、BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),则称A、B、C独立多事件独立:两两独立、三三独立、四四独立.随机变量:若随机试验的各种可能的结果都能用一个 变量的取值(或范围)来表示,则称这个变量为随机变量,常用X、Y、Z来表示(离散型随机变量): (连续型随机变量)11.2 概率排序原理对查询q和文档集中的一篇文档d,假定变量Rd,q代表d和查询q是否相关,当文档d和查询q相关时Rd,q的取值为1,不相关时Rd,q的取值为0。在不造成上下文歧义的情况下,我们将Rd,q简记为R。于是,可以利用概率模型来估计每篇文档和需求的相关概率P(R=1|d,q),然后对结果进行次序。这
4、就是PRP。11.3 二值独立模型1() (|)(|),(1,., )() (|)jjjniiiP A P B AP ABjnP A P B A11.3 .1 排序函数的推导常数朴素贝叶斯条件独立性假设在给定查询的情况下,认为一个词的出现与否与任意一个其他词的出现与否是互相独立的常数用于排序的量称为RSV(retrieval status value,检索状态值)ct 是查询词项的优势率比率(odds ratio)的对数值。当查询词项出现在相关文档时,优势率为 pt/(1-pt);当查询词项出现在不相关文档时,优势率为 ut/(1-ut)。优势率比率是上述两个优势率的比值,最后对这个值取对数。
5、如果词项在相关和不相关文档中的优势率相等,ct值为0。如果词项更可能出现在相关文档中,那么该值为正。ct 实际上给出的是模型中词项的权重查询文档的得分就是11.3.2 理论上的概率估计方法 对于输出结果为类别型(比如词项出现或不 出现两个类别)的试验来说,往往可以通过事件发生的次数除以试验的总次数来从数据中估计出事件的概率。这被称为事件的相对频率。由于相对频率使得观察数据出现的概率最大,所以这种估计称为MLE(最大似然估计)。但是,如果我们只是简单地使用MLE,那么在观察数据中出现过的事件的概率估计值总是非常高,而那些没有在观察数据中出现的事件的相对频率则为0,这不仅低估了这些事件的概率值,往
6、往也损害了模型本身,因为0乘以任何数得0。在减少出现事件的概率估计值的同时提高未出现事件的概率估计值的方法称为平滑(smoothing)。一种最简单的平滑方法就是对每个观察到的事件的数目都加上一个数。这样得到的伪数目相当于在所有词汇表上使用了均匀分布作为一个贝叶斯先验11.3.3 实际中的概率估计方法一、评估不相关文档有关的量二、评估相关文档有关的量1、已知某些相关文档,利用这些已知相关文档中的词项出现频率来对pt进行估计。2、 Croft和Harper(1979)在他们的组合匹配模型(combination match model)中提出了利用常数来估计pt的方法。3. Greiff (19
7、98)pt会随dft的增长而增长11.3.4 基于概率的相关反馈方法11.4 概率模型的相关评论及扩展11.4.2 词项之间的树型依赖11.4.1 概率模型的评论 在BIM模型中,假设:11.4.3 Okapi BM25:一个非二值模型如果存在相关性判断结果11.4.4 IR中的贝叶斯网络方法贝叶斯网络是通过有向图来表示不同随机变量之间的概率依赖关系,对于任意有向无环图,已经发展出多种在节点之间传递影响度的复杂算法,可以基于任意知识在图上面进行学习和推理。Turtle和Croft利用了一个复杂的图模型来对文档和信息需求之间的复杂依赖关系进行建模。模型文档集网络查询网络词项概念:文档中出现的词项的某种基于同义词的扩展形式基于贝叶斯网络的系统能够支持大规模信息的高效检索,是麻省大学建立的InQuery文本检索系统的基础。在TREC评测中,该系统也取得了很好的效果,并且一度商业化。另一方面,为了进行参数估计和计算,上述模型仍然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高职(钢结构工程技术)钢结构工程施工试题及答案
- 2025年高职食品营养与检测(营养配餐设计)试题及答案
- 2025年本科云计算与大数据技术(云计算架构设计)试题及答案
- 2025年大学城市轨道交通工程技术(城轨工程设计)试题及答案
- 2025年高职临床医学基础(临床基础理论)试题及答案
- 内墙施工方案八局-中国建设银行济南分行泺源大街办公楼装修改造项目
- 河北省秦皇岛市2025年八年级上学期期末考试物理试题附答案
- 近七年北京中考语文试题及答案2025
- 2026年汕头招商局港口集团有限公司招聘备考题库参考答案详解
- 养老院老人生活设施定期检查制度
- 江西省赣州市2023-2024学年高三上学期期末考试化学试卷 附答案
- 国家职业技术技能标准 4-04-05-05 人工智能训练师 人社厅发202181号
- 嵌入式系统实现与创新应用智慧树知到期末考试答案章节答案2024年山东大学
- 无人机测试与评估标准
- 线缆及线束组件检验标准
- 人工智能在金融策略中的应用
- 高压燃气管道施工方案
- 加工中心点检表
- 水库清淤工程可行性研究报告
- THBFIA 0004-2020 红枣制品标准
- GB/T 25630-2010透平压缩机性能试验规程
评论
0/150
提交评论