版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、讲座-11概率检索模型,大纲,11.1概率论基础知识11.2概率排序原则11.3二进制独立模型(BIM) 11.4概率模型的注释和扩展(Okapi BM25权重计算方法,基于贝叶斯网络的信息检索模型),11.1概率论基础知识,随机实验和随机事件概率及条件概率乘法公式,总概率公式,贝叶斯公式随机变量,随机实验可能有一个以上的测试结果,但所有可能的结果都可以确定;在测试之前,不可能确定哪个结果出现。随机事件:随机试验中可能发生或可能不发生的情况称为“随机事件”。概率:直观上,事件A的概率是指事件A的可能性,记录为P(A)条件概率:当事件A已知发生时,事件B的概率称为A条件下B的条件概率,记录为P(
2、B|A)。乘法公式:P(AB)=P(A)P(B | A)P(A1A2An)=P(a1)P(a2 | a1)P(An | a1An-1)总概率公式:A1A 2An是整个样本空间的分割贝叶斯公式:a1a2 。那么A和B被认为是独立的,三个事件是独立的:事件A,B,C,如果p (ab)=p (a) p (b),p (AC)=p (a) p (c),p (BC)=p (b) p (c),p (ABC)=p (a) p随机变量:如果随机实验的所有可能结果都可以用一个变量的值(或范围)来表示,那么这个变量被称为随机变量,通常用X来表示。 y和Z(离散随机变量):(连续随机变量),11.2概率排序原则,对于
3、查询Q和文档集中的文档D,假设变量r D,Q表示D是否与查询Q相关,当文档D与查询相关时,在不引起上下文歧义的情况下,我们将Rd,Q和Q缩写为R .因此,概率模型可以用来估计每个文档和需求之间的相关概率P(R=1|d,q),然后对结果进行排序。那是PRP。11.3二进制独立模型,11.3 .1排序函数的推导,常数,朴素贝叶斯条件独立假设在给定的查询下,认为一个词的出现和任何其他词的出现是相互独立的,常数,用于排序的量称为RSV(检索状态值,检索状态值),当相关文档中出现查询词时,优势率为PT/(1-PT);当查询词出现在无关文档中时,优势率为ut/(1-ut)。优势比是上述两个优势比的比值,最
4、后取该值的对数。如果相关和不相关文档中术语的优势率相等,则ct值为0。如果该术语更有可能出现在相关文档中,则该值为正数。实际上,ct给出的是模型中术语的权重。查询单据得分为11.3.2。理论概率估计方法、对于输出结果为类别类型(例如,出现或未出现两类术语)的测试,通常可以通过将事件数除以总试验数来从数据中估计事件的概率。这被称为事件的相对频率。这种估计被称为最大似然估计,因为相对频率使得观测数据出现的概率最大。然而,如果我们简单地使用最大似然估计,已经出现在观测数据中的事件的估计概率总是非常高的,而没有出现在观测数据中的事件的相对频率是0,这不仅低估了这些事件的概率,而且损害了模型本身,因为0
5、乘以任何数字得到0。改进不发生事件的概率估计同时降低发生事件的概率估计的方法称为平滑。最简单的平滑方法之一是将数字加到观察到的事件数上。以这种方式获得的伪数相当于在所有词汇中使用均匀分布作为贝叶斯先验。11.3.3实践中的概率估计方法:1。评估与无关文件相关的数量;2.评估与相关文件相关的数量;1.了解一些相关文档,并使用这些已知相关文档中的单词频率来估计pt。2.克罗夫特和哈珀(1979)在他们的组合匹配模型中提出了用常数估计pt的方法。3.Greiff (1998)pt将随着dft的增长而增加,11.3.4基于概率的相关反馈方法,11.4概率模型的相关评论和扩展,11.4.2术语之间的树依
6、赖,11 . 4 . 1 BIM模型中概率模型的评论,假设:11.4.3 Okapi BM25如果有相关判断结果,贝叶斯网络方法在11.4.4 IR中,贝叶斯网络通过有向图表示不同随机变量之间的概率依赖。对于任何有向无环图,已经开发了许多复杂的算法来传递节点之间的影响程度,这些算法可以基于任意知识在图上学习和推理。海龟和克罗夫特使用复杂的图形模型来模拟文档和信息需求之间的复杂依赖关系。模型、文档集网络、查询网络、术语、概念:出现在文档中的基于同义词的术语扩展形式。基于贝叶斯网络的系统能够支持大规模信息的高效检索,这是麻省大学建立的InQuery文本检索系统的基础。在TREC的评估中,该系统也取得了良好的效果,并一度商业化。另一方面,为了估计和计算参数,上述模型仍然使用许多近似和独立的假设。这一模型已经有了很多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 犬伤培训教学课件
- 2025年国家基本公共卫生服务项目培训考试试题(附答案)
- 爬虫培训教学课件
- 2026 年无财产离婚协议书合规版
- 2026 年有子女离婚协议书制式模板
- 《红楼梦》读书笔记
- 抗菌药物合理使用培训测试题及答案
- 环卫工安全培训课件
- 统编版九年级上学期历史期末质量监测试卷(含答案解析)
- 《GAT 1356-2018国家标准GBT 25724-2017 符合性测试规范》专题研究报告
- (2025年)铁路行车组织培训考试题附答案
- 血液储存和出入库管理制度
- 邀约来访活动策划方案(3篇)
- 2025年烟台理工学院马克思主义基本原理概论期末考试笔试真题汇编
- 2025年保险理赔流程操作规范手册
- 贵州省贵阳市2024-2025学年高一上学期期末监测物理试卷(含解析)
- 税收说理式执法课件
- 彩钢瓦屋面施工组织方案
- 路灯劳务施工方案(3篇)
- 2026届高考复习之鉴赏诗歌的语言 教学课件
- 七年级上册文言文虚词详解汇编
评论
0/150
提交评论