版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索与Web搜索
第12讲概率检索模型ProbabilisticInformationRetrieval授课人:高曙明
*改编自“现代信息检索”网上公开课件(/~wangbin)*改编自“现代信息检索”网上公开课件(/~wangbin)随机试验和随机事件随机试验:可在相同条件下重复进行;试验可能结果不止一个,但能确定所有的可能结果;一次试验之前无法确定具体是哪种结果出现掷一颗骰子,考虑可能出现的点数随机事件:随机试验中可能出现或可能不出现的情况叫“随机事件”掷一颗骰子,4点朝上2概率和条件概率概率:直观上来看,事件A的概率是指事件A发生的可能性,记为P(A)掷一颗骰子,出现6点的概率为多少?条件概率:已知事件A发生的条件下,事件B发生的概率称为A条件下B的条件概率,记作P(B|A)30颗红球和40颗黑球放在一块,请问第一次抽取为红球的情况下第二次抽取黑球的概率?3相关概率公式4乘法公式:P(AB)=P(A)P(B|A)全概率公式:贝叶斯公式:优势率:事件的独立性两事件独立:事件A、B,若P(AB)=P(A)P(B),则称A、B独立三事件独立:事件ABC,若满足P(AB)=P(A)P(B),P(AC)=P(A)P(C),P(BC)=P(B)P(C),P(ABC)=P(A)P(B)P(C),则称A、B、C独立多事件独立:两两独立、三三独立、四四独立…5随机变量随机变量:若随机试验的各种可能的结果都能表示为一个变量的取值(或范围),则称这个变量为随机变量,常用X、Y、Z来表示(离散型随机变量):掷一颗骰子,可能出现的点数X(可能取值1、2、3、4、5、6)(连续型随机变量):北京地区的温度(-15~45)6概率检索模型为什么适合在IR中使用概率论?检索系统中,给定查询,计算每个文档的相关度检索系统对用户查询的理解是非确定的(uncertain),对返回结果的确定也是非确定的而概率理论为非确定推理提供了坚实的理论基础可以基于概率计算文档和查询相关的可能性大小7概率检索模型概率检索模型:其核心是通过概率的方法确定查询与文档之间的关联度定义3个随机变量R、Q、D:相关度R={0,1},查询Q={q1,q2,…},文档D={d1,d2,…},则可以通过计算条件概率P(R=1|Q=q,D=d)来度量文档和查询的相关度概率模型包括一系列模型:最经典的二值独立概率模型BIM、BM25模型等等1998出现的基于统计语言建模的信息检索模型本质上也是概率模型的一种8概率排序原理(PRP)简单地说:如果文档按照与查询的相关概率大小返回,那么该返回结果是所有可能获得结果中效果最好的严格地说:如果文档按照与查询的相关概率大小返回,而这些相关概率又能够基于已知数据进行尽可能精确的估计,那么该返回结果是所有基于已知数据获得的可能的结果中效果最好的9二值独立概率模型BIM10二值独立概率模型(BinaryIndependenceModel)文档和查询都表示为词项出现与否的布尔向量,d表示为:
=(x1,…,xm),xi=0或xi=1独立性:假设词项在文档中的出现是相互独立的用P(R|,)对概率P(R|d,q)建模BIM模型通过Bayes公式对所求条件概率P(R|,)展开进行计算11公式推导
贝叶斯定理
贝叶斯定理排序函数推导给定查询q,按来排序不需要直接计算概率值故,可采用文档相关性的优势率来排序它是相关性概率的单调递增函数可以忽略,简化了计算12排序函数推导(续)在独立性假设下,我们有:由于xt为布尔变量,所以有:13排序函数推导(续)令:则:假定当qt=0时,pt=ut进一步有:14documentrelevant(R=1)nonrelevant(R=0)Termpresentxt=1Termabsentxt=0ptut1−pt1−ut排序函数推导(续)排序中唯一需要估计的量是:
,称RSV定义:Ct是查询词项的优势率比率的对数值15理论上的概率估计方法给定一词项t,相关数据列表为:N为总文档数目,dft是包含t的文档数目假定上述数据已知,则有:
pt=s/S,ut=(dft-s)/(N-S)16实际中的概率估计方法假设给定一查询q,其相关文档只占全部文档的极小部分,则S、s可忽略,ut=dft/N,于是有:pt的估计方法如下:如果已知某些相关文档,则以其为基础估计pt假设pt是一个常数,比如0.5,因为直观上Pt会随dft的增长而增长17基于概率的相关反馈基本思想:通过利用用户反馈信息不断提高pt的精确性来提高检索效果基本过程给出pt和ut的初始估计利用当前的pt
、ut确定相关文档集返回给用户用户交互选择相关文档利用已知的相关文档和不相关文档对pt、ut进行重新估计重复第2-4步,直到用户满意为止1819pt
、ut的重新估计:设检索出的结果集合为V(可以把V看成全部的相关文档结合),其中集合Vt包含词项t,则可以如下进一步估算pt
、ut:基于概率的相关反馈BIM模型存在问题分析BIM概率模型的思想很好,理论基础好,但性能并不理想原因:其建立在若干不太合理的假设之上文档、查询及相关性的布尔表示词项之间具有独立性查询中不出现的词项不会影响最后的结果不同文档的相关性之间是互相独立的20词项独立性假设去除该假设不合实际,例如:HongKong之间存在很强的相关性{New,York,England,City,Stock,Exchange,University}之间存在复杂的依赖关系词项之间的树型依赖21OkapiBM25:一个非二值模型基本思想:在BIM模型中增加对词项频率和文档长度的考虑,以提高检索效果考虑词项在文档中的tf权重,有:tftd:词项t在文档d中的词项频率Ld(Lave):文档d的长度(整个文档集的平均长度)k1:用于控制文档中词项频率比重的调节参数b:用于控制文档长度比重的调节参数22OkapiBM25:一个非二值模型如果查询比较长,则加入查询的tftftq
:词项t在q中的词项频率k3:用于控制查询中词项频率比重的调节参数没有查询长度的归一化理想情况下,上述参数都必须在开发测试集上调到最优。一般情况下,实验表明k1
和
k3
应该设在1.2到2之间,
b
设成0.7523OkapiBM25:一个非二值模型如果存在相关性判断结果,则有:24TFdocOkapiBM25:一个非二值模型被广泛使用,获得成功详细内容请参考:S.ERobersonandS.Walker,
Somesimpleeffectiveapproximationstothe2-Poissonmode
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 染色体非整倍体筛查的孕妇满意度调查与分析
- 极端气候事件与腹泻病暴发的流行病学特征
- 糖尿病患者用药安全及药物注射管理与实践
- 小学生科学探究高阶主题班会说课稿
- 初中青春期心理健康说课稿2025年37
- 甘肃省庆阳市2025-2026年八年级下二模地理试卷(含答案)
- 美发护理产品使用方法
- 肺癌术后康复期的社交与心理支持
- 医学26年老年肌钙蛋白解读查房课件
- 2026年集体教学活动设计原则
- 农药污染土壤的修复技术
- 2026届新疆乌鲁木齐市天山区中考数学对点突破模拟试卷含解析
- 装修工程施工安全管理措施
- 2026届湖南长沙青竹湖重点中学中考语文适应性模拟试题含解析
- 《养老社区停车空间选址及车位配建指标指南》
- 检验检测机构内审员考试试卷(附答案)
- 《文言文二则》(第1课时)教学课件
- 公司技术部工作管理制度
- T/CECS 10274-2023防沉降井盖
- 审计岗位笔试试题及答案
- GB/T 37507-2025项目、项目群和项目组合管理项目管理指南
评论
0/150
提交评论