基于团的Markov网络信息检索模型.ppt_第1页
基于团的Markov网络信息检索模型.ppt_第2页
基于团的Markov网络信息检索模型.ppt_第3页
基于团的Markov网络信息检索模型.ppt_第4页
基于团的Markov网络信息检索模型.ppt_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于团的Markov网络信息检索模型,甘丽新 王明文 张华伟 江西师范大学 2006年7月23日,研究背景 模型思想 模型方法 实验结果 进一步工作,大纲,研究背景,提高检索效率是信息检索研究的永恒主题 现有很多研究根据词之间的依赖关系进行直接扩展 在检索过程中加入有利于检索的信息改善检索结果 如何建立能刻划这种依赖关系的模型?,模型思想,考虑词与词之间的相关性对查询进行扩展,使查询包含更多的有用信息. 在Markov网络检索模型中,通过对检索词子网络结构的分析,提取出词网络中的最大完全子图团。 同一子团中的词构成一个形式概念,由此把基于词的检索扩展为基于形式概念检索。通过团来提取词与词之间的依赖关系。,数据集预处理,构建检索词子网络,计算词的相似性及其idf值,检索词子网络词团的提取,根据团的提取算法,查询扩展,根据团的扩展算法,基于团的Markov网络模型,模型方法,(1)词的Markov网络构造 基于Markov网络是无向图的考虑,本文采用的是条件概率的综合指标,记为:,本文采用了逆文档频率 ,过滤掉一些高频词和低频词。词的逆文档频率 定义为: 网络中的每一个词,都满足于: 且,(2)团的提取 通过对词的Markov网络结构的分析,发现许多词之间是有边相连,而且构成了完全图团。本文提出了一个提取团的算法。 算法思想:在(n-1)_Clique()中,任何两个团若是n_Clique()中同一个团的子团,那么这2个团中只存在两个不相同的词,且这两个词之间是有边相连,即相关。,检索模型,给定查询 ,文档集 ,我们希望根据文档 和给定的查询 的相关概率的大小,排列文档集中的文档,从而得出我们需要的文档。因此需要计算 。 为词子空间的Markov网络,C为团的集合,有条件概率定义可得:,若词的网络固定时, , , , 对任一均相同,则由(5)式可得检索算法的一般形式: 由乘法公式和条件概率定义可得:,本文将团中词与词之间的相关性引入到检索中,通过修正词的权重,重新构造文档和查询之间的相关性。因此由(7)式修正为: 其中:,权重计算,概率估计: 权重方式:,为归一化因子 (10),团的扩展,由于同一个团中的词构成了一个形式概念,并且很好的反映了词与词之间的依赖关系 一般来说,若一个团的阶数越高,则该团越重要,它所构成的形式概念也越重要 对于同阶团,团的权重越大,则该团越重要, 它所构成的形式概念也越重要 团的选取方法为:从最高阶团开始选取,同阶团则按照团的权重由大到小选取,团的权重图,中团的重要性为:,试验结果,试验数据:adi, med, cran, cisi, cacm 预处理:提取文档中的和部分的内容,去掉了非法字符和数字,大写字母变小写字母,去除停用词,运用Porter算法进行词干化处理 评价指标:11-avg 和 3-avg 模型比较:5种检索算法hits、tf、idf、tf*idf和BM25 与本文模型进行比较,进一步工作,尝试将窗口单元进行调整,以段落或是句子为单位; 在文档空间中,考虑文档与文档之间的关系,建立文档网络,提取文档团扩展文挡模型; 尝试采用迭代思想,通过词之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论