信息检索导论-王斌-第二次课后作业(6-12)_第1页
信息检索导论-王斌-第二次课后作业(6-12)_第2页
信息检索导论-王斌-第二次课后作业(6-12)_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6;auto的tf-idf值在三篇文档中分别为:Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0;insurance的tf-idf值在三篇文档中分别为:Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98;best的tf-idf值在三篇文档中分别为: Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5;2、习题6-19所用公式:wf = 1+logtft,d, tft,d00, otherwise idf=logNdf词查询文档qi*ditfWfdfidfqi=wf-idftfwfdi=归一化的wfdigital111000033110.521.56video0020110.520cameras11500002.3012.30121.3010.6771.558归一化:12+12+1.3012=1.9221/1.922 = 0.52 1301/1.922 = 0.677最后的相似度结果为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。这样高分文档更可能在倒排索引的前期出现。4、习题7-85、习题8-8b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。系统2的返回结果中相关文档比较分散。系统1比系统2获得较高的MAP值。排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。c. R1=2/4=0.5 R2=1/4=0.25按照R正确性值来看,与MAP的排序结果一致。6、习题9-37、习题9-7矩阵C里的元素表示该词项是否在这些文档中同时出现,1表示同时出现,0表示没有同时出现。8、习题11-39、习题12-6D=(, , , , , , , , , )a. P(the) = 2/11 = 0.182,P(martian) = 1/11 = 0.091b. P(sensation|pop) = 1,P(pop|the) = 010、习题12-7该文档集的查询似然模型为:clickgotheshearsboysmetalhere模型11/21/81/81/81/800模型21000000模型3000001/21/2模型41/4001/401/41/4文档集模型7/161/161/162/161/162/162/16每篇文档模型对应的概率: PdqP(d)tq1-PtMc+P(t|Md)queryDoc1Doc2Doc3Doc4click15/3223/327/3211/32shears2/161/161/163/16click shears15/25623/5127/51233/512P(click|doc1)=1/2*1/2+7/16*1/2=15/32,P(click|doc2)=1*1/2+7/16*1/2=23/32P(shears|doc1)=1/8*1/2+2/16*1/2=2/16,P(click s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论