现代信息检索导论作业讲评PPT课件_第1页
现代信息检索导论作业讲评PPT课件_第2页
现代信息检索导论作业讲评PPT课件_第3页
现代信息检索导论作业讲评PPT课件_第4页
现代信息检索导论作业讲评PPT课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,作业讲评,现代信息检索导论,.,2,不要抄袭有两位同学一次作业都没交,请认识他们的同学转告一下。,作业说明,.,3,第一次作业,EstimatethetimeandspacecomplexityoftheSPIMindexingalgorithm把空间复杂度与实际内存使用情况混淆,.,4,第一次作业,DesignaMapReducealgorithmforcountingtheoccurrenceno.ofa“phrase”ofnorderedwordsW1Wn直接使用(tid,did,pos)三元组,.,5,第二次作业编程题,WritetwoCfunctionstoencodeanddecodevariable-byteintegers.WritetwoCfunctionstoencodeanddecodeintegers.(*)WritetwoCfunctionstoencodeanddecodeintegersExercise5.9.基本上都做的很好编码理解有误精简代码,.,6,第三次作业第一题,Computethevectorspacesimilaritybetweenthequery“digitalcameras”andthedocument“digitalcamerasandvideocameras”byfillingouttheemptycolumnsinTable6.1(p132).AssumeN=10,000,000,logarithmictermweighting(wfcolumns)forqueryanddocument,idfweightingforthequeryonlyandcosinenormalizationforthedocumentonly.Treatandasastopword.Entertermcountsinthetfcolumns.Givethefinalsimilarityscore.,.,7,第三次作业第一题,query“digitalcameras”document“digitalcamerasandvideocameras”N=10,000,000,.,8,第三次作业第二题,Wesuggestedthatthepostingsforstaticqualityorderingbeindecreasingorderofg(d).Whydoweusethedecreasingratherthantheincreasingorder?Howtodolinearmergeofpostingswithg(d)?WriteaCfunctiontopresentyouridea.,.,9,忽略了did未保持g(d)的顺序,第三次作业第二题,.,10,第四次作业第二题,在10000篇文档构成的文档集中,某个查询的相关文档总数为8,下面给出了某系统针对前20个有序结果的相关(R)和不相关(N)情况:RRNNNNNNRNRNNNRNNNNRA.前20篇文档的正确率:P=6/20=30%B.前20篇文档的F1值:F1=2PR/(R+P)其中R=6/8,故F1=0.4286,.,11,第四次作业第二题,RRNNNNNNRNRNNNRNNNNRC.在25%召回率水平上的插值正确率:100%D.在33%召回率水平上的插值正确率:36.4%,.,12,第四次作业第二题,RRNNNNNNRNRNNNRNNNNRE.假定该系统所有返回结果的数目就是20,则MAP=(1+2/2+3/9+4/11+5/15+6/20+0+0)/8=0.4163,.,13,第四次作业第二题,RRNNNNNNRNRNNNRNNNNRF.该系统可能的最大MAP:当第21和22篇文档都是相关文档时,MAP达到最大值。MAP=(1+2/2+3/9+4/11+5/15+6/20+7/21+8/22)/8=0.5034G.该系统可能的最小MAP:当第9999和10000篇文档是相关文档时,MAP达到最小值。MAP=(1+2/2+3/9+4/11+5/15+6/20+7/9999+8/10000)/8=0.4165,.,14,第四次作业第二题,RRNNNNNNRNRNNNRNNNNRH.在一系列实验中,只有最靠前的20篇文档通过人工来判定,(E)的结果用于近似从(F)到(G)的MAP取值范围。对于上例来说,通过(E)而不是(F)和(G)来计算MAP所造成的误差有多大(采用绝对值来计算)?|MAPF-MAPG|=0.0869,.,15,第四次作业第三题,WriteaCprogramtohighlightthekeywordsofaninputqueryinthetextofaninputdocument,whereboththequeryanddocumenttextareinputasacharacterstring:constchar*q=“word1word2word3”;constchar*doc_text=“”;(Requirements:firstsegmentthetexttosentences,thenselectthem.)要求用C语言首先分句Highlight整个查询出现的地方,而不是查询中某个单词程序应该生成一个HTML文件,.,16,第五次作业第二题,Givethreereasonswhyrelevancefeedbackhasbeenlittleusedinwebsearch.用户不愿意进行显示反馈(延长搜索交互时间)相关反馈会造成长查询,降低系统效率相关反馈主要用于提高召回率,而WEB检索中准确率能提升用户体验很难使普通用户理解并使用,.,17,第五次作业第三题,WhyispositivefeedbacklikelytobemoreusefulthannegativefeedbacktoanIRsystem?正反馈返回的相关文档中相似度更高,聚类性质强,容易带来更多的相关文档Whymightonlyusingonenonrelevantdocumentbemoreeffectivethanusingseveral?在实际检索中绝大部分文档都是不相关文档,相关文档的聚类不够强,容易相互抵消,.,18,第五次作业第四题,Omarhasimplementedarelevancefeedbackwebsearchsystem,whereheisgoingtodorelevancefeedbackbasedonlyonwordsinthetitletextreturnedforapage(forefficiency).Theuserisgoingtorank3results.Thefirstuser,Jinxing,queriesfor:bananaslugandthetopthreetitlesreturnedare:bananaslugAriolimaxcolumbianusSantaCruzmountainsbananaslugSantaCruzCampusMascotJinxingjudgesthefirsttwodocumentsrelevant,andthethirdnonrelevant.AssumethatOmarssearchengineusestermfrequencybutnolengthnormalizationnorIDF.AssumethatheisusingtheRocchiorelevancefeedbackmechanism,with=1.Showthefinalrevisedquerythatwouldberun.(Pleaselistthevectorelementsinalphabeticalorder.),.,19,第五次作业第四题,Query:bananaslugDocuments:(R)bananaslugAriolimaxcolumbianus(R)SantaCruzmountainsbananaslug(N)SantaCruzCampusMascot,.,20,第五次作业第四题,把文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论