




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息组织与检索作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1breakthroughdrugforschizophrenia文档2newschizophreniadrug文档3newapproachfortreatmentofschizophrenia文档4newhopesforschizophreniapatientsa.画出文档集对应的词项一文档矩阵:b.画出该文档集的倒排索引(参考图15中的例子Term-Documentmatrix:1234approach0010breakthrough1000drug1100for1011hopes0001new0111of0010pati
2、ents0001schizophrenia1111treatment0010InvertedIndex:approach->3breakthrough->1drug->1->2for->l->3->4hopes->4new->2->3->4of->3patients->4schizophrenia->l->2->3->4treatment>3注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(postinglist)需要排序,便于查找。这里我们暂不考虑词的正规化处理(如h
3、opesohope)。补充习题1写出AND查询的伪代码 面向过程风格的伪代码:给定两个指针pl和P2,分别指向两倒排列表listl和Iist2(链表实现)的首元素:令docld(pl)表示pl所指向的元素的docld资询结果存放在answer列表里。这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docld(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。Whilepl!=nullANDp2!=nullIfpl->docld=p2->docld对两(剩余)列表的首元素进行比较insertfanswer;pl);
4、pl=pl->next:构造新的剩余列表,迭代执行p2=p2->next:/Elseifpl->docld<p2->docldpl=pl->next;/pl->docld不可能有匹配;构造新的剩余列表Elsep2=p2->next:/p2->docld不可能有匹配:构造新的剩余列表Cnd 面向对象风格的伪代码:注:为一个数据结构(对象)定义方法,通过方法操作自己的内部数据(List对象里隐含包含了一个成员变量,它是真正的链表或变长数组)。Whilelistl.currentltem()!=nullANDIist2.currentltem()
5、!=nullIflistl.currentltem().getDocld()=list2.currentltem().getDocld()answer.insert(listl.currentltem();listl.moveToNextf);Hst2.moveToNext();Elseiflistl.currentltem().getDocld()<list2.currentltem().getDocld()listl.moveToNextf);Elselist2.moveToNext();End习题1-10写出OR查询的伪代码 面向过程风格的伪代码:给定两个指针pl和p2,分别指向两
6、倒排列表listl和list定链表实现)的首元素;令docld(pl)表示pl所指向的元素的docld:查询结果存放在answer列表里。Whilepl!=nullANDp2!=nullIfpl->docld=p2->docldinsertfanswecpl):pl=pl->next:p2=p2->next;构造新的剩余列表,迭代执行Elseifpl->docld<p2->docldinsert(answecpl):pl=pl->next:构造新的剩余列表,迭代执行Elseinsert(answer,p2):p2=p2->next:构造新的
7、剩余列表,迭代执行EndWhilepl!=rwll条件为真时,加入listl的剩余元素(此时1皮2已遍历到结尾)insert(answecpl):pl=pl->next:ENDWhilep2!=null条件为真时,加入Iist2的剩余元素此时listl已遍历到结尾)insert(answecp2):p2=pl->next;END 面向对象风格的伪代码:Whilelistl.currentltem()!=nullANDIist2.currentltem()!=nullIflistl.currentltem().getDocld()=list2.currentltem().getDoc
8、ld()answer.insert(listl.currentltem();listl.moveToNext();list2.moveToNext();Elseiflistl.currentltem().getDocld()<list2.currentltem().getDocld()answer.insert(listl.currentltem();listl.moveToNext();Elseanswer.insert(list2.currentltem();list2.moveToNext();EndWhilelistl.currentltem()!=nullanswer.inse
9、rt(listl.currentltem();listl.moveToNext();ENDWhileIist2.currentltem()!=nullanswer.insert(list2.currentltem();Hst2.moveToNext();END补充习题2若个文集有1OOO篇文档,有40篇是关于信管专业建设的。我的信息需求是了解信管专业的专业建设情况,用某搜索引擎在这个文集上搜索,查询词为“信管”,搜出100篇包含“信管”的文档,这其中有20篇是信管专业建设方面的,其它80篇是关于信管的其它情况。请问该查询的正确率和召回率是多少正确率=20/100=0.2召回率=20/40=0.
10、5第二章词项词典及倒排记录表习题2a.在布尔检索系统中,进行词干还原从不降低正确率。错:相当于扩充出同一个词干表示的多个词,会降低正确率。b.在布尔检索系统中,进行词干还原从不降低召回率。对。c.词干还原会增加词项词典的大小。错。d.词干还原应该在构建索引时调用,而不应在查询处理时调用。错;应同时做才能保证索引中和查询词的匹配。习题2-2请给出如卜单词的归一化形式(出一化形式也可以是词本身工a. 'Cos->cosb. Shi'ite->shiite("是隔音号)c. cont/d->contd(contd.可表示contained包括;contin
11、ued继续)d. Hawaii->hawaiie. O/Rourke->orourke习题23如下词经过Porte词干还原工具处理后会输电同样的结果,你认为哪对(几对)词不应该输出同样的结果?为什么?a. abandon/abandonmentb. absorbency/absorbentc. marketing/marketsd. university/universee. volume/volumes按Porter词干还原算法,这几组词都可以被还原为相应的词干。但是这里问的是哪些组做词干还原不合适,原因是某组的两个词虽然来源于同一个词干,但是它们的意思不同,如果做词干还原处理会
12、降低正确率。c组不做词干还原。marketing表示营销,market表示市场。d组不做词干还原。university表示大学,universe表示宇宙。习题26对于两个词组成的查询,其中一个词(项)的倒排记录表包含下面16个文档ID:4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180而另一个词(项)对应的倒排记录表仅仅包含一个文档ID:47请分别采用如卜两种策略进行倒排记录表合并并计算所需要的比较次数,同时简要地说明计算的正确性。a.使用标准的倒排记录表。比较:(4,47),(6,47),(10,47),(12,47),(14,47),(16,
13、47),(18,47),(20,47),(22,47),(32,47),(47,47)。共比较11次。b.使用倒排记录表+跳表的方式,跳表指针设在PS处(P是列表长度)。P=16。也就说第一个列表的跳表指针往后跳4个元素。卜图蓝色表示安装了跳表指针的元素,其中120跳到180上。4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180比较:(4,47),(14,47),(22,47),(120,47),(32,47),(47,47)共比较6次。习题29下面给出的是一个位置索引的一部分,格式为:词项:文档1:(位置L位置2,);文档2:(位置1,位置2,
14、);angels:2:(36,174,252,651);4:(12,22,102,432);7:(17):fools:2:(1.17.74,222);4:(8,78,108,458);7:(3,13.23,193);fear:2:(87.704,722.901);4:(13,43,113,433);7:(18,328.528);in:2:(3,37.76.444,851);4:(10.20,110,470,500);7:(5.15,25,195):rush:2:(2,66,194,321,702);4:(9,69,149,429,569);7:(4.14.404);to:2:(47,86,23
15、4,999);4:(14.24,774,944);7:(199,319,599,709);tread(57,94,333):4:(15,35.155);7:(20,320);where:2:(67,124,393.1001);4:(11,41,101,421,431);7:(16.36,736);那么哪些文档和以下的查询匹配?其中引号内的每个表达式都是一个短语查询。a. "foolsrushin”;文档2、4、7ob. “foolsrushin”ANDangelsfeartotread文档4。补充习题1k词邻近AND合并算法前提:考虑位置索引。要求查找这样的文档,它同时包含词A和词B
16、,且两词文中的距离在k个词以内。给定两个指针pl和P2,分别指向两个词A和B的两倒排列表(链表实现)的首元素:令pi->doc表示pi所指向文档对象的结构体。对于一个文档对象,该词出现的各个位置的列表为posList。用ql(q2)表示词A(词B)当前指向文档对象指向的posList指向的位置。用qi->pos表示该位置。查询结果存放在answer列表里。算法:Whilepl!=nullANDp2!=nullIfpl->docld=p2->docld/X-tW(剩余)列表的首元素进行比较Whileql!=nullANDq2!=nullIfql->pos-q2-&g
17、t;pos<=kORq2->pos-ql->pos<=kinsertfanswecpl);break;跳出这个循环,找到一个k临近即可Elselfql->pos-q2->pos>kq2不可能被匹配匕忽略它q2=q2->next;生成新的剩余列表ElseIfq2->pos-ql->pos>k/ql不可能被匹配上,忽略它q1=ql->next;生成新的剩余列表EndIfEndWhilepl=pl->next;构造新的剩余列表,迭代执行p2=p2->next;Elseifpl->docld<p2->
18、docldpl=pl->next:/pl->docld不可能有匹配:构造新的剩余列表Elsep2=p2->next:/p2->docld不可能有匹配:构造新的剩余列表End第六章文档评分、词项权重计算及向量空间模型习题62上面的例6-1中,如果gl=0.2zg2=0.31Rg3=0.49,那么对于一个文档来说所有可能的不同得分有多少?得分1:0得分2:gl=0.2得分3:g2=0.31得分4:g3=0.49得分5:gl+g2=0.51得分6:81+83=0.69得分7:g2+g3=0.8得分8:gl+g2+g3=1.0习题6-10考虑图6-9中的3篇文档Docl、Doc
19、2、Doc3中几个词项的tf情况,采用图6-8中的idf值来计算所有词项car、auto、insurance及best的tfidf值(df值的计算就假设用Docl,Doc2Doc3的这个文集)Doc1Doc2Doc3car27424auro3330insurance03329best14017图69习弦610中所使用的If勺解答:wd=max(l+logio(1+tf),0)DoclDoc2Doc3Car2.43141.60212.3802Auto1.47712.51850insurance02.51852.4624Best2.146102.2304dftidftcar30auto20.176
20、1insurance20.1761best20.1761这里N=3。tf-idftw<JidftDoclDoc2Doc3car000auto0.26010.44350insurance00.44350.4336best0.377900.3928例6-4假设文档集中的文档数目N=1000000»词表为auto,best,car,insurance),这四个词的df值分别为5000,50000,10000,1000。设某文档d的rawtf向量为1,0,1,2,对查询q=wbestcarinsurance",问该文档-查询的相似度打分score(q,d)是?解答:dftid
21、ftauto50002.3010best5000013010car100002.0000insurance10003.0000这里N=1000000o文档d的tf-idf向量:rawtfywtrd=max(l+logio(1+tf),0)tf-idft,d=Wp*idftv(d)=归一化tf-idft,dauto11.00002.30100.4646best0000car11.00002.00000.4038insurance21.30103.90310.7881查询q的tfidf向量(Wtd=l)rawtfywt/q=max(l+logio(l+tf)/0)tf-id£q=Wt,q
22、*idftv(q)=归一化tf-idfyauto0000best111.30100.3394car112.00000.5218insurance113.00000.7827score(q,d)=v(q),*v(d)=0.8275第八章信息检索的评价习题8-8考虑一个有4篇相关文档的信息需求,考察两个系统的前10个检索结果(左边的结果排名靠前),相关性判定的情况如下所示:系统1RNRNNNNNRR系统2NRNNRRRNNNa.计算两个系统的MAP值并比较大小。b.上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的MAP得分?c.计算两个系统的R-precision值,并与a中按照MAP进
23、行排序的结果进行对比。解答:a.按MAP的定义,这里m=4。在杳询结果中遇到每个相关文档对前面的所有文档计算一个Precision*MAP将这些Precision值求平均。MAP(系统1)=(1/4)*(1+2/3+3/9+4/10)=0.6MAP(系统2)=(1/4)*(1/2+2/5+3/6+4/7)=0.49系统1的MAP值大。b.相关的查询结果排名越靠前,则MAP越大。c.按R-precision的定义,假设总共有|Rel|篇相关文档,在查询结果中取前|Rel|个文档,计算其precision9R-precision(系统1)=2/4=1/2R-precision(系统1)=1/4系统
24、1的R-precision值大。与MAP给出系统打分排序的结果一致。习题8-10下表中是两个判定人员基于某个信息需求对12个文档进行相关性判定的结果(0=不相关,1=相关)。假定我们开发了一个IR系统,针对该信息需求返回了文档4,5,6,7,8。docID判断1判断21002 003 114 115 106 107 108 109 0110 0111 0112 01a.计算两个判断之间的kappa统计量:b.当两个判断均认为是相关文档时才认为该文档相关,此时计算上述系统的正确率、召回率及Fi值;c.只要有一个判断认为是相关文档则认为该文档相关,此时计算上述系统的正确率、召回率及h值。解答:a.
25、计算kappa统计量:P(A)就是实际观察到的一致意见的概率,总共12篇文档,其中2篇两人一致选Yes,2篇两人一致选N。因此,P(A)=(2+2)/12=l/3«P(E)是随机情况卜.的一致意见的概率。假设每个人对每个文档的Yes(或No)打分的概率Py(或pn)是独立同分布的(i.i.d.),则P(E)=Py*Py+Pn*Pn。其中,P)是2*12次打分中为Yes的比例,Py=12/24=l/2;p0是2*12次打分中为No的比例,pn=12/24=l/2。代入P(E),得:P(E)=(l/2)A2+(l/2)A2=l/2oKappa=(P(A)-P(E)/(l-P(E)=(l/
26、3-l/2)/(l-l/2)=-l/3<0.67,这是一个负数,说明实际的一致性结果还不如随机产生的一致性结果,因此可以判定两人给出的相关性打分不一致。b.文档集中共有12篇文档,其中2文档相关(3,4),其它10篇都不相关。查询结果为4,5,6,7,8,其中只有1篇文档相关(4)o该杳询的Precision,P=l/5;Recall,R=l/2;Fi=2P*R/(P+R)=0.28oc.文档集中共有12篇文档,其中10文档相关,其它2篇都不相关(1,2)。查询结果为4,5,6,7,8,全部都相关。该查询的Precision,P=l:Recall,R=5/12;Fi=2P*R/(P+R)
27、=0.67o注:因Kappa统计量认为两人打分不一致,所以修正方法b比较合理,而c非常不合理。第十三章文本分类与朴素贝叶斯方法习题13-3位置独立性假设的基本原则是,词项在文档的位置k上出现这个事实并没有什么有用的信息。请给出这个假设的反例。提示:可以考虑那些套用固定文档结构的文档。解答:如果一个词出现在不同域中,它的重要性不同。比如出现在标题中的词一般很重要。习题13-9基于表13-10中的数据,进行如卜计算:(i)估计多项式NB分类器的参数;(ii)将中的分类器应用到测试集:表1310用于参数估计的数掩文档ID文档中的词甩干LChina类?力练集1TaipciTaiwanyes2Macao
28、TaiwanShanghaives3JapanSapporono4SapporoOsakaTaiuanno5TaiwanTaiwanSapporoP(China)=2/4=l/2;P(非China)=2/4=l/2.词典中有7个词Japan,Macao,Osaka,Sapporo,Shanghai,Taipei,Taiwan.测试集中,China类共有5个词:非China类共有5个词。P(Taiwan|China类)=(2+1)/(5+7)=1/4(加一平滑,下同)P(Taiwan|非China类)=(1+1)/(5+7)=1/6P(Sapporo|China类)=(0+1)/(5+7)=1/12P(Sapporo|非China类)=(2+1)/(5+7)=1/4按单字词语言模型,PfChina类|d5)«PfChina类)*P(Taiwan|China类)A2*P(Sapporo|China类)=1/2*(1/4)A21/12=1/384.P(非China类|dJaP(非China类)*P(Taiwan|非China类)八2*P(Sapporo|非China)=l/2*(l/6)A2*l/4=l/288.由于P(非China类|ds)>P(China类仕),属于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高精度数字游标卡尺企业制定与实施新质生产力项目商业计划书
- 高速信号传输线缆企业制定与实施新质生产力项目商业计划书
- DB32/T 4568-2023农村物流三级网络节点建设指南
- 学校卫生健康知识培训
- 2025年零售行业员工安全教育培训计划
- 非营利组织项目评估会议流程
- 幼儿园大班班主任工作总结
- 校园食堂火爆项目策划书3
- 班主任家庭教育指导计划
- 论文题目参考
- 草籽播撒劳务合同
- GB/T 43657.1-2024工业车辆能效试验方法第1部分:总则
- 物业秩序部工作计划与整改措施
- 化粪池应急预案
- 2023年-2024年职业卫生检测考试题库及答案
- 2024年全国行业职业技能竞赛(电力交易员)备考试题库大全(浓缩800题)
- 急性ST段抬高型心肌梗死溶栓治疗的合理用药指南
- 《新闻学概论》试题及参考答案
- 个体诊所药房管理制度制度
- 国开2023秋《电子商务概论》实践任务B2B电子商务网站调研报告参考答案
- 无障碍改造设备投标方案(技术标)
评论
0/150
提交评论