《信息检索导论》课后习题答案

上传人：1*** IP属地：广东上传时间：2026-06-22 格式：DOCX 页数：38 大小：116.70KB 积分：9.48 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

《信息组织与检索》作业答案1第一章布尔检索I习题1-2考虑如下几篇文档：文档1breakthroughdrugforschizophrenia文档3newapproachfortreatmentofschizophrenia文档4newhopesforschizophreniapatientsa.画出文档集对应的词项一文档矩阵；b.画出该文档集的倒排索引(参考图1-3中的例子)。20110000013001101101410011100100111补充习题1Ifp1->docld==p2->doWhilelist1.currentItem()!=nullANDlist2.currentItem()!=nullIflist1.currentItem().getDocld()==list2.currentItem(.getDocld()answer.insert(list1.cuElseiflist1.currentItem(.getDocld()<list2.currentItem(.ge习题1-10Ifp1->docld==p2->docldWhilelist1.currentItem(!=nullANDlist2.currentItem()!=nIflist1.currentItem().getDocld()==list2.curanswer.insert(list1.cuElseiflist1.currentItem().getDocanswer.insert(list1.cuanswer.insert(list2.cuWhilelist1.currentanswer.insert(list1.cuWhilelist2.currentanswer.insert(list2.cu补充习题2正确率=20/100=0.2召回率=20/40=0.5第二章词项词典及倒排记录表习题2-1习题2-2b.Shi'ite->shiite('是隔音号)c.cont’d->contd(contd.可表示contained包括；continued继续)习题2-3该输出同样的结果?为什么?习题2-6对于两个词组成的查询，其中一个词(项)的倒排记录表包含下面16个文档ID:[4,6,10,12,14,16,18,20,22,32,4而另一个词(项)对应的倒排记录表仅仅包含一个文档ID:比较11次。下图蓝色表示安装了跳表指针的元素，其中120跳到180上。[4,6,10,12,14,16,18,20,22,32,4习题2-9词项：文档1:(位置1,位置2,…);文档2:(位置1,位置2,…);in:2:(3,37,76,444,851);4:(10,20,110,470,500);7:(5,1rush:2:(2,66,194,32to:2:(47,86,234,999);4:(14,24,774,944);7:(199,319,599,where:2:(67,124,393,1001);4:(11,41,101,421,431);文档2、4、7.文档4。补充习题1k词邻近AND合并算法前提：给定两个指针p1和p2,分别指向两个词A和B的两倒排列表(链表实现)的首元素；令pi->doc表算法：Ifp1->docld==p2->docld//对两(剩余)列表的首元素进行比较Whileq1!=nullANDq2!=nullIfq1->pos-q2->pos<=kORq2->pos-q1->pEndIf第六章文档评分、词项权重计算及向量空间模型习题6-2不同得分有多少?习题6-10考虑图6-9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf情况，采用图6-8中的idf43000图6-9习题6-10中所使用的tf值解答：00030222这里N=3.000000假设文档集中的文档数目N=1000000,词表为{auto,best,car,insurance}这四个词解答：这里N=1000000。化tf-idf1000012v(q)=归一0000111111第八章信息检索的评价习题8-8考虑一个有4篇相关文档的信息需求，考察两个系统的前10个检索结果(左边的结解答：a.按MAP的定义，这里|Q|=1,m=4。在查询结果中遇到每个相关文档对前面的所有文档计算一个MAP(系统1)=(1/4)*(1+2/3+3/9+4/10)=0.6MAP(系统2)=(1/4)*(1/2+2/5+3/6+4/7)=0.49R-precision(系统1)=2/4=1/2R-precision(系统1)=1/4系统1的R-precision值大。与MAP给出系统打分排序的结果一致。习题8-10下表中是两个判定人员基于某个信息需求对12个(完整word版)《信息检索导论》课后习题答案相关，1=相关)。假定我们开发了一个IR系统，针对该信息需求返回了文档{4,5,6,7,8}。docID判断1判断20b.当两个判断均认为是相关文档时才认为该文档相关，此时计算上述系统的正确率、召回率及F₁值；c.只要有一个判断认为是相关文档则认为该文档相关，此时计算上述系统的正确率、召回率及F₁值。P(A)就是实际观察到的一致意见的概率，总No。因此，P(A)=(2+2)/12=1p是2*12次打分中为No的比例，pₙ=12/24=1/2。代入P(E),得：P(E)=(1/2)^2+(1/2)^2=1/2.Kappa=(P(A)-P(E))/(1-P(E))=(1/3-1/2)/(1-1/2)=-1/3<0.67,这是一个负数，说明实际的一致性结果b.文档集中共有12篇文档，其中2文档相关({3,4}),其它10篇都不相关。查询结果为{4,5,6,7,8},其中只有1篇文档相关({4})。该查询的c.文档集中共有12篇文档，其中10文档相关，其它2篇都不相关({1,2})。查询结果为{4,5,6,7,8},全该查询的注：因Kappa统计量认为两人打分不一致，所以修正方法b比较合理，而c非常不合理。第十三章文本分类与朴素贝叶斯方法习题13-3位置独立性假设的基本原则是，词项在文档的位置k上出现习题13-9基于表13-10中的数据，进行如下计算：(i)估计多项式NB分类器的参数；文档中的词属于c=Chin类?12345?词典中有7个词Japan,Macao,Osaka,Sapporo,Shanghai,Taipei,Taiwan.测试集中，China类共有5个词；非China类共有5个词。P(Taiwan|China类)=(2+1)/(5+7)=1/4(加一平滑，下同)P(Taiwan非China类)=(1+1)/(5+7)=1/6P(Sapporo|China类)=(0+1)/(5+7)=1/12P(Sapporo|非China类)=(2+1)/(5+7)=1/4P(China类|d.)αP(China类)*P(Taiwan|China类)^2*P(Sapporo|China类)=1/2*(1/4)^2*1/12=1/384.类)=1/2*(1/6)^2*1/4=1/288.第十六章扁平聚类习题16-3对于图16-4,同一类中的每个点d都用两个同样的d的副本来替换。(1)那么,对于新的包含类的纯度、RI。在点数增加一倍之后，哪些指标增大?哪些指标保持不变?(iii)在得到(1)中的判断和(ii)中的指标之后，哪些指标更适合于上述两种聚类结果的质量比较?解答：我认为更难，因为34个点比17点的计算量增大了。节点复制为原先的一倍后，簇1:10个x类文档，2个o类文档；簇3:4个x类文档，6个类文档。计算纯度=(1/34)*(10+8+6)≈0.71;,将一对同类的文档分到相同聚类中的对数。(完整word版)《信息检索导论》课后习题答案TN=10*8+10*2+2*2+2*2+10*6+2*4+2*6+2*6+8*4+8*6+2*4=288,的文档分到不同聚类中的对数。对比N=17时，纯度为0.71,RI为0.68。我们得出节点复制为原先的一倍后，指标几乎不变。习题16-4在K-均值算法中，为什么对同一概念car使用不同词项来表示的文档最后可能会被归入同一簇考虑两篇文档，一篇含有car和其它词，一篇含有automobile和其它词。虽然第2篇文档不

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《信息检索导论》课后习题答案

文档简介

温馨提示

最新文档

评论