全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国科大2013年秋季现代信息检索第一次作业(第一章到第五章)以下每题10分,共计100分。1、 习题1-4 a. 时间复杂度O(x+y)。因为倒排记录表记录的文档号是按照从小到大排列的,在扫描Brutus对应的倒排表的时指针指向文档号为x,扫描Caesar对应的倒排记录表的指针对应的文档号为y,如果xy,caesar指针后移。b. 时间复杂度是O(N),N是全部的文档数。因为结果集的大小取决于文档数N,而不是倒排记录表的长度。2、 习题1-7对于原始的查询,按照倒排记录表的长度从小到大查询会节省查询复杂度(tangerine OR trees) = O(46653+316812)=O(363465)(marmalade OR skies) = O(107913+271658) = O(379571)(kaleidoscope OR eyes) = O(46653+87009) = O(300321)即顺序为:(kaleidoscope OR eyes) AND (tangerine OR trees)AND(marmalade OR skies)3、 习题1-10 UNION(p1,p2)answer while p1!=NIL and p2!=NILdo if docID(p1)=docID(p2)then ADD(answer,docID(p1)p1- next(p1)p2-next(p2)else if docID(p1)docID(p2)then ADD(answer,docID(p1)p1- next(p1)else ADD(answer,docID(p2)p2-next(p2)while p1!=NIL do ADD(answer,docID(p1)p1- next(p1)while p2!=NIL do ADD(answer,docID(p2)p2- next(p2)return(answer)4、 习题2-7 a. 由24跳到75这一次跳转b. 比较为(3,3) (5,5) (9,89) (15,89) (24,89) (75,89) (75,89) (92,89) (75,89)(92,89) (81,89) (84,89) (89,89) (92,95) (115,95) (96,95) (96,97) (97,97) (100,99) (100,100) (115,101)总共21次比较c. 比较为(3,3) (5,5) (9,89) (15,89) (24,89) (39,89) (60,89) (68,89) (75,89) (81,89) (84,89) (89,89) (92,95) (96,95) (96,97) (97,97) (100,99) (100,101) (115,101) 总共19次比较5、 习题3-8 alice012345P112345A212345R322345I433234S544334paris与alice之间的编辑距离为46、 习题3-11 6*6*6*6=12967、 习题4-1 倒排索引的构建需要两步:1.扫描文档,建立词项文档对。 2.对词项文档对进行排序。第一步时间复杂度为O(T),文档大小为800000*200*6=9.6*108B,所需时间为:读入时间+建立词项-文档对的时间为9.6*108(2*10-8)=19.2s第二步时间复杂度为O(T log2T),所有倒排记录数为108。花费的时间为2*( T log2T)*(磁盘寻道时间+一个词项文档对的传输时间+比较时间)=2*(108*log2(108)*(5*10-3+2*10-8*8+10-8)=26575424.76s307.59天308天总时间为308天8、 习题 4-3对于n = 15个数据片,r = 10个分区文件,j = 3个词项分区,假定使用的集群的机器的参数如表4-1所示,那么在MapReduce构架下对Reuters-RCV1语料进行分布式索引需要多长时间?解答【整个计算过程是近似的,数字不一定对,但是要了解过程】:(一)、MAP阶段【读入语料(已经不带XML标记信息了,参考表5-6),词条化,写入分区文件】: (1) 读入语料:基于表4-2,Reuters RCV1共有8*105篇文档,每篇文档有200词条,每个词条(考虑标点和空格)占6B,因此整个语料库的大小为 8*105*200*6=9.6*108B (近似1GB,注表4-2对应于表5-1第3行的数据,而那里的数据已经经过 去数字 处理,因此实际的原始文档集大小应该略高于0.96G,这里近似计算,但是不要认为没有处理就得到表5-1第3行的结果)将整个语料库分成15份,则每份大小为9.6*108/15 B每一份读入机器的时间为:9.6*108/15*2*10-8=1.28s(2) 词条化:每一份语料在机器上进行词条化处理,得到8*105*200=1.6*108个词项ID-文档ID对(参考表4-2和图4-6,注意此时重复的 词项ID-文档ID对 还没有处理),共占1.6*108*8=1.28*109个字节,词条化的时间暂时忽略不计【从题目无法得到词条化这一部分时间,从表5-1看词条化主要是做了去数字和大小写转换,当然也感觉这一部分的处理比较简单,可以忽略】。(3) 写入分区文件:每一份语料得到的词项ID-文档ID (Key-Value)存储到分区所花的时间为: (1.28*109/15)*2*10-8=1.71s(4) MAP阶段时间:由于分成15份,但只有10台机器进行MAP操作,所以上述MAP操作需要两步,因此,整个MAP过程所需时间为 (1.28+1.71)*2=6.0s(二)、REDUCE阶段【读入分区文件,排序,写入倒排索引】: (1) 读入分区文件【读入过程中已经实现所有Key-Value对中的Value按Key聚合,即变成Key, list(V1,V2.)。聚合过程在内存中实现,速度很快,该时间不计。另外,网络传输时间这里也不计算】:根据表4-2,所有倒排记录的数目为1.6*108,因此3台索引器上每台所分配的倒排记录数目为 1.6*108/3,而每条记录由4字节词项ID和4字节文档ID组成,因此每台索引器上需要读入的倒排记录表数据为 1.28*109/3字节。于是,每台索引器读数据的时间为 1.28*109/3*2*10-8=8.5s(2) 排序:每台索引器排序所花的时间为 1.6*108/3*log2(1.6*108/3)*10-8=13.7s(3) 写入倒排索引文件【此时倒排文件已经实现文档ID的去重,假定只存储词项ID和文档ID列表,并不存储其他信息(如词项的DF及在每篇文档中的TF还有指针等等)】:需要写入磁盘的索引大小为(据表4-2,词项总数为4*105个) 4*105/3*4+108/3*4=4/3*108字节索引写入磁盘的时间为:4/3*108*2*10-8=2.7s(4) REDUCE阶段时间为: 8.5+13.7+2.7=24.9(三) 因此,整个分布式索引的时间约为6.0+8.5+13.7+2.7=30.9s9、 习题5-2 k=8:每8个词项节省的空间3*8-(3+8)=13,节省空间(400000/8)*13=0.65MB,空间使用7.6-0.65=6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年盐城辅警协警招聘考试备考题库及答案详解(夺冠系列)
- 2025年黔东南苗族侗族自治州辅警招聘考试题库及完整答案详解
- 2025年韶关辅警招聘考试真题及答案详解(有一套)
- 2025年贺州辅警协警招聘考试备考题库及1套参考答案详解
- 2025年淮南辅警招聘考试题库及答案详解1套
- 2025年连江县辅警协警招聘考试备考题库及答案详解(有一套)
- 2025年西双版纳州辅警招聘考试题库有答案详解
- 2025年西安辅警招聘考试真题及一套参考答案详解
- 2025年肇庆辅警招聘考试题库附答案详解(完整版)
- 2025年辽阳辅警协警招聘考试真题及一套答案详解
- 内科科室发展规划
- 储备林项目建设管理方案
- 小规模和一般纳税人培训
- 水带抛接培训
- 养殖场公司实验室管理制度
- 2025国开电大《中国书法史》形考任务12345答案
- 数据中心运维服务投标方案
- DBJ04-T306-2025 建筑基坑工程技术标准
- 2025年俄语等级考试试卷及答案
- 货运代理安全管理制度
- 2025年外贸业务员考试卷及答案
评论
0/150
提交评论