已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
WebWeb信息处理习题解答信息处理习题解答 Chp 3 Text ProcessingChp 3 Text Processing 假设词典中包括词 的确 王公 实在 在 理 公子 以及所有单字集合 请分别给出 句子 王公子说的确实在理 的FMM和 BMM分词结果 FMM 从左至右尽可能查找最长的词 直到当前字 符与已经处理的字符串不构成词 输出已经 识别的词 并从识别出来的词后面接着查找 王公 子 说 的确 实在 理 BMM 从右至左尽可能查找最长的词 王 公子 说 的确 实 在理 Diagram 2 Diagram 2 Chp 4 Indexing Chp 4 Indexing 考虑下面的文档 Doc 1Doc 1new home sales top forecasts Doc 2Doc 2home sales rise in july Doc 3Doc 3increase in home sales in july Doc 4Doc 4july new home sales rise 1 画出该文档集对应的term document关联矩阵 假定每个单词都作为一个索引词项 2 画出该文档集对应的倒排索引 假定每个单词 都作为一个索引词项 要求每个词项包含 document frenquency以及term frenquency 关联矩阵 关联矩阵的每一列都是0 1向量 每个 0 1都对应一个词项 Chp 4 Indexing Chp 4 Indexing doc1doc2doc3doc4 new1001 home1111 sales1111 top1000 forecast1000 rise0001 in0110 July0111 increase0010 Chp 4 Indexing Chp 4 Indexing 倒排索引 new21 freq 1 4 freq 1 home41 freq 1 2 freq 1 3 freq 1 4 freq 1 sales41 freq 1 2 freq 1 3 freq 1 4 freq 1 top11 freq 1 forecast11 freq 1 rise22 freq 1 4 freq 1 in22 freq 1 3 freq 2 July32 freq 1 3 freq 1 4 freq 1 increase13 freq 1 Chp 5 QueriesChp 5 Queries 假定初始查询Q为 extremly cheap DVDs cheap CDs 文档d1包含词项 cheap CDs cheap software cheap DVDs 文档d2包含 cheap thrills DVDs 用户标记d1为相关文档 d2为不相关文档 假定我们 直接使用词项频率作为文档向量中词项的权重 并采 用Rocchio 1971算法进行相关性反馈 其中 1 0 75 0 25 请给出修改后的查询向量 Rocchio 1971算法 Chp 5 QueriesChp 5 Queries Term freq Original query vector Positive feedback vector of d1 Negative feedback vector of d2 Query vector Original query vector 0 75 Positive feedback vector 0 25 Negative feedback vector 若出现负的权重一律设为0 wordwordextremelyextremelycheapcheapDVDSDVDSCDSCDSsoftwaresoftwarethrillsthrills freq121100 Chp 5 QueriesChp 5 Queries 在实际的Web搜索引擎中我们很少使用相关性反馈 技术 试分析一下其中的原因 给出至少3个原因 Explicit Feedback 相关反馈开销很大 相关反馈生成的新查询往往很长 长查询的处理开销很大 用户不愿意提供显式的相关反馈 有时很难理解 为什么会返回 应用相关反馈之后 某 篇特定文档 Implicit Feedback 对行为分析有较高要求 准确度不一定能保证 某些情况下需要增加额外设备 Pseudo Feedback 没有通过用户判断 所以准确率难以保证 不是所有的查询都会提高效果 Chp 6 RankingChp 6 Ranking 假定已知文档d1和d2和查询q的词项以及词频如下 d1 d2 q 请给出文档d1 d2以及查询q的基于tf idf权值的向 量表示 然后分别计算q和d1 d2的余弦相似度 并 说明q和哪个文档更相关 Chp 6 RankingChp 6 Ranking 2010世博会中国举 行 20051970日本 1 log 11 lg311000 log lg20lg20lg2lg2lg2 weightlg20lg20000 d1 Chp 6 RankingChp 6 Ranking 同理 d22010世博会中国举 行 20051970日本 weight0000lg2lg2lg2 q2010世博会中国举 行 20051970日本 weightlg2000000 Sim q d1 0 707 Sim q d2 0 故q与d1更相关 Chp 7 EvaluationChp 7 Evaluation 假设现在有2个检索系统S1和S2 它们在文档集上分 别执行查询Q1和Q2 均返回了5个结果 如下表所 示 设Q1的相关文档为 d3 d6 d7 d8 Q2的相 关文档为 d1 d4 d11 分别计算S1和S2对于查询Q1和Q2的正确率P 召回 率R F值 P 4和平均正确率AP 并计算S1和S2在 所有查询上的MAP值 准略率与召回率 S1 Q1 P 2 5 RN d5 d10 d11 R 2 4 NR d6 d7 Q2 P 2 5 RN d2 d7 d13 R 2 3 NR d4 F Q1 0 444 F Q2 0 5 同理 S2 Q1 P 3 5 R 3 4 F 0 667 Q2 P 3 5 R 1 F 0 75 Chp 7 EvaluationChp 7 Evaluation Chp 7 EvaluationChp 7 Evaluation P N 在第N个位置上的正确率 S1 P 4 Q1 2 4 P 4 Q2 2 4 S2 P 4 Q1 2 4 P 4 Q2 3 4 平均正确率AP 这里使用简化的AP 若使用未插值的AP 则只需改变分母 S1 Q1 返回相关文档d3 d8 AP P 1 P 3 2 5 6 Q2 返回相关文档d1 d11 AP P 1 P 4 2 3 4 同理 S2 AP Q1 13 15 AP Q2 29 36 MAP 对所有查询的AP求算术平均反映在全部查询上的 检索效果 S1 MAP AP Q1 AP Q2 2 19 24 S2 MAP AP Q1 AP Q2 2 301 360 EX1 PB09000705 PB10000810 PB10011040 PB10203019 PB10203244 PL10215003 EX2 PB09000705 PB10000810 PB10011029 PB10011071 PB10011074 PB10011077 PB10011083 PB10203019 PB10203244 PB10207006 PL10215002 PL10215003 EX3 PB09000705PB10000325 PB10000810 PB10009030PB10009064 PB10203244 PB10207006 PB10210182 PB11210105 PL10215001 PL10215002 PL10215003 EX4 PB09000705 PB09210299 PB10000325 PB10000810 PB10009030 PB10009064 PB10011013 PB10011029 PB10203019PB10203244 PB10207006 PB10210106 PL10215001 PL10215002 PL10215003 EX5 PB09000705 PB09210299 PB10000325 PB10000810 PB10009030 PB10009064 PB10011013 PB10011035 PB10203019 PB10203244 PB10207006 PB10207025 PB10210106 PL10215001 PL10215002 PL10215003 EX6 PB09000705 PB09210299 PB10000325 PB10000810 PB10009064 PB10011050 PB10011077 PB
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年西峡县教师招聘笔试参考试题及答案解析
- 2025年上海安全员C3考前冲刺备考速记速练500题-含答案
- 怎样介绍搏击
- 2025年常山县教师招聘参考题库及答案解析
- 2025年虚拟校园系统运营合同
- 2025年西安市临潼区中小学教师招聘笔试参考试题及答案解析
- 温州乐成寄宿中学2025-2026学年数学高一上期末学业质量监测模拟试题含解析
- 2025年中职教师资格证考试(科目一:综合素质)核心考点集训卷(附答案详解)
- 2025年虚拟社交平台版权授权合同协议
- 2025年新津县中小学教师招聘笔试参考题库及答案解析
- 可燃有毒气体报警器培训试题(有答案)
- 2026年东营科技职业学院单招综合素质考试题库及答案1套
- 广东5年(2021-2025)高考生物真题分类汇编:专题04 遗传的基本规律(原卷版)
- 2025年部编新版道德与法治二年级上册期末复习计划
- 2025-2030律师事务所行业战略联盟与协同发展研究报告
- 《回弹法检测混凝土抗压强度技术规程》
- 抖音公会运营知识培训课件
- GB/T 20831-2025电工钢带(片)绝缘涂层热耐久性测试方法
- 第23课《范进中举》课件++2025-2026学年统编版语文九年级上册
- 2025年高级经济师《人力资源》考试真题及答案
- 摄影运镜技术
评论
0/150
提交评论