版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息检索的模型方法信息检索的模型方法12 一篇文档document 简称 d 包含好词term 简称 t文档d与词汇t3文档和词汇的对应关系 一篇文档d包含多个词汇t 一个词汇t出现在多个文档d里。4567 四个文档向量Vector:向量。 D12,2,0,3,0,0,0) D20,4,6,8,0,0,0) D30,0,0,1,2,3,0) D40,0,0,0,0,0,2)8在文档d中,词汇t的分量 D12,2,0,3,0,0,0) ?一个词对一篇文档来说,它的重要程度如何评判?9词t在文档d的重要性 类比: 一篮子水果。 词t:水果 文档d:篮子 词对文档的重要性 某类水果对篮子的 重要性1
2、0 5个草莓 1个草莓单价:1元 草莓 对 这个篮子 的重要性为: 5x1=5 只考虑个数合适吗?草莓的价值怎么评判?11 词t在d中出现的次数:水果的个数 词的单价:水果的单价 词频:term frequency tf 词的单价怎么计算? 物以稀为贵 词越稀有,词价格越高。 词蕴含的信息量越大。词t对文档d的重要性?12 给定信息x,如果它能命中1/2的文档 就说X 的信息量为 1信息量13词的单价如何计算?14 W=词频x词的单价 =词频x词的信息量 =词频x词的权重就可以计算了15原始最终16 Q:(1,2,0) D1 (1,1,0) D2 (3,1,0) D3 (0,3,1) 举例-如何计算:Q和D的相似度sim()17Sim(D,Q)=cos=1.权重W=18 2. 计算Q与各个D的夹角的余弦值。 3.按余弦值由大到小排序。这个模型叫:VSM 向量空间模型 salton发明的 Vector Space Model Lucene 一个实现了VSM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 圆锥曲线中的面积问题+课件-2026届高三数学二轮复习
- 工程招标考试试题及答案
- 2026三年级数学上册 图形的能力测试
- 2026六年级数学下册 圆柱圆锥组合体
- 口腔正畸拍照试题及答案
- 政治学原理试题库及答案
- 企业工程档案制度
- 2025 高中信息技术数据与计算在项目式学习课件
- 企业安全培训奖惩制度
- 亚马逊运营部奖惩制度
- 2026年常州工业职业技术学院单招职业适应性测试题库及答案详解(历年真题)
- 2026四川成都市金牛国投人力资源服务有限公司招聘金牛区街区规划师8人考试参考试题及答案解析
- 2026年国企供排水试题及答案
- 2026年南京旅游职业学院单招职业技能测试题库及答案详解(考点梳理)
- CMA质量手册(2025版)-符合27025、评审准则
- Peppa-Pig第1-38集英文字幕整理
- 统计用产品分类目录
- 雅培Perclose血管缝合器使用过程中常见问题及解决方法
- 中小学生课外读物负面清单自查表
- YS/T 73-2011副产品氧化锌
- WS 319-2010冠状动脉粥样硬化性心脏病诊断标准
评论
0/150
提交评论