向量空间模型的信息检索技术_第1页
向量空间模型的信息检索技术_第2页
向量空间模型的信息检索技术_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、向量空间模型的信息检索技术    摘要: 向量空间模型是一种以查询Q和文档集合D1,D2,Dn为处理对象的算法,通过这种算法计算出这个查询的相似度SC(Q,Di)以及每篇文档Di(1in)。为了能够实现对信息检索中的文本分类策略,采用了空间模型算法,做了实验文档测试,获得了各自的权重文档搜索结果,得到在检索过程中,向量空间模型根据文档之间的相似度,计算哪个文档最符合用户输入的关键字的结论,具有信息检索中文本相似度根据权值大小分类显示的特点。 Abstract: Vector space model is a Q query and document co

2、llection of D1,D2,Dn., as the processing object algorithm, this algorithm to calculate the similarity of the query SC(Q,Di) and each document D(1in).In order to realize the text classification in information retrieval,the space model algorithm is adopted in this paper. The weight document search res

3、ults were obtained by means of the documentation testing in the lab,In a retrieval process,the vector space model is used according to the similarity between documents to calculate which one conforms to user S input key words.It has the characteristics of text similarity display according to the wei

4、ght classification in the information retrieva1. 关键词: 空间向量模型;查询;信息检索;文档相关性 Key words: space vector model;query;information retrieval;document dependence 中图分类号:TP3 文献标识码:A 文章编号:1006-4311(2013)13-0208-02 0 引言 向量空间模型是一种以查询Q和文档集合D,D,D为处理对象的算法,通过这种算法计算出这个查询的相似度SC(Q,D)以及每篇文档D(1in)。在文档和查询拥有的共同的此项更多的时候,那么文档

5、和查询就更加相关。但是,通常一个概念是能够用很多不同的词项来表达的,这是因为语言文字具有着自身的不确定性。另外,语言的环境对term也有着比较大的影响,语言环境不同,尽管是相同的term也可能造成表达含义的不同,有的时候词性不同,那么它表达的含义也就不一样。而检索算法就能够通过一些措施来解决语言表达中不确定性的问题。 下面介绍几种常用的检索模型: 向量空间模型:向量空间模型是能够计算两个向量之间的相似度的,那么如果将查询和文档都用词项空间中的向量来表示的话,那么就可以通过这种方法计算出二者的相似度。 概率模型:每个词项在文档中出现的概率,需要基于文档集中的前提下,通过词项在相关文档中出现的可能

6、性来计算的。要推断文档或者查询问的相关性,需要通过贝叶斯网络。而在文档中能够做出文档相关性推断的那些依据正是基于文档的证据。文档查询的相似度也就成为了推理的可信度。 1 空间模型的理论概念 最为接近查询的内容的文档就是相关的文档,在这个过程中,需要运用文档内的词项来衡量。向量空间模型的基本理念如图1。 这个模型的主要工作有两个方面:一方面是通过向量的构建,来表示词项,这里的词项来自于文档;另一方面是通过向量的构建,来表示查询的词项。任意文档向量和查询向量要是相似的话,那么就只有一种的可能,就是文档向量和查询向量的指向在大体上是一样的。 2 向量空间模型的算法 2.1 计算权重 在一篇文档中,影

7、响词语的重要性的因素有两个。 一个是term frequency(tf):也就是说term在这个文档中出现的次数,这个数值越高说明这个词在整个文档中越重要。 另外一个是document frequency(df):就是指的包含term的文档的总数,这个数值越大就说明这个词语越不 重要。 对于每一篇文档向量,都有n个分量,并且对于整个文档集中每个不同的词项,都包含一个词条。向量中的每个分量为整个文档集中计算出来的每个词项的权重。在每篇文档中,词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率自动赋值。词项在一篇文档中出现的频率越高,则权重越大;相反,如果词项在所有文

8、档中出现的频率越高,则权重越小。 仅当词项在文档中出现时,文档向量中词项的权重才为非零值。对于一个包含许多小文档的大文档集,文档向量可能会包含大量的零元素。 2.2 判断term之间的关系从而得到文档相关性 可以把文档看成一系列词,每个词都有一个权重,不同的词根据实际文档中的权重来影响文档相关性的打分计算。所有文档中总的词的权重看做一个向量。 所有搜索出的文档向量及查询向量放到一个N维空间中,每个词是一维。两个向量之间的夹角越小,相关性越大。所以计算夹角的余弦值作为相关性的打分,夹角越小,余弦值越大,打分越高,相关性越大,如图2所示。 相关性评价公式如下: score(q,d)= 3 引入实例

9、测试 可以简单测试如下,查询语句有11个Term,有4篇文档搜索出来,其中各自的权重(Term Weight)见表1。 SC(Q,D2)=(0.954×0.477)+(0.176)2/ ·0.825 由表1可得出结果,D2文档的相关性最高,最先返回,其次是文档D1,D3,最后D4。 4 结论 这篇论文对向量空间模型算法进行了介绍。文章的语义是使用各种词语来表达的,词语是具有不确定性的,这是这个模型所依据的一个思想。主要把任意一个文档中的词语当做一个向量的话,通过文档与查询之间的比较,就有可能会得出他们的相似度。目前这个模型主要应用在信息检索的域。 参考文献: 1何飞.基于向量空间模型的文档聚类算法研究J.湖南城市学院学报,2011(5):114-116. 2唐菁.Web文本挖掘系统及聚类算法的研究J.电信建设,2004(2):24-28. 3邱宇红.向量空间模型在医学文献相关性研究中的应用 D.沈阳:中国医科大学,2006. 4张元馨,赵仲孟,沈钧毅.一种基于向量空间模型的个性化搜索引擎研究J.微电子学与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论