从算法角度去了解关键词与文章的相关性.pptx_第1页
从算法角度去了解关键词与文章的相关性.pptx_第2页
从算法角度去了解关键词与文章的相关性.pptx_第3页
从算法角度去了解关键词与文章的相关性.pptx_第4页
从算法角度去了解关键词与文章的相关性.pptx_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从算法角度去了解关键词 与文章的相关性 一般来说,一个词语 或短语能否成为文章的关键词 ,主要 取决于这个词语 或短语反应文章中心思想能力的大小。关键词 与文章之间的相关性,也主要是为了说明任选的一个词语 和短 语,对于指定的文章,它反应这 篇文章的中心思想或主题意思 的能力有多少。关键词 的抽取受到词语 在文章中出现的位置, 出现的频率以及词语 的语义 特征的影响。那么,搜索引擎到底 是如何判断关键词 和文章之间的相关性呢?在这里,笔者从自 己的一些观点出发,产生了一些想法,应该 抛砖引玉,得到大 家的指点。个人认为 ,搜索引擎应该 是从以下几步来如何分析 关键词 和文章性的: 第一:搜索引擎首先对要要分析的网页进 行净化处理 网页净 化主要是去掉网页中大量无用的广告、导航栏等网 页模板噪声以及无意义的内容,如 Javascript 脚本,CSS 标记 等内容。至于搜索引擎采用的是何种算法,则不为我们所知, 但是个人估计应该 是对网页进 行划分为不同的快,通过衡量网 页块 的重要程度来判断出包含主题内容的块,然后提取出该块 的内容,至于搜索引擎如何判别网页快的重要程度,那是另外 一个课题 。 第二:针对 提取出的内容进行分词处 理 个人认为 ,搜索引擎可能采用了某种算法,对内容先进行 了词语 粗分阶段,先得出 N 个概率最大的切分结果;然后,利 用角色标注方法识别 未登录词 ,并计算其概率,将未登录词 加 入到切分词图 中,之后视其为普通词处 理,最终进 行动态规 划 优选 出 N 个最大概率切分标注结果。并进行记录 。 第三:对初步分词的结果进行去除无意义的词语 搜索引擎通过对 第二步的分词结 果进行分析,去除一些语 气词和形容词等非实意词和一些单词 ,同时还 考虑到单字词所 表达的信息不够完整也应当滤除。去除停用词通过建立一个停 用词列表来实现 。这样 ,通过去除这些无意义的词之后,剩下 的就是有意义的,值得分析的词汇 了。 第四:对关键词 的权重进行确定分析 在完成对文章分词切分和净化工作之后,就要将文章所有 关键词进 行分析了,笔者的想法是搜索引擎将文本表示成维 特征向量,每一维分量由关键词 及其权重组成。一般认为 ,关 键词 在文中的权重的确定,主要由三部分组成,词频 ,位置和 词义 共同影响决定。而词频 和位置对词语 或短语的影响可以通 过确定的算法加以确定,词义权 重也有固定的算法进行分析计 算。搜索引擎利用设定好的算法对上述关键词进 行了计算和分 析。从而得到最后的结果。 笔者认为 ,搜索引擎通过上面的步骤进 行分析后,得到最 后的结果,而笔者在这里谈谈 自己对搜索引擎具体的分析方式, 只是个人见解: 第一:搜索引擎基于关键词 位置的权重 在文档中,关键字所在的位置对于搜索引擎判断某个关键 字在页面的权重起到很重要的作用。比如说域名被搜索引擎认 为是网站最固定的因素,例如:域名里面含有 DVD 关键字的域 名,在用户检 索关键字 DVD 的时候具有先天的优势 。标题 是网 站的最宝贵的资源,搜索引擎认为标题 是在浏览 器标题栏 里而 显示,因为要显示给用户,所以它是文件最重要和最简洁 的摘 要。适当突出关键字在标题 的比重非常有利于排名的提高。 第二:搜索引擎基于关键词 出现的频率 网页中不同关键词 的总数,这是一个很重要的方面。个人 认为虽 然关键词 出现的位置和词频 大小对关键词权 重影响很 大,但是词频 大并不能决定该词语 适合作为关键词 。举个简单 的例子,我们在一篇文章中对“美国进行优化,出现的词频 很大,出现的位置也很重要,但是这个词还 是不能赋予较高的 权重,因为“美国也广泛的出现在其他的文献中,在这些文 献中,“美国“也存在频率大和所在位置也比较重要。因此,对 那些词频较 高但又不适合作为关键词 的词语赋 予的权重应该 较低。 第三:文档中重要关键词 之间的距离 个人分析,文档中重要关键词 之间的距离应该 也是衡量关 键词 与文章的相关性的一个重要方面。 笔者认为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论