[计算机]搜索结果聚类论文:基于Ontology的Web文本聚类研究.doc_第1页
[计算机]搜索结果聚类论文:基于Ontology的Web文本聚类研究.doc_第2页
[计算机]搜索结果聚类论文:基于Ontology的Web文本聚类研究.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索结果聚类论文:基于Ontology的Web文本聚类研究【中文摘要】随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网,2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在。因此对文本信息的挖掘是从互联网上获取知识的重要途径。聚类技术在信息检索领域有着广泛的应用,有很多非常成熟的算法在各个方面承担着重要角色。传统的搜索引擎以列表的形式返回搜索结果,对于一个模糊的、语义不明确的、或者属于多个主题的查询词,不同语义、不同主题的搜索内容可能分散在长长的列表中,用户不得不花费大量的精力和时间从中查找符合自己查询意图的目标结果。这种情况下,一方面降低了搜索结果的质量,另一方面也使用户的满意度大打折扣。研究人员为解决此类问题提供了许多方法,其中对搜索引擎返回结果进行聚类成为解决这一问题的有效途径,并在实践中被不断的完善。Vivisimo ,Infonetware RealTerm Search都是非常成功的商业聚类搜索引擎。搜索结果聚类系统的输入通常是由传统搜索引擎响应用户查询所返回的一个搜索结果集,其中每一个搜索结果由题目、文本摘要和原始页面链接组成。输出是对结果集进行聚类后得到的一组.【英文摘要】In the first annual ORG forum, Beckstrom pointed that 25% of the world uses the internet by computer today(1), a conservative estimate of 1.75 billion. According state council information office minister Chen Wangs speech: On Chinas Internet development and management, the number of Web pages in china has reached 33.6 billion by 2010 and 87.8% is in text form on the Internet(2). Obviously, internets infiltrates peoples learning, work and play well every aspect of life with unimaginable speed. So te.【关键词】搜索结果聚类 后缀树 关联度计算 本体 聚簇标签【英文关键词】search results clustering suffix tree association calculation ontology cluster labels【目录】基于Ontology的Web文本聚类研究摘要4-6Abstract6-71 绪论10-161.1 课题研究的背景和意义10-111.2 国内外研究现状11-141.3 本文的主要研究内容14-162 Web 文本聚类的背景知识16-222.1 文本聚类16-192.1.1 文本聚类的过程16-172.1.2 文本聚类算法的分类17-192.2 搜索结果聚类19-202.3 搜索结果聚类引擎的结构20-222.3.1 搜索结果获得模块212.3.2 搜索结果预处理模块212.3.3 搜索结果聚类模块212.3.4 搜索结果可视化模块21-223 中文网页的搜索结果聚类22-313.1 后缀树聚类22-243.1.1 后缀树22-243.1.2 后缀树聚类243.2 中文搜索结果后缀树模型的构建24-303.2.1 搜索结果预处理25-263.2.2 识别具有较完整语义信息的短语263.2.3 文本后缀树模型相关集合的定义26-283.2.4 基类关联度的计算28-303.3 本章小结30-314 基于本体的聚类标签提取方法31-394.1 本体的应用31-324.2 基类贡献度计算32-364.2.1 提取高频短语32-344.2.2 基于基类中词语的词性进行权重分配34-364.3 基于本体的提取方法36-374.4 本章内容总结37-395 实验39-545.1 系统构建395.2 实验过程39-505.2.1 后缀树文本模型的演示39-435.2.2 后缀树文本模型的构建43-505.3 结果分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论