全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索结果聚类论文:基于Ontology的Web文本聚类研究【中文摘要】随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网,2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在。因此对文本信息的挖掘是从互联网上获取知识的重要途径。聚类技术在信息检索领域有着广泛的应用,有很多非常成熟的算法在各个方面承担着重要角色。传统的搜索引擎以列表的形式返回搜索结果,对于一个模糊的、语义不明确的、或者属于多个主题的查询词,不同语义、不同主题的搜索内容可能分散在长长的列表中,用户不得不花费大量的精力和时间从中查找符合自己查询意图的目标结果。这种情况下,一方面降低了搜索结果的质量,另一方面也使用户的满意度大打折扣。研究人员为解决此类问题提供了许多方法,其中对搜索引擎返回结果进行聚类成为解决这一问题的有效途径,并在实践中被不断的完善。Vivisimo ,Infonetware RealTerm Search都是非常成功的商业聚类搜索引擎。搜索结果聚类系统的输入通常是由传统搜索引擎响应用户查询所返回的一个搜索结果集,其中每一个搜索结果由题目、文本摘要和原始页面链接组成。输出是对结果集进行聚类后得到的一组.【英文摘要】In the first annual ORG forum, Beckstrom pointed that 25% of the world uses the internet by computer today(1), a conservative estimate of 1.75 billion. According state council information office minister Chen Wangs speech: On Chinas Internet development and management, the number of Web pages in china has reached 33.6 billion by 2010 and 87.8% is in text form on the Internet(2). Obviously, internets infiltrates peoples learning, work and play well every aspect of life with unimaginable speed. So te.【关键词】搜索结果聚类 后缀树 关联度计算 本体 聚簇标签【英文关键词】search results clustering suffix tree association calculation ontology cluster labels【目录】基于Ontology的Web文本聚类研究摘要4-6Abstract6-71 绪论10-161.1 课题研究的背景和意义10-111.2 国内外研究现状11-141.3 本文的主要研究内容14-162 Web 文本聚类的背景知识16-222.1 文本聚类16-192.1.1 文本聚类的过程16-172.1.2 文本聚类算法的分类17-192.2 搜索结果聚类19-202.3 搜索结果聚类引擎的结构20-222.3.1 搜索结果获得模块212.3.2 搜索结果预处理模块212.3.3 搜索结果聚类模块212.3.4 搜索结果可视化模块21-223 中文网页的搜索结果聚类22-313.1 后缀树聚类22-243.1.1 后缀树22-243.1.2 后缀树聚类243.2 中文搜索结果后缀树模型的构建24-303.2.1 搜索结果预处理25-263.2.2 识别具有较完整语义信息的短语263.2.3 文本后缀树模型相关集合的定义26-283.2.4 基类关联度的计算28-303.3 本章小结30-314 基于本体的聚类标签提取方法31-394.1 本体的应用31-324.2 基类贡献度计算32-364.2.1 提取高频短语32-344.2.2 基于基类中词语的词性进行权重分配34-364.3 基于本体的提取方法36-374.4 本章内容总结37-395 实验39-545.1 系统构建395.2 实验过程39-505.2.1 后缀树文本模型的演示39-435.2.2 后缀树文本模型的构建43-505.3 结果分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 防雷安全题库及答案解析
- 2025年教育科技行业教育科技创新发展分析研究报告及未来发展趋势预测
- 2025年健康管理行业智能医疗健康管理系统在健康促进和疾病预防中的应用研究报告及未来发展趋势预测
- 2025年医疗健康大数据治理与隐私保护研究报告及未来发展趋势预测
- 2025年文化娱乐行业区块链数字版权保护研究报告及未来发展趋势预测
- 我为什么喜欢音乐话题作文4篇
- 业务谈判策略及会议纪要模板
- 营销团队绩效考核标准模板激励团队
- 公司财务成本控制与预算管理模板
- 期货从业考试计算题专训及答案解析
- 绿城诚园户型设计
- 护理安全与核心制度
- 《急性心力衰竭急救》课件
- 大学生职业规划大赛《生物科学专业》生涯发展展示
- 黑龙江省2025年1月普通高中学业水平合格性考试 数学试卷
- 医患沟通及知情告知制度执行情况检查表李
- 梦想启航励志前行主题班会课件
- 2025年移动初级解决方案经理认证理论考试指导题库-下(多选、判断题)
- 【艾青诗选】60首诗歌+思维导图
- 热力学第一定律1完整课件
- 2025年磨切粉煤灰项目投资可行性研究分析报告
评论
0/150
提交评论