数据挖掘技术在Web信息检索中的应用研究.doc_第1页
数据挖掘技术在Web信息检索中的应用研究.doc_第2页
数据挖掘技术在Web信息检索中的应用研究.doc_第3页
数据挖掘技术在Web信息检索中的应用研究.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术在Web信息检索中的应用研究 摘要将数据挖掘技术应用到Web信息检索中,可以使网络信息检索更加准确化和智能化。介绍了Web数据挖掘的概念,分析了Web数据挖掘在Web信息检索中的应用,最后对Web信息检索未来发展进行了展望。 关键词数据挖掘;Web信息检索;搜索引擎 P209文献标志码A2096-0603(xx)29-0033-01 Web现已成为一个巨大的知识库、信息库,Web信息检索通过搜索引擎返回给用户成千上万个检索到的网页,但是满足用户检索要求的网页却凤毛麟角,用户无法在第一时间得到满足要求的有价值信息。因此,Web信息检索的精度不能为客户提供准而精的检索信息,需要检索精度更高的数据挖掘技术。 所谓数据挖掘(DataMining)就是从海量的原始数据中提取信息和知识的过程,这些信息和知识隐含在原始数据中,事先,但是对用户来说是很有用的。 一般的数据挖掘对象是结构化数据,而Web数据挖掘的对象是非结构化数据,在现有数据挖掘研究成果的基础上,运用Web数据挖掘技术,可以提高信息检索的精准率和有效率,Web信息检索将会达到向一个新的高度。 一、Web数据挖掘技术概述 Web数据挖掘是一项综合技术,是从资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的的有潜在应用价值的模式的提取1。按挖掘对象来分类,基于Web的数据挖掘分为3大类:基于Web内容的挖掘(WebContentMining)、基于WEB结构的挖掘(WebStructureMining)、基于WEB使用的挖掘(WebUsageMining)。 (一)基于Web内容的挖掘 基于Web内容的挖掘,是在Web文档以及相应的Web文档描述中获取知识。目前,信息资源是网络信息资源的主要组成部分,用户直接从网上抓取这些资源,并为之建立索引,从而实现查询服务,而那些被隐藏起来的数据,用户无法进行有效的检索,这就迫使我们把这些被隐藏的内容(比如数据库系统中的数据,由用户的提问而动态生成的结果等)挖掘出来。此外,Web的信息内容是由文本、音频、视频、图片等非结构化的数据,因此基于Web内容的挖掘也是一种针对多媒体数据的挖掘2。 (二)基于Web结构的挖掘 基于Web结构的挖掘,主要挖掘Web潜在的链接结构模式,是从网页上的相互链接和万维网的整体结构中发现知识的过程。这种模式主要采用网页归类技术,在众多的网页中获得不同网页间的信息,比如相似度及关联度。Web结构挖掘主要是帮助用户找到所需要信息的权威站點,同时也会对Web信息检索结果的排序产生影响。 (三)基于Web使用的挖掘 基于Web使用的挖掘,也可以称之为WebLogMining,Web日志挖掘,用户在进行网络访问后,会留下一些重要的第二手数据,它们是Web使用挖掘的主要对象,从而分析用户的网络行为提供依据。 二、Web数据挖掘在Web信息检索中的应用 (一)对Web信息源进行挖掘,形成信息源知识库 对Web信息源内容的挖掘,主要是针对中多媒体数据等Web信息源的内容的特征进行挖掘,统计方法、机器学习、神经网络、人工智能是最常使用的方法,通过抽取、分类、聚类网页内容的特征,形成信息源知识库。 对Web信息源结构的挖掘,主要通过相关算法对Web页面的超链接关系、URL地址结构的进行挖掘,在Web的组织结构和链接关系中发现知识。 (二)对Web结构进行挖掘,形成权威网页 搜索引擎的作用主要有两个,一是搜索与主题相关的内容,二是筛选高水平的相关网页,就是我们所说的权威网页。第二个作用尤其重要,因为用户更希望他们最需要的信息能在最短的时间内呈现在他们面前,而不是浪费大量的精力和时间从大量的检索结果中找寻最需要的信息,采用Web结构挖掘的一些经典算法就能很好地识别出权威网页。 (三)对用户的访问模式进行分析,为用户提供更加人性化的服务 用户在进行信息检索时,会在网站上留下许多信息,比如检索的时间、检索词以及浏览了哪些检索结果等。基于Web使用的挖掘可以对其进行分析,采用各种算法对这些日志展开挖掘,从而延伸出更有价值的内容,形成用户知识模型,并对用户潜在相同的检索行为模式进行归纳总结,对这些模式进行系统的研究,对搜索引擎的检索效果进行反馈,从而改进搜索引擎,让检索结果更加智能化,使单个用户感觉使用Web信息检索更高效。 总之,随着互联网的发展,数据挖掘的一个主要应用领域就是Web数据挖掘,与Web信息检索有着密切的关系,但是又比Web信息检索有着更高的技术层次,可以使基于Web的信息检索发展到一个更高的水平。 参考文献: 1韩家炜,孟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论