下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 web数据挖掘现状分析 摘 要:随着internet/web技术的快速普及和迅猛 发展 ,使各种信息可以以非常低的成本在 网络 上获得,如何在这个全球最大的数据集合中发现有用信息成为数据挖掘研究的热点。web数据挖掘是目前数据挖掘领域中的一个很重要的研究领域,文章介绍了web数据挖掘研究领域的现状及发展。关键词:数据挖掘;web挖掘abstract:with the rapid development and popularization of internet / web technology, a wide range of informat
2、ion can be accessed in the network at very low cost. the focus of data mining is how to find useful information in the world's largest data collection. web mining is a very important research in the field of data mining. this paper outlines the areas of web data mining research and its status qu
3、o and development.key words: data mining;web mining数据挖掘(data mining,dm)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。各种类似google、百度等的搜索引擎也层出不穷,web数据挖掘的应用在现实中
4、不断体现。1 web挖掘概述近年来,随着internet/web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以 计算 ,而且internet/www的发展趋势继续看好,特别是 电子 商务的蓬勃发展为网络应用提供了强大支持,因此,如何在www这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而web挖掘便是指使用数据挖掘技术在www数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。web挖掘研究覆盖了
5、多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。2 web挖掘流程与传统数据和数据仓库相比,web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型web挖掘的处理流程如下:(1)查找资源。从目标web文档中得到数据。这些信息资源不仅限于在线web文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过web形成的交易数据库中的数据等。(2)信息选择和预处理。从取得的web资源中剔除无用信息,将信息进行必要的整理。例如,从web文档中自动去除广告连接和多余格式
6、标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。(4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得ir(information retrieval)和信息抽取ie(information extraction)相当重要。信息获得(ir)的目的在于找到相关web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取(ie)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义
7、感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。3 web数据挖掘的分类web数据挖掘是一项具有挑战性的课题,它实现对web存取模式、结构和规则以及动态的web内容的查找。一般来说,web数据挖掘可分为4类:web内容挖掘、web结构挖掘、web使用记录挖掘和web用户性质挖掘。其中,web内容挖掘、web结构挖掘和web使用记录挖掘是web1.0时代就已经有了的,而web用户性质挖掘则是伴随着web2.0而出现的。3.1 web内容挖掘web内容挖掘指从web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型
8、的数据。目前,web内容挖掘一般从两个不同的观点来进行研究:一种是从资源(ir)查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。另外一种是从数据库(db)的观点进行web内容挖掘,主要是试图建立we
9、b站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到web文档的模式、建立web知识库来实现。数据库技术应用于web挖掘主要是为了解决web信息的管理和查询问题。3.2 web结构挖掘web结构挖掘的对象是web本身的超链接,即对web文档的结构进行挖掘。由于有用的知识不仅包含在web页面的内容中,而且也包含在页面的结构中,所以web结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的web文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档
10、之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。web结构挖掘在一定程度上得益于社会网络和引用分析的研究。web结构挖掘的基本思想是将web看作一个有向图,它的顶点是web页面,页面间的超链接就是图的边,然后利用图对web的拓扑结构进行分析。web结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。hits和page rank分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算web页面之间超链接的质量,
11、从而得到页面的权重。著名的clever和google搜索引擎就采用了该类算法。3.3 web使用记录挖掘web使用记录挖掘也叫web日志挖掘或web访问信息挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的web日志记录,来发现用户访问web页面的模式,通过分析日志记录中的 规律 ,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,web使用记录的数据量是非常巨大的,而且数据类型也相
12、当丰富。根据对数据源的不同处理方法,web用法挖掘可以分为两种:将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。3.4 web用户性质挖掘web用户性质挖掘是伴随着web2.0出现的。基于rss、blog、sns以及wiki等互联网软件的广泛应用,web2.0帮助人们从web1.0时代的各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。面对web2.0的诞生,web数据挖掘技术又面临
13、着新的挑战。在web2.0时代, 网络 彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对web用户自建的rss、blog等web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务 发展 趋势等信息。有关web2.0下的数据挖掘,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将web用户性质挖掘分为5类:(1)个性挖掘。针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习
14、惯和个人喜好,目的是在 电子 商务环境下为该用户提供与众不同的个性化服务。(2)系统改进。web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,web用法挖掘可以通过用户的记录发现站点的性能瓶颈,以提示站点管理者改进web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。(3)站点修改。站点的结构和内容是吸引用户的关键。web挖掘通过用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面能够直接访问等。(4)智能商务。用户怎样使用web站点的信息,无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开4个步骤,web挖掘可以通过分析用户点击流等web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。(5)w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年汽车行业展望分析报告
- 医联体模式下专科资源整合实践
- 1-Piperidin-4-yl-azetidin-3-ol-生命科学试剂-MCE
- 2025年社区消防安全宣传课件
- 医联体医养结合模式探索
- 医疗风险管理与患者安全
- 医疗隐私保护持续改进机制与PDCA循环
- 护理指标与护理领导力
- 2025年老人防跌倒安全课件
- 医疗资源下沉可持续性路径
- 中华民族共同体概论课件第三讲文明初现与中华民族起源(史前时期)
- 盐城工业职业技术学院单招职业技能测试参考试题库(含答案)
- 肥厚型心肌病课件
- GB/T 12250-2023蒸汽疏水阀标志
- 驾驶员不良驾驶习惯的纠正与预防
- 民航概论PPT全套教学课件
- 正确使用词语包括熟语主题讲座
- 四自由度多用途气动机器人结构设计及控制实现
- 急性肺栓塞的急诊规范化诊疗课件
- 当代教育心理学(范围)课件
- 8D报告安全事故报告
评论
0/150
提交评论