数据挖掘在WI中的应用综述_第1页
数据挖掘在WI中的应用综述_第2页
数据挖掘在WI中的应用综述_第3页
数据挖掘在WI中的应用综述_第4页
数据挖掘在WI中的应用综述_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘在WI中的应用综述摘 要:基于WEB 的数据挖掘是当前相当热门的方向之一,本文对此作了一个比较全面的综述。概括了基于WEB 的数据挖掘的主要概念和特点,说明各类WEB 挖掘尤其是基于WEB 使用的挖掘所常用的技术,最后简单介绍了XML 在基于WEB 数据挖掘中的应用。关键字:数据挖掘、Web智能、基于WEB的数据挖掘、基于WEB使用的数据挖掘、半结构化、XMLAbstract: As web mining is one of the hottest research fields presently, this survey introduces it,s basic concepts

2、 and characteristics, including semi-structured data model. Three types of web mining and their applications are discussed in this paper, especially the web usage mining. Using XML in web mining is also stated in the last of the article.Keywords: Data mining,WI,Web Mining ,Web Usage Mining, Semi-str

3、uctured、XML随着Internet技术特别是WWW技术的飞速发展,Internet已经变成了一个庞大的、分布式的、异构的数据库和应用计算平台。Web的大小和复杂性导致了对web页面的存储、管理和检索的巨大困难,原有的基于数据库和文本的理论、方法和技术很难直接应用到web上,因此,必须增强和发展相关的理论和技术来有效处理与web相关的问题。在这样的背景下,一个崭新的研究方向web智能(Web intelligence,WI)应运而生,并已成为一个新的研究热点。Web挖掘及其分类万维网(World-wide-Web)是一个巨大的、分布广泛的和全球性的信息服务中心,它涉及新闻、广告、消费信息

4、、金融管理、教育、政府、电子商务和许多其他信息服务。Web上包含有丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,于是产生了一个更具挑战性的研究领域Web挖掘。一、数据挖掘 所谓数据挖掘Data Mining 就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程。数据挖掘的诞生是人们对数据库技术进行长期研究和开发的结果,而数据挖掘技术发展的同时它又反过来促使数据库技术进入了一个更高级的阶段:传统的数据环境基本上是数据操作型的传统的信息系统只负责数据的增删及修改操作而在数据库的基础上可实现的

5、工作就是OLTP (OnLine Transaction Process 联机事务处理)。现在由于数据积累的不断增多,人们需要分析型的数据环境,于是就出现了由数据库导出的数据仓库,以此为基础则可以实现OLAP (OnLine Analysis Process 联机分析处理):随着海量数据搜集的可能计算机处理技术的增强和先进数据挖掘算法的提出,数据挖掘技术不仅能对过去的数据进行查询和遍历,而且能够找出过去数据之间潜在有价值的联系并以一定的形式表现出来,从而极大的满足了人们对知识的迫切需求。数据挖掘基于的原始数据是形成知识的源泉,它既可以是结构化的如关系数据库中的数据,也可以是半结构化4的,如文本

6、、图形、图像数据,甚至是分布在网络上的异构型数据。本文将着重讨论一种针对半结构化数据的挖掘基于WEB 的数据挖掘10,主要介绍了它的基本概念以及经常采用的技术最后简单说明了XML 在其中的应用。二、WI框架1、WI的概念 web智能(Web intelligence,WI)是一个崭新的研究方向,要想给出它的一个精确的定义是非常困难的,但是,我们又必须给出一个定义来界定它的研究内容和范畴。WI的4位发起人Ning Zhong,Jiming Liu,Yiyu Yao和OhsugaSetsuo在他们的有关WI的文献和报告中都给出了WI的初步概念,总的来说,不外乎下列两种: (1)WI是指在web和I

7、nternet上充分利用人工智能(AI)和高级信息技术(IT)。WI的目标是AI和IT在新的Web平台上的联合目标,即wI将AI和IT应用到基于Web的智能信息系统的设计与实现上。 (2)WI是指在Web支持的系统、环境和活动中,探测人工智能和高级信息技术的基本作用和实际影响。WI的目标是产生使我们能够在生活、工作和娱乐中充分利用web基础结构所提供的全局连通性的理论和技术。 综上两个定义可以得到这样一个定义公式:WI=AI+IT引。这个公式说明AI和IT是WI的基础,WI是AI和IT的融合。也有学者提出了计算Web智能(computational web intelligence,CWI)的

8、概念,即将计算智能(computational intelligence,CI)与高级信息技术结合起来并应用到web上,并列出CWI技术的7个主要研究领域,即模糊WI(fuzzy WI,FWI)、神经网络WI(neural WI,NWI)、进化WI(evolutionary WI,EWI)、概率WI(probabilistic WI,PWI)、粒度wI(granular WI,GWI)、粗糙WI(rough WI,RWI)和混合WI(hybrid WI,HWI)。在他们看来,WI定义中的AI是指经典的基于符号的AI。其实,就像CI与AI的关系一样,从广义上来说,WI应该包括CWI,CWI是WI

9、重要的组成部分。2、WI功能和技术框架从功能和技术层次上来说,WI技术至少可以分成如图1所示的4个概念层次:Level-4SupportApplication-level ubiquitous and social intelligence utilitiesLevel-3Knowledge-level information processing and management toolsLevel-2Interface-level multi-media presentation standardsLevel-1Internet-level communication , infrastru

10、cture and security protocols图1:WI的概念层次其中: (1)Internet层。Web被看做计算机网络系统,WI技术需要解决web的分布式存取问题、安全和通信问题以及网络本身的特性研究问题。 (2)接口层。Web被看做人与Internet交互的接口,在该层,WI技术需要开发具有交叉语言处理能力、个性化多媒体表示能力和多模式处理能力的智能web接口。 (3)知识层。Web被看做一个分布式的知识库或数据库,为便于机器的理解和基于Agent的自动计算,WI技术需要开发语义标记语言来表示web的语义内容。 (4)应用层。Web被看做建立社会智能网络的基础。WI技术需要对建

11、立在Internet上的社会网络或各种虚拟社团提供智能支持。进一步地,WI技术还要对日趋增长的各种无线普及设备的访问提供个性化服务。 上述关于WI功能和技术层次的划分,对于WI技术的研究具有整体层次上的指导意义,使我们能够从宏观上把握各层所要研究的内容及各层所要支持的功能。对于一个具体的应用来说,一般要涉及到其中的几个层次或需要几个层次从下到上的共同支持。例如基于Agent的Web挖掘、无线普及设备的访问和与WI相关的软计算等。因此,不能简单地将某个层次隔离开来进行研究。3、WI目前的研究内容为了更好地说明WI的定义,可以进一步从外延上界定WI的研究范围,目前WI的具体研究内容包括web信息系

12、统的环境和基础、web信息管理、web挖掘、web Agent、web信息检索、web人本媒体工程(web human media engineering)以及基于web的应用等7个方面。随着Internet的不断发展和WI研究的不断深入,WI的研究范围将会进一步地变化和扩展。三、 基于WEB 的数据挖掘的主要概念 1、 什么是基于WEB 的数据挖掘 当前网络发展迅速,各种网站比比皆是。但在竞争日益激烈的网络经济中,只有赢得用户,才能最终赢得竞争的优势。作为一个网站的管理员或拥有者,应该知道用户都在他的网站上干什么,知道网站哪些部分最为用户喜爱,哪些让用户感到厌烦,什么地方出了安全漏洞,什么样

13、的改动带来了显著的用户满意度,提高什么样的改动反而丢失了用户等等。“知己知彼”,才能“百战不殆”。而基于WEB 数据挖掘技术正能满足这些需求。 就基于WEB 数据挖掘的确切定义,到目前为止还没有很明确而权威的说法。国外有认为:基于WEB 数据挖掘,就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。国内则众说纷纭,有认为是在大量已知数据样本的基础上得到数据对象间的内在特性,并以此为依据在WEB 中进行有目的的信息提取过程。同时,也有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发等等。总之,基于WEB 的数据挖掘(Web Mining) 正是从万维网(World

14、Wide Web )上获取原始数据中从中挖掘出隐含其中且潜在可用的知识最终应用于商业运作以满足管理者的需要。2 、基于WEB 数据挖掘的分类根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类:基于WEB 内容的挖掘(Web Content Mining);基于WEB 结构的挖掘(Web Structure Mining);基于WEB 使用的挖掘(Web Usage Mining)5。如图2所示。Web挖掘内容挖掘结构挖掘使用挖掘文本挖掘多媒体挖掘个性化使用分析访问模式分析文档内结构挖掘超链接挖掘URL挖掘图2:Web挖掘三种基本类型(1)基于WEB 内容的挖掘Web内容挖掘是对web

15、上大量文档的集合进行总结、分类、聚类与关联分析来获取有用信息。web页面的内容主要分为三类:无结构的自由文本,半结构的超文本文档和结构化的文档。web内容挖掘8的主要目的是改进信息查询与过滤的过程,通过建立新的Web数据模型以便可以进行不只是基于关键字的更复杂的查询。Web文本超文本的内容挖掘是Web内容挖掘的重点,但是作为Web内容挖掘一部分的多媒体数据挖掘在近几年来受到许多的研究人员的关注。文本总结就是从文档中抽取关键信息,对文档信息进行摘要,这样用户可以不必查看全文就能获得文档的大体内容。文本分类就是根据预先定义的主题,将文档分到不同的主题类别中去。文本聚类与分类不同,它没有预先定义的主

16、题类别,而是根据文档内容的相似性将尽可能相似的文本归为一类。文本聚类可将搜索引擎的检索结果划分为若干类,用户只需相关的类从而减少所需要浏览结果的数量。关联分析就是从Web文档中找出不同词语之间所隐含的联系。Brin提出了一种从大量文档中发现一对词语出现模式的算法,并用来在Web上寻找作者与文章名之间出现的模式,从而发现数千本在Amazon网站上找不到的新书籍。2 、基于WEB 结构的挖掘Web文档不但包括文档内容,而且包括页面之间的链接。然而大多数信息检索工具仅仅利用网页上的内容,却忽视了页面链接所包含的有价值信息。web结构不仅含有不同页面之间的超级链接,还包括以HTML或XML表示的树形结

17、构,文档URL的目录路径结构。通过挖掘这种网页结构信息可以获得能有助于加深对Web文档内容理解的模式,这些模式能展示大量有用的隐含信息。比方说,指向一个文档的链接体现了该文档的被引用情况,而从一个文档发出的链接则体现了该文档所覆盖的主体的种类。这可以同文献的引用情况相比较,如果某篇文章经常被引用,说明它非常重要。通过分析网页的URL信息,可以找到已经改变位置的网页。还可以通过分析文档的内存结构可以找到相似网页。CLEVER中的方法正是利用了文档间的链接信息来查找相关的网页。Web结构挖掘有着广泛的应用,主要有:1)指导采集网页:利用网页间链接的信息对网页质量进行评定,按照网页的质量依次对网页进

18、行采集,使得用户能从少量的网页中找到高质量的网页。2)聚类检索结果:目前大多数方法都是采用文本相似度对搜索结果进行聚类,结果不太令人满意。有的研究者运用链接分析对检索结果进行聚类,采用Cocitation和coupling方法进行文档聚类,以便用户查询。3)识别社区团体:在网络上有由许多在线的有共同兴趣的创建、使用、维护的网页,这些网页组成虚拟的社会团体。4)自动分类资源:绝大多数的搜索引擎都是按照层次型进行分类的,目前的分类方法主要有SVM方法与贝叶斯概率方法。Chakrabarti等学者通过实验证明,在基于分类样本的学习机中加人链接分析可以提高分类的精度 。3、 基于WEB 使用的挖掘用户

19、进行网页访问时会产生大量的数据,这些数据主要包括服务器端访问日志,代理端访问日志和客户端访问日志。web使用挖掘就是要通过分析这些数据来快速发现用户的访问模式,诸如频繁访问路径和频繁访问页集。根据应用的不同,可以将Web使用挖掘分为两种主要倾向,即:一般的访问模式跟踪与定制的访问模式跟踪。一般的访问模式跟踪通过分析Web访问日志来理解访问模式与倾向,利用这些分析可以清楚地给出较好的Web结构及资源提供者的分组情况。把数据挖掘技术应用于Web访问日志可以获得有趣的访问模式,这有助于网站的重构与广告位置的选取。定制使用跟踪可以分析个人的嗜好与倾向,在显示的信息,网站的结构与资源的格式等方面进行动态

20、地定制以为每个用户构建符合其个人特色的Web站点。3、 基于WEB 数据挖掘的特点 Web 上的数据最大特点就是半结构化。但是Web 上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据而且按照一定的组织有规律的集中或者分布存放,结构性很强;而Web 上的数据非常复杂,没有特定的模型描述每一站点的数据,都各自独立设计并且数据本身具有自述性和动态可变性,因而Web 上的数据不是强结构性的。但与此同时Web 页面又是有描述层次的,单个网站也是按照各自的结构构架的,从而具有一定的结构性6。因此我们认为Web 上存在的数据既不是完全结构化的也不是完全非结

21、构化的,而是介于两者之间,一般称之为半结构化数据。半结构化是Web 上数据的最大特点,显然面向Web 的数据挖掘比面向单个数据仓库或者其他结构化数据集的数据挖掘要复杂得多。4、使用基于WEB 数据挖掘能得到什么Web Mining 技术已经应用于解决多方面的问题,比如基于WEB 内容和结构的挖掘9极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘之威力,更是在商业运作上发挥的淋漓尽致,具体表现在:(1)对网站的修改有目的有依据稳步的提高用户满意度发现系统性能瓶颈,找到安全漏洞,查看网站流量模式,找到网站最重要的部分,发现用户的需要和兴趣,对需求强烈的地方提

22、供优化,根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户,在正确的地方正确的时间把正确的信息提供给正确的人。(2)测定投资回报率测定广告和促销计划的成功度;找到最有价值的ISP 和搜索引擎;测定合作和结盟网站对自身的价值。(3)提供个性化网站对大多数WEB 应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是WEB 站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式)向用户动态的提供要浏览的建议自动提供个性化的网站9。下面我们将就基于WEB 使用的挖掘,进一步讨论它所经常采用的技术。四、XML 技术在基于WEB 的

23、数据挖掘中的应用1 、XML 技术简介XML (eXtsible Markup Language) 是SGML (Standard General MarkupLanguage )的一个子集,意为可扩展的标记语言。近年来为IBM Microsoft 等公司大力推崇。和HTML( Hyper Text Markup Language)类似,XML 也是一种标示语言,可提供描述结构化数据的格式,并可以用于可视化和用户界面标准7。当前,Internet 只是文本和图片的访问媒体,并没有智能搜索、数据交换、自适应表示和个人化的标准。为了超出设置信息访问和显示标准的限制,Internet 必须设置信息理

24、解标准(表示数据的通用方式)以便软件能够更好地搜索移动显示和处理上下文中隐藏的信息。由于 HTML 是一种描述如何表示 WEB 页的格式,并不表示数据,所以它并不能完成以上处理。而 XML 提供了一种独立的运行程序的方法来共享数据是用来自动描述信息的一种新的标准语言,它通过计算机通信“把Internet 的功能由信息传递扩大到人类其他多种多样的活动中去”2。配置文件信息抽取模块抽取结果(XML格式)Shared Inlining 模型最终抽取结果(关系表结构)页面清洗模块Web页面2 、XML 技术在基于WEB 的数据挖掘中的应用图3:基于XML的web数据抽取流程图图3显示的是本文的基于XM

25、L的web数据抽取方法的工作流程图。从图中可以看出,本文涉及的web数据抽取方法1涉及到以下几个部分:(1)web页面需要从中抽取所需数据的web页面。在实际操作中,这一部分通常被定义为知识库(Knowledge Base)和数据库(Database) 3。而本文侧重的是数据信息的抽取,所以有关知识库和数据库的相关知识在本文中不作详细的介绍。(2)页面清洗模块对待抽取的H州L文档进行规范化,主要是修正HTML文档中不符合语法规范的标记和结构。在本文中称为页面清洗,并用到HTMLTidy工具。(3)配置文档一个自定义结构和元素名的XML文档,每一个web数据抽取过程都在XML语言编写的配置文件里

26、定义,执行过程都是由特殊的XML元素或者XML元素的结构来描述。(4)信息抽取模块根据配置文档中自定义的元素和结构,编程实现数据抽取,其中定位方式采用APTA信息定位方法,利用XPath路径表达式和XQuery查询表达式在配置文档中进行定位。(5)Shared Inlining模型基于关系数据库的XML存储可以通过模型映射的方法来实现,即建立一种固定的映射关系,XML数据和关系表之间的模型映射有Shared Inlining、Edgc和Binary,在下文中将作详细的介绍。在本文中采用的是Shared lIllining模型。3 、方法小结Interact的发展使得web成为一个巨大的资源共享平台,一个亟待解决的难题是如何从web中快速有效地获取有用信息,web数据抽取技术就是在这种背景下出现的,同时,XML出现之后迅速成为互联网信息表示的事实标准。本文把传统的信息抽取技术与XML技术结合起来,提高了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论