(计算机应用技术专业论文)基于xml的web实时信息挖掘.pdf_第1页
(计算机应用技术专业论文)基于xml的web实时信息挖掘.pdf_第2页
(计算机应用技术专业论文)基于xml的web实时信息挖掘.pdf_第3页
(计算机应用技术专业论文)基于xml的web实时信息挖掘.pdf_第4页
(计算机应用技术专业论文)基于xml的web实时信息挖掘.pdf_第5页
已阅读5页,还剩95页未读 继续免费阅读

(计算机应用技术专业论文)基于xml的web实时信息挖掘.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, 太原理工大学硕士研究生学位论文 基于x m l 的w e b 实时信息挖掘 摘要 自从i n t e m e t 诞生以来,互联网上的信息正以指数形式飞速增长。 如何在w w w 这个全球最大的数据集合中发现用户的有用信息已成为 数据挖掘研究的热点,w e b 数据挖掘也由此应运而生。 w e b 是一个巨大的、广泛分布的、高度异构的、半结构化的、超文 本、超媒体的、相互联系并且不断进化的信息仓库;是一个巨大的文档 积累的集合,包括了丰富、动态的超链接信息以及w e b 页面的访问和使 用信息。由于现行的网络环境以h t m l 语言为基础构建,它是一种只能 描述形式而不能揭示内容的语言,因此,w e b 上的半结构化数据和异构 数据源问题给w e b 数据挖掘带来了困难。w3 c 开发的x m l ( e x t e n s i b l e m a r k u pl a n g u a g e ) 可扩展标记语言,支持丰富的数据结构,特别强调数 据语义与元素之间的关系,因此基于x m l 的w e b 数据挖掘可以充分 利用x m l 的特点,为w e b 数据挖掘带来了新的契机。 同时,在信息更新速度如此之快的今天,用户已经不满足只挖掘出 某些信息,而是需要w e b 数据挖掘能够为他们及时提供出最快、最新、 最有效的信息。所以,对w e b 实时信息数据挖掘的研究有着巨大的潜力, 也是非常必要的。 本文首先详细阐述了基于x m l 语言的w e b 数据挖掘方法。通过介 绍w e b 数据挖掘技术和x m l 技术的基本知识、分析了x m l 语言在 t 太原理工大学硕士研究生学位论文 w e b 数据挖掘中的优势,在理论上提出了设计思想并建立了系统模型。 其次,本文对网络实时信息的获取进行了深入地研究,提出了获取 实时信息的算法方案,并应用到了课题的实验系统中。 由于w e b 数据挖掘系统是为用户个性化、智能化服务的,所以根据 用户需求不同,w e b 数据挖掘系统也不相同。在本课题中设计了基于 x m l 的w e b 商机信息挖掘的实验系统,系统是由后端w e b 数据挖掘程 序、数据库和前端用户使用页面组成。在设计过程中,严格按照软件工 程里软件设计的思想,认真做了可行性研究、需求分析、系统整体设计、 详细设计,最后编程并完成了系统开发。对于系统设计特别注重系统性 能的提高,在如何提高w e b 数据挖掘系统的查全率、查准率和挖掘效率 问题中都提出并实现了解决方案。 最后对本文的研究和设计工作进行总结,并指出今后需要进一步完 成的工作和待解决的问题。 关键词:w e b 数据挖掘,x m l ,实时信息,商机信息,s q ls e r v e r 2 0 0 0 , i i 太原理工大学硕士研究生学位论文 w e bd a t am i n i n gf o rr e a l t i m ei n f o r m a t i o n b a s e do n x m l a b s t r a c t s i n c ei n t e m e tc a m ei n t ob e i n g ,t h ei n f o r m a t i o ni ni th a si n c r e a s e ds o r a p i d l yb ye x p o n e n t h o wt of i n da n dg e tt h eu s e f u li n f oh a sa l r e a d yb e e na h o t s p o t i nd a t am i n i n g ,t h e nw e bd a t am i n i n ge m e r g e da st h et i m e s r e q u i r e w e bi sa ni n f o r m a t i o nw a r e h o u s ew h i c hi sh u g e ,w i d l yd i s t r i b u t e d , h i 曲l yi s o m e r o u s ,h y p e rt e x ta n dh y p e rm e d i a ,w h i l ei n c l u d i n ga b u n d a n t , d y n a m i ch y p e r l i n ka n dv i s i t o r i a l ,u s a g ei n f o r m a t i o nt ow e bp a g e s b e c a u s e n o w a d a y sn e t w o r ke n v i r o n m e n ti sb a s e do nh t m l w h i c ho n l yd e s c r i b e s f 0 1 :r n sr a t h e rt h a nd i s c o v e r sc o n t e n t ,s ot h ep r o b l e m so fh a l fo rn o n s t r u c t u r e d a t u ma n di s o m e r o u sd a t a b a s es o u r c eb r i n gd i f f i c u l t i e sf o x - w e bd a t am i n i n g x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) w h i c hi sd e v e l o p e db yw 3 cs u p p o r t s a b u n d a n td a t as t r u c t u r e ,e s p e c i a l l ye m p h a s i z e st h er e l a t i o n s h i pb e t w e e n s e m a n t i c sa n de l e m e n t ,s ow e bd a t am i n i n gb a s e do nx m lc a nm a k ef u l lu s e o fx m l c h a r a c t e r i s t i c ,a n db r i n g sn e wc h a n c e f i r s t l y , t h ep a p e re x p a t i a t e so nt h em e t h o d so f w e bd a t am i n i n gb a s e d i i i 太原理工大学硕士研究生学位论文 o nx m l t h r o u g hi n t r o d u c t i o no nt h et e c h n o l o g yo fw e bd a t am i n i n ga n d x m l ,a n a l y z e st h ea d v a n t a g eo fx m l i nw e bd a t am i n i n g ,m e a n w h i l e p r o v i d e sd e s i g n i n gi d e aa n db u i l d st h es y s t e mm o d e l s e c o n d l y , t h ep a p e rr e s e a r c h e sh o wt og e tt h en e t w o r kr e a l - t i m e i n f o r m a t i o n t h ea l g o r i t h m i cm e t h o d sa b o u ti ta r ep u tf o r w a r d ,a n da p p l y i n t ot h ee x p e r i m e n t a ls y s t e m t h i r d l y , b e c a u s ew e bd a t am i n i n gs y s t e ms e r v e sp e r s o n si n d i v i d u a l l y a n di n t e l l i g e n t l y , s oa c c o r d i n gt ot h ed i f f e r e n tr e q u i r e m e n t ,t h ed e s i g n i n g s y s t e m sa r er e s p e c t i v e l y t h i sd i s s e r t a t i o nd e s i g n se x p e r i m e n t a ls y s t e mo f w e bb u s i n e s si n f o r m a t i o nm i n i n go nx m l ,w h i c hi sc o n s i s t e do fw e bd a t a m i n i n gp r o g r a m ,d a t a b a s ea n du s e rw e bp a g e s i nt h ec o u r s eo fc o n t r i v i n g , o b e y s t h er u l e so fs o f t w a r e d e s i g n i ns o f t w a r e e n g i n e e r i n gs t r i c t l y , i n c l u d i n gf e a s i b i l i t yr e s e a r c h ,r e q u i r e m e n ta n a l y s i s ,s y s t e mu n i t a r y a n d m o d u l ed e s i g n ,t h e nf i n a l l yc o d i n gt of i n i s ht h es y s t e me x p l o i t a t i o n t o s y s t e md e s i g n ,e s p e c i a l l ye m p h a s i z e so np e r f o r m a n c eo fw e bd a t am i n i n g p r o g r a m i n gw i t hh i g h l yc o m p r e h e n s i v e ,e x a c ta n d e f f e c t i v e c a p a b i l i t y a i m m i n g a te a c ha s p e c t ,t h e r ei sas o l u t i o np r o v i d e d t h ew h o l er e s e a r c ha n dd e s i g nw o r ko ft h i sp a p e ra r es u m m a r i z e da t l a s t ,a n dt h en e x ts t e pa b o u tt h ea r c h i t e c t u r eb a s e do nd e s i g nm e t h o df u r t h e r i ss u g g e s t e d i v 太原理工大学硕士研究生学位论文 k e yw o r d s :w e bd a t am i n i n g ,x m l ,r e a lt i m ei n f o r m a t i o n ,b u s i n e s s i n f o r m a t i o n ,s q ls e r v e r 2 0 0 0 ,j a v a v 声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:划:重日期:2 鲤:堕:笪 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定。其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的。 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 导师签名:獬杪屯移日期:扫钒艿f 6 乃 太原理工火学硕士研究生学位论文 1 1 课题开发的意义 第一章绪论 自从1 9 9 1 年w w w 诞生以来,网络上信息量正以指数形式飞速增长,人们可 以以非常低的成本在网络上获得各种各样丰富详尽的信息。由于i n t e m e t w w w 在 全球互连互通,人们从中获得的信息量是难以计算的,如何在w w w 这个全球最大 的数据集合中发现用户的有用信息已成为数据挖掘研究的热点,w e b 数据挖掘也因 此应运而生。 w e b 是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本、超媒体 的、相互联系并且不断进化的信息仓库:是一个巨大的文档积累的集合,包括了丰 富、动态的超链接信息以及w e b 页面的访问和使用信息。由于现行的网络环境以 h t m l 语言为基础构建,它是一种只能描述形式而不能揭示内容的语言。如果w e b 上的网站信息作为一个数据库,w e b 上的每一个站点则就是一个使用h t m l 描述的 数据源,因为不同站点信息的组织形式不一样,所以每一个数据源都是异构的。同 时,w e b 上的数据非常复杂,虽然具有一定的结构性,但是没有特定的模型描述, 是半结构化的数据。所以,面向w e b 的数据挖掘比面向单个仓库的数据挖掘要复杂 得多,w e b 上的半结构化数据和异构数据源问题给w e b 数据挖掘带来了困难。 w 3 c 开发的x m i ,( e x t e n s i b l em a r k u pl a n g u a g e ) 可扩展标记语言,支持丰富 的数据结构,特别强调数据语义与元素之间的关系,能够解决w e b 上半结构化数据 和异构数据源给w e b 数据挖掘带来的困难。因此基于x m l 的w e b 数据挖掘可以 充分利用x m l 的特点进行w e b 数据挖掘。 同时,在信息更新速度如此之快的今天,互联网上的信息更是以惊人的速度不 断更新着,用户已经不满足只挖掘出某些信息,而是需要w e b 数据挖掘能够为他们 及时提供出最快、最新、最有效的信息。特别是对企业来说,能及时了解与自己有 关的信息在激烈的市场竞争中是非常重要的。所以,对w e b 实时信息数据挖掘的研 究有着巨大的潜力,也是非常必要的。 本课题主要以x m l 语言作为w e b 页面的分析工具,研究如何进行w e b 实时信 息的数据挖掘,并提出了有效的实验解决方案。 太原理工大学硕士研究生学位论文 1 2 本文的主要工作 本课题的内容,主要包括三个部分: 首先,通过查阅相关文献资料,陈述了w e b 数据挖掘目前存在的问题,提出了 一种基于x m l 语言的w e b 数据挖掘方法并进行了一些理论探讨。 其次,根据h t t p 协议相关的理论和对w e b 上海量信息的实际考察,对如何挖 掘w e b 上实时信息资源进行了研究,并提出了一些解决方案。 最后,由于w e b 数据挖掘系统是为用户个性化、智能化服务的,所以针对用户 的不同需求,设计的系统也不尽相同。在本课题中,根据以上的理论研究,我严格 按照软件工程的思想设计了一个基于x m l 的w e b 商机信息的数据挖掘实验系统。 该系统包括系统后端w e b 商机信息数据挖掘程序、数据库系统和前端用户使用页 面。在设计过程中,注重系统的性能提高,特别是对后端采集程序,为了提高w e b 数据挖掘系统的查全率,采用了元搜索引擎的思想;为了提高系统查准率,采用了 模拟登陆和x m l 的方法;为了提高挖掘效率,采用了多线程模式代替了传统的单 线程模式,并且在数据库驱动上,选择j t d s 代替j d b c o d b cb r i d g e 来提高系统性 能。 1 3 本文的内容组织 本文第一章为绪论,主要介绍了课题开发的意义、本文主要工作以及内容组织; 第二章介绍了w e b 数据挖掘技术的基础知识;第三章主要介绍了x m l 技术基础知 识;第四章从理论上分析了基于x m l 的w e b 数据挖掘技术以及w e b 挖掘常用算法; 第五章深入研究了对w e b 实时信息的判断并提出了实现思想和算法流程。本文从第 六章到第八章严格按照软件工程的设计思想设计了基于x m l 的w e b 商机实时信息 数据挖掘的实验系统。第六章主要做了实验系统的需求分析,包括系统的可行性分 析、系统模式分析和系统需求;第七章是实验系统的设计,包括整体设计和详细设 计,其中详细设计有数据库设计、x m l 文档设计以及w e b 数据挖掘模块的设计; 第八章是实验系统的实现,包括系统的开发平台、x m l 文档解析、数据库连接以及 w e b 数据挖掘后端采集程序和前端用户使用页面的实现。第九章主要是对本文的研 究和设计工作进行总结,并指出今后需要进一步完成的工作和待解决的问题。 2 太原理工大学硕士研究生学位论文 2 1 数据挖掘技术 第二章w e b 数据挖掘技术 自2 0 世纪6 0 年代以来,数据库和信息技术迅猛发展。随着信息化技术的不断 深入,数据库技术被广泛应用于商业管理、政府办公、科学研究和工程开发等领域。 人们在积累越来越多数据的同时,为了更好地利用这些数据,便迫切地需要一种技 术能够帮助人们从大量的数据中发掘内在规律、发现有用知识,以便充分地提高信 息的利用率。由此,“数据挖掘”应运而生。 数据挖掘【1 1 就是从大量的、不完全的、有噪音的、模糊的、随机数据中,提取 隐含在其中的人们不知道但又潜在有用的信息和知识的过程。这种技术能从数据库、 数据仓库或其他信息库中自动分析数据、进行归纳推理,通过预测未来趋势及行为, 做出预先的、基于知识的决策并建立新的业务模型。它融合了数据库、人工智能、 机器学习、统计学等多个领域的理论;并且根据数据挖掘系统的不同还可能集成信 息检索、模式识别、图象分析、信号处理、w e b 技术、经济、商业、生物信息或心 理学等领域的技术;同时依赖所用数据挖掘方法的不同,还涉及神经网络、模糊或 粗糙集理论、知识表示、归纳逻辑程序设计或高性能设计等其他学科,所以数据挖 掘是个交叉学科。 目前不同领域的研究人员,利用各自不同的技术和方法对数据挖掘进行了卓有 成效的研究,数据挖掘研究也取得了十分丰富的成果,但还面临着许多问题,如数 据挖掘语言的标准化、对多种类型多层次知识的有效挖掘方法、如何在i n t e m e t 网 进行快速有效的挖掘、数据挖掘中的信息安全等等,这些都有待我们继续研究和探 索。 2 2 搜索引擎与w e b 数据挖掘 i n t e r n e t 提供了一个海量的信息源泉,它涉及新闻、广告、商机信息、金融管理、 教育、政府、电子商务和许多其他信息,要想充分利用这些数据资源,必须要有强 有力的信息检索和分析工具。w e b 上的搜索引擎部分地解决了资源发现问题。当前 搜索引擎系统主要分三大类f 2 l : ( 1 )目录式搜索引擎:这主要是以人工方式搜集信息; 3 太原理工大学硕士研究生学位论文 ( 2 ) 机器人搜索引擎:它通过w e bc r a w l e rs p i d e r 或r o b o t 的相关程序,根据 网页链接进行搜索。 ( 3 ) 元搜索引擎:元搜索引擎没有自己的索引数据库,而是将用户的请求。这 种系统没有自己的索引数据库,而是将用户的请求经过预处理后分发给多 个底层的搜索引擎,当接到其底层成员引擎返回的搜索结果后,元搜索引 擎再将这些结果按统一的评分标准进行排序,最后将处理好的结果提供给 用户。 但是搜索引擎往往会返回给用户成千上万个检索到的网页,而其中很大一部分 与用户的检索要求无关,使用户不能迅速、准确地得到所需的有价值的信息。此外 搜索引擎的目的在于发现w e b 上的资源,而不能胜任w e b 上的知识发现。因此需 要开发比搜索引擎层次更高的新技术w c b 数据挖掘。 w e b 数据挖掘可以在搜索引擎上对文档进行分类,从而降低在搜索引擎上为组 织i n t e m e t 文档所需消耗的人力资源;还可以帮助寻找用户感兴趣的新闻或其他信 息,从而提供个性化的接口;通过w e b 结构挖掘发现重要页面并对w e b 页面的重 要性进行排序,从而可以对搜索引擎进行改进;同时通过w e b 日志挖掘可以发现用 户的访问模式、相似用户群体和访问路径,从而在电子商务领域中得到广阔的应用 前景。 2 3w e b 数据挖掘的定义和分类 w e b 数据挖掘【3 j ( w e bd a t am i n i n g ) 就是使用数据挖掘技术在w e b 文档内容、 目志信息或其他描述数据中发现潜在的、有用的知识的过程。 如果把大量的w e b 文档结构和使用的集合c 作为输入,发现的隐含模式p 作为 输出,那么w e b 数据挖掘的过程就是从输入到输出的一个映射【4 】: :c 呻口 w e b 数据挖掘总体有三个目标:精确度,即返回数据符合用户需求的程度: 覆盖率,即有多少符合用户需求的数据被返回;效率,即挖掘的响应程度。目 前,根据数据源形式的不同,可以将w e b 数据挖掘分为三类:w e b 内容挖掘w c m ( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘w s m ( w e bs t r u c t u r em i n i n g ) 、w e b 使用挖 掘w u m ( w e b u s a g em i n i n g ) 5 1 。如下图2 1 所示: 4 太原理工火学硕士研究生学位论文 图2 1w e b 数据挖掘的分类图 f i g u r e2 - 1w e bd a t am i n i n gc l a s s i f i c a t i o nc h a r t w c m 是对半结构化的w e b 页面,包括w e b 页面上的文本、图片、声音、视频、 元数据等进行挖掘,从w e b 数据中发现信息。由于w e b 文档绝大部分内容是以文 本形式存在,所以w e b 内容挖掘主要针对w e b 文档的文本部分。文本挖掘主要包 括直接对w e b 页面文档内容以及搜索引擎的查询结果进行文本的总结、分类、聚类、 关联分析等。除此之外,还有针对w e b 上图片、声音、视频等多媒体数据的挖掘。 w s m 是对w e b 页面之间的结构进行挖掘,主要针对w e b 页面的超链接结构进 行分析。根据超链接的拓扑结构,w e b 结构挖掘可以对页面进行分类,取得不同网 站网页之间的关系;也能发现w e b 文档自身的结构。这种方法能够通过网页之间的 比较,更有助于用户浏览。 w u m 是通过挖掘相关的w e b 日志记录,来发现用户访问w e b 页面的模式和相 关信息。w w w 中的每个服务器都保留了访问日志( w e b a c c e s s l o g ) ,记录了关于 用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点结 构,为用户提供个性化服务。 2 4w e b 数据挖掘与传统数据挖掘的区别 w e b 数据挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义类 似,都是在对大量数据进行分析的基础上,作出归纳推理,预测用户行为,帮助企 业的决策者调整市场策略,减少风险,作出正确抉择的过程。但w e b 数据挖掘相对 于传统的挖掘有很大的不同,具体体现在如下几个方面: 首先,w e b 数据挖掘的对象是海量的、异构的、分布的文档,而传统数据挖掘 的对象通常是数据库中规则化的数据。 其次,由于w e b 页面在逻辑上是由文档结点和超链接构成的图,所以w e b 数 5 太原理工大学硕士研究生学位论文 据挖掘出的知识可以是关于w e b 内容的,也可以是关于w e b 结构的。而传统数据 挖掘得到的模式通常是与内容相关的。 再者,由于w e b 文档是半结构甚至无结构的,缺乏能够让机器识别的语义,所 以在进行挖掘时,要对w e b 文档进行预处理。而传统的数据挖掘对象局限于数据库 中结构化的数据,所以可以直接利用关系表等存储的数据结构来发现知识。 另外,由于i n t e m e t 本身是一个时刻在动态更新和变化的系统,所以w e b 数据 源有很强的动态性,而传统的数据源大多是静态的。w e b 数据经过预处理过滤后, 既有传统的数据类型,还有一些w e b 特有的数据类型,如u r l 地址、e m a i l 地 址等,这也需要对原有的方法进行改进和扩充。 由此可以看出,面向w e b 的数据挖掘比传统的面向单个数据仓库的挖掘更复 杂。 2 5w e b 数据挖掘的应用 w e b 数据挖掘归根结底,其本质就是把w e b 上大量的信息和数据变为知识的过 程,它存在许多潜在的应用。主要包括: ( 1 ) 帮助寻找用户感兴趣的新闻、商机或其他信息,以提供个性化接口; ( 2 ) 通过w e b 挖掘发现重要页面,对w e b 页面排序,从而来改进搜索引擎; ( 3 ) w e b 数据挖掘在电子商务领域有很广阔的应用前景,如发现顾客的购买模 式和访问者的浏览模式、电子商务网站上顾客之间的联系等: ( 4 ) 搜索引擎上对文档进行自动分类,从而降低在搜索引擎上为组织整理 i n t e m e t 文档所消耗的人力资源。 当然w e b 数据挖掘的应用不仅于此,随着i n t e m e t 的发展,w e b 数据挖掘的应 用也将更加广泛。 在i n t e m e t 迅速发展的今天,w e b 数据挖掘已经取得了很大的进展。由于它是 个较新的领域,还有许多问题需要进一步探索。 6 太原理工大学硕士研究生学位论文 第三章x m l 技术概述 x m lf e x t e n s i b l em a r k u pl a n g u a g e ) m l 可扩展标记语言是由万维网协会( w 3 c ) 特别为w e b 应用服务s g m l ( s t a n d a r dg e n e r a lm a r k u pl a n g u a g e ) 的一个子集1 7j 。 x m l 是一种类似于h t m l 被设计用来描述数据的语言,其设计目标是实现简便并 且能与s g m l 和h t m l 共同操作。 x m l 使用d t d ( d o c u m e n t t y p ed e f i n i t i o n ,文档类型定义) 来显示这些数据,使 用x s l ( x t e n s i b es t y l es h e e tl a n g u a g e ,x m l 样式表语言) 或c s s ( c a s c a d i n gs t y l e s h e e t ,层叠样式表) 来描述这些文档如何显示。使用d o m ( d o c u m e n to b j e c tm o d e l ) 或s a x ( s i m p l e a p if o r x m l ) 文档对象模型来处理数据。由于x m l 能够标记更 多的信息,所以它能使用户很轻松地找到所需要的信息。 3 1x m l 的主要特点 x m l 以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突 出对结构的描述,从而体现出数据之间的关系。x m l 语言具有以下主要特斛8 】: ( 1 ) 简单性:由于x m l 严格的定义和规则集使人们很容易阅读文档,并能使 开发者很容易进行开发;同时由于d t d 清晰易懂所以既可以由专家创建,也可由 开发者通过一个标准过程创建。 ( 2 ) 可扩展性:x m l 有两个意义上的可扩展性。首先,它允许创建者建立自 己的标签,所以就有多种应用的可扩展标志集。其次,用户可以使用几个附加的标 准对x m l 进行扩展,这些附加标准可以向核心的x m l 功能集增加样式、链接和 参照能力。 ( 3 ) 互操作性:由于x m l 是一种平台无关的标准,所以可以在多种平台上使 用,而且可以用多种工具进行解释。因为文档的结构是相容的,所以解释它们的语 法分析器就可以以较低的费用建立。x m l 支持用于字符编码的许多主要标准,允 许它在全世界许多不同的计算环境中使用。 ( 4 ) 开放性:x m l 作为一种标准它是完全开放的,可以免费获得。同时,x m l 文档自身也较为开放。 ( 5 ) 国际化。x m l 具有标准国际化,并且支持世界上大多数文字。这依靠它统 一代码的新编码标准,这种编码标准支持世界上所有以主要语言编写的混合文本。 7 太原理工大学硕士研究生学位论文 因此,x m l 不仅能在不同的计算机系统之间交换信息,而且能够跨越国界交换信息。 3 2x m l 与h t m l 的比较 h t m l 语言以其简单易学在w e b 上广泛应用,但是目前建立在h t m l 基础上 的w e b 技术存在两个致命弱点: ( 1 ) h t m l 只描述了信息的显示方式而未对信息内容本身进行描述。它只说明 在w e b 的主页上应如何布置图形、文字和按钮,而对信息本身的属性未作任何说明。 ( 2 ) 大量可以在客户端完成的工作,不得不由w e b 服务器去处理,这样大大降 低了网络运行的效率。 x m l 语言正是为了解决上述两方面的问题而提出的。x m l 和h t m l 一样都是 用一对相互匹配的起始和结束标记符来标记信息,它们之间的显著差别在于:h t m l 描述的是数据处理显示方式,而x m l 描述的是数据的本身。x m l 不再是一种单纯 的标记语言,它突破了h t m l 固定标记集合的约束,用户可以根据需要定义任何 一种标签来描述文档中的数据元素,是一种定义语言。x i v l l 允许开发者创建自己 的x m l 词汇,用自定义的方式描述他们自己的数据结构,这使得w e b 数据库中的 数据因此而变得更丰富、更智能、并随时可供应用程序使用。 图3 1 以描述相同事物f r u i t 的h t m l 和x m l 两个片段文件,说明了x m l 与 h t m l 的不同之处。 图3 - 1x m l 与h t m l 比较 f i g u r e3 - 1c o m p a r eb e t w e e nx m la n dh t m l 8 太原理工大学硕士研究生学位论文 上图中,在f r u i t h t m l 片段文档中我们并不能很清楚地得到这条f r u i t 的信息, 像 、 等标签,只能反应文件在显示中的位置,而并不能体现信息 的含义。但在f r u i t x m l 片段文件中通过 等标签,我们就很容易地得 到f r u i t 的相关内容,包括n a m e ,a r e a ,p r i c e 和q u a l i t y 的详细信息了。 3 3x m l 应用技术 3 3 ix m l 架构 x m l 在三层架构上为数据处理提供了很好的方法。其包括数据的集成、发送、 处理和显示。如图3 2 所示。 由于x m l 是开放的、纯文本格式,它可以像h t m l 一样通过h t t p 传送。浏 览器中的x m l 解析器能够读入一串x m l 数据,经过处理,产生一棵结构树,并且 使用d o m 把所有数掂元素作为对象。解析器用c s s 或x s l 样式表显示数据,或用 脚本对数据做进一步的处理,或把数据移交给另外的应用软件进行处理。d o m 用 扩展方式支持名域、数据类型、查询和x s l 转化。x m l 文档自身不能决定如何显 示信息,x m l 数据只包含事实,h t m l 是一个理想的显示语言,所以最后需要通 过h t m l 显示出来。 桌i 断 。 r 问屡 f 朋 m a i n & a m ed 日自b a s e 疑示 l 敬拒串异崔蚍耶式 l 发瞧劓拜地地甘待l n 步她瑗 数谢发送和处理 辚l 越h ! i n i - 立捷戤撼 强i l l x 处理n 抛 数搬柴成 x l i m 中钟 文 图3 - 2x m l 文档三层架构 f i g u r e3 - 2t h r e e - l a y e rc o n s t r u c t i o no fx m l d o c u m e n t 其中,x m l 文档必须要结构规范,其主要解析规则有:每个x m l 文档必须 9 太原理工大学硕士研究生学位论文 有唯一的根元素a 起始标记和结束标记必须匹配。标记对大小写敏感。标记 之间不能有交叉。所有属性值需加引号。 x m l 通过d t d ( 文档类型定义) 来实现满足上述数据格式定义的要求。利用 d t d 可以定义元素、元素的属性以及元素和属性之问的关系;d t d 还可以定义语 法,而文档的语法反过来能够让x m l 语法分析器确认标记使用的合法性。d t d 可 以是一个完全独立的文件,也可以在x m l 文件中直接设定。所以d t d 分为外部 d t d ( 在x m l 文件中调用另外已经编辑好的d t d ) 和内部d t d ( 在x m l 文件中 直接设定d t d ) 两种。 d t d 的语法相当复杂,并且它不符合x m l 文件的标准,自成一个体系。一个 代替d t d 的就是w 3 c 定义的s c h e m a ,s c h e m a 相对于d t d 的明显好处是x m l s c h e m a 文档本身也是x m l 文档,而不是像d t d 一样使用自成一体的语法。这就 方便了用户和开发者,因为可以使用相同的工具来处理x m ls c h e m a 和其他x m l 信息,而不必专门为s c h e m a 使用特殊工具。s c h e m a 简单易懂,懂得x m l 语法、 规则的人都可以立刻理解它。s c h e m a 的概念提出已久,虽然w 3 c 的标准最近才出 来,相应的应用支持尚未完善,但采用s c h e m a 已成为x m l 发展的一个趋势。 x m l 链接和定位机制也是比较完善的,包括x l i n k 、x p a t h 和x p o i n t e r x l i n k 提 供了强大的链接方法,可以在文档之间建立单向或多向的复杂链接关系,还有注释 链接、概要链接、扩展链接等多种链接功能【9 】。 3 3 2 x m l 表现方式 x m l 最重要的特点之一是其数据和表现分离。x m l 有两种表现方式: ( 1 ) c s s ( 层叠样式表) 。即采用c s s 类似的文档方式来表现x m l 文档片段。 这种表现形式需要先生成文本格式的样式表,然后把样式表和x m l 文档结合。c s s 有以下不足:c s s 只能规定元素而不能规定属性的表现形式;x m l 的表现独立于浏 览器对c s s 的支持;每个输入元素仅能处理一次;不能为输出添加元素和其他内容; 不能实现条件或选择处理。 ( 2 ) x s l ( x m l 样式表语言) 。一个x s l 样式表集合了一系列设计规则,用于 从x m l 文件中抽取信息,并将其转换成h t m l 、x m l 或其他格式的文档。这种转 换采用了公开的方式,使其能够更加方便地被程序员描述;此外x s l 还将提供多种 脚本语言转换方式,以满足更为复杂的应用需求。 l o 太原理工大学硕士研究生学位论文 3 3 3x m l 文档的解析 x m l 解析有两种标准:s a x 和d o m ( 1 ) s a x ( s i m p l e a p if o r x m l ) s a x 是通过一系列事件来访问存储在x m l 文档中的信息。当发现一个新元素 时就产生一个对应事件,并调用相应的用户处理函数。这种方式占用内存少,速度 快,但用户程序相应得会比较复杂。 ( 2 ) d o m ( d o c u m e n to b j e c tm o d e l ) d o m i l o 】定义了访问x m l 文档数据的接口,它以分层次对象模型来访问存储在 x m l 文档中的信息,x m l 文档中的元素就是d o m 树中的节点对象。d o m 以x m l 文档的结构和信息为基础生成一棵节点树,程序员可以通过d o m 树来访问信息。 d o m 解析是一次性的将整个x m l 文档进行分析,并在内存中形成对应的树结构, 同时,向用户提供一系列的接口来访问和编辑该树结构。这种方式占用内存大,速 度往往慢于s a x ,但可以给用户提供一个面向对象的访问接口,对用户更为友好。 3 3 4x m l 应用过程 x m l 应用的过程一般包括以下三个部分,其过程如图3 3 所示 编辑器语法分析处理程浏览器或萁他工具 图3 - 3x m l 的压用过程 f i g u r e3 - 3a p p l i c a t i o np r o c e s so f x m l ( 1 ) 生成x m l 文档。x m l 是纯文本文件,所以可以利用一些编辑器创建,如 n o d e p a d ,a d o b ef r a m e m a k e r 等。 ( 2 ) 解析x m l 文档。x m l 的语法分析程序读取x m l 文档并检查其中结构是 否完整、定义是否准确。如果文档通过测试,则处理程序就将文档转换为元素的树 ( 网) 状结构。目前已有各种语言的多种解析器提供,如i b m 公司的x m l 4 j 和s u n 公司的p r o j e c t x 等。 ( 3 ) 显示x m l 文档。我们可以通过浏览器进行x m l 文档显示或转换成其它程 序,如数据可翻译成数据库的输入或要运行的j a v a 程序。 太原理工大学硕士研究生学位论文 第四章基于x m l 的w e b 挖掘技术 4 1 w e b 数据挖掘i f l 前存在的困难 如今w e b 数据挖掘所面临的问题有: ( 1 ) 异构数据环境。w e b 上的每一个站点就是一个数据源,每个数据源都是异 构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据 库环境。如果想要利用这些数据进行数据挖掘,首先,必须要研究站点之间异构数 据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图, 才有可能从巨大的数据资源中获取所需的东西。其次,还要解决w e b 上的数据查询 问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、处理 就无从谈起。 ( 2 ) 半结构化的数据结构。w e b 上的数据非常复杂,没有特定的模型描述,每 一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,w e b 上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数 据,这也被称之为半结构化数据【l 舶。半结构化是w e b 上数据的最大特点。 要解决这些难题就必须要有一个模型来清晰地描述w e b 上的数据,所以面向w e b 的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。 4 2 x m l 技术在w e b 数据挖掘中的应用 4 2 1 w e b 数据挖掘的系统逻辑架构 w e b 数据挖掘是由数据获取层、数据存储层和数据挖掘层,三个逻辑层次构 成的,如图4 1 所示: 1 2 太原理工大学硕士研究生学位论文 数据挖掘层 数据存储层 数据转按 数据获取层 图4 - 1w e b 数据挖掘逻辑层次图 f i g u r e4 - 1l o g i ch i e r a r c h yc h a r to f w e bd a t am i n i n g 数据获取层:负责对半结构化的w e b 数据进行模型抽取、转换和预处理,用结 构化数据表示,建立多层次的w e b 数据库和w e b 日志数据库。 数据存储层:实际上就是一个w e b 信息库,包括多层次的w e b 数据库和w e b 日志数据库。 数据挖掘层:负责提供各种数据挖掘算法,为w e b 数据挖掘提供有效的解决方 案,是整个系统实现的重点。 4 22x m l 技术在w e b 挖掘中的设计思想 面向w e b 挖掘是一项复杂的技术。x m l 的出现为解决w e b 数据挖掘带来了 机会。由于以x m l 为基础的w w w 环境是直接面对w e b 数据的,能够使来源于不 同结构化的数据很容易结合在一起。它不仅可以很好地兼容原有的w e b 应用,而且 可以更好地实现w e b 中的信息共享与交换,因而使搜索多样不兼容信息数据库成为 可能,从而为解决w e b 数据挖掘难题带来了希望。同时x m l 作为一种半结构化的 数据模型,可以很容易地将x m l 的文档描述与关系数据库中的属性一对应起来, 实施精确地查询与模型抽取。所以作为表示结构化数据的一个标准,x m l 为软件 开发者、w e b 站点和终端使用者提供了许多有利条件。 利用x m l 技术实现w e b 数据挖掘,其设计思想就是充分利用x m l 的特性, 根据用户的不同需求,将现有的w e b 页面中符合用户的有用信息抽取出来。其实这 里可以将w e b 页面转换成x m l 格式的文档,也可以利用x m l 文档中定义的内容 13 太原理工大学硕士研究生学位论文 直接从w 曲中抽取,但是无论什么方法,最终的目标都是从纷繁芜杂的w e b 信息 中尽可能准确的、高效地提取出符合用户要求的知识。 4 2 3 基于x m l 的w e b 挖掘系统原型 根据对w e b 数据挖掘系统的逻辑架构和x m l 技术在w e b 数据挖掘中的实现原 理的研究,我们可以得到基于x m l 的w e b 数据挖掘的原型,如图4 2 所示。 系统各模块内部功能相对独立,但它们之间又是相互联系、协同工作的。数据 采集器根据用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论