


已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘英文论文数据挖掘的论文Web数据挖掘中XML的应用研究摘要:网络的普及基于信息的获取,随着Html技术的发展,数据信息与日俱增.面对浩瀚如烟的信息,要想得到想要的、有用的的信息,必须要对Web信息进行挖掘。而对于Html语言的数据,结构性很差,Web数据挖掘工作很难满足搜索的需要。XML语言的出现极大的改观了这一现状。由于它具有良好的结构性、层次性,所以利用它组织网络页面信息,更有利于进行数据挖掘工作。通过对XML语言的介绍,提出一个基于XML的Web Miner模型,认识XML在Web数据挖掘中的应用。 关键词:HTML;XML;电子商务;Web数据挖掘 XML Web Application Studies In Data Mining NIU Yan-cheng1, BAO Ying2 (1.Lanzhou Jiaotong University, Lanzhou 730030, China; 2.Northwest Normal University, Lanzhou 730070, China) Abstract: The popularization of the Internet is based on the acquisition of information. As the Html technology developing, a number of data information is growing. Facing with the massive information, we must explore the Web information that we wanted and useful. But for the Html language data, its structure is very poor. So the exploration of the Web data is hard to meet the needs of searching. The emergence of the XML language has changed that situation greatly. XML language has good structural property and organizational property, which used for organizing the network information is more conducive to the data mining work. The goal of this paper is to recommend a Miner model based on XML Web by the introduce of the XML language and to know the application of XML Web in the data mining. Key words: HTML; XML; e-commerce; web data mining 随着Internet的迅速发展与普及,我们进入了一个数据信息时代。当我们在互联网上搜索自己想要的信息时,面对浩瀚如烟的数据,我们由于缺乏有效的工具与方法,常常会有这样的感觉,如此庞大的信息,却没有我们想要的信息。如此,就有了“入宝山而空手返”的遗憾。于是一项新的挑战,新的技术被提了出来。在这信息爆炸的时代,我们如何才能从中提取有用的信息,提高信息的利用率呢?当今,网络搜索引擎,解决了一部分的问题,但是由于其精确度不高,所以很难让用户满意。Web数据挖掘(Web Data Mining)技术应运而生,已经产生了一些产品,可以对Internet上的信息进行筛选,但是数据库上的数据时结构化的数据,而Web上的数据是无结构化或半结构化的,所以,对Web上信息的挖掘要比对数据库中信息挖掘难的多。这就需要先对页面信息进行重组。 1 HTML与XML HTML(Hyper Text Mark-up Language )即超文本标记语言,是WWW的描述语言,由Tim Berners-lee提出,HTML对整个WWW 的发展、 知识与信息的流通起了关键的作用, HTML成了Internet上通行最广的标准格式。 HTML是一种面向数据显示样式的标签语言,主要描述文档的标题、字体、颜色等外观方面的属性,由于HTML语言的特点,在进行Web页面信息的开发时,站点的数据都是由开发人员自行设计放置的, HTML只提供如何在浏览器中显示信息的方式, 并没有反映数据本身所包含的语义。HTML数据本身具有自描述性和动态可变性等一系列复杂的特性。在这种情况下, 进行WEB数据挖掘,复杂性是非常高的, 所以很难做到精确搜索。 XML全称是Extensible Markup Language(可扩展标示语言),它不像HTML那样有固定的形式,所以是得SGML标准能在互联网上应用自如。XML并不是一个独立的、预定义的标识语言,它属于一种元语言,即用来描述其他语言的语言。XML允许用户自己设计自己的标识,必然与其他许多技术相关,所以不能独立的对待。由于XML具有以上的优点,所以目前它在业界中得到广泛的应用。 2 Web数据挖掘 过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据元。Web数据挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的而信息。依据在挖掘过程中使用的数据类别,Web挖掘的任务可以被划分为三种主要类型(如图1所示):Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘从表征Web结构的超链接中寻找知识。Web内容挖掘从网页内容中抽取有用的信息和知识。而Web使用挖掘则从记录每位用户点击情况的使用日志中欧挖掘用户的访问模式。 3 XML文档的基本结构 love xiaohudui 2009 zhenaiwudi xuruyun 2010 在这个文档中: 表示歌曲元素的开始与结束的标志(TAG); 表示某个歌曲介绍的开始与结束标志(TAG); 、表示歌名元素、歌手、日期的开始与结束标志(TAG); XML 通过层次关系表现了元素之间的所属关系, 其层次关系图图2所示。 4 XML是Web数据挖掘良好的中间载体 以XML(extensible Markup Language)为基础的新一代WWW环境直接面对Web数据,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。XML的这些特点使它自然地成为Web数据挖掘良好的中间载体。 XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。XML的数据集成、发送、处理和显示过程如图3所示。 1) 底层DATABASE的数据是多样的。 2) Web服务器与底层数据库相连。 3) 在Web服务器和XML处理层之间,XML通过HTTP交换,通过DOM处理数据。 4) 在XML处理层,对数据进行进一步的XML处理。 5) 经过XML处理的数据最终在Web上显示。 5 XML在Web数据挖掘中的应用 XML 是一种标记语言,具有简单、开放、高效可扩充和标准际化等特点。它可被看作一种半结构化的数据模型,能很容易与关系数据库中的属性一一对应,实施精确的查询与模型抽取,方便地实现数据挖掘。XML 在Web 数据挖掘中的应用分析如下: 5.1 负载处理 从web 服务器转到web 客户端,减小了Web服务器的压力,是分布计算成为可能。一般来说,数据挖掘的最重要的环节是数据处理阶段,Web数据挖掘更是如此,很大部分数据处理工作都需要在服务器端完成。传统的C/S开发模式,原理是:客户端向服务器端发送请求,服务器端对客户端的请求做出响应。但是,客户端的请求时多种多样的,对于不同客户端请求,服务器端要分别予以响应,这样就不仅加重了服务器本身的负荷,而且网络管理员还需要事先调查不同用户的需求,开发出相应的程序。一般来说,用户的需求是复杂多变的,这样就意味着将所有业务逻辑集中在了服务器端,显然这样是不合适的。服务器端来不及满足众多应用需求,也无法适应需求的变化。而利用XML语言进行数据处理,就将主动权交给了客户。它的原理是:服务器端准确的将数据封装成XML文件,然后发给客户端。客户端呢,根据自己的需求选择制作不同的应用程序解析所接受的数据,并对数据进行处理。因而使分布式计算成为可能。 5.2 异构数据的集成管理 XML 是一种半结构化的数据模型。用户可以很容易地将其和关系数据库中的属性一一对应,实施精确地记录、查询与模型抽取。因此,XML 解决了每一个站点之间信息和组织都不一样的问题,使不同站点上的非结构性数据可以很容易地规范到一个既定数据库上。软件代理商可以在中间层的服务器上,对从后端数据库和其他应用获取的数据进行集成。 5.3 促进数据交换 在Web 数据挖掘过程中,用户需要在不同结构的数据源之间进行业务数据传递.基于XML 的数据是自我描述的.利用XML,用户可以方便地进行本地计算和处理.XML格式的数据发送给客户后,客户可以方便地解析数据,并对数据用不同的方法进行编辑处理,而不仅仅是显示它,XML文档对象模式(DOM)允许用脚本或其他编程语言处理Web数据,数据计算不需要回到服务器就能进行.总之,在其中,XML 解决了数据统一接口问题.但是,与其他的数据传递标准相比,XML 并没有定义文件中具体数据规范,而是在数据中附加标志来表达数据的逻辑结构和含义,这使得XML 成为一种程序能自动理解的规范. 5.4 信息内容的自由裁剪 传统HTML描述的主要是数据的外观,而XML描述数据类别。由于数据显示与内容分开,XML允许为数据指定不同显示方式,使数据更合理地表现出来。由于XML显示与内容的分离,XML可以对所获得的信息进行二次筛选和编辑以适应不同的用户需求:它采用简单灵活的格式分离使用者观察数据的界面,将同样的数据以不同浏览形式提供给不同用户。 6 XML在电子商务WEB挖掘中的应用 电子商务中的数据时异构化的,我们可以先转换为XML格式,然后再运用相应的Web数据挖掘技术进行数据分析。 对于WEB上的电子商务信息,我们可建立如图4的模型。 该模型的基本思想和一般流程为:XML文档、HTML文档以及关系型数据库为异构的数据源。而XML转换器封装了HTML文档、关系数据向XML格式转换的工具。Web数据挖掘器封装了Web数据挖掘的各种技术,并与处理XML的Java应用编程接口(Java API for XML processing)等模块集成,以中间件的形式植入电子商务系统解决实际应用问题。此应用模型中有许多细节工作仍需要人工完成。 7 结束语 Web数据挖掘是一种新颖的研究领域,它与传统的数据挖掘不同,由于Web数据是一种非结构化的数据,这给它的数据挖掘带来了困难一种伟大的语言XML很好的解决了这个问题,由于它也是一种非结构的数据模型,因此,它的出现使基于Web的数据挖掘有了很大的简化本文在这两者的基础上,分析了XML语言在Web数据挖掘中的应用,并提出了一种基于XML的电子商务Web数据挖掘模型,该模型能很好地体现XML的优越性,并有效地实现Web数据的挖掘 参考文献: 1 张健飞.XML实用培训教程M.北京:科学出版社,2003. 2 Steven M.Schafer.HTML,XHTML and CSS BibleM.4版.北京:人民邮电出版社,2009 3 Bing
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工设备自动化升级工艺考核试卷及答案
- 热注运行工协同作业考核试卷及答案
- 铁路机车电工专项考核试卷及答案
- 货检值班员设备维护与保养考核试卷及答案
- 公司行政公文财务商务等事务知识测试卷
- 货物运输协议
- 屋顶防水公司员工保密合同
- 股权转让协议书
- 银行资管考试题库及答案
- 【课件】数轴+课件2025-2026学年人教版(2024)七年级数学上册+
- 24年追觅在线测评28题及答案
- 智能建造施工技术 课件 项目1 智能建造施工概论;项目2 土方工程;项目3 基础工程
- 部编版二年级语文上册《植物妈妈有办法》教学课件2篇21
- 情侣解除关系的协议书
- 精神卫生防治业务技能竞赛理论试题及答案
- 中译版 欧洲规范8 结构抗震设计 第二部分 桥梁
- 幼儿园大班语言《鹅大哥出门》课件
- 品质异常处理流程培训
- 《陆上风电场工程概算定额》NBT 31010-2019
- CFG桩复合地基沉降及承载力自动计算
- 《班会课件:如何做好一名班干部》
评论
0/150
提交评论