




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【数据挖掘技术在Web环境下的应用】数据挖掘技术与应用 摘 要数据挖掘和World Wide Web是当前计算机科学两个重要的研究领域,将二者结合起来就形成了新的研究领域Web数据挖掘。Web数据挖掘是从上发现和分析有用的信息,帮助人们从中提取知识,改进站点设计,提供个性化服务。本文侧重于Web挖掘系统自身的构建,建立了一个基于数据挖掘技术的Web挖掘系统的原型Web_Dms,为了提供一个实用的Web挖掘工具的模型,帮助人们更有效地从Web上获取知识。最后本文以股票系统为例简要介绍Web挖掘系统原型在实际领域中的一种应用。 关键词数据挖掘技术Web挖掘Web_Dms TP3A1007-9416(xx)03-0072-04 1 前言 近年来,Inter的迅速发展,使其成为全球信息传递与共享的日益重要和最具潜力的资源。虽然Inter上有大量的信息,但由于Web是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文件,使人们迫切需要一种能从Web上快速、有效地获取知识的工具。信息检索界开发了许多查找引擎,但其覆盖率有限、精度不高,无法用于Web上潜在知识的发现。Web不仅为新技术的产生开辟了新的领域,也为传统技术的研究提出了新方向。将传统的数据挖掘技术和Web结合起来,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的信息,进行Web挖掘,成为数据挖掘的一个重要和繁荣的子领域。通过Web挖掘,可以帮助人们更有效地从Web中获取知识。Web挖掘从数据挖掘发展而来,与传统的数据挖掘相比又有许多独特之处。传统的数据挖掘的对象限于数据库中的结构化数据,利用关系表格等存储结构来发现知识,而Web挖掘的对象是大量异质、分布、半结构化的Web数据,自身的特殊性决定了Web挖掘无法直接应用传统的数据库领域的挖掘方法和模型1。如何解决Web数据规范化和预处理的问题,使挖掘系统与数据库紧密祸合,提供一个集成的信息处理环境,成了Web挖掘的前提。 Web挖掘是一项综合技术,涉及Web,数据挖掘、信息学、计算语言学等多个学科,目前尚属一个较新的研究领域,正处于发展阶段,尚无统一结论。不同领域的研究者对Web挖掘有着不同的理解,项目开发也各有其侧重点。数据挖掘领域的研究往往将重点放在局部的具体挖掘算法的设计、分析和改进上,很少对挖掘系统本身的构建进行讨论,而Web挖掘系统是一个有机的整体,各个部分之间有着密切的关系。单纯地研究算法而不仔细对系统结构进行分析,势必导致各种算法之间的重复工作,不利于多种不同算法的嵌入;而且对算法来讲,只有与系统其他模块紧密结合,才能充分发挥作用。 鉴于目前Web挖掘的研究正处于发展阶段,相关技术不是很成熟,投入实际运作的系统并不多见,而且往往带有很强的专业领域性,一般都针对一种Web对象。因此,有必要构建一个通用的面向多种Web数据的挖掘系统原型,为Web挖掘工具的开发提供一个实用的模型,指导实际的Web挖掘系统的开发,推动Web挖掘理论的研究。 2 Web数据挖掘系统原型 Web_Dms是一个具有基本挖掘功能的面向多种Web数据的挖掘系统原型,它集成了Web内容挖掘和Web使用挖掘,通过设计Web挖掘方法库的调用方法和接口规范,将多种挖掘算法集成为一个单独的模块嵌入系统中,并与系统其他模块间紧密结合,共同完成Web上的数据挖掘。为了更方便地加入和替换挖掘方法,把此方法做成呼叫库的形式,就可以用选项来选择挖掘方法。 Web挖掘系统原型Web_Dms框架如图1所示。 2.1 Web数据挖掘系统原型的工作机理 系统各个模块内部功能相对独立,但它们之间又是相互联系协同工作的。数据采集分类器根据用户要求搜集Web资源,经数据抽取/转换器、预处理器、和过滤器分别处理成相应的数据存储形式供挖掘综合器使用;挖掘综合器根据挖掘要求从算法库中选择适当的方法进行挖掘,并将挖掘结果输出;用户根据自己的满意程度,或结束任务,利用挖掘结果指导相应工作,或调整挖掘要求进入新一轮挖掘。通过维护系统可以加入新的挖掘方法,实现对系统的升级。各模块具体功能如下: 2.1.1 数据采集分类器 从Web上采集数据并分类存储,获得挖掘的对象。针对Web上不同数据资源,可以多种方式提出要求,有关于Web内容的、Web使用的和Web上电子商务交易信息的。其中有关Web内容和Web使用的数据是Web_Dms重点研究的对象。 2.1.2 数据转换/抽取器 利用可扩展标记语言XML的优势,对Web文档进行预处理,建立半结构化数据模型,抽取代表其特征的元数据,用结构化的形式保存,构造基于Web的多层数据库,提供Web文档的多维视图,用多维文本分析技术揭示文档集合的特征,解决其查询与集成问题。 2.1.3 预处理器 Web日志文件存储用户访问信息的原始记录,在应用挖掘算法或工具之前,对Web日志数据进行清洗、过滤和转换等预处理,将它们转变成易于系统统一处理的数据结构,形成Web日志数据库。根据挖掘要求生成Web日志数据立方体,进行多维数据分析,使用户能多角度、多侧面地观察和分析数据。 2.1.4 过滤器 从Web服务器上的数据库中抽取相关数据,进行歧义性分析,消除不一致性。这些是传统的关系数据库中数据,如客户登记信息等存储电子商务的信息,将它们和访问日志集成,有助于提高Web挖掘的准确度。对这些结构化数据可以按照传统数据库中的数据挖掘方法处理,本文没有作为重点讨论。 2.1.5 挖掘综合器 挖掘综合器是一个挖掘驱动引擎,是一个方法选择专家。不同的挖掘算法有不同的适用情况,挖掘综合器根据要求和挖掘方法的选择策略到挖掘算法库中去选择最合适、有效的挖掘算法或几种算法的序列组合,以便执行挖掘任务。 随着应用的深入,该知识库可以不断融入新的规则,增加智能性。 2.1.6 Web数据挖掘方法库和方法选择专家系统 挖掘方法库是一个数据挖掘分析方法的综合性算法库,它以插件的方式组织存放各种挖掘算法。各种挖掘算法高度模块化,以便很容易地加入新的算法,实现可扩展性和易选择性。方法选择专家系统提供给用户一个增加新方法的接口,通过它用户可以选择和添加新方法到挖掘方法库中。并且可以通过参数来执行算法的选择。 2.1.7 挖掘结果报表输出 以直观的方式提交数据挖掘的结果,提供一个和分析人员交互的友好界面,便于用户对挖掘结果进行评估。 2.1.8 结果评估界面 进行模式分析和兴趣度度量,挖掘结果令用户满意则本次挖掘过程结束,输出用户感兴趣的挖掘结果,否则可以在此重提挖掘要求,然后重新进行挖掘。 2.1.9 方法驱动模块 利用挖掘出来的有用信息,进行相应的工作。如修订Web页面内容,改进Web服务方设计,为用户定制个性化的界面,提供个性化的电子商务服务等等。 2.2 Web挖掘算法库的调用 Web挖掘任务通过调用有机组织的算法库实现,系统通过元数据记录各算法的存储位置、输入输出参数及规则的表示形式等,采用动态链接库(DLL)的形式加载到Web_Dms中,与系统顺利集成。另外,算法的接口具有统一的标准,使不同的挖掘步骤能一致地调用算法,而且容易加入新的方法。 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文 2.2.1 挖掘算法的元数据 各种挖掘算法的详细信息主要通过元数据类来描述,元数据中包含对算法的功能,用途及使用方法等信息的详细说明。 namespaceAlgorithmApplication Public class Algorithms Attributes: 属性 AlgorithmID 算法ID AlgorithmName 算法名称 AlgorithmType 算法类别(分类、聚类、关联、序列等) AlgorithmFile 算法库DLL文件的路径 AlgorithmFunction 算法函数定义 AlgorithmParas 算法参数声明 Remark 算法的说明信息 SourceTableFormat 源数据表格式 TargetTableFormat 目标数据表格式 Evaluation 对算法结果的评估方法 Methods: 方法集 Update() 算法更新 在建立Web挖掘任务模型时,任务向导将根据这些信息引导用户逐步选择合适的算法、设置各种参数,将算法的存储位置、函数接口定义、参数设置以及数据源设置等信息传递给外部调用函数,从而实现算法的调用。通过元数据记录挖掘算法的描述信息,使得挖掘算法像数据库中的数据一样易于操作。 2.2.2 可扩展的实现 各种挖掘算法在元数据中登记注册,以动态链接库DLL的形式实现。采用DLL方式实现各种挖掘算法有两个主要的优点: (1)以DLL可执行代码实现的算法在系统运行时动态载入,为系统节省了部分内存的开销,保证了算法的执行效率; (2)DLL算法库独立于系统而存在,便于维护、升级和扩展,增强了系统的可移植性,有良好的通用性。 系统提供专门的算法管理模块来查看和维护各种算法的有关信息。用户还可以按照一定的规范加入新的算法DLL,在算法管理模块中注册,从而实现算法库的可扩展性,使整个挖掘系统具有很强的灵活性和通用性。 (3)挖掘算法的接口规范 系统尽可能提供全面的挖掘方案,但对于某些特定的挖掘任务,系统提供的算法可能难以胜任,为此必须提供一个开放的、灵活通用的接口,使用户能够加入新的算法;同时各种挖掘算法高度模块化,也使得新的方法容易加入,升级整个系统。维护系统正是提供给用户的一个增加新方法的接口。 用户在编写自己的算法生成动态链接库DLL文件时,须提供系统元数据中要求的信息并符合算法调用参数的格式。系统通过这个接口注册参数信息,挖掘算法通过传递参数,访问元数据的算法参数信息表,获得所需要的输入参数和数据,使挖掘算法和挖掘任务有机结合。 3 Web挖掘技术应用于股票系统 3.1 Web上的股票系统 随着经济和信息产业的发展,利用Web技术实现带有股票学习、股票推荐和股票交易等功能的电子商务网站,来克服传统上在时间、空间上的限制,提供一个专业性的可以在线学习与交流、对股市行情进行及时预测、并为股民提供在线交易等全方位的优质服务,已成为当今 _发展的需求。目前基于Web的股票导航和股票交易等商务网站在国内外已经发展起来,许多企业和交易中心都建立了有自己特色的股票商务网站。而此股票商务系统是指将普通的股票培训与股票交易放到一起,来为不同层次不同需求的各种用户服务。它包括股票培训系统、答疑(FAQ)系统、信息交流系统、个股推荐系统、在线交易系统等,如图2所示 Inter上的股票站点的模型如图3所示,主要包括两部分:服务器端和客户端。 服务器是运行整个股票系统的后台,客户端是一个Web浏览器,它们通过Inter连接在一起。在这种B/S模型中,股票学习资源和商业事务信息都保存在服务器端,整个系统通过主页的形式在浏览器中运行,包括知识的学习、答疑、交流以及信息推荐和在线交易等,用户仅需要通过一个Web浏览器访问站点就可以进行学习或进行在线交易。用户根据自己的具体要求,向服务器提出请求,各种资料或信息在服务器上是一组相关的Web页面,可能包括文字、图形甚至音频、视频文件,服务器收到用户请求后取出相应内容和信息并返回给用户,最终由浏览器显示给用户。 传统的商务网站,以系统自身为中心,并没有充分考虑用户需求与习惯,没有充分按照个人的信息需求、学习规律和生活模式进行,站点基本上都是静态的,培训资料、答疑信息一旦放上去就很少变更,造成了交互性差,使用户学习乏味水平提高缓慢,预测信息缺乏准确性,无法区分不同客户群的共同特征,叶面浏览用户逐渐减少等诸多问题。一方面,设计者无法知道内容的设计是否合理,是否符合用户学习规律,页面之间的超文本链接是否合乎用户的访问习惯;所有用户看到的内容几乎都是一样的,缺乏个性,无法根据用户的自身条件提供适合的学习进度和内容,不能做到因地制宜,而且无法知道用户潜在的需求,也无法从用户群的交易模式中发现其潜在市场信息。另一方面,站点上积累了大量有用的信息,如用户的注册信息、访问信息,学习进度、FAQ信息、交流信息、交易信息等没有被利用,资源极大地浪费。因此,急需建立一个能充分利用这些有用信息的智能化、个性化的商务网站,为用户和企业服务。 3.2 Web挖掘技术应用于股票系统 Web挖掘将传统的数据挖掘的思想和技术应用于Web,能充分利用Web上的信息资源,分析、挖掘出人们感兴趣的、有效的、有价值的模式和规则。利用本文提出的Web_Dms原型,构建一个基于Web挖掘的股票教育和交易环境,能够充分利用站点上积累的丰富的信息,更好地服务于客户与企业,如图4所示。 3.2.1 了解客户行为 (1)通过了解查找者的动态行为来最佳化电子商务网站的经营模式; (2)发现顾客的交易方式和查找者的浏览模式; (3)可以获知查找者的个人爱好; (4)决定客户从学习者到交易者的转化率; (5)决定顾客的回头率(继续学习,再次交易)。 3.2.2判断Web网站的效率 (1)Web设计者不再完全依靠专家的定性指导来设计网站,而是根据查找者的信息来修改和设计网站结构和外观; (2)商务人员可以锁定不同客户提供个性化的服务。 3.2.3 评估电子商务模式的成功与否 (1)容易将客户按照模式分类;(2)容易评估广告的投资回报率;(3)容易得到可靠的市场反馈信息。 因此Web Mining为网站的设计者提供改进站点设计的信息,为管理者提供用户的浏览模式信息,重构页面之间的链接,使之更符合用户的访问习惯; Web Mining模块使企业能够针对某些用户提供更优质的个性化服务,制造更多商机(例如针对某用户及时调整培训内容的分布,提供给某些用户个性化的股票信息,使更符合用户水平的提高和方便用户交易) 。用户亦可根据自身的情况,安排自己的充电方式和认知方式,做到事半功倍。 4 结语 Web自身的复杂性决定了Web挖掘不能直接套用传统的数据挖掘的模式,本文从Web挖掘系统自身的构建入手,通过查阅国内外大量相关资料,就如何高效地挖掘Web上数据从而发现知识做了较为深入的研究,给出了一个基于数据挖掘技术的面向多种Web数据的挖掘系统原型Web_Dms。所做的主要研究工作如下: 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文 4.1 应用数据挖掘的思想和技术,构建基于数据挖掘的Web_Dms原型 在实现方法上,将集成了多种数据挖掘算法的Web挖掘方法库作为一个模块嵌入系统中,通过规定其接口规范和调用方法,使之与系统其他模块紧密结合,共同完成Web上的数据挖掘。 4.2 简要分析了Web挖掘在商务股票网站中的应用。 基于DM的Web_Dms原型为Web挖掘工具的开发提供了一个实用模型,它的价值体现在: (1)集成多种Web数据,综合了Web内容挖掘和Web使用的挖掘,并使Web挖掘系统与数据库紧密祸合,为Web挖掘提供了一个集成的信息处理环境。 (2)突破了以往数据挖掘领域通常将研究重点放在局部的具体挖掘算法上的局限,侧重于Web挖掘系统自身的构建,提高了系统整体性能,有利于挖掘功能的有效实现。 本文提出的基于数据挖掘的Web挖掘系统的原型Web_Dms对指导实际的Web挖掘系统的开发具有一定的参考价值,对Web挖掘的理论研究也将起到一定的推动作用。然而,鉴于Web挖掘是一项综合技术,涉及多个学科,目前尚属一个较新的研究领域,正处于发展阶段。因此,Web挖掘系统的原型仍需进一步研究和不断完善,今后的主要工作有: (1)咨询各专业领域专家,继续深入研究数据挖掘方法的理论,设计更多的Web挖掘部件以丰富Web挖掘方法库的功能。 (2)收集大量应用数据,继续探索如何将Web挖掘系统原型更广泛地应用于实际工具的开发,增强原型系统的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年音乐专业考级考试试卷及答案全解析
- 2025年音乐教育与艺术表达能力测试卷及答案
- 2025年艺术设计专业入学考试卷及答案解析
- 2025年教育管理与领导力硕士入学考核试卷
- 2025年健康管理师考试试题及答案
- 2025年环境保护法专业研究生入学考试试卷及答案
- 2025年护理管理与实践能力测试题及答案
- 2025年公共艺术与文化传播专业综合能力测试题及答案
- 物资装备使用管理制度
- 特价餐饮设备管理制度
- 北京市顺义区2023-2024学年五年级下学期数学期末试卷(含答案)
- 2025年高考真题-英语(全国一卷) 含答案
- 2024年佛山市顺德区龙江社区卫生服务中心招聘真题
- 2025年防范和打击非法金融活动竞赛题库300题(含答案)
- 北京2025年04月中国工程院战略咨询中心招考10名劳动合同制人员笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025浙江中考:历史必背知识点
- 汽车故障试题解析与解读试题及答案
- 【MOOC】大数据与法律检索-湖南师范大学 中国大学慕课MOOC答案
- 2024年四川省乐山市中考地理·生物合卷试卷真题(含答案)
- 40篇短文搞定高考英语3500词(共42页)
- 工程材料与成型工艺说课
评论
0/150
提交评论