已阅读5页,还剩116页未读, 继续免费阅读
(计算机科学与技术专业论文)多数据源协同条件下的数据挖掘和知识发现系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
些缝是皇善感骤 一栅槠 1 前言 1 1 项目研究的背景 面对市场开放、全球化和加入w t o 的挑战,加速企业经营管理信息化和智能化是中国 企业增强市场竞争力,开拓更广泛的发展空间,抢占更大的市场份额的关键。数据挖掘( d a t a m i n i n g ) 和知识发现( k n o w l e d g ed i s c o v e r y ) 作为商务智能( b u s i n e s si n t e l l i g e n c e 或b 0 的核心 技术,成为企业经营管理智能化的关键问题之一。自上个世纪九十年代起,国际大型企业普 遍开始采用商务智能技术使企业经营管理更新换代。成功的企业,如沃尔玛超级连锁店,可 以在短短几年内成为本行业第一大企业。调查统计显示,企业对商务智能的投资回报率在 2 - 3 年内可高迭4 0 0 。中国企业对商务智能技术的认识还刚刚起步,只有少数大型企业引 进了商务智能技术,如宝钢股份有限公司。目前商务智能技术还掌握在国外公司手中,这就 对中国企业采用这类新技术加大了成本。更重要的一点是这些国外技术对中国企业,特别是 制造行业的适应性差,因为这些软件在开发时没有考虑中国企业管理的特点。要求国外公司 按中国企业特点修改他们的软件产品,要价是惊人的。全面采用国外软件也不利于中国相关 软件产业的发展。本项目致力于: 开发具有自主知识产权的数据挖掘和知识发现技术,研究开发多数据源协同条件下的 数据挖掘和知识发现系统,用以推动企业的信息化和智能化进度,推动我国的企业智能软 件产业的发展。 目前,数据挖掘和知识发现技术及其应用的发展日趋成熟,i b m 、s a s 、s p s s 、m i c r o s o f t 、 s g i 等公司都已经推出自身的数据挖掘或知识发现产品,此外还有c o g n o s 、b u s i n e s s o b j e c t s 、b r i o 、s y b a s e 、o r a c l e 等一些独立软件制造商的数据挖掘知识发现相关软件产品。 国内i t 系统集成商已经开始了数据仓库应用的推进。早在1 9 9 7 年,南天公司就与建行合作, 在建行的信贷管理系统中,构建了信贷管理系统中的数据仓库及一些相关应用,1 9 9 8 年在 建行全行范围内推广,取得了一定的应用价值。随着电子商务技术的发展国内越来越多的 行业和公司都在建立自己的数据仓库,但是在商务智能方面与国外的公司相比差距较大,最 主要的原因在于未能有效而全面地进行数据仓库基础上的数据决策分析,而其关键就在于数 据挖掘和知识发现技术的运用。 作为商务智能系统中的核心技术,数据挖掘自九十年代以来就已成为计算机、统计学等 领域的研究热点。目前已开发出一大批数据挖掘算法,然而它们多注重于算法的有效性和性 能,并不能满足复杂的实际应用的需求。九十年代中期,一些研究机构开发了集成的数据挖 掘系统,例如q u e s t ( i b m a l m a d e n 实验室) 、d b m i n e r ( 加拿大s i m o n f r a s e r 大学) 等。 然而,这些产品在标准化、易用性、稳定性、可扩展性等方面仍存在问题,尚处于实验室阶 段。近两年,一些软件厂商和数据挖掘研发组织开始着手制订数据挖掘操作的标准接口,其 中影响较广的有m i c r o s o f f 公司制订的o l e d bf o rd a t am i n i n g 标准和d m g 组织制订的基 于x m l 标准的p m m l 预测模型描述标准。它们的共同特点是:面向独立的数据挖掘操作, 操作之间缺乏交互性和互操作一陛。同时,统计软件,一商、数据库厂商、决策系统方案提供商 纷纷推出数据挖掘模块或软件包,例如,m i c r o s o f t a n a l y s i s s e r v i c e s ( 随m i c r o s o f ts q l s e r v e r 2 0 0 0 提供) 、1 1 3 mi n t e l l i g e n tm i n e rf o rd a t a 、s a se n t e r p r i s em i n e r 、s g im i n e s e t 等。这些产 多数据源协同条件下的数据挖掘和知识发现系统 第4 页共1 2 3 页 z 攫妻琏皇善黧群 上黻默学企业博士后蜊陪 品不能或只能部分地支持数据挖掘操作标准,且没有统一的、灵活的数据挖掘流程定义方法。 在国内,中科院计算所、清华大学、中国科技大学、哈尔滨工业大学、南开大学、四川大学 的一些实验室和复旦大学数据挖掘课题组在过去的几年里分别开展了对数据挖掘技术的研 究工作,开发了一些通用的数据挖掘系统和新的数据挖掘算法,并在一些企业中得到了应用。 然而,据我们所知,国内对于数据挖掘、数据挖掘和制造业信息系统的集成、数据挖掘在商 务智能系统中的应用方面的研究工作仍然较少。 1 2 项目研究的内容 本项目研究的最终目标是要形成我们自主知识产权的通用数据挖掘平台和产品,适用于 企业内部的遗留系统多、缺乏统一数据分析平台的问题。为实现这样的研究目标,我们要研 究开发具有自主知识产权的数据挖掘和知识发现技术。 本项目重点研究的技术包括下列五个内容: 面向企业的生产、经营、管理、营销和客户服务过程的智能化和对数据挖掘、知识 发现技术需求的分析( b u s i n e s sr e q u i r e m e n t a n a l y s i s ) ; 针对异型、异构、异形多数据源设计数据表示、提取、清洗引擎a t ap r e p a r i n g e n g i n e ) ; 基于成熟的数据挖掘算法,能处理多数据源和大量复杂数据的多功能数据挖掘引擎 ( d a t am i n i n ge n g i n e ) ; 适合企业用户使用的终端用户产品; 数据挖掘技术在企业数据仓库的应用。 其主要目标是总结分析企业对商务智能技术及解决方案的具体要求,针对具体要求,开 发新的适用的数据清洗和数据挖掘引擎并在项目合作企业内应用,最终转换成有实际应用价 值的应用软件产品。 以下是五个方面具体的研究内容: 对宝钢等企事业单位的数据挖掘和知识发现技术需求的分析 随着中国企业制造业信息化的进一步实施,企业信息系统中数据信息的数量以及复杂性 也随之大幅度地增长,因此如何利用企业内部现有数据资源收集知识,进而做出正确战略决 策已经成为越来越多企业关注的焦点。本课题准备在深入调研宝钢生产运营的基础上,以支 持企业快速决策为目标,对宝钢的数据挖掘和知识发现技术进行详细的需求分析,主要研究 内容包括: 研究企业生产、供应、销售以及客户化进程中突出的商业问题及其建模技术; 研究面向企业整体解决方案的数据挖掘实施方法学; 研究数据挖掘系统与现有的企业电子商务平台及其它企业信息基础设施的集成技术; 多数据源的数据e t l 引擎 由于存在着具有不同数据模型、数据模式和数据表示的多数据源协同环境,这部分的研 究旨在针对数据挖掘操作的特定要求,对数据进行高速提取、转换和清洗的技术,主要包括 以下四个方面: 快速的数据存取技术,包括缓存、预读、队列等技术; 对统一的数据的描述内部标准的研究,我们计划使用x m l 作为中间数据传输格式: 快速数据转换的定义以及实现技术; 对于来自于不同数据源的数据的合并、重复数据的去除、异常数据的检测和纠正等技术: 数据挖掘引擎 多数据源协同条件下的数据挖掘和知识发现系统 第5 页共1 2 3 页 国,矬鑫聪曩熬j | : 上敞通大学企业魁后恻。告 这部分旨在研究数据挖掘核心技术以及它们在多数据源协同环境下的改进,着重研究如 何采用新颖有效的算法来实现这些数据挖掘操作,使它们能够高速有效地处理制造业中常面 临的大规模数据、复杂数据以及类型多样化的数据。具体的研究内容包括以下七个方面: 有效高效的数据挖掘算法。数据挖掘算法包括聚类算法、分类算法、决策树算法、关联 规则算法、时序模式发现算法等。它们是商务智能系统中的核心技术,是其他多种技术和模 块实现的基础,其正确性和效率壹接影响到整个系统的性能表现。针对现代制造业企业拥有 的数据量大的情况,数据挖掘算法要求具有良好的速度和性能,伸缩性强: 准确的数据读取预测技术。数据读取预测技术要求针对特定算法,准确预测将要读取的 数据,以此通知数据预处理引擎,达到多数据源之间的协调; 新颖的数据挖掘操作。包括例外规则发现、可视化聚类验证、时序数据的挖掘操作等, 这些是数据挖掘领域新的研究课题,在实际中有着广泛的应用背景,然而现有的数据挖掘软 件中很少实现这些算法。这是我们需要研究的内容之一: 数据挖掘操作之间的有机结合。不同的数据挖掘操作或算法是针对不同种类的数据、不 同种类的知识发现任务而开发的。为了保证这些数据挖掘操作能够在统一的体系结构中良好 地相互协作,需要研究这些操作的结合。这部分的研究包括:数据挖掘操作之间的有机结合 ( 例如聚类分析和分类的结合、关联分析和时序发现的结合、分类和回归分析的结合等) 、 数据挖掘操作的模块化、数据挖掘操作与数据库管理系统的集成; 适合企业用户使用的应用产品 这部分研究旨在将研究成果转化为有实际应用价值的应用产品和适合于用户使用的终 端用户界面。整个商务智能系统的目的是使企业用户可以利用数据挖掘工具对企业的产供销 等各个阶段进行跟踪和监测,为正确的商业决策提供有力的信息支持,而这一切信息都是通 过产品终端界面提供给用户的。应用产品终端界面的设计和实现直接影响到整个系统的可用 性。总体来说,用户界面要求具有灵活易用的特点,要求符合用户习惯,便于推广应用,增 强挖掘结果的可理解性。这其中涉及到多数据源模式和配置的浏览、数据准备和数据挖掘流 程的可视化呈现、数据描述的定义、数据挖掘操作的可视化,数据挖掘操作参数的自调节、 知识的可视化表示等。 数据挖掘技术在宝钢股份等单位的应用 在分析企业商业问题的基础上,运用本课题研究开发的数据挖掘技术,进行适合宝钢股 份的数据仓库系统以及金融行业的实旌。 1 3 本文章节说明 本文第一章为项目背景和研究内容的简要介绍,第二章介绍系统的总体架构和详细设 计,第三章就系统中的关键技术如元数据管理、通讯机制、e t l 和挖掘引擎等进行深入说 明,第四章重点阐述系统所涉及的数据挖掘和统计算法,最后一章是介绍本系统在多个商务 智能系统中的应用情况。 多数据源协同条件下的数据挖掘和知识发现系统 第6 页共1 2 3 页 塑望翌丝望萋塑鍪 些燮型些燮堂 2 多数据源数据挖掘和知识发现系统的设计 2 1 系统主要理论基础 2 1 1 协同科学 “协同”一词来自古希腊语,也可以翻译为协和、协作、合作,是协同学( s y n e r g e t i e s ) 的基本范畴。协同学是关于自组织的理论,是- - l q 新兴的交叉学科,是研究系统各要素之间、 要素和系统之间、系统与环境之间协调、同步、合作、g - * l 的关系,研究新的有序结构的形 成,揭示系统进化的动力。协同系统是指由许多子系统组成的、能以自组织方式形成宏观的 空间、时间或功能有序结构的开放系统。协同学一词来源于希腊文,意为共同工作。 协同学是2 0 世纪7 0 年代初联邦德国理论物理学家哈肯创立的。6 0 年代初,激光刚 问世哈肯就注意到激光的重要性,并立即进行系统的激光理论研究。在深入研究激光理论的 过程中,哈肯发现在合作现象的背后隐藏着某种更为深刻的普遍规律。他在1 9 7 0 年出版的 激光理论书中多处提到不稳定性,为后来的协同学准备了条件。 1 9 6 9 年哈肯首次提出协同学这一名称,并于1 9 7 1 年与格雷厄姆合作撰文介绍了协同学。 1 9 7 2 年在联邦德国埃尔姆召开第一届国际协同学会议。1 9 7 3 年这次国际会议论文集协同 学出版,协同学随之诞生。1 9 7 7 年以来,协同学进一步研究从有序到混沌的演化规律。 1 9 7 9 年前后联邦德国生物物理学家艾根将协同学的研究对象扩大到生物分子方面。 协同学研究协同系统在外参量的驱动下和在子系统之间的相互作用下,以自组织的方式 在宏观尺度上形成空间、时间或功能有序结构的条件、特点及其演化规律。协同系统的状态 由一组状态参量来描述。这些状态参量随时间变化的快慢程度是不相同的。当系统逐渐接近 于发生显著质变的临界点时,变化慢的状态参量的数目就会越来越少,有时甚至只有一个或 少数几个。 这些为数不多的慢变化参量就完全确定了系统的宏观行为并表征系统的有序化程度,故 称序参量。那些为数众多的变化快的状态参量就由序参量支配,并可绝热地将他们消去。这 一结论称为支配原理,它是协同学的基本原理。序参量随时间变化所遵从的非线性方程称为 序参量的演化方程,是协同学的基本力程。演化疗程的主要形式有主力程、有效朗之万方程、 福克普朗克方程和广义京茨堡期道方程等。 协同学的主要内容就是用演化方程来研究协同系统的各种非平衡定态和不稳定性( 又称 非平衡相变) 。例如,激光就存在着不稳定性。当泵浦参量小于第一阈值时,无激光发生; 但当其超过第一阑值时,就出现稳定的连续激光;若再进一步增大泵浦参量使其超过第二闽 值时就呈现出规则的超短脉冲激光序列。 流体绕圆柱体的流动是呈现不稳定性的另一个典型例子。当流速低于第一临界值时是一 种均匀层流;但当流速高于第一临界值时,便出现静态花样,形成一对旋涡:若再进一步提 高流速便其高于第二临界值时,就呈现出动态花样,旋涡发生振荡。 协同学中求解演化方程的方法主要是解析方法,即用数学解析方法求出序参量的精确的 或近似的解析表达式和出现不稳定性的解析判别式。 在分析不稳定性时,常常用数学中的分岔理论。在有势存在的特殊清况下也可应用突变 论。协同学也常采用数值方法尤其是在研究瞬态过程和混沌现象时更是如此a 多数据源协同条件下的数据捃掘和知识发现系统 第7 页共1 2 3 页 鹾是後曩善懋赚 上海交通大学企蚍后皓 协同学有广泛的应用。在自然科学方面主要用于物理学、化学、生物学和生态学等方面。 例如,在生态学方面求出了捕食者与被捕食者群体消艮关系等;在社会科学方面主要用于社 会学、经济学、心理学和行为科学等方面。例如,在社会学中得到社会舆论形成的随机模型; 在工程技术方面主要用于电气工程、机械工程和土木工程等方面。 协同学与耗散结构理论及一般系统论之间有许多相通之处,以致它们彼此将对方当作自 己的一 部分。实际上,它们既有联系又有区别。一般系统论提出了有序性、目的性和系统稳定 性的关系,但没有回答形成这种稳定性的具体机制。耗散结构理论则从另一个侧面解决了这 个问题,指出非平衡态可成为有序之源。 协同学虽然也来源于非平衡态系统有序结构的研究,但它摆脱了经典热力学的限制,进 一步明确了系统稳定性和目的性的具体机制。协同学的概念和方法为建立系统学奠定了初步 的基础。 2 1 2o l t p 数据库和数据仓库 数据仓库的核心问题是数据库仓库数据问题,一般认为,数据仓库的数据应来自于业务 数据库( o l t p ) 加工提取后的数据,这两类数据存在着本质的区别,理论和实践都表明, 这两种数据是无法用同一数据库来存储的。传统的关于从o l t p 数据库到传统的数据库到目 前的改进数据仓库数据整体思想的变化可通过下表来说明。 传统的o l t p 数据库与数据仓库的数据思想的变化 o l t p 数据库的数据思想数据仓库的数据思想 改进数据仓库的数据思想 面向应用面向主题面向主题 详细的综合的综合与详细的 在存取瞬间是准确的代表历史数据历史数据 为日常工作服务的支持管理决策需求数据管理和决策支持 可更新的不更新的可更新的 处理需求是预先可知的处理需求是未知的部分预定义的需求 事务处理驱动的分析处理驱动的 分析处理驱动 重复运行 启发式运行重复和启发式运行 整体管理子集管理整体管理 一次处理数据量较少一次处理数据量较大批量处理数据量较大 非冗余的 冗余 高度冗余 生命周期符合s d l c非s d l c整体是s d l c 静态结构;内容可变结构灵活静态结构+ 灵活访问 自由的可访问性适度的访问可能性适度的访问可能性 从o l t p 数据库到数据仓库的数据分离的自然扩展过程如下图所示。这个自然扩展过程 的四个阶段分别对应着数据仓库数据的体系结构:应用系统层、数据仓库层、部门级数据集 市层和个体数据集市层。应用系统层只保存着原始数据并服务于日常的高性能事务处理领 域,数据仓库层存储着来自应用系统层的不可更新的数据以及一些汇总的数据,部门级数据 集市层保存着从数据仓库中析取的涉及本部门的数据和由此产生的常规性分析,个体数据集 市层则完全是个性化的启发式分析过程中的数据和分析的结果等。 多数据源协同条件下的数据挖掘和知识发现系统 第8 页共1 2 3 页 攒瓢妻曩 宝信软件 f 1 a o $ 1 g h t 上辉变通大学企业博士后出站报告 协同学有广泛的应用。在自然科学方面主要用于物理学、化学、生物学和生态学等方面。 例如在生态学方面求出了捕食者与被捕食者群体消长关系等;在社会科学方面主要用于社 会学、经济学、心理学和行为科学等方面。例如在社会学中得到社会舆论形成的随机模型i 在工稗技术方面主要用于电气工程、机械t 程和t 术 二程等方面。 协同学与耗散结构理沦及一般系统论之间有许多相通之处,以致它们彼此将对方当作自 己的 部分。实际上,它们既有联系又有区别。一般系统论提出了有序性、目的性和系统稳定 往的芙系,但没有回答形成这种稳定性豹具体机制。耗散结构理论则从另一个侧面解决了这 个问题,指出非平衡态可成为有序之源。 协同学虽然也来源于非平,衡态系统有序结构的研究,但它摆脱了经典热力学的限制进 一步明确了系统稳定性和目的性的具体机制。协同学的概念和方法为建立系统学奠定了初步 的基础。 2 1 2o l t p 数据库和数据仓库 数据仓库的核心问题是数据库仓库数据问题,一般认为,数据仓库的数据应来自于业务 数据库( o l t p ) 加工提取后的数据,这两类数据存在着本质的区别,理论和实践都表明, 这两种数据是无法用同一数据库来存储的。传统的关于从o l t p 凝据库到传统的数据库到目 前的改进数据仓库数据整体思想的变化可通过下表来说明 传统的o l t p 数据库与数据仓库的数据思想的变化 o l t p 数据库的数据思想数据仓库的数据思想 改进数据仓库的数据思想 面向应用 面向主惩面向主题 详细的 综合的 综合与详细的 在存取瞬间是准确的代表历史数据历史数据 为日常工作服务的 支持管理决策需求 数据管理和决策支持 可更新的不更新的可更新的 处理需求是预先可知的处理需求是未知的部分预定义的需求 事务处理驱动的 分析处理驱动的分析处理驱动 重复运行 启发式运行 重复和启发式运行 整体管理1 子集管理整体管理 一次处理数据量较少 一次处理数据量较大批量处理数据量较大 非冗余的 冗余 高度冗余 生命周期符合s d l c非s d l c整体是s d l c 静态结构;内容可变结构灵活静态结构+ 灵活访问 自由的可访问| 生适度的访问可能性适度的访问可能性 从o l t p 数据库到数据仓库的数据分离的自然扩展过程如下圉所示。这个自然扩展过提 的四个阶段分别对应着数据仓库数据的体系结构:应用系统层、数据仓库层、部门级数据集 市层和个体数据集市层。应用系统层只保存着原始数据并服务于日常的高性能事务处理领 域数据仓库层存储着来自应矸j 系统层的不可更新的数据以及一些汇总的数据,部门级数据 集市层保存着从数据仓库中析取的涉及本部门的数据和由此产生的常规性分析,个体数据集 市层则完全是个性化的启发式分析过程中的数据平分析的结果等。 市层则完全是个性化的启发式分析过程中的数据和分析的结果等。 多数据源协同条件下的数据挖掘和知识发现系统 第8 页共1 2 3 更 ,臻妻缝,曩熬:! : 上黻默学企业博士后出蝴告 o i 州s 幕缝倬最站构 蘑矗据 - 撤寝宅冀碱转抉幕蘸l - 簇勰一 一良p 燮型 b 糕教捌bl 1 m r l j :銎箩 。窆婺;n 誊h ! 牛 j j f e 通过对数据仓库部署中的数据扩展过程的分析,经典的数据仓库部署过程和设计思路就 可以非常简洁地用下图来表示: 同时,作为数据存储核心地位的数据仓库的表结构设计,普遍的方法是采用星型架构 ( t h es t a rs c h e m a ) ,星型模式来源数据模型的形状,即以一张较大的事实表为中心,事实 表周围以星型模式辅以维表( 如时间维、区域维、指标维等) ,这种建模类型被称为维数据 仓库化( d i m e n s i o n a ld a t a w a r e h o u s i n g ) 。事实表中的数据包括用于分析的测量值( m e a s u r e s ) 和连接维表的键值,测量值通常包括事实数据和累计数据,维表是用户分析事实表数据的窗 口,支持事实表相关项的描述性属性。 多数据源协同条件下的数据挖掘和知识发现系统 第9 页共1 2 3 页 躜是馒善黧翁上海交通大学企业博士后。告 2 1 3 从数据仓库到数据挖掘和知识发现 数据仓库不同于日常工作的数据库,而是为了便于分析针对特定主题( s u b j e c to r i e n t e d ) 的集成化的、时变的( t i m e v a r i a n t 即提供存贮较长时间序列的数据,这些数据不再更新, 供比较以求出趋向及预测用) 、非破坏性( 即只容易输入和访问不容许更新和改变) 的数据 集中场所。o l a p 帮助用户以交互方式浏览数据仓库对其中数据进行多维分析,能及时地从 变化和不太完整的数据中提出与企业经营动作有关的信息。例如能对数据中的异常和变化行 为进行了解,o l a p 是数据分析手段的一大进步,以往的分析工具所得到的报告结果能回答 “什么”( w h a t ) ,而o l a p 的分析结果能回答“为什么”( w h y ) 。但上述分析手段是建立在用 户对深藏在数据中的某种知识有预感和假设的前提下。而由于数据仓库数据来源于多种信息 源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使辅助决策者能及时迅速 准确地作出决策行为,就需要有一种基于计算机与信息技术的智能化自动工具,来发掘埋藏 在数据中的各类知识。这种手段不应再基于用户假设,而应能自身生成多种多种假设,再用 数据仓库的数据进行检验和验证,然后返回对用户最有用的结果。同时这种工具还应能适应 现实世界中数据的多种特性( 即量大、含噪声、不完整、动态、稀疏性、异质、非线性等) 。 要达到上述要求,只借助于一般数学分析和算法是无能为力的。多年来,数理统计技术以及 人工智能和知识工程等领域的研究成果,诸如推理、归纳学习、机器学习、知识获取、模糊 理论、神经网络、进化算法、模式识别、粗糙集理论等等分支给开发上述工具提供了坚实而 丰富的理论和技术基础。面对各种应用领域的应用要求,在数据库、人工智能以及统计各学 科的理论技术支持下,数据发掘( d m :d a t a m i n i n g ) 和知识发现( k d d :k n o w l e d g e d i s c o v e r y i nd a t a b a s e ) 技术应运而生,1 9 8 9 年8 月第一次k d d 专题讨论会在美国底特律举行。在九 十年代中期以来,许多软件开发商开发了名目繁多的数据发掘和知识发现工具和软件,d m 和k d d 形成了近年来软件开发市场的热点,并且已不断出现成套软件和系统,并开始朝智 能化整体解决方案发展,这是从数据到知识前进过程中又一个里程碑。 在文献 1 l 】中,数据挖掘和知识发现是这样定义的:数据挖掘和知识发现是识别出存在 于数据库中有效的、新颖的、具有潜在价值的乃至最终可理解的模式的非平凡过程。数据采 掘则是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡 过程 1 2 1 1 4 。可见这两个术语的内涵大致相同,对这两个术语更严格的区分是在“知识发现 9 6 国际会议”上:f a y y a d 、p i a t e t s k y s h a p i r o 和s m ”h 指出 1 2 :数据挖掘和知识发现是从数 据库中发现知识的全部过程,而数据采掘则是此全部过程的一个特定的、关键步骤。事实上, 在现今的文献中的大多数场合,这两个术语仍然不加区分地使用着 1 3 从海量数据中获取有用信息或知识的数据挖掘和知识发现的过程是一个完整的数据进 行加工、处理的过程,一般由以下步骤组成: 挑选:按一定的标准从数据源中挑选或切取一组数据,形成目标数据。 净化和预处理:将不必要或影响分析进程的部分数据删去。 转换:将预处理后的数据进行某些转换使之成为可用和可导引的数据。 数据发掘:这是关键的阶段,从数据中抽取出信息的模式。所谓模式,可以作如下定义: 给定一组事实( 数据) f ,一种语言l ,和某种可信度测量c ,模式就是种用l 的描述方 式s ,它以可信度c 对f 的一个子集f s 各事实间的关系进行描述,这种描述在某种意义上 比枚举f s 中所有事实上要简单得多。 解释赋义或可视化:将模式解释为可以支持决策的知识,例如预测、分类、汇总数据内 容和解释所观察到的现象等。 上述阶段之间也许还需要某种迭代分析。从上述过程可以看出,从数据中获取知识是涉 多数据源协同条件下的数据挖掘和知识发现系统 第10 页共1 2 3 页 ,毫撵袅盎萎曩奎b a 撼o s 软i g 件h t 上海交通大学企业博士后蝴皓 及多个领域内技术融合的综合应用。利用知识发现和数据挖掘技术可以完成多项决策所需任 务,但大致可分为下述几方面; 预测:从事例中求得模式,构造模型以预测目标度量。 分类:找出一函数能使每事例映射到某种离散类别之一一。 查由关系:搜索到对某选定目标变量最有影响的其它独立变量。 显式模型:找出描述不同变量间依赖关系的显式公式。 聚类:认定出描述数据的类别的有限分组。 偏离检测:从数据已有或期望值中找出某些关键测度显著的变化。 由于上述任务的不同,就需要采用不同的技术方法和手段,因而在市面也出现种类繁多 的商品工具和软件。大致按所应用的技术方法可以归纳为下列主要类型: 传统主观导向系统:这是针对专业领域应用的系统。如基于技术分析方法对金融市场进 行分析。采用的方法从简单的走向分析直到基于高深数学基础的分形理论和谱分析。这种技 术需要有经验模型为前提。 传统统计分析:这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假 设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用 户需要重复进行一系列操作。 神经网络( n n ) 技术:神经元网络技术是属于软计算( s o rc o m p u t i n g ) 领域内一种重 要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部 门。在知识发现的应用方面,当需要复杂或不精确数据中导出概念和确定走向比较困难时, 利用神经网络技术特别有效。经过训练后的n n 可以想像具有某种专门知识的“专家”,因此 可以像人一样从经验中学习。n n 有多种结构,但最常用的是多层b p ( b a c kp r o p a g a t i o n ) 模型。它已广泛地应用于各种知识发现的工具和软件中。n n 技术也已广泛地作为一种方法 嵌入各种应用软件中。其缺点是用它来分析复杂的系统诸如金融市场,n n 就需要复杂的结 构为数众多神经元以及连接数,从而使现有的事例数( 不同的纪录数) 无法满足训练的需要。 另外由受训后的n n 所代表的预测模型的非透明性也是其缺点,尽管如此,它还是广泛而成 功地为各种金融应用分析系统所采用。 决策树:在知识工程领域,决策树是种简单的知识表示方法,它将事例逐步分类成代 表不同的类别。由于分类规则是比较直观的,因而比较易于理解,虽然在机器获取领域内, 多年来已研制出不少实施决策树的有效算法( 如i d 3 及其改进算法等) 。但这种方法限于分 类任务。 进化式程序设计( e v o l u t i o n a r yp r o g r a m m i n g ) :系统自动生成有关目标变量对其他多种 变量依赖关系的各种假设,并形成以内部编程语言表示的程序。内部程序( 假设) 的产生过 程是进化式的,类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对 这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子 程序,如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的 依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式,预测表等。由于 采用通用编程语言,这种主法在原则上能保证任何一种依赖关系和算法都能用这种语言来描 述。这种方法也许是目前最年青的和最有前途的d n 方法之一。 基于事例的推理方法( c b r :c a s eb a s e dr e a s o n i n g ) 这种方法的思路非常简单,当预 测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解 决方案,这种方法能用于很多问题求解,并获得好的结果,其缺点是系统不能生成汇总过去 经验的模块或规则。 遗传算法( g a :g e n e t i ca l g o r i f l u n s ) :严格说来,d a 不是g a 应用的主要领域,它是 多数据源协同条件下的数据挖掘和知识发现系统 第1 l 页共1 2 3 页 ,毫拯是瞧曩粼! : 上锻通大学企业博士后蝴。告 解决各种组合或优化问题的强有力的手段,但它在现代标准仪器表中也用来完成d a 任务。 这种方法的不足之处是:这种问题的生成方式使估计所得解答的统计意义的任何一种机会不 再存在。另外一方面,只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生 成。 非线性回归方法:这种方法的基础是,在预定的函数的基础上,寻找目标度量对其它多 种变量的依赖关系。这种方法在金融市场或医疗诊断的应用场合,比较好的提供可信赖的结 果。 上面所列知识发现技术不可能是详尽的囊括,因为多年来数理统计分析以及人工智能与 知识工程的研究提供了种类繁多特点各异的手段,知识发现开发人员完全可以根据不同任务 加以选择使用,另外近年来在软计算( s o f tc o m p u t i n g ) 和不确定信息处理( d e a l i n gw i t h u n c e r t a i n t yo f i n f o r m a t i o n ) 方法的研究,促使知识发现技术向更深层次发展。 当前,数据挖掘和知识发现研究的主要困难在于 4 7 :其“一,数据集台性质往往非常复 杂,非线性、时序性与噪音普遍存在;其二,对数据分析的目标具有多样一牲,丽复杂目标无 论在表达还是在处理上均与领域知识有关:其三,在多样性目标下,对数据集合的分析,目 前还没有现成的且满足可计算条件的一般性理论与方法。 数据挖掘和知识发现技术正处在发展当中。知识发现涉及到数理统计、模糊理论、神经 网络和人工智能等多种技术,技术含量较高,实现难度较大。此外,知识发现系统同可视化 技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。随着 数据量的急剧增长和分析决策难度的增强,以及人们对决策分析工作的智能化、自动化要求 的不断提高,人们将广+ 泛地接受并使用知识发现技术及工具。 2 2 体系结构 2 2 1 总体架构 从实现的角度考虑,多数据源协同条件下的数据挖掘和知识发现系统可以分成五个相对 独立的大模块: 元数据管理模块 本地数据管理模块 针对多数据源的数据预处理引擎 多功能数据挖掘引擎 终端用户界面模块 系统架构如下图所示: 多数据源协同条件下的数据挖掘和知识发现系统 第1 2 页共1 2 3 页 耀差缎。曩 室信软件 b a o s l 6 h t 上海交通大学企业博士后出鲇报告 存储管理器 数据预处理引擎 圈l 数据挖掘引擎 业务功能阶层图如下图所示 业卜堕 茎卜冒广匝 能孽主i 厂函翮l 业务功能流程图如下图所示 多数据源协同条件下的数据挖掘和知识发现系统 面 第13 页菇1 2 3 页 蓦 l 鳖黪羹。囝粼群上海娴大学企业博士后出蝴告 ,管理员 设计员 用户 ( a d m i n i s t r a t o r ) :( d e s i g n e r ):( u s e r ) 堕垂圈 定义修改预处理和数据挖掘处理流程 蔼蓊意面赢氯磊一 全局元数据管理 工程相关元数据管理 全局用户管理工程相关权限管理 执行任务流程、查看流程定义 业务功能流程图 注:本系统的用户从可执行的功能划分为管理是( a d m i n i s t r a t o r ) 、设计( d e s i g n e r ) 和一 般用户( u s e r ) 。 1 、管理员可以执行系统提供的所有功能,包括定义和修改处理流程、进行任务调 度、管理用户和元数据以及管理系统日志。 2 、 设计员可以进行处理流程的定义,并可以执行跟处理流程相关的权限管理和元 数据管理以及调度处理流程产生的相关任务。 3 、 一般用户可以查询处理流程的定义,可以提交处理流程。 4 、用户所进行的定义和执行的操作,作为元数据被保存在元数据存储器中。 计算机系统根据元数据存储器中的定义将源数据库中的数据取出进行数据预处理和数据挖 掘,并将结果保存在元数据存储器中。 2 2 2 功能描述 该系统的整体结构设计主要针对企业内部存在各种不同类型数据源的情况,以数据挖掘 功能为核心,通过数据预处理引擎对异型、异构、异形数据源进行提取和清洗,为数据挖掘 操作提供数据;数据挖掘操作的结果通过可视化的终端界面展示给用户,提高挖掘结果的可 理解性;元数据管理器为整个系统提供统一、完整的元数据模型;存储管理器为数据预处理 引擎和数据挖掘引擎提供缓存、预读、队列等快速数据存储服务,从而保证系统运行的效率。 1 元数据存储器 遵循元数据管理标准c w m ,基于关系数据库对系统中使用的元数据进行存储。主要包 多数据源协同条件下的数据搐掘和知识发现系统 第j 4 页菇】2 3 页 数据源定义 预处理过程定义 数据挖掘模型定义 工作流程定义 终端用户界面定义 用户信息定义 系统参数定义 2 本地数据存储器 主要用于存储经过数据预处理引擎处理的数据,这些数据作为数据挖掘引擎的输入;另 外可以为数据预处理引擎和数据挖掘引擎提供缓冲区,保存处理过程中的中间结果,利用预 读、队列等技术实现数据的快速存取。 3 元数据管理器 对元数据存储器进行管理,为访问元数据提供统一、完整的a p i ,保证系统中元数据的 完整性。 4 存储管理器 对本地数据存储器进行管理,统一调度各种访问请求;保证本地数据存储器中数据的一 致性和完整性。 5 数据预处理引擎 数据预处理引擎的主要功能如下: 可以从各种不同的数据源获取数据 能够对获取的数据进行常用的转换,如数学函数、时间函数、统计等 对多个数据源的数据进行合并 对数据中存在的重复记录进行检测和清洗 对数据中存在的信息不一致情况进行检测和清洗 异常数据的清洗 6 数据挖掘引擎 数据挖掘引擎主要由可扩展的数据挖掘算法模块集合组成,主要包括: 聚类算法 决策树分类算法 关联规则算法 例外规则发现算法 除此以外,数据挖掘引擎还包括数据访问模块,通过数据读取预测技术为各种数据源提 供l 方问数据的支持。 7 终端用户界面 终端用户界面的主要功能包括: 数据挖掘过程的可视化操作 数据挖掘结果的可视化展现 从数据预处理到数据挖掘的可视化过程定义 用户和权限管理 8 日志管理 多数据源协同条件下的数据挖掘和知识发现系统 第1 5 页共1 2 3 页 堡噱黪鲢一奏嬉碧醋删蝴告 2 2 2 1 元数据管理模块设计 功能说明 元数据管理模块中主要包括元数据存储器和元数据管理器。 如图所示,c w m 标准由一系列的类分五个层次构成,白下而上分别为对象( o b j e c t ) 层、 t 妇n a g e m q n t a n a l 妊 r 0 誊o u m e f o u n d a t i o n t h ee wmm e t a m o d e i 基础( f o u n d a t i o n ) 层、资源( r e s o u r c e ) 层、分析( a n a l y s i s ) 新 1 管l 埋( m a n a g e m e n t ) 层。 图2 c w m 元数据模型 对象( o b j e c t ) 层:这一层实际上是u m l 标准的一部分。c w m 从u m l 标准中选取 了一些关键的对象,从而构造高层的对象。 基b ( f o u n d a t i o n ) 层:这层包含了很多基本的元模型包,他们所表示的概念和结构 能够被其他的c w m 包所使用。基础层包括了六个包,分别为商务信息( b u s i n e s s i n f o r m a t i o n ) 包表示一些商业诸如联系人、联系方法、描述等商务方面的信息;数 据类型( d a t a t y p e s ) 包说明了如何利用基本数据类型构造复杂数据结构,包括联合、 枚举、别名等类型。表达式( e x p r e s s i o n s ) 包说明如何表示一个表达式。键和索引( k e y i n d e x ) 包说明了对数据实例的一些要求。类型映射( t y p em a p p i n g ) 包用来表示两个 不同系统之间类型的对应关系。软件配置( s o f t w a r ed e p l o y m e n t ) 包可以用来表示不 同的数据源、不同的软件系统的具体配景信息。 资源( r e s o u r c e ) 层:该层表示众多的数据源。其中包括对象、关系型数据源、记录 型数据源、多维数据源、x m l 数据源等。我们系统所关心的数据源主要是关系型 数据源和记录型数据源。 分析( a n a l y s i s ) 层:该层主要是说明如何对数据源中的数据进行分析处理。这其中 包括数据转换( t r m a s f o r m a t i o n ) 、在线分析处理( o l a p ) 、数据挖掘( d a t am i n i n g ) 、信 息可视化( i n f o r m a t i o n v i s i b i l i t y ) 等多个方面。 多数据源协同条件下的数据挖掘和知识发现系统 第1 6 页共1 2 3 页 锺差酝量,曩粼蚌 上黻通大学企业博士后蝴。告 管理( m a n a g e m e n o 层:该层的主要目标是管理分析层所定义的数据转换过程。该层 主要有两个子包:数据仓库处l 塑( w a r e h o u s ep r o c e s s ) 和数据仓库操作( w a r e h o u s e o p e r a t i o n ) 。数据仓库处理包为分析层所定义的数据转换定义一系列的事件,控制 事务之间的先后执行顺序,在一定的条件下触发某些事务。数据仓库操作包则可以 记录具体的转换操作的运行日志,保存一些中间结果。 在c w m 中,从概念上来说,数据挖掘包( d a t a m i n i n g ) 包括了7 个子包,即,作为核心 的m i n i n gc o r e ,和表示数据挖掘中各个不同方面的6 个子包:聚类( c l u s t e r i n g ) ,关联规则 ( a s s o c i a t i o nr u l e s ) ,监督( s u p e r v i s e d ) ,分类( c l a s s i f i c a t i o n ) ,近似( a p p r o x i m a t i o n ) ,和关键属 性( a t t r i b u t ei m p o r t a n c e ) 。 c w m 数据挖掘元数据模型 m i n i n gc o r e 包提供的通用抽象,既是其他子包的基础,也可为其他子包所重用。它还 特别提供了为实现c w md a t am i m n g 接口所必须的一些基本抽象。在实现中,至少需要这 一部分,以及另外一个d a t am i n i n g 的子包。 c l u s t e r i n g 用于表示聚类算法的函数、模型以及配置:a s s o c i a t i o nr u l e s 表示频繁项集的 构造,以及关联规则算法;s u p e r v i s e d 表示监督学习算法的构造,a p p r o x i m a t i o n 、a t t r i b u t e i m p o r t a n c e 和c l a s s i f i c a t i o n 都要实现这一部分,而这三者分别表示相应的数据挖掘的函数、 模型和配置。 总而言之,d a t a m i n i n g 包提供了为表示数据挖掘模型的所有必要的抽象。 处理流程描述 多数据源协同条件下的数据挖掘和知识发现系统 第1 7 页共1 2 3 页 ,疆是瞧曩誊圜瓣上酸通大学企业博士后喇;告 慧基。固囤阜回t 巨- - - l :膏采无缸拦疆彝1 : 卜_ 纠 聋啦| l 彝1 :争 0 螋一 蜒回档1 1 晤一_ 学警蠢! l 蜒匮嬉其2 :十一一叫 k 塑些一; ;! 曼:垂苎兰些苎宴; :薮班崔彝3 :1 1 寸 蜒四链 3 :, :t _: k 塑姆一 :营托t 掘a l i a 4 : 卜争 : :麓囊l t 彝4: :j 喇 0 一一一;一一一一螋一一j 一一一一一 退雹桂a 4: e 2 2 2 2 针对多数据源的数据预处理引擎模块设计 功能说明 由于存在着具有不同数据模型、数据模式和数据表示的多数据源协同环境,该模块针对 数据挖掘操作的特定要求,对数据进行高速提取、转换和清洗。因此又可以具体细分为5 个子模块,分别为:请求处理模块、任务管理控制模块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年第一季度人工智能风险投资趋势报告
- 航空服务技能教学标准
- 农业机器人应用结题报告
- 半导体应变计压阻系数研究报告
- 家庭手摇晾衣架钢丝绳更换指南
- 植物细胞考试试题及答案
- 2026年河北省石家庄市裕华区中考英语定心试卷(一)(含详细答案解析)
- 2025-2026学年浙江省温州市环大罗山联盟高二(上)期中信息技术试卷(含答案)
- 2025年海南万宁一级建造师考试(机电工程管理与实务)题库含答案
- 一级建造师考试(通信与广电工程管理与实务)真题及答案(日喀则)
- 中医药产业科技成果转化方案
- 2025海南东方市招聘社区专职工作人员196人(第1号)考试参考试题及答案解析
- 克雷氏骨折课件
- 2024煤矿地质工作细则
- 南宁三中小升初数学试卷
- 2025中小学教师考试《教育综合知识》试题及答案
- 广东广州2012-2024年中考满分作文130篇
- DGTJ08-2271-2018 工程物探技术标准
- 卫生健康事业高质量发展路径
- 暖通可行性研究报告
- 电气建修公司运营方案
评论
0/150
提交评论