判别分析的数据挖掘研究毕业论文.doc_第1页
判别分析的数据挖掘研究毕业论文.doc_第2页
判别分析的数据挖掘研究毕业论文.doc_第3页
判别分析的数据挖掘研究毕业论文.doc_第4页
判别分析的数据挖掘研究毕业论文.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕设报告 学院:自动化学院 判别分析的数据挖掘研究本题目应完成以下工作:理清逐步判别分析方法的数学原理,编写出相应的算法程序。成果形式为完成的毕业论文与模型试验。【摘要】:在使用判别分析进行数据处理时,对判别能产生影响的变量往往很多,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当筛选变量的问题就成为一个很重要的事情。逐步判别法就是一种具有筛选变量能力的判别分析方法。本课题旨在廓清逐步判别分析方法,并在明晰该方法数学原理的基础上,编制出逐步判别分析方法的计算程序。运用逐步判别分析原理,在多个评价因子中按其对数据挖掘判别能力贡献的大小进行筛选,从而确定主要的评价因子。应用改进的层次分析法对筛选后的评价因子进行赋权,使求得的判断矩阵满足一致性要求,避免了层次分析法后期检验过程中多次调整判断矩阵带来的过于主观性的问题。在评价因子的筛选和赋权的基础上进行了单沟泥石流危险度评价的实例验证,结果表明,运用逐步判别分析法筛选后的评价因子客观、准确地反映了当地泥石流危险度的影响因素,与传统方法所得危险度结果相比更符合泥石流危险度实际情况,可靠性更强。用汉字开发一个操作界面好、通用性强的逐步判别分析计算程序 第二章 逐步判别分析法1.判别分析问题的提出 判别分析是一种用于分析组间差异的多元分析法,用判别分析可以研究针对多个变量的两组或多组的差异,以回答如下类型的问题:1) 各组相对各变量是否有显著差异?2) 哪些变量适合或不适合用于区分各组? 使用判别分析要求拥有元素的判别变量及其属性的相关数据。 判别分析,同回归分析或方差分析一样,属于结构检验法的范畴。元素的判别变量必须是基数测度的,而组的属性可由名义测度变量(分组变量)表示。因此,判别分析在形式上可看做是一种分析一个名义测度变量与几个基数测度的变量间相关性的方法。1.1 判别分析的基本思想有时我们会遇到包含属性被解释变量和几个度量解释变量的问题,这时需选择合适的分析方法。而当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。在现实世界中,经常会遇到需要判别的问题。例如,根据人均国民收入,人均工农业产值,人均消费水平等多种指标来判定一个国家的经济发展程度所属类型。在对教师的课堂教学质量进行评价中,根据教学效果、能力培养、教学目的和要求、教学方法等指标来评判一个教师的课堂教学水平所属等级。在医疗诊断上,一个病人肺部有阴影,大夫要根据阴影大小、阴影部位、是否有痰、是否有低烧等多项指标来判断病人是患肺结核、肺部良性肿瘤还是肺癌。判别分析所要解决的问题是,在一些已知研究对象用某种方法已分成若干类的情况下,确定新的观测数据属于已知类别中的哪一类。判别分析方法处理问题时,通常要给出一个衡量新样品与已知各类别接近程度的描述指标,即判别函数,同时也指定一种判别规则,即以判定新样品的归属。判别规则可以是统计性的,决定新样品所属类别时用到数理统计的显著性检验;也可以是确定性的,决定样品归属时,只考虑判别函数值的大小。1.2 判别分析的分类判别分析按判别的组数来分,有两组判别分析和多组判别分析;在很多情况下,被解释变量包含两组或者两类,比如,雄性与雌性、高与低。另外,有多于两组的情况,比如低、中、高的分类。判别分析能够解决两组或者更多组的情况。当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别对所处理的变量方法不同,有逐步判别、序贯判别等;按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇(Fisher)判别等。判别分析在教育评价中可用于判断学校的等级,进行人才类型的评价等方面。判别分析有二级判别、多级判别、逐步判别等多种方法。在气候分类、农业区划、土地类型划分中有着广泛的应用。1.3 判别分析的假设条件判别分析最基本的要求是:分组类型在两组以上;在第一阶段工作时每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理的应用于统计函数。与其他多元线性统计模型类似,判别分析的假设之一是每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。不仅如此,有时一个判别变量与另外的判别变量高度相关、或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误差将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。判别分析的假设之二,是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固有值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时,计算的概率将非常不准确。1.4 判别分析可分为六个步骤:1) 定义组 组的定义可直接由用于问题得出,但分组也可承接前一分析的结果。2) 建立判别函数 在判别分析中,要先建立和估计一个判别函数,然后用此函数实现: a -组间最优判别 b -判别变量判别意义的检验判别函数的一般形式如下: Y=b0+b1X1+b2X2+b3X3+.bjXJ其中,Y:判别指标;Xj:判别变量j(j=1,2,3,J); bj:判别变量j的判别系数;b0:常数可在判别变量数据的基础上,估计残数b0和bj. 3)估计判别函数 4)检验判别函数 5)检验判别变量 6)将新元素分类二.逐步判别分析原理2.1 判别函数的建立 逐步判别是一种筛选变量的方法。筛选的过程其实就是作假设检验的过程, 通过检验找出显著性变量, 剔除不显著变量 。所建立的判别函数中仅保留了对分类判别能力显著的变量。2.2 判别结果的检验1) 总体均值的检验假设2总体GiN ( , )(i=1,2),为检验2总体的均值是否有显著性差异(H0:=) , 可以构造F 统计量 4:F =(1,2)F(m,n1+n2-m-1)式中,ni 是第i个总体的样品个数( i = 1, 2) 。计算F统计量的值f ,得p = PF f 。若p小于给定的显著性水平a( 常取a = 0.05) , 则否定2总体均值相等的假设, 即对这2个总体讨论判别问题是有意义的。2) 错判率的估计 利用舍一法( 或称交叉确认法) 对错判率进行估计。a.根据研究目的确定研究对象及所用指标。例子 110个癌症病人和190个正常人 。指标:X1 X2 X3 X1:三倍体的得分 X2:八倍体的得分X3:不整倍体的得分。(0-10分)b.收集数据,得到训练样本检测,得到X1 X2 X3这就是训练样本.c.用判别分析方法得到判别函数 Y=X1+10X2+X3 ,X1,X2,X3是实测值,当Y100,此人有癌症,Y100,无癌症。d.考核 该判别函数是否有实用价值还需要进行考核;分为回顾性考核(组内考核) 前瞻性考核(组外考核)2.3 实际应用 未知类别样品的判别归类。 判别分析通常都要建立一个判别函数,然后利用此判别函数来进行判别。为了建立判别函数就必须有一个训练样本。判别分析的任务就是向这份样本学习,学判断类别的规则,并非多方考核。训练样本的质量与数量至关重要。每一个体所属类别必须用“金标准”予以确认;解释变量X1,X2,.XP必须确实与分类有关;个体的观察值必须准确;个体的数目必须足够多。1)Bayes判别分析 用于两类或两类以上间判别,要求各类内指标服从多元正态分布。2)逐步判别分析 建立在Bayes判别分析基础上,它像逐步回归分析一样,可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数,使方程内的指标都有显著地判别作用而方程外的指标作用都不显著。2.4 分析总结从逐步回归分析中我们已经知道,回归方程中的自变量并非越多越好。作用不大的变量进入方程中不但无益,反而有害。在判别分析中也有类似情况,解释变量并非越多越好。解释变量的特异性越强,判别能力越强,这类解释变量当然越多越好;相反,那些判别能力不强的解释变量如果引入分类函数,同样也是有益无害的,不但增加了搜集数据和处理数据的工作量,而且还可能削弱判别效果。因此我们希望在建立分类函数时既不要遗漏有显著判别能力的变量,也不要引入不必要的判别能力很弱的变量。 逐步判别分析是达到上述目标的重要方法。它象逐步回归分析一样,可以在很多候选变量中挑选一些有重要作用的变量来建立分类函数,使方程内的变量都较重要而方程外的变量都不甚重要。分类函数内的变量是否有重要作用可用F检验,检验的零假设是:该变量对判别的贡献为零。若P值较小便拒绝零假设,认为该变量的贡献具有统计学意义。逐步回归是将一组变量全部选进去进行拟合,从自变量和因变量的显著性大小逐步选择变量进入模型中。而进入模型中的自变量并不是按照显著性进行排序的,而是按照自变量的顺序排的。参数检验表中的beta并不是表示显著性的概率值,而是标准回归系数,表示自变量对因变量影响大小的系数,就是通常模型中的变量系数。因此在模型中剩下的自变量中都是对因变量有显著的影响,而并没有按影响的大小进行排序。3.数据预处理和数据处理3.1数据预处理的主要方法:1). 数据清理:主要是消除或减少数据噪声和处理空缺值。2). 特征选择:从已知一组特征集中按照某一准则选择出有很好的区分特性的特征子集,或按照某一准则对特征的分类性能进行排序,用于分类器的优化设计。3). 数据变换:通过平滑、聚集、数据概化、规范化、特征构造等手段将数据转化为适合于挖掘的形式。 KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。1) 问题定义阶段的功能:和领域专家以及最终用户紧密协作,一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘的目标等要求;另一方面通过对各种学习算法的对比进而确定可用的学习算法。2) 数据抽取阶段的功能:选取相应的源数据库,并根据要求从数据库中提取相关的数据。3) 数据预处理阶段的功能:对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性。4) 数据挖掘阶段的功能:运用选定的数据挖掘算法,从数据中提取出用户所需要的知识。5) 模式评估阶段的功能:将KDD系统发现的知识以用户能了解的方式呈现,并且根据需要进行知识评价。如果发现知识和用户挖掘目标不一致,则重复以上阶段以最终获得可用的知识。3.2 数据处理的概念 数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。 数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。3.3.数据处理应用范围 数据处理是对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算及应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如测绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。有关商务网站的数据处理:由于网站的访问量非常大,在进行一些专业的数据分析时,往往要有针对性的数据清洗,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择模式分析的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。4.数据挖掘和数据挖掘技术4.1数据挖掘概述 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对人们被数据淹没,人们却饥饿于知?的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。经过十几年的研究,产生了许多新概念和方法。特别是最近几年来,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。数据挖掘技术正在以一种全新的概念改变着人类利用数据的方式,它被认为是未来信息处理的骨干技术之一,网络之后的下一个技术热点。数据挖掘(Data Mining)是一门受到来自各种不同领域的研究者关注的交叉性学科,有很多不同的术语名称,除了常用的“数据挖掘”和“知识发现”之外,与数据挖掘相近的同义词有数据融合、数据分析、知识抽取、信息发现、数据采掘、知识获取、数据考古、信息收获和决策支持等。4.2数据挖掘技术的概述 从技术的角度讲,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明,只要能支持特定的发现问题即可。实际上,利用数据挖掘从数据集中所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果从商业的角度讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大 BC 省电话公司要求加拿大 SimonFraser 大学 KDD 研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此 DMKD 的研究成果是很讲求实际的。4.3 数据挖掘研究现状KDD一词首先出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的 KDD 国际研讨会已经召开了 7 次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从 2X1 到 6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD 专题或专刊。人们可以通过电子邮件相互讨论 DMKD 的热点问题。而领导整个潮流的 DMKD 开发和研究中心,当数设在美国 EMDEN 的 IBM 公司开发部。随着 DMKD 研究逐步走向深入,人们越来越清楚地认识到,DMKD 的研究主要有 3 个技术支柱,即数据库、人工智能和数理统计。数据库技术在经过了 80 年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域-客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统,目前的主要理论工具是基于谓词演算的机器定理证明技术-二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。其次,知识工程师在整理表达从领域专家那里获得的知识时,用 if-then 等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum 估计,一般人拥有的常识存入计算机大约有 100 万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据在某地发现一只刚死的波斯猫的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。以上这 3 大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言 SQL 中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在 DMKD 这个结合点上,立即呈现出忽如一夜春风来,千树万树梨花开的繁荣景象。4.4 数据挖掘与数据库中的知识发现(1)KDD看成数据挖掘的一个特例数据挖掘系统可以在关系数据库、事务数据库、数据仓库、空间数据库(Spatial Database)、文本数据(Text Data)以及诸如WEB等多种数据组织形式中挖掘知识,既然如此,那么可以说数据库中的知识发现只是数据挖掘的一个方面,这是早期比较流行的观点。因此,从这个意义说,数据挖掘就是从数据库、数据仓库以及其它数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖掘在源数据形式上的多样性。 (2) 数据挖掘是KDD过程的一个步骤 在“知识发现96国际会议” 上,许多学者建议对这两个名词加以区分。核心思想是:KDD是从数据库中发现知识的全部过程,而Data Mining则是此全部过程的一个特定的、关键步骤,这种观点有它的合理性。虽然我们可以从数据仓库、WEB等源数据中挖掘知识,但是这些数据源都是和数据库技术相关的。数据仓库是由源数据库集成而来的,即使是像WEB这样的数据源恐怕也离不开数据库技术来组织和存储抽取的信息。因此KDD是一个更广义的范畴,它包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这样,我们可以把KDD看作是一些基本功能构件的系统化协同工作系统,而数据挖掘则是这个系统中的一个关键的部分。(3)KDD与Data Mining含义相同也有些人认为,KDD与Data Mining只是叫法不一样,它们的含义基本相同。事实上,在现今的文献中,许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有人说,KDD在人工智能界更流行;Data Mining在数据库界使用更多。所以,从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。从上面的描述中可以看出,数据挖掘概念可以在不同的技术层面上来理解,但是其核心仍然是从数据中挖掘知识。从本质来讲,数据挖掘与知识发现是有区别的,但是在很多场合人们往往不严格区分数据挖掘和数据库中的知识发现,两者互为使用。一般在科研领域中称为KDD,而在工程领域则多称为数据挖掘。4.4 数据挖掘研究的理论基础数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。从研究的历史看,它们可能是数据库、人工智能、数理统计、计算机科学以及其它方面的学者和工程技术人员,在数据挖掘的探讨性研究过程中创立的理论体系。1997年,Mannila对当时流行的数据挖掘的理论框架给出了综述。结合最新的研究成果,有下面一些重要的理论框架可以帮助我们准确地理解数据挖掘的概念与技术特点。 模式发现架 规则发现架构 基于概率和统计理论 微观经济学观点 基于数据压缩理论 基于归纳数据库理论 数据挖掘技术将来的发展趋势:1) 数据挖掘技术已经存在相当大市场,将成为对工业产生重要影响的关键技术之一。同时,并行计算机体系结构研究和KDD也被列入今后5年内公司应该投资的10个新技术领域之一。这些资料都表明,数据挖掘技术在将来有很大的发展潜力及空间。2) 数据挖掘技术作为一门新技术,仍有许多问题需要研究、解决和探索。分析目前的研究和应用现状,对于数据挖掘技术将来的工作重点有:a. 数据挖掘技术与特定商业逻辑的平滑集成问题;b. 数据挖掘技术与特定数据存储类型的适应问题;c. 大型数据的选择和规格化问题;d. 数据挖掘系统的构架与交互式挖掘技术;e. 数据挖掘语言与系统的可视化问题; f. 数据挖掘理论与算法研究。1分类和预测分类是数据挖掘中一项非常重要的任务,目前在商业上的应用最多。分类的目的是提出一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测,预测的目的是从历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺省值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合各种特点的数据。下面介绍几种常用的分类算法。2决策树构造一个决策树分类器通常分为两步:树的生成和剪枝。树的生成采用自上而下的递归分治法。如果当前训练例子集合中的所有实例是同类的, 构造一个叶节点, 节点内容即是该类别。否则, 根据某种策略选择一个属性, 按照该属性的不同取值, 把当前实例集合划分为若干子集合。对每个子集合重复此过程, 直到当前集中的实例是同类的为止。剪枝就是剪去那些不会增大树的错误预测率的分枝。 经过剪枝, 不仅能有效的克服噪声, 还使树变得简单, 容易理解。生成最优的决策树同样是NP问题。 目前的决策树算法通过启发式属性选择策略来解决问题。 3聚类分析概念 将一组物理的或抽象的对象,根据它们之间的相似程度,分为若干组;其中相似的对象构成一组,这一过程就称为聚类过程(clustering)。一个聚类就是由彼此相似的一组对象所构成的集合;不同聚类中对象是不相似的。就是从给定的数据集中搜索数据项(items)之间所存在的有价值联系。在许多应用,一个聚类中所有对象常常被当作一个对象来进行处理或分析等操作。 聚类分析的主要方法 在聚类分析中有大量的算法可供选择。需要根据应用所涉及的数据类型、聚类的目的以及具体应用要求来选择合适的聚类算法。如果利用聚类分析作为描述性或探索性的工具,那么就可以使用若干聚类算法对同一个数据集进行处理以观察可能获得的有关(数据特征)描述。通常聚类分析算法可以划分为以下几大类: (1)划分方法(2)层次方法(3)基于密度方法(4)基于网格方法(5)基于模型方法4.下面介绍关联规则挖掘过程中所涉及到的有关概念和术语。(1)数据项和数据项集设I =i1,i2,.,im是n个不同项目的集合,则每一个项目ik(=1,2,n)称为数据项(item)。为数据项集(itemset),n为数据项集的长度。长度为的数据项集称为-项集(k-itemsets)。(2)事务一个事务(Transaction)是数据项集中的一组项目的集合,即TI。每一个事务赋予一个唯一的标识符TID。所有事务的全体就构成一个事务数据库。(3)数据项集的支持度数据项集的支持度(Support)就是数据项集出现的概率。设是中的一个子集,称一个事务包含,当且仅当。的支持度为: Support ()=()(4)关联规则及其支持度和置信度一个关联规则就是具有“ XY ”形式的蕴含式,其中有X I, Y I且XY=f 。称作规则的前提,是结果。规则XY的支持度为,是指在中有%的事务,既包含同时又包含,即同时出现数据项集和的概率。其表达式为Support(XY)=P(XY)。规则XY的置信度(Confidence)为,是指在中包含的事务有%的事务同时又包含, 即出现数据项集的前提下,出现数据项集的概率,其表达式为confidence(XY)=P(YX)。支持度体现了项目集在交易集中出现的频度,置信度体现了项目集和之间的关联程度。(5)频繁项集一个项集的出现频度就是整个交易数据集D中包含该项集的交易记录数, 若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中记录数,那么就称该项集满足最小支持度阈值;而满足最小支持度阈值所对应的交易记录数就称为最小支持频度。 满足最小支持阈值的项集就称为频繁项集(或称大项集)。所有频繁k-项集的集合就记为Lk。挖掘关联规则的问题就是找出这样一些规则,它们的Support和confidence分别大于用户指定的最小支持度(minisupport)和最小置信度(miniconfidence)的限度,称这些规则为强规则。通常为方便起见,都将最小支持度阈值简写为min_sup;最小信任度阈值简写为min_conf。这两个阈值均在0%到100%之间,而不是0到1之间。 如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度,它表示了一个项集在统计意义上的需满足的最低程度;后者即用户规定的关联规则必须满足的最小可信度,它反应了关联规则的最低可靠度。挖掘关联规则主要包含以下二个步骤:步骤一:发现所有的频繁项集,根据定义,这些项集的频度至少应等于(预先设置的)最小支持频度;步骤二:根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小信任度阈值。此外还可利用有趣性度量标准来帮助挖掘有价值的关联规则知识。由于步骤二中的相应操作极为简单,因此挖掘关联规则的整个性能就是由步骤一中的操作处理所决定。软件spss简介:SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。IBM公司2009年7月28日宣布将用12亿美元收购分析软件提供商SPSS。SPSS称将在2009年10月2日召开特别股东大会投票表决有关将该公司出售给IBM的交易。如今SPSS已出至版本20.0,而且更名为IBM SPSS。 SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。极大的方便了中、高级用户。 SPSS输出结果虽然漂亮,但不能为WORD等常用文字处理软件直接打开,只能采用拷贝、粘贴的方式加以交互。这可以说是SPSS软件的缺陷。 SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。spss统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。 SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。最新的12.0版采用DAA(Distributed Analysis Architecture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,依靠于诸多竞争对手。但是它很难与一般办公软件如Office或是WPS2000直接兼容,在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表,已经遭到诸多统计学人士的批评;而且SPSS作为三大综合性统计软件之一,其统计分析功能与另外两个软件即SAS和BMDP相比仍有一定欠缺。 虽然如此,SPSS for Windows由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。 SPSS发展历史简介1968年:斯坦福大学三位学生创建了SPSS 1968年:诞生第一个用于大型机的统计软件 1975年:在芝加哥成立SPSS总部 1984年:推出用于个人电脑的SPSS/PC+ 1992年:推出Windows版本,同时全球自SPSS 11.0起,SPSS全称为“Statistical Product and Service Solutions”,即“统计产品和服务解决方案” 2009年:SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件(Predictive Analytics Software)PASW,包括四部分: PASW Statistics (formerly SPSS Statistics):统计分析 PASW Modeler (formerly Clementine) :数据挖掘 Data Collection family (formerly Dimensions):数据收集 PASW Collaboration and Deployment Services (formerly Predictive Enterprise Services):企业应用服务 2010年:随着SPSS公司被IBM公司并购,各子产品家族名称前面不再以PASW为名,修改为统一加上IBM SPSS字样 SPSS Statistics功能介绍1增强的数据管理功能在10版以后,SPSS的每个新增版本都会对数据管理功能作一些改进,以使用户的使用更为方便。13版中的改进可能主要有以下几个方面: 1)超长变量名:在12版中,变量名已经最多可以为64个字符长度,13版中可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。 2)改进的Autorecode过程:该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ASCII码顺序进行变量值的重编码。另外,Autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。 3)改进的日期/时间函数:本次的改进将集中在使得两个日期/时间差值的计算,以及对日期变量值的增减更为容易上。 2完善的结果报告功能从10版起,对数据和结果的图表呈现功能一直是SPSS改进的重点。在16版中,SPSS推出了全新的常规图功能,报表功能也达到了比较完善的地步。13版将针对使用中出现的一些问题,以及用户的需求对图表功能作进一步的改善。 1)统计图:在经过一年的使用后,新的常规图操作界面已基本完善,本次的改进除使得操作更为便捷外,还突出了两个重点。首先在常规图中引入更多的交互图功能,如图组(Paneled charts),带误差线的分类图形如误差线条图和线图,三维效果的简单、堆积和分段饼图等。其次是引入几种新的图形,目前已知的有人口金字塔和点密度图两种。 2)统计表:几乎全部过程的输出都将会弃用文本,改为更美观的枢轴表。而且枢轴表的表现和易用性会得到进一步的提高,并加入了一些新的功能,如可以对统计量进行排序、在表格中合并/省略若干小类的输出等。此外,枢轴表将可以被直接导出到PowerPoint中,这些无疑都方便了用户的使用。 3Complex Samples模块增加统计建模功能Complex Samples是12版中新增的模块,用于实现复杂抽样的设计方案,以及对相应的数据进行描述。但当时并未提供统计建模功能。在13版中,这将会有很大的改观。一般线形模型将会被完整地引入复杂抽样模块中,以实现对复杂抽样研究中各种连续性变量的建模预测功能,例如对市场调研中的客户满意度数据进行建模。对于分类数据,Logistic回归则将会被系统的引入。这样,对于一个任意复杂的抽样研究,如多阶段分层整群抽样,或者更复杂的PPS抽样,研究者都可以在该模块中轻松的实现从抽样设计、统计描述到复杂统计建模以发现影响因素的整个分析过程,方差分析模型、线形回归模型、Logistic回归模型等复杂的统计模型都可以加以使用,而操作方式将会和完全随机抽样数据的分析操作没有什么差别。可以预见,该模块的推出将会大大促进国内对复杂抽样时统计推断模型的正确应用。 4Classification Tree模块这个模块实际上就是将以前单独发行的SPSS AnswerTree软件整合进了SPSS平台。笔者几年前在自己的网站上介绍SPSS 11的新功能时,曾经很尖锐地指出SPSS目前的产品线过于分散,应当把各种功能较单一的小软件,如AnswerTree、Sample Power等整合到SPSS等几个平台上去。看来SPSS公司也意识到了这一点,而AnswerTree就是在此背景下第一个被彻底整合的产品。 Classification Tree模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细分,而不需要用户有太多的统计专业知识。目前在市场细分和数据挖掘中有较广泛的应用。现在已知该模块提供了CHAID、Exhaustive CHAID和C&RT三种算法,在AnswerTree中提供的QUEST算法尚不能肯定是否会被纳入。 为了方便新老用户的使用,Tree模块在操作方式上不再使用AnswerTree中的向导方式,而是SPSS近两年开始采用的交互式选项卡对话框。但是,整个选项卡界面的内容实际上是和原先的向导基本一致的,另外,模型的结果输出仍然是AnswerTree中标准的树形图,这使得AnswerTree的老用户基本上不需要专门的学习就能够懂得如何使用该模块。 由于树结构模型的方法体系和传统的统计方法完全不同,贸然引入可能会引起读者统计方法体系的混乱。为此,本次编写的高级教程并未介绍该模块,而将在高级教程的下一个版本,以及关于市场细分问题的教材中对其加以详细介绍。 5更好的SPSS系列产品兼容性随着自身产品线的不断完善,SPSS公司的产品体系已经日益完整,而不同产品间的互补和兼容性也在不断加以改进。在13版中,SPSS软件已经可以和其他一些最新的产品很好的整合在一起,形成更为完整的解决方案。例如,SPSS、SPSS Data Entry和新发布的SPSS Text Analysis for Surveys一起就形成了对调查研究的完整解决方案。而新增的SPSS Classification Trees模块将使得SPSS软件本身就能够针对市场细分工作提供更为完整的方法体系。 SPSS的特点1、 操作简便界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。 2、 编程方便具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。 3、 功能强大具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论