有序判别分析新算法及其应用_第1页
有序判别分析新算法及其应用_第2页
有序判别分析新算法及其应用_第3页
有序判别分析新算法及其应用_第4页
有序判别分析新算法及其应用_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、有序判别分析新算法及其应用丁跃潮 浦云明 林颖贤(集美大学计算机工程学院,福建,厦门361021) 摘要 判别分析是用已知分类数据建模对未知分类数据进行判别的方法,所用数据和分类不分顺序。要对有序又有周期数据进行判别分析,就要探索有序判别的新方法。这种方法的分类应当是有序的,并且能够排除事物发展周期性的干扰。本文介绍多元数据有序判别分析新方法的原理、建模流程、应用流程和应用实例。这种判别分析将分类建模与判别归类分开。新方法对多元数据建模时在多类模型中建立滑移的多套子模型,应用时根据应用领域的知识对样本归属作初步预估,然后程序选择相关的子模型进行判别归类。这种方法解决了由于时间序列多元数据周期性

2、造成的样本分类颠倒问题,为时间序列数据的分类和预测开辟了新途径,在实际应用中取得了良好的效果,解决了重大难题。关键词 判别分析 多元数据 有序判别 建模 最优分割中图分类号TP301.6; O21; TP311.1 文献标识码 AOn New Arithmetic Method of Sequent Discriminant Analysis and its ApplicationDing Yuechao, Pu Yunming, Lin Yingxian(Computer Engineering Institute, Jimei University, Xiamen 361021, Chin

3、a)Abstract: Discriminant analysis is a method which classify the type-unknown data by modeling the type-known data, in which data and types are not ordinal. In order to discriminate ordinal and periodic data, new discriminant analysis method should be explored. This new method should classify data i

4、n sequence and eliminate the disturbance of periods. This paper introduces the principle, modeling flow chart, applying flow chart and a practical example of new arithmetic method called Sequent Discriminant Analysis (SDA) which may be used in multivariate sequence data. In SDA, the class modeling a

5、nd data discriminating are separated. While modeling to multivariate data by this kind of discriminant analysis, a number of child-models are built in the model by way of slippage. While applying the model, the initial estimation of the samples classification should be given according to the knowled

6、ge in the problem-corresponding field. Then the program selects the appropriate child-models to discriminate the classes. In this way, we solved the upside down problem of sample classification caused by the periodicity of multivariate time series data. Thus, a new approach is made to classify and f

7、orecast the time series data. In practical application, we have achieved a lot and given important problems approving solutions.Key words: discriminant analysis, multivariate data, sequent discriminant, modeling, optimal cutting0引言判别分析是根据多指标来判断个体所属类别的一种多元统计分析方法,其本质是利用多指标进行综合判断。根据变量取舍情况又分为多组判别和逐步判别 1

8、23。目前,在经济、气象、地质、冶金、生物、农业、医学等需要处理多元数据的诸多领域得到广泛应用。但是,对于有序或时间序列数据,特别是有序又有周期性获旋回性干扰的数据,没有有效的方法通过已知数据建模去推知待判别样本的类别归属。笔者在一些领域的应用中,对逐步判别分析方法进行扩充,提出了二阶判别4、定向判别和有序判别等新方法,这里引入其中一种新的分析方法有序逐步判别,以解决有序样本建模分类和判别预测的问题,并为数据挖掘提供新的途径。1逐步判别分析原理简介对于一个多元数据矩阵,在数据库领域表现为多字段二维表。假设有来自G个母体的n个已知分类样本,每个样本有m个变量,则在数据库中加上样品标识和已知分类,

9、共有m+2个字段、n条记录。每个样本被看着是m维欧氏空间R上的一个点,每个母体都是R中的一个子空间Rg,这些子空间是互相排斥的,组成了R。需要找出一个办法,即找到判别函数,把空间R划分为G个子空间Rg(g=1,2,G)。已知的样本有了空间归属和函数,就能对未知归属的样本进行判别,确定其归属,即判别归类或预测。人们总是希望用较少的变量去划分空间R,因为采集数据记录时,字段越少越好,成本越低。这就需要福建省自然科学基金项目(A0410021)资助。衡量每个变量参与划分G个母体的能力。这就需要用F检验,给出引入变量的F值和剔除变量的F值,作为引入和剔除变量的门限值。在一个母体内样本间的差异应当较小,

10、不同母体的样本差异应当较大。根据Wilks准则,组内离差越小、组间离差越大,越有利于G个母体的分类。通过计算组间离差B和组内离差W,然后进行F检验,就可以确定变量的取舍。逐步引入和剔除,最终得到区分能力较大的变量组合。求得区分能力显著的k个变量组合后,计算判别系数,最终建立G个子空间的判别函数: g=1,2, G其中qg是第g组的先验概率,一般采用样品频率代替(qg=ng/n)。cig是判别系数。对于某一待判别归属的样本,如果则把该样本划归g*类。也就是把样本中变量的观察值分别代入G个判别函数,哪个函数取值最大,就划归那一组。可以将用来建模(求得判别函数)的原始数据回代到各组判别函数,求得样品

11、的归属,与原来实际分类对比,以确定判别函数的准确度。一般回判效果都很好,正判率85%以上。2有序判别方法的引入2.1 为什么要进行有序判别对于时间序列多元数据,虽然没有很好的方法建模和用于预测,但是我们可以借用判别分析的方法。对于时间序列样本的判别分析,有其特殊性,即不论是建模样本还是待判别样本,都按时间顺序排列,顺序不能颠倒。事物的发展是波浪式前进、螺旋式发展。在气象、地壳运动、经济和生物等事物发展变化中都会出现周期性或旋回性,这就使不同时间段的样本会出现相同或相近的数量特征。这就在回归判别时造成样本归属顺序的上下颠倒,歪曲了事物真相。逐步判别分析是选出能区分各组的变量来建立判别函数的。判别

12、分析分类较多时,多类样品同时参与求判别函数系数,对时间相隔较远而部分变量又具有相同特征的两个或两个以上类,有些无区分意义的变量可能不参与建模,使这些类的特征受到损失,而使每个类的特征为了其独立性而特征不太明显,也就造成了不同旋回的具有相似性样本的相互影响、相互干扰,使这些类的有些特征被模糊,所建立的本组判别函数特征就不十分突出,因此不能从根本上解决事物旋回性的影响,于是我们提出了“有序逐步判别”的方法。“有序逐步判别”的基本思路:以14组有序判别为例,不是进行真正的14类判别,而是采用局部建模。考虑一定范围的因素,而不整体考虑14组的特点,从上到下滑移地建立多套分类数等于步长的判别模式。判别归

13、类时,在给定粗估范围的情况下,只选择相应的模式。这样14类多组逐步判别实质上是步长滑移综合14类逐步判别,其中有14个子模式。对待判别样本依据模式进行判别归类时,要将专门领域的知识和计算机运算相结合。根据所涉及问题的特征可以给出样本的大致归属,专业人员把未知样品归属粗估到步长范围之内是完全不成问题的。比如地质人员根据邻区或区域地质情况以及颜色、岩性特征可以给出地层的大致归属,他们不会把新生代的地层认定为中生代地层。在大致范围参数确定的情况下,给软件运行输入预估参数,就可避免归类混乱或将样本判归到根本不可能的、时代偏离很远的类别。这就是我们提出的“有序判别”方法的基本思想。这种思想可用于多组判别

14、分析和逐步判别分析。2.2有序逐步判别分析的建模有序判别分析是针对时间序列多元数据,样本要按照由新到老或由老到新的时间顺序排列,最后一列应当有现行分类号。一般根据具体问题,事物随时间推移有多个阶段,按顺序一个阶段就是一类。人为不好对有序样本进行分类时,可以采用有序聚类方法(又称最优分割法)25,对样本进行分类。分类数不同,则可以进行类型数不同的判别分析建模。有序逐步判别的建模以一般的逐步判别分析步骤为核心模块,多次调用,按顺序建立多套分类数等于滑移步长的判别函数。每次调用需将所求得的判别函数参数按顺序存入数据库,以备判别未知样本归属或预测时再用。原始数据如果不是从数据库中取得,最好也存入数据库

15、。目前,数理统计软件中的判别分析没有建模的功能,这些软件把建模用的原始数据和待判别数据放到一起,只是待判别数据记录放在数据表的尾部。虽然求得的判别函数参数发表出来可以作为模型应用,但是还需再编程。我们在编制的软件中应用判别分析时,将原始数据、判别函数参数等全部存入数据库。其中分组数的不同,可形成多套判别函数,我们将其命名成模式,用有关领域的实际意义对模式进行说明。应用模式时,新建待判别数据表,在多种模式中根据模式说明和问题的需要选择合适的模式,然后对待判别样本进行归类。实际应用中取得良好的效果,方便了用户。3有序判别方法的实施流程判别分析建模流程见图1。分类模块Classfy(X,n,G)中X

16、是指原始数据矩阵(数据表),n是样本数,G是分类数,采用有序聚类算法,分类结果为X增加一个列,代表类型。有时原始数据表每条记录(样本)的归属是有已知事物分类的,则该模块应该省略。Discriminent(X,ng,i,g)模块是逐步判别分析模块,参数X意义同上,ng是G类中每类样本数,i为滑移循环建模序号,g为子模式分类数。在滑移链的中部,子模式分类数都定为滑移步长L,在头部和尾部的子模式,分类数2gL。滑移步长L一般取3至5。经过G次循环逐步判别分析,求得G套判别函数参数。一套判别函数就是一个子模型,可以整套模式和子模式命名存入数据库。 有序判别分析模型应用流程见图2。一个或多个样本的多元数

17、据输入后可存入数据库,以备再用。根据需要可以选择事先建立好的多套模型多次进行判别归类。选择模型后,输入各样本(样本段)的预估分类号(或称定向分类中心)Ti。程序以各样品或样品区段的预估分类号为中心选择子模式,而不考虑时间相隔久远的子模式。计算子模式各判别函数函数的值,并比较大小,按最大值时的函数序号取得待判别样本的分类归属。图1 有序判别分析建模流程NYN调用Discriminent(X,ng,i,g)进行判别分析i = G ?结束开始输入数组X,样品数n,分类数G,滑移步长L数据存入数据库第i子模型建立,判别函数参数入库分类模块Classify(X,n,G)分别为G类中每一类赋予领域意义计算

18、G类中每类样本数ng(i) i=1,2,G开始有序判别建模,循环初值i=0i = i + 1i<L or G-i<L?合理计算分类数g分类数为步长,即g=LNY输入分类数GY改变分类数另建模型吗?整套模型完成,命名存入数据库 图2 有序判别分析模型应用流程另选择模式进行判别吗?输入各样本区段预估分类号TiNY计算样本在子模型Ti的各判别函数值选择分类模型开始输入待判别样本数量n及各记录数据存入数据库从数据库取出模型参数结束取函数最大值时的序号作为样本归属输出各样本的判别归类列表各样本选择模型中第Ti套子模型4有序判别方法应用实例在干旱炎热的陆相环境沉积的地层常不含化石,被称为哑地层

19、,即便偶然见到少量微古化石,也不是能够划分时代的演化迅速的标准化石,井下获得化石机率就更小,而靠岩性(粗细、颜色等)进行地层对比,由于陆相地层岩相变化大,往往得出错误的结论。例如,塔里木盆地库车拗陷自晚侏罗世开始出现反映干旱炎热环境的红色沉积,至更新世共沉积了近万米的红色哑地层,地面地层较容易确定,而井下地层就更难判断了,影响了油田的进一步勘探开发和对邻区油气勘探的突破。为了突破这一难题,采用地球化学和定向判别分析,对已知层位建模,用于判别井下样本的归属,取得了成功。该地区渐新统上新统地层系统见图3。在沉积过程中,微量元素与介质之间存在复杂的化学平衡,微量元素的分散,迁移和聚集,除与本身的化学

20、性质有关外,还受到物源性质、气候、水化学条件的影响。因此,研究微量元素,对分析沉积时的地球化学环境和进行地层划分对比有重要意义。地层是地质历史的记录,是时间和地史环境(地球化学环境和物源性质等)的函数。有些元素在同一古水域或大的沉积环境中,有特征的时空分布规律,受亚相或岩性的干扰很小,不同时期的地层,具有不同的元素地层学特征。找出不同时期元素间的函数关系,建立模式,就能划分对比地层。元素本身,不具备时代意义,但标准剖面的时代是已知的,由已知剖面的函数及其时代意义去判别未知剖面的归属,从而展开横向对比。时代分类号地层单位步长为3的滑移情形及子模型编号更新世1西域组12晚新世2库车组3中新世3康村

21、组44吉迪克组5始-渐新世5苏维依组6古-始新世6库木格列木群上部77库木格列木群下部8早白垩世8巴什基其克组99巴西改组1010舒善河组1111亚格列木组12晚侏罗世12喀拉扎组1313齐古组14中侏罗世14恰克马克组图3 库车剖面地层系统及滑移模型编号我们采用Fe、Al、Ca、Mg、K、Na、Mn、Cu、Zn、Cr、Ni、Co、Ti、V、Li、Nb、Ba、Sr、Be、La、Y、As、Sb、Bi、Hg、Sn、Mo、Pb、Ag、W、Ge、Ga、B、Zr、Rb、Cs、Cd共37种元素作为变量,采集了上述地面地层180个样本,进行逐步判别分析。如果使用一次到位的14类划分模式,对邻近地区和井下有序

22、样品进行判别归类,得到的答案大部分比较合理。但是有不少样品的归类颠倒了顺序,不符合地层学规律,如第三纪地层样品中有些归入了侏罗纪地层中。这些待判别样品是按照地层顺序采集的,没有断层错位,不可能出现违反地层时间顺序的现象。产生这种现象的原因是相隔久远的地层沉积时地层的地球化学环境相近。我们必须避免这种现象。为此,我们采用有序逐步判别分析建模,滑移步长取3(图3),建立了上述按地层单位顺序的14类划分模式(表1)。依据上述有序判别分析建立的模式,判断未知样品时,限定地层样本的大致归属,对待判别的有序样品判别归类较为合理,取得了满意的效果。对该地区井下岩屑进行化学分析,将上述元素的含量代入模式,运用

23、有序判别算法,得到了合理的层位判别归类解释。邻近地区地面和井下样品的分析实践,证明有序判别方法是一种行之有效的方法,为石油勘探开发中地层划分对比提供了有效的途径。5结论 很多领域的事物发展出现周期性或旋回性,相近的数量规律周期性地出现在相隔久远的样本中。在利用判别分析进行多类建模,对时间序列多元数据进行判别归类时,会出现有序数据的归属上下颠倒或穿插,歪曲了事物真相。在多类模型中滑移式建立多套子模型,利用所涉及问题相关领域的知识,对样本的归属人为预估,使之通过相关范围的子模型在某旋回内判别,这种有序判别的方法有效地解决了有序样本的判别归类问题。有序判别分析在地质、经济等领域时间序列数据判别分析中

24、已经有成功的应用,今后在其他领域的建模和分类预测中将发挥越来越大的作用。表1 塔里木盆地库车坳陷中侏罗世至更新世元素地层14类划分有序判别模式参数表模型号121314层位西域组库车组西域组库车组康村组喀拉扎组齐古组恰克马克组齐古组恰克马克组b0-387.84 -406.91 -457.47 -473.05 -506.35 子模型3至12省略-50.90 -97.05 -66.99 -95.71 -49.32 b1-37.987 -25.479 -3.922 5.573 4.349 0 0 0 0 0 b25.212 -1.131 -8.254 -16.805 -15.338 -5.623 -1

25、9.256 -10.805 0 0 b30 0 5.506 8.506 6.416 0 0 0 0 0 b4-33.230 -0.714 -53.765 -25.515 -30.152 27.866 0.064 -18.774 0 0 b50 0 0 0 0 1.506 32.609 37.030 0 0 b662.710 55.827 76.608 72.369 77.328 12.951 33.275 16.377 48.186 7.993 b70.096 0.080 0.043 0.030 0.026 -0.003 0.028 0.021 0 0 b80 0 0 0 0 -0.779 -

26、0.127 0.775 -1.480 0.178 b90 0 0 0 0 0.129 0.478 -0.179 0.638 0.191 b100 0 0 0 0 0 0 0 0 0 b11-0.550 -1.618 0 0 0 0.287 0.470 0.968 0 0 b120 0 2.283 1.733 2.655 0 0 0 0 0 b130 0 0 0 0 0 0 0 0 0 b141.944 2.140 0.674 0.515 0.199 0 0 0 0 0 b150 0 0 0 0 0 0 0 0 0 b1613.604 13.001 13.198 11.845 12.894 0

27、0 0 3.857 1.677 b170 0 0 0 0 0 0 0 0 0 b180 0 0 0 0 0 0 0 0 0 b190 0 38.172 62.910 89.686 0 0 0 0 0 b200 0 1.858 0.837 1.775 0 0 0 0 0 b210 0 0.854 2.326 0.750 1.094 0.081 0.184 0 0 b220 0 0 0 0 1.019 0.712 -0.848 2.282 0.341 b23-6.405 1.890 0 0 0 0 0 0 0 0 b240 0 0 0 0 0 0 0 0 0 b250.631 0.765 0.745 0.9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论