商务数据挖掘介绍(教授制作)ln7.ppt_第1页
商务数据挖掘介绍(教授制作)ln7.ppt_第2页
商务数据挖掘介绍(教授制作)ln7.ppt_第3页
商务数据挖掘介绍(教授制作)ln7.ppt_第4页
商务数据挖掘介绍(教授制作)ln7.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

判别分析 贝叶斯判别 Procdiscrim 判别分析变量选择 Procstepdisc 典型判别 Proccandisc 节选自谢小燕教授课件 判别分析利用已知类别的样本培训模型 为未知样本判类的一种统计方法 它产生于本世纪30年代 近年来 在自然科学 社会学及经济管理学科中都有广泛的应用 判别分析的特点是根据已掌握的 历史上每个类别的若干样本的数据信息 总结出客观事物分类的规律性 建立判别公式和判别准则 然后 当遇到新的样本点时 只要根据总结出来的判别公式和判别准则 就能判别该样本点所属的类别 讲课提纲 假设贝叶斯判别分类变量选择典型判别分类 假设条件 样本大小 我们先把数据按结果变量的类别划分到几个组里 在各组样本上数据量大小不同是允许的 在最小组的样本数据量至少要超过预测变量数 经验法则要求最小组的样本数据量应为预测变量数的4 5倍 假设条件 正态分布 在此假设数据服从多元正态分布 这可以通过频率分布的直方图看出来 然而 违反正态分布的假设不是 致命 的 只要非正态是由偏态而不是由界外点引起的 结果给出的显著性检验依然可靠 TabachnickandFidell1996 假设条件 方差齐性 判别分析对协方差矩阵的非齐性 heterogeneity 非常敏感 在接收一项重要研究的最终结果之前 需要审察一下几个组内方差和相关系数矩阵 方差齐性是通过散点图进行评价 并通过变量转换进行校正 假设条件 异常值 判别分析对于异常值非常敏感 对每一个组进行单变量或多变量异常值检验 如果有的话进行转变或删除 如果研究数据中一个组包含极端异常值 会对均值产生影响以及增加方差 对参数的显著性检验基于混合方差 即所有组的平均方差 因此相对较大的均值 和较大方差 的显著性检验会基于较小的混合方差 会导致错误 假设条件 无多重共线性 如果其中一个自变量跟其它的变量高度相关 或者就是其它变量的函数 判别分析将难以给出唯一解 因此要求自变量之间的多重共线性很低 当自变量相关时 标准化后的判别函数系数将不能可靠地给出预测变量的相对重要性 ClassificationwithBayesianRule 设有k个类别 具有概率密度函数 并且根据以往的统计分析 知道出现的概率为 即当样本发生时 求他属于某类的概率 由贝叶斯公式计算后验概率 有 判别规则 则判给 在正态的假定下 为正态分布的密度函数 则判给 上式两边取对数并去掉与i无关的项 则等价的判别函数为 特别 总体服从正态分布的情形 问题转化为若 则判 当协方差阵相等 则判别函数退化为 令 问题转化为若 则判 令 问题转化为若 则判 定义 平均错判损失 用P j i 表示将来自总体Gi的样品错判到总体Gj的条件概率 C j i 表示相应错判所造成的损失 则平均错判损失为 使ECM最小的分划 是Bayes判别分析的解 定理 若总体G1 G2 Gk的先验概率为 且相应的密度函数为 损失为则划分的Bayes解为 其中 含义是 当抽取了一个未知总体的样品值x 要判别它属于那个总体 只要先计算出k个按先验概率加权的误判平均损失 然后比较其大小 选取其中最小的 则判定样品属于该总体 datafish drop HtPctWidthPct title FishMeasurementData inputSpeciesWeightLength1Length2Length3HtPctWidthPct Height HtPct Length3 100 Width WidthPct Length3 100 formatSpeciesspecfmt datalines procdiscrimdata fishlistlisterr classSpecies priorsprop run 变量选择和逐步判别 变量的选择是判别分析中的一个重要的问题 变量选择是否恰当 是判别分析效果有列的关键 如果在某个判别问题中 将起最重要的变量忽略了 相应的判别函数的效果一定不好 而另一方面 如果判别变量个数太多 计算量必然大 会影响估计的精度 特别当引入了一些判别能力不强的变量时 还会严重地影响判别的效果 设有n样品 分别来自k个类G1 G2 Gk其中ni个来自Gi 一变量组间差异的显著检验 样品分别为 即 p个指标对G1 G2 Gk无区别能力 p个指标对G1 G2 Gk有区别能力 当比值很小 类内的离差平方和在总离差平方和中所占比率小 则类间的离差平方和所占比重大 在原假设为真的条件下 服从维尔克斯分布 p个指标对G1 G2 Gk有强的区别能力 拒绝原假设 接受原假设 二变量增减对区分类别效果的检验 在回归分析中 变量的好坏直接影响回归的效果 在判别分析中也有类似的问题 如果在某个判别分析问题中 将其中最主要的指标忽略了 判别效果一定不会好 但是在许多问题中 事先并不知道那些是主要的指标 因此筛选变量的问题就成了非常重要的了 向后剔除开始时 所有变量依赖于VAR语句中的变量都在模型中 每一步 在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除 当所有余下的变量都达到留在模型中的标准时 向后剔除过程停止 逐步选择开始时如同向前选择一样 模型中没有变量 每一步都被检查 如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准 它就被剔除 否则 不在模型中对模型的判别能力贡献最大的变量被选入模型 当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准 逐步选择过程停止 逐步判别法采用有进有出的算法 即每一步都进行检验 首先 将判别能力最强的变量引进判别函数 而对较早进入判别函数的变量 随着其他变量的进入 其显著性可能发生变化 如果其判别能力不强了 则删除 向前选入开始时模型中没有变量 每一步 Wilks的统计量最小者 进入模型 当不再有未被选入的变量小于选入的临界值时 向前选入过程停止 步骤 第一步 通过计算单变量的 统计量 逐步选择判别变量 统计量最小者首先进入模型 第二步 分别计算未被选中的其它变量与选中变量x1的 统计量 统计量 1i得值最小者与x1搭配进入模型 第三步 类推假设已经有q 1个变量进入了模型 要考虑较早选入模型得变量得重要性是否有较大得变化 应及时将其从模型中剔除 其原则与引入相同 统计量 得值最小者或F最大者保留 第四步 进行判别分析 procstepdiscdata fish classSpecies run procglmdata fish classSpecies modelheight Species nouni manovah Species printe run procglmdata fish classSpecies modelheightlength2 Species nouni manovah Speciesm height length2 printe run 典型判别法 一两个总体的费歇 Fisher 判别法 X不能使总体单位尽可能分开的方向 u能使总体单位尽可能分开的方向 旋转坐标轴至总体单位尽可能分开的方向 此时分类变量被简化为一个 典型判别分析的图形解释 其做法是进行维数压缩 同时尽可能多地保留数据类别区分的信息假如我们观测的是D维的数据 其中N1个点属于1类 N2个点属于2类 我们要把数据x投影到一条直线上 即 y wTx 得到y值在所有这些直线中 我们要找最能把这些y值按类别区分开的那条 一 费歇判别的基本思想 Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法 Fisher在1936年提出 从两个总体中抽取具有P个指标的样品观测数据 借助于方差分析的思想构造一个线性判别函数 其中系数确定的原则是使两组间的组间离差最大 而每个组的组内离差最小 当建立了判别式以后 对一个新的样品值 我们可以将他的P个指标值代入判别式中求出Y值 然后与某个临界值比较 就可以将该样品归某类 假设我们可以得到一个线性判别函数 我们可以把两个总体的样品代入上面的判别式 二 判别准则 如果由原始数据y求得判别函数得分为Y 对与一个样品代入判别函数中 若Y Y0 则判给G1 否则判给G2 二 多个总体的Fisher判别法 一 判别函数 Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向 即寻找线性判别函数 设有个总体 分别有均值向量 和协方差阵 分别各总体中得到样品 例某种产品的生产厂家有12家 其中7家的产品受消费者欢迎 属于畅销品 定义为1类 5家的产品不大受消费者欢迎 属于滞销品 定义为2类 将12家的产品的式样 包装和耐久性进行了评估后 得分资料 今有一新得厂家 得分为 6 4 5 该厂的产品是否受欢迎 dataa inputtype x1x2x3 cards 198717661878185519931897175624442366263322452122 procprint proccandiscdata aout outcansimpledistanceanova classtype varx1x2x3 procprintdata outcan run Total SampleStandardVariableNSumMeanVarianceDeviationx11272 000006 000007 818182 7961x21268 000005 666675 151522 2697x31262 000005 166673 424241 8505 RawCanonicalCoefficientsVariableCan1x10 6638029449x20 0626766729x30 2315780967 ClassMeansonCanonicalVariablestypeCan111 6041565342 2 245819148 Obstypex1x2x3Can1判类119872 562211217660 877681318782 067311418551 247231519931 698581618971 961091717560 81500182444 1 70224292366 1 777532102633 0 668892112245 2 798272122122 4 282162无错判 个案1的得分 0 6638029449 9 6 00000 0 0626766729 8 5 66667 0 2315780967 7 5 16667 2 56221阈值 1 604156534 2 245819148 2 0 320831307所以个案1判为1类 新个案的得分0 6638029449 6 6 00000 0 0626766729 4 5 66667 0 2315780967 5 5 16667 0 14306新个案判给第1类 即该厂的产品是否受欢迎 将样本分成两部分 一部分用于确定判别函数 另一部分用于检查判别的效果 如果样本量很大 可将样本平均地或随机地分成两部分 选择变量 1 和判别分析的目的密切相关 2 反映要判类变量的特征 3 在不同研究对象上的值有明显的差异 一 主要步骤 计算错判比率和正确判定的比率 将判别函数用于验证样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论