版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十二章 非参数判别分析与非参数聚类第一节 非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论, 在那里我们采用了距 离判别、贝叶斯判别和典型判别法。这些判别法都需要估计总体的参数,而贝叶斯判别时, 我们还指定了总体服从正态分布。 在非参数统计中, 不对变量的分布做任何假设, 这里主要 有两种方法, BAYES 方法和近邻方法进行非参数判别分析。设有 M 个类,用 Y 记一具体的对象所属的类, Y 可能的取值为 M , , 2, 1 。设有了 n 个经过明确判定的样本,第 i 个样本的指标为 i X , 所属的类为 , , 2, 1(n i Y i =,n 个样本记
2、 (, , , , , , , 221n n n Y Y Y Z X X X 1 =,常称为“训练样本” 。这一名称的来由使因为日后进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。非参数方法是基于组概率密度函数的非参数估计。每组的非参数密度估计核产生的分 类准则采用核方法或 k 最近邻方法。马氏距离或欧氏距离用来确定样品的接近程度。 二、核方法 1、 Bayes 方法概念设有 M 个总体 M G G , , 1 分别具有概率分布密度 (, (1x f x f M ,出现 M 个总体的先 验概率分别为 M p p , , 1 , 0>=i p , 11=+M p p 。贝叶
3、斯判别的规则将样品判给 ( |(000x f P x f p x G P j j k k k =最大的类,即如果 (max (1x f p x f p j j Mj l l =,判 l G Y 2、 Bayes 方法和密度函数估计的联系在非参数判别中,通常 M j x f j , , 3, 2, 1, ( =完全未知,有时 k p p , , 1 未知。一个 直观的想法是直接估计 M j x f j , , 3, 2, 1, ( =和 M p p , , 1 , 然后将得到的估计代入判别规 则中进行计算。具体的步骤是:如果已知某事物可分为 M 个总体:1G 2G , M G ,该事物的特性 P
4、 个 指标描述,在进行分析之前,已观察到在各个总体的样本。1( 1(21(11(2 1(221(211(1112111111p n n n pp x x x x x x x x x( (, , ,( (2(1(2 (22 (21(11211k pnk n k n k pk k k pk k k k k x x x x x x x x x( (x K 为 p 维密度函数, h 为窗宽,总体 , , 3, 2, 1(M j G j =密度函数的一个核估计可以表示为:=-=jn i ipj jh X x K h n x f 1(1 ( , , 3, 2, 1(M j = nn pj j = 其中 ,
5、 , 3, 2, 1(M j =, M n n n n += 21将估计出的先验概率和密度函数代入判别规则中, 得到后验概率, 进行比较。 使用该估 计需要一个前提,即全部训练样本是从大的总体中随机抽样取得的,否则便没有意义了。现设当 i y =时, X 的条件分布有概率密度函数 (x f i , , 2, 1(n i =, i p i Y P = (, 则 X 的边缘分布为 ( (1x f px f i Mi i=。已知 x X =时, i Y =的条件概率为(/ ( (x f x f p x p i i i =判别规则为 (max (1x f p x f p j j Mj l l =,判
6、l G x =-=jn i nipnj j M j l l h X x K h n n n x f p11 (1max (,判 l G x 三、 K 近邻方法 1、概念记样本 (, , , , , , , 221n n nY Y Y Z X X X 1 =,要由样品指标 x 去判别其所属的类 Y , Y 可能的取值为 M , , 2, 1 。将 n 21X , , X , X 按其与 X 的距离排列,如 x X x X x X Rn R R - 21, 距离相等时,按足标小的在前的原则处理。指定一个介于 1到 n 之间的自然数 k ,挑出最接 近 X 的 k 个,即 k k k k X , ,
7、 X , X 21,与他们匹配的 Y 是 k k k k Y Y Y , , , 21。定 义 :以 i l 记 为 k k k k Y Y Y , , , 21中 等 于 i 的 个 数 , , 2, 1(M i =。 定 义 判 别 函 数, ( (n Z x x nk nk =如下:若 j l 是 M l l l , , , 21 中的唯一最大者,则定义 j x nk = (;若M l l l , , , 21 中 有 若 干 个 同 时 达 到 最 大 者 , 比 方 说 是 c j j j l l l , , , 21 , 则 再 按 等 概 率 在 c j j j l l l ,
8、, , 21 中确定一个为 (x nk 。2、 近邻方法 与概率密度的最近邻估计的关系用近邻方法估计估计密度函数的方法是,先固定一个介于 1到 n 之间的自然数 n k ,对 任何 x ,计算 x X x X x X Rn R R - 21,然后 M j x f j , , 3, 2, 1, ( =的密度 函数估计和先验概率的估计为:|2 (k R j jjX x n l x f -= nn pj j =判别规则为:12max (1R j jj M j l l Xx n l n n x f p -=,判 l G x 12max (1R jMj ll X x n l x f p -=,等价的判别
9、函数j Mj l l l =1max ,则判 l G x 四、 SAS/DISCRIM过程中的非参数判别的选项非参数判别方法是基于组概率密度的非参数估计。每组的非参数密度估计和产生的分 类准则采用核方法和 K 最近邻方法得到。马氏和欧氏距离能够用来确定接近的程度。采用 k 最近邻方法时,马氏距离基于合并 协方差阵;采用核方法时,马氏距离基于单个组那方差矩阵或合并协方差阵。实际上某个检验样品的归类基于由训练集得到的估计组密度。从估计密度, x 术语各 组的喉炎概率得到评估。观测 x 盼归第 t 组是因为 p(t/x最大。METHOD=NPAR采用非参数判别方法。k K =为 k 最近邻方法指定一
10、个 k 值。观测 x 分如一个组基于从 x 的 k 个最劲力得到的信息。rR 为核密度估计指定一个半径 r 。注意 , 不能同时选用 K=选项与 R =选项。KERNEL=BIWEIGHTBIW或 EPANECHNIKOVEPA或 TRIWEIGHTTRI或 UNIFORMUNI为 估计组密度指定一个核密度,缺省为 KERNEL=UNIFORMUNI。METRIC=DIAGONAL|FULL|IDENTITY为平方距离的计算指定度量。缺省为 METRIC= FULL 。第二节 非参数聚类分析非参数聚类过程利用某种基于非参数密度估计的算法对观测得到的数据进行分类。 Sas 的 modeclus
11、模块产生的数据集包括密度估计和聚类的结果,一系列的统计量,其中包括近 似的 p 值,以及用不同的算法,不同的光滑参数和不同的显著性水平得到的结果。我们知道,密度最大的数是众数,及 mode 。非参数聚类方法,类是由概率密度函数的 众数定义的, 一个类大致可以定义为概率密度函数的一个局部最大点附近的区域。 给定一个 足够大的样本, 非参数分析方法可以不同大小, 不同分散程度和形状极不规则的类。 非参数 聚类分析方法对找出具有相同大小和分散程度的类效果也好。一、问题的引入如下虚构的数据进行分类data a;inout x y ;cards;18 18 20 22 21 20 12 23 17 12
12、 23 25 25 2016 27 20 13 28 22 80 20 75 19 77 23 81 2655 21 64 24 72 26 70 35 75 30 78 42 18 5227 57 41 61 48 64 59 72 69 72 80 80 31 5351 69 72 81;option ps=35 ls=78;proc plot;plot y*x/hpos=52 vaxis=0 to 80 by 20;run; 从散点图上看有三类,其中,左下角的类最紧,右下角的类要分散些,上边的类拉得 很长,如果我们进行系统聚类,很难把它们聚为一类。二、密度估计为了方便起见, 可以把以观测
13、点 i x 为中心的球称为 i x 的邻域, 在 i x 的邻域内的观测点 称为 i x 的近邻点。i x :第 i 个 p 维的观测点;, (y x d :x 和 y 的距离;n :样本容量;i n :在 i x 的邻域内的观测点数(含 i x 本身 ;-i n :在 i x 的邻域内的观测点数(不含 i x 本身 ;i N :在 i x 的邻域内的观测的指标集(含 i x 本身 ; -i N :在 i x 的邻域内的观测的指标集(不含 i x 本身 ;i :i x 的近邻的体积;i f :在 i x 处的密度估计值;-i f :在 ix 处的交叉确认密度估计值; k C :被分配到类 k
14、的观测点的指标集p :变量的维数;s l :第 l 个变量的方差; = ni x i 的密度的估计值为: f i nn i 即以该点为中心的球内的所含观测个数 n i 与样本容量 n 的比值乘以球的体积。 非参数密度估计使用球均匀核,球半径是固定的,也可以是可变的。在某点的密度估计 值是以该点为中心的球内所含观测值除以样本量和球的体积。 球的大小由光滑参数确定, 光 滑参数自定,通常要试几个光滑参数。 三、SAS 的非参数聚类过程 类的个数是光滑参数的函数,在光滑参数增大时,类的个数由减小的趋势,但不是严 格单调下降的。一般来说应该指定几个不同的光滑参数,看看类的个数的变化。 SAS 的 MO
15、DECLUS 过程使用的聚类方法采用固定的或可变半径的球型核进行密度估计相 似。对固定半径邻域,用选项 CR或 R指定半径值作为欧氏距离。对可变半径邻域,用选 项 CK或 K指定在球内要求的相邻点数。 METHODn 是为了指定使用哪种聚类分析方法。共有 7 种,06 种。多数情况下选择 METHOD1 和 METHOD6。 1、 METHOD=0 最初把每个观测当作一个单独的类。如果一个类中有一个观测是另一个中某个观测的 相邻点,则把两个类合并。该方法没有用密度估计。对固定的类半径,这些类可以通过最短 距离的树状图在指定的半径上切割。 METHOD1。最初把每个观测当作一个单独的类。对每一个
16、观测点,找估计密度较大 的最近的相邻点。如果这样的相邻点存在,则把观测值点所属的类和指定的相邻点所属的 类合并。接着考虑这样一些观测点,其估计密度等于某些相邻点的估计密度但不小于任何 相邻点的估计密度,然后合并含有这样观测的类: 每个类含有该观测的一个相邻点, 1 使得在这类内最大密度估计等于在那个观测上的密度估计; 这个类包含观测的相邻点, 使得这类内的最大密度估计超过在这观测上的密度估计。 METHOD2。最初把每个观测当作一个单独的类。对每一个观测点,找估计密度最大 的且超过该观测点其密度估计的最近的相邻点。如果这样的相邻点存在,则把观测值点所 属的类和指定的相邻点所属的类合并。接着考虑
17、这样一些观测点,其估计密度等于某些相 1 参考 SAS/STAT 软件使用手册 P.681 6 核函数方法和近邻估计 邻点的估计密度但不小于任何相邻点的估计密度,然后合并含有这样观测的类。 METHOD3。最初把每个观测当作一个单独的类。对于观测点 x i ,找出相邻点 x j ,使 得 - f f j i d ( xi , x j 达到最大值。如果斜率是正的,则合并观测 x i 所属的类和观测 x j 所属的类。 然后考虑这样一些观测点,其估计密度等于某些相邻点的估计密度但不小于任何相邻点的 估计密度,与 METHOD=1 相同的处理方法。 METHOD4。等价于两阶段密度估计法。 METH
18、OD5。等价于两阶段密度估计法。 METHOD6。开始时所有观测都没有分类。 第一步:找到一些种子,每个种子是一个单独的观测点,在,在这一点的密度估计不 小于它的任何相邻点的密度估计。 如果规定选项 MAXCLUSTERS=n,则只保留 n 个密度估计最 大的种子。 第二步:以密度估计由大到小的顺序逐个考虑每个种子: 1)如果当前这个种子已被分配,则考虑下一个种子。否则形成一个包含当前这个种 子的新类。 2)如果有某个未被分配的种子是这个类中一个成员的相邻点,或者与某个成员有共 同的相邻点,则把这个种子加入这个类;重复这个步骤直到没有未被分配的种子满足这个 条件为止。 3 如果一些种子属于这个类,则把这些种子的所有相邻点加入这个类。 4)考虑每个没有被分配的观测点。计算属于当前类的相邻点的密度估计的 p-1 次幂 的和与它的所有相邻点密度估计的 p-1 次幂的和的比率,其中 P
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省武汉市高新区2026年初三第一次教学质量检测试题物理试题试卷含解析
- 2026年大学大一(口腔修复学)口腔固定义齿设计制作阶段测试题及答案
- 2026年大学大一(基础写作)应用文体写作阶段测试题及答案
- 护理实践中的护理与医疗成本
- 护理安全转运跨科室协作
- 2025年前台防疫接待礼仪模拟卷
- 2025年前台电话接听专项试卷
- 秋雨绵绵的意思是什么
- 护理记录的完整性分析
- 护理安全文化的重要性
- 2025年高等教育工学类自考-02141计算机网络技术历年参考题库含答案解析(5套典型考题)
- 2025年河北省石家庄市精英小学小升初数学试卷
- 工行个贷管理办法
- T-HNTI 018-2020 湘西黄金茶 绿茶
- 北京中学转学管理办法
- 统编版(2024)七年级下册道德与法治全册分课时同步练习题(含答案)
- 食堂承包管理难点及解决措施
- 月嫂岗前培训课件班
- 2025年重庆市中考英语试卷真题(含标准答案及解析)
- 旋挖钻孔灌注桩全护筒跟进施工工艺主要施工方法及技术措施
- 第四单元应用文写作《说明书》(教学设计)-【中职专用】高二语文上(高教版2023职业模块)
评论
0/150
提交评论