第9章随机数学模型2_第1页
第9章随机数学模型2_第2页
第9章随机数学模型2_第3页
第9章随机数学模型2_第4页
第9章随机数学模型2_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、引例 1981年生物学家格若根( W Grogan)和维什( W Wirth)发现了两类蚊子 (或飞蠓 midges)他们测量了这两类蚊子每个个体的翼长和触角长,数据如下: 翼长 触角长 类别 1.64 1.38 Af 1.82 1.38 Af 1.90 1.38 Af 1.70 1.40 Af 1.82 1.48 Af 1.82 1.54 Af 2.08 1.56 Af 翼长 触角长 类别 1.78 1.14 Apf 1.96 1.18 Apf 1.86 1.20 Apf 1.72 1.24 Af 2.00 1.26 Apf 2.00 1.28 Apf 1.96 1.30 Apf 1.74 1.36 Af数学模型9.7分类问题v 问: 如果抓到三只新的蚊子,它们的触角长和翼长分别为 (l.24,1.80); (l.28, 1.84);( 1.40,2.04)问它们应分别属于哪一个种类? 解法一 : 把翼长作纵坐标,触角长作横坐标;那么每个蚊子的翼长和触角决定了坐标平面的一个点 .其中 6个蚊子属于 APf类;用黑点 “”表示; 9个蚊子属 Af类;用小圆圈 “。 ”表示 得到的结果见图 1 图 1飞蠓的触角长和翼长 数学模型v 思路 : 作一直线将两类飞蠓分开 例如;取 A( 1.44, 2.10)和 B (1.10, 1.16),过 A B两点作一条直线: y 1.47x - 0.017 其中 X表示触角长; y表示翼长 分类规则 : 设一个蚊子的数据为( x, y) 如果 y 1.47x - 0.017,则判断蚊子属 Apf类; 如果 y 1.47x - 0.017;则判断蚊子属 Af类 数学模型v 分类结果 : (1.24, 1.80), (1.28, 1.84)属于 Af类;(1.40, 2.04)属于 Apf类图 2 分 类 直 线图 数学模型缺陷: 根据什么原则确定分类直线? 若取 A=(1.46,2.10), B=(1.1,1.6)不变,则分类直线变为 y=1.39x+0.071分类结果 变为: (1.24,1.80), (1.40,2.04) 属于 Apf类; (1.28,1.84)属于 Af类 哪一分类直线才是正确的呢? 因此如何来确定这个判别直线是一个值得研究的问题一般地讲,应该充分利用已知的数据信息来确定判别直线数学模型v 再如 ,如下的情形已经不能用分类直线的办法: 数学模型1.距离判别法1.1欧氏 Euclidean distance距离判别法1.2马氏 (P. C. Mahalanobis)距离判别法1.3海明 Hamming距离判别法两个合法代码对应位上编码不同的位数称为海明距离。 合理的距离v如果用 dij表示第 i个样品和第 j个样品之间的距离,那么对于一切 i, j和 k, dij应该满足如下三个条件: v dij0,当且仅当 i=j时, dij=0 ( 非负性 )v dij dji ( 对称性 ) v dijdik dkj( 三角不等式 ) 显然,欧氏距离满足以上三个条件。欧氏距离的缺点v欧氏距离虽然简单,但也有明显的缺点。它将样本的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。马氏距离优缺点v 1)马氏距离的 计算是建立在总体样本的基础上 的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同; v 2)在计算马氏距离过程中, 要求总体样本数大于样本的维数 ,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。 v 3)还有一种情况,满足了条件总体样本数大于样本的维数,但是 协方差矩阵不可逆 ,比如三个样本点( 3, 4),( 5, 6)和( 7, 8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧式距离计算。 v 4)在实际应用中 “总体样本数大于样本的维数 ”这个条件是很容易满足的,而所有样本点出现 3)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是 马氏距离的计算不稳定 ,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。 v 优点:不受量纲的影响 ,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据 (即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:夸大了变化微小的变量的作用。 2.Fisher判别法v Fisher判别的基本思想是将 k个总体的所有 p维空间的样本点投影到一维空间上,使投影后组与组之间尽可能的分开,然后利用方差分析的方法推出判别函数。为了简单起见,通常利用线性的判别函数u(x)=aTx.v 寻找一个最恰当的方向 a,使在这个方向上,组间方差与组内方差的商最大求解最优判别方向等价于求解带约束函数优化问题可以证明:v Fisher判别法v 根据各个样本均值在最优方向上的投影值从小到大将样本集重新编号,假设序号仍然为G1Gk。v 定出 Gj和 Gj+1的分界值 uj, j=1k-1,比如:v 确定样本类别:Bayes判别法v距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。第一,判别方法与总体各自出现的概率的大小无关;第二,判别方法与错判之后所造成的损失无关。 Bayes判别法就是为了解决这些问题而提出的一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论