




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学模型 - 115 -第三章 随机数学模型3.1 多元回归与最优逐步回归一、数学模型设可控或不可控的自变量;目标函数,已测得的n组数据为: (1.1)系统其中是系统的测试数据,相当于如下模型:设多目标系统为: 为简化问题,不妨设该系统为单目标系统,且由函数关系,可以设: (1.2)可得如下线性模型 (1.3)为测量误差,相互独立,。令可得 (1.4)(1.4) 称为线性回归方程的数学模型。 利用最小二乘估计或极大似然估计,令 使,由方程组 (1.5)可得系数的估计。令 方阵可逆,由模型可得:即有 (1.6)可以证明(1.6)与(1.5)是同解方程组的解,它是最优线性无偏估量,满足很多良好的性质,另文补讲。二、模型的分析与检验设目标函数的平均值,则由公式可计算得总偏差平方和,回归和剩余平方和: (1.7)假设检验: 至少有一个不为零结论是:当 当被拒绝以后,说明方程(2)中系数不全为零,方程配得合理。否则在被接受以后,说明方程配得不合适,即变量对目标函数都没有影响,则要从另外因素去考虑该系统。三、回归方程系数的显著性检验假设 备选假设 可以证得: (1.8)或者 的对角线元素。当 时,显著不为零,方程(1.2)中第j个变量作用显著。若有某一个系数假设被接受,则应从方程中剔除。然后从头开始进行一次回归分析工作。四、回归方程进行预测预报和控制 经过回归分析得到经验回归方程为 (1.9)设要在某已知点上进行预测,可得点估计: (1.10)下面对预测预极值进行区间估计,可以证得其中 得的预测区间为: (1.11)五、最优逐步回归分析 在线性回归分析中,当经过检验,方程(1.2)作用显著,但为显著,说明不起作用,要从方程中剔除出去,一切都要从头算起,很麻烦。这里介绍的方法是光对因子逐个检验,确认它在方程中的作用的显著程度,然后依大到小逐次引入变量到方程,并及时进行检验,去掉作用不显著的因子,依次循环,到最后无因子可以进入方程,亦无因子被从方程中剔除,这个方法称为最优逐步回归法。从方程(1.2)中,为方便计,设变量个数,记可得 (1.12)此时仍可得是回归估计值回归方程为 (1.13)分别是的系数估计。为了减少误差积累与放大,进行数据中心化标准化处理: (1.14)可得数学模型为: (1.15)经推导可得:,称为系数相关矩阵 由此可得经验回归方程: (1.16)然后以变换关系式代入可得 (1.17)将(17)式与(13)式进行比较,可得: (1.18)只要算得(16)式的即可。注意到, ,其中是对于因子的偏回归平方和,可以证明线性方程中对变量的多元线性回归方程中的偏回归平方和为(是原方程中的偏回归平方和): 把系数矩阵R变成加边矩阵,记为比较,设,则相应变量作用最大,但是否显著大,要进行显著性检验,可以证得当时,可将变量引入方程中去。 现将这个循环步骤介绍如下:第一步:挑选第一个因子1. 对 计算的偏回归和2. 找出 决定 3. F检验 当时引入,一般总可以引入的。 第二步:挑选第二个因子首先变换加边矩阵则 , 因子的偏回归平方和 记 决定可否引入步骤:1. 对,计算的偏回归平方和。 2. 找出中最大的一个,记为。 3. 对作显著性检验:当时,要引入。第三步:当引入时,是否要剔除呢?即已有方程:检验的偏回归平方和:当 时因子不剔除。同样的方法以 时因子不剔除。第四步:重复进行第二步到第三步。一直到没有可引入的新因子,也没有可剔除的因子。最后方程为: (1.19)并把(1.19)式换算成类似的(1.13)式。3.2 主成份分析与相关分析一、数学模型这是一个将多个指标化为几个少数指标进行统计分析的问题,设有维总体有个随机指标构成一个维随机向量,它的一个实现为;而且这个指标之间往往相互有影响,是否可以将它们综合成少数几个指标,使它们尽可能充分反映原来的个指标。例如加工上衣,有袖长、身长、胸围、肩宽、领围、袖口、袖深,等指标,是否可以找出主要几个指标,加工出来就可以了呢?例如主要以衣长、胸宽、型号(肥瘦)这样三个特征。设为维随机向量,为期望向量, 为协方差矩阵,其中设将综合成很少几个综合性指标,如,不妨设 则有 要使尽可能反映原来的指标的作用,则要使尽可能大,可以利用乘子法:要对a加以限制,否则加大,增大无意义。令 设 并使 (2.1)可得方程组(2.1)的解为 (2.2)以左乘(2.2)之两边,得 即 由(2.2)式可得 (2.3)要使满足(2.3)的a非零,应有即入是的特征根,设是的个特征根,只要取 ,再由,求出V的属于的特征向量,在条件是唯一的维特征向量。于是得(2.4)二、主成份分析 一般协方差方阵为非负定,对角线上各阶主子式都大于等于零,即特征值有:设前m个都大于零,依次为,相应的特征向量为,则,即为第一,第二,第个主成份,由线性代数知识可知,不同的特征根对应的不同的特征向量线性无关,由于V是实对称阵,则,变换后的各主成份相互无关。即对进行了一次正交变换。在实际应用中,V阵往往是未知的,需要用V的估计值来代替,设有组观测值 则取 (2.5) (2.6)其中是的子样方差,的子样协方差。需要求出的特征值。 由于不同的度量会产生量纲问题,一般建议作如下变换: 用标准变量代替以前的,即可以运算。此时的协方差矩阵即相关矩阵从R出发,可求主成份。三、主成份的贡献率为了尽可能以少数几个主成份来代替P个指标,那么要决定取多少个主成份才够呢? 由于则可得是的方差,可得亦是V的全部特征值之和:由于 , 则令 表明方差在全部方差中所占的比重,称是第i个主成份的贡献率,显然有,不妨取一个阈值为d(0d1),当时,即舍去,此时可取 为主成份。以贡献率来决定它的个数。3.3 判别分析一、数学模型 根据所研究的个体的观察指标来推断个体所属于何种类型的一种统计分析方法,称为判别分析。 例如某精神病院有精神病患者256名,诊断结果将它们分成六类(相当于6个总体)设 服从三维联合正态分布i=1,2,6,其中,为协方差矩阵,一般这六种类型可分为焦虑状、癔病、精神病、强迫观念型、变态人格、正常,若有如下子样: 子样 子样 子样注意到每个子样都是三维向量。现有一个新的精神病患者前来就医,测得三个指标:试判断该患者病情属于哪一类。(一) 两点的距离 设维空间中有两点, 则其欧氏距离为 (3.1)由于数据的量纲不同,不采用欧氏距离, 用马氏距离有: 定义1:设X,Y是从总体G中抽取的样品,G服从P维正态分布,,定义X,Y两点间的距离为马氏距离: (3.2)定义2:X与总体G的距离为D(X,G)为 (3.3)(二)距离判别法 设有两个协方差相同的正态总体,且对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法:计算若(三)线性判别函数 由令 记 则有:当时,否则当 为已知时,令, 可得: (3.4)称为线性判别函数,a为判别系数,因为,即,解线性方程组可得解 此时的判别规则为: (3.5)X是新的一个点,将其代入即可判别。二、关于计算中应注意的问题 实际上均未知,要用样本值的估计公式来计算出。其方法如下: 设子样来自总体,子样来自,可由(在本节的开头的例子中P=3)得到 (3.6) (3.7)判别函数为 (3.8)判别系数为三、关于误判率及多个总体的判别 这里提及一个回报的误判率问题。在构造判别函数W(X)时,是依据样本,现在已知均属于,从道理上来说,经过判别公式(3.8),可得出,但也可能出来某几个不属于,这便是误判。若有存在,使得,说明,这就产生了一个误判。所谓误判率,即是出现误判的百分数,我们应该有所控制。 当两个总体的协方差不相等时,可用如下方法: (3.9) (3.10)当,当未知时,用下列估计代替: 在个总体时,均值为协方差阵为(维) 设都已知时,X为样品计算选择一个最小的值例如 , 则 设未知,但独立,可以分别以估计值来计算。当上述未知,但时,亦可以用上述类似方法。上述解决方法中,可以扩展到非正态分布。3.4 聚类分析 物以类聚,人以群分,社会发展和科技的进步都要求对于某些物体进行分类。由于早期的定性分类已不能满足需要,于是数值分类学便应运而生。一、数学模型某种物品有n个:它有m个数值量化指标,如何将其分成若干类,基本的思路是把距离较近的点归成一类。这里的距离可分为如下三类:1.距离 的距离,本文中的距离常用欧氏或马氏距离,公式在前几节中已述,还有一种用绝对距离:应该提及马氏距离可以克服数据相关性的困难。 2.数据正规化处理 当的分量中个指标量纲不一致时,相差很大,要经过正规化标准化处理,令 (4.1)其中 (4.2) (4.3)将经过(1)式处理的数据重新视作(为记号上的方便) 3. 相似系数法 的相关系数 (4.4)可以将相关愈密切的归成一类。 4.最短距离聚类法(系统聚类法,逐步并类法)先将n个样本各自为一类,计算它们之间的距离,选择距离小的二个样本归为一个新类,再计算这个新类与其它样本的距离,选择距离小的二个样本(或二个新类)归为一个新类,每次合并缩小一个以上的类,直到所有样本都划为一个类为止。这里规定两点间距离为:两类间的距离,即的距离为:步骤如下: 1.数据正规化处理 要视各指标的量纲是否一致,相差是否太大,并选择一种距离计算法,为了方便计,一般都选择欧氏距离法。 2.计算各样本间的两两距离,并记在分类距离对称表中,并记为D(0),第0步分类,此时(每一个样本点为一个类) 3.选择表D(0)中的最短距离,设为,则将合并成一个新类,记为 (4.5) 4.计算新类与其它类之间的距离,定义 (4.6) 表示新类与类之间的距离。 5.作D(1)表,将D(0)中的第p,q行和p,q列删去,加上第r行,第r列。第r行,第r列与其它类的距离按(4.6)式判断后记上,这样得到一个新的分类距离对称表,并记为D(1), D(1)表示经过一次聚类后的距离表,要注意的是Dr类是由哪两类聚类得到应在D(1)表下给以说明。 6.对D(1)按3,4,5重复类似D(0)的聚类工作,得D(2)。 7.一直重复,直到最后只剩下两类为止,并作聚类图。二、应用类例 现有8个样品,每个样品有2个指标(m=2,2维变量),它们的量纲相同,(否则要经过正规化处理)编号123456782244-4-2-3-15343322-3 试用系统聚类方法对这8个样品进行聚类。解:采用欧氏距离 (1)最短距离法,首先用表格形式列出D(0)D(0)G1G2G3G4G5G6G7G8G10G22.00G32.22.20G42.32.01.00G56.36.08.18.00G65.04.16.36.12.20G75.85.17.27.11.41.00G88.56.78.67.86.75.15.40 表示第i个样品,i=1,2,8在D(0)中,最小值是1.0,相应的距离是D(3.4),与D(6,7)。则合并为新类,把合并成。(2)把D(0)中去掉 并计算得下表,后两行重算,其余照D(0)照抄。D(1)G1G2G5G8G9G11G10G22.00G56.36.00G88.56.76.70G92.22.08.07.80G105.04.11.45.18.10 视D(1)中,最小值为1.4, 相应的是D(5,10)将合并成新类。3)同法构造D(2)表D(2)G1G2G8G9G10G10G22.00G88.56.70G92.22.07.80G115.04.15.16.10 其中,在D(2)中,最小值D(1,2)=D(2,9)=2.0,则把D(3)G8G11G12G80G115.10G126.74.10 其中,在D(3)中,最小值D(11,12)=4.1, 因此把D(4)G8G13G80G135.10 (见D(0)第8行) 3.把上述聚类过程用聚类图表示: 0 1 1.4 2 T 3 4 5 说明:聚类到一定程度即可结束一般可以选取一个阈值T,到D(K)中的所有非零元素都大于T,即结束(表中的值T值)设T=2.5:则到D(3)时结束,此时的共聚为三类: 如下图:5761 32 483.5 模糊聚类分析一、问题的提出 客观事物分成确定性和不确定性两类,处理不确定性的方法为随机数学方法。在进行随机现象的研究时,所表现的现象是不确定的,但对象事物本身是确定的。例如投一个分币,出现哪一面是随机的,但分币本身是确定的。如果所研究的事物本身是不确定的,这就是模糊数学所研究的范畴。 例如,一个人年龄大了,称年老,年小,或年青,但到底什么算年老,什么算年青呢? 又如儿子象父亲,什么是象?象多少? 再说儿子象父亲,儿子又象母亲(部分象),难道父亲象母亲?1965年由I.A.Zadeh提出模糊数学,它可以广泛地应于图象识别,聚类分析,计算机应用和社会科学。例如洗衣机和空调器已用上模糊控制,本节将把模糊数学的一套方法引入聚类分析中来,称为模糊聚类分析。二、数学模型设E为分明集(集合)1.定义: 称为隶属度函数(分得很清楚)要末是,要末不是对A为不分明集, 可以取0到1之间的任意一个实数值.当愈接近于1.则的程度愈大. 愈接近于0.则的程度愈小.2.模糊数学的运算法则 如A和B为不分明集,则有: 并,记为, 交,记, 补,记为,3.模糊聚类 模糊聚类同于一般聚类法(相似系数法或最小距离法)以相似系数(相关系数)法为例:思路: 先算相似系数矩阵(相似矩阵) 将相似矩阵改造成模糊矩阵:即将原相似矩阵的元素压缩到0,1之间 改造成模糊等价矩阵,取不同的标准,可以得到不同的聚类标准.计算步骤: 第一步:计算相似的系数 先将 数据标准化 令得到标准化的数据为 显然 (标准化数据的平均值一定为0)得标准化后比数据的相关系数为 相似矩阵 第二步:将相似系数压缩到0,1之间 令 建立模糊矩阵 第三步:建立模糊等价矩阵 由于上述模糊矩阵不具有传递性:即要通过褶积将模糊矩阵改造成模糊等价矩阵: 矩阵的褶积与矩阵乘法类似,只是将数的加、乘运算改成并和交: 则褶积为:, 于是有: 于是有: 一直到为止此时即满足模糊等价矩阵,具有传递性 此时记它为:CR第四步:进行聚类: 将矩阵CR的元素依大小次序排列,从1开始,沿着自大到小依次取值,定义: 可以得到若干个0,1元素构成的CR矩阵,其中之1的表示这二个样本划为一类三、一个实例 = -上海4月平均气温; -北京3月雨量 -5月地磁指数; -5月500毫巴W型环流型日数 予报对象: 华北五站(北京、天津、营口、太原、石家庄)7-8月降水量,仅用61-67年 7年的资料(略)第一步:计算相似系数 经过标准化计算相似系数矩阵R )第二步:建立模糊矩阵 将相似系数压缩到0,1之间 得 第三步:建立模糊等价矩阵 按上式计算: 例如 得到 , 发现 , 当取0.92时: 将,当取0.65时有: 又将 合并成一类, 当取0.64时,有 此时将1,3,再与4,6并为一类,可分成三类 再取=0.63时 这次再将,只有二类: , 聚类图:0.630.640.650.990.92 说明: (1)当=0.65时,共分成四类: (2)当=0.64时,共分成三类: (3)当=0.63时,共分成二类: 这是以按年份为基本类的分类图3.6 马尔可夫链及其应用一、随机过程 描述一种随机现象的变量,一般称为随机变量,记为,而随着时间参数t或其它参数变化而变化的随机变量,称为随机过程。 定义1 在给定的概率空间(,F,P)及实数集T,其中为样本空间,F为分布函数,P为概率, 对于每一个, 有定义在,F,P)上的随机变量与之对应,则称为随机过程,一般简化为。 定义2 (马尔可夫过程) 设随机过程,如果在已知时间t系统处于状态x的条件下,在时刻(t)系统所处状态和时刻t以前所处的状态无关,则称为马尔可夫过程。 从定义2可知马氏过程只与t时刻有关,与t时刻以前无关。 定义3 (马尔可夫链) 设随机过程只能取可列个值把称为在时刻系统处于状态若在已知时刻系统处于状态的条件下,在时刻 () 系统所处的状态情况与t时刻以前所处状态无关,则称为时间连续,状态离散的马氏过程。而状态的转移只能在发生的马氏过程称为马尔可夫链。 从定义3可知,马氏链是状态离散,时间离散的马尔可夫过程。 定义4 (转移概率) 设系统的离散状态为设表示第次转移到状态表示系统开始处于状态。 则称 (6.1)为系统在k-1次转移到状态,而第k次转移到状态的转移概率由定义可知 (6.2) 定义5 若(2)式中有: (6.3)则称为均匀马氏链 (与第几次转移无关) 即 定义6 转移概率与转移矩阵 令转移概率 为矩阵的第 行,第j列元素则有 (6.4)称为马氏链的转移矩阵,其中 例:一个分子在两个附着壁之间的随机游动,如图1所示1 2 3 -1 Sx轴满足以下条件: (1) 这个分子在x轴上1,2,S的位置上任意一点,且只能在这S个位置上. (2)当分子在1与S两端点时,分子被吸收,不再游动(吸收壁) (3)分子每转移一次,只移动一步,且必须移动若时刻时,分子在处(),在一个单位时间后它转移到i+1点处的概率为P(向右移动),它转移到i-1点处的概率为向左移动)。 问:在初始位置于i处,经过5次转移它落在j处的概率是多少? 分析:该系统的转移概率为: 这个均匀马氏链系统的转移矩阵为 二、马尔可夫方程和步转移矩阵 设表示一个均匀马氏链经过步转移由状态转移到状态的转移概率,当时讨论(二步转移)令 事件B=“系统经由二次转移,由转移到” =“系统由转移到,再由转移到” k=1,2,因此, 两两互不相容事件 (只与状态时的时刻有关)类似可证: (6.5)(5)式称切普曼一柯尔莫哥洛夫方程由代数知识:A= 可见 于是 (6.6) 类似可证得 (6.7)上例要求: 只要 例 这个元素的值即可.三、遍历性与平稳分布 定义7 设为均匀马氏链(与第n次转移无关),对一切状态i及j(或称,存在不依赖于i的常数,使得 (6.8) 则称均匀马氏链有遍历性遍历意义: 遍历性说明不论系统自那一个状态出发,当转移次数n充分大时,转移到状态的概率近似于某个常数。 定理1:对有限个状态的均匀马氏链,若存在一正整数,使对一切有 (6.9)则此马氏链是遍历的且(8)中的是如下方程组 (6.10)在条件 下的唯一解 证 略 定义8 (平稳性):设 为有限s个状态的均匀马氏链,若初始概率 满足全概率公式: 则称为平稳的,称为的一个平稳分布 表示第k次转移到状态的绝对概率 为初始状态概率 可以证明: 结论: 当马氏链是平稳时,初始概率等于绝对概率 平稳均匀马氏链在任一时刻处于状态的概率都相等,说明平稳。1 2 3例2:例1一样: 没有附着壁的随机游动其余同例1 设 二次转移矩阵为 则 对任意说明是遍历的。由定理1可知: 马氏链是平稳的 即有: 由 : 得 当 时,游动时前进一步与后退一步是等可能的,说明系统处于任一状态的概率明显相等四、马氏链的应用应用题1: 机器生产零件时,机器处于两种可能状态的: =“可调整状态”-称良好状态 =“不可调整状态”-称不良状态机器使用一天,它的转移概率为 问:在n天以后机器处于不良状态,良好状态的概率为多少? 若有100台机器: 问配备多少个机修工人才能使机器待修的可能性至多为10%?(一天
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年家居装饰设计师专业技能认证考试试题及答案解析
- 2025年安全生产培训题库重点练习
- 2025年广告策划师国家职业资格考试试题及答案解析
- 2025年农业环保技术员招聘面试题库及答案
- 2025年西医师内科学重点题库
- 2025年网络安全精英挑战赛模拟题集
- 2025年安全员管理知识题库模拟题
- 文库发布:课件app
- 2025年高等数学教师资格考试试题及答案解析
- 2025年儿童心理咨询师专业知识考试试题及答案解析
- XXX有限公司报销审核制度
- WS/T 427-2013临床营养风险筛查
- GA/T 1047-2013道路交通信息监测记录设备设置规范
- GJB9001C内审员培训讲学课件
- 五牌一图(完整版)
- 幼儿园绘本故事:《十二生肖》 课件
- DDI定向井难度系数
- 激光跟踪仪使用手册
- 新媒体运营知识考核试题与答案
- 金属材料的主要性能ppt课件(完整版)
- 丽声北极星自然拼读绘本第二级 Fat Cat 课件
评论
0/150
提交评论