概率论与数理统计 课件 数理统计方法.ppt_第1页
概率论与数理统计 课件 数理统计方法.ppt_第2页
概率论与数理统计 课件 数理统计方法.ppt_第3页
概率论与数理统计 课件 数理统计方法.ppt_第4页
概率论与数理统计 课件 数理统计方法.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2数理统计方法,2.1 数理统计的基本概念 2.2 参数估计 2.3 假设检验 2.4 方差分析 2.5 回归分析 2.6 判别分析 2.7 建模实例,数理统计的任务是以概率论为基础, 根据试验的数据, 对研究对象的客观规律性作出合理的估计与推断. 近几年来的全国大学生数学建模竞赛中,几乎每次都有一道题要用到此方法.,2.1 数理统计的基本概念,我们把研究对象的全体称为总体, 而把组成总体的每个基本单元称为个体. 从总体X中随机抽取n个个体(X1 , X2 , , Xn )称为总体X中一个样本, n 称为样本容量. 由于样本是随机抽样的, 可以认为来自总体X中一个样本(X1 , X2 , ,

2、Xn)是一组相互独立且与总体X同分布的随机变量. 样本的观测值记为(x1 , x2 , , xn), 样本(X1 , X2 , , Xn)的不含任何未知参数的函数 f (X1 , X2 , , Xn) 称为统计量.,常用统计量,样本均值,样本方差,样本标准差,根据样本的观测值 ( x1 , x2 , , xn ), 可以绘出样本频率直方图和累积频率直方图(具体方法见P10-11).,根据样本频率直方图和累积频率直方图可以近似描绘出总体的分布密度函数曲线和分布函数曲线.,记住:最终还是要找出总体的分布规律!,2.2 参数估计,根据实际数据找出其规律, 它一般是含有未知参数的数学关系式. 参数估计

3、就是要根据实际数据给出数学关系式中未知参数的估计值. 参数估计的方法比较多.一般情况下,参数估计问题可归结为求一个函数的极值点问题. 下面主要介绍最小二乘法和极大似然法.,最小二乘法,设 y = f (x ; ),其中x是自变量(或向量), 是未知参数(或未知向量), y 是 x的函数. x 和 y 都是可观测的. (x1, y1), (x2, y2), , (xn, yn)是n组观测值.,例如,2003年全国大学生数学建模竞赛A题:SARS的传播 (),假如你已经得到已确诊SARS病例累计数x(t)与时间t的关系符合Logistic传播规律:,应用最小二乘法,可求出其中的未知参数K、x0、r

4、 (可利用MATLAB软件中的fmins函数).,极大似然法,设总体的概率分布为 p(x; ),其中是未知参数.x1 , x2, , xn是总体的样本观测值.,极大似然法的基本思想是:在的取值范围内, 挑选使似然函数L()取得最大值的估计值.,一般只需求ln L()的最大值点即可: max ln L() .,例如,1999年全国大学生数学建模竞赛A题:自动化车床管理 (P49).,100次刀具故障记录(完成的零件数)服从正态分布(在假设检验中,我们将会验证这一点):,似然函数为,可以验证未知参数、分别是样本均值与标准差,2.3 假设检验,假设总体期望值为0, 假设总体方差不大于02,假设总体服

5、从某种分布,上述种种假设是否成立呢? 还有某种品种是否比其它品种更优?某种药品是否比其它药品更有效?等等这些问题需通过概率计算, 采用假设检验的方法, 才能做出正确的推断. 假设检验的主要内容有:一个正态总体的假设检验、两个正态总体的假设检验以及分布律的假设检验.,假设检验的基本方法, 提出待检验的假设H0 它可能有以下几个来源: 依据以往的经验或某些实验的结果; 依据某种理论或某种模型; 根据事先所做的某种规定., 选择检验假设H0 的统计量,并确定其分布,再根据样本观测值计算出该统计量的值., 确定拒绝域并作出判断 在给定的检验水平(或显著性水平)(01)下,查所选统计量服从的分布表,求出

6、临界值,然后根据小概率事件在一次观测中不可能发生的原理确定检验假设H0的拒绝域并做出判断.,一个正态总体的假设检验有以下两种:, 未知方差 2, 检验假设H0: = 0 ( 0为已知,步骤见P15-16), 提出待检假设H0: = 0 ., 查表得临界值:t = t (n - 1). 然后根据P|T|t = 下结论:若|T|t , 则否定H0;否则,一般情况下接受H0., 未知期望, 检验假设H0: 202 (02已知,步骤见P16), 提出待检假设H0: 202., 查表得临界值:2 = 2 (n - 1). 然后根据P| 2|2 = 下结论: 若| 2|2, 则否定H0;否则,一般情况下接

7、受H0.,例如,假设你要检查食盐包装机工作是否正常?(见P16),首先,你要建立假设检验H0: = 0 ( 0 =500),检验包装机有没有产生系统误差; 再建立假设检验H1: 202(02=102),检验包装机工作是否稳定.,两个正态总体的假设检验有以下三种:, 未知期望1 , 2, 检验假设H0:12=22. 建立待检假设H0:12=22. (步骤见P17), 查表得临界值:F/2 = F/2(m -1, n - 1). 然后根据PFF/2 = /2 下结论:若FF/2 , 则否定H0;否则,一般情况下接受H0., 未知期望1 , 2, 检验假设H0:1222, 建立待检假设H0:1222

8、. (步骤见P17), 查表得临界值:F = F(m -1, n - 1). 然后根据PFF = 下结论:若FF , 则否定H0;否则,一般情况下接受H0., 未知方差12,22, 但12=22,检验假设H0:1 = 2 (步骤见P17), 建立待检假设H0: 1 = 2 ., 选取统计量:,其中,特别地, 当m = n时, 查表得临界值:t = t (m + n 2 ). 然后根据P|T|t = 下结论:若|T|t , 则否定H0;否则,一般情况下接受H0.,例如,要检查某种新药是否有效?,首先,将病人分为两类,一类用该药,另一类不用. 然后建立假设检验H0:12=22,检验两类病人指标方差

9、是否相等? 当方差相等时,再建立假设检验H1: 1= 2 ,检验两类病人指标均值是否相等? 又如,你要检查两台食盐包装机中哪一台包装机更好? 首先, 你要分别建立假设检验H1: 1= 0与H2: 1= 0 ( 0 =500),检验每台包装机有没有产生系统误差? 再建立假设检验H3:1222,检验哪一台包装机更好?,分布律的假设检验按皮尔逊(K.Pearson)平方和准则(步骤见P18-19),例如,1999年全国大学生数学建模竞赛A题:自动化车床管理 (P49). 检验100次刀具故障记录(完成的零件数)是否服从正态分布N(600, 38663.02=196.632).,首先做假设H0:F(x

10、)=F0(x),其中,其次选取统计量:,因为3.333.75, 故否定H0, 所以在显著性水平0.05下认为?,因为 ( 12 - 1 - 2 ) = 3.333.75, 故否定H0.,所以在显著性水平0.05下认为 100次刀具故障记录(完成的零件数)不服从正态分布N(600, 196.632).,因为3.754.17, 故接受H0.,所以在显著性水平0.1下认为 100次刀具故障记录服从正态分布N(600, 196.632). 即有90%的可能性认为 100次刀具故障记录服从正态分布N(600, 196.632).,2.4 方差分析,用不同的生产方法生产同一种产品, 比较各种生产方法对产品

11、的影响是人们经常遇到的问题. 为此, 需要找出对产品有显著影响的因素. 方差分析就是鉴别各因素效应的一种有效的统计方法. 方差分析包括单因素方差分析和双因素方差分析.,单因素方差分析,如果在试验中只有一个因素在变化, 其它可控制的条件不变, 称它为单因素试验;若试验中变化的因素多于一个, 则称为双因素以及多因素试验. 单因素试验中, 若只有两个水平, 就是以前讲过的两个总体的比较问题. 超过两个水平的时候, 也就是需要好多个总体进行比较, 这时, 方差分析是一种有效的方法. 单因素方差分析的假设前提、解题方法与步骤见P20-21,例 为了考察6种不同的农药的杀虫率有无显著差异, 做了18次试验

12、, 得数据如下:,农药 杀 虫 率(%) 行平均值 1 87.4 85.0 80.2 84.20 2 90.5 88.5 87.3 94.7 90.26 3 56.2 62.4 59.30 4 55.0 48.2 51.60 5 92.0 99.2 95.3 91.5 94.50 6 76.2 72.3 81.3 76.27,要考察这6种不同的农药的杀虫率有无显著差异,需要建立假设检验: H0:1= 2 = = 6 = . 进一步,自然希望找出最优的农药,以便提高杀虫率. 因此要检验假设: H1: 2 = 5 .,双因素方差分析,进行双因素方差分析的目的,是要检验两个因素对试验结果有无影响.

13、在试验中,对每一因素的每一水平都可取一个容量为nij的样本. 按nij = 1(无重复试验,不考虑两因素间的交互作用)和nij2(不等重复试验, 考虑两因素间的交互作用)分为两种情形:无重复试验的双因素方差分析和重复试验的双因素方差分析.,在重复试验的双因素方差分析中,就是要考察两个因素 A,B之间是否存在交互作用的影响, 需要对两个因素各种水平的组合(Ai ,Bj )进行重复试验, 假设每一个组合都重复试验 m( m1 )次(若是不等重复试验,残缺数据可按均值补齐以便于计算). 无重复试验的双因素方差分析和重复试验的双因素方差分析解题方法与步骤见P22-24,例 设4个工人操作3台机器各一天

14、,日产量数据如下:,问是否真正存在机器或工人之间的差别?,2.5 回归分析,回归分析是考察两个变量之间统计联系的一种重要方法, 它在许多领域中都有极其广泛的应用. 变量之间的关系大致可分为两类, 一类是确定性的关系, 如我们熟知的函数关系;另一类是非确定性的关系. 本节主要考察非确定性的关系中一个随机变量与另一个或多个非随机变量之间的关系.,回归函数,对于某些非确定性的关系, 如随机变量Y与变量x(它可能是多维向量)之间的关系,当自变量x确定之后, 因变量Y 的值并不跟着确定, 而是按一定的统计规律(即随机变量Y的分布)取值. 这时我们将它们之间的关系表示为 Y = f (x) + , 其中f

15、 (x)是一个确定的函数, 称之为回归函数. 为随机项, 且 N(0, 2 ).,回归分析的任务之一是确定回归函数 f (x).,当 f (x)是一元线性函数时,称之为一元线性回归; 当 f (x)是多元线性函数时,称之为多元线性回归; 当 f (x)是非线性函数时,称之为非线性回归. 如何确定回归函数 f (x)呢?一是根据经验公式, 二是根据散点图. 不管是那种类型的回归, f (x)总含有未知参数,需要用到参数估计方法. 一般情况下, 还需要检验回归函数 f (x)是否合理. 回归分析的目的是用 f (x)来做预测和决策.,一元线性回归、预测和控制,一元线性回归是根据数据(xi, yi

16、) ( i =1, 2, , n )确定线性关系 y = 0 + 1 x, 利用最小二乘法确定回归直线方程中的未知参数 0和 1 :,其中,判断变量y与x之间是否存在线性关系, 需要检验假设,H0: 1 = 0.,选取统计量,根据PFF (1, n - 2 )= 下结论:,如果FF 拒绝H0, 即变量y与x之间存在线性关系; 否则接受H0, 即变量y与x之间不存在线性关系, 考虑用其它回归模型.,利用回归函数进行预测和控制,如何根据样本提供的信息来预测当变量 x = x0 时随机变量Y0的值? 一个自然的想法是用预测量 y0 = 0 + 1 x0 来代替, 但是它与真值Y0 的差值是多少呢?

17、预测量y0 的优劣取决于| y0 - Y0 |的大小.,记,当n较大时, 估测区间的上下限近似取作,(可信程度为95%);,控制是预测的反问题, 即要使随机变量 Y 落在指定的区间( yL, yU )内,变量x应控制在什么区间内?,则当 10时,控制区间为(xL, xU );当 10时, 控制区间为(xU, xL ).,例 下面给出了悬挂不同重量x (单位:g)的物体时弹簧的长度y (单位:cm):,xi 5 10 15 20 25 30 yi 7.25 8.12 8.95 9.90 10.90 11.80,(1)变量y与x之间的线性关系如何? (2)当悬挂16g重物时弹簧的长度大约是多少?

18、(3)要使弹簧的长度控制在1011cm之间, 问悬挂物体的重量应控制在什么范围内?,可线性化回归,根据经验公式或散点图,选择适当的曲线回归方程. 为了确定其中的未知参数,往往可以通过变量代换,把非线性回归化为线性回归, 然后用线性回归的方法确定这些参数的值. 下表列出了常用的可线性化回归(a0).,多元线性回归和预测,设随机变量Y与m个变量x1 , x2 , , xm有线性关系 Y = 0 + 1 x1 + 2 x2 + + m xm + , 其中 为随机项, 且 N(0, 2 ).,记,其中yi为随机变量Y的观测值, X为已知的常数矩阵, 且残差 i N(0, 2 ).,则问题归结为根据y和

19、X求使残差平方和,令,相关性检验,H0: 1 = 2 = = m = 0.,选取统计量,U + Q = Syy,根据PFF (m -1, n - m - 1)= 下结论: 如果FF 拒绝H0, 即变量 y与x1 , x2 , , xm 之间存在线性关系; 否则接受H0, 即变量y与x1 , x2 , , xm之间不存在线性关系.,偏F检验法,在多元线性回归模型中, 拒绝假设H0, 即回归方程显著. 然而变量x1 , x2 , , xm对Y的影响并不都是十分重要的, 人们还关心Y对x1 , x2 , , xm的回归中哪些因素更重要些, 哪些不重要.,要剔除不重要的, 需要采用偏F检验法, 即检验

20、假设 Hk: k = 0, k = 1, 2, , m .,通常选取统计量,akk是(X T X )-1的主对角线上第k + 1个元素.,偏F检验法,检验假设,Hk: k = 0, k = 1, 2, , m .,通常选取统计量,其中 akk是(X T X )-1的主对角线上第k + 1个元素.,根据PFkF(1, n m 1)=下结论: 如果FkF 拒绝H0, 即xk对Y的影响显著;否则接受Hk, 即xk对Y的影响不显著.,预测问题,如何根据样本提供的信息来预测当变量(x1 , x2 , , xm) = (x01, x02, x0m) 时随机变量Y0的值?一个自然的想法是用预测量 y0 =

21、b0 + b1x01 + b2x02 + + bmx0m . 来代替, 但是它与Y0的差值是多少呢?预测量y0的优劣取决于 | y0 - Y0 | 的大小. 多元线性回归模型的预测问题较为复杂,这里从略(见P32).,多项式回归,非线性回归比较复杂,通常采用适当的变量代换,把非线性回归转化为线性回归,然后用线性回归的方法确定其中的未知参数以及检验其合理性. 由于任意一个函数都可以用一个适当的多项式来较好地近似,这就是多项式回归的意义所在. 因此下面我们主要介绍一元多项式回归方法,对于多元多项式回归,处理方法是类似的.,一元多项式回归,假设回归函数 y = f (x) 是一个一元多项式: y =

22、 0 + 1 x + 2 x2 + + m xm, 其中m2.,对自变量x作变换:xj = x j, j = 1, 2, , m. 由此得到 y = 0 + 1 x1 + 2 x2 + + m xm. 再将原来的一元多项式回归问题中的n对数据( xi , yi ) 相应地变换成: ( yi ; xi1, xi2, , xim ), i = 1,2, , n, 其中xij = ( xi ) j, i = 1,2, , n, j = 1, 2, , m . 这样我们便能用上一节多元线性回归分析的方法来处理了.,例 某种合金的主要成分是金属甲与金属乙. 经试验与分析, 发现这两种金属成分所占的百分比

23、之和x与合金的膨胀系数y之间有一定的相关关系. 先测试了13次, 得数据如下:,试建立x与y之间的经验公式.,画出散点图, 从散点图上看出, 这13个已知的数据点大致在一条抛物线的周围.,假定回归函数为,y = 0 + 1 x + 2 x2,作变换x1 = x, x2 = x2, 用多元线性回归分析方法得到,y = (3.40, 3.00, , 2.90)T, =(0 , 1 , 2 )T, = (X TX )-1X T y = (300.93, -14.85 , 0.1843)T,残差平方和Q = ( y - X )T ( y - X ) = 0.2944, 总和 Syy = 4.2212,

24、 回归和 U = Syy - Q = 3.9268. 检验假设 H0: 1 = 2 = 0.,F =66.69F0.01 (2 - 1, 13 - 2-1)= 10.04, 所以拒绝H0, 即Y与2个变量 x1, x2 之间存在特别显著的线性相关关系.,2.6 判别分析,判别分析方法最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等. 近年来, 在生物学分类, 医疗诊断, 地质找矿, 石油钻探, 天气预报等许多领域, 判别分析方法已经成为一种有效的统计推断方法. 假定需要作出判别分析的对象分成 r 类, 记作A1, A2, , Ar , 每一类由m个指标的若干个标本确

25、定, 即A1, A2, Ar为已知的分类. 现在问待判断的对象x = (x1, x2, xm)T是属于A1, A2, Ar中的哪一类?这就构成了判别分析问题的基本内容.,判别分析的原理,为了能识别待判断的对象x = (x1, x2, xm)T是属于已知类A1, A2, Ar中的哪一类? 事先必须要有一个一般规则, 一旦知道了x的值, 便能根据这个规则立即作出判断, 称这样的一个规则为判别规则. 判别规则往往通过的某个函数来表达, 我们把它称为判别函数, 记作W(i; x). 一旦知道了判别函数并确定了判别规则,最好将已知类别的对象代入检验,这一过程称为回代检验,以便检验你的判别函数和判别规则是否正确.,判别分析的主要方法,判别分析的主要方法有距离判别方法、费希尔 (Fisher)判别方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论