建模中的统计方法.ppt_第1页
建模中的统计方法.ppt_第2页
建模中的统计方法.ppt_第3页
建模中的统计方法.ppt_第4页
建模中的统计方法.ppt_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

建模中的统计方法,10年数学建模暑期培训选讲,主讲彭志捌,参考文献:,1.数学建模方法及其应用解放军信息工程大学韩中庚编著高等教育出版社,2.数学建模案例精编吴建国主编中国水利水电出版社,3.现代数学建模方法王庚王敏生著科学出版社,内容要点:,一、几个案例二、实用的统计方法三、几种特殊方法四、常用的统计软件五、实例分析,案例一:本科生就业影响因素分析,据有关统计表明,具有大学以上学历者占中国全部劳动者的比例非常低,中国的高等教育也正在处于“精英教育”向大众化的高等教育过渡阶段。社会对于高学历人才的总体需求大于毕业生的总人数,但最近几年大学毕业生找工作却有越来越难的趋势。特别自1999年起,中国高校连年大幅扩招。其中,2000年扩招60.9万人,增幅38.16%;2001年扩招29.4万人,增幅13.3%。目前中国在校大学生已突破1350万人,这种大力度推进高校扩招的方式对于中国在21世纪实施人才战略,建设现代化强国,具有极为重要的意义,但随着大幅扩招,也产生了教育质量滑坡以及就业形式严峻等问题。根据问卷调查的数据,对各种影响因素进行描述,频数分析,并分析影响就业的显著因素,建立数学模型并给出一些相关的建议,为同学们以后就业提供一定的参考。,案例二:中国35个主要城市购房能力比较分析,现在,房价越来越成为人们的一个中心议题,上至中央领导,下至普通民众,可以说,人人谈房价,而住房作为拉动我国经济的三驾马车之一,对国民经济的作用更是举足轻重。房子,无论对国家还是个人,其重要性不言而喻,它牵动着绝大多数中国人的神经,我们中大多数人也面临购房压力。但是,由于中国幅员辽阔,在各地区由于经济发展水平低于差距等种种因素,各地区房价不尽相同。根据所给的资料,分析:各地房价是否合理?各地区之间的居民购房能力有无明显差异?若有差异,哪些地区购房能力相对较强,哪些地区购房能力相对较弱?如何建立适当的数学模型进行描述?,案例三:中国35个主要城市经济效益分析,根据35个主要城市某年关于年底总人口、地区生产总值(GDP)、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民储蓄年末余额、在岗职工平均人数、在岗职工工资总额10个指标的数据,以期对这些城市的经济效益进行横向和纵向的比较,找出它们之间的差别并分析原因,同时针对个别城市分析其自身经济效益的发展趋势。,建模方法,运筹优化,概率方法,统计方法,微分方程,随机分析,数学规划,建模方法,实用的统计方法,数据的描述性统计,统计推断,相关分析,方差分析,回归分析,因子分析,聚类分析,数据的描述性统计,在对数据进行深入加工之前,总应该对数据有所印象。,可以借助于图形和简单的运算,来了解数据的一些特征。,由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。,数据的描述性统计,初步整理和直观描述(频数表和直方图),进一步加工、提取有用信息(计算统计量),位置的统计量:均值和中位数,变异程度的统计量:标准差、方差、极差,分布形态的统计量:偏度、峰度,公交车调度方案的优化模型(2001)文献【2,p6】,对模型I的描述性分析,通过直方图,得出上行、下行各时间段最大客容量的双峰直方图,对各时间段的车次给出了一个初步的调度方案。,数据的描述性统计,分布形态的统计量:偏度(skewness)、峰度(kurtosis),偏度:RV标准化的三阶中心距。反映分布的对称性,峰度:随机变量标准化的四阶中心距。,0,右偏态,此时数据位于均值右边的比位于左边多,3,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,偏度为:-1.233,0.左偏态,说明数据位于均值左边的比位于右边多峰度为1.009,0正相关,R0负相关R的绝对值越接近1,表示两个变量愈接近线性关系,R绝对值等于1时,两者为完全线性关系R的绝对值越接近0,表示两个变量愈没有线性关系,R绝对值等于0时,两者为完全没有线性关系R的绝对值大于0.8时,视为高度相关R的绝对值介于0.5-0.8时,视为中度相关R的绝对值小于0.3时,视为不相关,处理方法:,“深发展”和“四川长虹”在中国股市上像一对孪生姐妹,它们的发展表现出同升、同降的现象。它们是否具有一定的内在联系?如果存在内在联系,那么根据任一股票的变化能否判断另一股票的变动趋势?由于两者都是龙头股,根据它们的变动进而能否对大盘的变动做出推测?X1:“深发展”日收盘价X2:“四川长虹”日收盘价X3:“深证指数”日收盘价X4:“上证指数”日收盘价分析要求:(1)探求个股与个股、个股与大盘间是否有典型的相关关系(2)如果有,它们是否服从某种模型?(3)更进一步,如果服从某种模型,能否根据这种模型做一些预测用于支持投资决策?,案例分析:股票分析,“深发展”与深证指数的散点图,“四川长虹”与上证指数的散点图,“深发展”与深证指数的相关系数,“四川长虹”与上证指数的相关系数,相关系数矩阵,“深发展”与“四川长虹”的相关系数,方差分析,单因素方差分析,多因素方差分析,单因素方差分析,一、单因素方差分析的基本思想,单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。主要解决多于两个总体样本或变量间均值的比较问题。是一种对多个总体样本的均值是否存在显著差异的检验方法。,二、应用的条件,服从方差分析的三个假设:1、观测变量各总体服从正态分布。2、观测变量各总体的方差相同。3、观测变量各总体独立的。,三、数学模型,总离差平方和及组内、组间离差平方和,令:总离差平方和:组间离差平方和:组内离差平方和:SST=SSA+SSE,四、基本步骤,五、结果解释,step1:明确观测变量和控制变量。step2:剖析观测变量的方差。step3:通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。,在观测变量总离差平方和中,如果组间离差平方所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方所占比例较小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。,某企业在制定某商品的广告策略时,收集了该商品在不同地区采用不同广告形式促销后的销售额数据,希望对广告形式和地区是否对商品销售额产生影响进行分析。,案例分析:广告形式、地区对销售额的影响,F值较大,F值的相伴概率小于或等于用户给定的显著性水平a,则拒绝H0,认为不同水平下各总体均值有显著差异;,F值较小,F值的相伴概率大于用户给定的显著性水平a,则不能拒绝H0,可以认为不同水平下各总体均值无显著差异.,广告形式对销售额的单因素方差分析结果,可以看到:观测变量销售额的离差平方总和为26169.306;如果仅考虑广告形式单个因素的影响,则销售额总变差中,不同广告形式可解释的变差为5866.083,抽样误差引起的变差为20303.222,它们的方差分别为1955.361和145.023,相除所得的F统计量的观测值为13.43,对应的概率P值近似为0。如果显著水平为0.05,由于P值0,则应拒绝原假设,认为不同广告形式销售额产生了显著影响,不同广告形式对销售额的影响效应不全为0。,地区对销售额的单因素方差分析结果,可以看到:观测变量销售额的离差平方总和为26169.306;如果仅考虑地区单个因素的影响,则销售额总变差中,不同地区可解释的变差为9265.306,抽样误差引起的变差为16904.0,它们的方差分别为545.018和134.159,相除所得的F统计量的观测值为4.062,对应的概率P值近似为0。如果显著水平为0.05,由于P值0.05,则应拒绝原假设,认为不同地区销售额产生了显著影响,不同地区对销售额的影响效应不全为0。,作为华夏儿女曾为有着五千年的文化历史而骄傲过,作为时代青年曾为中国所饱受的欺辱而愤慨过,因为我们都是炎黄子孙。然而,当代大学生对华夏文明究竟知道多少呢?针对在校大学生对中国传统文化的了解程度的调查结果,分析如下问题:(1)不同专业、年级以及性别对传统文化了解有无差异;(2)找出对传统文化影响的因素,并建立适当的数学模型进行描述?,案例分析:大学生对中国传统文化了解程度分析,原因分析:从大三到大四稍微有上升的趋势,是由于大四为了就业和考研的需要,尽可能多的丰富自己的知识面。大一总体的均值最高,是因为刚经历高考,对高中所学知识印象比较深刻。研究生注重学术研究,忽略了人文素质的培养,导致研究生的成绩普遍低下。,电视媒体对传统文化知识的单因素方差分析结果,网络对传统文化知识的单因素方差分析结果,书本对传统文化知识的单因素方差分析结果,结论:通过对电视媒体、网络、以及书本对传统文化知识获得的单因素方差分析,结果表明传统文化知识多数来自书本。网络、电视媒体没有尽到弘扬中华文明的责任。,两类变量关系,确定性关系:确定的函数关系,相关关系(不确定性关系):存在相依关系,但未达到相互确定的程度.,不确定性关系,在社会经济与管理中存在更为普遍,例如:商品的销售量与人口的关系、商品销售量与广告费之间的关系、收入与受教育程度之间的关系,他们之间存在着明显的相关关系。,回归分析,回归分析,回归分析:是研究随机变量之间的相关关系的一种统计方法。主要包括:,一元线性回归,多元线性回归,非线性回归,逐步回归,Logistic回归,这里,称为偏回归系数。,回归分析的数学模型:,从1978年改革开放以来,中国国民经济一直保持着较高的增长速度,人民生活水平大幅提高。但近年来由于全球竞争加剧,中国对外开放程度的加深,国民经济的发展面临着很大的挑战。财政收入水平的高低是反映一国经济实力的重要标志。在一定时期内,财政收入规模大小受许多因素的影响,如国民生产总值大小、进出口额、社会从业人员数多少、税收规模大小、税率高低因素等。分析要求:(1)分析影响财政收入的有哪些因素,对财政收入影响最大的又是哪些因素。(2)分析各因素对财政收入的影响程度,说明各个影响因素重要程度不同的原因。(3)对五各省市的财政收入作单独考察,分析影响各省市财政收入的影响因素。,案例分析:财政收入决定因素分析,财政收入与税收的关系,财政收入与GNP的关系,全国财政收入回归模型的建立,财政收入与进出口额的关系,财政收入与从业人数的关系,建立多元回归模型,四元线性回归模型,结论:从模型上可以看出(1)其他收入对财政收入增长的直接作用最大,税收形成的作用次之。国民生产总值的作用微弱。(2)从业人数与财政收入呈负相关关系,说明随着从业人员人数的增多,并没有相应的明显增加财政收入。它实际反映了人均劳动生产率较低,潜在失业现象较为严重,生产方式多为劳动密集型,且劳动者整体素质不高。这与我国实际的就业状况比较吻合。,各地区财政收入多元回归分析(北京市),财政收入与从业人数的散点图(北京市),财政收入与从业人数的散点图(全国),变量剔除后两模型比较分析,主成分分析与因子分析,主成分分析主要是一种降维的思想。原先有几个变量,最多有几个主成分。,因子分析的基本目的在于:用少数几个随机变量刻画较多变量之间的协方差关系。这少数的随机变量是不可观测的,人们称之为“因子(factor)”。,基本思路是:根据相关性大小将变量分组,使得组内的变量之间具有较高的相关性,不同组内的变量之间相关性较低。,因子分析,而因子分析是事先确定要找几个成分,或叫因子(factor)(比如两个),那就找两个。,主成分分析与因子分析的公式上的区别,主成分分析,因子分析(mp),因子得分,的pp矩阵.而对于观测值X=(x1,xp),其中xi=(x1i,xni),i=1,p,的样本相关阵第(ij)-元素为,X=(X1,Xp)的相关阵为第(ij)-元素为,的pp矩阵,其中sij为第i和第j观测的样本相关系数,关于特征值和特征向量特征方程|R-lI|=0的解为特征值l,这里B为一个p维正定方阵.l通常有p个根l1l2lp.满足(R-liI)xi=0的向量xi为li的特征向量.对任意向量a有性质,前m个主成分的累积贡献率:,这里R为X的样本相关阵,第i个特征值li=aiRai=V(aix);ai为第i个特征向量.Cov(aix,ajx)=0.,这里aij为第i个特征向量的第j个分量;第i个主成分的载荷平方和为该主成分的方差,等于其特征值li.所选的m个主成分对变量xj的总方差贡献为,主成分负荷(载荷,loading):Yi与Xj的相关系数:,因子分析数学模型,矩阵表示为:,设有n个样本,每个样本由p个指标来描述,且每个指标都已标准化即每个指标的样本均值为零,方差为1。正交因子模型为:,mi=变量i的均值ei=第i个特殊因子Fi=第i个公共因子aij=第i个变量在第j个因子上的载荷不能观测的值满足下列条件:F和e独立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是对角矩阵,,,正交因子模型:X-m=AF+e,F为公共因子向量,每个公共因子(如Fi)是对模型中每个变量都起作用的因子;而e为特殊因子向量,每个特殊因子(如ei)只对一个变量(第i个)起作用.,因子分析的方法在于估计S=AA+Y和Y,再分解以得到A.,X的协方差阵S可以分解成,这里l1l2lp为S的特征值;而e1,ep为相应的特征向量(e1,ep为主成分的系数,因此称为主成分法).上面分解总是取和数的重要的头几项来近似.,X的协方差阵S可以近似为(如Y忽略),如Y不忽略,S可以近似为,应用中,S可以用样本相关阵R代替.,正交模型X=m+AF+e的协方差结构根据前面模型,可得出下面结果:,上面sii2=Sjaij2+yi2中,Sjaij2称为共性方差(公共方差或变量共同度commonvariance,communalities),而yi2称为特殊方差.变量共同度刻画全部公共因子对变量Xi的总方差所做的贡献.,的统计意义就是第i个变量与第j个公共因子的相关系数,表示Xi依赖Fj的份量,这里eij是相应于特征值li的特征向量ei的第j个分量.因子载荷阵中各列元素的平方和Sj=Siaij2称为公共因子Fj对X诸变量的方差贡献之总和,因子载荷,令T为任意m正交方阵(TT=TT=I),则X-m=AF+e=ATTF+e=A*F*+e,这里A*=AT,F*=TF.因此S=AA+Y=ATTA+Y=(A*)(A*)+Y因此,因子载荷A只由一个正交阵T决定.载荷A*=AT与A都给出同一个表示.由AA=(A*)(A*)对角元给出的共性方差,也不因T的选择而改变.,正交变换T相当于刚体旋转(或反射),因子载荷A的正交变换AT称为因子旋转估计的协方差阵或相关阵,残差阵,特殊方差及共性方差都不随旋转而变.这里“残差阵”为协方差阵或相关阵与估计的AA+Y之差.,因子旋转的一个准则为最大方差准则.它使旋转后的因子载荷的总方差达到最大.如,即要选变换T使下式最大(计算机循环算法),需要由X=AF变成F=bX.或Fj=bj1X1+bjpXpj=1,m,称为因子得分(函数).这通常用加权最小二乘法或回归法等来求得.,总结模型X=m+AF+e因子分析的步骤1根据问题选取原始变量;2求其相关阵R,探讨其相关性;3从R求解初始公共因子F及因子载荷矩阵A(主成分法或最大似然法)4因子旋转;5由X=AF到F=bX(因子得分函数)6根据因子得分值进行进一步分析.,例题分析以02级信息与计算科学专业45名毕业生的22门课的考试成绩为基本资料,对学生的成绩进行因子分析.原始数据来自02信息与计算科学学生的学籍管理档案(注:此处没有考虑每门课程的教学时数;考查课的成绩根据正态分布曲线下的面积应用进行了标准化,英语三个学期的成绩之和记为英语成绩;体育成绩取第一学期的成绩;不及格的科目按第一次考试成绩计算)。,表2:检验结果,表2给出了KMO检验和巴特利特球形检验的结果。其中KMO统计量为0.874接近于1,说明变量间的相关性极强,因子分析的效果非常好。巴特利特球形检验给出的相伴概率为0.000小于显著性水平0.05因此拒绝零假设,认为适合于因子分析。,巴特利特微球度检验以原有变量相关系数矩阵为出发点,其原假设是:相关系数矩阵是单位阵,即相关系数矩阵为对角阵且主对角元素均为1。巴特利特球度检验的检验统计量根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观测值比较大,且对应的概率p-值小于给定的显著性水平,则应拒绝原假设,认为相关系数矩阵不太可能是单位阵,原有变量适合作因子分析;反之,如果检验统计量的观测值比较小且对应的概率p-值大于给定的显著性水平,则不能拒绝原假设,可以认为相关系数矩阵与单位阵无显著差别,原有变量不适合做因子分析。,巴特利(Bartlett)系数,KMO检验统计量是用于比较变量间简单相关系数和偏相关系数的指标,数学定义为:KMO的统计量取值在01之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1。KMO值越接近1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量的简单相关系数平方和越接近0时,KMO值越接近0,KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。Kaiser给出了常用的KMO度量标准;0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。,第一因子变量中数学分析1、数学分析2,高等代数1、高等代数2、空间解析几何都有较大的载荷,这些课程大部分是专业基础课,因此第一因子可以定义为数学专业基础理论因子。在第一因子变量各科载荷中,数学分析和高等代数较大,说明数学分析和高等代数对第一因子变量的影响较大。,第二因子变量中C语言程序设计,数据结构与算法,离散数学都有较大的载荷,这些课程大部分是计算机专业基础因子。,第三因子变量中概率论与数理统计,复变函数,常微分方程,哲学原理,运筹学都有较大的载荷,这些大部分是三年级开设的数学专业课程,因此我们把第三因子变量定义为数学专业能力因子。(为什么会有哲学原理呢?因为哲学原理有很强的逻辑相关性,这正好与数学专业的培养学生逻辑思维能力相吻合)。,第四因子变量中数字信号处理,数字图像处理,面向对象的程序设计都有较大的载荷,这些课程都是大学三年级开设的是在计算机基础理论的前提下应用计算机基础理论解决实际问题的课程,反映了学生解决实际问题的能力水平,因此定义为计算机能力因子。,第五个因子变量中体育基本上占了全部载荷,这正好和我们说的德智体全面发展相结合,说明体育也是很重要的,定义为体育因子。,第六因子变量中大学英语载荷最大,达到了0.825说明英语在大学生的学习中地位非常重要,定义为英语素质因子。,第七因子变量中毛泽东思想概论和邓小平理论概论思想道德教育都有很大的载荷,定义为思想理论素质因子,这几门课程是学习其它课程的理论指导学科,不论大学生以后从事哪方面的工作都离不开毛泽东邓小平理论指导,思想道德理论基础又为大学生的思想素质打下了坚实的基础。,表6:因子转换矩阵,因子分析和主成分分析的一些注意事项:,可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。,另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。,在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系,应用因子分析法进行分析的步骤如下:1、根据研究问题选取原始变量;2、对原始变量进行标准化并求其相关矩阵,分析变量之间的相关性;3、求解初始公共因子及因子载荷矩阵;4、因子旋转;5、因子得分;6、根据因子得分进行进一步分析,聚类分析,案例分析:中国35个主要城市经济效益分析,根据35个主要城市某年关于年底总人口、地区生产总值(GDP)、工业总产值、客运总量、货运总量、地方财政预算内收入、固定资产投资总额、城乡居民储蓄年末余额、在岗职工平均人数、在岗职工工资总额10个指标的数据,以期对这些城市的经济效益进行横向和纵向的比较,找出它们之间的差别并分析原因,同时针对个别城市分析其自身经济效益的发展趋势。,数据来源:中国城市统计年鉴,聚类分析,聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类。距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:其中Xik表示第i个样品的第k个指标的观测值,Xjk表示第j个样品的第k个指标的观测值,dij为第i个样品与第j个样品之间的欧氏距离。若dij越小,那么第i与j两个样品之间的性质就越接近。性质接近的样品就可以划为一类。,当确定了样品之间的距离之后,就要对样品进行分类。分类的方法很多,有系统聚类法、模糊聚类法、有序样品聚类法等。主要研究系统聚类法,它是聚类分析中应用最广泛的一种方法。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论