版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计第一讲基本概念第一页,共八十二页,2022年,8月28日中文参考书1多元统计分析何晓群编人民大学大出版社19992应用多元统计分析高惠璇编北京大学出版社20053多元统计分析选讲张饶庭著中国统计出版社20024多元统计分析(研究生)袁志发科学出版社外文参考书
1AppliedMultivariateStatisticalAnalysis(6thEd)2007RichardA.JohnsonDeanW.WichernChinaStatisticsPress(国外MBA优秀教材)2AnalyzingMultivariateData2003LattinCarrollGreenChinaMachinePress(斯坦福大学,罗格斯大学,宾夕法尼亚)3AppliedMultivariateMethodsforDataAnalysts2005DallaseE.JohnsonHigherEducationPress(海外优秀数学类教材)参考文献
本专业研究生博士生论文第二页,共八十二页,2022年,8月28日1.随机变量、概率分布随机变量的数字特征总体和样本统计量及其参数估计参数估计和假设检验6.回归分析一、单变量统计第三页,共八十二页,2022年,8月28日随机变量X(randomvariable)在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为随机变量X。例(1).掷骰子出现某点数的概率为1/6,若掷100次,则出现该点数的次数X是随机变量;(2).332路公车每10分钟发一趟车,某人在随机的时间到达车站等车,则等车时间X是随机变量。1.随机变量、概率分布离散型随机变量
X的所有可能取值是有限个或可列个。连续型随机变量最常见的一类非离散型随机变量。
第四页,共八十二页,2022年,8月28日对连续型随机变量,考察事件{a<X<b}的概率。若存在非负的可积函数p(x),使得:对任意的a,b(a<b),都有则称p(x)为随机变量X的概率密度函数。概率密度函数(PDF,probabilitydensityfunction)对所有随机变量X,可以定义以下的概率分布函数F(x):P(x)的性质:第五页,共八十二页,2022年,8月28日2.随机变量的数字特征均值(mean)或数学期望(mathematicalexpectation)离散型随机变量的均值设离散型随机变量X的分布律为:若收敛,则称E(X)为随机变量X的均值或数学期望。xi:质点i的坐标;pi:质点i的质量E(X):质心坐标第六页,共八十二页,2022年,8月28日连续型随机变量的均值设X为连续型随机变量,它的概率密度函数为p(x),若收敛,则称E(X)为随机变量X的均值或数学期望。小结:E(X)反映随机变量X的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体细节。第七页,共八十二页,2022年,8月28日方差(variance)设随机变量X的均值为E(X),则:对于离散型随机变量X,其方差为:对于连续型随机变量X,其方差为:第八页,共八十二页,2022年,8月28日计算D(X)的简单公式:小结:D(X)反映随机变量X的相对于均值E(X)的偏离程度,代表随机变量取值的分散性,也是统计平均的性质。第九页,共八十二页,2022年,8月28日正态分布(Normaldistribution)设随机变量X的概率密度为:其中-<<+,>0均为常数。称X服从参数为,的正态分布,记作X~N(,2).:均值;:方差=0;2=1时,称为标准正态分布,记为X~N(0,1)。遵从正态分布的随机变量X,其正态分布函数为:第十页,共八十二页,2022年,8月28日正态分布的若干性质
正态分布完全由其均值和方差2决定;正态分布的概率密度函数曲线呈对称的“钟形”;经验规则(3准则):第十一页,共八十二页,2022年,8月28日68%95%99%++2+3--2-3p(x)x第十二页,共八十二页,2022年,8月28日3.总体和样本总体X(population)研究对象的某种特征值的全体组成的集合。用X表示。样本X1,X2,…,Xn(sample)在总体中选取部分有代表性的子集称为(随机)样本。一个样本是来自总体X的一组相互独立同X分布的随机变量。样本值x1,x2,…,xn从总体X随机抽取的一组观测值,常用x1,x2,…,xn来表示样本或样本值。
第十三页,共八十二页,2022年,8月28日4.统计量及其参数估计统计量(statisticalquantity)设X1,X2,…,Xn为总体X的n个样本,g(x1,x2,…,xn)为连续函数,则称g(X1,X2,…,Xn)为一个统计量。显然,统计量g(X1,X2,…,Xn)也是一个随机变量。总体X的数字特征——参数总体均值:刻划总体的平均取值总体方差2:刻划总体取值的分散(涨落)程度第十四页,共八十二页,2022年,8月28日根据样本值推断总体性质——参数估计样本均值:样本方差s:显然,样本均值、样本方差都属于统计量。通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。无偏估计:当n取得充分大,样本均值、样本方差分别逼近总体均值和总体方差。或(当n较大时)第十五页,共八十二页,2022年,8月28日5.统计推断的两类问题——参数估计和假设检验参数估计问题假定总体X的分布函数形式已知,对其中的某些参数进行估计。估计方法:矩估计法、最小二乘法、最大似然法,……假设检验问题从样本值出发,判断关于总体分布的某种假设是否成立。第十六页,共八十二页,2022年,8月28日1、提出原假设(或称零假设)和备选假设(或称对立假设)2、指定显著性水平(一般取=0.05,0.01,…)
值用以衡量(或拒绝)原假设成立所需证据的指标。值越小,否定原假设的条件越高,不容易否定原假设;值越大,否定原假设的条件越低,比较容易否定原假设。3、构造检验统计量W
4、进行统计试验——收集数据、计算检验统计量及显著性概率值p5、根据显著性水平值进行判断
第十七页,共八十二页,2022年,8月28日变量与变量的关系:确定性关系函数关系U=IRv=gt变量与变量的关系:非确定性关系统计相关(具有统计规律)Y=f(x1,x2,…,xn)+……回归分析方法6.回归分析第十八页,共八十二页,2022年,8月28日回归分析的基本问题
寻求表达Y与x1,x2,…,xn的相关关系的经验回归方程,简称回归方程;利用回归方程,在一定可靠度的要求下,预估当自变量x1,x2,…,xn取确定值时,随机变量Y的取值,称为预测问题;为使Y在给定的范围内取值,利用回归方程,控制自变量x1,x2,…,xn的取值范围,称为控制问题。第十九页,共八十二页,2022年,8月28日数据分析的两大阶段探索阶段实证阶段详细查看数据,分离出数据的模式和特点评估观察到的模式或效应着重评估现有的证据提供显著性和置信度的陈述7数据分析第二十页,共八十二页,2022年,8月28日探索性数据分析的四个主题耐抗性:对局部不良行为的非敏感性重视主体部分,不重视离群值残差:从数据减去一个总括统计量或拟合末次那个以后的残余部分残差=数据-拟合重新表达:找到什么样的尺度(对数或平方根)会简化分析,如果原始测量尺度不合适,重新表达会有助于对称性、线性关系的发现。启示:通过显示数据、拟合曲线、残差图等反映数据的特点和行为。第二十一页,共八十二页,2022年,8月28日contacts.sav软件公司数据第二十二页,共八十二页,2022年,8月28日饼图直方图markedlynon-normal直方图第二十三页,共八十二页,2022年,8月28日均值中位数众数标准差方差分位数第二十四页,共八十二页,2022年,8月28日变换之后更加接近正态分布对变量sale进行对数变换第二十五页,共八十二页,2022年,8月28日BoxplotBoxplotsprovideaquick,visualsummaryofanynumberofgroups.Further,allthegroupswithinasinglefactorarearrayedonthesameaxes,makingcomparisonseasier.Whileboxplotsprovidesomeevidenceaboutshapeofthedistributions,theExploreprocedureoffersmanyoptionsthatallowamoredetailedlookathowgroupsmaydifferfromeachotherorfromexpectation.第二十六页,共八十二页,2022年,8月28日Boxplotsmedian25thpercentile75thpercentileOutliersextremevalues
Maximumminimum箱线图第二十七页,共八十二页,2022年,8月28日将受教育大于等于16年的数据筛选出来,观察开始工资第二十八页,共八十二页,2022年,8月28日14500=14.5x1000
stemleafStemwidth茎叶图第二十九页,共八十二页,2022年,8月28日35000=3.5x10000第三十页,共八十二页,2022年,8月28日第三十一页,共八十二页,2022年,8月28日二、多元统计基本概念第三十二页,共八十二页,2022年,8月28日二、多元统计基本概念1.数据表达2.数据类型3.随机向量的分布函数和分布密度4均值5协差阵第三十三页,共八十二页,2022年,8月28日P表示变量,n表示项目或实验单元例如,某书店销售情况变量1销售金额:42524858变量2售出数量45431.数据表达第三十四页,共八十二页,2022年,8月28日第三十五页,共八十二页,2022年,8月28日第三十六页,共八十二页,2022年,8月28日2.数据类型(1)数据类型分类Nominal(标称、名义)取值为0或1(表示属性)
Ordinal(次序、有序)取值为1,2,3,…, (表示等级)
Interval(区间)取值为任意实数
Ratio(比例)取值为0和1之间的实数(表示数量关系,有大小、倍数的关系)(2)定量数据和定性数据定量数据(Interval、Ratio),定性数据(Nominal),Ordinal界于二者之间。
Ordinal向Nominal的转化。第三十七页,共八十二页,2022年,8月28日第三十八页,共八十二页,2022年,8月28日3.随机向量的分布函数和分布密度第三十九页,共八十二页,2022年,8月28日第四十页,共八十二页,2022年,8月28日第四十一页,共八十二页,2022年,8月28日3.随机向量的分布函数和分布密度联合分布函数∶分布密度函数∶满足第四十二页,共八十二页,2022年,8月28日若A和B是任意两个事件,且,则称为在B事件发生的条件下,事件A发生的条件概率。考虑随机向量,其中表示人的身高(单位:米),表示人的体重(单位:公斤),在身高为1.9米的人群中,体重的分布就再也不是原来的分布了。而是在的条件分布。条件分布第四十三页,共八十二页,2022年,8月28日第四十四页,共八十二页,2022年,8月28日
设X=(X1,X2,…,Xp)'是p维随机变量,定义X的数学期望为4均值第四十五页,共八十二页,2022年,8月28日均值X1X2第四十六页,共八十二页,2022年,8月28日2、性质
1)
设为常数,则;2)设分别为常数矩阵,则第四十七页,共八十二页,2022年,8月28日5方差第四十八页,共八十二页,2022年,8月28日协方差矩阵
第四十九页,共八十二页,2022年,8月28日若令定义:设和分别为维和维随机向量,则其协方差矩阵为第五十页,共八十二页,2022年,8月28日三、相关系数矩阵若(x1,x2,…,xp)’和(y1,y2,…,yp)分别是p和q维随机向量,则其相关系数矩阵为第五十一页,共八十二页,2022年,8月28日第五十二页,共八十二页,2022年,8月28日第五十三页,共八十二页,2022年,8月28日三、多元正态分布1多元正态分布定义2多元正态分布的定义及基本性质3多元正态分布参数估计第五十四页,共八十二页,2022年,8月28日1多元正态分布定义若随机向量的分布密度函数为则称服从p维正态分布。其数学期望与协方差矩阵分别为
其中
特例1(一元正态分布)为对称正定矩阵,
则
第五十五页,共八十二页,2022年,8月28日特例2(二元正态分布)设则第五十六页,共八十二页,2022年,8月28日2多元正态分布的定义及基本性质1)若是对角阵,则相互独立与是否独立?练习:设问与是否独立?其中第五十七页,共八十二页,2022年,8月28日2多元正态分布的定义及基本性质为常数阵,d为常数向量,则2)若正态随机向量的线性函数还是正态的3)若则第五十八页,共八十二页,2022年,8月28日练习:设3维随机向量试求的分布第五十九页,共八十二页,2022年,8月28日3)若则2多元正态分布的定义及基本性质思考题:设随机向量与独立?且问服从什么分布?第六十页,共八十二页,2022年,8月28日样本多元分析的任务∶根据样本数据来分析各变量之间的关系,推断总体的性质。多元样本数据为一元样本3多元正态分布参数估计第六十一页,共八十二页,2022年,8月28日样本平均值样本平均值是n个点的重心第六十二页,共八十二页,2022年,8月28日例题:计算均值、离差阵、协方差和相关阵第六十三页,共八十二页,2022年,8月28日样本离差(平方乘积和)矩阵S计算离差阵第六十四页,共八十二页,2022年,8月28日第六十五页,共八十二页,2022年,8月28日(样本协方差) (样本方差)样本协差阵第六十六页,共八十二页,2022年,8月28日样本相关矩阵RR为非负定矩阵----样本相关系数第六十七页,共八十二页,2022年,8月28日二组样本的协方差矩阵第六十八页,共八十二页,2022年,8月28日总体均值和协方差矩阵的最大似然估计设用最大似然法求出的均值和协方差的估计量分别为第六十九页,共八十二页,2022年,8月28日基本性质1)是总体均值的无偏估计2)是总体协方差的无偏估计分别是总体均值和协差阵的有效估计是总体均值和协差阵的一致估计估计3)4)和和和第七十页,共八十二页,2022年,8月28日10.定理设和S分别是正态总体样本均值和离差阵,则和S相互独立1)2)3)第七十一页,共八十二页,2022年,8月28日四、多元统计中常用的分布在一元统计中,常用的分布有卡方分布、t分布和F分布。在多元统计中,他们分别发展为Wishart分布、T2分布和Wilks分布。1Wishart分布2T2分布3Wilks分布第七十二页,共八十二页,2022年,8月28日1分布和Wishart分布
定义1设为相互独立且同服从于分布的随机变量。则 (1)所服从的分布叫做分布,称为自由度且记为。
第七十三页,共八十二页,2022年,8月28日定理2.由(1)式定义的随机变量的分布密度函数为
第七十四页,共八十二页,2022年,8月28日定理3.设,且与相互独立,则
推论2设是抽自正态总体的简单随机样本,则统计量第七十五页,共八十二页,2022年,8月28日Wishart分布它是多元样本离差平方和矩阵的分布定义1设为相互独立且同服从于分布,令则 (1)所服从的分布叫做自由度为的p维维希特分布,记作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山东省郓城县初三3月检测试题语文试题试卷含解析
- 安徽合肥市瑶海区重点名校2025-2026学年初三5月模拟考试语文试题试卷含解析
- 企业资产管理系统维护与更新工具
- 外贸进出口流程合规操作及风险防范手册
- 供应链管理标准操作流程手册
- 智慧城市安全稳定运行承诺书7篇范文
- 2026年健康管理师服务模式与案例解析
- 2026年老年健康手册编制与发放案例
- 2021-2022学年浙江省宁波市镇海区蛟川书院七年级(上)期中数学试卷-带答案详解
- 河池电缆桥架安装协议书
- 武汉大学分析化学教案第3章分析化学的误差与数据处理课件
- MT 425-1995隔绝式化学氧自救器
- 2023年辽宁大连中远海运川崎船舶工程有限公司招聘笔试题库及答案解析
- GB/T 18046-2008用于水泥和混凝土中的粒化高炉矿渣粉
- 临床检验基础各章节练习题及思考题
- 托幼机构卫生保健人员测试卷附答案
- 公司软件开发技术能力说明
- 钢结构工程计量课件
- 一例慢阻肺病人护理个案
- 教师口语教程教学课件汇总全套电子教案(完整版)
- 中国文化概论课件04
评论
0/150
提交评论