元统计学和多元统计.ppt_第1页
元统计学和多元统计.ppt_第2页
元统计学和多元统计.ppt_第3页
元统计学和多元统计.ppt_第4页
元统计学和多元统计.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析基础,生命科学 社会科学,统计分析方法,现象 多样性 复杂性 随机性,多元统计分析方法,多元回归分析方法 多元判别分析方法 聚类分析方法 ,目的: 从看起来 杂乱无章 的数据中 发现提炼 规律性的结论,为什么学习多元统计分析,必备的知识 良好的 专业训练 必要的 统计分析工具,多元统计研究的内容,简化数据结构(降维问题) 将复杂的数据通过变量变化变得互补相关 将高维数据投影到低维空间(问题简化,信息丢失较少) 主成分分析 因子分析 分类与判别(归类问题)按照相似度进行分类 聚类分析 判别分析等 变量间的相互关系 回归分析 典型相关分析 多元数据统计推断 参数估计 假设检验 多元统计的理论基础 多元随机向量的分布及其性质 抽样分布理论等,随着计算机的发展,多元统计已经在自然科学、社会科学的各个领域得到广泛的应用。 教育学 医学 气象学 环境科学 地理学 考古学 服装工业 经济学 农业 社会科学 文学 以及其他各个领域,多元统计的应用,一元概率统计回顾 主要关注基本概念和基本思想,随机变量 X (random variable) 在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为随机变量X。 例 (1). 掷骰子出现某点数的概率为1/6,若掷100次,则出现该点数的次数X是随机变量; (2). 332路公车每10分钟发一趟车,某人在随机的时间到达车站等车,则等车时间X是随机变量。,1. 随机变量、概率分布,离散型随机变量 X的所有可能取值是有限个或可列个。 连续型随机变量 最常见的一类非离散型随机变量。,对连续型随机变量,考察事件aXb的概率。若存在非负的可积函数p(x),使得:对任意的a, b(ab),都有,则称p(x)为随机变量X的概率密度函数。,概率密度函数 (PDF, probability density function),对所有随机变量X,可以定义以下的概率分布函数F(x):,P(x)的性质:,收敛,则称E(X)为随机变量X的均值或数学期望。 xi:质点i的坐标;pi: 质点i的质量 E(X): 质心坐标,2. 随机变量的数字特征,均值(mean) 或数学期望(mathematical expectation),离散型随机变量的均值 设离散型随机变量X的分布律为:,若,连续型随机变量的均值 设X为连续型随机变量,它的概率密度函数为p(x) ,若,收敛,则称E(X)为随机变量X的均值或数学期望。,小结: E(X)反映随机变量X的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体细节。,方差(variance),设随机变量X的均值为E(X),则:,对于离散型随机变量X,其方差为:,对于连续型随机变量X,其方差为:,计算D(X)的简单公式:,小结: D(X)反映随机变量X的相对于均值E(X)的偏离程度,代表随机变量取值的分散性,也是统计平均的性质。,正态分布(Normal distribution),设随机变量X的概率密度为:,其中-0均为常数。称X服从参数为,的正态分布,记作XN(,2). :均值; :方差,=0; 2=1时,称为标准正态分布,记为XN(0,1)。,遵从正态分布的随机变量X,其正态分布函数为:,正态分布的若干性质 正态分布完全由其均值和方差2决定; 正态分布的概率密度函数曲线呈对称的“钟形”; 经验规则(3 准则):,68,95,99,2,3,2,3,p(x),x,3. 总体和样本,总体X (population) 研究对象的某种特征值的全体组成的集合。用X表示。 样本X1, X2, , Xn (sample) 在总体中选取部分有代表性的子集称为(随机)样本。 一个样本是来自总体X的一组相互独立同X分布的随机变量。 样本值x1, x2, , xn 从总体X随机抽取的一组观测值,常用x1, x2, , xn来表示样本或样本值。,4. 统计量及其参数估计,统计量(statistical quantity) 设X1, X2, , Xn为总体X的n个样本,g(x1, x2, , xn)为连 续函数,则称g(X1, X2, , Xn) 为一个统计量。 显然,统计量g(X1, X2, , Xn)也是一个随机变量。 总体X的数字特征参数 总体均值:刻划总体的平均取值 总体方差2:刻划总体取值的分散(涨落)程度,根据样本值推断总体性质参数估计,样本均值 :,样本方差s:,显然,样本均值、样本方差都属于统计量。 通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。 无偏估计:当n取得充分大,样本均值、样本方差分别逼近总体均值和总体方差。,或,(当n较大时),5. 统计推断的两类问题 参数估计和假设检验,参数估计问题 假定总体X的分布函数形式已知,对其中的某些参数进行估计。 估计方法:矩估计法、最小二乘法、最大似然法, 假设检验问题 从样本值出发,判断关于总体分布的某种假设是否成立。,1、提出原假设(或称零假设)和备选假设(或称对立假设),2、指定显著性水平(一般取 0.05, 0.01, ) 值用以衡量(或拒绝)原假设成立所需证据的指标。 值越小,否定原假设的条件越高,不容易否定原假设; 值越大,否定原假设的条件越低,比较容易否定原假设。,3、构造检验统计量W,4、进行统计试验收集数据、计算检验统计量及显著性概率值p,5、根据显著性水平值进行判断,多元统计数据的图表示法,图形有助于对所研究数据的直观了解,一元或二元的数据都可以用图画出来,给研究人员一个直观理解。但是对于高维数据,在平面上用图画出来不是一件容易的事情。许多统计学家给出了多元数据的图示方法,但是对于这些方面的研究还处于不成熟的状态,到目前为止还没有公认的方法。书中介绍的是一些在当今比较流行的方法。 设变量的个数为p,观察的次数为n,第k次观察值记为,N次观测数据组成的矩阵记为,例:考察北京、上海、陕西、甘肃四个省市人均消费支出情况,选取以下五项指标,具体数据如下表,轮廓图的作图步骤为: 在直角坐标系中,横坐标取p个点,以表示p个变量; 对于给定的一个观测值,在p个点上的纵坐标与对应的变量值取正比; 连接p个点得一折线,既得该次观察值的一条轮廓线; 对于n次观察值,每次都重复上述步骤,可画出n条折线,构成n次观察值的轮廓图。,多元统计数据的图表示法轮廓图,雷达图的作图步骤为: 作一个圆,并把此圆分为p等分; 连接圆心和各分点,把这p条半径依次定义为各变量的坐标轴,并标以适当的刻度; 对给定的一次观测值,把p个观测值分别标在相应的坐标轴上,然后将它们连成一个p边形; 对于n次观察值,可画出n个p边形。,多元统计数据的图表示法雷达图,多元统计数据的图表示法调和曲线图,从数学的角度,较为完美的多元数据图表示的方法可能就是Andcews在1972年提出的三角多项式法,其思想是把多维空间中的一个点对应于二维平面上的一条曲线。,多元统计数据的图表示法星座图,请同学们参考实用多元统计分析由

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论