




已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验数据的分析方法_ chap.6,1,第二部分实验数据的统计分析第五章误差理论和最小二乘法第六章回归分析第七章多变量分析第八章功率谱和周期分析,实验数据的分析方法,作为基本理论的具体例子的机上实习(放学后),实验数据的分析方法_ chap.6,2,第六章回归分析,回归分析为变量和变量在观测天文学中,是最基本和最常用的统计工具。 变量间的统计相关关系是指变量间的关系不确定。 例如,某一天的气温和气压的关系银河中的氢含量和颜色指数、光度的关系太阳耀斑和黑子相对数、某一波段的太阳光放射流量等要素的关系等。 引起变量间关系不确定性的原因通常有两个。 另一个原因是,影响一个容量的许多因素中的一些因素还未被识别出,以及关于所使用设备的精度或观测条件的观测误差或其它随机因素的影响。 但是,如果大量观测和实验具有这种不确定关系的变量,也有可能发现其内在规律。 也就是说,在一定条件下,在统计意义上可能存在特定的关系。 通常,变量之间的这种不完全关系被称为统计相关关系。 实验数据的分析方法_Chap.6, 3、3、统计相关关系和函数关系(变量间的关系完全确定)是不同的两种变量关系,但它们之间也不变:另一方面,理论上有函数关系的一些变量受观测误差的影响,每次测量的变量的数值之间不能正确满足该函数关系,有些不确定性事实上,通过对研究对象的大量观测数据进行分析处理,总结和提高了自然科学中的许多定理和公式。 回归分析是利用大量的观测数据来决定变量之间的相关关系的数学手法。 在观测天文学中,回归分析在定量记述某研究对象的两个特征量之间的显式关系的宇宙大规模结构研究中校正了非常重要的“宇宙距离尺度”,在量化激光测月的资料处理中,回归分析也发挥了重要的作用。 实验数据的分析方法_ chap.6,4,4总的来说,回归分析要解决的主要问题是:1.根据一系列数据,确定这些变量之间的数学公式33,354,或者经验公式2 .统计地验证回归公式的可靠性3 .进行要素分析。 例如,从影响一个变量共同的许多变量(要素)中,找出重要要素和次要要素。 实验数据分析方法_ chap.6,5,5,通常两个变量之间的相关性呈线性关系,它是统计相关性中最简单的一种,是天文实际问题中最常见的情况。 我们的目的是找到能够记述这两个变量间的线性相关关系的定量式。 对于两个基本线性关系的变量y和x,通常称为6.1维线性回归、6.1.1维线性回归模型和参数估计;在表达式中,x表示变量或预测变量此外,实验数据的分析方法_ chap.6,6,6,令通过观测得到的y,x的n组数据(yk,xk ),k=1N,对于世代上式:误差项k,规定e (k )=0,2 (k )=2,在kj的情况下,k与j无关,即协方差cov(k,j)=0。 根据上述关于随机误差项k的规定可以容易地看出,主要因素变量yk是随机变量,并且这些变量来自平均值E(yk)=0 xk。 方差为2的概率分布,两个观测值之间不相关。上面,在k的分布中没有任何规定,并且不管k具有任何分布函数,最小二乘法都可以被用来获得参数0和的估计值。 然而,为了执行区间估计和验证,必须假定k的分布函数的形式,一般假定遵循误差项k-n (0,2 ),即,k是平均值为0,方差为2的正态分布。 因为误差项通常代表模型中被省略的许多因素的影响,所以这些因素影响变量在一定范围内取值,并且根据随机变化:中心极限定理,遵循正态分布。 另外,假定实验数据解析方法_Chap.6,7、7、7、误差项k为正态分布时,将上述模型称为正态误差回归模型。 下图显示了正则误差回归模型的图示。 对于如上所述的模型,回归分析的任务是找到回归参数0,的“良好”的估计量,得到最能表示y和x关系的回归直线(参照上图中的直线),方程式可以表示为、式的b0,b为参数0,的估计值,yk为y的回归值。 另外,实验数据解析方法_chap.6,8,以下,使用最小二乘法,b0,b的计算式3360应该是满足最小二乘法,b0,b应该是满足残差平方和的最小的解,可以使用Q=min得到标准方程式:的解3360,实验数据解析方法_ chap.6, 9是因为在给出参数估计值b,b0后对应的回归公式(或回归函数)为33,360是yk为平均方差为2的概率变量,所以略微改变上述正则方程式及其解的形式,并利用概率统计知识33,360, 也就是说,在相同第二条件中,显示出回归参数的最小均方估计是没有偏差的估计,并且这些偏差与概率变量的方差2、以及观测数据的数目n与参数可取范围的量值之间关系,随着观测次数的增加,参数可取范围变大,并且估计值的方差变得更大实验数据的分析方法_ chap.6,10在前一节中,假设两个变量大致呈线性关系,用最小二乘法得到描述这两个变量的相关关系的回归线性方程式。 利用这种数学方法本身,可以通过根据回归方程求出任意组数据(xk,yk )、k=1-N的b0、b 1,获得回归直线。 但是,对应各个数据的回归直线并不具有实际意义。 例如,与平面上完全杂乱的分散点相对应的直线没有意义。 因此,通常在求出直线回归式之后进行验证,判断所分配的直线是否具有实际意义。 如果检验结果的回归方程式显着,则分配回归直线表示变量y与变量x之间存在强线性相关的检验结果的回归式不明显,则分配的回归直线没有实际意义。 回归效果好坏的测定基准是6.1.2回归方程式的有效性检查,回归分析中,通常将因子y看作随机变量,将某个观测的实际观测值yk和其平均值的差称为方差,将n次观测的方差平方和称为总平方和,用lyy表示则为:实验数据分析方法_chap.6, 11、分解总平方和:上式右边第一项可以称为观测值与回归值之差的平方和(即,残差平方和),q可以表示为上式的右边第二项是回归值和平均值之差的平方和,将其称为回归平方和,记为u : 从而u反映了在y的整体变化中根据x和y的线性关系y的变化部分。 这样,从数量中分出了引起变量y变化的两个原因。 实验数据的分析方法_ chap.6,12,即从回归平方和u和馀数平方和q的含义出发,回归效果的好坏取决于u和q的大小。 以下是从假设检查的角度评价回归效果的好坏,判别回归方程式是否显着的基准。(1)f检验法、假设检验必须提出原假设,在研究两个变量之间是否存在线性关系时,主要验证模型的模型参数是否为零。 因此,将“=0”作为验证的原假设H0。 有原始假设必须构建统计量,该统计量必须满足三个条件: (1)可以用样本值来计算;(2)与原始假设有关;(3)知道该统计量的分布。 根据这三个条件,统计量应该从反映y的变化的回归平方和和馀数平方和中搜索。 利用正交线性变换,总平方和、回归平方和、馀数平方和都是变量2,而实验数据的分析方法_ chap.6,13证明,当=o成立时,回归平方和与馀数平方和是相互独立的。 因此,由于合计平方和lyy的自由度f为合计=FU FQ,所以构成为统计量f遵循第一自由度为l、第二自由度为n-2的f分布。 在确定了、和统计量f的分布之后,对于给定的有效水平(0.01,0.05,0.1 ),从f分布表中检测到置信水平F(1,N-2):意味着p(FF(1,N-2 )是否定区域。 因此,若根据样本计算出的统计量FF(1,N-2 ),则原假设H0不成立,则回归直线方程式有效。 当FF0.01(1,N-2 )时,这是有效的,并且当FF0.05(1,N-2 )时,这是0.05个级别,而当FF0.1(1,N-2 )时,这是0.1个级别。 FF(1, 若为N-2 ),则回归式显着的FF(1,N-2 ),回归式则不显着,例如使用40个b型螺旋星系SD的氢含量(MH/MT )、颜色指数(B-V)0的数据,求出它们的回归关系,验证回归结果是否显着。 (参见框P125 ),实验数据分析方法_ chap.6,15,回归平方和u反映了在y的总变化中由x和y的线性关系引起的部分。 因此,可以用u在总平方和lyy中所占比例的大小来测量回归效果的好坏。 通常,用r2表示比率U/lyy,称为x与y的相关系数。 (2)由相关系数检验法、r的定义可知rr认为相关系数在级别上是有效的,此时,x与y所支配的回归直线有意义,相反,如相关系数不显着,则由x与y所赋予的回归直线没有意义。例如,如果针对样本数N=30、=0.05,根据N-2=28、r=0.36l :样本计算r0.361,则可知在=0.05水平上是有效的,但是,如果r0.463(r0.01 ),则在=0.0l水平上不明显. 越小,显着性越高。 相关系数的有效性检验和回归方程f检验可以证明完全等价。 实验数据分析方法_ chap.6,18,实验数据分析方法_ chap.6,19,回归方程的有效性检验实际上是回归模型检验。 该节进一步讨论回归系数和回归值的精度,并给出其置信区间,对于了解利用回归方程预测的精度具有现实意义。 6.1.3回归系数和回归值的估计精度;(1)回归系数的可信度区间;以及回归系数的估计值b的计算公式通常,使用馀数平均方差(它是未知的并且一直是无偏差的估计),即在这种情况下,在获得一个对应的区间或回归方程之后,针对任何给定的参数xi将回归值估计为实际值评估。 但是,由于参数评价部b0、b是随机变量,所以在变量yi的评价中存在误差。 接着,计算该估计值的精度公式,使用回归公式研究预测的问题。、1/2、1/2、yy、yy、(2)回归值的可靠区间、实验数据分析方法_chap.6、21,定义残差i是实际值yi与回归值之差,若将、实验数据分析方法_chap.6、22、i用代替,将xi用x代替,则回归值的实际值的偏差和随机数观测数据量与观测点x和x的偏差有关,n越大,x越接近x,表示该残差方差的y都属于正态分布,因此也属于正态分布。 然后,对于给定的显着性水平,可以利用概率统计知识。 式中:实验数据分析方法_ chap.6,23根据正态分布理论,y以99.7%的概率落在区间3n内,95.4%的概率落在区间2n内,68.3%的概率落在区间n内。 从、y的可靠带的示意图、实验数据解析方法_chap.6、24、上图可知,关于某个参数x0,变量的取值以中心对称地分布,分布的范围由N的大小决定。 一般来说,由于2是未知的,因此用其无偏差的估计来代替时,由于当回归的误差n大且x接近时,估计值的误差仅由馀数平均方差决定,所以通常将馀数平均方差Sy2作为预测回归方程式的精度的指标。 对于非观测数据的任何参数xo,可从回归公式中获得相应的因素变量。 由回归公式的误差范围可知,是预测的最佳值。回归公式的误差范围是预测值的误差范围: n越大,并且越接近自变量的平均值附近,预测的精度越高。 这表示回归方程式的适用范围被限于原始观测数据范围,即适于进行不足数据的插值,但如果超出该范围,预测精度会恶化。 1 )由于变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年文化馆文化演出策划师招聘面试模拟题及答案
- 圆的认识教学设计与课件
- 2025年生物实验员面试模拟试卷本科院校及答案
- 2025年仓储管理师库存管理考试题
- 2025年电子商务推广专家考试试题及答案解析
- 2025年新能源汽车销售顾问考试题库
- 说礼貌语做文明事课件
- 机油培训知识课件
- 2025年喷漆安全操作测试题及答案集
- 清溪县急救知识培训课件
- 新媒体视听节目制作
- 数字化教学环境下小学语文板书设计优化策略
- JG/T 237-2008混凝土试模
- JG/T 232-2008卫浴型散热器
- 灭火员初级习题库
- T/CAQP 001-2017汽车零部件质量追溯体系规范
- 燃气入户可行性报告
- 技术赋能医疗创新-深入解析数字化口腔诊所建设指南
- 眼内炎护理疑难病例讨论
- 配送车辆消毒管理制度
- 理发店消防安全制度
评论
0/150
提交评论