应用数理统计(基于MATLAB实现)教案 李建辉 第3-6章 假设检验-随机过程_第1页
应用数理统计(基于MATLAB实现)教案 李建辉 第3-6章 假设检验-随机过程_第2页
应用数理统计(基于MATLAB实现)教案 李建辉 第3-6章 假设检验-随机过程_第3页
应用数理统计(基于MATLAB实现)教案 李建辉 第3-6章 假设检验-随机过程_第4页
应用数理统计(基于MATLAB实现)教案 李建辉 第3-6章 假设检验-随机过程_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《应用数理统计》教案教案首页教学单元第3章学时10教学题目假设检验教学环境设计与组织安排课堂教学主要以板书为主,多媒体课件为辅教学目标及达成度价值塑造通过假设检验过程可能发生的两类错误及其原理,使学生明白事物一般都具有两面性,认识事物要从对立统一的角度来看待事物的发展变化,同时要有严谨求实的工作态度,解决科学问题要从多角度综合考虑、相互印证,确保逻辑严密、不出差错。知识传授个、两个正态总体的参数假设检验,会确定最小样本量。能力培养通过本章的学习,培养学生根据样本数据对总体参数进行假工程管理等问题中涉及的参数和非参数检验问题等。教学重点难点重点:假设检验的基本概念、正态总体均值及均值之差的假设检验、总体方差及总体方差之比的假设检验、分布拟合检验.难点:假设检验的基本概念的理解,正态总体总体方差比的假设检验、分布拟合检验.教学方法手段媒介理论讲授+板书+多媒体+启发诱导+问题驱动+课后实验教学模式模式:线上+线下混合式平台:学堂云平台工具:雨课堂、MATLAB软件教学设计【课程进程安排】【课前准备】通过学堂云平台进行“预习指导”和“课前测试”。了解学情有助于增进要求学生进行独立完学堂云在线答题一、问题的提出

第三章 假设检验§3.1假设检验的原理与步骤

【设计意图】往会遇到产品质量合【问题导向】雨课堂课前发布引例:为了更直观地了解假设检验所研究的问题,先看下面几个例子:引例1 在车床正常生产的情况下,某种铸件的重量服从正态分布𝑁(50.929(g:42.0 52.0 54.0 55.0 55.5 56.5 57.0 57.5 65.0问该车床是否正常工作?=56引例2 假设两清的干燥间以时)服从态布并现分别从两种清漆中抽取9个样品,其干燥时间如下:第一𝑋:6.0 5.7 5.8 6.5 7.0 6.3 5.6 6.1 5.0第二𝑌:5.4 5.0 6.2 6.2 6.7 5.3 5.6 5.1 6.0问两种清漆的干燥时间有无显著差异?此问题则可以转化为判断命题“𝐸(𝑋)=𝐸(𝑌)”是否成立。每公里裂缝数012345678公里数24198371632102引例3 施工检某际公上要补裂时发,每公里裂缝数012345678公里数24198371632102问该省际公路上每公里裂缝数是否服从泊松分布?

需要使用一些统计推断方法,利用样本数据对产品质量进行检验。这些的问题都属于假设检验的范畴,本章主要介绍假设检验的原理、方法与过程。【课程思政】通过工程数据分析引例,增强学生的专业归属感。引导学生培养自我实现的精神追求,培养“匠心精神”,立志高远,努力奋斗。将所学知识用于社会服务。此问题则可以转化为判断命题“𝑋∼𝑃(𝜆)”是否成立。以上三个问题均是判断某一命题是否成立,而给出的命题则是对总体分布或者分布中的某些参数提出的一种假设,这就需要根据样本观察值经过一些计算得到结论,即所提假设是否成立。010𝜇=51应为“𝜇≠561𝐻0𝜇=561𝜇≠𝜇>56或𝜇<56(oales:𝜇=𝜇0, 𝜇≠𝜇0(neales:𝜇≥𝜇0, 𝜇<𝜇0或𝜇≤𝜇0, 𝜇>𝜇0二、授课内容1.假设检验的基本原理1若以,分别表示当天所生产的铸件重量X的期望和标准差。则𝑋∼𝑁(𝜇0.92)56kg。𝜇=56。当原假设成立时,𝑋∼𝑁(𝜇,0.92)。接下来,使用样观察值进行统计计算,

重要概念的讲授:对假设检验概念建立证法是根据问题的假假设检验则是根据假设来确定检验统计量来说要借助与统计量H0当H𝑋∼𝑁(𝜇,0.92̄∼𝑁(5,.92̄经过

【学生讨论】为何在检验统计量落入拒绝域时,就拒绝原0标准化后形成的统计量

𝑈=

−𝜇0.9√𝑛

∼𝑁(0,1)

𝑛 假设?与反证法又有着什么关系?𝛼0<𝛼<2,使得𝑃{|𝑈|>𝑢𝛼}=𝛼2例如当𝛼=0.05时,由附表可得𝑢𝛼=𝑢0.025=1.96,则2𝑃{|𝑈|>1.96}=0.05H0|𝑈|1.965%。称在引例1中上式可表示为0.9𝑃{|𝑋̄−56|>1.96}=0.05。0.9√90.9𝑊||𝑊0.9√9W发𝜇=落在𝑊H0H0(如图。把{|𝑢|>1.96}{|𝑢|≤1.96}。现进行一次抽样后得到的样本均值𝑋̄的观测值

知识运用能力的训练:从一般模型到具体的使用,如何确定每一个参数,如何对标模型的每一个步骤?数学思想方法:反证法𝑥̄=

1(42.0+52.0+⋯+65.0)≈54.949而统计量𝑈相应的观测值u为|𝑢|=|

−560.9√9

|=|

54.94−560.9√9

|=3.53>1.96一般地,常把𝛼=0.05时拒绝𝐻0称为是显著的,而把在𝛼=0.01时拒绝𝐻0称为是高度显著的。【实际案例】案例——试剂假阳问题从实际情况看,任何的检验方法使犯错误的可能性不存在。理想的试剂应【思政融入】(1)爱国意识:此次疫情大家共同经历的种种让学生认识到中国的智慧

【课程思政】(1)爱国意识(2)科学务实精神(3)责任意识(4)哲学原理在现实中应用。(2)(3)(4)通过理论结合实际,学生理解了假设检验的两类错误,同时,融入思政元素,告诉同学们事有轻重缓急,在处理问题时要抓住问题的主要矛盾,和矛盾的主要方面。假设检验的基本步骤(1)建立假设。根据实际问题提出原假设𝐻0及备选假设𝐻1。(3)确定临界值:其本质就是确定拒绝域𝑊。

观察和思考:检验统计量的选择应注意什么问题?𝛼=0001或00𝛼𝑇𝑊。这里需要注意的是备选假设和原假设不总是对立的,但总是互不相容的。两类错误W,因而H0被拒绝了,称这类错误为第一类错误或“弃真”错误。犯第一类错误的概率用式子表示为𝑃{𝑇∈𝑊|𝐻0成立}=𝛼。H0WH0犯第二类错误的概率记为判断真实情况接受H0拒绝H0H0成立判断正确第一类错误(弃真)H1成立第二类错误(取伪)判断正确𝑃{𝑇∈判断真实情况接受H0拒绝H0H0成立判断正确第一类错误(弃真)H1成立第二类错误(取伪)判断正确

【课程思政】是一个人难能可贵的涵之一就是能够对知科学态度对待所学的知识。有意识地培养学生的生更好地理解知识的【推荐阅读】三、小结:假设检验的原理与步骤。四、作业:1(2)认真阅读“拓展阅读”文章;(3)MATLAB1。

工程应用科研论文推荐阅读:年第43卷第期1期发表的题目验的地铁工程监测数【课程思政】鼓励学生在本领域积理统计模型与方法为一、问题的提出

§3.2 单个正态总体的假设检验

【课程思政】解决问题时,要有合理的方法和科学的依据。【问题导向】雨课堂发布题目,引导学生思考,引出本节内容。提问:引例中问题该如何解决,如何建模?848

【学生讨论】该问题如何思考和解决?引导学生充分讨论。出每一杯茶的正确制作方式。用排列组合的方法分析该问题。50%。htps\hw.ouom/287_93【课程思政】二、授课内容单个正态总体的假设检验

【课程思政】思政元素融入点:社会主义核心价值观家国情怀数学家与数学精神验数学期望,已知期望和未知期望检验方差等几种情况。单个正态总体期望的检验0(1)总体方差2已知,检验H0:000𝑋∼𝑁(𝜇,其中22𝑋2𝑋𝑛)X𝜇=𝜇0,𝐻1𝜇≠𝜇0。0当𝐻0成立时,构造如下形式的检验统计量𝑋̄−𝜇0𝑈=

𝜎0√𝑛

∼𝑁(0,1)给定显著性水平𝛼,由𝑃{|𝑈|>𝑢𝛼}=𝛼查附表得到u2(如图)2故拒绝域W为𝑊𝑈𝑢𝛼𝑈𝑢𝛼}|𝑈|𝑢𝛼}。2 2 2

【学生思考】如何选取检验统计量,依据是什么?拒绝域何如确定?大概率事件是什么?1,2,,n代入统计量U到的U的观测值u与2u2WH0(H0u2受域WH0(H0U以上检验法中,拒绝域表示为𝑈小于一个给定数−𝑢𝛼或大于另一个给定数2u2的所有数的集合,称为双侧检验。1𝑋∼5:3.25 3.27 3.24 3.26 3.24如果总体方差没有变化,能否认为这批矿砂中镍的质量分数仍为3.25(取0.05)?解:设矿砂中镍的质量分数为X,则𝑋∼𝑁(3.25,0.012)。需检验假设H0:03.25,H1:3.25

工程数据分析案例引导学生从专业的角度看待问题。由题可知,𝑥̄=3.252,对于给定的𝛼=0.05,查附表知𝑢𝛼=𝑢0.025=1.96,则2|𝑢|=|𝑥̄−𝜇0|=|3.252−3.25|≈0.4472<1.96𝜎0√𝑛

0.01√5

在总体方差已知的情况下,检验总体的均值所以不能拒绝原假设H0,认为这批矿砂中镍的质量分数仍为3.25。1H03.25H13.25。经证明,在给定的相同检验水平下,对假设H0:0,H1:0和假设H0:0,H1:0的检验方法是一致的。因此,该问题中的检验假设可改为H0:3.25,H1:3.25

U往往遇到方差未知的假设检验中的检验统计量与区间估计中的发现两者之间的对应0 nUX0 n

作为检验统计量,给定显著性水平,由

关系。PU,查附表得到u(,故拒绝域W为WUu,查附表知u0.05u0.95入检验统计量可得

这种假设检验称为左侧检验,右侧检验原理与左侧类似,包括后面要介绍的方差未知时,0 nux0 n

均值的单侧检验,以及总体方差的单侧检验,原理均类似。5所以不能拒绝原假设H50(2)总体方差2未知,检验假设H0:0001 2设总体X N,2其中22未X,X01 2

, ,X

是来自于总n体X的一个样本,现在要检验假设:H0:0,H1:0。n由于样本方差𝑆2=1

∑𝑛

(𝑋是总体方差2H𝑛−1成立时,构造统计量如下

𝑖=1𝑇=

𝑖−𝜇0𝑆√𝑛

0∼𝑡(𝑛−1)给定显著性水平,由𝑃{|𝑇|>𝑡𝛼(𝑛−1)}=𝛼查附表得到𝑡𝛼(𝑛−1),故拒2 2绝域W为𝑊={|𝑇|>𝑡𝛼(𝑛−1)}={|𝑇|≤𝑡𝛼(𝑛−1)}。2 2若进行一次试验,将样本观察值(𝑥1,𝑥2,⋯,𝑥𝑛)代入统计量𝑇,将计算的𝑇的观测值t与𝑡𝛼(𝑛−1)进行比较,若|𝑡|>𝑡𝛼(𝑛−1),落入拒绝域𝑊,拒绝原假设2 2H0|𝑡|≤𝑡𝛼(𝑛−𝑇2例2如果一个矩形的宽度与长度的比为1(√5−1)≈0.618,这样的矩形称2为黄金矩形。这种尺寸的矩形会使人从视觉效果上感觉良好。现代的建筑构建、200.693 0.749 0.654 0.670 0.662 0.672 0.615 0.606 0.690 0.6280.668 0.611 0.606 0.609 0.601 0.553 0.570 0.844 0.576 0.933设这一工厂生产的矩形的宽度与长度的比值总体服从正态分布𝑁(𝜇,𝜎2),其中和2𝛼=0.05度之比的均值为黄金比?解:设该厂生产的矩形宽度与长度的比值为𝑋,则𝑋∼𝑁(0.618,𝜎2)。需检验假设𝐻0:𝜇=0.618,𝐻1:𝜇≠0.618经计算,𝑥̄=0.6605,𝑠=0.0925,对于给定的𝛼=0.05,查附表知𝑡𝛼(19)=2

【课程思政】黄金分割是数学与艺术、建筑、设计等学科完美结合的典型案例,设计师可以利用黄金分割在美术、音乐和建筑设计进行创作,体现人们对美的追求,以及生在自己的学习和研𝑡0.025(19)=2.0930,则|𝑡|=|𝑥̄−𝜇0|=|0.6605−0.618|=2.0545<2.0930𝑆√𝑛

0.0925√200𝜇=06

【课程思政】告诉学生“科学无处不在”,只要坚持不懈努力,一定能取得成功。单个正态总体方差的检验(1)0H

:22,H:220 0 1 0NN0,

2

已X1,X2, ,Xn是来于总0XH0

:22,H:22。0 0 1 0当H0成立时,构造统计量𝑛 𝑛1

𝑖−𝑢02

【学生讨论】𝜒2=

𝜎2

∑(𝑋𝑖

−𝑢0)2=∑(

)∼𝜒2(𝑛)0𝑖=1

𝑖=1

在介绍方差的检验时,给定显著性水平和自由度n2𝛼𝑃{[𝜒2<𝜒2𝛼(𝑛)]∪[𝜒2>𝜒2(𝑛)]}𝛼1−2 2

n2

验和区间估计的区别和联系是什么?222

(𝑛)}+𝑃{𝜒2>𝜒2(𝑛)}=𝛼+𝛼=𝛼1−𝛼2

𝛼2 2 22

n2

n为双侧临界值,故拒绝域为𝑊={𝜒2<𝜒2𝛼(𝑛)或1−21−22𝜒2>𝜒2(𝑛)}={𝜒2(𝑛)<𝜒2<𝜒2(𝑛)}22𝛼 1− 𝛼2 2 2若进一试样观察值x,x, ,x代统量2将算的1 2 n222

n或22

n,1/2/20 0落入拒绝域W1/2/20 0验法。(2)0H

:22,H:220 0 1 0这种情形留给学生课后研究,写出模型的主要过程。培养学生的自学能力进和研究能力,326𝑠=0.37。已知合金中钛的百分含量服从正态分布。在𝛼=0.05显著性水平下检验该批合金中钛百分含量的方差是否合格?解:设X为合金中钛百分含量,且𝑋∼𝑁(𝜇,𝜎2)。设𝐻0:𝜎2=𝜎2=0.35,𝐻1:𝜎2≠𝜎20 0根据已知条件,未知,用2检验法。当𝛼=0.05,𝑛=51−1=50时,查2分布的临界值表知𝜒2 (25)=13.120,𝜒2 (25)=40.4640.975则(𝑛−1)𝑆2𝜒2= =0𝜎20

0.025(26−1)×0.03720.352

=27.9388因为13.120<27.9388<40.464,落入接受域,所以不能拒绝原假设𝐻0,即该批合金中钛百分含量的方差是合格的。【拓展阅读】026卷第4三、小结:

【课程思政】中假设检验方法和模型在工程管理方面的四、作业:1(2)认真阅读“拓展阅读”文章;(3)MATLAB§3.3 一、问题的提出引例1. 用老料新料分生同种器件各一样作疲劳寿试,得据下(位小:原材料40 110 150 65 90 210 270新材料60 150 220 310 380 350 250 450 110 175二、授课内容1.两个正态总体均值差的检验𝑋∼𝑁(1,𝜎2)𝑌∼𝑁(2,𝜎2,(1,2,⋯,𝑚(1,2,⋯,𝑛是分别

【问题导向】以电子元器件的寿命态总体参数的假设检验问题。上节主要讨论了单个正态总体的每个参数1 2的假设检验问题。基于X和Y的两个简单随机样本,且相互独立.记=1∑𝑚𝑋和=𝑚𝑖=1𝑖

同样的思维逻辑和步骤,本节将讨论如何检1∑𝑛

𝑌分别为两个简单随机样本的样本均值,𝑆2=1

∑𝑚

(𝑋−̄)2,𝑆2=𝑛𝑖=1𝑖

1 𝑚−1

𝑖=1 𝑖

2 验两个正态总体均值和方差的差异性,等价1∑𝑛

(𝑌−)2𝑛−1

𝑖=1𝑖

H0:12;H1:12H0:12;H1:12H0:12;H1:12

(3.3.1)(3.3.2)(3.3.3)

于两个正态变量均值差和方差比的假设检验。问题的关键依然是正确提出检验假设,选择恰当的检验统计量,然后根据检验统计量的概率分布求出原假设的拒绝域。下面各小(1)方差22已知

节分别讲述不同情况1 2的具体假设检验方法。检验12的关系等价于检验−𝜇20的关系,由两个正态总体的样本𝑋2𝑋𝑚和的独立性,易得−𝜇2的点估计−∼2 2𝑁(𝜇−𝜇,+𝜎。1 21 2𝑚 𝑛采用u检验方法,构造统计量

𝑋̄−𝑌̄𝑈=

【课程思政】变通、创新+√𝜎2 𝜎2+1 2𝑚 𝑛在𝜇1=𝜇2时,𝑈∼𝑁(0,1)。对于给定的显著性水平,由𝑃{|𝑈|≥𝑢𝛼}=𝛼查标2准正态分布的临界值表得到u2。检验的拒绝域取决于备择假设。

从参数估计到假设检..1W为WU

2

(3.3.4)..2W为WUu

(3.3.5)..3W为WUu1

(3.3.6)

从一般模型到具体的1 12 21X,YN,2,N,284h601295h1230h,能否认为在1 12 2

iH0:12;1:12(ii)选择统计量1295−1230|𝑈|=| |=3.94√842+96260 60(iii)对于给定的显著性水平𝛼=0.05,查附表得𝑢𝛼=1.96,而|𝑈|>𝑢𝛼,落入2 2拒绝域,故拒绝原假设H0,认为两厂生产的灯泡寿命有显著差异。【学生讨论】1 2(2)方差222,且1 2与前面类似,检验与的关系等价于检验与0的关系,由于2未1 2 1 2知,故两样本均值之差XY的概率分布无法求解,由于样本方差S2是总体方2 2差2的无偏估计,利用𝑆2=(𝑚−1)𝑆1+(𝑛−1)𝑆2代替𝜎2。𝑚+𝑛−2因此构造统计量

𝑋̄−𝑌̄𝑇= 𝑆√1+1𝑚 𝑛在12时,𝑇∼𝑡(𝑚+𝑛−2)。对于给定的显著性水平,由𝑃{|𝑇|>𝑡𝛼(𝑚+𝑛−2)}=𝛼查t分布的临界值表得到𝑡𝛼(𝑚+𝑛−2)。检验的拒绝域取决2 2于取决于备择假设。..1W为𝑊={|𝑇|≥𝑡𝛼(𝑚+𝑛−2)} (3.3.7)2..2W为𝑊={𝑇≥𝑡𝛼(𝑚+𝑛2)} (3.3.8)..3W为𝑊={𝑇≤𝑡𝛼(𝑚+𝑛2)} (3.3.9)2:原材料40 110 150 65 90 210 270新材料60 150 220 310 380 350 250 450 110 175(显著性水平0.1)?解:将原始数据取对数可得原材料 1.602 2.041 2.176 1.813 1.954 2.322 2.431新材料 1.778 2.176 2.342 2.491 2.580 2.544 2.398 2.653 2.0412.243

【引例回头看】由题设知m7,n10,0.1。则𝑥̄=2.0484,𝑦̄=2.3246,𝑆2=0.0835,𝑆2=0.0736𝑆2=由此便可计算出

11 2𝑚−1)𝑆2+(𝑛−11 2=𝑚+𝑛−2

20.501+0.6637+10−2

=0.0776−𝑦 2.0484−2.3246𝑡= = =−2.01𝑆√1+1

√0.0776√1+1𝑚 𝑛 7 10𝛼=0.𝑡(𝑚+𝑛−2)=.5(5)=173。2|𝑡|=2.01>2.两个正态总体方差比的检验𝑋∼𝑁(1,𝜎2)𝑌∼𝑁(2,𝜎2,(1,2,⋯,𝑚(1,2,⋯,𝑛是分别

【课程思政】1 2 𝑖=1𝑖X和Y的两个简单随机样本,且相互独立.记=1∑𝑚𝑋和=𝑖=1𝑖𝑚

差比”?注意在平时的学习和1∑𝑛

𝑌分别为两个简单随机样本的样本均值,𝑆2=1

∑𝑚

(𝑋

−̄)2,𝑆2=

研究中养成良好的思𝑛𝑖=1𝑖

1 𝑚−1

𝑖=1 𝑖

2维习惯,勤于思考。1∑𝑛

(𝑌−)2𝑛−1

𝑖=1𝑖0 1 21 1 2H:20 1 21 1 2

:22

(3.3.10)0 1 21 1 2H:20 1 21 1 2

:22

(3.3.11)0 1 2H:20 1 2

:221 1 1 1 2

(3.3.12)检验2与2的关系等价于检验1与1的关系,这里只讨论总体期望,1 2 2 1 22未知的情况。1,2已知的情况,感兴趣的读者可自行完成。由于样本方差S2是总体方差2的无偏估计,样本方差S2是总体方差21 1 2 2的无估计𝑆2= 1

∑𝑛1(𝑋

−̄)2𝑆2=1

∑𝑛2

(𝑌−检验统计量

1 𝑛1−1

𝑖=1 𝑖

𝐹=

2112𝑆22

𝑛2−1

𝑗=1𝑗0 1 0 1 2

:22成立条下,F Fmn1对于定显性水平,查F分布的临界值表得F2m1,n1。检验的拒绝域取决于取决于备择假设。..0,检验的拒绝域W为WF2mn1F2mn

(3.3.13)..1,检验的拒绝域W为WFm1,n

(3.3.14)..2,检验的拒绝域W为WFm1,n

(3.3.15)例3在例2中,问原材料与新材料的疲劳寿命的方差是否相等。0 10 1 2

:22,H

:22,1 1 1 1 2m7 n10 且 , ,S20.0835,S20.073667,F 11.1335S1 2 2S2取0.05,则0.025,查找F分布的临界值表得2F2m1,n1F0.025(6,9)4.321

n1,m1=F

(9,6)F12

m1,n1

2 0.025F mn1=F

(6,9)1

0.18122

5.52(6,9F(6,9.H0材料与新材料的疲劳寿命的方差相等。【推荐拓展】工程项目案例:三、小结:(1)两个正态总体参数的假设检验(2)模型及其应用四、作业:

【课程思政】工程背景的数据分析案例可增强学生专业引导学生将数理统计的理论与方法应用于解决工程数据分析问1(2)认真阅读“推荐阅读”公众号文章;(3)MATLAB一、问题的提出

3.4

注释及备注【课程思政】很多问题解决时候都引例(工程数据分析案例)(ka甲厂:2050 1980 1970 2040 2010 2000 1900 1990乙厂:2070 1980 1950 2080 2040 1960 2020试根据以上信息分析两种水泥的压力强度是否服从正态分布。二、授课内容(.Pao在90𝜒2检验法和lgoov1𝝌𝟐拟合检验(1)不含未知参数的总体分布的检验设X为总其布为F(x)且知(x)为一类型体的分函,X1,X2, ,Xn为来于体X的个本我要验假设𝐻0:𝐹(𝑥)=𝐹(𝑥)≠(3.4.1)其中设F0(x)不含未知参数。若总体X是离散型随机变量,则原假设𝐻0:𝑃{𝑋=𝑘}=𝑝𝑘,𝑘=1,2,⋯,其中PXk为随机变量X的分布律,pk为某一已知类型总体的分布律.X𝑓(𝑥)=𝑓(𝑥)X.

要假设数据服从正态假设的合理性如何保要的要给出科学的检验过程。思考和体会:数检验的最大区别是什么?𝜒2𝜒2拟合优度检验法就是设法确定一个能刻画观测数据,𝑋2,⋯,𝑋𝑛与理论分布0(x)拟合程度不高,应拒绝H0,否则接受H0。将随机试验的全体结果分为r个互斥的事件,, ,。在原假设H0成𝑃(𝐴𝑘)==1,2,n出现的频数nk称为实际频数nk实际频率pnk

n k n的,但如果原假设H0成立,且试验的次数又甚多时,这种差异不应太大,即(pnk)2不会太大。因此可利用(p)2或(np

n)2k n k n k k确定拒绝域。基于这种思想,皮尔逊于1900年提出了检验统计量𝜒=∑2 𝜒=∑𝑘=1

(𝑛𝑘−𝑛𝑝𝑘)2𝑛𝑝𝑘

(3.4.2)

【课程思政】其中:nk为实际频数;pk为理论概率;n为试验次数。her于24nH0

数学家与数学家精神𝑟𝜒2=∑𝑘=1

(𝑛𝑘−𝑛𝑝𝑘)2𝑛𝑝𝑘

∼𝜒2(𝑟−1)rXr1Xrnkkpkk。3.1,当样本容量n(..2𝛼𝑊={𝜒2>𝜒2(𝑟−1)} (3.4.3)𝛼其中为显著性水平。注意:在使用皮尔逊2检验法时,要求n50,以及每个理论频数5(kr2拟合检验的基本步骤如下:(i)提出原假设:𝐻0:𝐹(𝑥)=𝐹0(𝑥)其中设F0(x)不含未知参数。若总体X是离散型随机变量,则原假设𝐻0:𝑃{𝑋=𝑘𝑝𝑘𝑘1,2,PXkXpkXH0:f(xf0(x,𝑓(𝑥)Xf0(x)度函数。(ii)将总体X分为r组互不相交的小区间(一般7≤𝑟≤14:−∞,1,(1,2),⋯,(𝑟−1,+∞),使得每个区间k1,k内样本数据的个数kn5,kr。k计出样数落第k组个到际数nk,r。H0pk。𝑝𝑘=𝑃{𝑎𝑘−1<𝑋≤𝑎𝑘}=𝐹(𝑎𝑘)−𝐹(𝑎𝑘−1)𝛼𝛼(v)计算统计量的值。在给定显著性水平,由𝑃{𝜒2>𝜒2(𝑟−1)}=𝛼,通过查找𝜒2分布的临界值表得𝜒2(𝑟−1),判断其是否落入拒绝域𝑊={𝜒2>𝛼𝛼𝛼𝜒2(𝑟−1)}中,进而确定接受或者拒绝原假设。𝛼

注意表达方式先模型,后数据例1开奖机中有编号为1,2,3,4的四种奖球,在过去已经开出的100个号1,2,3,436272215(𝛼=0.05)?解:开奖机开出的号码可以看作一个总体,问题相当于要检验假设𝐻𝐻: 。𝜉∼𝑃(𝜉=𝑘)=,𝑘=1,2,3,40 4作分点0.5<1.5<2.5<3.5<4.5,把𝜉的取值范围分成下列4个区间(𝑘−0.5,𝑘+0.5],𝑘=1,2,3,4。𝐻0为真时,落在各区间中的概率为𝑝𝑘

=𝑃{𝑘−0.5<𝜉≤𝑘+0.5}=𝑃{𝜉=𝑘}=,𝑘=1,2,3,4。141

区间(0.5,1.5](1.5,2.5](2.5,3.5]区间(0.5,1.5](1.5,2.5](2.5,3.5](3.5,4.5]频数nk36272215频率pk14141414𝜒2=

𝑟1∑𝑛𝑘=1

2𝑘−𝑛=𝑘𝑝𝑘

1100

362×[ +1/4

272+1/4

222+1/4

1521/4

]−100=9.36𝛼 0.05对显性𝛼=0.05,查2分布,𝜒2(𝑟−1)=𝜒2 (3)=𝛼 0.05

注意:卡方检验为右侧检验。𝜒2𝜒2=9.36>7.815,拒𝐻: 。𝜉∼𝑃(𝜉=𝑘)=,𝑘=1,2,3,40 4所以,这台开奖机开出各种号码的概率并不相等。(2)含有未知参数的总体分布的检验m)设𝑋为一总体,其分布函数为𝐹(𝑥,𝜃1,𝜃2,⋯𝜃𝑚),且未知,F0(x,1,m)为某一已知类型总体的分布函数,X1,X2, ,Xn为来自于总体X的一个样本,们检假设𝐻0:𝐹(𝑥,𝜃1,𝜃2,⋯𝜃𝑚)=𝐹0(𝑥,𝜃1,𝜃2,⋯𝜃𝑚)𝐻1:𝐹(𝑥,𝜃1,𝜃2,⋯𝜃𝑚)≠𝐹0(𝑥,𝜃1,𝜃2,⋯𝜃𝑚)其中设𝐹0(𝑥)含有𝑚个未知参数𝜃1,𝜃2,⋯𝜃𝑚。此类情况可按如下步骤进行检验:1,2,⋯,𝑛1,2,⋯𝑚1,2,⋯𝑚。(ii)F(x,1,2,

m)中用ˆ代替𝜃𝑖(𝑖=1,2,⋯𝑟),则𝐹(𝑥,𝜃1,𝜃2,⋯𝜃𝑚)i𝐹(𝑥,1,2,⋯𝑚。iii计算pk𝐹(𝑥,1,2,⋯𝑚pk

含有未知参数的总体ˆk(k,,

分布的检验,首先要利用极大似然估计方法(iv)计算统计量

2𝑟2(𝑛𝑘−𝑛𝑝̂𝑘)

进行参数估计,对应的卡方分布自由度变小。𝜒2=∑𝑘=1

∼𝜒2(𝑟−𝑚−1)(v)对给定的显著性水平,得拒绝域𝛼𝑊={𝜒2>𝜒2(𝑟−𝑚−1)}𝛼例2为检验棉纱的拉力强度(单位:kg)𝑋是否服从正态分布,从一批棉纱中随机抽取300条进行拉力试验,结果如下:𝑖𝑥𝑓𝑖𝑖𝑥𝑓𝑖10.64181.625320.78291.762530.929101.901941.0625112.041651.2037122.18361.3453132.38171.48560问:纱拉强𝑋是在显性𝛼=0.05下服正分布?解:述题检假设H:X N(,2)。步如:0(i)将观测值xi分成13组:(𝑎0,𝑎1],(𝑎1,𝑎2],⋯,(𝑎11,𝑎12],(𝑎12,𝑎13]。这里𝑎0=−∞=0.64,𝑎2=0.78=2.18=+∞。但是这样分组后,前两组和最后两组的nˆ。(ii)计算理论频数nk。这里𝐹(𝑥)是正态分布𝑁(𝜇,𝜎2)的分布函数,含有两𝑖=1 𝑖个未知数𝜇和𝜎2,分别用他们的最大似然估计̂=̄,̂2=1𝑛(𝑋−̄)𝑖=1 𝑖𝑛𝑋𝑖都̄̂=141,̂2=0262。(iii)计算𝑥1,𝑥2,⋯𝑥300中落在每个区间的实际频数nk,如下分组表:

思辨思维:数据=模型+误差现实的角度看合理解𝑋𝑛𝑘𝑝̂𝑘𝑛𝑝̂𝑘𝑛𝑘−𝑛𝑝̂𝑘00.500.00120.00000.00000.50.6410.00380.00380.99620.640.7820.01270.02531.97470.780.9230.03350.10052.89950.780.9290.07130.64138.35870.921.06250.12203.049121.95091.061.20370.16796.214130.78591.201.34530.18619.861043.13901.341.48560.16589.286146.71391.481.62530.11896.301546.69851.621.76250.06861.714523.28551.761.90190.03180.604618.39541.902.04160.01190.190015.81002.042.1830.00410.01232.98772.182.3810.00050.00050.9995𝑛𝑘−̂𝑘2(iv)计算统量𝜒2=∑𝑟 =90.6523,又𝑟=10,𝑚=2,故自𝑘=1 𝑛̂𝑘由度10−2−1=表得𝜒2 (7)=18.48<故绝假设即0.01认为棉纱拉力强渡不服从正态分布。2017389设检验.【课程思政】引导学生思考,从数据到模型,从模型到结果,从结果到结论,体现了一种科学思维方法和解决问题的范式。鼓励学生在自己专业领域进行努力探索。三、小结:(1)分布拟合的假设检验(2)模型及其应用四、作业:1(2)MATLAB教案首页教学单元第4章学时10教学题目回归分析与方差分析教学环境设计与组织安排课堂教学主要以板书为主,多媒体课件为辅教学目标及达成度价值塑造通过相关领域的中国数学家与数学家精神的介绍,培养学生的科学精神;通过工程项目数据分析教学案例的实施培养学生的专业归属感和对本课程学习兴趣;通过回归分析结果的检验(拟合优度、回归方程检验、回归系数检验)使学生体会严谨认真的科学态度和科学思维方式。知识传授通过本章的教学使学生能够对双变量或多变量进行方差分析性检验;掌握回归模型的评价、控制与预测。能力培养通过本章的学习,培养学生根据样本数据使用回归分析和方差分析模型与方法进行工程数据分析的能力,尤其是使用回归分析研究工程技术问题中关于变量原理之间相关关系的能下基础。教学重点难点重点:假设检验的基本概念、正态总体均值及均值之差的假设检验、总体方差及总体方差之比的假设检验、分布拟合检验.难点:假设检验的基本概念的理解,正态总体总体方差比的假设检验、分布拟合检验.教学方法手段媒介理论讲授+板书+多媒体+启发诱导+问题驱动+课后实验教学模式模式:线上+线下混合式平台:学堂云平台工具:雨课堂、MATLAB软件教学设计【课程进程安排】【课前准备】通过学堂云平台进行“预习指导”和“课前测试”。了解学情有助于增进要求学生进行独立完学堂云在线答题一、问题的提出

第四章 方差分析与回归分析§4.1假设检验的原理与步骤

【设计意图】往会遇到产品质量合【问题导向】雨课堂课前发布问题,课前发布,课后作答,线上提交。二、授课内容§.1方差分析表1铝合金板的厚度机器I机器II机器III0.2360.2570.2580.2380.2530.2640.2480.2550.2590.2450.2540.2670.2430.2610.262

需要使用一些统计推断方法,利用样本数据对产品质量进行检验。此类问题属于方差分析的范畴,本次课主要介绍方差分析的方法与过程。【引导学生思考】如果不是所有的因素著?哪些因素的作用复杂的形式交错在一起的?定义1检验多个总体均值是否相等(通常通过分析数据的误差判断各总体均值是否相等)的统计方法,称为方差分析。定义2在差析所检验对称因素因子𝐴𝐵𝐶表示。定义3因子A的同态水平𝐴1、𝐴2、 、𝐴𝑟表。定义4在一项试验的过程中,只有一个因素水平在改变的试验称为单因素试验。处理单因素试验的统计推断方法称为单因素方差分析。定义5有多个因素水平在改变的试验称为多因素试验,相应的统计推断方法称为多因素方差分析。例如,在例1中,试验的指标是薄板的厚度,机器为因素,不同的三台机器就是这个因素的三个不同的水平。显然该例子中除机器这一因素外,其他条件都相同,这是单因素试验。单因素试验方差分析的数学模型下面给出单因素试验方差分析的一般模型。设因素𝐴有𝑟个水平,记为𝐴1,𝐴2,⋯,𝐴𝑟,在水平𝐴𝑖(𝑖=1,2,⋯,𝑟)下考察的指标看成一个总体,故有𝑟个总体,假设:𝑖(1)每一个总体均为正态总体,记为𝑁(𝜇𝑖,𝜎2)(𝑖=1,2,⋯,𝑟);𝑖(2)各总体的方差相同,记为𝜎2=𝜎2=⋯=𝜎2=𝜎2;

【注意】方差分析方法使用的背景和问题形式。【学生讨论】引例中的什么指标对这是两个基本的问题,对于学生理解和使用方差分析有着重要作用。1 2 𝑟Xij都相方差分析的任务是检验因素的水平变化对响应变量平均值是否有显著影响,即要对如下假设进行检验𝐻0:𝜇1=𝜇2=⋯=𝜇𝑟备择假设为𝐻1:𝜇1,𝜇2,⋯,𝜇𝑟不全相等若𝐴的𝑟𝐴𝑟A𝐴的𝑟𝐴𝑟𝐴显著通过样本观测值之间的差异体现。设第i个水平下,第𝑗次试验结果为𝑥𝑖𝑗,总体获得𝑛𝑖个试验结果𝑥𝑖1,𝑥𝑖2,⋯,𝑥𝑖𝑛𝑖,其中𝑖=1,2,⋯,𝑟,𝑗=1,2,⋯𝑛𝑖。故总试验次数为𝑛=𝑛1+𝑛2+⋯+𝑛𝑟。在水平𝐴𝑖下的试验结果𝑥𝑖𝑗与该水平下的指标均值𝜇𝑖一般总是存在差距的,该差距主要来源于随机误差𝜀𝑖𝑗和可能存在的𝜇𝑖之间的差异。于是有ij(𝑖=1,2,⋯,𝑟;𝑗=1,2,𝑛𝑖) (1)式(1)数据结构式因子方差分析的统计模型:𝑥𝑖𝑗=𝜇𝑖+𝜀𝑖𝑗,(𝑖=1,2,⋯,𝑟,𝑗=1,2,⋯𝑛𝑖)

知识运用能力的训练:从一般模型到具体的使用,如何确定每一个参数,如何对标模型的每一个步骤?𝜀{𝜀𝑖𝑗

∼𝑖𝑖𝑑 𝑁(0,𝜎2) (2)为了更好地描述数据,需引入如下式子:𝜇=1∑𝑟

𝑛𝜇𝑛𝑖=1和

𝑖𝑖=𝜇𝑖−𝜇,(𝑖=1,2,𝑟) (4)式(3)𝜇𝑖总均值。式(4)为第i个水平均值𝜇𝑖与总均值的差,称为因素A的第i个水平的主效应。故应。故∑𝑖=1

𝑛𝑖𝛿𝑖=0且𝜇𝑖=𝜇+𝛿𝑖,(𝑖=1,2,⋯,𝑟),这表明第i个水平均值是由总均值与该水平的效应叠加而成的,从而(2)可以改写为𝑥𝑖𝑗=𝜇+𝛿𝑖+𝜀𝑖𝑗,(𝑖=1,2,⋯,𝑟,𝑗=1,2,⋯𝑛𝑖)∑{𝑟∑{𝑖=1

𝑛𝑖𝛿𝑖=0,

(5)检验假设问题等价于

𝜀𝑖𝑗∼𝑁(0,𝜎2)备择假设

𝐻0:𝛿1=𝛿2=⋯=𝛿𝑟=0,𝐻1:至少有一个i不为零统计分析方差分析时,需要分析数据之间差异的来源。首先,因素在同一水平下,样本各观察值之间的差异,这种差异可以看成是随机因素的影响造成的,或是由抽样的随机性所造成的,称为随机误差。其次,因素的不同水平之间观察值存在的差异,这种差异可能是由于抽样的随机性所造成的,也可能是由于试验本身所造成的,称为系统误差。将引起误差的两个原因用另外两个量表示出来,即为方差分析中常用的平方和分解法。离差平方和分解样本观测值之间的差异的大小可以通过总偏差平方和表示,记为𝑆𝑆𝑇𝑟 𝑛𝑖2𝑆𝑆𝑇=∑∑(𝑥𝑖𝑗−𝑥̄)𝑖=1𝑗=1其中𝑟 𝑛𝑖 𝑟1 1= ∑∑𝑥𝑖𝑗= ∑𝑛𝑖𝑥̄𝑖𝑛 𝑛

【引导学生思考】(1)三者之间的关系体现了什么?(2)平方和的分解如何推导?𝑖=1𝑗=1 𝑖=1由随机误差引起的数据间的差异用组内偏差平方和表示,记为𝑆𝑆𝐸,𝑟𝑛𝑖2𝑥

=1∑𝑛𝑖

𝑥。

𝑆𝑆𝐸=∑∑(𝑥𝑖𝑗−𝑥̄𝑖⋅)𝑖=1𝑗=1𝑖 𝑛𝑖𝑗=1

𝑖𝑗由于组间差异除了随机误差外,还反映了效应间的差异,因此由效应不同引起的数据差异可用组间偏差平方和表示,记为𝑆𝑆𝐴,𝑟𝑆𝑆𝐴=∑𝑛𝑖(𝑥̄𝑖⋅−𝑥̄)2𝑖=1定理1(平方和分解定理)在一个因素方差分析模型中,平方和有如下恒等式:𝑺𝑺𝑻=𝑺𝑺𝑨+𝑺𝑺𝑬偏差平方和的大小与自由度有关,一般来说,数据越多,其偏差平方和越大。因此要对组间偏差平方和𝑆𝑆𝐴与组内偏差平方和𝑆𝑆𝐸之间进行比较,必须考虑自由度的影响。故采用𝑆𝑆𝐴𝐹=(𝑟−1)𝑆𝑆𝐸(𝑛−𝑟)作为的统量为出拒域引如定:定理2 在单因方析模中(1)𝑆𝑆𝐸∼𝜒2(𝑛−𝑟);𝜎2(2)当𝐻成立时,𝑆𝑆𝐴∼𝜒2(𝑟−1),且𝑆𝑆𝐸与𝑆𝑆𝐴相互独立。

观察和思考:检验统计量的选择应注意什么问题?为何选择F统计量?0 𝜎22F𝑟−1和𝑛−𝑟F分𝛼𝑆𝑆𝐴𝑃{(𝑟−1)<𝐹}=1−𝛼,即𝑃{𝐹≥𝐹}=𝛼.𝑆𝑆𝐸 𝛼 𝛼(𝑛−𝑟)𝐹𝐹<𝐹≥微,只能认为影响不显著。通常将上述计算过程列成一张表格,称为方差分析表:方差来源平方和自由度均方差𝐹值因子A(组间)𝑟𝑆𝑆𝐴=∑𝑛𝑖(𝑥̄𝑖−𝑥̄)2𝑖=1𝑟−1𝑆𝑆𝐴(𝑟−1)𝑆𝑆𝐴(𝑟−1)𝐹=𝑆𝑆𝐸(𝑛−𝑟)误差(组内)𝑟𝑛𝑖2𝑆𝑆𝐸=∑∑(𝑥𝑖𝑗−𝑥̄𝑖)𝑖=1𝑗=1𝑛−𝑟𝑆𝑆𝐸(𝑛−𝑟)总和𝑺𝑺𝑻=𝑺𝑺𝑨+𝑺𝑺𝑬𝑛−1实际计算时,可通过下列公式计算𝑛𝑖

𝑟 𝑛𝑖𝑇𝑖⋅=∑𝑥𝑖𝑗,𝑇=∑∑𝑥𝑖𝑗,𝒓𝒏𝒊

𝑗=1

𝑖=1𝑗=1𝑺𝑺𝑻=∑∑𝒙𝟐−𝒊=𝟏𝒋=𝟏

𝑻𝟐𝒏

,𝑆𝑆𝐴=∑𝑖=1

2𝑖⋅−𝑛𝑖

𝑇2𝑛

,𝑆𝑆𝐸=𝑆𝑆𝑇−𝑆𝑆𝐴注意:根据需要,可以对数据𝑋𝑖𝑗作线性变换,令𝑌𝑖𝑗=𝑏(𝑋𝑖𝑗−𝑎),其中𝑎,𝑏为适当的常数且𝑏≠0,使得𝑌𝑖𝑗变得简单。易证利用𝑌𝑖𝑗进行方差分析与利用𝑋𝑖𝑗进行方差分析所得结果相同。例2 设在例5.1.1中方差析型条,验假(著水平𝛼=00𝐻0:𝜇1=𝜇2=𝜇3,𝐻1:𝜇1,𝜇2,𝜇3不全相等。例3 某种号油原喉结油较,节约源设了种改进案降油指—比耗现用种构的管造化器分别测得如下表所示:方案比油耗1原结构231.0232.8227.6228.3224.7225.5229.3230.3𝐴2:改进方案I222.8224.5218.5220.2𝐴3:改进方案II224.3226.1221.4223.6试问:在显著性水平𝛼=0.01下进行方差分析,判断喉管的结构对比油耗的影响是否有显著差异。【推荐阅读】公众号文章:作为一名质量工程师,必须掌握的数据分析:方差分析。三、小结:方差分析的原理与步骤。四、作业:1(2)认真阅读“拓展阅读”公众号文章;(3)MATLAB一、问题的提出

§4.2一元线性回归

【课程思政】告诉学生解决问题时,要有合理的方法和科2023年第25卷第4期(北大核心、CSCD)“偏心钢梁-钢管混凝土柱内加强环式节点受力性能分析”节选其中的回归分析内容作为本次课课前的阅读内容。二、授课内容1.一元线性回归的数学模型𝑦和𝑥𝑦𝑥=+表示直线在𝑦表示直线的斜率,或𝑥1𝑦1

学的依据。用科研论文的阅读和实现,训练学生科研意识和发现问题的能力。知识背景:家兼统计学家高尔顿研究父亲身高与成年儿子的身高发现:子代的平均高度有向一段时间内人的身高析的思想渗透到了各个领域中。图1直线关系示意图当散点图中的点不完全位于一条线上时,如图1所示,此时必须将统计思想引入变量间关系的研究中。【学生讨论】组织学生讨论:在散点图中可发现什么,有设么信息?【概念提出】回归和以往学习的数学模型有所不同,主要体现在:确定性关系(𝑥𝑦非确定性关系,,基于以上观点,假设因变量𝑦是一个与自变量𝑥相关的随机变量,建立如式(1)所示的线性回归模型,作为变量之间关系的一种尝试性表示。𝑦=++𝜀 (1)其中,随机扰动项𝜀~𝑁(0,𝜎2)。称式(1)表示的回归模型为总体回归模型。对于自变量𝑥和因变量𝑦的容量为𝑛的观测值𝑥1,𝑥2,⋯,𝑥𝑛和𝑦1,𝑦2,⋯,𝑦𝑛,有=++𝜀𝑖,𝑖=1,2,𝑛 (2)其中,𝜀𝑖𝑖=1,2,𝑁(0,𝜎2)样本回归模型体回归模型和样本回归模型不做区别。【注意】在此告诉学生总体回归方程和样本回归方程的本质上无区别,因此,我们也会看到在科研论文中一般不区分总体回归方程和样本回归方程。yyx1𝐸(𝑦|𝑥)=0+1𝑥,𝐷(𝑦|𝑥)=𝜎2加之𝜀~𝑁(0,𝜎2),所以在给定x的条件下,𝑦的条件分布为𝑁(𝛽0+𝛽1𝑥,𝜎2)。

【学生讨论】该问题如何思考和解决?引导学生充分讨论。【课程思政】残差的正态性是一个满足则不能使用该方总体回归方程和样本回归方程有何区别?图2因变量关于自变量的条件分布如图2显示因变量𝑦在输入不同变量x的条件概率密度函数图像。最小二乘法𝑥1𝑥2𝑥𝑛和𝑦2𝑛(𝑥𝑖𝑦𝑖),𝑖=1,2,𝑛和𝑦关于𝑥的一条最佳直线的拟合。而最小二乘法是拟合最佳直线的一种简单而且有效的方法,下面介绍基于一元线性回归模型的最小二乘法。𝑦=+𝛽1𝑥3xi处,𝑦的预测值为+𝛽1𝑥𝑖yyi−𝛽0−𝛽1𝑥𝑖,也就是图3上点(0,𝑦𝑖)到直线𝑦=𝛽0+𝛽1𝑥的竖直距离。图3散点图与拟合直线示意图为了一分数与合直的系0和1分01的估,则拟直的程̂=0+11, (3)考虑𝑛个的异,给任意点拟直的直距,

【课程思政】中国统计学的代表人物:许宝騄新中国成立后,许宝騄等统计学领域内的顶级科学家毅然放弃在国外的优厚待遇,将祖国的发展和兴旺作为毕生目标与使命,在国内建立统计学生组织,培养统计学科学人才,对中国统计学不遗余力地进行探索和推广。这些先进事迹可以让同学们感受到老一辈科学家对祖国的浓厚感情和对新中国建设的责任感,从而引导同学们将科技兴国作为己任,培养学生的爱国情怀,增强学生的民族使命感与责任感。𝜀𝑖

=𝑖−𝑖=𝑖−0−1𝑖 (4)式(4)(𝑥𝑖,𝑦𝑖)0和1𝑛 𝑛𝑖𝑄(𝛽0,𝛽1)=∑𝜀̂2=∑(𝑦𝑖−𝛽0−𝛽1𝑥𝑖)2𝑖𝑖=1 𝑖=10和10和1𝑄(0,1𝑄(0,1)=𝑖𝑛𝑄(0,1)𝛽0,𝛽1若将残差平方和Q(001Q(001

【学生思考】最小二乘法能够改变𝑛𝜕𝑄(𝛽0,=−2∑(𝑦

−𝛽

−𝛽𝑥)=0

𝜕𝛽0𝜕𝑄(𝛽0,

𝑖𝑖=1𝑛

0 1𝑖

什么需要残差平方和最小?{

=−2∑𝑥𝑖(𝑦𝑖−−𝛽1𝑥𝑖)=0𝑖=1

(5)并进一步化简得到𝑛 𝑛𝑛𝛽0+(∑𝑥𝑖)𝛽1=∑𝑦𝑖𝑖=1𝑛

𝑖=1𝑛 𝑛𝑖(∑𝑥𝑖)+(∑𝑥2)=∑𝑥𝑖𝑦𝑖𝑖{𝑖=1

𝑖=1

𝑖=1该方组为规程。假设,x2, ,xn不相,正方程的数行列式不为零,故方程组有唯一解,进而解得0和1的最小二乘估计为𝑛1(𝑥𝑖−−1={

𝑖=∑𝑛(𝑥𝑖−𝑥̄)2为了计算方便,可简写为

𝑖=10=̄−1̄1{

=𝑆𝑥𝑦

, (6)其中,

0=̄−1̄𝑛 𝑛1 1𝑥̄=𝑛∑𝑥𝑖,𝑦̄=𝑛∑𝑦𝑖𝑖=1 𝑖=1𝑛𝑆 2

𝑛 𝑛 22 1𝑥𝑥=∑(𝑥𝑖−𝑖=1

=∑𝑥𝑖𝑖=1

− (∑𝑥)𝑛𝑖=1𝑆𝑥𝑦=∑𝑛(𝑥𝑖−𝑥̄)(𝑦𝑖−𝑦̄)=∑𝑛(𝑥𝑖−𝑥̄)𝑦𝑖。𝑖=1 𝑖=1将式)(3̂=0+1𝑥,也称𝑦关𝑥的验归程,图称回直。例2 利用例1中数计算验归程。解利用表1中数据计算得到𝑛 𝑛1 1𝑥̄=𝑛∑𝑥𝑖=0.2288,𝑦̄=𝑛∑𝑦𝑖=0.0545𝑖=1 𝑖=1𝑛𝑆 2

𝑛 𝑛 22 1𝑥𝑥=∑(𝑥𝑖−𝑖=1

=∑𝑥𝑖𝑖=1

− (∑𝑥)𝑛𝑖=1

=0.0057𝑛 𝑛𝑆𝑥𝑦=∑(𝑥𝑖−𝑥̄)(𝑦𝑖−𝑦̄)==∑(𝑥𝑖−𝑥̄)𝑦𝑖=7.35×10−4𝑖=1因此

𝛽̂

𝑖=1𝑆𝑥𝑦= =0.1285{1 故,经验回归方程为

0=̄−1̄=0049𝑦̂=0.0249+0.1285𝑥

根据引理的数据计算回归方程,让学生感受使用最小二乘法确定并根据数据计算得到预测值及残差,如表2所示。变量 变量 𝑥 𝑦 𝜀𝑖0.17500.04800.04740.00060.22000.05250.0532-07数值0.22500.05400.05390.00010.22600.05350.0540-050.25000.05700.0571-010.27650.06100.06050.0005合计1.370.3260.3260

生对回归分析有一个初步的认识。𝑖=1【学生讨论】表中结果:∑𝑛𝑖=1

=0,且∑𝑛

𝑦𝑖=∑𝑛

𝑖𝑖=1𝑖=1𝑖=1𝑖=1最小二乘估计的性质(1)线性性质根据式(6)有

1=

𝑛(𝑥𝑖−∑𝑛(𝑥𝑖−𝑥̄)20{

𝑖=1𝑛1=𝑛∑𝑖=1

−1

𝑛1𝑛∑𝑥𝑖𝑖=1𝑖0和1均是随机变量yi0和1

无偏性是描述最小二乘估计的结果与其真实的接近程度,也是对参数估计结果的评价。(2)无偏性00

1和ˆ无偏性,由于1𝐸(𝑦𝑖)=𝐸(𝑦|𝑥=𝑥𝑖)=𝛽0+𝛽1𝑥𝑖,再根据式(7)可得𝐸(1)=

𝑛(𝑥𝑖−𝑥̄)𝐸(𝑦𝑖)=

𝑛(𝑥𝑖−+𝛽1𝑥𝑖)

=

𝑛(𝑥𝑖−

=𝛽1∑𝑛(𝑥𝑖−𝑥̄)2

∑𝑛(𝑥𝑖−𝑥̄)2

∑𝑛(𝑥𝑖−𝑥̄)2𝑖=1𝑛

𝑖=1𝑛 𝑛

𝑖=1𝑛𝐸(̂𝐸(̂)= ̂∑𝐸(𝑦)−𝐸(𝛽)∑𝑥

1= ∑(𝛽

+𝛽𝑥)−𝛽

1∑𝑥

=𝛽0 𝑛

𝑖𝑖=1

1𝑛

𝑖𝑖=1

𝑛 0𝑖=1

1𝑖

1𝑛

𝑖 0𝑖=1010和1𝐸(̂)=𝐸(0+1𝑖)=0+1𝑖=𝐸(𝑖)这说明预测值𝑦̂是𝐸(𝑦𝑖)的无偏估计。(3)残差的分解记总离差平方和为𝑆𝑆𝑇=𝑆𝑦𝑦=∑𝑛(𝑦𝑖−𝑦̄)2,𝑖=1表示因变量的观测值yi相对于其均值y的偏离程度。𝑛 𝑛𝑆𝑆𝑇=(𝑖−̄)2=[(𝑖−𝑖)+(𝑖−̄)]2𝑖=1 𝑖=1𝑛 𝑛 𝑛=(𝑖−𝑖)2+(𝑖−̄)2+2(𝑖−𝑖)𝑖−̄)𝑖=1

𝑖=1

𝑖=10和1𝑛(𝑖−𝑖)(𝑖−̄)=0𝑖=1所以𝑛 𝑛𝑆𝑆𝑇=(𝑖−𝑖)2+(𝑖−̄2𝑖=1 𝑖=1拟合优度分析。如图所示,在每个观测点处有𝑖−̄=(𝑖−̂)+(̂−̄) (4..)(4.2.1)(4.1.8)

拟合优度的意义:从图可以直观地看到,拟合优度的大小取决于回归平方和SSR在总体平方和中占的比例,比例越大说明拟合效果越好。为𝑆𝑆𝑅

𝑛

(𝑖−̄)2𝑅2=

𝑆𝑆𝑇

= 𝑖=1 ∑𝑛(𝑦𝑖−𝑦̄)2也可写作

𝑆𝑆𝐸

𝑖=1𝑛

(𝑖−𝑖)2𝑅2=1−

𝑆𝑆𝑇

=1−

𝑖=1 ∑𝑛(𝑦𝑖−𝑦̄)2𝑖=1显然,判定系数𝑅2的取值范围为[0,1],𝑅2越接近1拟合效果越好;反之,𝑅20𝑅2𝑟𝑅2=𝑟2。标准误差的估计𝜎2𝑆𝑆𝐸𝑛−22和𝜎2̂2=𝑆𝑆𝐸𝑛−2因此,标准误差𝜎的估计量为

=√

𝑆𝑆𝐸

标准误差的估计:𝑛−2例3 计算例2的方和残平和回平方,定数相关系的方标误的估值。解 总平方和为

残差的性质残差平方和为

𝑛𝑆𝑆𝑇=𝑆𝑦𝑦=∑(𝑦𝑖−𝑦̄)2=9.5833×10−5𝑖=1回归平方和为

𝑛𝑆𝑆𝐸=(𝑖−𝑖)2=1.38×10−6𝑖=1判定系数为相关系数的平方为标准误差的估计值为

𝑛𝑆𝑅=(𝑖−̄)2=9.44×1−5𝑖=1𝑅2=𝑆𝑆𝑅=0.9857𝑆𝑆𝑇𝑟2=𝑆𝑆𝑅=0.9857𝑆𝑆𝑇𝜎̂=√

𝑆𝑆𝐸

=5.8520×10−4𝑛−2显著性检验(1)回归方程的检验回归方程的检验是检验因变量和自变量之间的线性关系是否显著,换句话说就是检验因变量𝑦和自变量𝑥之间的关系是否可以用回归方程来表示,又称为FF1𝐻0:𝛽1=0;𝐻0:𝛽1≠0第2步:构造检验统计量𝑆𝑆𝑅𝐹= 1 ∼𝐹(1,𝑛−𝑆𝑆𝐸(𝑛−2)第3步:得到检验结论𝛼时,临界值为𝑛−2),拒绝域为𝑛−2∞)。根据假设检验原𝐹𝐹>𝑛−2)𝑦𝑥(2)回归系数的检验回归系数的检验是根据回归系数的抽样分布检验回归系数显著性的方法,又称为t检验。下面给出t检验的步骤。第1步:建立统计假设𝐻0:𝛽1=0;𝐻1:𝛽1≠0。第2步:构造检验统计量

【课程思政】计算结果要经过显著以及自变量x对因变量y严格按照检验方法执1𝑇=𝜎̂∼𝑡(𝑛−2)√𝑆𝑥𝑥̂4223该问题为双侧检验,当给定显著性水平为𝛼时,临界值为𝑡𝛼(𝑛−2),拒绝域2为−𝛼𝑛−2),𝑡𝛼𝑛−2)𝑇满足|𝑇|>𝑡𝑛−2)2 2 2时,拒绝原假设,认为自变量𝑥对因变量𝑦具有显著的影响,反之则反。例4 在显性平为0.05用例4.2.1中关结别验归方程回系的著。解 (1)F第1步:建立统计假设𝐻0:𝛽1=0;𝐻0:𝛽1≠0。𝑆𝑆𝑅第2步:构造检验统计量𝐹=1∼𝐹(1,4)433=275.8412>7.7086=𝐹0.05(1,4),因此拒绝𝐻0,认为回归方程是显著的。(2)t检验1=≠0。第2𝑇=̂1∼𝑡(4)√𝑆𝑥𝑥33𝑇=16.6085>2.7764=𝑡0.025(4),因此拒绝𝐻0,认为自变量𝑥对因变量𝑦具有显著的影响。【视频推荐】视频:许宝騄一个把生命托付给数学王国的数学家\h/video/BV1N5411o7ce/【推荐阅读】三、小结:(1)一元线性回归分析的数学模型(2)最下二乘法的原理及结果四、作业:1(2)认真阅读“推荐阅读”科研论文,启发学生的科研思路;(3)MATLAB

【课程思政】用爱国数学家许宝騄的数学家精神感染学生,培养爱国情怀。中假设检验方法和模型在工程管理方面的一、问题的提出

§4.3

【问题导向】水泥在凝固时所释放的热量与水泥中的下列4中化学成分的关引例:多个变量之间线性关系的研究。二、授课内容1多元线性回归的参数估计设随机变量𝑦与自变量有𝑘(𝑘>1)个自变量𝑥1,𝑥2,⋯,𝑥𝑘的线性回归模型为𝑦=+++⋯+𝛽𝑘𝑥𝑘𝜀 (4.1)𝛽𝑘𝜀~𝑁(0𝜎2)。设(𝑥𝑖1,𝑥𝑖2,⋯,𝑥𝑖𝑘,𝑦𝑖),𝑖=1,2,⋯,𝑛为样本观测值,同一元线性回归模型参数估计方法一样,采用最小二乘法估计回归系数𝛽0,𝛽1,⋯,𝛽𝑘,即通过误差平方和𝑛 𝑛

系问题。响因变量的因素往往变量与多个自变量的线性回归模型就是多多元线性回归的参数等内容。𝑖𝑄(𝛽0,𝛽1,⋯,𝛽𝑘)=∑𝜀2=∑[𝑦𝑖−(𝛽0+𝛽1𝑥𝑖1+𝛽2𝑥𝑖2+⋯+𝛽𝑘𝑥𝑖𝑘)]2𝑖𝑖=1 𝑖=1的最小值得到对应的参数估计结果。采用多元函数求极值的方法,对𝑄(𝛽0,𝛽1,⋯,𝛽𝑘)分别关于𝛽0,𝛽1,⋯,𝛽𝑘求一阶偏导数并令其为零,得到方程组𝑛𝜕𝑄(𝛽0,⋯,𝛽𝑘)=−2∑(𝑦

−𝛽

−𝛽𝑥

−𝛽𝑥

−⋯−𝛽𝑥

)=0𝜕𝛽0

𝑖𝑖=1𝑛

0 1𝑖1

2𝑖2

𝑝𝑖𝑘𝜕𝑄(𝛽0,⋯,𝛽𝑘)𝜕𝛽

=−2∑𝑥𝑖1(𝑦𝑖−−−−⋯−𝛽𝑝𝑥𝑖𝑘)=01 𝑖=1⋮𝜕𝑄(𝛽,𝛽,⋯,𝛽) 𝑛01 𝑘

=−2∑𝑥(𝑦

−𝛽−𝛽𝑥

−𝛽𝑥

+⋯−𝛽𝑥

)=0{

𝑖𝑘 𝑖=1

0 1𝑖1

2𝑖2

𝑝𝑖𝑘经过进一步化简得到正规方程组𝑛 𝑛 𝑛 𝑛+∑𝑥𝑖1+∑𝑥𝑖2+⋯+∑𝑥𝑖𝑘=∑

【课程思政】𝑖=1𝑛

𝑖=1𝑛 𝑛2

𝑖=1

𝑖=1𝑛 𝑛

变通、创新从多元线性回归到一𝛽0∑𝑥𝑖1+𝛽1∑𝑥𝑖1+𝛽2∑𝑥𝑖1𝑥𝑖2+⋯+𝛽𝑘∑𝑥𝑖1𝑥𝑖𝑘=∑𝑥𝑖1𝑦𝑖𝑖=1⋮𝑛

𝑖=1𝑛

𝑖=1𝑛

𝑖=1𝑛

𝑖=1𝑛

元线性回归;从一维问题到多维问题。𝑖𝑘∑𝑥𝑖𝑘+∑𝑥𝑖𝑘𝑥𝑖1+∑𝑥𝑖𝑘𝑥𝑖2+⋯+∑𝑥2𝑖𝑘

=∑𝑥𝑖𝑘𝑦𝑖

变得是什么,不变的是{ 𝑖=1

𝑖=1

𝑖=1

𝑖=1

𝑖=1

(4.3)

什么?是否可以类比?解式.)0,1,⋯,𝑘0,1,⋯,𝑘̂=0+11+22+⋯+𝑘𝑘。 (4.)为方便起见,可以将多元线性回归模型表示为矩阵形式,令1 ⋯

𝑦1

1𝑿=

1 𝑥21 𝑥22 ⋯ 𝑥2𝑘),𝒀=

𝑦 2),̂ 2𝒀=2),̂ 2(⋮ ⋮ ⋮ ⋮1 𝑥𝑛1 𝑥𝑛2 ⋯ 𝛽0

0

(⋮𝑦𝑛

⋮𝑛𝜺=( )𝑩=(1,̂=1𝜺=( )式(4.1)可变为

⋮𝛽𝑘

⋮𝑘)

⋮𝜀𝑛𝒀=𝑿𝑩+𝜺,𝜺~𝑁(𝟎,𝜎2𝑰𝑛)式(4.3)表示的正规方程组可变为𝑿𝑇𝑿𝑩=𝑿𝑇𝒀XTX可逆,记(XTc

)C,则参数向量B的最小二乘估计为=𝑪𝑿𝑇𝒀 (4.6)那么,式(4.3)表示的回归方程可变为̂=𝑿̂ (47)下面加明给多线性归小乘计性质。性质1 的机量𝒀的个线变。性质2 ̂的无估即𝐸(̂)=。性质3 𝑟(̂)=𝜎2。性质4 𝐶𝑜𝑣(̂,)=0。性质5 𝒀~𝑁(𝑿,𝜎2𝐼̂𝑁(,𝜎2,𝑆𝑆𝐸~𝜒2(𝑛−𝑘−1。𝑛 𝜎2矩阵形式不仅简洁方便,而且为多元线性回归的显著性检验和软件实现打下了基础。2.拟合优度与显著性检验(1)拟合优度n和自变量个数k

【注意】对于回归模型来说要对结果进行严格的检验。拟合优度的检验不能再按照一元线性回归的计算方法来计算,是由于自变量个数的变化引起的变化。称之为调整的判定系数,计算公式为𝑅2=1− 𝑛−1

(1−𝑅2)𝑎 𝑛−𝑘−1其中,𝑅2表示4.2节介绍的判定系数,在多元线性回归中称之为多重判定系数。(2)标准误差的估计多元线性回归的残差的方差𝜎2的估计值通过𝑆𝑆𝐸除以𝑛−𝑘−1得到,减少𝑘+1𝑘+1𝑝+1𝜎2的估计量为因此,标准误差的估计量为

̂2= 𝑆𝑆𝐸𝑛−𝑘−1𝜎̂=√

𝑆𝑆𝐸𝑛−𝑘−1(3)回归方程的检验F第1步:建立统计假设𝐻0:𝛽1=𝛽2=⋯=𝛽𝑘=0;𝐻1:𝛽1,𝛽2,⋯,𝛽𝑘不全为0。第2步:构造检验统计量𝑆𝑆𝑅𝐹= 𝑘 ∼𝐹(𝑘𝑛𝑘−1)。(𝑛−𝑘−1)第3步:得到检验结论当给定显著性水平为𝛼时,临界值为𝐹𝛼(𝑘,𝑛−𝑘−1),拒绝域为(𝐹𝛼(𝑘,𝑛−𝑘−1),+∞)。根据假设检验原理,当统计量F满足𝐹>𝐹𝛼(𝑘,𝑛−𝑘−1)时,拒绝原假设,认为回归方程是显著的,可以用回归方程来表示因变量y和自变量x之间的关系,反之则反。(4)回归系数的检验t第1步:建立统计假设,对于每一个回归系数𝛽𝑖,𝑖=0,1,⋯,𝑘,有𝐻0:𝛽𝑖=0;𝐻0:𝛽𝑖≠0。第2步:构造检验统计量𝑇𝑖

=̂𝑖∼𝑡(𝑛−𝑘−1,𝑖=01,⋯,𝑘√𝑐𝑖𝑖̂423该问题为双侧检验,当给定显著性水平为𝛼时,临界值为𝑡𝛼(𝑛−𝑘−1),拒2绝域为(−𝑡𝛼(𝑛−𝑘−1),𝑡𝛼(𝑛−𝑘−1))2𝑇T

2t2(nk1)时,拒绝原假设,认为自变量xi对因变量y具有显著的影响,反之则反。例1(Cag41:CaAl3()2:CaSi2()3:CaAle3%)4:CaSi2()

【引例回头看】多个变量的回归模型。实验测得数据如表4.1所示。表4.1热量与物质浓度数据yx_1x_2x_3x_478.572666074.31291552104.3115682087.5113184895.6752633109.61155922102.735417672.5170224893.12321824115.9215242683.91482434113.31140912109.41066812试求𝑦对𝑥1,𝑥2,𝑥3,𝑥4的回归方程,计算调整的判定系数,并进行回归方程和回归系数的显著性检验。解 (1)归程根式=(𝑿𝑇𝑿)−1𝑿𝑇𝒀=(111.61831.1767−0.0539−0.2233−0.6480)𝑇因此,回归方程̂=𝑿̂=111.1+671−0.032−0.233−0.604。(2)多重判定系数调整的判定系数为

𝑅2=𝑆𝑆𝑅=0.986𝑆𝑆𝑇𝑅2=1− 𝑛−1

(1−𝑅2)=0.979𝑎(3)F检验

𝑛−𝑝−1𝐹=138.663.39=.5(40(4)t检验𝑇=̂𝑖∼𝑡(8,𝑖=01,⋯4,临界值为𝑡

(81.8595,各回归系

【课程思政】𝑖 √𝑐𝑖𝑖

0.025

科学思维方式数的显著性检验结果见下表。

尊重计算结果参数ˆiciiTip值显著性常数项111.624.515924.71776×-9显著x11.17670.209045.62890.000493显著x200320.05271510290.33629不显著x302370.1839312390.25941不显著x406770.0436381.4941×-7显著𝑥1和𝑥4对𝑦𝑥2和𝑥3𝑦1MATLABclcclearally=[78.5,74.3,104.3,87.5,95.6,109.6,102.7,72.5,93.1,115.9,83.9,113.3,109.4]';x1=[7,1,11,11,7,11,3,1,2,21,1,11,10]';x2=[26,29,56,31,52,55,54,70,32,52,48,40,66]';x3=[6,15,8,8,6,9,17,22,18,4,24,9,8]';x4=[60,52,20,48,33,22,6,48,24,26,34,12,12]';n=length(y)';X=[ones(n,1)x1x2x3x4];=x=[x1x2x3x4];mdl=fitlm(x,y)运行结果:B=111.61831.1767-0.0539-0.2233-0.6480STATS=0.9858138.96260.00004.8346mdl=线性回归模型:y~1+x1+x2+x3+x4估计系数:

【课程思政】工程背景的数据分析案例可增强学生专业引导学生将数理统计的理论与方法应用于解决工程数据分析问软件实现有助于学生将本课程视stte E tat palue---------------------------------------------------Intercept111.624.515924.7172e-x11.17670.209045.62890.00049338x20.05390.052715-90.33629x3-30.18393-90.25941x4-00.043638-9e-观测值数目:13,误差自由度:8均方根误差:2.2R方:0.986,调整R方0.979F统计量(常量模型):139,p值=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论