版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、滑县第二高级中学 杨占林 统计的基本思想统计的基本思想 y = f(x)y = f(x)y = f(x)y = f(x) y = f(x)y = f(x) 实际实际 样本样本 模模 拟拟 抽抽 样样 分分 析析 问题问题1 1:正方形的面积正方形的面积y y与正方形的边长与正方形的边长x x之间之间 的的函数关系函数关系是是 y = xy = x2 2 确定性关系确定性关系 问题问题2 2:某水田水稻产量某水田水稻产量y y与施肥量与施肥量x x之间是否之间是否 -有一个确定性的关系?有一个确定性的关系? 例如:例如:在在 7 7 块并排、形状大小相同的试验田块并排、形状大小相同的试验田 上上
2、 进行施肥量对水稻产量影响的试验,得到进行施肥量对水稻产量影响的试验,得到 如下所示的一组数据:如下所示的一组数据: 施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45 水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455 复习、变量之间的两种关系复习、变量之间的两种关系 导 自学思考:自学思考: 1.相关关系的概念?你能举例说明吗? 2.如何分析两个变量之间的相关关系? 思、议 自变量取值一定时,因变量的取值带有一定随自变量取值一定时,因变量的取值带有一定
3、随 机性的两个变量之间的关系叫做机性的两个变量之间的关系叫做相关关系相关关系。 1 1、定义:、定义: 1 1):相关关系是一种不确定性关系;):相关关系是一种不确定性关系; 注注 对具有相关关系的两个变量进行对具有相关关系的两个变量进行 统计分析的方法叫统计分析的方法叫回归分析回归分析。 2 2):): 思、议、展 2 2、现实生活中存在着大量的相关关系。现实生活中存在着大量的相关关系。 探索:水稻产量探索:水稻产量y y与施肥量与施肥量x x之间大致有何之间大致有何 规律?规律? 思、议、展 10 20 30 40 5010 20 30 40 50 500500 450450 400400
4、 350350 300300 发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。 探索探索2 2:在这些点附近可画直线不止一条,:在这些点附近可画直线不止一条, 哪条直线最能代表哪条直线最能代表x x与与y y之间的关系呢?之间的关系呢? x x y y 施化肥量施化肥量 水稻产量水稻产量 施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45 水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455 散点图散点图 10 20 30 4
5、0 50 500 450 400 350 300 x y 施化肥量施化肥量 水稻产量水稻产量 n n 2 2 i ii i i i= =1 1 Q Q( (a a, ,b b) )= =( (y y - -b bx x - -a a) ) 取取最最小小值值时时, ,a a, ,b b的的值值. . 推导过程请阅读P92推导过程请阅读P92 iiii (x ,y )(x ,y ) i i i i (x ,y )(x ,y ) | i i i i | |y y - -y y 思、议、展 最小二乘法:最小二乘法: y = bx+a (x,y)(x,y)称为样本点的中心称为样本点的中心。 n n (
6、(x x- - x x) )( (y y- - y y) ) i ii i i i= =1 1 b b = = n n 2 2 ( (x x- - x x) ) i i i i= =1 1 a a = = y y - - b bx x. . n nn n 1 11 1 其其 中中 x x = =x x , ,y y = =y y . . i ii i n nn n i i= =1 1i i= =1 1 n n iiii i=1i=1 n n 2 2 2 2 i i i=1i=1 x y -nxyx y -nxy =,=, x-nxx-nx 思、议、展 3 3、对两个变量进行的线性分析叫做、对两
7、个变量进行的线性分析叫做线性线性 回归分析回归分析。 2 2、回归直线方程:、回归直线方程: n nn n i ii ii i i i i i= =1 1i i= =1 1 n nn n 2 2 2 22 2 i ii i i i= =1 1i i= =1 1 ( (x x - -x x) )( (y y - -y y) )x x- -n nx xy y b b = = =, , ( (x x - -x x) )x x - -n nx x a a = = y y- -b bx x y y 2.2.相应的直线叫做相应的直线叫做回归直线回归直线。 1 1、所求直线方程、所求直线方程 叫做叫做回归直
8、回归直 -线方程线方程;其中;其中 y = bx+ay = bx+a 思、议、展 相关系数相关系数 1.1.计算公式计算公式 2 2相关系数的性质相关系数的性质 (1)|r|1(1)|r|1 (2)|r|(2)|r|越接近于越接近于1 1,相关程度越大;,相关程度越大;|r|r|越接越接 近于近于0 0,相关程度越小,相关程度越小 问题:达到怎样程度,问题:达到怎样程度,x x、y y线性相关呢?它线性相关呢?它 们的相关程度怎样呢?们的相关程度怎样呢? n n i ii i i i= =1 1 n nn n 2 22 2 i ii i i i= =1 1i i= =1 1 ( (x x -
9、- x x) )( (y y - - y y) ) r r = = ( (x x - - x x) )( (y y - - y y) ) 思、议、展 负相关负相关正相关正相关 n n ( (x x - -x x) )( (y y - -y y) ) i ii i i i= =1 1 r r= = n nn n 2 22 2 ( (x x - -x x) ) ( (y y - -y y) ) i ii i i i= =1 1i i= =1 1 相关系数相关系数 正相关;负相关通常,正相关;负相关通常, r r-1,-0.75-0.75-负相关很强负相关很强; ; r0.75,1正相关很强正相关很
10、强; r-0.75,-0.3-负相关一般负相关一般; ; r0.3, 0.75正相关一般正相关一般; r r-0.25, 0.25-0.25-相关性较弱相关性较弱; ; 思、议、展 10 20 30 40 5010 20 30 40 50 500500 450450 400400 350350 300300 x y 施化肥量施化肥量 水稻产量水稻产量 施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45 水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455 解
11、解: 1.画出散点图画出散点图 2.求出求出b b = = 4 4. .7 75 5, , a a = = 2 25 56 6. .7 79 9 3.写出回归方程写出回归方程 y = 4.75x+256.79y = 4.75x+256.79 4.计算相关系数计算相关系数r r = = 0 0. .9 97 71 18 8 例题例题1 1 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身名女大学生,其身 高和体重数据如下表:高和体重数据如下表: 求根据一名女大学生的身高预报她的体重的求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为回归方程,并预报一名身高为172172
12、的女的女 大学生的体重。大学生的体重。 思、议、 y y = = 0 0. .8 84 49 9x x- -8 85 5. .1 17 72 2 分析:由于问题中分析:由于问题中 要求根据身高预报要求根据身高预报 体重,因此选取身体重,因此选取身 高为自变量,体重高为自变量,体重 为因变量为因变量 身身高高1 17 72 2c cm m女女大大学学生生体体重重 y y = = 0 0. .8 84 49 91 17 72 2- -8 85 5. .7 71 12 2 = = 6 60 0. .3 31 16 6( (k kg g) ) 3.通过探究栏目引入通过探究栏目引入“线性回归模型线性回归
13、模型”。此处可以引。此处可以引 导学生们体会函数模型与回归模型之间的差别。导学生们体会函数模型与回归模型之间的差别。 (2 2)从散点图还可以看到,样本点散布在某一条)从散点图还可以看到,样本点散布在某一条 直线的附近,而不是一条直线上,所以不能用一次直线的附近,而不是一条直线上,所以不能用一次 函数来描述它们之间的关系。这时我函数来描述它们之间的关系。这时我 们用下面的线性回归模型来描述身高和体重的关系:们用下面的线性回归模型来描述身高和体重的关系: + +其中和为模型的其中和为模型的未知参数未知参数,e e 是是y y与与 之间的误差之间的误差, ,通常通常称为称为随机误差随机误差。 y
14、2 2 它它的的均均值值E E( (e e) )= = 0 0, ,方方差差D D( (e e) )= = 0 0 (1 1)由图形观察可以看出,样本点呈条状分)由图形观察可以看出,样本点呈条状分 布,身高和体重有比较好的线性相关关系,因布,身高和体重有比较好的线性相关关系,因 此可以用线性回归方程刻画它们之间的关系。此可以用线性回归方程刻画它们之间的关系。 y y 线性回归模型线性回归模型 + + 2 2 E E( (e e) )= = 0 0, , D D( (e e) )= = y + +其中和为模型的其中和为模型的未知参数未知参数, e e是是y与与 之间的误差之间的误差,通常通常称为
15、称为随机误差随机误差。 为了衡量预报的精度为了衡量预报的精度, ,需要估计的需要估计的2 2值值? ? (1, 2,. ) ii iiii ybxa in yyybxa i i iii 随 机 误 差 e 其 估 计 值 为 : e e 称 为 相 应 点 (x ,y )的 残 差 22 1 11 (,)(2) 22 (,) n i i eQ a bn nn Q a b 类 比 样 本 方 差 估 计 总 体 方 差 的 思 想 称 为 残 差 平 方 和 2 1 ( ,)() n ii i Qyx (1 1)根据散点图来粗略判断它们是否线性相关。)根据散点图来粗略判断它们是否线性相关。 (2
16、 2)是否可以用线性回归模型来拟合数据)是否可以用线性回归模型来拟合数据 (3 3)通过残差)通过残差 来判断模型拟合的效来判断模型拟合的效 果这种分析工作称为果这种分析工作称为残差分析残差分析 1, 2, 3, . n e e ee 使学生了解残差图的制作及作用。使学生了解残差图的制作及作用。P98P98 坐标纵轴为残差变量,横轴可以有不同的选择;坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,若模型选择的正确,残差图中的点应该分布在以残差图中的点应该分布在以 横轴为心的带形区域;横轴为心的带形区域; 对于远离横轴的点,要特别注意对于远离横轴的点,要特别注意。 错误数据 模型问
17、题 身高与体重残差图 异常点 y y + +其中和为模型的其中和为模型的未知参数未知参数, e e是是y y与与 之间的误差之间的误差, ,通常通常称为称为随机误差随机误差。 2 2 E E( (e e) )= = 0 0, , D D( (e e) )= = + + n nn n i ii ii i i i i i= =1 1i i= =1 1 n nn n 2 2 2 22 2 i ii i i i= =1 1i i= =1 1 ( (x x - -x x) )( (y y - -y y) )x x- -n nx xy y b b = = =, , ( (x x - -x x) )x x
18、- -n nx x a a = = y y- -b bx x y y 所求直线方程所求直线方程 叫做叫做回归直线方程回归直线方程; 其中其中 y = bx+ay = bx+a 线性回归模型线性回归模型 思、议、展 预报精度预报精度 1.相关指数相关指数R2 2.残差残差e n nn n 2 22 2 i ii i i i 2 2i i= =1 1i i= =1 1 n nn n 2 22 2 i ii i i i= =1 1i i= =1 1 ( (y y - -y y ) )( (y y - -y y) ) R R = =1 1- -= = ( (y y - -y y) )( (y y -
19、-y y) ) 在含有一个解释在含有一个解释 变量的线性变量的线性 模型模型 中中R2=r2(相关关系相关关系) 判断判断x xi i确定差异确定差异 百分数百分数 随机误差随机误差 , ,它的估计值为它的估计值为 . . e = y-ye = y-y e = y-ye = y-y 对于样本点对于样本点 它们随机误它们随机误 差的估计值差的估计值 称相应残差称相应残差. 1 11 12 22 2n nn n ( (x x , ,y y ) ), , ( (x x , ,y y ) ), , , ( (x x , ,y y ) ) i i i i iiiiii e = y -y = y -bx
20、-ae = y -y = y -bx -a n n 2 2 2 2 i ii i i i= =1 1 1 11 1 = =( (y y - -b bx x - -a a) ) = =Q Q( (a a, ,b b) )( (n n 2 2) ) n n- -2 2n n- -2 2 方差方差 1)1)衡量预报精度衡量预报精度 2)2)确定样本的异常点确定样本的异常点. . 思、议、展 1)1)确定解释变量和预报变量确定解释变量和预报变量; ; 2)2)画出散点图画出散点图; ; 3)3)确定回归方程类型确定回归方程类型; ; 4)4)求出回归方程求出回归方程; ; 5)5)利用相关指数或残差进
21、行分析利用相关指数或残差进行分析. . 建立回归模型的基本步骤建立回归模型的基本步骤 问题:问题:一只红铃虫的产卵数一只红铃虫的产卵数y与温度与温度x有关有关,现收现收 集了集了7组观测数据组观测数据,试建立试建立y与与x之间的回归方程之间的回归方程 解解:1):1)作散点图作散点图; ; 从散点图中可以看出产卵数和温度之间的关系并不能从散点图中可以看出产卵数和温度之间的关系并不能 用线性回归模型来很好地近似。这些散点更像是集中用线性回归模型来很好地近似。这些散点更像是集中 在一条指数曲线或二次曲线的附近。在一条指数曲线或二次曲线的附近。 思、议、检 解解: : 令令 则则z=bx+a,(a=
22、lncz=bx+a,(a=lnc1 1,b=c,b=c2 2),),列出变换后数据表并列出变换后数据表并 画画 出出x x与与z z 的散点图的散点图 z =lnyz =lny x和z之间的关系可以用线性回归模型来拟合 z = ax+b+ez = ax+b+e 2 2 c c x x 1 1 用用y y = =c c e e模模型型; ;1)思、 议、 检 2) 2) 用用 y=cy=c3 3x x2 2+c+c4 4 模型 模型, ,令令 , ,则则y=cy=c3 3t+ct+c4 4 , ,列出列出 变换后数据表并画出变换后数据表并画出t t与与y y 的散点图的散点图 2 2 t t = = x x 散点并不集中在一条直线的附近,因此用线散点并不集中在一条直线的附近,因此用线 性回归模型拟合他们的效果不是最好的。性回归模型拟合他们的效果不是最好的。 思、 议、 检 ( (1 1) )0 0. .2 27
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 徐州医科大学《现代物业管理》2025-2026学年期末试卷
- 广东学考地理试题及答案
- 厦门华天涉外职业技术学院《写作学概论》2025-2026学年期末试卷
- 茶树育苗工班组管理强化考核试卷含答案
- 数控钻工岗后测试考核试卷含答案
- 电线电缆金属导体挤制工岗前沟通协调考核试卷含答案
- 戏鞋工安全防护竞赛考核试卷含答案
- 半导体分立器件和集成电路装调工冲突管理测试考核试卷含答案
- 2026春季学期国家开放大学专科《管理学基础》一平台在线形考形考任务一试题及答案
- 快速康复模式下膝关节置换围术期疼痛管理与循证护理实践
- 剪映使用详细教程书
- JTT329-2010 公路桥梁预应力钢绞线用锚具、夹具和连接器
- GA/T 2017-2023公安视频图像信息系统运维管理平台技术要求
- 头皮健康管理专家共识2023年版
- 云计算与大数据应用
- 《学会自主选择》课件
- 情感体验量表DESⅡ-附带计分解释
- 过程设备设计第三版(郑津洋)课后习题答案
- 03J501-2 钢筋混凝土雨蓬建筑构造
- CosaGPS说明书完整版
- 第一章气体放电的基本物理过程
评论
0/150
提交评论