




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、回归分析及独立性检验的基本 知识点及习题集锦回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏 的方法 相关指数和残差分析。本周难点:( 1)求回归直线方程,会用所学的知识对实际问题进行回归分析.( 2)掌握回归分析的实际价值与基本思想.( 3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方
2、和分解的思想;本周内容:一、基础知识梳理回归直线: 如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归 直线。求回归直线方程的一般步骤: 作出散点图 (由样本点是否呈条状分布来判断两个量是否具有线性相关关系) ,若存在线性相关关系 求回归系数 写出回归直线方程 ,并利用回归直线方程进行预测说明 .2. 回归分析: 对具有相关关系的两个变量进行统计分析的一种常用方法。 建立回归模型的基本步骤是:确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; 画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系) . 由经验确定回
3、归方程的类型 . 按一定规则估计回归方程中的参数 (最小二乘法); 得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等 .3. 利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。4. 残差变量 的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。可能存在非线性的函数能够更好地描述 与 之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。这种由于模型近似所引起的误差包含在中。( 2)忽略了某些因素的影响。影响变量的因素不只变量
4、一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素 的影响可能都是比较小的,它们的影响都体现在 中。( 3)观测误差。由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可 能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在上面三项误差越小,说明我们的回归模型的拟合效果越好。、例题选讲例 1:研究某灌溉渠道水的流速与水深 之间的关系,测得一组数据如下:水深1.401.501.601.701.801.902.002.10流速1.701.
5、791.881.952.032.102.162.21( 1)求对 的回归直线方程;( 2)预测水深为 1.95 时水的流速是多少? 分析:本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条 直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。解: 1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:由图容易看出, 与 之间有近似的线性关系,或者说,可以用一个回归直线方程 来反映这种关系。由计算器求得 。对 的回归直线方程为 。( 2)由( 1)中求出的回归直
6、线方程,把代入,易得。计算结果表示,当水深为 时可以预测渠水的流速为 。评注:建立回归模型的一般步骤:(1)确定研究对象,明确两个变量即解释变量和预报变量;(2)画出散点图,观察它们之间的关系;(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);(4) 按一定规则估计回归方程中的参数(如最小二乘法);(5) 得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常, 则检查数据是否有误,或模型是否合适等。例 2: 1993 年到 2002 年中国的国内生产总值 (GDP) 的数据如下:年份GDP199334634.4199446759.41
7、99558478.1199667884.6199774462.6199878345.2199982067.5200089468.1200197314.82002104790.6(1)作 GDP 和年份的散点图,根据该图猜想它们之间的关系应是什么。(2) 建立年份为解释变量, GDP 为预报变量的回归模型,并计算残差。(3) 根据你得到的模型,预报 2003 年的 GDP ,并查阅资料,看看你的预报与实际 GDP 的误差是多少(4) 你认为这个模型能较好地刻画GDP 和年份的关系吗?请说明理由。解: (1) 由表中数据制作的散点图如下:从散点图中可以看出 GDP 值与年份近线呈线性关系;(2)用
8、 yt表示 GDP 值,t 表示年份,根据截距和斜率的最小二乘计算公式, 得:从而得线性回归方程:残差计算结果见下表: GDP 值与年份线性拟合残差表年份19931994199519961997残差-6422.269-1489.2383037.4935252.0244638.055年份19981999200020012002残差1328.685-2140.984-1932.353-1277.622-993.791(3)2003 年的 GDP 预报值为 112976.360 ,根据国家统计局 2004 年统计, 2003 年实际 GDP 值为 117251.9 ,所以预报与实际相 2-4275.
9、540 ;(4)上面建立的回归方程的 R2=0.974,说明年份能够解释约 97% 的 GDP 值变化, 因此所建立的模型能够很好地刻画 GDP 和年份的关系。例 3 :如下表所示,某地区一段时间内观察到的大于或等于某震级说明: 关于 2003 年的 GDP 的值来源,不同的渠道可能会有所不同。震级33.23.43.63.844.24.44.64.85.0地震数28381203801479510695764155023842269819191356973震级5.25.45.65.866.26.46.66.87地震数74660443527420614898574125x 的地震个数为 N ,试建
10、立回归方程表述二者之间的关系解:由表中数据得散点图如下:从散点图中可以看出,震级 x与大于该震级的地震次数 N之间不呈线性相关关系,随着 x的减少,所考察的地震数 N 近 似地以指数形式增长 .做变换 y=lgN ,得到的数据如下表所示:x33.23.43.63.844.24.44.64.85y4.4534.3094.1704.0293.8833.7413.5853.4313.2833.1322.988x5.25.45.65.866.26.46.66.87y2.8732.7812.6382.4382.3142.1701.9911.7561.6131.398x和 y的散点图如下:从这个散点图中可
11、以看出x和 y之间有很强的线性相差性,因此可以用线性回归模型拟合它们之间的关系。根据截距和斜率的最小二乘计算公式,得:故线性回归方程为: 相关指数 R 2 0.997,说明 x 可以解释 y的 99.7% 的变化。因此,可以用回归 方程描述 x和 y 之间的关系表示,观测得时间例 4:电容器充电后,电压达到, 然后开始放电,由经验知道,此后电压随时间 变化的规律公式012345678910100755540302015101055时的电压 如下表所示:试求电压 对时间 的回归方程。分析:由于两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,我们可通过对数变换把指数
12、关系变为线性关系,通过线性回归模型来建立 与 之间的非线性回归方程。解:对 两边取自然对数得,令,即由所给数据可得0123456789104.64.34.03.93.42.92.72.32.31.61.6其散点图为:由散点图可知 与 具有线性相关关系,可用 来表示。经计算得: (最小二乘法),即 。所以,。评注:一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的 两个变量之间的关系:(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归
13、模型来建模。 本周练习:1. 对具有相关关系的两个变量统计分析的一种常用的方法是()A回归分析B.相关系数分析C. 残差分析D.相关指数分析2. 在画两个变量的散点图时,下面叙述正确的是()A 预报变量在轴上,解释变量在轴上B. 解释变量在轴上,预报变量在 轴上C. 可以选择两个变量中任意一个变量在轴上D. 可以选择两个变量中任意一个变量在轴上3. 两个变量相关性越强,相关系数( )A 越接近于 0B.越接近于 1C.越接近于 1D.绝对值越接近 14. 若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为()A0B.1C.1D.1 或 15. 一位母亲记录了她儿子 3 到 9
14、岁的身高,数据如下表:年龄(岁)3456789身高(94.8104.2108.7117.8124.3130.8139.0由此她建立了身高与年龄的回归模型 ,她用这个模型预测儿子 10 岁时的身高,则下面的叙述正确的是( )A.她儿子 10 岁时的身高一定是 145.83B.她儿子 10 岁时的身高在 145.83 以上C.她儿子 10 岁时的身高在 145.83 左右 D.她儿子 10 岁时的身高在 145.83 以下6. 两个变量有线性相关关系且正相关,则回归直线方程中,的系数 ( )A. B. C. D.7. 两个变量有线性相关关系且残差的平方和等于0,则()A.样本点都在回归直线上B.样
15、本点都集中在回归直线附近如下,其中拟合最好的C.样本点比较分散D.不存在规律8. 在建立两个变量与 的回归模型中,分别选择了 4 个不同的模型,它们的相关指数模型是( )A.模型 1 的相关指数为 0.98B.模型 2 的相关指数为 0.80C.模型 3的相关指数为 0.50D.模型 4的相关指数为 0.259. 相关指数10. 某农场对单位面积化肥用量和水稻相应产量 的关系作了统计,得到数据如下:15202530354045330345365405445450455时水稻的产量大约是多如果 与 之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为 少?(精确到 )11. 假设美
16、国 10 家最大的工业公司提供了以下数据:公司销售总额经 x1/ 百万美元利润 x2/ 百万美元通用汽车1269744224福特969333835埃克森866563510IBM634383758通用电气552643939美孚509761809菲利普 莫利斯390692946克莱斯勒36156359杜邦352092480德士古324162413(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;(2) 建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;(3) 你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由参考答案:A B D B910.由于问题中
17、要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:由图容易看出, 与 之间有近似的线性关系,或者说,可以用一个回归直线方程 来反映这种关系。由计算器求得 。对 的回归直线方程为 ( * )。由( * )中求出的回归直线方程,把代入,易得。计算结果表示,当单位面积化肥用量为 时水稻的产量大约是11(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域分布,猜想销售总额与利润之间呈现线性相关关系;(2)由最小二乘法的计算公式,得:则线性回归方程为:其残差值计算结果见下表:销售总
18、额12697496933866566343855264利润42243835351037583939残差-361.03419.015-42.894799.4871189.742销售总额5097639069361563520932416利润1809294635924802413残差-830.486611.334-1901.09244.150248.650(3)对于 (2)中所建立的线性回归方程,相关指数为R 2 0.457,说明在线性回归模型中销售总额只能解释利润变化的46% ,所以线性回归模型不能很好地刻画销售总额和利润之间的关系。说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理
19、,就算正确。独立性检验的基本知识点及习题本周题目:独立性检验的基本思想及其初步应用本周重点:(1)通过对实际问题的分析探究,了解独立性检验(只要求22 列联表)的基本思想、方法及初步应用.;了解独立性检验的常用方法:三维柱形图和二维条形图,及其K2(或 R2)的大小关系 .( 2)通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.( 3)理解独立性检验的基本思想及实施步骤,能运用自己所学的知识对具体案例进行检验.本周难点:(1)了解独立性检验的基本思想;( 2)了解随机变量的含义, 太大认为两个分类变量是有关系的;( 3)能运用自己所学的知识对具体案例进行检验与说明.本
20、周内容:一、基础知识梳理1.独立性检验利用随机变量 来确定在多大程度上可以认为 “两个分类变量有关系 ”的方法称为两个分类变量的独立性检验。2.判断结论成立的可能性的步骤:(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论 的可靠程度。(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。二、例题选讲例 1.为了探究患慢性气管炎是否与吸烟有关,调查了339 名 50 岁以上的人,调查结果如下表所示:患病不患病合计吸烟43162205不吸烟13121134合计56283339试问: 50 岁以上的人患慢
21、性气管炎与吸烟习惯有关吗?分析:最理想的解决办法是向所有 50 岁以上的人作调查,然后对所得到的数据进行统计处理,但这花费的代价太大,实 际上是行不通的, 339 人相对于全体 50 岁以上的人,只是一个小部分,已学过总体和样本的关系,当用样本平均数,样本方差 去估计总体相应的数字特征时, 由于抽样的随机性, 结果并不唯一。 现在情况类似, 我们用部分对全体作推断, 推断可能正确, 也可能错误。如果抽取的 339 个调查对象中很多人是吸烟但没患慢性气管炎,而虽不吸烟因身体体质差而患慢性气管炎,能够 得出什么结论呢?我们有 95%(或 99% )的把握说事件 与事件 有关,是指推断犯错误的可能性
22、为5% (或 1%),这也常常说成是 “以 95% (或 99% )的概率 ”是一样的。解:根据列联表中的数据,得。因为 ,所以我们有 99%的把握说: 50 岁以上的人患慢性气管炎与吸烟习惯有关。评注:对两个分类变量进行独立性检验,要对样本的选取背景、时间等因素进行分析。例 2 甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:班级与成绩列联表优秀不优秀总计甲班103545乙班1703845总计17378390画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为 “成绩与班级有关系 ”犯 错误的概率是多少。解:列联表的条形图
23、如图所示:由图及表直观判断,好像 “成绩优秀与班级有关系 ”;由表中数据计算得 K2 的观察值为 k0.6530.455。 由下表中数据2P(K2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828得: P(K 2 0.455) 0,.50从而有 50% 的把握认为 “成绩与班级有关系 ”,即断言 “成绩优秀与班级有关系 ”犯错误的概率为 0.5。评注:( 1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果可能会出错
24、。(2) 计算得到 K2 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系 ”。这与反证法也有类似的地方,在使用反证法证明结论时, 假设结论不成立的条件下如果没有推出矛盾, 并不能说明结论成立也不能说明结论不成立。 在独立性检验中, 在假设 “成绩优秀与班级没有关系 ”的情况下,计算得到的K 2的值比较小,且 P(K 2 0.653) 0,.4说2明事件 (K 2 0.653不) 是一个小概率事件,这个事件的发生不足以说明 “成绩优秀与班级没有关系 ”,即没有理由说明 “成绩优秀与班级有关系 ”。这里没有推 出小概率事件发生类似于反证法中没有推出矛盾。例 3为考察某种药物预防疾病的效果,
25、进行动物试验,得到如下的列联列表:药物效果与动物试验列联表患病未患病总计服用药104555没服用药203050总计3075105请问能有多大把握认为药物有效?解: 假设 “服药情况与是否患病之间没有关系”,则 K 2的值应比较小;如果 K 2的值很大,则说明很可能 “服药情况与是否患病之间有关系 ”。由题目中所给数据计算,得K 2的观测值为 k6.110,而 P(K 2 5.024) 0.,02所5以有 97.5% 的把握认为 “服药情况与是否患病之间有关系 ”,即大约有 97.5% 的把握认为药物有效。例 4在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示,根据此资料你是否认
26、为在恶劣气候中男 人比女人更容易晕机?晕机不晕机合计男人243155女人82634合计325789分析:这是一个 列联表的独立性检验问题,根据列联表的数据求解解:由条件中数据,计算得:比女人晕因为 ,所以我们没有理由说晕机是否跟男女性别有关,尽管这次航班中男人晕机的比例机的比例 高,但我们不能认为在恶劣的气候飞行中男人比女人更容易晕机。评注:在使用 统计量作 列联表的独立性检验时,要求表中的 4 个数据大于等于 5,为此,在选取样本的容量时 定要注意这一点,本例中的 4 个数据都大于 5,且满足这一要求的。本周练习:1在一次独立性检验中,其把握性超过了99% ,则随机变量的可能值为()A6.6
27、35B 5.024C7.897D 3.8412把两个分类变量的频数列出,称为()A三维柱形图B二维条形图C 列联表D独立性检验3由列联表合计4316220513121134合计56283339则随机变量 的值为 。4某大学希望研究性别与职称之间是否有关系,你认为应该收集哪些数据?5某高校 “统计初步 ”课程的教师随机调查了该选修课的一些学生情况,具体数据如下表:非统计专业统计专业男1310女720为了检验主修专业是否与性别有关系,根据表中的数据,得到因为 ,所以断定主修统计专业与性别有关系。这种判断出错的可能性为 。6在对人们休闲的一次调查中, 共调查了 124 人,其中女性 70 人,男性
28、54人。女性中有 43 人主要的休闲方式是看电视, 另外 27 人主要的休闲方式是运动;男性中有 21 人主要的休闲方式是看电视,另外 33 人主要的休闲方式是运动。( 1)根据以上数据建立一个的列联表;( 2 )检验性别与休闲方式是否有关系。7 调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表。试问能以多大把握认为婴儿的性别与出生 的时间有关系。出生时间 性别晚上白天合计男婴243155女婴82634合计325789参考答案:1 C2 C37.4694女教授人数,男教授人数,女副教授人数,男副教授人数(或高级职称中女性的人数,高级职称中男性的人数,中级 职称中女性的人数,中级职称中男性的人数。)55% (或 0.05)6答案:( 1)的列联表:看电视运动合计女432770男213354合计64601242)假设休闲方式与性别无关,计算因为 ,所以有理由认为假设休闲方式与性别无关是不合理的, 即我们有 97.5% 的把握认为休闲方式与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025标准版合同协议样本
- 建材商场合同范本
- 2025年个体承运快递服务合同
- 2025物流公司合同范本
- 品牌整合合同范本
- 2025写字楼餐厅外包合同范本
- 咨询房屋转让合同范本
- 平房防水劳务合同范本
- 2025技术合同网络平台服务使用许可合同
- 货运合同范本简单版
- 导尿管相关尿路感染预防与控制
- 《新媒体写作与传播(第2版)》教学大纲、课程标准、习题答案
- 骨质疏松症完整版本
- 中华护理学会老年人误吸的预防团体标准解读
- 国企投资后评价操作实务
- 《头发头皮生理学》课件
- 中国古代文学史明代文学
- 磨光机使用安全培训
- 有限空间专项安全检查表
- 舰艇损害管制与舰艇损害管制训练
- 广西桂林旅游文化宣传城市介绍文旅科普美食
评论
0/150
提交评论