




文档简介
第一章导论 1.11 (1)数值型变量。 (2)分类变量。 (3)离散型变量。 (4)顺序变量。 (5)分类变量。 1.2 (1)总体是该市所有职工家庭的集合;样本是抽中的 2000 个职工家庭的集合。 (2)参数是该市所有职工家庭的年人均收入;统计量是抽中的 2000 个职工家庭的年人均 收入。 1.3 (1)总体是所有 IT 从业者的集合。 (2)数值型变量。 (3)分类变量。 (4)截面数据。 1.4 (1)总体是所有在网上购物的消费者的集合。 (2)分类变量。 (3)参数是所有在网上购物者的月平均花费。 (4)参数 (5)推断统计方法。 第二章数据的搜集 1.什么是二手资料?使用二手资料需要注意些什么? 与研究内容有关的原始信息已经存在, 是由别人调查和实验得来的, 并会被我们利用的 资料称为“二手资料” 。 使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、 搜 集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错 用、误用、滥用。在引用二手资料时,要注明数据来源。 2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情 况下适合采用非概率抽样。 概率抽样是指抽样时按一定概率以随机原则抽取样本。 每个单位被抽中的概率已知或可 以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽 样的技术含量和成本都比较高。 如果调查的目的在于掌握和研究总体的数量特征, 得到总体 参数的置信区间,就使用概率抽样。 非概率抽样是指抽取样本时不是依据随机原则, 而是根据研究目的对数据的要求, 采用 某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低, 而 且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题, 为 更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。 3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数 据的方法? 实验式、观察式等。 4. 自填式、面方式、电话式调查个有什么利弊? 自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以 刻选择方便时间答卷,减少回答敏感问题的压力。缺点:返回率低,调查时间长,在数据搜 集过程中遇到问题不能及时调整。 面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充 分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问 题,被访者会有压力。 电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地 区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。 5.请举出(或设计)几个实验数据的例子。 不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。 6.你认为应当如何控制调查中的回答误差? 对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩 短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑, 调 查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。 7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。 对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好 各方面的准备工作, 尽量把无回答率降到最低程度。 无回答出现后, 分析武回答产生的原因, 采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调 查者不愿意回答时, 可以通过一定的方法劝服被访者, 还可以通过馈赠小礼品等的方式提高 回收率。 第三章数据的图表搜集 一、思考题 3.1 数据的预处理包括哪些内容? 答:审核、筛选、排序等。 3.2 分类数据和顺序数据的整理和显示方法各有哪些? 答: 分类数据在整理时候先列出所分的类别, 计算各组的频数、 频率, 得到频数分布表, 如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、 饼 图、环形图等。根据不同的资料或者目的选择不同的图。 对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘 制条形图、饼图、环形图等。 3.3 数值型数据的分组方法有哪些?简述组距分组的步骤。 答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的 多少和特点等决定,一般 515 组;第二步,确定各组组距,宜取 5 或 10 的倍数;第三步, 根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。 3.4 直方图和条形图有何区别? 答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表 示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义; 2 直方图各矩形连续排列,条形图分开排列;3 条形图主要展示分类数据,直方图主要展示 数值型数据。 3.5 绘制线图应注意问题? 答:时间在横轴,观测值绘在纵轴。一般是长宽比例 10:7 的长方形,纵轴下端一般从 0开始,数据与 0距离过大的话用折断符号折断。 3.6 饼图和环形图的不同? 答: 饼图只能显示一个样本或总体各部分所占比例, 环形图可以同时绘制多个样本或总 体的数据系列,其图形中间有个“空洞” ,每个样本或总体的数据系类为一个环。 3.7 茎叶图比直方图的优势,他们各自的应用场合? 答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的 信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。 3.8 鉴别图标优劣的准则? 答:P65 明确有答案,我就不写了。 3.9 制作统计表应注意的问题? 答:1,合理安排统计表结构;2 表头一般包括表号,总标题和表中数据的单位等内容; 3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空 白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。 二、练习题 3.1 答: (1)表中数据属于顺序数据。 (2)用 Excel 制作一张频数分布表。 服务等级家庭数目(个) 好14 较好21 (3)绘制一张条形图,反映评价等级的分布。 (4)绘制评价等级的帕累托图。 32某行业管理局所属 40 个企业 2002 年的产品销售收入数据如下: 1521241291161001039295127104 10511911411587103118142135125 117108105110107137120136117108 9788123115119138112146113126 要求: (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。 1、确定组数:,取 k=6 2、确定组距: 组距( 最大值 - 最小值) 组数=(152-87)6=10.83,取 10 一般32 较差18 差15 3、分组频数表 销售收入频数频率%向上累计频数向上累计频率% 80 902525 90 10037.5512.5 100- 110922.51435 110 12012302665 120 130717.53382.5 130 1404103792.5 140 15025.03997.5 150 以上12.540100 合计40100.0 (2)按规定, 销售收入在 125 万元以上为先进企业, 115125 万元为良好企业, 105115 万 元为一般企业,105 万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进 行分组。 频数频率%向上累计频数向上累计频率% 先进企业10251025 良好企业12302255 一般企业922.53177.5 落后企业922.540100 合计40100 33某百货公司连续 40 天的商品销售额如下: 单位:万元 41252947383430384340 46364537373645433344 35284634303744263844 42363737493942323635 要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 答 :1、确定组数: ,取 k=6 2、确定组距: 组距( 最大值 - 最小值) 组数=(49-25)6=4,取 5 3、分组频数表(根据实际资料,调整成分 5个组) 销售收入(万元)频数频率%向上累计频数向上累计频率% 30 以下410410 30 - 356151025 35 - 401537.52562.5 40 - 45922.53485 45 以上61540100 合计40100.0 4、直方图 34利用下面的数据构建茎叶图和箱线图。 5729293631 2347232828 3551391846 1826502933 2146415228 2143194220 答:茎叶图 FrequencyStem &Leaf 3.001 .889 5.002 .01133 7.002 .6888999 2.003 .13 3.003 .569 3.004 .123 3.004 .667 3.005 .012 1.005 .7 箱线图 3.5 答 :频数分布表 灯泡寿命频率向上累积频率(%) 660 以下22% 660-67057% 670-680613% 680-6901427% 690-7002653% 700-7101871% 710-7201384% 720-7301094% 730-740397% 740 以上3100% 合计100 直方图 从直方图看,数据的分布呈左偏分布。 3.6 答 :频数分布表 ,取 k=7 2、确定组距: 组距( 最大值 - 最小值) 组数=(61-40)7=3,取 3 3、分组频数表(根据实际资料,调整成分 5个组) 食品重量(g)频数频率%向上累计频数向上累计频率% 43 以下3343 43 - 46991212 46 - 4924243636 49 - 5219195555 52 -5524247979 55 - 5814149393 58 以上77100100 合计100100.0 从直方图看,数据的分布呈双峰分布。 3.7 频数分布表 重量误差(g)频数频率%向上累计频数向上累计频率% 19-29510510 29-397141224 39-498162040 49-5913263366 59-699184284 69-796124896 79-892450100 合计50100 从直方图看,数据的分布呈左偏分布 3.8 (1)数值型数据 (2)频数分布表 ,取 k=7 2、确定组距: 组距( 最大值 - 最小值) 组数=(9+25)7=4.86,取 5 气温()频数频率%向上累计频数向上累计频率% (-25,-20)610.00610.00 (-20,-15)813.331423.33 (-15,-10)1016.672440.00 (-10.-5)1321.673761.67 (-5.0)1220.004981.67 (0,5)46.675388.33 (5,10)711.6760100.00 合计60100 从直方图看,数据的分布呈左偏分布。 3.9 自学考试人员年龄分布集中在 20-24 之间,分布图呈右偏。 3.10 3.11 3.12 (1)复式条形图 (2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。 (3)根据雷达图,两班成绩分布不相似。 3.13 3.14 第四章习题答案 4.1 数据排列:2,4,7,10,10,10,12,12,14,15 (1)众数:10; 中位数:10 平均数:9.6 (2)四分位数: Q位置=2.5.所以 Q =5.5 Q位置=7.5,所以 Q=13 (3)标准差:4.17 (4)峰度0.25,偏度0.69 4.2 (1)众数:19;23 中位数:23 平均数:24 (2)四分位数: Q位置=6.25.所以 Q =19+0.250=19 Q位置=18.75,所以 Q=25+20.75=26.5 (3)标准差:6.65 (4)峰度 0.77,偏度 1.08 4.3(1)茎叶图略 (2) 平均数:7,标准差 0.71 (3)第一种方式的离散系数=0.28 第二种方式的离散系数=0.10 所以,第二种排队方式等待时间更集中。 (4)选择第二种,因为平均等待的时间短,而且等待时间的集中程度高 4.4 (1)平均数:274.1,中位数:272.5 (2)Q位置=7.5.所以 Q =258+0.253=258.75 Q位置=22.5,所以 Q=284+70.75=289.25 (3)日销售额的标准差:21.17 4.5 产品名称 单位成本 (元) 总成本/元产量 甲企业乙企业甲企业乙企业 A1521003255140217 B203000150015075 C30150015005050 合计66006255340342 甲企业总平均成本=19.41(元) 乙企业总平均成本= 所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品 B 生产的 产量比乙企业多,所以把总平均成本提高了。 4.6 计算数据如表: 按利润额分组 (万元) 组中值企业数(个)利润额 200300250194750593033 3004003503010500176349 400500450421890022860 500600550189900273785 600 以上650117150548639 合计-120512001614666 利润总额的平均数= 利润总额标准差= 峰态系数 偏态系数= 4.7(1)不同。1000 名的平均身高较高; (2)不同。100 名的样本容量的标准差更大; (3)不同,调查 1000 名的样本容量得到最高和最低者的机会较大。 4.8 对于不同的总体的差异程度的比较采用标准差系数,计算如下: ; (1)女生的体重差异大,因为离散系数大; (2)以磅为单位,男生的平均体重为 132.6 磅,标准差为 11.05 磅;女生的平均体重为 110.5 磅,标准差为 11.05 磅 (3),所以大约有 68%的人体重在 55kg65kg 之间; (4),所以大约有 95%的女生体重在 40kg60kg 之间。 4.9; ; 由此可以判断第二项测试更理想。 4.10 时间周一周二周三周四周五周六周日 产量3850367036903720361035903700 z 值30.60.20.41.82.20 可以看出,周一和周六两天生产线失去了控制。 4.11(1)采用离散系数,因为如果比较身高差异,儿童和成年人属于不同的总体; (2), 所以,儿童的身高差异更大。 4.12(1)对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小的 方式 (2)选择方法 A,因为 A 方法下,工人的平均组装数量为 165.6,而且该方法下,工人组装 数量的离散系数只有 0.012,所以选择 A 方法。 4.13(1)用离散系数 (2)商业类 (3)高科技 第六章 统计量与抽样分布 由样本构建具体的统计量, 实际上是对样本所含的总体信息按某种要求进行加工处 理, 把分散在样本中的信息集中到统计量的取值上, 不同的统计推断问题要求构造不同 的统计量。 构造统计量的主要目的就是对总体的未知参数进行推断, 如果统计量中含有总体的 未知参数就没办法再对参数进行统计推断。 2、是统计量,在不是统计量。 4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的 统计量称充分统计量。 5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由 变化的资料的个数。 6 、 7、在重复选取容量为 n 的样本时,由样本统计量的所有取值形成的相对频数分布为统 计量的抽样分布。 二、练习 1、 易知由这台机器灌装的 9 个瓶子形成的样本, 其平均灌装量服从正态分布, 均值为 标准差为,故 2、若,则,即, 又知,故。 3、易知服从自由度为 6的卡方分布,得(左侧分位数) 4、因为服从分布,我们已知,故服从9) 分 布,我们若取 , 则 可 以 得 到, ,故。 (题中均为左侧分位数) 第七章参数估计 7.1 (1) (2)由于 1-=95%=5% 所以估计误差 7.2 (1) (2)因为所以 (3)的置信区间为 7.3 由于n=100 所以的 95%置信区间为 7.4(1)的 90%置信区间为 (2)的 95%置信区间为 (3)的 99%置信区间为 7.5 (1) (2) (3) 7.6 (1) (2) (3) (4) 7.7 90%置信区间为 95%置信区间为 99%置信区间为 7.8 所以 95%置信区间为 7.9由于 所以 95%置信区间为 7.10 (1) (2)中心极限定理 7.11(1) (2)由于 所以 合格率的 95%置信区间为 7.12 由于 所以 99%置信区间为 7.13 所以 90%置信区间为 7.14(1) (2) (3) 7.15(1)90%置信区间为 (2)95%置信区间为 7.16所以 n 为 166 7.17(1)所以 n 为 254 (2)所以 n 为 151 (3)所以 n 为 268 7.18(1) (2)所以 n 为 62 7.19(1) 所以 (2) (3) 7.20(1) (2) 7.21= (1)的 90%置信区间为: = = (2)的 95%置信区间为: = = (3)的 99%置信区间为: = 7.22(1)= (2)=18 = (3)=17.78 = (4) =18.714 = = (5)=20.05 = 7.23(1)= (2)= 7.24,的置信区间为: = 7.25(1) = (2) = 7.26 =2.464 =0.40576 7.27=47.06 所以 n =48 7.28=138.30 所以 n =139 第 8章 假设检验 二、练习题 (说明: 为了便于查找书后正态分布表, 本答案中, 正态分布的分位点均采用了下侧分位点。 其他分位点也可。为了便于查找书后 t 分布表方便,本答案中,正态分布的分位点均采用了 上侧分位点。 ) 8.1 解:根据题意,这是双侧检验问题。 已知:总体方差 当,查表得。 拒绝域 W= 因为,所以不能拒绝 H0,认为现在生产的铁水平均含碳量为 4.55。 (注:为正态分布的 1-/2 下侧分位点 ) 8.2 解:根据题意,这是左单侧检验问题。 已知:总体方差 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,认为该元件的使用寿命低于 700 小时。 (注:为正态分布的 1-下侧分位点 ) 8.3 解:根据题意,这是右单侧检验问题。 已知:总体方差 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,认为这种化肥能使小麦明显增产。 (注:为正态分布的 1-下侧分位点 ) 8.4 解:根据题意,这是双侧检验问题。 方差未知。 已知:总体 根据样本计算得: 当,查表得。 拒绝域 W= 因为,所以不能拒绝 H0,认为该日打包机工作正常。 (注:为 t 分布的/2 上侧分位点 ) 8.5 解:根据题意,这是右单侧检验问题。 已知: 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,认为不符合标准的比例超过 5%,该批食品不 能出厂。 (注:为正态分布的 1-下侧分位点 ) 8.6 解:根据题意,这是右单侧检验问题。 已知: 当,查表得。 拒绝域 W= 因为,所以不能拒绝 H0,认为该厂家的广告不真实。 (注:为 t 分布的上侧分位点 ) 8.7 解:根据题意,这是右单侧检验问题。 已知: 当,查表得。 拒绝域 W= 因为,所以不能拒绝 H0,认为元件的平均寿命不大于 225 小时。 (注:为 t 分布的上侧分位点 ) 8.8 解:根据题意,这是右侧检验问题。 已知: 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,认为成立。 (注:为-分布的上侧分位点 ) 8.9 解:根据题意,这是双侧检验问题。 已知:总体方差 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,可以认为 A,B 两厂生产的材料平均抗压 强度不相同。 (注:为正态分布的 1-/2 下侧分位点 ) 8.10解:根据题意,这是双侧检验问题。 已知:总体方差,但未知 2.3579 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,认为两种方法的装配时间有显著差异。 (注:为 t 分布的上侧分位点 ) 8.11 解:根据题意,这是双侧检验问题。 已知: 在大样本条件下 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,认为调查数据支持“吸烟者容易患慢性气 管炎”这种观点。 (注:为正态分布的 1-/2 下侧分位点 ) 8.12解:根据题意,这是右单侧检验问题。 (1) 等同于(2) 已知: 在 n=144 情况下, (2)中的 H0成立时,t 近似服从标准正态分布。 因此 P=P(t 2.16)=1-0.9846=0.0154。 所以在=0.01 的显著水平,不能拒绝 H0,认为贷款的平均规模没有明显超过 60 万元。 8.13解:根据题意,这是左单侧检验问题。 已知: 在大样本条件下 当,查表得。 拒绝域 W= 因为,所以拒绝 H0,认为阿司匹林可以降低心脏病发生率。 (注:为正态分布的 1-下侧分位点 ) 8.14解: (1)根据题意,这是双侧检验问题。 已知: 当,利用 EXCEL 提供的统计函数“CHIINV” ,得 。 拒绝域 W= 因为, 所以不能拒绝 H0, 认为 成立。 (注:为-分布的上侧分位点 ) (2)根据题意,这是双侧检验问题。 已知:总体方差 当,查表得。 拒绝域 W= 因为,所以不能拒绝 H0,认为螺栓口径为 7.0cm 。 (注:为正态分布的 1-/2 下侧分位点 ) 因此,由(1)和(2)可得:这批螺栓达到了规定的要求。 8.15(1)根据题意,这是双侧检验问题。 已知: 当,利用 EXCEL 提供的统计函数“FINV” ,得 。 拒绝域 W= 因 为, 所 以 不 能 拒 绝 H0, 认 为 成立。 (注:为 F-分布的/2 上侧分位点 ) (2)根据题意,这是右单侧检验问题。 由(1)的分析可知:总体方差,但未知 当,查表得。 拒绝域 W= 因为, 所以拒绝 H0, 认为有显著大学中男生学习成绩比女生好。 (注:为 t 分布的上侧分位点 ) 第十章方差分析 一、思考题 10.1 什么是方差分析?它研究的是什么? 答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是 否有显著影响。它所研究的是分类型自变量对数值型因变量的影响。 10.2 要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法? 答:做两两比较十分繁琐,进行检验的次数较多,会使得犯第 I 类错误的概率相应增 加,而且随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加。而 方差分析方法是同时考虑所有的样本,因此排除了错误累积的概率,从而避免一个真 实的原假设。 10.3方差分析包括哪些类型?它们有何区别? 答:方差分析可分为单因素方差分析和双因素方差分析。区别:单因素方差分析研究 的是一个分类自变量对一个数值型因变量的影响,而双因素涉及两个分类型自变量。 10.4方差分析中有哪些基本假定? 答: (1)每个总体都应服从正态分布 (2)各个总体的方差必须相同 (3)观测值是独立的 10.5 简述方差分析的基本思想 答:它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量 对因变量是否有显著影响。 10.6解释因子和处理的含义 答:在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。 10.7解释组内误差和组间误差的含义 答:组内平均值误差的误差(SSE)是指每个水平或组的各个样本数据与其组平均值误 差平方和,反映了每个样本个观测值的离散状况;组间误差(SSA)是指各组平均值 与总平均值的误差平方和,反映了各样本均值之间的差异程度。 10.8解释组内方差和组间方差的含义 答:组内方差指因素的同一个水平下样本数据的方差;组间方差指因素的不同水平下各 个样本之间的方差。 10.9简述方差分析的基本步骤 答: (1)提出假设 (2)构造检验统计量 (3)统计决策 10.10方差分析中多重比较的作用是什么? 答:通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。 二、练习题 10.1解: 方差分析 差异源SSdfMSFP-value 组间618.91672309.45834.65740.04087724 组内598966.44444 总计1216.91711 相同 10.2解: 方差分析 差异源SSdfMSFP-value 组间93.76812423.4420315.823371.02431E-05 组内26.66667181.481481 总计120.434822 不相同 10.3 解: ANOVA 每桶容量(L) 平方和df均方F显著性 组间0.00730.0028.7210.001 组内0.004150.000 总数0.01118 不相同。 10.4解: 方差分析 差异源SSdfMSFP-value 组间29.60952214.8047611.755730.000849 组内18.89048151.259365 总计48.517 有显著性差异。 10.5 解: 方差分析 差异源SSdfMSFP-value 组间615.62307.817.068390.00031 组内216.41218.03333 总计83214 有显著差异。 LSD 检验:计算得,有因为,则 决策: (1),所以 A 生产企业生产的电池与 B 生产企 业生产的电池平均寿命有显著差异; (2),所以不能 认为 A 生产企业生产的电池与 C 生产企业生产的电池平均寿命有显著差异; (3) , 所以 B 生产企业生产的电池与 C 生产企业生产的电 池平均寿命有显著差异。 10.6解: 方差分析 差异源SSdfMSFP-value 组间5.34915622.6745788.2745180.001962 组内7.434306230.323231 总计12.7834625 有显著性差异 107 (1)方差分析表 差异源SSDfMSFP-valueF crit 组间42022101.478102190.2459463.354131 组内383627142.0740741 总计425629 (2)若显著性水平 a=0.05,检验三种方法组装的产品数量之间是否有显著差异? P=0.025a=0.05,没有显著差异。 10.8解: 方差分析 差异源SSdfMSFP-valueF crit 行1.54933340.38733321.719630.0002367.006077 列3.48421.74297.682242.39E-068.649111 误差0.14266780.017833 总计5.17614 (1)或 p=0.000236,所以不同包装对食品的 销售量无显著性差异。 10.11解: 方差分析 差异源SSdfMSFP-valueF crit 样本1752287648.666675.49E-086.012905 列798239922.166671.4E-056.012905 交互182.6667445.666672.5370370.0759024.579036 内部3241818 总计3056.66726 (1)竞争者的数量对销售额有显著影响 (2)超市位置对销售额有显著影响 (3)无交互作用 10.12解: 方差分析 差异源SSdfMSFP-valueF crit 样本344217210.750.0103865.143253 列4814830.1339755.987378 交互562281.750.2519325.143253 内部96616 总计54411 (1)广告方案对销售量有显著影响 (2)广告媒体形式对销售量无显著影响 (3)无交互作用 第 11 章一元线性回归 一、思考题 111变量之间存在的互相依存的不确定的数量关系,称为相关关系。相关关系的特 点: 变量之间确实存在着数量上的依存关系;变量之间数量上的关系是不确定、不严格 的依存关系。 112相关分析通过对两个变量之间的线性关系的描述与度量,主要解决的问题包括: 变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系 强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系? 113在进行相关分析时,对总体主要有以下两个假定:两个变量之间是线性关系; 两个变量都是随机变量。 114相关系数的性质:r 的取值范围是-1,1,r 为正表示正相关,r 为负表示负相 关,r 绝对值的大小表示相关程度的高低;对称性:X 与 Y 的相关系数和 Y 与 X 之间 的相关系数相等;相关系数与原点和尺度无关;相关系数是线性关联或线性相依的 一个度量, 它不能用于描述非线性关系; 相关系数只是两个变量之间线性关联的一个度量, 却不一定意味两个变量之间有因果关系;若 X 与 Y 统计上独立,则它们之间的相关系数 为零;但 r=0 不等于说两个变量是独立的。即零相关并不一定意味着独立性。 115在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而 带有一定的随机性。样本容量越小,其可信程度就越差,抽取的样本不同,r 的取值也会不 同,因此 r 是一个随机变量。能否用样本相关系数来反映总体的相关程度,需要考察样本相 关系数的可靠性,因此要进行显著性检验。 116相关系数显著性检验的步骤:提出假设;计算检验统计量 t 值;在给定的 显著性水平和自由度,查 t 分布表中相应的临界值,作出决策。 117回归模型是对统计关系进行定量描述的一种数学模型,例如:对于具有线性关 系的两个变量, 可以有一元线性方程来描述它们之间的关系, 描述因变量 y 如何依赖自变量 x 和误差项的方程称为回归模型。 回归方程是对变量之间统计关系进行定量描述的一种数学表达式。 指具有相关的随机变 量和固定变量之间关系的方程。 当总体回归系数未知时, 必须用样本数据去估计, 用样本统计量代替回归方程中的未知 参数,就得到了估计的回归方程。 118一元线性回归模型通常有以下几条基本的假定:变量之间存在线性关系;在 重复抽样中,自变量 x 的取值是固定的;误差项是一个期望为零的随机变量;)对于所 有的 x 值,误差项的方差都相同;误差项是一个服从正态分布的随机变量,且相 互独立。即。 119参数最小二乘法的基本原理是:因变量的观测值与估计值之间的离差平方和最 小。 1110总平方和指 n 次观测值的的离差平方和,衡量的是被解释变量 y 波动的程度或 不确定性的程度。 回归平方和反映 y 的总变差中由于 x 与 y 之间的线性关系引起的 y 的变化 部分, 这是可以由回归直线来解释的部分, 衡量的是被解释变量 y 不确定性程度中能被解释 变量 x 解释的部分。 残差平方和是除了 x 对 y 的线性影响之外的其他因素引起的 y 的变化部 分,是不能由回归直线来解释的部分。它们之间的关系是: 总平方和=回归平方和 + 残差平方和。 1111回归平方和占总平方和的比例称为判定系数。判定系数测量了回归直线对观测 数据的拟合程度。 1112在回归分析中,F 检验是为检验自变量和因变量之间的线性关系是否显著,通 过均方回归与均方残差之比,构造 F 检验统计量,提出假设,根据显著性水平,作出判断。 t 检验是回归系数的显著性检验,要检验自变量对因变量的影响是否显著,通过构造 t 检验统计量,提出假设,根据显著性水平,作出判断。 1113线性关系检验的步骤:提出假设;构造 F 检验统计量; ;根据显著性水平,作出判断。 回归系数检验的步骤:提出假设;构造 t 检验统计量; ;根据显著性水平,作出判断。 1114回归分析结果的评价可以从以下几个方面:回归系数的符号是否与理论或事 先预期相一致;自变量与因变量之间的线性关系,在统计上是否显著;根据判定系数的 大小,判断回归模型解释因变量取值差异的程度;误差项的正态假定是否成立。 1115置信区间估计是对 x 的一个给定值,求出 y 的平均值的区间估计。预测区间 估计是对 x 的一个给定值,求出 y 的一个个别值的区间估计。二者的区别是:置信区间 估计的区间长度通常较短,而预测区间估计的区间长度要长,也就是说,估计 y 的平均值比 预测 y 的一个特定值或个别值更精确。 1116残差分析在回归分析中的作用:回归分析是确定两种或两种以上变量间的定量 关系的一种统计分析方法 判断回归模型的拟合效果是回归分析的重要内容, 在回归分析中, 通常用残差分析来判断回归模型的拟合效果,并判定关于误差项的正态假设是否成立。 二、练习题 111(1)散点图如下: 从散点图可以看出,产量与生产费用之间为正的线性相关关系。 (2)利用 Excel 的“CORREL”函数计算的相关系数为。 (3)首先提出如下假设:,。 计算检验的统计量 当时,。由于检验统计量, 拒 绝原假设。表明产量与生产费用之间的线性关系显著。 112(1)散点图如下: 从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。 (2)利用 Excel 的“CORREL”函数计算的相关系数为。相关系数, 表明复习时间与考试分数之间有较强的正线性相关关系。 113.(1)表示当时的期望值为 10。 (2)表示每增加一个单 位,平均下降 0.5 个单位。 (3)时,。 14 (1) 表示, 在因变量取值的变差中, 有 90%可以由与之间的线性关系来解 释。 (2) 表示,当用来预测时,平均的预测误差为 0.5。 115 (1)散点图如下: 从散点图可以看出,运送距离与运送时间之间为正的线性相关关系。 (2)利用 Excel 的“CORREL”函数计算的相关系数为。相关系数, 表明运送距离与运送时间之间有较强的正线性相关关系。 (3)由 Excel 输出的回归结果如下表: 回归统计 Multiple R0.948943 R Square0.900492 Adjusted R Square0.888054 标准误差0.480023 观测值10 方差 dfSSMSFSignificance F 回归分析116.6816216.6816272.395852.79E-05 残差81.8433790.230422 总计918.525 Coefficients标准误差t StatP-value Intercept0.1181290.3551480.332620.74797 X Variable 10.0035850.0004218.5085752.79E-050.002613 得到的回归方程为: 回归系数表示运送距离每增加 1 公里,运送时间平均增加 0.003585 天。 116 (1)散点图如下: 从散点图可以看出,人均 GDP 与人均消费水平为正的线性相关关系。 (2) 利用 Excel 的“CORREL”函数计算的相关系数为。 相关系数接近于 1, 表明人均 GDP 与人均消费水平之间有非常强的正线性相关关系。 (3)Excel 输出的回归结果如下表: 回归统计 Multiple R0.998128 R Square0.996259 Adjusted R Square0.995511 标准误差247.3035 观测值7 方差分析 dfSSMSFSignificance F 回归181444969814449691331.6922.91E-07 残差530579561159.01 总计681750764 Coefficients标准误差t StatP-value Intercept734.6928139.54035.2650940.003285 X Variable 10.3086830.00845936.492362.91E-07 得到的回归方程为:。回归系数表示人均 GDP 每增加 1元,人均消费水平平均增加 0.308683 元。 (4)判定系数。表明在人均消费水平的变差中,有 99.6259%是由人均 GDP 决定的。 (5)首先提出如下假设:, 由于 Significance F,拒绝原假设,表明人均 GDP 与人均消费水平之间的线 性关系显著。 (6)(元) 。 (7)当时,。 置信区间为: 即(1990.7,2565.5) 。 预测区间为: 即(1580.3,2975.9) 117 (1) 散点图如下: 从散点图可以看出,航班正点率与被投诉次数之间为负的线性相关关系。 (2)由 Excel 输出的回归结果如下表: 回归统计 Multiple R0.868643 R Square0.75454 Adjusted R Square0.723858 标准误差18.88722 观测值10 方差分析 dfSSMSFSignificance F 回归分析18772.5848772.58424.591870.001108 残差82853.816356.727 总计911626.4 Coefficients标准误差t StatP-value Intercept430.189272.154835.9620290.000337 X Variable 1-4.700620.947894-4.959020.001108 得到的回归方程为:。回归系数表示航班正点率每增 加 1%,顾客投诉次数平均下降 4.7 次。 (3)回归系数检验的 P-Value=0.001108) ,拒绝原假设,回归系数显著。 (4)(次) (5)当时, 置信区间为: 即(37.7,70.7) 预测区间为: 即(7.6,100.8) 118Excel 输出的回归结果如下: Multiple R0.7951 R Square0.6322 Adjusted R Square0.6117 标准误差2.6858 观测值20 方差分析 dfSSMSFSignificance F 回归1223.1403223.140330.93322.79889E-05 残差18129.84527.2136 总计19352.9855 Coefficients标准误差t StatP-value Intercept49.31773.805012.96120.0000 X Variable 10.24920.04485.56180.0000 由上表结果可知,出租率与月租金之间的线性回归方程为:。 回归系数表示:月租金每增加 1元,出租率平均增加 0.2492%。 ,表明在出租率的变差中被出租率与租金之间的线性关系所解释的比例 为 63.22%,回归方程的拟合程度一般。 估计标准误差表示,当用月租金来预测出租率时,平均的预测误差为 2.6858%,表明预测误差并不大。 由方差分析表可知,Significance F=2.79889E-05回归方程的线性关系显著。 回归系数检验的 P-value=0.0000,表明回归系数显著,即月租金是影响出租率的 显著性因素。 119 (1)方差分析表中所缺的数值如下 方差分析表如下: 变差来源dfSSMSFSignificance F 回归11422708.61422708.6354.2772.17E-09 残差1040158.074015.807 总计111642866.67 (2)根据方差分析表计算的判定系数 表明汽车销售量的变差中有 86.60%是由于广告费用的变动引起的。 (3)相关系数可由判定系数的平方根求得: (4)回归方程为:。回归系数表示广告费 用每增加一个单位,销售量平均增加 1.420211 个单位。 (5)由于 Significance F2.17E-09,表明广告费用与销售量之间的线性关系 显著。 1110Excel 输出的回归结果如下: 回归统计 Multiple R0.968167 R Square0.937348 Adjusted R Square0.916463 标准误差3.809241 观测值5 方差分析 dfSSMSFSignificance F 回归分析1651.2691651.269144.883180.006785 残差343.5309414.51031 总计4694.8 Coefficients标准误差t StatP-value Intercept13.625414.3994283.0970860.053417 X Variable 12.3029320.3437476.6994910.006785 由上述结果可知:回归方程为,回归系数表明,每增加一个 单位平均增加 2.3029 个单位;判定系数,表明回归方程的拟合程度较高; 估计标准误差,表明用来预测时平均的预测误差为 3.8092。 1111 (1)检验统计量: (2) (3)由于,所以拒绝原假设 (4)根据相关系数与判定系数之间的关系可知, (5)提出假设:, 由于,拒绝,线性关系显著。 1112 (1)当时,。当, 。的平均值的 95%的置信区间为: 即(15.95,18.05) (2)预测区间为: 即(14.65,19.35) 1113Excel 输出的回归结果如下: 回归统计 Multiple R0.947663 R Square0.898064 Adjusted R Square0.881075 标准误差108.7575 观测值8 方差分析 dfSSMSFSignificance F 回归分析1625246.3625246.352.860650.000344 残差670969.211828.2 总计7696215.5 Coefficients标准误差t StatP-value Intercept-46.291864.89096-0.713380.502402 X Variable 115.239772.0961017.2705330.000344 得到的线性回归方程为: 当时 ,。 当, 。 (2)销售收入 95%的置信区间为: 即(270.65,685.04) 。 。 1114回归 1残差图: 回归 2残差图:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绝境求生考试题及答案
- 酒馆礼仪考试题及答案
- 静脉采血考试题及答案
- 结业党课考试题及答案
- 美发用品供货合同范本
- 选购铝链采购合同范本
- 甲方工程造价合同范本
- 运输合同安全协议范本
- 电脑动画设计合同范本
- 重卡销售服装合同范本
- 成都银行招聘考试真题2024
- 专利代理培训课件
- 人教版(PEP)(2024)英语四年级上册2025-2026学年教学计划
- 浙江省名校协作体2025-2026学年高二上学期开学联考英语试卷(PDF版含答案含听力原文无音频)
- GJB3243A-2021电子元器件表面安装要求
- 人工智能技术在网络安全威胁检测中的应用
- 电焊机安全知识培训课件
- 2025内蒙古民族大学招聘管理助理、教学助理50人笔试模拟试题及答案解析
- 2025年麻醉、第一类精神药品管理培训考核试题及答案(护士卷)
- 反恐重点单位授课课件
- 2025年事业单位笔试-贵州-贵州药事管理(医疗招聘)历年参考题库含答案解析
评论
0/150
提交评论