




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章导论2111(1)数值型变量。(2)分类变量。(3)离散型变量。(4)顺序变量。(5)分类变量。12(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。13(1)总体是所有IT从业者的集合。(2)数值型变量。(3)分类变量。(4)截面数据。14(1)总体是所有在网上购物的消费者的集合。(2)分类变量。(3)参数是所有在网上购物者的月平均花费。(4)参数(5)推断统计方法。第二章数据的搜集1什么是二手资料使用二手资料需要注意些什么与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。使用二手资料时需要注意资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。2比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。3调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法实验式、观察式等。4自填式、面方式、电话式调查个有什么利弊自填式优点调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。缺点返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。面谈式优点回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。电话式优点速度快,对调查员比较安全,对访问过程的控制比较容易,缺点实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。5请举出(或设计)几个实验数据的例子。不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。6你认为应当如何控制调查中的回答误差对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。7怎样减少无回答请通过一个例子,说明你所考虑到的减少无回答的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。第三章数据的图表搜集一、思考题31数据的预处理包括哪些内容答审核、筛选、排序等。32分类数据和顺序数据的整理和显示方法各有哪些答分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。33数值型数据的分组方法有哪些简述组距分组的步骤。答单变量值分组和组距分组。其中组距分组第一步,确定组数,组数多少由数据的多少和特点等决定,一般515组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。34直方图和条形图有何区别答1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。35绘制线图应注意问题答时间在横轴,观测值绘在纵轴。一般是长宽比例107的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。36饼图和环形图的不同答饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。37茎叶图比直方图的优势,他们各自的应用场合答茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。38鉴别图标优劣的准则答P65明确有答案,我就不写了。39制作统计表应注意的问题答1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。二、练习题31答(1)表中数据属于顺序数据。2用EXCEL制作一张频数分布表。服务等级家庭数目(个)好14较好21一般32较差18差153绘制一张条形图,反映评价等级的分布。服务等级的条形图010203040好较好一般较差差服务等级家庭数目(个)4绘制评价等级的帕累托图。售后服务等级的帕累托图010203040一般较好较差差好其他频率0005000100001500032某行业管理局所属40个企业2002年的产品销售收入数据如下1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要求1根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。1、确定组数,取K6LG40L1620132NK2、确定组距组距最大值最小值组数(15287)61083,取103、分组频数表销售收入频数频率向上累计频数向上累计频率8090252590100375512510011092251435110120123026651201307175338251301404103792514015025039975150以上12540100合计4010002按规定,销售收入在125万元以上为先进企业,115125万元为良好企业,105115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。频数频率向上累计频数向上累计频率先进企业10251025良好企业12302255一般企业922531775落后企业922540100合计4010033某百货公司连续40天的商品销售额如下单位万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。答1、确定组数,取K6LG40LG160213223NK2、确定组距组距最大值最小值组数(4925)64,取53、分组频数表(根据实际资料,调整成分5个组)销售收入(万元)频数频率向上累计频数向上累计频率30以下410410303561510253540153752562540459225348545以上61540100合计4010004、直方图商店40天销售额的直方图05101530以下30353540404545以上销售额万元频率天00050001000015000频率累积34利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220答茎叶图FREQUENCYSTEM8,107显著水平BBAANXNX5964781322BANZ当,查表得。052/Z拒绝域W/1因为,所以拒绝H0,可以认为A,B两厂生产的材料平均抗压强度不相2/9ZZ同。(注为正态分布的1/2下侧分位点)2/1810解根据题意,这是双侧检验问题。0210H已知总体方差,但未知05203,1,678,7532211显著水平PSNXNX23579103521NSTP当,查表得。056872/T拒绝域W32/T因为,所以拒绝H0,认为两种方法的装配时间有显著差异。79/T(注为T分布的上侧分位点)T811解根据题意,这是双侧检验问题。210H已知05,3956,14,205,134,5显著水平PNP在大样本条件下73291420539615412NPZ当,查表得。05/1Z拒绝域W2/因为,所以拒绝H0,认为调查数据支持“吸烟者容易患慢性气管炎”这/1739ZZ种观点。(注为正态分布的1/2下侧分位点)2/1812解根据题意,这是右单侧检验问题。(1)600H等同于(2)1已知14,5,68,0NSX214/5/NSZ在N144情况下,(2)中的H0成立时,T近似服从标准正态分布。因此PPT21610984600154。所以在001的显著水平,不能拒绝H0,认为贷款的平均规模没有明显超过60万元。813解根据题意,这是左单侧检验问题。210H已知05,2093,1,8,0,4221显著水平PNP在大样本条件下924102093184121NPZ当,查表得。056451Z拒绝域W因为,所以拒绝H0,认为阿司匹林可以降低心脏病发生率。1924ZZ(注为正态分布的1下侧分位点)1814解(1)根据题意,这是双侧检验问题。03210H已知05,80,0375,2显著水平NS97202N当,利用EXCEL提供的统计函数“CHIINV”,得5。472105,308562/2/1拒绝域W97922、或因为,所以不能拒绝H0,认为成立。/2/10320(注为分布的上侧分位点)7922(2)根据题意,这是双侧检验问题。010H已知总体方差3205,80,976,70显著水平NX51/30/NXZ当,查表得。059612/Z拒绝域W/1因为,所以不能拒绝H0,认为螺栓口径为70CM。2/96ZZ(注为正态分布的1/2下侧分位点)2/1因此,由(1)和(2)可得这批螺栓达到了规定的要求。815(1)根据题意,这是双侧检验问题。210H已知05,16,49,5,6221显著水平NSNS4921F当,利用EXCEL提供的统计函数“FINV”,得05。6138279,15072/2/1F拒绝域W9、或F因为,所以不能拒绝H0,认为,638,52/2/1成立。0H(注为F分布的/2上侧分位点),2/F(2)根据题意,这是右单侧检验问题。0210H由(1)的分析可知总体方差,但未知2105,6,785,8221显著水平NXNX3075212SSSP7126253075812NSXTP当,查表得。08491T拒绝域W39T因为,所以拒绝H0,认为有显著大学中男生学习成绩比女生好。712/(注为T分布的上侧分位点)T第十章方差分析一、思考题101什么是方差分析它研究的是什么答方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是分类型自变量对数值型因变量的影响。102要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法答做两两比较十分繁琐,进行检验的次数较多,会使得犯第I类错误的概率相应增加,而且随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加。而方差分析方法是同时考虑所有的样本,因此排除了错误累积的概率,从而避免一个真实的原假设。103方差分析包括哪些类型它们有何区别答方差分析可分为单因素方差分析和双因素方差分析。区别单因素方差分析研究的是一个分类自变量对一个数值型因变量的影响,而双因素涉及两个分类型自变量。104方差分析中有哪些基本假定答(1)每个总体都应服从正态分布(2)各个总体的方差必须相同2(3)观测值是独立的105简述方差分析的基本思想答它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。106解释因子和处理的含义答在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。107解释组内误差和组间误差的含义答组内平均值误差的误差(SSE)是指每个水平或组的各个样本数据与其组平均值误差平方和,反映了每个样本个观测值的离散状况;组间误差(SSA)是指各组平均值与总平均值的误差平方和,反映了各样本均值之间的差异程度。108解释组内方差和组间方差的含义答组内方差指因素的同一个水平下样本数据的方差;组间方差指因素的不同水平下各个样本之间的方差。109简述方差分析的基本步骤答(1)提出假设(2)构造检验统计量(3)统计决策1010方差分析中多重比较的作用是什么答通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。二、练习题101解方差分析差异源SSDFMSFPVALUE组间61891672309458346574004087724组内59896644444总计121691711相同102解方差分析差异源SSDFMSFPVALUE组间9376812423442031582337102431E05组内2666667181481481总计120434822不相同103解ANOVA每桶容量(L)平方和DF均方F显著性组间00073000287210001组内0004150000总数001118不相同。104解方差分析差异源SSDFMSFPVALUE组间29609522148047611755730000849组内1889048151259365总计48517有显著性差异。105解方差分析差异源SSDFMSFPVALUE组间6156230781706839000031组内2164121803333总计83214有显著差异。LSD检验计算得,有因为,则4AX30BX642C5CBAN62513189212NMSETLD决策(1),所以A生产企业生产的电池与B生产企业生产654304BAX的电池平均寿命有显著差异;(2),所以不能认为A生产62812CAX企业生产的电池与C生产企业生产的电池平均寿命有显著差异;(3),所以B生产企业生产的电池与C生产企业生产的电池平均6251420BX寿命有显著差异。106解方差分析差异源SSDFMSFPVALUE组间53491562267457882745180001962组内7434306230323231总计127834625有显著性差异107(1)方差分析表差异源SSDFMSFPVALUEFCRIT组间420221014781021902459463354131组内3836271420740741总计425629(2)若显著性水平A005,检验三种方法组装的产品数量之间是否有显著差异P0025A005,没有显著差异。108解方差分析差异源SSDFMSFPVALUEFCRIT行154933340387333217196300002367006077列3484217429768224239E068649111误差014266780017833总计517614(1)或P0000236,所以不同销售地区对食品976072FFR05的销售量无显著性差异;(2)或P0152,所以不同包装对食品的销售4213C量无显著性差异。1011解方差分析差异源SSDFMSFPVALUEFCRIT样本175228764866667549E086012905列7982399221666714E056012905交互182666744566667253703700759024579036内部3241818总计305666726(1(竞争者的数量对销售额有显著影响(2(超市位置对销售额有显著影响(3(无交互作用1012解方差分析差异源SSDFMSFPVALUEFCRIT样本3442172107500103865143253列48148301339755987378交互5622817502519325143253内部96616总计54411(1)广告方案对销售量有显著影响(2)广告媒体形式对销售量无显著影响(3)无交互作用第11章一元线性回归一、思考题111变量之间存在的互相依存的不确定的数量关系,称为相关关系。相关关系的特点变量之间确实存在着数量上的依存关系;变量之间数量上的关系是不确定、不严格的依存关系。112相关分析通过对两个变量之间的线性关系的描述与度量,主要解决的问题包括变量之间是否存在关系如果存在关系,它们之间是什么样的关系变量之间的关系强度如何样本所反映的变量之间的关系能否代表总体变量之间的关系113在进行相关分析时,对总体主要有以下两个假定两个变量之间是线性关系;两个变量都是随机变量。114相关系数的性质R的取值范围是1,1,R为正表示正相关,R为负表示负相关,R绝对值的大小表示相关程度的高低;对称性X与Y的相关系数和Y与X之间的相关系数相等;相XYYX关系数与原点和尺度无关;相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;相关系数只是两个变量之间线性关联的一个度量,却不一定意味两个变量之间有因果关系;若X与Y统计上独立,则它们之间的相关系数为零;但R0不等于说两个变量是独立的。即零相关并不一定意味着独立性。115在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性。样本容量越小,其可信程度就越差,抽取的样本不同,R的取值也会不同,因此R是一个随机变量。能否用样本相关系数来反映总体的相关程度,需要考察样本相关系数的可靠性,因此要进行显著性检验。116相关系数显著性检验的步骤提出假设;计算检验统计量T值;在给定的显著性水平和自由度,查T分布表中相应的临界值,作出决策。117回归模型是对统计关系进行定量描述的一种数学模型,例如对于具有线性关系的两个变量,可以有一元线性方程来描述它们之间的关系,描述因变量Y如何依赖自变量X和误差项的方程称为回归模型。回归方程是对变量之间统计关系进行定量描述的一种数学表达式。指具有相关的随机变量和固定变量之间关系的方程。当总体回归系数未知时,必须用样本数据去估计,用样本统计量代替回归方程中的未知参数,就得到了估计的回归方程。118一元线性回归模型通常有以下几条基本的假定变量之间存在线性关系;在重复抽样中,自变量X的取值是固定的;误差项是一个期望为零的随机变量;对于所有的X值,误差项的方差都相同;误差项是一个服从正态分布的随机变量,且相互独立。即。220,N119参数最小二乘法的基本原理是因变量的观测值与估计值之间的离差平方和最小。1110总平方和指N次观测值的的离差平方和,衡量的是被解释变量Y波动的程度或不确定性的程度。回归平方和反映Y的总变差中由于X与Y之间的线性关系引起的Y的变化部分,这是可以由回归直线来解释的部分,衡量的是被解释变量Y不确定性程度中能被解释变量X解释的部分。残差平方和是除了X对Y的线性影响之外的其他因素引起的Y的变化部分,是不能由回归直线来解释的部分。它们之间的关系是总平方和回归平方和残差平方和。1111回归平方和占总平方和的比例称为判定系数。判定系数测量了回归直线对观测数据的拟合程度。1112在回归分析中,F检验是为检验自变量和因变量之间的线性关系是否显著,通过均方回归与均方残差之比,构造F检验统计量,提出假设,根据显著性水平,作出判断。T检验是回归系数的显著性检验,要检验自变量对因变量的影响是否显著,通过构造T检验统计量,提出假设,根据显著性水平,作出判断。1113线性关系检验的步骤提出假设;构造F检验统计量;01H;根据显著性水平,作出判断。/12SRMSFEN回归系数检验的步骤提出假设;构造T检验统计量;0110;根据显著性水平,作出判断。1TS1114回归分析结果的评价可以从以下几个方面回归系数的符号是否与理论或事先预期相一致;自变量与因变量之间的线性关系,在统计上是否显著;根据判定系数的大小,判断回归模型解释因变量取值差异的程度;误差项的正态假定是否成立。1115置信区间估计是对X的一个给定值,求出Y的平均值的区间估计。预测区间估计是对X0X的一个给定值,求出Y的一个个别值的区间估计。二者的区别是置信区间估计的区间长度通常较短,0X而预测区间估计的区间长度要长,也就是说,估计Y的平均值比预测Y的一个特定值或个别值更精确。1116残差分析在回归分析中的作用回归分析是确定两种或两种以上变量间的定量关系的一种统计分析方法判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果,并判定关于误差项的正态假设是否成立。二、练习题111(1)散点图如下04080120160200050100150产量生产费用从散点图可以看出,产量与生产费用之间为正的线性相关关系。(2)利用EXCEL的“CORREL”函数计算的相关系数为。923R(3)首先提出如下假设,。0H1计算检验的统计量435792019231RNT当时,。由于检验统计量,拒绝058205T28TT原假设。表明产量与生产费用之间的线性关系显著。112(1)散点图如下020406080100010203040复习时间考试分数从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。(2)利用EXCEL的“CORREL”函数计算的相关系数为。相关系数,表明复习861R8R时间与考试分数之间有较强的正线性相关关系。1131表示当时的期望值为10。(2)表示每增加一个单位,10XY501X平均下降05个单位。(3)时,。Y67650E14(1)9432SRST表示,在因变量取值的变差中,有90可以由与之间的线性关系来解释。902RYXY(2)502184NESE表示,当用来预测时,平均的预测误差为05。50ESXY115(1)散点图如下0123456050010001500运送距离运送时间从散点图可以看出,运送距离与运送时间之间为正的线性相关关系。(2)利用EXCEL的“CORREL”函数计算的相关系数为。相关系数,表明运送948R8R距离与运送时间之间有较强的正线性相关关系。(3)由EXCEL输出的回归结果如下表回归统计MULTIPLER0948943RSQUARE0900492ADJUSTEDRSQUARE0888054标准误差0480023观测值10方差DFSSMSFSIGNIFICANCEF回归分析1166816216681627239585279E05残差818433790230422总计918525COEFFICIENTS标准误差TSTATPVALUEINTERCEPT01181290355148033262074797XVARIABLE1000358500004218508575279E050002613得到的回归方程为XY035818290回归系数表示运送距离每增加1公里,运送时间平均增加0003585天。351116(1)散点图如下02000400060008000100001200014000010000200003000040000人均GDP人均消费水平从散点图可以看出,人均GDP与人均消费水平为正的线性相关关系。(2)利用EXCEL的“CORREL”函数计算的相关系数为。相关系数接近于1,表明人9812R均GDP与人均消费水平之间有非常强的正线性相关关系。(3)EXCEL输出的回归结果如下表回归统计MULTIPLER0998128RSQUARE0996259ADJUSTEDRSQUARE0995511标准误差2473035观测值7方差分析DFSSMSFSIGNIFICANCEF回归181444969814449691331692291E07残差53057956115901总计681750764COEFFICIENTS标准误差TSTATPVALUEINTERCEPT7346928139540352650940003285XVARIABLE1030868300084593649236291E07得到的回归方程为。回归系数表示人均GDP每XY3086927430861增加1元,人均消费水平平均增加0308683元。(4)判定系数。表明在人均消费水平的变差中,有996259是由人均GDP决定的。6502R(5)首先提出如下假设,01H01由于SIGNIFICANCEF,拒绝原假设,表明人均GDP与人均消费水平之间的线性关系显著。5(6)(元)。107823086927450Y(7)当时,。575T435ES置信区间为4287107854091273055122020NIIEXSTY即(19907,25655)。预测区间为86971027854091271243055122020NIIEXSTY即(15803,29759)117(1)散点图如下020406080100120140020406080100航班正点率投诉次数从散点图可以看出,航班正点率与被投诉次数之间为负的线性相关关系。(2)由EXCEL输出的回归结果如下表回归统计MULTIPLER0868643RSQUARE075454ADJUSTEDRSQUARE0723858标准误差1888722观测值10方差分析DFSSMSFSIGNIFICANCEF回归分析18772584877258424591870001108残差82853816356727总计9116264COEFFICIENTS标准误差TSTATPVALUEINTERCEPT4301892721548359620290000337XVARIABLE147006209478944959020001108得到的回归方程为。回归系数表示航班正点率每增加1,顾XY74189230741客投诉次数平均下降47次。(3)回归系数检验的PVALUE0001108),拒绝原假设,回归系数显著。05(4)(次)189247189208Y(5)当时,53605T872ES置信区间为48169253970245861723012020NIIEXSTY即(377,707)预测区间为574618923970245861182302020NIIEXSTY即(76,1008)118EXCEL输出的回归结果如下MULTIPLER07951RSQUARE06322ADJUSTEDRSQUARE06117标准误差26858观测值20方差分析DFSSMSFSIGNIFICANCEF回归122314032231403309332279889E05残差18129845272136总计193529855COEFFICIENTS标准误差TSTATPVALUEINTERCEPT4931773805012961200000XVARIABLE102492004485561800000由上表结果可知,出租率与月租金之间的线性回归方程为。回归系数XY249031749表示月租金每增加1元,出租率平均增加02492。24901,表明在出租率的变差中被出租率与租金之间的线性关系所解释的比例为6322,63R回归方程的拟合程度一般。估计标准误差表示,当用月租金来预测出租率时,平均的预测误差为26858,表明852ES预测误差并不大。由方差分析表可知,SIGNIFICANCEF279889E05回归方程的线性关系显著。回归系数05检验的PVALUE00000,表明回归系数显著,即月租金是影响出租率的显著性因素。05119(1)方差分析表中所缺的数值如下方差分析表如下变差来源DFSSMSFSIGNIFICANCEF回归11422708614227086354277217E09残差1040158074015807总计11164286667(2)根据方差分析表计算的判定系数60806714282STR表明汽车销售量的变差中有8660是由于广告费用的变动引起的。(3)相关系数可由判定系数的平方根求得932R(4)回归方程为。回归系数表示广告费用每增XY401689342011加一个单位,销售量平均增加1420211个单位。(5)由于SIGNIFICANCEF217E09,表明广告费用与销售量之间的线性关系显著。51110EXCEL输出的回归结果如下回归统计MULTIPLER0968167RSQUARE0937348ADJUSTEDRSQUARE0916463标准误差3809241观测值5方差分析DFSSMSFSIGNIFICANCEF回归分析16512691651269144883180006785残差343530941451031总计46948COEFFICIENTS标准误差TSTATPVALUEINTERCEPT1362541439942830970860053417XVARIABLE12302932034374766994910006785由上述结果可知回归方程为,回归系数表明,每增加一个单位平XY30296541XY均增加23029个单位;判定系数,表明回归方程的拟合程度较高;估计标准误差792R,表明用来预测时平均的预测误差为38092。80923ESXY1111(1)检验统计量2704162NSEF(2)012,5,NF(3)由于,所以拒绝原假设4710H(4)根据相关系数与判定系数之间的关系可知,746062SERSTRR(5)提出假设,01H1由于,拒绝,线性关系显著。427F1112(1)当时,。当,X7435Y05。的平均值的95的置信区间为1022052TNTY05172041021720NIIEXSTY即(1595,1805)(2)预测区间为34902170421012722020NIIEXSTY即(1465,1935)1113EXCEL输出的回归结果如下回归统计MULTIPLER0947663RSQUARE0898064ADJUSTEDRSQUARE0881075标准误差1087575观测值8方差分析DFSSMSFSIGNIFICANCEF回归分析16252463625246352860650000344残差6709692118282总计76962155COEFFICIENTS标准误差TSTATPVALUEINTERCEPT46291864890960713380502402XVARIABLE11523977209610172705330000344得到的线性回归方程为XY239715846当时,。当,40X2964029E05。78225TNT(2)销售收入95的置信区间为745129563269187543080122020NIIEXSTY即(27065,68504)。08440YE1114回归1残差图回归1残差1510500511522530510152025回归1残差回归2残差图回归2残差15105005115205101520回归2残差结论回归1的残差基本上位于一条水平带中间,说明变量之间的线性假设以及对误差项正态假设是成立,用一元线性回归方程描述变量间的关系是合适的。回归2的残差表示,变量之间用一元线性回归模型不合理,应考虑曲线回归或多元回归。1115(1)估计的回归方程为2931547YX(2)由于SIGNIFICANCEF0020,表明广告费支出与销售额之间的线性关系显著。0(3)残差图XVARIABLE1RESIDUALPLOT20100100510152025XVARIABLE1残差从图上看,关于误差项的假定不满足。(4)广告费支出X与销售额Y关系的散点图销售额Y01020304050600510152025销售额Y从广告费支出X与销售额Y关系的散点图上看,用二次函数或其它曲线模型会更好。第十二章多元线性回归121解释多元回归模型、多元回归方程、估计的多元回归方程的含义。答设因变量为,个自变量分别为,描述因变量如何依赖于自变量,YK1X2KXY1X,和误差项的方程称为多元回归模型。其中,2XK0,是模型的参数;为误差项。01在多元回归模型的基本假定下,因变量的期望,该式被YKXXE210称为多元回归方程。回归方程中的参数,是未知的,需要利用样本数据去估计它们。当用样本统计量01K,去估计回归方程中的未知参数,时,就得到了估计的多元回归方程01K01K。KXXY2122多元线性回归模型中有哪些基本假定答(1)误差项是一个期望值为0的随机变量,即。0E(2)对于自变量,的所有值,的方差都相同。1X2KX2(3)误差项是一个服从正态分布的随机变量,且相互独立,即。,2N123解释多重判定系数和调整的多重判定系数的含义和作用。答多重判定系数是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程2R度的一个统计量,反映了在因变量的变差中被估计的回归方程所解释的比例。为避免增加自变量而高估,统计学家提出用样本量和自变量的个数去调整,计算出调整2NK2R的多重判定系数,其意义与类似,表示在用样本量和模型中自变量的112KNA2R个数进行调整后,在因变量的变差中被估计的回归方程所解释的比例。124解释多重共线性的含义。答当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。125多重共线性对回归分析有哪些影响答首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响,特别是的正负号有可能同预期的正负号相反。I126多重共线性的判别方法主要有哪些答(1)模型中各对自变量之间显著相关。(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数的检验却不显著。IT(3)回归系数的正负号与预期的相反。(4)容忍度越小,也即方差扩大因子VIF越大,多重共线性越严重。通常容忍度小于01,也即VIF大于10时,存在严重的多重共线性。127多重共线性的处理方法有哪些答(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。(2)如果要在模型中保留所有的自变量,那就应该避免根据统计量对单个参数进行检验;T对因变量值的推断(估计或预测)限定在自变量样本值的范围内。Y128在多元线性回归中,选择自变量的方法有哪些答向前选择、向后剔除、逐步回归、最优子集等。二、练习题121109354045622186397819721NFRRTXXYA表示,在不变的条件下,每增加1个单位,会使平均减少0049714个0497112XXY单位;表示,在不变的条件下,每增加1个单位,会使平均增加1928169个单28612位。多重判定系数和调整的多重判定系数显示该多元回归方程的拟合效果较差,在因变量的2R2ARY变差中,能被估计的回归方程所解释的比例很少。检验表明,与、之间的线性关系不显著。FY1X2检验表明,自变量、对因变量的影响均不显著。TY122模型中涉及3个自变量,15个观测值。15961786304040587298213754231NFRRTXXXYA多重判定系数和调整的多重判定系数显示该多元回归方程的拟合效果较好,在用样本量和22A模型中自变量的个数进行调整后,在因变量的变差中,能被估计的回归方程所解释的比例为Y630463。检验表明,与、之间的线性关系显著。FY1X23检验表明,自变量、对因变量的影响均显著,但对因变量的影响不显著。TY2XY1231734,28504120/375621741/5FKNSERF故与、之间的线性关系显著。Y1X2(2),故显著。3642723408051TST1(3),故显著。95670252TT2124(1)8268159460530721NFRRTXYA(2)83762865091097439458122NFRRTXXYA(3)上述(1)和(2)所建立的估计的回归方程,电视广告费用的系数符号相同但数值大小不同。其中,(1)中表示,电视广告费用每增加1万元,会使月销售收入平均增加603851XY1603865万元;(2)中表示,在报纸广告费用不变的条件下,电视广告费用每增加1万元,29412X会使月销售收入平均增加2290184万元。Y(4)根据问题(2)所建立的估计的回归方程,在月销售收入的总变差中,被估计的回归方程所解释的比例是886650。(5)根据问题(2)所建立的估计的回归方程,故显著。570623189705TT1,故显著。57062056974052TT2125(1)746289862091303157422NFRRTXXYA(2)表示,春季降雨量每增加1MM,会使早稻收获量平均增加3611XY22386461KG/HM2;表示,春季温度每增加1。C,会使早稻收获量平均增加72327671713KG/HM2。(3)可能存在。因为自变量春季降雨量与春季温度的简单线性相关系数为0965067。且模型1X2X的线性关系检验(F检验)显著,但回归系数的T检验不显著。126(1)2069748768005324351214942NFRRTXXXYA(2)在销售价格的总变差中,被估计的回归方程所解释的比例是8783。(3)故回归方程的线性关系显著。341,05(4),故回归系数不显著。2659132TT1,故回归系数显著。8740522,故回归系数不显著。13423TT3127(1),故二元回归模型的线性关系显著。75,768201FF(2),故显著,不应从模型中剔除。62539TT11X(3),故显著,不应从模型中剔除。040522128(1)2981,XYR,0,10H178230972480152498|0252TRNT故无证据表明二者之间存在线性关系。(2),43062,XYR,10H,,17823732541406912543069|0252TRNT故无证据表明二者之间存在线性关系。(3)对预测无用。210XYEY(4)15349298208700791337656221NFRRTXXA检验表明,与、之间的线性关系显著。Y1X检验表明,自变量、对因变量的影响均显著。T2Y这与(3)所得结论不相同。(5),说明模型存在多重共线性。8976021,XR129(1),351,XYR,00H,1782317243089512389521|0252TRNT故无证据表明销售价格与购进价格之间存在线性关系。,041,XYR,1H,,1782304701250124|0252TRNT故无证据表明销售价格与销售费用之间存在线性关系。(2)根据(1)中结果,用购进价格和销售费用来预测销售价格无用。(3)15265843243700861199721NFRRTXXYA检验表明,与、之间的线性关系不显著。FY1X检验表明,自变量、对因变量的影响均显著。T2Y(4)调整的多重判定系数显示在用样本量和模型中自变量的个数进行调整后,在因变量的ARY变差中,能被估计的回归方程所解释的比例仅为244537。这与(2)中的判断是一致的。(5),说明模型存在多重共线性。852021,XR(6)模型中存在多重共线性。第十四章统计指数1某企业生产甲、乙两种产品,资料如下计量产量单位成本(元)产品名称单位基期报告期基期报告期甲乙台吨200050002200600012621256要求(1)计算产量与单位成本个体指数。(2)计算两种产品产量总指数以及由于产量增加而增加的生产费用。(3)计算两种产品单位成本总指数以及由于成本降低而节约的生产费用。解计量产量单位成本(元)指数()产品名称单位Q0Q1Z0Z1产量单位成本甲乙台吨2000500022006000126212561101201042968(2)产量指数41506301QZ。8605630010QZ(3)单位成本指数849510。1063010QZ2某商场销售的三种商品资料如下销售数量单价(元)商品名称计量单位基期报告期基期报告期甲乙丙千克台件10020030011522031510050201005525要求(1)计算三种商品的销售额总指数。(2)分析销售量和价格变动对销售额影响的绝对值和相对值。解(1)销售额总指数0612347501QP。54701(2)价格的变动298347510QP。6758010销售量的变动72601QP。2806801销售量单价(元)销售额(元)商品名称Q0Q1P0P1P0Q0P1Q1P0Q1甲乙丙10020030011522031510050201005525100001000060001150012100787511500110006300合计2600031475288003试根据下列资料分别用拉氏指数和帕氏指数计算销售量指数及价格指数。商品计量销售数量价格(元)名称单位基期报告期基期报告期甲乙丙支件个40050020060060018002504050203606解价格指数5924
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年叠层陶瓷电容器行业当前发展现状及增长策略研究报告
- 2025年医疗诊断行业当前市场规模及未来五到十年发展趋势报告
- 收养基础知识培训内容
- 2025一建建筑实务真题库及答案
- 2025年临床药理学题库(有答案)
- 2025行政法律知识竞赛题库及答案
- (2025)医疗三基三严考试题库及参考答案
- 2025年环境卫生知识竞赛试题及参考答案
- 2025年护理三基理论考试试题附答案
- “房产经纪人基础知识”考核测试卷及答案
- 非煤露天矿山安全培训
- 快速康复外科理念下的骨科康复
- 事故隐患内部报告奖励制度
- (完整版)小学四年级四则运算500道
- 劳动仲裁申请书电子版模板
- 电厂消防培训
- 2025年云南省康旅控股集团有限公司招聘笔试参考题库含答案解析
- 基于谷歌云视觉自动图像标注技术的多模态语料库开发与分析
- UdieToo使用方法及代码对照表
- 煤矿项目部管理制度
- 小红书种草营销师(初级)认证考试题库(附答案)
评论
0/150
提交评论