数模知识点归纳(笔记)_第1页
数模知识点归纳(笔记)_第2页
数模知识点归纳(笔记)_第3页
数模知识点归纳(笔记)_第4页
数模知识点归纳(笔记)_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品好资料学习推荐第1章数据与统计学一、统计学的分科1、描述统计Descriptive Statistics将数据以表格、图形或,以便看出数据间的有用的关系。例如:使用散点图、曲线图、饼图、条形图、表格等2、推断统计Inferential Statistics利用从总体的一个样本中获得的信息来推断总体的特征,并进行假设检验。例如:估计、假设检验、预测3、核心概念(1)总体 Population:在一个特定研究中所有个体组成的集合(一个统计问题涉及的所有对象)-可能数量巨大-不一定仅限于人口(2)样本Sample:总体的一个子集(从总体中获得的一组数据)(3)参数Parameter:关于总体的概

2、括性度量(描述总体的指标)(4)统计量Statistic:关于样本的概括性度量(样本的描述指标)二、统计学的基本方法1、大量观察法从社会现象的总体出发,对其全部单位或足够多数单位进行数量观察的统计方法。2、统计平均法用平均数来反映总体各单位某一数量标志在一定时间、地点条件下所达到的一般水平。-第2章描述统计:图表方法一、频数分布n 统计分组及各组频数,频率,累计频数(率)二、 数据的图形表示1、直方图;2、饼图表示出总量的分类;3、折线图;4、散点图三、频数分布的描述方法(一)集中趋势(二)离散程度(三)分布形态均值、中位数、众数切尾均值、百分位数全距、四分位间距方差、标准差、变异系数偏态偏斜

3、度- 偏态.1. 表明数据是如何分布的How Data Are Distributed?2.形状的度量Measures of Shapeo 偏态与对称Skew vs. Symmetry-第3章描述统计:数量方法一、统计平均数1、平均数的定义与作用反映总体各单位某一数量标志在一定时间、地点条件下所达到的一般水平。其特点是抽象性和代表性。作用: 1、反映总体各单位变量分布的集中趋势; 2、同类现象在不同时间、不同空间进行比较。 3、作为论断事物的标准。2、各种平均数的计算和特点: 算术平均,中位数(百分位数、四分位数),众数,几何平均数(关于定义请见上,这里强调的是计算,讲义第3章第2124页)1

4、)均值(算术平均数)1. 用于度量数据的集中趋势Central Tendency;2.是最常见的集中趋势的度量,3.如同平衡点Balance Point;4.易受极端数值(Extreme Values)影响5. 公式 (样本均值) Sample Mean加权算术平均数2)中位数Median1.用于度量数据的集中趋势Central Tendency;2.为排序序列的中间值In Ordered Sequence 如果n 是奇数, 即为序列的中间值,如果n 是偶数, 则为两个中间值的均值3. 中位数在序列中的位置;4.不受极值的影响3)众数Mode1.用于度量数据的集中趋势Central Tende

5、ncy;2.为出现次数最多的数值Value That occurs Most Often 3.不受极值的影响;4.可能会出现没有众数或多个众数的情形;5.对数值数据和类型数据均适用4)百分位数Percentiles:(定位点:)第p个百分位数:至少有p%个数据值跟它一样大或比它小;至少有(100-p)%个数值跟它一样大或比它大。5)四分位数Quartiles1. 用于度量数据的非集中趋势Measure of Noncentral Tendency 2.把排序数据等分为四个区间Quarters ;3.第i个四分位数的位置(定位点:)6)几何平均数是n个数的连乘积的n次方根简单几何平均加权几何平均

6、3、计算与应用平均数应注意的问题 要在同质总体才能计算平均数;总体平均要与分组平均结合应用;平均数要与变异指标结合应用。二、变异指标:全距、四分位数间距、方差与标准差、变异系数(这里强调的是计算,讲义第3章第2426页)1)全距(极差)Range1. 度量数据的离散程度Measure of Dispersion;2.最大和最小观测值之差2)四分位间距Interquartile Range1. 度量数据的离散程度Measure of Dispersion;2.也称为伸展中心Midspread 3.为第三和第一四分位数之差四分位间距Q3Q14.此间距包括中间50%的数据;5.不受极值影响3)方差和

7、标准差(Variance & Standard Deviation)1.度量数据的离散程度Measures of Dispersion;2.是最为常见的度量3.考虑数据是如何分布的;4.表现了相对于均值(或者)的变异方差样本标准差公式4) 变异系数Coefficient of Variation1.度量相对离散程度(Measure of Relative Dispersion);2.总是一个百分比3.表现了相对于均值的变异;4.用来比较两组或更多组数据的分散程度;5.公式(样本)三、平均数与标准差的应用(这里强调的是计算,见讲义第3章第2627页)1)标准分(Z分数)一个观测值的标准分就是它比

8、平均数高(或低)几个标准差。2)在正态分布下的应用根据切比雪夫定理,利用标准差进行比例推断。切比雪夫定理:在任何数据集中,超过平均数倍标准差的数据所占比例至多为,而在平均数倍标准差范围之内的数据则为。-第5、 6章:随机变量及其分布一、随机变量的定义与特征1) 随机变量是可能的取值。取值完全取决于机会,而不是其它任何东西。普通变量通过抽样后成为随机变量。是对试验结果的数值性描述。样本估计量(样本指标)也是随机变量,表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的变量(一切可能的样本点)。2、按照随机变量可能取得的值,可以把它们分为两种基本类型:离散型与连续型随机变

9、量二、离散型与连续型随机变量1)离散型随机变量,即在一定区间内变量取值为有限个,或数值可以一一列举出来。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。(1)用数值表达的一个事件掷两个硬币出现的反面次数:观察到0, 1, 2个反面(2)离散随机变量o 全部整数(0, 1, 2, 3 等等);通过计数得到2)连续型随机变量,是指在某一区间或多个区间内任意取值的随机变量。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。(1)以数值数据表示的事件:学生的体重(磅)观察值115, 156.8, 190.1, 225(2)连续随机变量整数或分数;通

10、过测量得到;区间中有无穷多个值3)概率分布将随机变量所有可能的取值以及每个取值的概率用表格、图形、或公式表示出来。(1)离散概率分布Discrete Probability Distribution1.列出所有可能的 Xi, P(Xi) 数对o Xi = 随机变量的取值(可能的结果)o P(Xi) = 与每一取值相应的概率2.互斥(没有重叠)3.完备(没有遗漏)4. 0 P(Xi) =5和 n(1-p)=5时,的抽样分布渐近正态-第8章区间估计点估计:点估计就是用样本的具体指标去估计总体的参数。区间估计:总体被估参数X在区间(x1,x2)内的概率等于所要求的推断把握程度1- a抽样误差的概念随

11、机的,非定向的,当以样本代替普查时就会出现置信区间估计结合:第3次作业P204-19题结合:第3次作业P206-29题求样本容量(见讲义P49):总体比例的估计(计算题,讲义第49页)结合:第3次作业P209-37题-第9章假设检验(计算题,作业第九章)一、假设检验的原理1、小概率原理:认为小概率事件在一次试验中不会发生2、检验规则:在H0假设为真的条件下,如果推出样本统计值发生的概率小于事先给定的显著水平a,则认为小概率事件在一次试验中发生了,违反了小概率原理,只好翻原假设。否则,不能推翻原假设。3、利用样本统计量的值在抽样分布中的位置决定样本被抽到的概率大小。二、 假设检验的基本概念1、两

12、类错误及犯两错误的概率第一类错误:拒真错误;第二类错误:纳伪错误2、 确定原假设与备择假设:将需要证明的结论作为备择假设3、接受域,拒绝域,单侧检验与双侧检验双边检验:单边检验4、检验统计量的选取与区间估计时相同。总体均值的检验(总体方差已知)总体均值的检验(总体方差未知)检验统计量:当时,z服从N(0,1)检验统计量:当时,t服从自由度为n-1的他分布结合:第4次作业 P236-29题(双边)第4次作业 P264-17题(单边)结合:第4次作业 P232-17题(双边)5、利用p值进行判断(在SPSS中,sig) 【用于判定是否拒绝Ho】 如果p,则不拒绝Ho。 如果p0,正相关。散点较为密

13、集地分布在第I和第III象限。 r0, 正相关b0,负相关b=0, X与Y线性不相关4、回归方程的检验:回归方程的检验1拟合优度R2 (Ajusted R2)回归变差占总变差的比例,表示因变量的总变动中,能用自变量的变动解释的百分比。(相关系数的平方)0R2M2, 因此高级经理的整体工作满意度高于中级经理的.2. 第137页第31题答: (a)是. 该随机抽样满足第131页中关于二项试验的4个性质.(b)用二项概率分布来计算相应的概率, 其中p=0.09, n=10;则有两名毕业生的信用卡余额超过7000美元的概率为 P(X=2) = 0.1714.(c)没有毕业生的信用卡余额超过7000美元

14、的概率是 P(X=0) = 0.3894.(d)至少有3名毕业生的信用卡余额超过7000美元的概率是P(X=3) = 1-P(X18000) = 1 P(X=18000) = 1 0.8004 = 0.1996.(b) P(X10000) = 0.0783.(c) P(12000X18000) = P(X18000) P(X12000) = 0.8004 0.1972 = 0.6032.(d) P(X5, n(1-p)=805, 因此可以用正态概率分布来近似这个二项概率分布.(c) 令X表示近似的正态分布, Y表示原始的二项分布. 依据连续性校正的思想, 有100 到110次成功的概率为 P(

15、99.5X110.5) = P(X110.5) P(X99.5) = 0.0852-0.0015 = 0.0837.精确值为 P(100=Y=110) = P(Y=110) - P(Y129.5) = 1 P(X30), 其均值为总体均值 1020, 其标准差为(第178页公式(7.3), 则X-1020近似服从均值为0和标准差为11.5470的正态分布.(a) P(-10X-102010) = P(X-102010) P(X-1020-10) = 0.6135(b) P(-20X-102020) = P(X-102020) P(X-10205, n(1-p)=800*0.83=6645, 所

16、以近似服从均值为总体比率p (0.17) 和标准差为的正态分布.(b) -p =-0.17 近似服从均值为0和标准差为0.0133的正态分布, 因此(c) 此时,-p近似服从均值为0和标准差为的正态分布.因此, 4. 第204页第19题(此题涉及未知情形下总体均值的区间估计.(a) 95% 置信度下, 边际误差是, 其中是自由度为599的t分布的上侧0.025分位点, 其值为1.9639.(b) 由第200页公式(8.2)可知, 总体均值的95%置信区间估计为 = 649 - 14.0308, 649 + 14.0308 =634.9692, 663.0308.由于上一年每个家庭的支出的总体均

17、值632美元小于(b)中得出的置信区间的下限, 因此, 在一年期间假日期间支出费用明显上涨. 5. 第206页第29题(此题涉及总体均值的区间估计中所需样本容量的计算.(a) 总体标准差的计划值为 6.25, 边际误差为2, 置信度为95%, 由第205页公式(8.3)可知, 样本容量最少应该为(b) 在边际误差为1, 其他值不变的情况下, 样本容量最少应该为6. 第209页第37题(a),(b),(c)(此题涉及总体比率的区间估计.(a) 所有雇员中对目前的工作经历极端不满的人所占总体比率的点估计为样本比率 (或)(b) 在95%的置信度下, 边际误差为(第207页公式8.5)由第207页公

18、式8.6可知, 所有雇员中对目前的工作经历极端不满的人所占总体比率的95%置信区间为作业4答案7. 第232页第17题(此题涉及标准差已知情况下的双边假设检验问题.)(a) 原假设和被择假设分别为.(b) 用于假设检验的z检验统计量(第224页公式9-1)的值为对应的p值为2P(Xt) = 0.0332, 其中T服从自由度为24 的t分布.(c) 由于p值小于显著性水平0.05, 我们拒绝原假设. 即纽约市珠宝分店的宝石价格的均值与5600美元有显著差异.(d) 当显著性水平为0.05时, 双边假设检验问题的t检验统计量的临界值为自由度为24的t分布的上侧0.025分位点由于是双边检验, 因此

19、当(b)中计算出的t值小于临界值-2.0639, 或者大于临界值2.0639时, 我们都应该拒绝原假设. 因为(b)中算出的t大于2.0639. 因此, 我们拒绝原假设.9. 第240页第45题(此题涉及总体比率的双边检验, 并且满足用正态分布近似二项分布的条件.(a) 原假设和被择假设分别为(b) 股票上涨的总体比率的点估计为样本比率 24/50 = 0.48.(c) 用于假设检验的z检验统计量(第238页公式9-4)的值为对应的p值为2P(Xz) = 0.0055, 其中X是服从标准正态分布的随机变量. 由于p值小于给定的显著性水平0.05, 因此, 我们应该拒绝原假设. 即该金融分析师声

20、称我们可以假设在同一天纽约股票交易所(NYSE)交易的股票中有30%会上涨与实际情况是有显著差异的.10. 第263页第17题(此题涉及标准差未知情况下两总体均值之差的单边假设检验.(a) 零假设和被择假设分别为其中和分别是有10年经验的A和有1年经验的B的顾客满意度调查等级的总体均值.(b) 用于假设检验的t检验统计量(第260页公式10-8)的值为其自由度(第259页公式10-7)为16.9497. (c) 对应的p值为P(Tt) = 0.0313 (此p值可由SPSS精确算出, 对应自由度为16.9497), 其中T服从自由度为16.9497的t分布.(d) 由于p值小于显著性水平0.0

21、5, 因此, 我们拒绝原假设. 即认为工作经验越多的顾问总体平均服务等级越高.11. 第268页第27题(此题涉及匹配样本情况下两总体均值之差的推断.(a) 零假设和被择假设分别为其中和分别是豪华型和普通型家用自动磨沙器价格的总体均值. 用于假设检验的t检验统计量(第265页公式10-9)的值为对应的p值为2P(Tt) = 0.2906, 其中T服从自由度为6的t分布. 由于p值大于显著性水平0.05, 因此, 我们不能拒绝原假设. 即认为在零售店中两种型号的平均价差与10美元没有显著差异.(b) 自由度为6的t分布的上侧0.025分位点为2.4469, 因此, 两种型号平均差价的95%的置信

22、区间为 8.8571 - 2.4469*, 8.8571 + 2.4469* = =8.8571 - 2.4134, 8.8571 + 2.4134 = 6.4437, 11.2705.12. 第272页第35题(此题涉及两总体比率之差的双边检验, 并且满足用正态分布近似二项分布的条件.(a) 零假设和被择假设分别为其中和分别是能回想起A广告和B广告的总体比率. 用于假设检验的z检验统计量(第270页公式10-16)的值为对应的p值为2P(Xz) = 0.02, 其中X是服从标准正态分布的随机变量. 由于p值小于显著性水平0.05, 因此, 我们拒绝原假设. 即认为能回想起两条商业广告的总体比

23、率存在显著差异.(b) 标准正态分布的上侧0.025分位点为1.96, 因此, 能回想起两条广告的总体比率之差的95%置信区间(第269页公式10-13)为 0.12-0.1014, 0.12+0.1014 = 0.0186, 0.2214.作业5答案13. 第356页第7题(此题涉及一元(简单)线性回归模型.(a) 数据的散点图如下: (b) 最小二乘估计的回归方程为, 其中y为因变量价格, x为自变量可靠性评分.(c) 由我们在(b)中得出的估计的回归方程可知, 可靠性越高的轿车并不一定越贵. 由x前面的回归系数可知, 可靠性评分每增加一个单位, 平均价格下降 1301 美元.(d) 把x

24、=3代入(b)中得出的估计的回归方程, 可知一辆可靠性评分为3的轿车, 其价格估计为36735.76美元.14. 第363页第21题(此题涉及一元(简单)线性回归模型.(a) 估计的回归方程为, 其中y为因变量总成本, x为自变量产量.(b) 生产每件产品的可变成本是7.6美元.(c) 判定系数为0.959. 总成本中的变异量能被产量解释的百分比是95.9%.(d) 把x=500代入(a)中得出的估计的回归方程, 可知这一生产计划的总成本为5046.667美元.15. 第370页第25题(此题涉及一元(简单)线性回归模型.(a) 估计的标准误差是6.514.(b) 由于与x对应的回归系数的p值

25、为0.153, 大于显著性水平0.05, 因此, 我们不能拒绝原假设, 即自变量x和因变量y之间的线性关系不显著.(c) 由于与F检验对应的p值为0.153, 大于显著性水平0.05, 因此, 我们不能拒绝原假设, 即自变量x和因变量y之间的线性关系不显著. 这里F检验的结果和(b)中的结果等价.作业6答案16. 第374页第33题(b),(d)(此题涉及预测区间.(b) 当x=8时, y的期望值的置信水平为95%的置信区间为 30.0673, 57.9327.(d) 当x=8时, y的个别值的置信水平为95%的置信区间为 12.8456, 75.154417. 第403页第1题(此题涉及多元

26、回归方程回归系数的解释.(a) b1 为当x2固定时, x1每增加一个单位, y的平均变化为0.5906.b2 为当x1固定时, x2每增加一个单位, y的平均变化为0.4980.(b) y的估计值为29.127+0.5906*180+0.498*310 = 289.8150.18. 第414页第25题(此题涉及多元回归分析.(a) 估计的回归方程为(b) F检验统计量的值为15.485, 其对应的p值为0.003, 因此, 在0.05的显著性水平下, 回归方程显著. 这表明3个自变量中至少有一个对y有显著的影响.(c) 自变量TradeEx前面的回归系数的t检验统计量的值为2.978, 其对应的p值为0.025, 因此, TradeEx在0.05的显著性水平下显著.自变量Use前面的回归系数的t检验统计量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论