统计学贾俊平考研知识点总结_第1页
统计学贾俊平考研知识点总结_第2页
统计学贾俊平考研知识点总结_第3页
统计学贾俊平考研知识点总结_第4页
统计学贾俊平考研知识点总结_第5页
免费预览已结束,剩余42页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学 实证研究中最常用的方法,也是统计分析中必不可少的一步。内容包括取得研究所需 要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得 出反映所研究现象的一般性特征。(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学 分支。研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测 量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行

2、测 量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问 题。其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序 列分析等等。(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型 数据。(1)分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结 果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。(2)顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。(3

3、)数值型数据是按数字尺度测量的观察值。其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的, 其结果均表现为类别,因而也统称为定型数据或品质数据:数值型数据说明的是现象 的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成, 如由多个企业所构成的集合,多个居民户所构成的集合。总体根据其所包含的单位数 目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定, 而且元素的数目是有限

4、可数的,需要注意的是,统计意义上的总体,通常不是一群人 或一些物品的集合,而是一组观测数据。(2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本 容量。例如我们从一批灯泡中随机抽取1。个,这1。个灯泡就构成了一个样本。(3)参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体 比例。由I-总体参数通常是不知道的,所以参数是一个未知的常数。所以才需要进行 抽样,根据样本来估计总体参数(4)样本量是用来描述样本特征的概括性数字度量。统计量是根据样本数据计算 出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们 已经抽出来的,所以统计量总是知道

5、的,抽样的目的就是要根据样本统计量推断总体 参数。(5)变量是说明现象某种特征的概念。变量的特点是从一次观察到下一次观察会 呈现出差别或变化,分为分类变量、顺序变量、数值型变量、离散型变量和连续型变 量。第二章数据收集一、调查方案的主要内容:(1)调查目的:是调查所要达到的具体目标,他所回答的是“为什么调查”“要 解决什么样的问题”等(2)调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或 调查范围。调查单位是构成调查队选中的每一个单位,它是调查项目和调查内容的承 担着或载体。所要解决的是“向谁调查”由谁来提供所需数据(3)调查项目和调查表:调查项目要解决的问题是“调查什么”,

6、也就是调查的 具体内容,大多数统计调查中,调查项目通常以表格的形式来表现,称为调查表二、数据的误差:统计数据的误差通常是指统计数据与客观现实之间的差距,误差的类型主要有抽样误差和非抽样误差两类。(1)抽样误差:主要是指在用样本数据进行推断时所产生的随机误差。只存在于 概率抽样中。这类误差通常是无法消除的,但事先可以进行控制和计算。影响抽样误差大小的因素:(a)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误 差越小:反之,越大。这是因为随着样本数目的增多,样本结构越接近总体,抽样调 查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差 了。(b)总体背研

7、究标志的变异程度。在其他条件不变的情况下,总体标志的变异程 度越小,抽样误差越小,反之,越大。抽样误差和总体标志的变异程度呈正比变化。 这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。则样本指标与总 体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本 指标等于总体指标,此时不存在抽样误差(O抽样方法的选择。重复抽样和非重复抽样的抽样误差大小不同。采用不重复 抽样比采用重复抽样的抽样误差小(d)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为 不同的抽样组织所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样 误差,作出判断各种抽样组

8、织方式的比较标准。(2)非抽样误差:主要包括:抽样框误差,回答误差、无回答误差、调查员误 差:是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的 误差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总 错误等;被调查者所造成的误差主要有:因人为因素干扰形成的有意虚报或瞒报调查 数据。非抽样误差理论上是可以消除的。三、简单随机抽样:(1)概念:从总体N个单位中随机地抽取,个单位作为样本,每个单位入抽样本 的概率是相等的:(2)特点:。、简单、直观,在抽样框完整时,可直接从中抽取样本b、用样本统计量对目标量进行估计比较方便(3)局限性当N很大时,不易构造抽样

9、框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率第三章数据的整理与展示一、数据排序的目的:(1)数据排序是按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解 决问题的线索(2)排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。(3)在某些场合,排序本身就是分析的目的之一。二、数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的 数据成为分组数据。数据经分组后再计算出各组中数据出现的频数,就形成了一张频 数分布表,分组方法有单变量值分组和组距分组两种,单变量分组通常只适合于离散 变量,且在变量值较少的情况下使用,在连续变量或

10、变量值较多情况下,通常采用组 距分组。三、组距分组的步骤和原则:(1)步骤:。、确定组数:组数的确定应以能够显示数据的分布特征和规蛛的。在实际分 组时,可以按Sturges提出的经验公式来确定组数X = , + b、确定组距:组距(Clew Width)是一个组的上限与下限之差,可根据全部数据 的最大值和最小值及所分的组数来确定,即组距=(最大值最小值)组数C、统计出各组的频数并整理成频数分布表(2)原则:采用组距分组时,需遵循“不重不漏”的原则,“不重”是指一项数据只能分在 其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的 全部组别中每项数据都能分在其中的某一组,不

11、能遗漏。为解决不重的问题,统计分 组时习惯上规定”上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组 上限的变量值不算在本组内,而计算在下一组内。当然,对于离散变量,我们可以采 用相邻两组组限间断的办法解决“不重”的问题。也可以对一个组的上限值采用小数 点的形式,小数点的位数根据所要求的精度具体确定。缺点:组距分组掩盖了各组内 的数据分布状况四、直方图和条形图的区别:首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固 定的;直方图是用面积表示各组频数的多少,频数的高度表示每一组的频数或频率, 宽度则表示各组的组距,因此高度与宽度均有意义。其次,由于分组数据具有连续性

12、,直方图的各矩形通常是连续排列,而条形图则 是分开排列。最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据。五、绘制线图应注意的问题:(1)时间一般绘在横轴,观测数据绘在纵轴(2)图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比 例大致是1 0:7(3) 一般情况下,纵轴数据下端应从0开始,以便于比较,数据与0之间的间 距过大,可以采取折断的符号将纵轴折断六、设计统计表注意的问J首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置 应安排合理。其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确 切地概括出统计表的内容。再次,

13、表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不封 口,列标题之间可以用竖线分开,而行标题之间通常不必用横线隔开。最后,在使用统计表时,必要时可在表下方加上注释,特别注意标明数据来源。七、数据的审核:(1)原始数据:完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指 标是否填写齐全b、准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际; 检查数据是否有错误,计算是否正确等(2)二手数据:适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定 数据是否符合自己分析研究的需要b、时效性审核:尽可能使用最新的数据八、数据的整理与显示(基本问题)(1)

14、要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法 是不同的对分类数据和顺序数据主要是做分类整理(3)对数值型数据则主要是做分组整理(4)适合于低层次数据的整理和显示方法也适合丁高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章数据的概括性度量一、集中趋势和离散趋势的度量:(1)集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点 的位置所在。描述集中趋势所采用的测度值分为:众数、中位数和分位数、平均数。(2)离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心值 得程度,因此也称为离中趋势,数据的离散程度越大,集中趋势的测度

15、值对该组数据 的代表性越差,反之,代表性越好。描述数据离散程度所采用的测度值,根据所依据 的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平均 差以及测度相对离散程度的离散系数。二、众数、中位数和平均数:(1)三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位 数的处于一组数据中间位置上的值,而平均数则是全部数据的算数平均。因此,对于 具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:(a)如果数据的分布是对称的,众数、中位数、平均数必定相等(b)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方 靠近,而众数和中位数由于

16、是位置代表值,不受极值的影响,因此三者的关系为众数) 中位数)平均数(O如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一 方靠近,则众数中位数平均数。(2)特点及应用场合(a)众数是一组数据的峰值,是一种位置代表词,不受极端值的影响,具有不唯 一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。 虽然对F顺序数据以及数值型数据也可以计算众数,但众数主要适合于作为分类数据 的集中趋势测度值。(b)中位数是一组数据中间位置上的代表值,主要适合于作为顺序数据的集中趋 势测度值,虽然对于顺序数据可以使用众数,但以中位数为宜。(c)平均数是就数值型数据计算的,而且

17、利用了全部数据信息,它是实际中应用 最广泛的集中趋势测度值。平均数主要适合r-作为数值型数据的集中趋势测度值。当 数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这是我们应该选择 平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值得影响,对于 偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜的 程度较大时,我们可以考虑选择众数或中位数等位置代表词。三、异种比率:是非众数组的频数占总频数的比率。主要用于衡量众数对一组数据的代表程度。 异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差。反 之,越小,众数的代表性越好。异种比率重要适合

18、测度分类数据的离散程度。当然, 对于顺序数据以及数值型数据也可以计算异种比率。四、四分位差:是上四分位数与下四分位数之差。反映了中间5。数据的离散程度,其数值越 小,说明中间数据越集中,数值越大,说明中间数据越分散。四分位差不受极值的影 响主要用于测度顺序数据的离散程度,当然,对于数值型数据也可以计算四分位 差,但不适合于分类数据。五、方差和标准差:极差是一组数据的最大值与最小值之差,也称为全距。它容易受极端值的影响, 由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不 能准确描述出数据的分散程度。平均差是各变量值与其平均数离差的绝对值的平均数,平均差以平均数为中心,

19、反映了每个数据与平均数的平均差异程度,它能全面准确的反映一组数据的离散状 况。平均差越大说明数据的离散程度就越大,反之,越小。为了避免离差之和等于。 而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来 表示总离差。方差(或标准差)是实际中应用最广泛的离散程度测度值,因此它能准确的反映 出数据的离散程度。方差是各变量值与其平均数离差平方的平均数。标准差是方差的平方根,与方差不同的是,标准差是具有量纲的,它与变量值的 计量单位相同,其实际意义要比方差清楚,因此,在对实际问题进行分析时,我们更 多的使用标准差。六、标准分数:标准分数是指变量值与其平均数的离差除以标准差后的差。

20、可以测度每个数据在 该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据,也给出了一组 数据中各数值的相对位置,例如,如果某个数值的标准分数为T.5,我们就知道该数值 低于平均数15倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要对各 变量数值进行标准化处理。标准分数具有平均数为。、标准差为1的特性。实际上,标 准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位 置,也没有改变改组数据分布的形状,而只是使该组数据的平均数为。、标准差为七、经验法则:经验法则表明:当一组数据对称分布时(1)约有68%的数据在平均数加减1个标准差的范围之内(2)约有95%的数

21、据在平均数加减2个标准差的范围之内(3)约有99%的数据在平均数加减3个标准差的范围之内八、切比雪夫不等式:如果一组数据不是对称分布,经验法则就不再适用,这时就要使用切比雪夫不等 式,它对任何分布形状的数据都适用,对于任意分布形态的数据,根据切比雪夫不等 式,至少有d-1/b2)的数据落在k个标准差之内。其中k是大于1的任意值,但不一 定是整数。对于k=2、3、4,该不等式的含义是:(1)至少有75%的数据在平均数加减2个标准差的范围之内(2)至少有89%的数据在平均数加减3个标准差的范围之内(3)至少有94%的数据在平均数加减4个标准差的范围之内九、相对离散程度:离散系数的作用:极差、平均差

22、、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小 一方面取决于原变量值本身水平高低的影响,也就是与变量的平均数大小有关,变量 值绝对水平高的,离散程度的测度值自然也就大。绝对水平小的离散程度的测度值自 然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变 量值,其离散程度的测度值也就不同。因此对于平均水平不同或者计量单位不同的不 同组别的变量值,是不能用上述离散程度的测度值直接比较其离散程度的。为消除变 量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。离散系 数是指一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相 对统计量

23、,通常是就标准差来计算的,因此也称为标准差系数,离散系数的作用主要 是用于比较对不同样本数据的离散程度。离散系数大的说明数据的离散程度大,离散 系数小的说明数据的离散程度小。十、测度数据分布形状的统计量:(1)偏态:如果一组数据的分布的对称的,WIJ SK=o,如果,K明显不等于零,表 明分布是非对称的。当坂为正值时,表示正偏离差值较大,可以判断为正偏或右偏; 反之,为负偏或左偏,SK的值越大,表示倾斜的程度就越大(2)峰态:如果一组数据服从标准正态分布,则峰态系数的值等于。,若峰态系 数的值明显不同于。,表明分布比正太分布更平或更尖,通常称为平峰分布或尖峰分 布。当K。时为尖峰分布,当心。时

24、为扁平分布第五章概率与概率分布一、常见的离散型概率分布:(1)两点分布(2)二项分布:n重伯努利试验满足下列条件:a、一次实验只有两种结果,即 成功和失败,这里的成功是指感兴趣的某种特征。b、一次实验成功的概率是p,失败 的概率是q=1p,而且概率p对每次实验都是相同的。品实验是相互独立的。d、实验 可以重复进行n次。e、在n次试验中,成功的次数对应一个离散型随机变量,用X表 示(3)泊松分布:重要特征:。、所考查的事件在任意两个长度相等的区间里发生 一次的机会均等。b、所考察的事件在任何一个区间里发生号否和在其他区间里发生与 否没有相互影响,即是独立的。泊松分布的另一个重要用途是作为二项概率

25、分布的近 似。对一个n重伯努利实验,p代表每次伯努利实验成功的概率,当实验次数n相对 很大,成功概率p相对很小,而乘积up大小适中时,泊松分布的一般表达式与二项分 布的一般表达式近似相等,(4)超几何分布:二项分布只适合于重复抽样,但在实际抽样中,很少采用重复 抽样。不过,当总体的元素数目N很大而样本容量n相对于N很小时,二项分布仍然 适用。但如果是采用不重复抽样,各次实验并不独立,成功的概率也互不相等,而且 总体元素的数目很小或样本容量n相对于N来说较大时,二项分布就不再适用,这 时,样本中成功的次数则服从超几何分布。超几何分布与二项分布的关系:由于呈几何分布所描述的实验与n重伯努利实 验相

26、似,所以超几何分布与二项分部之间也存在着十分特殊而有意义的联系,从直观 上来看吗,如果总体中的元素个数N很大,使得M的有限变化相对于N而言比较小, 那么超几何分布趋向于二项分布。这是因为在N趋于无穷大时,每次抽样的样品即使 不放回,对其后代表成功的事件发生的概率也不会有太大影响,可以近似认为不变, 二者恰好满足了二项分布的前提。二、正态分布的曲线的性质:(1)正态曲线的图形是关于 的对称钟形曲线,旦峰值在= 处、(2)正态分布的两个参数均值和标准差一旦确定,正态分布的具体形式就唯 一确定,不同参数取值的正太分布构成一个完整的正态分布族。(3)正态分布的均值可以是实数轴的任意数值,他决定正态曲线

27、的具体位置, 标准差相同二均值不同的正太曲线在坐标轴上体现为水平位移(4)正态分布的标准差 为大于。的实数,他决定正态曲线的“陡峭“或”扁平 “程度。越大,正太曲线越扁平;越小,正太曲线越陡峭。(5)当X的取值向横轴左右两个方向无限延伸时,正态曲线的左右两个尾端也无 限渐进横轴,但理论上永远不会与之相交。(6)与其他连续型随机变量相同,正太随机变量在特定区间上的取值概率由正太 曲线下的面积给出,而且其曲线下的面积等于1经验法则:正态随机变量落入其均值左右各1个标准差内的概率是68.27%正态随机变量落入其均值左右各2个标准差内的概 率是95.45%正态随机变量落入其均值左右各3个标准差内的概

28、率是99.73%三、数据正态性的评估方法:(1)、对数据画出频数分布的直方图或茎叶图。若数据近似服从正态分布,则图 形的形状与上面给出的正太曲线应该相似(2)、求出样本数据的四分位差。山213(3)、对数据作正太概率图。若数据近似服从正态分布,则数据点将落在一 条近似直线上四、什么条件下用正态分布分布近似计算二项分布的效果 较好当样本容量n越来越大时,二项分布越来越近似服从正太分布,这时,二项随 机变量的直方图的形状接近正太分布的图形形状。即使对于小样本,当p=O5时,二项分布的正太近似仍然相当好,此时随机变量 X的分布是相对是相对于其平均值=np对称的。当平p趋于。或1时,二项分布将呈 现出

29、偏态,但当n变大时,这种偏斜就会消失。一般来说,只有当n大到使np和n (1-P)大于或等于5时,近似的效果就相当好。五、均匀分布的直观概率意义:将区间(a, b)划分为任意多个小区间。随机变量X在任何小区间上取值的概率 大小与该小区间的长度成正比,而与该小区间的具体位置无关。第六章抽样与抽样分布一、比较分层抽样、系统抽样和整群抽样(1)分层抽样是指将抽样单位按某种特征或某种规则划分为不同的层,然后从不 同的层中独立、随机地抽取样本。优点:叫保证样本的结构与总体的结构比较相近, 从而提高估计的精度b、组织实施调查方便c、既可以对总体参数进行估计,也可以对 各层的目标量进行估计。d、分层抽样的样

30、本分布在各个层内,从而使样本在总体中的 分布比较均匀(2)系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范 围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单 位。 优点:操作简便,系统抽样的样本在总体中的分布一般也比较均匀,由此抽样 误差通常要小于简单随机抽样,提高估计的精度缺点:对估计量方差的估计比较困 难(3)整群抽样是指将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对 中选群中的所有单位全部实施调查优点是:不需要有总体的具体名单而只要有群的名 单就可以进行抽样,而群的名单比较容易得到;此外调查的地点相对集中,节省调查 费用,方便调查的

31、实施缺点是估计的精度较差二、比较三种不同性质的分布(1)总体分布指总体中各元素的观察值所形成的相对频数的分布。分布通常 是未知的,可以假定它服从某种分布(2)样本分布是指从总体中抽取一个容量为n的样本,由这n个观察值形成的相 对频数分布。也称经验分布。当样本容量”逐渐增大时,样本分布逐渐接近总体的分 布(3)从一般意义上说,抽样分布是指样本统计量的概率分布,样本统计量的概率 分布。随机变量是样本统计量,如样本均值,样本比例,样本方差等。结果来白容量 相同的所有可能样本:提供了样本统计量长远我们稳定的信息,是进行推断的理论基 础,也是抽样推断科学性的重要依据三、中心极限定理随着样本容量n的增大(

32、m=3。),不论原来的总体是否服从正态分布,样本值的 抽样分布都趋于正态分布,其分布的数学期望为总体均值,方差为总体方差的1/n, 这就是中心极限定理,表述为:设从均值为,方差为2的一个任意总体中抽取容量 为的样本,当”充分大时,样本均值的抽样分布近似服从均值为、方差为。的 正态分布四、重复抽样和不重复抽样相比,抽样均值分布的标准差 有何不同样本均值的方差与抽样方法有关,在重复抽样条件下,样本均值的方差为总体 方差的1/n,即帅在不重复抽样条件下,样本均值的方差则需要用修正系数去修正重复抽样时样本均值的方差,即 一2 b N =、次 N = l )不重复抽样的样本均值的方差小于重复抽样时的样本

33、均值的方差对于无限总体进行不重复抽样时,可以按照重复抽样来处理,对于有限总体,当N很大,而抽样比n/N很小时,其修正系数趋于1,这时样本均值的方差也可以按 照重复抽样的样本均值的方差公式来计算五、2分布的性质和特点(1)分布的变量值始终为正(2)分布的形状取决于其自由度”的大小,通常为不对称的正偏分布,但随着自 由度的增大逐渐趋于对称(3)期望为:E( 5=,方差为:D(,虫队”为自由度)(4)可加性:若和(/为两个独立的2分布随机变量,5 2(nt), W T雄), 则快(/这一随机变量服从自由度为M/h的“分布第七章参数估计一、评价估计量的标准实际上,用于估计的。的估计量有很多,如我们可以

34、用样本均值作为总体均值 的估计量,也可以用样本中位数作为总体均值的估计量,什么样的估计量才算是一个 好的估计量呢?这需要一定的评价标准:1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数。设总体参LL广数为0 ,被选择的估计量为0,如果E( 0 )= ,称为夕的无偏估 计量。2、有效性:对同一总体参数的两个无偏估计量,方差较小的是更有效的估计量。3、一致性:随着样本容量的增大,点估计量的值越来越接近被估的总体的 参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近 总体的参数二、怎样理解置信区间置信区间:山样本统计量所构造的总体参数的估计区间,其中区间的最小 值称为置信下

35、限,区间最大值称为置信上限。是一个随机区间a的置信 区间意味着,置信区间包含未知参数的概率为1这个区间会随着样本观察值的不同而不同。但1。次运用这个区间,约有1。(1 1)个区间能包含参数, 也就是说大约还有1OO a个区间不包含总体参数判断置信区间优势的标准(好的置信区间的特性):置信度越高越好;置信区间 宽度越小越好。三、影响区间宽度的因素1总体数据的离散程度,用$来测度2.样本容量:当置信水平固定时,置信区间的宽度随着样本容量的增大而 减小,换言之,较大的样本所提供的有关总体的信息要比小样本多。3.置信水平影响Z的大小:置信水平越大,Z越大四、简述样本容量与置信水平、总体方差、估计误差的

36、关射 (Za.2)东 n =(1)样本量与置信水平呈正比,在其他条件不变的情况下,置信水平越大,所 需的样本容量也就越大(2)样本量与总体方差呈正比,总体的差异越大,所需的样本容量就越大(3)样本量与边际误差的平方成反比,即可以接受的估计误差的平方越大,所 需的样本量就越小五、的含义是什么?2 V 弓是标准正态分布上侧面积为:时的Z值。是估计总体均值时的边际误 差,也称为估计误差或误差范围六、对两个总体均值之差的小样本估计中,对两个总体和 样本都有哪些假定(1)两个总体都服从正态分布(2)两个随机样本独立地分别抽自两个总体七、解释95%的,抽取1OO个样本,根据每个样本构造一个置信区间,这样由

37、1OO个样本构造的总 体参数的1。个置信区间中,95%的区间包含了总体参数的真值,而5%没包含八、对于总体比例的估计,确定样本容量是否“足够大”的一般经验规则是:区 间p 1 2,P 5八、独立样本和匹配样本如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中 的元素相互独立,则称为独立样本。匹配样本是指一个样本中的数据与另一个样本中 的数据相对应九、估计量和估计值(1)估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等 例如:样本均值就是总体均值E的一个估计量参数用表示,估计量用表示(2)估计值:估计参数时计算出来的统计量的具体值如果样本均值 *=8。,则8

38、0就是m的估计值第八章假设检验一、参数估计和假设检验的区别和联系(1)主要联系:。都是根据样本信息推断总体参数;b都以抽样分布为理论依据,建立在概率论基础之上的推断,推断结果都 有风险;C.对同一问题的参数进行推断,使用同一样本,同一统计量,同一分布, 二者可相互转换(2)主要区别:。参数估计是以样本信息估计总体参数的可能范围,假设检验是先对总体 参数提出一个假设值,然后利用样本信息判断这一假设是否成立;b.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既 有双侧检验,也有单侧检验;c.区间估计立足于大概率,通常以较大的可信度(1-a)去估计总体参数的 置信区间。假设检验立足于小

39、概率。通常是给定很小的显著性水平。去检验总 体参数的先验假设是否正确二、什么是假设检验中的显著性水平?统计显著是什么意 思?(1)显著性水平是当原假设正确时却被拒绝的概率或风险,即假设检验 中犯弃真错误的概率,通常用。表示,它是人们根据经验的要求确定的,通常取 a =0.05或。1显著性水平是人们事先指定的犯第I类错误概率。的最大允许 值,确定了显著性水平0,就等于控制了第I类错误的概率。但犯第II类错误的概率B却是不确定的(2)统计显著值在原假设为真的条件下,用于检验的样本统计量的值落在了拒绝域内,作出了拒绝原假设的决定三、什么是假设检验的两类错误及其数理关系怎样(1)假设检验中所犯的错误有

40、两种:一类错误是原假设为真却别拒绝 了,犯这类错误的概率用。表示,也称第I类错误。另一类错误是原假设为假却 没有拒绝,犯这种错误的概率用B表示,也称第口类错误(2)当a增加时B减小,当B增大时a减小,要使o和(3同时减小的唯 一办法是增加样本容量四、假设检验的步骤(1)陈述原假设H。和备择假设Hi。(2)从所研究的总体中抽出一个随机样本(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域将统计量的值与临界值进行比较,作出决策。统计量的值落在拒绝域, 拒绝H。,否则不拒绝H。,或者也可以直接利用P值作出决策五、建立原假设和备择假

41、设的原则(建立假设的几点认 识)(1)原假设和备择假设是一个完备事件组,且相互独立(2)在建立假设时,通常是先确定备择假设,然后再确定原假设(3)在假设检验中,等号总是放在原假设上。这是因为我们想涵盖备择假设Hi不出现的所有情况(4)这样的假设本质上带有一定的主观色彩,在面对某一实际问题,由于 不同研究者有不同的研究目的,即使对同一问题也可能提出截然相反的原假设 和备择假设,这并不违背假设的最初定义,只要符合研究的最终目的就是合理 的六、单双侧检验的区别备择假设具有特定的方向性,并含有或的假设检验,称为单侧 检验或单尾检验。备择假设没有特定的方向性,并含有符号的假设检验,称为双侧 检验或双尾检

42、验在单侧检验中,由于研究者感兴趣的方向不同,乂可分为左侧检验和右 侧检验七、检验统计量的特征和用途检验统计量是指根据样本观测结果计算得到的,并据以对原假设和备择 假设做出决策的某个样本统计量。检验统计量实际上是总体参数的点估计量,只有将其标准化后,才能用 以度量它与原假设的参数值之间的差异程度。而对点估计量标准化的依据则 是:a、原假设H。为真;b、点估计量的抽样分布。实际上,假设检验中所用的 检验统计量都是标准化检验统计量,它反映了点估计量与假设的总体参数相比 相差多少个标准差。八、拒绝域面积与泌小的关系当样本容量固定时,拒绝域的面积随着。的减小而减小。a越小,拒绝原假 设所需要的检验统计量

43、的临界值与原假设的参数值就越远。拒绝域的位置取决 于检验是单侧检验还是双侧检验,双侧检验的拒绝域在抽样分布的两侧,而单 侧检验中,如果备择假设具有符号“,拒绝域位于抽样分布的左侧,故称为左侧检验。如果备择假设具有符号“力,拒绝域位于抽样分布的右侧,故称为 右侧检验。九、显著性水平。的局限性显著性水平0实在检验之前确定的,这也就意味这我们事先确定了拒绝域。 这样,不论检验统计量的值是大还是小,只要他的值落入拒绝域就拒绝原假 设,否则不拒绝原假。这种固定的显著性水平对检验结果的可靠性起一种度量 作用。但不足的是,0是犯笫I类错误的上限控制值,它只能提供检验结论可靠 性的一个大致范围,而对于一个特定

44、的假设检验问题,却无法给出观测数据与 原假设之间不一致程度的精确度量,也就是说,仅从显著性水平比较,若选择 的ott相同,所有的检验结果的可靠性都一样。十、P值较小时为什么要拒绝原假设P值是指在原假设为真的条件下,检验统计量的观察值大于或等于其计 算值的概率。P值是反映实际观测到的数据与原假设H。之间不一致程度的一个概率值。 P值越小,说明实际观测到的数据与H。之间不一致的程度就越大,检验的结果 也就越显著十一、显著性水平消P值得区别(1)。的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中 犯弃真错误的概率,是有人们根据检验的要求确定的,通常0=。.。5或。.。1而P值是原假设为真时所

45、得到的样本观察结果或更极端结果出现的概 率,它是通过计算得到的,P值得大小取决于三个因素:样本数据与原假设之 间的差异、样本量、被假设数据的总体分布(2)0只能提供检验结论的可靠性地一个大致范围,而对于一个特定的假 设检验为题,却无法给出观测数据与原假设之间不一致程度的精确度量。即仅 从显著性水平来比较,如果选择的Q值相同,所有检查结果的可靠性都一样。而P值可以测量出样本观察数据与原假设中假设的值的偏离程度。十二、总体均值的检验在对总体均值进行假设检验时,采用什么检验步骤和检验统计量取决于我 们所抽取的样本是大样本(1123。)还是小样本(nF”则拒绝原假设,反之 不拒绝原假设八、解释水平项误

46、差平方和与误差平方和(1)水平项误差平方和,简称$A,是各组平均值与总平均值的误差平方和,反 映各总体的样本均值之间的差异程度,因此乂称为组间平方和,其计算公式为短=上(禹-叶二士4保-4(2)误差项平方和,简称为”E,它是每个水平或组的各样本数据与其组平均值误 差的平方和,反映了每个样本个观测值的离散状况,因此乂称为组内平方和或残差平 方和,该平方州壁K上反映的是随机误差的大小,其计算公式为九、解释组内方差和组间方差的含义A的均方(组间均方)记为MSA,也称组间方差,其计算公式为MS4三处A = lSSEM$E的均方(组内均方)记为M$邑也称组内方差,其计算公式为MSE = r十、方差分析中

47、效应的意义,$A是对随机误差和系统误差的者&、的度量,它平映了自变量对因变量的影响, 也称自变量效应或因子效应。伉团=而产$E是对随机误差的大小的度量,它反映了除自变量对因变量的影响之外,其 他因素对因变量的总影响,因此“E也称为残差变量,它所引起的误差也称为残差效 应。sse=&,-mF$T是全部数据总误差程度的度量,它反映了白变量和残差变量的共同影响, 因此他等于自变量效应加残差效底仃=之之(% _瓮y$T=,$A + S$E十一、多重比较方法的作用:它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。十二、交互作用:是一因素对另一因素的不同水平有不同的效果,如对于双因素

48、方差分析,有交互 作用就是两个因素搭配在一起,对应变量产生的一种新的效应。十三、解释无交互作用和有交互作用的双因素方差分析在双因素方差分析中,由于有两个影响因素,若这两个因素是相互独立的,我 们分别判断这两个因素对因变量的影响,这时的双因素方差分析称为无交互作用的双 因素方差分析,或称为无重复因素分析。如果出了两个因素的单独影响外,两因素的 搭配还会对因变量产生一种新的效应,这时的双因素方差分析就是有交互作用的双因 素方差分析。十四、R2的含义和作用(1)单因素方差分析中,外表示自变量平方和(必)及残差平方和(的占总平方 和(”7)的比例大小,其平方根A就可以用来测量两个变量之间的关系强度如_

49、/谶IMWHD 一宽T总平定桐I)(2)无交互作用的双因素方差分析中,行自变量平方(SSR)和和列自变量的平 方和(SSC)加在一起则度量了两个自变量对因变量的联合效应,联合效应与总平方和的 比值定义为川,其平方根R反映了这两个白变量合起来与因变量之间的关系强度联的应SSZSSC一总献! SST(3)有交互作用的方差分析:川产,誉一十四、为什么双因素方差分析中,误差平方和与P值明显 小于单因素方差分析中的任何一个平方和?是因为在双因素方差分析中,误差平方和不包括两个自变量中的任何一个,因 而减少了残差效应。而在分别作单因素方差分析时,将行因素作为自变量时,列变量 被包含在残差中,同样,将列因素

50、作为白变量是,行变量被包含在残差中。因此,对 于两个白变量而言,进行双因素方差分析要优于分别对两个因素进行单因素方差分析十五、完全随机化设计、随机化区组设计、因子设计(1)完全随机化设计指“处理”被随机地指派给试验单元的一种设计、对完全随机 化设计的数据采用单因素方爰分圻(2)随机化区组设计是指先按一定规则将试验单元划分为若干同质组,称为区 组。分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设 计。试验数据采用无重要改因素方塞分析(3)因子设计指考虑两个因素(可推广到多个因素)的搭配试验设计称为因子设 计。该设计主要用于分析两个因素及其交互作用对试验结果的影响。试验数据采

51、用可 重复双因素方差分析第十章一元线性回归一、简述相关系数的性质相关系数是指根据数据计算的对两个变量之间线性关系强度的度量值。若相关系 数是根据总体全部数据计算的,称为总体相关系数,记为;若是根据样本数据计算 的,则称为样本相关系数,记为,样本相关系数的计算公式:二我冲一心Z0心y性质:(1),的取值范围是M=1,为完全相关,r=l,表明X与y之间为完全正 线性相关关系,=1,表明x与y之间为完全负线性相关关系;r=0,表明x与v之 间不存在线性相关关系相关,-1人。,表明x与y之间为负线性相关,1,表 明x与V之间为正线性相关,m越趋于1表示关系越密切;历越趋于。表示关系越不 密切(2)r具有对称性,x与V之间的相关系数叫和y和x之间的相关系数。相等, 即 rw=ryx(3)的大小与x和y的原点及尺度无关。改变x和y的数据原点和计量尺度, 并不改变r的大小(4) r仅仅是x和y之间的线性关系的度量,不用于描述非线性关系,这意味 着,r=。指标是两个变量之间不存在线性相关关系,但并说明变量之间没有任何关系, 如可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致“。 因此当r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论