统计学向书坚内容整理_第1页
统计学向书坚内容整理_第2页
统计学向书坚内容整理_第3页
统计学向书坚内容整理_第4页
统计学向书坚内容整理_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章导论1、统计学性质统计学研究对象是客观现象的数量方面;统计学研究的是群体现象的数量特征与规律性;统计学是一门方法论的科学2、统计学的发展古典统计学时期(17中-18中)统计学萌芽国势学派一一德国康令和G.阿亨瓦尔;政治算术学派一一威廉配第和约翰格朗特;近代统计学时期(18末-19末)数理统计学派一一比利时A.凯特勒“统计学之父”:将国势学、政治算术学和古 典概率论融合;社会统计学派一一K.G.A.克尼斯首创,代表人物C.L.E.恩格尔和G.V梅尔现代统计学派(20-迄今)数理统计主流从描述统计转向推断统计一一英国哥赛特、费雪;完善区间估计、 假设检验一一内曼、皮尔逊;统计决策、质量检验的

2、序贯分析一一瓦尔德;多变 量统计一一威夏特、赫特林3、统计数据是指对客观现象的属性或数量表现进行测量的结果。P*匕虹4、面板数据指时间序列数据和截面数据相结合的数据。如在调查中收集的对各个固定调查用 户在不同时期的调查数据。5、大数据指在信息技术中,一些使用目前现有数据库管理工具或传统数据处理应用很难处 理的大型而复杂的数据集。6、统计指标统计指标是指总体数量特征的概括性度量。由指标名称和指标取值两基本要素组 成,还包括时间状态、空间范围、计量单位、计量方法等限定。分为数量指标和 质量指标。指标数值反映的是所研究现象在具体时间、地点、条件下的规模、水平、结构等 特征,是具体的而不是抽象的数字。

3、第二章统计数据收集、整理与展示1、间接数据和直接数据的来源?间接数据:公开出版的报纸、书籍及相关网站中的数据,也可以从调查公司或数 据库等处购买,有些未公开的数据在获得数据所有者允许的情况下也可以使用。 直接数据:专门组织的调查或观察,科学试验。2、统计调查方式包括:普查、抽样调查、统计报表调查、重点调查3、普查定义:指一个国家或一个地区为详细地了解某项重要的国情国力而专门组织的一 次性、大规模的全面调查。主要用来收集某些不能够或不适宜用定期的全面调查 报表收集的信息资料,以搞清重要的国情、国力,为国家制定有关政策或措施提 供依据。特点:通常是周期性进行;需要规定统一的标准时间,避免调查数据重

4、复与 遗漏;相对于其他调查方式,所得资料更全面、更系统,可以为抽样调查或其 他调查提供基本依据;涉及面广、工作量大、时间较长,而且需要大量人力物 力、组织工作较为繁重,因此普查的适用范围较窄,主要用于调查一些关系国计 民生的基本现象。4、统计报表调查定义:指按照国家有关法规规定,自上而下地统一布置、自下而上地逐级提供基 本统计数据的统计调查方法。分类:按内容和实施范围不同,分为国家统计报表、部门统计报表和地方统计报 表;按报送周期长短不同,报表分为日报、旬报、季报、半年报和年报;按填报 单位不同,报表分为基层统计报表和综合统计报表。5、重点调查定义:指在调查对象中选择一部分重点单位进行调查,用

5、以反映总体基本情况的 一种非全面调查方法。适用:当调查任务值要求掌握基本情况,而部分单位又能集中地反映所要研究的 问题,采用重点调查较为适宜。6、我国统计调查方法体系,就整个统计工作来说,应该以周期性普查为基础, 以经常性的抽样调查为主体,辅之以其他调查方法。7、调查方案结构调查目的;调查对象、调查单位和报告单位;调查项目与调查表;调查时间、调查期限、调查方式与调查方法;调查的组织实施计划8、问卷设计问卷结构:问卷标题、问卷说明、填写要求、甄别部分、主体内容、编码、背景。提问要求:提问内容尽可能短;用词通俗、准确;避免诱导性、否定式提 问;避免敏感性问题;一项问题一般只包含一个问题问题排序:注

6、意问题排序的逻辑性、兴趣性,应先易后难,开放性问题放最后。回答项目设计:开放性问题:填空、自由回答;封闭性问题:两项选择法、多项选择法、顺序选择法、评定尺度 法、双向列联法。9、数据审核间接数据:适用性、时效性直接数据:及时性、完整性、准确性第三章数据分布特征描述1、简单算术平均数与加权算术平均数算术平均数:指将一组数据相加后除以数据个数所得到的一个数值,也称均值。简单算术平均数:数值大小只与变量值大小有关,加权算术平均数:数值大小不仅受各组变量值(或组中值)大小影响,而且受频 率的影响。某组频率越大,改组数据大小对平均数的影响就越大。权数起作用的两个条件:各变量值之间有差异;各变量值的权数有

7、差异。注意:用各组组中值代表其实际数据计算算术平均值时,通常假定各组数据在组 内是均匀分布的,相应的组中值近似等于各组的平均数。如果实际数据与这一假 定吻合,则计算结果比较准确,否则出现较大误差。2、调和平均数:指对变量值的倒数求平均,然后再取倒数而得到的平均数,也 称倒数平均数,以H表示。数学定义看与算术平均不同,但在社会经济应用领m域,调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一致的, 唯一区别是计算时使用了不同的数据资料。3、几何平均数:指n个变量值乘积的n次方根,也称几何均值,以G表示。 是计算平均比率或平均发展速度最适用的一种方法。分布数列中各变量值呈几何 级数变化

8、或频率分布极不对称,也常采用几何平均法。4、标准分数:一组数据中单个变量值与其平均值的离差除以标准差的值,也称 标准化值,记为Z。可用来判断一组数据有否离群点(对称分布一一经验法则; 非对称分布一一切比雪夫不等式)第四章时间数列分析与预测1、时间数列分类按生成时间数列影响因素,可分为平稳时间数列和非平稳时间数列。按统计指标数值的表现形式不同,可分为绝对数时间数列、相对数时间数列和平 均数时间数列。绝对数时间数列又派生出时期数列和时点数列。2、区分平稳数列与非平稳数列的意义在于数列的预测,平稳时间数列表明现象的未来与其历史过程具有高度相似性, 因而可用其历史值预测其未来;但对非平稳时间数列,则需

9、先认识其变化规律, 在此基础上,再利用事物发展的惯性预测其未来。3、时间数列分析常用统计方法:图形描述法(线图)、指标分析法、构成因素分 析法和预测法4、时间数列分解的统计分析中,将T、S、C、I之间关系作出三种假设:各构成因素相互独立,用加法模型表示:y=T.+S.+C.+I.;i i i I I各构成因素非独立,用乘法模型表示:yI=Tl*SI*CI*II;各构成因素有独立也有非独立,表现为混合模型。5、分离长期趋势方法修匀法:在原时间数列的基础上生成一个新数列,借新数列来反映原数列长期 趋势的方法,常见的如移动平均法、指数平滑法;模型拟合法:观察原时间数列线图中现象变化轨迹的形态,拟合一

10、条与该轨迹 形态相适应的曲线,借此曲线来反映原数列长期趋势的方法,最常用的是最小二 乘法。6、采用移动平均法分离长期趋势应注意的问题合理选择步长k;注意新数列中各项观察值位置的排列(奇数一次平均,偶数两次平均);注意移动平均法的局限性。奇数项移动首尾少(k-1)/2,偶数项少k/2,步长 越大修匀作用越大,原有数列的信息损失越多,当数据量不足时(nV50)不宜 采用该方法。7、相比移动平均,指数平滑法的优点平滑值的计算所用数据量和计算量都很少;a (1-a ) i随i的增大而变小,说明滞后期越长的数据对未来的影响越小,即 体现出“近大远小”的思想。8、模型拟合法的操作步骤首先根据时间数列变动的

11、形态特征,选择一条曲线(模型),然后估计参数,最后 依此模型计算出的趋势值来构造新时间数列以反应原数列的长期趋势。该方法的 关键问题在于如何选择合适的模型以及用什么方法估计模型中的参数。9、拟合模型的确定可根据时间数列线图确定,此外可计算相关指标来确定。若时间数列观察值y的逐期增长量(一阶差分yi-yi】二 J大体相等,则其趋势线 近似于一条直线,即拟合模型为y=a+bt;若y的二阶差分心.-)大体相等,则其趋势线近似于一条抛物线,拟合模型I IT为 y=a+bt=ct2 ;若y的对数的一阶差分(Iny.-Iny. 1)大体相等,则其趋势线近似于一条指数曲线, 等等。10、季节变动基本特征:周

12、期性、重复性、相似性。11、季节指数:若十年同期观察值的均值与所有观察值的总均值之比值,称为该 期的季节指数。12、季节指数计算方法同期平均法:直接将若十年同期观察值的均值与所有观察值的总均值对比,计 算出一个年度内各月或各季节的季节指数。该方法在时间数列长期趋势不明显或 者长期趋势不存在时使用。趋势剔除法:是时间数列长期趋势较明显情况下分解季节变动的一种方法。基 本思想是先从时间数列中将长期趋势剔除掉,然后再应用“同期平均法”剔除循 环变动和不规则变动,最后通过计算季节指数来表现季节变动。趋势剔除法是长 期趋势测定方法和上述同期平均法的结合运用。13、时间数列预测平稳时间数列:简单平均法、移

13、动平均法、指数平滑法趋势非平稳时间数列:趋势外推预测法季节非平稳时间数列:回归模型趋势-季节非平稳时间数列:建立趋势季节模型第五章统计指数1、统计指数广义上说,指数是指一切用来测定社会经济现象数量变动或差异程度的相对数。狭义上说,统计指数是指综合反映复杂总体数量变动方向和程度的特殊相对数。2、分类按研究范围不同,分为个体指数和总体指数;按计算方法不同,分简单指数和加权指数;按所表明现象的属性特征不同,分数量指标指数和质量指标指数;按采用基期不同,分环比指数和定基指数3、编制总指数的基本原理首先,确定同度量因素,通过同度量因素将复杂现象同度量化,使各因素能直接 相加。其次,确定同度量因素的时期,

14、即根据实际情况固定在某个时期,以单纯考察复 杂现象中研究的那个因素的综合变动情况。最后,将属于不同时期的两个总量指标对比,得出反映复杂总体综合变动的总指 数。编制总指数时,依据所选用的权数及加权形式的不同,计算方法主要有加权综合 法和加权平均法。4、加权综合法:指对复杂总体通过引入同度量因素并将其固定在某一时期来编 制总指数,以反映总体综合变动程度的指数编制方法。分为基期加权综合法和报 告期加权综合法。5、为什么派氏价格指数应以报告期的实际销售量作为同度量因素?编制物价指数的目的不仅要反映市场物价水平变动的方向和程度,还要反映这种 变动对社会经济生活带来的实际影响,即物价变化对国家、企业、人民

15、群众货币 收支和生活水平的实际影响。由于物价变化发生在报告期,国家、企业、居民因 物价变动而得到的实惠或受到的损失也与报告期购买量有关,而不可能与物价变 动以前的任何一个时期的购买量有关。所以,从应用的角度来讲,用派氏指数编 制物价总指数应当以报告期的实际销售量作为同度量因素,才具有现实的经济意 义。6、拉氏销售量总指数与派氏销售量总指数拉氏销售量总指数是以基期物价作为权数,目的是说明在基期物价水平不变的前 提下,销售量综合变动的程度。不足之处在于使用基期水平作权数,与实际的经 济运行结果脱节。派氏销售量总指数以报告期物价作为权数,目的是说明在报告期物价水平不变的 前提下,销售量综合变动的程度

16、。虽然考虑了现实的经济意义,但不足之处在于 使用报告期的权数,资料不能迅速取得,工作量较大;同时由于指数数列中各期 权数不同,指数数值之间不能直接进行比较。总之,这两个公式各有利弊。在实 际工作中,编制数量指标总指数时倾向于将作为同度量因素的质量指标(权数)固 定在基期;编制质量指标总指数时,则倾向于将作为同度量因素的数量指标(权 数)固定在报告期。7、加权平均法:指以个体指数k为基础,采用相应的总量数据pq为权数加权计 总指数的方法。分为加权算术平均法(以p0q0为权数)、加权调和平均法(以p1q1 为权数)和固定加权平均法(权数一定时间内不变)。8、加权综合法与加权平均法的联系和区别加权综

17、合法与加权平均法是编制总指数的方法,两者之间既有联系,也存在区别。两者之间的联系。其一,两种方法都是单指数的编制方法,其最后结果都是总指数。其二,在一定条件下,两类指数间具有变形关系,即只有使用(p0q0 )或(p1q1)这个 权数时,加权平均指数才是加权综合指数的变形;如果使用(p0q0)或(p)以外的 权数时,这种变形关系不会存在。其三,当掌握的资料不能直接用加权综合法计算总指数时,则可用它的变形(加 权平均指数)形式计算,这种条件下的加权平均指数与其相应的加权综合指数具 有完全相同的经济意义与计算结果。两者之间的区别。其一,两种方法计算总指数的出发点不同。在解决复杂总体不能直接同度量的问

18、 题上,加权综合指数是通过引人同度量因素,先计算出总体的总量,然后进行对 比,即先综合后对比;而加权平均指数则是在个体指数基础上进行加权平均计算 总指数,即先对比,后综合,两种方法各有其独立的意义。其二,两种方法所用权数不同。加权指数使用的权数(同度量因素)是不同时期的 数量(产量或销售量)或是物价,平均指数所使用的权数是不同时期的价值量(产值 或销售额)。其三,两种方法编制指数所依据的资料不同。加权指数需要有总体的全面资料, 所选用的同度量因素要求比较严格,一般应采用与指数指标有明确经济联系的指 标。而平均指数既适用于全面资料,也适用于非全面的资料。9、指数体系:指经济上具有一定联系,而且在

19、数量上具有一定对等关系的三个 或三个以上的指数所构成的一个整体。构建指数体系目的,就是分析多种因素的 变动对经济总体变动的影响情况。10、因素分析:指利用指数体系从相对数和绝对数两方面分析现象的总变动受各 个因素变动影响的情况。11、价值总量的两因素分析原则:一个因素指数的同度量因素固定在报告期,另 一个因素指数的同度量因素固定在基期。12、多因素分析过程注意点多因素分析必须遵循连环代替法的原则,即在分析受多因素影响的事物的发 展变化时,要逐项分析,逐项确定同度量因素。分析第一个因素变动影响后,接 着分析第二个因素的影响,然后再分析第三个因素的影响,以此类推。在多因素分析中,为了分析某一因素的

20、影响,要求把其余因素固定不变。具 体方法是:当分析第一个因素的影响时,就把其它所有因素固定不变,并都作为 同度量因素固定在基期;当分析第二个因素的变动影响时,则把已经分析过的因 素固定在报告期,没有分析过的因素仍固定在基期;当分析第三个因素的变动影 响时,就把已经分析过的两个因素固定在报告期,没有分析过的因素固定在基期, 依次类推。对多因素的排列顺序,要具体分析现象总体的经济内容,使之符合客观事物 的联系或逻辑,保证相邻两个指标相乘具有实际含义。各因素顺序的排列一般应 遵循数量指标因素在前,质量指标因素在后的原则。13、工业生产指数:指以代表产品的生产量为基础,用报告期产量除以基期产量 取得产

21、品产量的个体指数,并以工业增加值为权数来加权计算的总指数。该指数 实质上是工业生产量总指数,它反映的是某一时期工业经济的景气和发展趋势, 可以表明一个国家经济发展的其本情况。14、工业生产者价格指数:指反映工业生产产品出厂价格和购进价格在某个时期 内变动趋势和变动幅度的相对数。该指数包括工业生产者出厂价格指数(Producer Price Index for Industrial Products,简称PPI)和工业生产者购进价格指数。前者反 映工业企业产品第一次出售时的出厂价格的变化趋势和变动幅度。后者反映工业 企业作为中间投入产品的购进价格的变化趋势和变动幅度。15、货币购买力指数:是指反

22、映单位货币所能买到的商品和服务的数量,即货币 购买力变动情况的相对数。该指数的大小,直接受商品和服务价格的影响。商品和服务价格上涨,单位货币 购买力就下降,居民以货币购买的商品和服务的数量就减少,生活水平就会下降。 在实际测算中,往往是采用货币购买力指数来反映不同时期货币购买力的变动, 以说明单位货币在不同时期所能获得的商品和服务数量的变动情况。货币购买力指数实际是居民消费价格指数(含消费品价格指数和服务性支出价格 指数)的倒数。货币购买力指数反映了币值的稳定程度,综合反映了各时期币值 的变动情况,可以从一个侧面分析一个国家的财政经济状况,寻找影响币值稳定 程度的因素和解决存在问题的办法。16

23、、股票价格指数:指根据选择的那些具有代表性和敏感性强的样本股票某时点 平均市场价格计算的,用以反映某一股市股票价格总变动趋势的相对数。该指数 通常简称股价指数。17、国内生产总值缩减指数:指现价国内生产总值与不变价国内生产总值相比得 到的反映价格变动趋势的相对数,又称国内生产总值缩平减指数,简称GDP缩 减指数。第六章综合评价方法1、综合评级方法定义:指以被评价事物在不同侧面的数量特征为基础,通过运用一系列数学、统 计学及其他定量方法将这些数量特征指标转化为一个能够反映综合情况的指标, 并以此对被评价事物进行整体评价的方法体系。特征:与单项评价相比,综合评价包含了若干个指标,这多个指标分别说明

24、被评价对 象的不同方面;虽然包含了多个指标,但最终只用一个综合指数来说明被评价对象的一般水平;由于被评价对象包含了多个指标,需要先对被评价对象进行层次拆分寻找这些 指标,再将这些指标合并成为一个总指标进行数值反映;综合评价需要处理多个指标数据,评价方法相对单项评价而言要复杂得多。分类:按目的划分,综合评价可分为分类问题、排序问题和整体水平评价问题; 按时间状况分,综合评价可分为纵向评价问题、横向评价问题;按使用方法分,综合评价可分为使用传统方法的综合评价问题、使用现代方法 的综合评价问题;按定量化程度分,综合评价可分为定性评价、定量评价和半定性评价问题;按赋权方法分,综合评价方法分为主观赋权法

25、、客观赋权法、主客观结合赋权 法。基本要素:评价目的;评价者;被评价对象;评价指标;指标权重;评价方法;评价结果;基本步骤:确定评价的目的;确定评价对象和属性集;对属性集中的指标 数据进行搜集和处理;确定权重系数和价值函数;给出评价结果;对评价 结果进行检验;分析和运用评价结果。2、评价指标体系构建原则:目的性原则;层次性原则;综合性原则;可操作性原则; 代表性原则;简要性原则(不重复)建立的基本内容:评价指标体系层次构造;单个指标的选择3、指标筛选方法:最小均方差法;极小极大离差法;极大不相关法4、数据处理无量纲化:阈值法;标准化法同向化:极小型指标;居中型指标;区间型指标5、综合评价指标体

26、系的检验单项指标检验:可行性、正确性、真实性指标体系的检验:协调性、完整性、一致性6、指标权重确定:包括主观赋权法、客观赋权法和组合赋权法主观赋权法主要是从定性角度,根据各个指标的经济意义以及其对所研究的问题 作用大小由专家确定相应指标的权重。因此,该类方法比较充分地考虑了客观的 实际情况,使指标的权数相对具有现实意义。但这种方法不可避免地带有主观随 意性。而客观赋权法则是从定量角度,依据各个指标的数值所提供的信息量大小来确定 相应的指标权重。该类方法借助指标数值本身的特征,避免了主观判断造成的随 意性,但对指标具体经济意义重视不够。组合赋权法虽然力图把主观赋权法与客观赋权法的优缺点整合到一起

27、,但整合过 程中存在平均分配权重的现象,因而,也不可避免地存在缺陷。常见赋权法:等权法、离差权法、层次分析法(AHP)等等7、综合权数计算:线性综合法;几何综合法;混合综合法第七章概率与抽样分布1、正态分布的重要意义它是最常见的一种分布,现实中许多随机变量都服从正态分布;它是许多常用分布的极限分布,如二项分布、X2分布、t分布和F分布等,可 用于近似计算;它是构造许多常用分布的基础,例如小样本的精确分布就是正态分布推导出的。第八章参数估计1、分类参数估计法按是否考虑估计误差及发生概率的大小,分点估计和区间估计;点估计法又分矩估计法、最大似然估计法和最小二乘法等。2、矩估计法定义:指以样本矩的某

28、一函数代替总体矩的同一函数来构造估计量的方法。最简 单的矩估计法是用一阶样本原点矩来估计总体的期望,而用二阶样本中心矩来估 计总体的方差。优点:原理简单、使用方便,使用时可以不知总体的分布,而且具有一定的优良 性质如矩估计为总体参数的一致最小方差无偏估计。不足:对于总体原点矩不存在的分布(如柯西分布等)不能应用;要求大样本。由于它只涉及总体的一些数字特征,并未用到总体的分布,因此 矩法估计量实际上只集中了总体的部分信息,这样它在体现总体分布特征上往往 性质较差,只有在样本容量n较大时,才能保障它的优良性,因而理论上讲,矩 法估计是以大样本为应用对象的;矩估计量不具有唯一性,即在一般场合下,使用

29、不同阶的总体矩可得到不同 的矩估计形式。3、极大似然估计法定义:在总体类型已知条件下,先利用总体分布信息构造出似然函数,再对似然 函数求解估计出参数的一种方法。基本思想:当经一次抽样取得一些观测数据(样本值)后,应给未知参数选取一 些数值,使得所观测得到的样本值出现的概率最大。4、枢轴量:从参数。的一个点估计出发,构造与。有关的一个函数G,使得G 的分布是已知的,而且与。无关,通常称这种函数为枢轴量。枢轴量是随机变量, 但由于包含待估总体参数,所以并不是统计量。5、区间估计法基本步骤确定待估参数;构造与待估参数相对应的枢轴量;确定枢轴量的抽样分布;依照枢轴量的抽样分布,由给定的置信度计算待估参

30、数置信区间的上、下限6、确定样本容量的必要性对于一个实际问题来说,样本容量为多大,在进行抽样调查之前就必须确定,否 则将无法进行抽样。作为一项调查研究活动,统计推断总是在一定成本的约束下 进行的。另外,样本容量越大,样本对总体的代表性就越高,从而抽样误差就越 小;反之,样本容量过小,就难以保证样本对总体的代表性,从而导致抽样误差 增大,满足不了推断精确度的要求。所以,从推断的角度来看,要达到估计所要 求的精确程度,自然要求样本容量越大越好;但从抽样的角度来看,增大样本容 量,势必增加人力和物力,从而导致调查成本增大。于是,在抽样推断中,要在 统计推断的精确度与调查成本这一对矛盾间进行权衡。第九

31、章假设检验1、假设检验定义:是统计推断的另一种方式,它在对总体的未知参数或总体服从的分布等问 题作出判断时,首先提出某种假设,例如假设未知参数为某一常数或总体服从某 已知分布等,然后由样本提供的信息,对所做假设的“真实性”作出否定还是不 否定,即拒绝还是接受的假定。特点:假设检验采用逻辑上的反证法,即为了检验一个假设是否成立,首先假 设它是真的,然后对样本进行观察,如果发现出现了不合理现象,则可以认为假 设是不合理的,拒绝假设;否则可以认为假设是合理的,接受假设;假设检验采用的反证法带有概率性质。所谓假设的不合理不是绝对的,而是基 于小概率原理。2、确定原假设和备择假设的原则当目的是希望从样本

32、观察值取得对某一论断有力的支持时,把这一论断的否 定作为原假设H ;把由过去资料所提供的论断作为原假设H,人们常常把那些保守的、历史的、 经验的结果取为原假设,而把那些猜测的、可能的、预期的结果取为备择假设; 把等号放在原假设中。例如,“二”或“W ”或“ N”。3、假设检验与区间估计的联系和区别联系:都是根据样本信息对总体参数进行推断;都是以抽样分布为理论依据;都是建立在概率基础上的推断,推断结果都有风险;可对同一参数进行判断。区别:方法不同。区间估计是依据样本资料估计总体的未知参数的可能范围,假设 检验是根据样本资料来检验对总体参数的先验假设是否成立;应用范围不同。区间估计通常进行的是参数

33、的估计,假设检验不仅有参数检 验,也有非参数检验;特点不同。区间估计立足于大概率通常以较大的把握程度(1-a)去估计总体参 数的置信区间。假设检验立足于小概率,通常是给定很小的概率去检验对总体参 数的先验假设是否成立;所使用的变量的性质不同。区问估计使用的随机变量是枢轴量,其分布有定理 保证,即是无条件成立。假设检验使用的随机变量是检验统计量,其分布是有条 件已知,即在原假设成立条件下已知,在原假设不成立时则分布未知。4、临界值检验法:通过比较检验统计量的值与原假设H临界值的大小,进而对 原假设H作出拒绝还是不拒绝的决策的假设检验方法。5、P值检验法:指用P值大小对原假设做决策的检验法,又称概

34、率值检验法。一般地,PW.1,检验高度显著,拒绝H依据很强;.1VPW.5,检验是显著的,拒绝H依据是强的;.5VPW.1,检验是不显著的,拒绝H依据是弱的;若.1VP,则称没有理由拒绝H6、 对两类错误的控制当样本容量n固定时,若减少犯一类错误的概率,则犯另一类错误的概率往 往增大。若要使犯两类错误的概率都减小,则只有增加样本容量。但是,扩大样 本容量必然增加调查费用,从经济性要求和成本约束两方面讲,样本容量的增加 是有上限的。这样一来,就需要对这两类错误的性质进行评估,根据哪一类错误 造成的后果更加严重,从而确定要控制的首要目标。统计学家J.内曼(J. Neyman)和.皮尔逊(E. Pe

35、arson)提出的原则是:在控 制犯第一类错误的概率a的条件下,使犯第二类错误的概率6尽量减小。其含义 是:原假设要受到保护,使它不至于轻易被否定,因为假设检验是从不利于原假 设的角度来对原假设作决策的;若检验结果否定了原假设,则说明否定的理由是 充分的。同时,犯第一类错误的概率a受到控制,亦使作出否定判断的可靠程度 (1-a )得到了保证。由于假设检验是针对原假设是否接受进行的,检验原假设的内容常常是明确 的,而备择假设的内容常常是模糊的。故在假设检验中,通常的做法是把控制犯 第一类错误的风险放在优先考虑的位置上,这也是为什么a是研究者事先给定的 理由。第十章方差分析与列联表分析1、方差分析

36、模型四个假定:可加性、正态性、方差齐性、独立性2、方差分析中可加性假设的意义说明观察值X.与随机误差 .为线性关系,两者同分布;说明总体均值 .与随机误差 .相互独立。3、计算均方误差的必要性:为了消除各水平下试验次数对离差平方和大小的影 响,需要计算离差平方和的均方。4、LSD 法定义:最小显著差异法,是同时比较多个正态总体均值间两两差异的一种统计方 法,由英国统计学家费雪于1935年提出。特征:事先不设定比较标准,规定每一次检验的第一类错误的误判概率均为a。5、因素和处理处理:按照因素的给定水平对试验对象所做的操作,称为处理。单元:接受处理的试验对象,称为试验单元,简称单元。处理与因素关系

37、:在单因素试验中,实施在试验单元上的具体项目就是因素 的某一个水平,即因素的一个水平就是-个处理。但在双因素试验中,实施在试 验单元上的具体项目是各因素的某水平组合,即两因素交叉分组形成的一个水平 组合是一个处理。一个处理既是一个试验条件,也是一个总体。当因素A分r个水平,因素B分5个水平时,试验单元共分成rs个组,每组 随机地接受一种处理。若各组按各处理只做一次实验,称为两因素无重复试验; 若各组按各处理均做多次试验则称为两因素重复试验。需注意,两因素无重复试验数据不能考察两因素间的交互作用。6、列联表分析定义:指根据观测数据编制列联表,检验定性变量之间是否独立的统计分析方法。 原理:根据样

38、本数据编制列联表,提出要检验的假设“H :定性变量相互独立”, 构造服从X 2分布的检验量,计算检验量X 2的值并作出0是否拒绝原假设的决策。X 2检验的期望值准则:独立性检验时增大样本容量使得每个单元格的期望频数均不小于5;拟合优度检验时合并相邻组使得每组的期望频数均不小于5.第十一章线性回归分析1、相关关系分类按涉及变量的多少不同,分为单相关(一个变量对于另一个变量)、复相关(一 个变量对于两个或两个以上变量)和偏相关(假定其他变量不变,两个变量的相 关关系);按变量之间密切程度不同,分完全相关、不完全相关和不相关;按表现形态不同,分线性相关和非线性相关。2、一元线性回归模型的基本假定与意

39、义假定1:误差项的期望值为0,即对所有的i有E(e )=0;假定2:误差项的方差为常数,即对所有的i有Var( )=E( 2)二。2假定3:误差项之间不存在自相关关系,其协方差为0,即i尹j时,有Cov假定4:自变量是非随机变量,与随机误差项线性无关;假定5:随机误差项服从正态分布, N(O,。2)。以上这些基本假定是德国数学家高斯最早提出的,故也称为高斯假定或标准 假定。假定1的实际意义在于:凡是模型中不显含而归属于 i的因素,对y的均值 都没有系统的影响,正的值抵消了负的值,它们对y的平均影响为零;假定2表示对应于不同x值,的方差。2是常数。这也意味着对应于不同 的Xj值,y的方差也是常数

40、。;1假定3中,对于任意指定的i和j,随机误差项之间无序列相关或无自相关;假定4表示随机误差项和解释变量x是不相关的。也就是说在总体回归 模型中,x.和 i对y有各自的影响。但是,如果 i和xi是相关的,就不可能评 估他们各自对y的影响。假定5中,随机误差项服从正态分布,也就是 N(0,。2)。3、 三种检验的关系1回归方程显著性的F检验、回归系数显著性的t检验以及相关系数显著性的 t检验这三种检验之间存在一定的关系。对一元线性回归这三种检验的结果是完 全一致的,可以证明回归系数显著性的t检验与相关系数显著性的t检验是完全 等价的,而F统计量则是t统计量的平方。因而对-元线性回归实际只需要作其

41、中 的一种检验即可。然而,对多元线性回归来说,这三种检验所要检验的对象不同, 所以并不等价,其检验的意义是不同的。4、偏相关系数:指在多元线性回归分析中,假定在其他自变量保持不变的条件 下,分别计算所得的每一个自变量与因变量相关关系密切程度的统计指标。剔除 某个变量时可参考偏相关系数。5、复相关系数:指在多元线性回归分析中,同时考虑因变量与多个自变量之间 相关关系密切程度的统计指标。两个变量的相关系数有正负之分,而负相关系数 都取正号。第十三章非参数统计1、非参数统计的宗旨:在不假定总体分布的情况下,最大可能地从数据本身获 得所需要的信息。2、数据的秩:从非参数角度来看,一组数据最基本的信息就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论