




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学复习重点第一章1.1 统计及应用领域什么是统计学? 描述统计和推断统计统计学是收集,处理,分析,解释数据,并从数据中得出结论的科学描述统计:是数据收集,处理,汇总,图表描述和概括分析的统计方法推断统计:是用样本数据推断总体特征的统计方法。1.2 统计数据的类型分类数据、顺序数据、数值型数据;截面数据、时间序列数据。分类数据:只能归于某一类别的非数字型数据,它是对事物分类的结果,用文字来表述顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。截面数据:在相同的时间点取得的数据时间序列数据:在不同时间点取得的数据,按时间序列取得。1.3统计中的几个基本概念总体和样本;参数和统计量;变量:分类变量、顺序变量、数值型变量。总体:包含所研究全部个体的集合样本:从总体抽取一部分元素的集合参数:用来描述总体特征的概括性数字度量统计量:用来描述样本特征的概括性数字度量第二章(2.1 数据的来源, 2.2 调查数据, 2.3)。概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样;非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。概率抽样:抽样时按一定的概率以随机原则抽取样本。第三章3.1 数据预处理数据审核:原始数据:完整性和准确性(p36)二手数据:适用性和实效性(p37)完整性:调查个体是否遗漏,填写是否齐全。准确性:数据是否有错,是否存在异常值适用性:1.弄清楚数据的来源,数据的口径以及有关的背景材料2。这些数据是否符合研究的需求实效性:避免数据滞后,尽可能用最新的数据3.2 品质数据的处理及展示 条形图、饼图、环形图。3.3 数值型数据处理及展示数据分组(单变量值分组和组距分组)、直方图、茎叶图和箱线图、线图、散点图、气泡图和雷达图分组方法:单变量值分组和组距分组分组步骤:1确定组数2确定各组组距3根据分组整理成频数分布表3.4合理使用图表统计表的设计第四章4.1集中趋势的度量众数、中位数、分位数、平均数(简单平均数和加权平均数、几何平均数)。4. 2离散程度度量异众比率、四分位差、方差和标准差、极差、平均差、离散系数。异众比率:非众数组频数占总频数的比例4. 3 偏态与峰态(偏度与峰度不要求计算) 要求判断偏斜程度和扁平程度第五章(5.1 随机事件与概率,5.2 概率的性质及运算法则)。1. 古典概率的计算: P(A) = n(A)/n()2概率的加法法则: P ( AB ) = P ( A ) + P ( B ) - P ( AB ) 如果A与B互斥,则 P ( AB )=03条件概率:4概率的乘法公式:P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)5事件的独立性:P(AB)=P(A)P(B)第五章(5.3 离散型随机变量及分布,5.4 连续型随机变量的概率分布)1离散型随机变量的概念,概率分布二项分布 : 离散型随机变量:随机变量X的所有取值可以逐一列举出来。2连续型随机变量的概念概率密度函数: ,连续性随机变量:随机变量X的所有取值不能逐一列举出来。分布函数:正态分布,标准正态分布:3期望和方差,二项分布:正态分布:,4. 二项分布的正态近似对于一个二项随机变量X,当n很大时, P (x1 X x2) 可用正态分布近似为第六章6.1-6.2 统计量及抽样分布的定义统计量的概念,样本均值和样本方差。统计量:设X1,X2,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数T(X1,X2,Xn)是一个统计量。6.3 几个重要分布正态分布、c2 分布、t 分布、F 分布. 1. c2 分布:对于n个标准正态随机变量X1 ,X2 ,Xn,则随机变量,称为具有n个自由度的c2分布,记为 2. t 分布:若U与V独立, ,则 3. F 分布:若X ,Y独立,则 6.4 样本均值分布与中心极限定理 中心极限定理:若总体分布未知或不是正态分布,但 E(x)=m, Var(x)=s2,则n 较大时x 的渐近分布为第七章(7.1 参数估计的基本原理 7.2 一总体参数的区间估计).点估计与区间估计的概念;点估计:就是用样本统计量的某个取值直接作为总体参数的估计值区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减误差得到。区间估计的计算:1 总体服从正态分布,且方差(s) 已知,(大样本),总体均值 m 在1-a置信水平下的置信区间为2 总体服从正态分布,且方差(s) 未知,总体均值 m 在1-a置信水平下的置信区间为3总体比例p在1-a置信水平下的置信区间为4总体方差在1-a置信水平下的置信区间为第八章(8.1 假设检验的基本问题, 8.2 一个总体参数检验)假设检验:采用逻辑上的反证法,依据统计上的小概率原理。假设检验中的两类错误: 第一类错误(弃真错误),第一类错误的概率为a,被称为显著性水平; 第二类错误(取伪错误),第二类错误的概率为 b。利用 P 值进行检验:P-值是抽样分布中大于或小于样本统计量的概率。双侧检验、单侧检验评价估计量的标准:无偏性,有效性,一致性。总体均值的检验的统计量:1s2 已知: 2s2未知,且小样本,3比例检验的 Z 统计量,总体方差的检验 (c2 检验):第十章(10.1 引论 10.2 单因素方差分析)方差分析:检验多个总体均值是否相等,研究分类型自变量对数值型因变量的影戏。单因素方差分析表误差来源平方和(SS)自由度(df)均方(MS)F值P值F临界值组间(因素影响)SSAk-1MSAMSA/MSE组内(误差)SSEn-kMSE总和SSTn-1,第十一章(11.1 变量间关系的度量,11.2 一元线性回归)。1散点图和相关系数:2一元线性回归: y =b0+b1x+e 一元线性回归方程:最小二乘估计,3判定系数4显著性检验:检验统计量 若F, 拒绝,回归方程有意义。565方差分析表6利用回归方程进行点估计和预测。第十四章(14.1基本问题,14.2 总指数编制方法)拉氏指数:权数固定在基期 帕氏指数:权数固定在报告期 另:二手资料:由别人调查和实验得来,是已经存在且被我们利用的资料。使用时要进行评估。注重适用性和实效性。适用性是指了解数据的来源,数据的口径以及相关的背景资料,另外这些数据是否符合实验的需求。实效性是指为了避免滞后,尽可能用新的数据,也要考虑数据是否需要进一步加工。概率抽样:按一定的概率以随机原则抽取样本。每个单位别抽中的概率是已知的或可以计算,技术含量和成本较高。如果是为了研究总体的数量特征,得到总体参数的置信区间,就采用概率抽样。非概率抽样:操作简单,时效快,成本低,适合探索性的研究,不需要抽样结果投影到总体情况。收集数据的方法:面访,电话,自填,试验和观察(式)自填式;优点:1管理容易2成本低,可进行大规模调查3被调查者可选择方便时间答卷缺点:1返回率低2调查内容有限3调查周期长4不能及时调整。面访式;优点:1回答率高2数据质量高3可以及时调整。缺点:1成本比较高2搜集数据的方式对调查过程的质量控制有一定难度3对于敏感问题,被访者会有压力。电话式;优点:1速度快2对调查员比较安全3对访问过程的控制比较容易。缺点:1实施地区有限2调查时间不能过长3使用的问卷要简单4被访者不愿回答时,不易劝服。小概率原理:一个事件如果发生概率很小,那么在一次试验中是不可能发生的,但在多次重复试验中必然发生。3.2分类数据和顺序数据的整理和图示方法各有哪些分类数据:制作频数分布表,用比例,百分比,比率等进行描述性分析。可用条形图,饼图和帕累托图进行图示分析。顺序数据:制作频数分布表,用比例,百分比,比率。累计频数和累计频率等进行描述性分析。可用条形图,帕累托图和饼图,和环形图进行图示分析。3.4直方图和条形图的区别1条形图图形的高度表示各类别频数的多少,其宽度固定,直方图图形的高度表示每组的频数或频率,宽度表示组距,2直方图各矩形连续排列,条形图分开排列,3条形图主要展示分类数据,直方图主要展示数值型数据。3.6饼图和环形图的不同饼图只能显示一个样本或总体各部分所占比例,环形图可以同时显示多个样本或总体各部分所占比例。3.7茎叶图比直方图的优势,他们各自的应用场合茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。直方图通常适用于大批量数据,茎叶图适用于小批量数据。3.9制作统计表应注意的问题1,合理安排统计表结构2表头包括表号,总标题和数据单位等内容3表中的上下两条横线一般用粗线,中间的其他用细线4在使用统计表时,必要时可在下方加注释,注明数据来源。4.1一组数据的分布特征可以从哪几个方面进行测度?数据分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向中心值集中的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。4.8为什么要计算离散系数? 方差和标准差是反映数据分散程度的绝对值,一方面其数值大小受原变量值本身水平高低的影响,也就是与变量的平均数大小有关;另一方面,它们与原变量的计量单位相同,采用不同计量单位的变量值,其离散程度的测度值也就不同。因此,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。5.1频率与概率有什么关系? 在相同条件下随机试验n次,某事件A出现m次,则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数p波动,逐渐趋于稳定,这个频率的稳定值即为该事件的概率。5.2独立性与互斥性有什么关系?互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。不互斥事件可能是独立的,也可能是不独立的,但独立事件不可能是互斥的。为了使推断统计成为可能6.4 统计量加工过程中一点信息都不损失的统计量为充分统计量6.5 自由度:独立变量的个数6.7 抽样分布:样本统计量的概率分布是一种理论概率分布,随机变量是样本统计量 。7.1 估计量:估计总体参数的随机变量7.2 估计值:估计总体参数时计算出来的统计量的具体值评价估计量的标准: 无偏性:估计量抽样分布的数学期望等于被估计的总体参数 有效性:对同一总体参数的两个无偏点估计量 ,有更小标准差的估计量更有效 一致性:随着样本容量的增大,估计量的 值越来越接近被估计的总体参数7.3 置信区间:由样本统计量所构造的总体参数的估计区间7.4 95%的置信区间指用某种方法构造的所有区间中有95%的区间包含总体参数的真值。8.1假设检验和参数估计有什么相同点和不同点?答:参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法,总体参数在估计前是未知的。而在参数假设检验中,则是先对的值提出一个假设,然后利用样本信息去检验这个假设是否成立。显著性水平是指在假设检验中,原假设正确时却被拒绝的概率和风险。8.6显著性水平与P值有何区别答:显著性水平是原假设为真时,拒绝原假设的概率,是一个概率值。大小由研究者事先确定,一般为0.05。而P只是,被称为观察到的显著性水平8.8你认为单侧检验中原假设与备择假设的方向如何确定?答:将研究者想收集证据予以支持的假设作为备择假设H1,将研究者想收集证据证明其不正确的假设作为原假设H0,先确立备择假设H1,备择假设的方向与想要证明其正确性的方向一致,原假设与备择假设是互斥的,等号总在原假设上。答:方差分析中有三个基本假定:(1) 每个总体都应服从正态分布(2) 各个总体的方差2必须相同(3) 观测值是独立的、10.5简述方差分析的基本思想。答: 它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。10.6解释因子与处理的含义。答:在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。10.7解释组内误差和组间误差的含义。答:组内误差(SSE)是指每组的各个样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况;组间误差(SSA)是指各组平均值i与总平均值的误差平方和,反映各样本均值之间的差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度建筑工程质量责任协议书
- 二零二五年度新型抵押物抵押借款合同范本
- 二零二五年度成都职业规划咨询居间合同
- 2025版人工智能技术研发合作担保合同
- 2025至2030年中国流平仪行业市场深度分析及投资潜力预测报告
- 2025版白酒产品售后服务合作协议
- 2025版发动机大修与动力性能再生产服务合同
- 二零二五版城市景观绿化工程招投标合同及养护协议
- 二零二五年度姜云离婚协议书:财产分割与子女教育
- 二零二五年度家具租赁合同与服务协议
- 数学人教A版(2019)选择性必修第一册2.5.1 直线与圆的位置关系 教案
- 精选芭蕾舞男女演员之间的潜规则汇总
- 慢阻肺随访记录表格模板
- SF∕T 0124-2021 录像过程分析技术规范
- 四讲业主业主大会业主委员会PPT课件
- 永磁涡流传动器的应用示范及产业化20150706
- EPC项目—承包人建议书、承包人实施计划
- 被执行人财产申报表
- 赫章县地质灾害防治规划
- 复合活性羟基磷灰石陶瓷的研制及其生物相容性研究
- 《放射物理与防护》第四章
评论
0/150
提交评论