西交大考研统计学课后问答整理_第1页
西交大考研统计学课后问答整理_第2页
西交大考研统计学课后问答整理_第3页
西交大考研统计学课后问答整理_第4页
西交大考研统计学课后问答整理_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学问答题整理行管盖小静第一章 导论1. 什么是统计学?怎样理解统计学与统计数据的关系?1) 统计学是指收集、处理、分析、解释数据并从数据中得出结论的科学。2) 关系:它是一门关于数据的科学,它提供的是一套关于数据收集、处理、分析、解释并得出结论的方法,它研究的是来自各个领域的数据。而其中数据收集就是取得统计数据,处理是将数据用图表等形式展示出来,分析是通过统计方法研究数据、并从数据中取得有用信息以帮助决策。3) 数据分析的方法有描述统计和推断统计。描述统计是指研究数据收集、处理和描述的分支,推断是指研究如何用样本数据来推断总体特征的分支。2. 统计数据可以分为哪几类?不同类型的数据各有什么特点?不同的数据要采用不同的统计方法来处理和分析1) 按计量尺度分:分类数据:只能归于某一类别的非数字型数据,由分类尺度计量形成;顺序数据:只能归于某一有序类别的非数字型数据,由顺序尺度计量形成。分类和顺序数据说明的是事物的品质特征,常用文字来表述,其结果表现为类别,故也可称定性数据或品质数据。数值型数据:按数字尺度测量的观测值。其说明的是现象的数量特征,通常用数值表述,也可称定量或数量数据。2) 按收集方法分: 观测数据:通过调查或观测收集到得数据。在没有对事物人为控制的条件下得到,一般有关社会经济现象的数据都是;实验数据:在实验中控制实验对象而收集到的。一般为自然科学领域收集到得数据。3) 按被描述的现象与时间的关系分:截面数据:在相同或近似相同的时间点上收集的数据。它所描述的是现象在某一时刻的变化情况,通常是在不同空间上获得的数据;时间序列数据:在不同时间上收集到的数据。它是按着时间顺序收集到的,用于描述现象随时间变化的情况。3. 举例说明总体、样本、参数、统计量和变量的概念。总体:包含所研究的全部个体(数据)的集合。样本:从总体中抽取的一部分元素的集合。样本容量:构成样本的元素数目,又称样本量。参数:用来描述总体特征的概括性数字度量。统计量:用来描述样本特征的概括性数字度量。变量:说明事物某种特征的概念。特点是从一次观察到下一次观察会呈现差别或变化。4. 举例说明什么是有限总体和无限总体。总体根据包含的数目是否可数而划分的:1) 有限总体:总体的范围能够明确确定,元素的数目有限可数,在每次抽取样本时是不独立的。2) 无限总体:总体所包含元素是无限不可数的。其每次抽取样本是独立的,即本次抽取不影响下一次的抽样结果。在推断统计中通常是针对无限总体的,因而通常把总体看作随机变量。5. 变量可以分为哪几类?1) 分类变量:说明事物类别的一个名称。其取值即分类数据。2) 顺序变量:说明事物有序类别的一个名称。其取值即顺序数据。3) 数值型变量:说明事物数字特征的一个名称。其取值即数值型数据。根据其取值不同可以分为连续和离散变量。连续变量是指可以在一个或多个区间中取任意值的变量,其取值连续不断,不可一一列举;离散变量是指只能取可数值的变量,其取值只能取有限个值,且取值都以整数位断开,可一一列举。在社会和经济问题的研究中离散变量很多时也可以当作连续变量处理。此外,还可以将变量划分为随机和非随机变量,经验变量和理论变量等。经验变量是在周围环境中可以观察到的事物,理论变量是统计学家用数学方法构造出来的变量。6. 统计学应用的领域有什么。统计学可以应用于所有有数据的领域,如政府部门、学术研究领域、日常生活、公司企业的生产经营管理等。如在工商管理中有:企业发展战略、产品质量管理、市场研究、财务分析、经济预测和HR等。统计有助于数据分,数据分析的真正目的是找到规律、获得启发,而不是寻找支持,真正的分析事先是没有结论的,通过数据的分析才能得出结论。当然,统计也不是万能的。第二章 数据收集1. 简述普查和抽样调查的特点。它们都是实际中常用的统计调查方式。此外还有统计报表:按照国家有关法律规定,自上而下的提供基本数据。1) 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。它具有四大特点:经济性(人、财、物、时、费较低)、时效性强、适应面广、准确性高。2) 普查:为特定目的而专门组织的全面调查。它适合于特定目的特定对象的一种调查方式,主要用于收集某一时间点上的社会经济现象的数量,目的是掌握特定社会经济现象的基本全貌,为国家制定政策措施提供依据。我国进行的主要有人口(末尾0)、工业、农业(6)、经济普查(3和8)。普查需要耗费大量的人力、物力、财力和时间,通常隔较长时间进行一次,具有周期性。2. 统计数据的具体收集方法有哪些。数据来源间接来源直接来源出版物、网络调查实验抽样调查普查数据收集方法询问调查观察实验访问调查邮寄调查电话调查电脑辅助座谈会个别深访观察实验工业普查农业普查经济普查概率抽样非概率抽样随机抽样分层抽样机械抽样整群抽样3. 简述调查方案的4个基本结构。1) 调查目的:调查要达到的具体目标回答“为什么调查?”调查之前必须明确2) 调查对象和调查单位:调查对象:调查研究的总体或调查范围;调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查);回答“向谁调查?3) 调查项目和调查表:即调查的具体内容;通常表现为表格或问卷;回答“调查什么?”。4) 其它问题:明确调查所采用的方法;确定调查资料的所属时间和调查工作的期限;调查的组织与实施细则。4. 什么是问卷?它由哪几部分组成?问卷是用来收集调查数据的一种工具,调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式。不同的调查问卷在具体结构、题型、措词、版式等设计上会有所不同,但在结构上一般都由开头部分(问候语、填写说明、问卷编号)、甄别部分、(筛选调查者)主体部分(核心)和背景部分(放在最后)四方面组成 。5. 设计问卷的提问项目应该注意哪些问题。1) 提问的内容尽可能短 2) 用词要确切、通俗可按6W准则加以推敲。Who、Where、When、Why、What、How。3) 一项提问只包含一项内容 4) 避免诱导性提问 5) 避免否定形式的提问 6) 避免敏感性问题 6. 封闭型问题答案的设计有哪些主要方法。封闭性问题主要是选择回答型,主要包括五种方法:1) 两项选择法:Y/N2) 多项选择法:单项、多项以及限制项选择三种。3) 顺序选择法:对选项按重要程度进行排列。4) 评定尺度法:即非常好、一般好、不好等。5) 双向列联法。7. 问卷中问题顺序的设计应该注意哪些问题。1) 问题的安排应具有逻辑性。2) 问题的顺序应先易后难。3) 能引起被调查者兴趣的问题放在前面。4) 开放性问题放在后面。5) 版面格式的设计。包括:问卷的结构安排要合理,问卷的主体部分要突出、醒目;不要编排过密,各问题之间要留出一定的空间;外表及内容的印刷要美观8. 数据误差的产生及消除。1) 抽样误差:由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,无法消除但可以事先计算和控制。 产生原因:未遵循随机原则;样本结构与总体结构有差异;样本量不足等2) 非抽样误差:相对抽样误差而言,是除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有的调查之中。(概率抽样、非概率抽样、全面性调查)理论上可以消除。 产生有:抽样框误差、回答误差和无回答误差(被调查者)、调查员误差、测量误差。3) 误差的控制: 抽样误差可计算和控制。 非抽样误差的控制:调查员的挑选;调查员的培训;督导员的调查专业水平;调查过程控制(调查结果进行检验、评估;现场调查人员进行奖惩的制度)。9、以及数据质量的要求?1. 精度:最低的抽样误差或随机误差2. 准确性:最小的非抽样误差或偏差3. 关联性:满足用户决策、管理和研究的需要4. 及时性:在最短的时间里取得并公布数据5. 一致性:保持时间序列的可比性6. 最低成本:以最经济的方式取得数据第三章 数据的图表展示1. 数据的预处理包括哪些内容?1) 数据审核:检查数据中的错误2) 数据筛选:找出符合条件的数据3) 数据排序:升序和降序;寻找数据的基本特征。排序后的称为顺序统计量。4) 数据透视表:按需要汇总。自己附加:一、数据审核的具体方法是?1. 原始数据:1) 完整性审核n 应调查的单位或个体是否有遗漏n 所有的调查项目或变量是否填写齐全2)准确性审核n 数据是否真实反映实际情况,内容是否符合实际n 数据是否有错误,计算是否正确等2. 二手数据:1) 适用性审核n 弄清楚数据的来源、数据的口径以及有关的背景材料n 确定数据是否符合自己分析研究的需要2) 时效性审核n 尽可能使用最新的数据3)确认是否有必要做进一步的加工整理二数据筛选的内容是什么?1. 当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选。2. 数据筛选的内容 将某些不符合要求的数据或有明显错误的数据予以剔除 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除三、数据排序的方法?1. 分类数据的排序 字母型数据,排序有升序降序之分,但习惯上用升序 汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2. 数值型数据的排序n 递增排序:设一组数据为x1,x2,xn,递增排序后可表示为:x(1)x(2)x(2)x(n)三、数据排序的目的?1. 按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2. 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3. 在某些场合,排序本身就是分析的目的之一4. 排序可借助于计算机完成。2. 数据整理与图示的基本问题是什么?(附件)1) 要弄清所面对的数据类型,不同类型的数据,采取不同的处理方式和方法:n 对分类数据和顺序数据主要是作分类整理。n 对数值型数据则主要是作分组整理2)适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据。3. 分类数据和顺序数据的整理和图示方法各有哪些?A. 都是品质型数据,可计算的统计量有:(后两个仅为顺序数据的)1) 频数:落在各类别中的数据个数2) 比例:某一类别数据占全部数据的比值3) 百分比:将对比的基数作为100而计算的比值4) 比率:不同类别数值的比值5) 累积频数:各类别频数的逐级累加。向上向下两种。6) 累积频率:各类别频率(百分比)的逐级累加B图示方法有:(后两个仅为顺序数据的)1) 条形图。宽度相同的条形的高度或长短来表示各类别数据的图形,单式条形图、复式条形图等形式。主要用于反映分类数据的频数分布,绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。2) 帕累托图。按各类别数据出现的频数多少排序后绘制的柱形图 3) 对比条形图。用以对比分类变量的取值在不同时间或不同空间上的差异或变化趋势。4) 饼图。也是圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。5) 累计频率或频数分布图6) 环形图。类似饼图,中间有一个“洞”,可用于显示多个样本或总体的各个部分所占比例,有利于比较。用于结构比较研究, 用于展示分类和顺序数据。4. 数值型数据的分组方法有哪些?简述组距分组的步骤。数据分组是指根据数据研究需要,将原始数据按照某种标准划分成不同组别。包括:1) 单变量值分组:一个变量值作为一组,适合于离散变量和变量值较少的情况。2) 组距分组:将变量值的一个区间作为一组,适合于连续变量和变量值较多的情况,需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组。组距分组的步骤:1. 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K 15,可以按 Sturges 提出的经验公式确定组数K- 。2. 确定组距:一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距( 最大值 - 最小值) 组数 3. 统计出各组的频数并整理成频数分布表 。遵循补充不漏可使用:上下组限重叠时,上组限不在内;上下组限断开;使用开口组。5. 直方图与条形图有何区别。1) 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。2) 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。3) 直方图的各矩形通常是连续排列,条形图则是分开排列。4) 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。6. 绘制线图应该注意哪些问题?它是用来表示时间序列数据趋势的图形,注意三点:1) 时间一般绘在横轴,数据绘在纵轴2) 图形的长宽比例大致为10 : 7。3) 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断7. 饼图和环形图有什么不同?与饼图类似,但又有区别:1) 饼图只能显示一个总体各部分所占的比例2) 环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环。8. 茎叶图和直方图相比有什么优点?他们的应用场合分别是什么?1) 茎叶图是用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字。对于n(20 n 300)个数据,茎叶图最大行数不超过 L = 10 lg n 2) 直方图是用矩形长和高即面积来表示频数分布的图形。3) 茎叶图类似于横置的直方图,但又有区别: 直方图可观察一组数据的分布状况,但没有给出具体的数值。 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。 直方图适用于大批量数据,茎叶图适用于小批量数据。9. 鉴别图表优劣的准则有哪些。好的图表应包括以下基本特征:(附加)1) 显示数据2) 让读者把注意力集中在图表的内容上,而不是制作图表的程序上3) 避免歪曲4) 强调数据之间的比较5) 服务于一个明确的目的6) 有对图表的统计描述和文字说明好的图表的鉴别准则是:1) 精心设计、有助于洞察问题的实质2) 使复杂的观点得到简明、确切、高效的阐述3) 能在最短的时间内以最少的笔墨给读者提供最大量的信息4) 是多维的5) 表述数据的真实情况10. 统计表由那几个部分组成?五个部分:表头、行标题(类别名称)、列标题(变量名称)、数字资料、表外附加(数据来源、变量的注释何必要说明等)11. 制作统计表应该注意哪些问题?1) 合理安排统计表的结构2) 总标题内容应满足3W 要求3) 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明4) 表中的上下两条横线一般用粗线,其他线用细线5) 通常情况下,统计表的左右两边不封口6) 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一7) 对于没有数字的表格单元,一般用“”表示8) 必要时可在表的下方加上注释小结表:数据类型品质数据数值型数据汇总表原始数据分组数据时序数据多元数据条形图饼图茎叶图箱线图直方图折线图线图散点图气泡图雷达图环形图第四章 数据的概括性度量1. 一组数据的分布特征可以从哪几个方面进行测度?1) 集中趋势(位置):一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值。且不同类型的数据用不同的集中趋势测度值,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据:分类数据-众数;顺序数据-中位数和分位数;数值型数据-平均数。2) 离散趋势(分散程度):数据分布的另一个重要特征,映各变量值远离其中心值的程度,从另一个侧面说明了集中趋势测度值的代表程度。不同类型的数据有不同的离散程度测度值: 分类数据-异众比率; 顺序数据-四分位差;数值型数据-方差、标准差,此外还有极差和平均差,标准分数(判断一值在一组数据中的相对位置)和离散系数(测度不同组别数据的相对离散程度)3) 偏态和峰态(形状):数据分布偏斜程度的测度和扁平程度的测度。2. 怎样理解均值在统计学中的地位?1) 均值是集中趋势的最常用测度值,主要适用于数值型数据,有简单平均数和加权平均数之分,此外还有几何平均数。2) 它是进行统计分析和统计推断的基础。从统计思想上看,它是一组数据的重心所在,是数据误差相互抵消后的必然性结果。 具有使各变量值与平均数离差平方和最小的数学性质。3) 但其易受极端值的影响。3. 简述四分位数的计算方法。是指排序后处于25%和75%位置上的值,不受极端值的影响,主要用于顺序数据,也可用于数值型数据。1) 定义计算: 2) 较准确计算: 3) 中位数法: 4) Excel计算: 4. 对于比率数据的平均为什么采用几何平均?是指n 个变量值乘积的 n 次方根。适用于对比率数据的平均,主要用于计算平均增长率,因为所掌握的变量值本身就是比率的形式,如果各比率数值相差不大还可以用算术平均,相差大只能用几何平均。用Gm表示。5. 简述众数、中位数和均值的特点以及应用场合。1) 众数n 不受极端值影响n 具有不惟一性n 数据分布偏斜程度较大且有明显峰值时应用,主要用于数量较多的分类数据。2) 中位数n 不受极端值影响n 数据分布偏斜程度较大时应用,主要适于顺序数据。3) 平均数n 易受极端值影响n 数学性质优良n 数据对称分布或接近对称分布时应用,主要适于数值型数据。6. 简述异众比率、四分位差、方差或标准差的适用场合?1) 异众比率:非众数组的频数占总频数的比例,用以衡量众数的代表性。主要适于分类数据。2) 四分位差:称为内距或四分间距,是上四分位数与下四分位数之差,即Qd = QU QL。反映了中间50%数据的离散程度,不受极端值的影响,用于衡量中位数的代表性,适于顺序型数据。3) 方差或标准差:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。主要适于数值型数据。7. 标准分数有哪些用途?标准分数也称标准化值,是用公式 对不同量纲的变量进行标准化处理,用以测度每个值在一组数据中的相对位置,也可用于判断一组数据是否有离群点,8. 为什么要计算离散系数?离散系数也称为变异系数、标准差系数,是一组数据的标准差与其相应的均值之比,是相对离散程度的测度。其公式是 它用于对不同组别数据离散程度的比较,消除了数据水平高低和计量单位的影响,离散系数大的离散程度也就大。9. 测度数据分布形状的统计量有哪些?1) 偏态系数:对数据分布不对称性的度量值。其公式为:分组数据: 未分组数据: 判断:偏态系数=0为对称分布;偏态系数 0为右偏分布或正偏; 偏态系数0为尖峰分布;峰态系数0为扁平分布。数据分布特征集中趋势离散程度分布形状中位数平均数异众比率四分位差极差偏态系数平均差方差或标准差峰态系数众数离散系数第五章 概率与概率分布1. 含义解释:试验与事件、样本空间1) 试验:对一个或多个实验对象进行一次观察或测量的过程。2) 事件:试验的每一个可能结果(任何样本点集合)。其中随机事件是每次试验可能出现也可能不出现的事件3) 样本空间:一个试验中所有结果的集合,用W表示4) 样本点:样本空间中每一个特定的试验结果,用符号w表示2. 简述概率与频率的关系。1) 事件A的概率是一个介于0和1之间的一个值,用以度量试验完成时事件A发生的可能性大小, 记为P(A)。2) 当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近n 在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为 3. 什么是互斥事件,其加法规则是什么?在试验中,两个事件有一个发生时,另一个就不能发生,则称事件A与事件B是互斥事件(没有公共样本点。若两个事件A与B互斥,则事件A发生或事件B发生的概率等于这两个事件各自的概率之和,即 P(AB) =P(A)+P(B)4. 概率的基本性质。1) 非负性n 对任意事件A,有 P 02) 规范性n 一个事件的概率是一个介于0与1之间的值,即对于任意事件 A,有0 P 13) 必然事件的概率为1;不可能事件的概率为0。即P (W )=1; P(F )=04) 可加性n 若A与B互斥,则P(AB) =P(A)+P(B)n 推广到多个两两互斥事件A1,A2,An,有 P( A1A2 An) = P(A1)+P(A2)+P(An)5. 什么是条件概率。在事件B已经发生的条件下事件A发生的概率,称为已知事件B时事件A的条件概率,记为P(A|B)= 6. 两个事件独立意味着什么?1) 若P(A|B)=P(A)或P(B|A)=P(B) ,则称事件A与B事件独立,或称独立事件 2) 若两个事件相互独立,则这两个事件同时发生的概率等于它们各自发生的概率之积,即 P(AB)= P(A) P(B);若事件A1,A2,An相互独立,则P(A1, A2, , An)= P(A1) P(A2) P(An) 。7. 什么是随机变量,它的类型是什么?随机变量是一次试验的结果的数值性描述(事先未知)一般用 X,Y,Z 来表示。根据取值情况的不同分为离散型随机变量和连续型随机变量:1) 离散型:只能取有限个或可数个值得随机变量,这些值可以逐个列举,且以确定的概率取这些不同的值。2) 连续型:可以取一个或多个区间中任何值的随机变量。不可以一一列举8. 什么是离散随机变量的概率分布?列出离散型随机变量X的所有可能取值和随机变量取这些值的确定概率,以表格的形式表现出来。则P(X =xi)=pi称为离散型随机变量的概率函数。且pi0 ;pi=19. 两点分布与二项分布有何不同?一个离散型随机变量X只取0和1两个可能的值称为两点分布,重复进行 n 次试验,出现“成功”的次数的概率分布称为二项分布,记为XB(n,p),其概率密度函数分别为: 两点分布用于伯努利试验,而二项分布用于n次伯努利试验,前者是后者基础。10. 简述N重伯努利试验的条件。(与二项分布有关)将伯努利试验重复进行n次:1) 一次试验只有两个可能结果,即“成功”和“失败”2) 一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的 。3) 试验是相互独立的,并可以重复进行n次 。4) 在n次试验中,“成功”的次数对应一个离散型随机变量X 11. 超几何分布的适用场合是什么?适用于采用不重复抽样,各次试验并不独立,成功的概率也互不相等,总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布。概率分布函数为:12. 简述概率密度函数和分布函数的含义。1) 密度函数:设X为一连续型随机变量,x 为某一区间或多个区间的任意数值,X的概率密度函数记为f(x)。连续型随机变量的给定区间取值的概率对应的是f(x)曲线或直线在该区间围成的面积。它在某一点的概率值为0,密度函数曲线下的面积等于1。密度函数 f(x)表示X 的所有取值 x 及其频数f(x)2) 分布函数:对于随机变量x,设其为任意实数,则函数F(x)=P(Xx)称为随机变量的分布函数。分布函数在X处的取值,即X的取值落在区间(,x)上的概率。分布函数是曲线下小于 x 的面积.13. 判断数据正态性的方法有哪些?1) 对数据画出频数分布的直方图或茎叶图。若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似2) 求出样本数据的四分位差Qd和标准差s,然后计算比值Qd/s 。若数据近似服从正态分布,则有Qd/s1.3则为正态分布。3) 绘制正态概率图。若由(xi,zi)形成的点紧密围绕在一条直线周围即是。14. 简述标准正态概率图的绘制步骤。第1步:将样本观察值从小到大排列:第2步:求出样本观察值的标准正态分数zi 。标准正态分数满足: 第3步:将zi作为纵轴,xi作为横轴,绘制图形,即为标准正态概率图。15. 在什么条件下用正态分布近似计算二项分布的概率效果比较好?对于小样本,p=0.5时则近似,此时u=np是对称中心。此外当n 很大时,大到使np、n(1p)5时即可近似服从正态分布Nnp , np(1-p)16. 均匀分布和指数分布描述的现象各有什么特点均匀分布:随机变量在某一特定区间内取值,其在区间内取任何一个值的概率相等,因为所有可能取值的范围内分布是均匀的。指数分布:描述等待某一特定事件发生所需事件的一种连续性概率分布。17. 正态分布函数的性质是什么。1) 图形是关于x=m对称的钟形曲线,且峰值在x=m 处2) 均值m和标准差s一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族” 3) 均值m可取实数轴上的任意数值,决定正态曲线的具体水平位置;4) 标准差决定曲线的“陡峭”或“扁平”程度。s越大,正态曲线扁平;s越小,正态曲线越陡峭5) 当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交6) 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 第六章 抽样与抽样分布1. 概率抽样:根据一个已知的概率来抽取样本单位,也称随机抽样特点n 按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中n 每个单位被抽中的概率是已知的,或是可以计算出来的 n 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率2. 简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 。抽取元素的具体方法有重复抽样和不重复抽样。参数估计和假设检验所依据的主要是简单随机样本特点:n 简单、直观,在抽样框完整时,可直接从中抽取样本n 用样本统计量对目标量进行估计比较方便局限性:n 当N很大时,不易构造抽样框n 抽出的单位很分散,给实施调查增加了困难n 没有利用其他辅助信息以提高估计的效率3.分层抽样:将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。优点:n 保证样本的结构与总体的结构比较相近,从而提高估计的精度n 组织实施调查方便n 既可以对总体参数进行估计,也可以对各层的目标量进行估计4.系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。如先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位。优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难5、整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。特点:n 抽样时只需群的抽样框,可简化工作量n 调查的地点相对集中,节省调查费用,方便调查的实施n 缺点是估计的精度较差6、多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查。群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样n 具有整群抽样的优点,保证样本相对集中,节约调查费用n 需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开n 在大规模的抽样调查中,经常被采用的方法 1. 解释总体分布、样本分布和抽样分布的含义1) 总体分布:素的观察值所形成的相对频数分布。分布通常是未知的,以假定它服从某种分布 。2) 样本分布:从总体中抽取容量为n的样本,这n个样本观测值形成的相对频数分布,也称经验分布 。样本容量n逐渐增大时,样本分布逐渐接近总体的分布 3) 抽样分布:是样本统计量的概率分布,是一种理论分布,即重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 。随机变量是样本统计量;结果来自容量相同的所有可能样本;提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 2. 解释中心极限定理。从均值为m ,方差为s 的一个任意总体中抽取容量为n的随机样本,当n充分大时(n30),样本均值的抽样分布近似服从均值为,方差为2/n的正态分布。3. 重复抽样和不重复抽样相比,抽样均值分布的标准差有何不同?1) 重复抽样条件下,(同时包括不重复抽样中的大样本:在对无限总体进行不重复抽样, 以及有限总体N很大,n/N很小时,则修正系数(Nn/N-1)趋于1,都可以按重复抽样条件下处理。)方差为: 2) 在不重复抽样条件下,抽样均值方差则需要修正系数,方差为: 4. 样本均值分布与总体分布的关系是什么?1) 原总体为正态分布时,无论样本容量大小,样本均值抽样分布均服从正态分布。2) 原总体为非正态分布时,有两种情况:n 样本容量n30时,其不服从正态分布。n 样本容量n30时,使用中心极限定理:从均值为m ,方差为s 的一个任意总体中抽取容量为n的随机样本,当n充分大时(n30),样本均值的抽样分布近似服从均值为,方差为2/n的正态分布。5. 样本方差与两个样本方差的比各自服从什么分布?且其图形各有什么特点?1) 样本方差服从X2分布其特征有四:n 分布的变量值始终为正 n 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 n 期望为E(c2)=n,方差为D(c2)=2n(n为自由度) n 可加性:若U和V为两个独立的服从c2分布的随机变量,Uc2(n1),Vc2(n2),则U+V这一随机变量服从自由度为n1+n2的c2分布 2) 两个样本方差的比服从F分布:其特征为:图形右偏。第七章 参数估计1. 解释估计量和估计值估计量:用于估计总体参数的统计量的名称。如样本均值,样本比例、样本方差等。参数用q 表示,估计量用q 表示估计值:估计参数时计算出来的统计量的具体值。2. 简述估计量好坏的评价标准1) 无偏性:估计量抽样分布的数学期望等于被估计的总体参数2) 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效 3) 一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。3. 解释置信水平的含义将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 ,表示为 (1 - a )。a 为是总体参数未在区间内的比例。也叫置信系数。4. 怎样理解置信区间1) 由样本统计量所构造的总体参数的估计区间称为置信区间2) 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 3) 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值a) 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个b) 总体参数以一定的概率落在这一区间的表述是错误的5. 解释95%的置信区间N个随机区间中,有95%个区间可能包含真值.6. 估计误差或边际误差的式子 含义是什么。它是估计总体均值时的边际误差,也称为估计误差或者估计范围。其中a是预先所确定的概率值,也称为风险值,它是总体均值不包含在置信区间的概率,Za/2是标准正态分布上侧面积为a/2时的Z值。7. 均值的置信区间估计与新观测值的预测区间估计有什么不同。1) 研究一个总体时,总体均值的置信区间估计关心的是总体均值,而与它不同的是有时关心的是预测随机变量未来的观察值,并希望求出各某个未来观察值的取值范围,这个范围就是对某个未来观察值的预测区间估计。2) 未来观测值Xn+1的预测区间总是比均值的置信区间要长。因为Xn+1的预测误差比u的估计误差要大。n 直观的看,预测误差是两个随机变量的差( ),而用于置信区间的估计误差是一个随机变量和常数的差( ),随着n的增大,估计误差越来越接近0,置信区间的长度也就趋于0,变为u的真实值,而未来观测值的预测误差总是存在,其区间长度接近于 3) 总体均值的置信区间估计对正态性的假设不是很敏感,而未来观测值的预测区间则对正态性假设很敏感,因为它与从整态总体中随机抽取的单个观测值有关。8. 解释独立样本和匹配样本的含义。1) 独立样本:是指两个样本是从总体中独立地抽取的,即一个样本中的元素与另一个样本中的元素相互独立。2) 匹配样本:使用独立样本来估计两个总体均值之差存在潜在的弊端,可能因为不公平的样本指定掩盖样本的真正差异。因为为了解决这一问题,采用匹配样本,即一个样本中的数据与另一样本中的数据相对应。9. 在对两个总体均值之差的小样本估计中,对两个总体和样本都有哪些假定? 两个总体都服从正态分布 两个独立的小样本(n130和n230) 此外还有分别的假定,如总体方差相等、样本容量相等等,计算方法也不一样。10. 简述样本容量与置信水平、总体方差、边际误差的关系。在估计时,总希望提高估计的可靠程度或者说是置信水平,就应扩大置信区间,但过于宽的置信区间在实际中是没有意义的,如果要缩小置信区间又不降低置信程度,就要增大样本容量,但样本容量的增加也存在诸多限制,如增加调查费用和工作量等,通常它们之间存在一定的关系:公式为 则说明样本容量与a) 与总体方差成正比。b) 与边际误差的平方成反比。c) 与可靠性系数成正比。11. 参数估计中结果的四舍五入法则。(附加)1) 当用原始数据构建置信区间时,置信区间的计算结果应保留的小数点位数要比原始数据中使用的小数点多一位,如原始数据有一位小数,置信区间的结果应保留两位小数。2) 当不知道原始数据,只使用汇总统计量(n,s)时,置信区间的计算结果应保留的小数点位数应与样本方差或标准差使用的小数点位数相同 。第八章 假设检验(18个 )统计方法包括描述统计和推断统计(推断统计又包括参数估计和假设检验)1. 解释原假设和备择假设1) 通常将研究者想收集证据予以支持的假设称为备择假设,或研究假设,用H1或者Ha表示。2) 研究者想收集证据予以反对的假设,称为原假设,或者零假设。表示为 H02. 什么是标准化检验统计量?为什么要对统计量进行标准化?检验统计量是根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量。对于总体均值和总体比例的检验,标准化的检验统计量可以表示为: 原因:n 因为检验统计量实际上是总体参数的点估计量,但是点估计量并不能直接作为检验的统计量,只有将其标准化后才能用于度量它与原假设的参数真值之间的差异程度。n 点估计量标准化的依据是:原假设为真和点估计量的抽样分布。n 实际上假设检验中用的都是标准化检验统计量,它反映了点估计量与总体参数相比相差多少个标准差。3. 怎样理解显著性水平?它是一个概率值,原假设为真时,拒绝原假设的概率,抽样分布的拒绝域表示为 a ,由研究者事先确定。1. 我们可以在事先确定用于拒绝原假设H0的证据必须强到何种程度。这等于说我们要求多小的P值。而这个P值就叫显著性水平,用a表示n 显著性水平表示总体中某一类数据出现的经常程度。n 假如我们选择a=0.05,样本数据能拒绝原假设的证据要强到:当H0正确时,这种样本结果发生的频率不超过5%;如果我们选择a=0.01,就是要求拒绝H0的证据要更强,这种样本结果发生的频率只有1%。2. 如果P值小于或等于a ,我们称该组数据不利于原假设的证据有a的显著性水平4. 怎样理解统计显著性与实际显著性?统计上显著不一定有实际意义:1. 当原假设被拒绝时,我们称样本结果在统计上是显著的,当不拒绝原假设时,我们称样本结果在统计上是不显著的。n P值越小,表明结果越显著。但检验结果究竟是“显著的”、“中度显著的”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论