




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 导论1. Q:什么是统计学?A:统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。2. Q:解释描述统计和推断统计。A:描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。统计推断是研究如何利用样本数据来推断总体特征的统计方法。3. Q:统计数据可分为哪几种类型?不同类型的数据各有什么特点?A:按计量尺度不同,可分为:分类数据(只能归类于某一类别的非数字型数据)、顺序数据(只能归类于某一有序类别的非数字型数据)、数值型数据(按数字尺度测量的观察值);按统计数据的收集方法不同,可分为:观测数据(通过调查或观测而收集到的数据)、实验数据(在实验中控制实验对象而手机到的数据);按被描述的现象和时间的关系,可分析:截面数据(在相同或近似相同的时间点上收集的数据)、时间序列数据(在不同时间上收集的数据,用于所描述的现象随时间变化的情况)。4. Q:解释分类数据、顺序数据和数值型数据的含义。A:见3。5. Q:举例说明总体、样本、参数、统计量、变量这几个概念。A:总体是包含所研究的全部个体(数据)的集合;样本是从总体中抽取的一部分元素的集合;参数是用于描述总体特征的概括性数字度量;统计量是用于描述样本特征的概括性数字度量;变量是说明现象某种特征的概念。6. Q:变量可分为哪几类?A:分类变量(说明事物类别的一个名称);顺序变量(说明事物有序类别的一个名称);数值型变量(说明事物数字特征的一个名称)。7. Q:举例说明离散型变量和连续性变量。A:离散型变量:企业数、产品数量;连续型变量:年龄、温度、零件尺寸的误差。8. Q:请举例统计应用的几个例子。A:要了解一个地区的人口特征、对产品的质量进行检验等。9. Q:请举例统计应用的几个领域。A:政府部门、学术研究领域、日常生活、公司或企业的生产经营管理(企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理)。第二章 数据的搜集大纲重点:1、调查的组织与实施;2、概率抽样和非概率抽样;1. Q:什么是二手资料?使用二手资料需要注意些什么?A:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据,则把它们称为间接来源的数据,即二手资料。二手资料具有搜集方便、数据采集快、采集成本低等优点,但也有很大的局限性,如资料的相关性不够,口径可能不一致,数据也许不准确,也许过时了等等2. Q:比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。A:(1)概率抽样也叫随机抽样,有3个特点:抽样时按一定的概率以随机原则抽取样本每个单位被抽中的概率是已知的或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,即估计量不仅与样本单位的观测值有关,也与其入样概率有关;分为2类:等概率抽样和不等概率抽样;常用方式5个,如下:概率抽样方式优点缺点简单随机抽样简单、直观总量很大时,构造抽样框较难;单位分散;没有利用辅助信息因而效率不高。分层抽样样本结构和总体相近,有效提高估计的精度;为组织调查提供方便;即可对总体参数估计,也可对各层的目标量进行估计等。整群抽样只需整群的抽样框,简化了编制抽样框的工作量;调查地点相对集中,节省费用,方便调查。同一群内样本类似因而估计精度较差,抽样误差较大系统抽样操作简单,有效提高估计精度对估计量方差的估计比较困难多阶段抽样类似整群抽样,简化了编制抽样框的工作量;调查地点相对集中,节省费用,方便调查;再抽样使调查范围更广。概率抽样可以依据调查结果,计算估计量误差,从而得到总体推断的可靠程度/也可以按照要求的精确度,计算必要的样本单位数目(2)非概率抽样常用方式5个,如下:概率抽样方式优点缺点方便抽样容易实施,调查成本低样本单位的确定带有随意性,因此方便样本无法代表有明确会议的总体,推断无意义。判断抽样重点抽样抽样成本低,容易操作由于样本人为确定,没有依据随机原则,因而调查结果不能对总体进行估计。典型抽样代表抽样自愿样本反映某类群体的一般看法与抽样的随机性无关,样本是有偏的滚雪球抽样用于稀少群体/特定群体,容易找到那些属于特定群体的被调查者,调查成本较低。配额抽样单一变量控制类似分层抽样,操作简单,样本结构与总体类似不是随机原则,可能出现偏斜交叉变量控制样本分布更均匀操作难度稍大(3)概率抽样与非概率抽样的比较比较特点适用条件概率抽样 抽样时按一定的概率以随机原则抽取样本; 每个单位被抽中的概率是已知的或是可以计算出来的; 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,即估计量不仅与样本单位的观测值有关,也与其入样概率有关。掌握研究对象总体的数量特征,得到总体参数的置信区间。非概率抽样操作简单、时效快、成本低,对于抽样中的统计学专业技术要求不是很高。适合探索性研究,调查的结果用于发现问题,为更深入的数量分析提供准备;也适合市场调查中的概念测试,如产品包装测试、广告测试等。3. Q:调查中搜集数据的方法主要有自填式、面访式、电话式。除此之外,还有哪些搜集数据的方法?A:观察式。4. Q:自填式、面访式、电话式各有什么长处和弱点?搜集数据的方式优点缺点自填式管理简单,成本小,范围大,调查者压力小回收率低,不适合结构复杂的问卷,周期长面访式提高回答率,问卷复杂程度可提高,时间可调调查成本较高,质量难控制电话式速度快,成本低没有电话就无法实施,时间不能太长,进度延缓造成交流困难5. Q:请举出(或设计)几个实验数据的例子。A:略。6. Q:你认为应当如何控制调查中的回答误差。A:数据的误差分为抽样误差和非抽样误差。抽样误差与样本量大小和总体的变异性有关;非抽样误差分为:抽样框误差、回答误差(理解误差设计一份好的问卷调查、记忆误差缩短调查所涉及的时间范围或以年度为调查期、有意识误差说服、保密、避免敏感性问题)、无回答误差、调查员误差、测量误差。7. Q:怎样减少无回答?请通过一个例子,说明你所考虑到的减少误会大的具体措施。A:。无回答误差是随机的,增大n,调查数据的质量与调查员的责任心和耐心密切相关;无回答的系统性误差主要有两个解决途径:预防;分析无回答产生原因,采取补救措施。第三章 数据的图表处理大纲重点:3、数据的预处理;4、定性数据;5、定量数据;1. Q:数据的预处理包括哪些内容?A:数据审核:直接数据完整性(条目数)、准确性(异常值);二手数据适用性、时效性;数据筛选;数据排序;数据透视表(列联表)。2. Q:分类数据和顺序数据的整理和图示方法各有哪些?A:分类数据:整理及描述:频数分布表,频数、比例、百分比、比率;图示:条形图/柱形图、帕累托图(左侧频数、右侧累计百分比)、饼图(研究结构性问题)、环形图(两总体或样本分类相同且问题可比)。顺序数据:整理及描述:(向上/向下)累积频数、累积频率、累积百分比;图示:累积频数分布、频率图;3. Q:数值型数据的分组方法有哪些?简述组距分组的步骤。A:分组方法有:单变量分组(适合离散变量且值较少)、组距分组(连续变量或值较多)。组距分组步骤为:确定组数(5-15);确定各组的组距;根据分组整理成频数分布表。两原则:不重不漏、上组限不在内(区间左闭右开)。图示:分组数据直方图、折线图、曲线图;未分组数据茎叶图、箱线图;时间序列数据线图;多变量数据散点图(两变量)、气泡图(三变量)、雷达图(多变量)。4. Q:条形图和直方图有何区别?A:前者用长度表视频数(率),宽度固定,各矩形分开排列,主要展示分类数据;后者用面积表示频数(率),宽度为组距,各矩形连续排列,主要展示数值型数据。5. Q:绘制线图应注意哪些问题?A:时间一般绘在横轴,观测值绘在纵轴;一般应绘制横轴略大于纵轴的长方形,其长度比例大致为10:7;一般情况下,纵轴下端应从“0”开始,以便于比较;如果数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。6. Q:饼图和环形图有什么不同?A:前者只能显示一个样本或总体的比例数据;后者可以同时显示多个样本或总体的比例数据,有利于比较。7. Q:茎叶图与直方图相比有什么优点?它们的应用场合是什么?A:前者类似于横直直方图,既能展示数据分布状况,又保留了原始数据,适用于小批量数据;后者也能很好显示数据分布状况,但不能保留原始数据,适用于大批量数据。8. Q:鉴别图表优劣的准则有哪些?A:略。9. Q:制作统计表应注意哪几个问题?A:略。第四章 数据的概括性度量重要知识点:1、描述统计量:2、众数、中位数、平均数的比较:众数:一组数据分布的峰值,不受极端值影响,不具有唯一性,没有利用全部数据,适用于较大量的分类数据。中位数:一组数据中间位置的代表值,不受极端值影响,只利用了一个数据,信息浪费严重,适用于偏斜度较大的顺序数据。平均数:一组数据的重心,应用最广泛的集中趋势测度值,具有优良的数学性质,是统计推断的基础,利用了全部数据,易受极端值影响,适用于偏斜度不大的数值型数据。课后题答案:1. Q:一组数据的分布特征可以从哪几个方面进行测度?A: 集中趋势、离散程度、分布的形状(偏态、峰态)。2. Q:怎样理解平均数在统计学中的地位?A:平均数在统计学中具有重要地位,它是进行统计分析和统计推断的基础。平均数是一组数据的中心所在,是数据误差相互抵消后的必然结果,反映出事物必然性的数量特征。平均数也是应用最广泛的集中趋势测度值,具有优良的数学性质,是统计推断的基础,利用了全部数据,易受极端值影响,适用于偏斜度不大的数值型数据。3. Q:简述四分位数的计算方法?A:首先对数据进行排序,然后通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。中间的四分位数就是中位数,25%和75%位置上的数值分别成为下四分位数和上四分位数。4. Q:对于比率数据的平均为什么采用几何平均?A:略。5. Q:简述众数、中位数和平均数的特点和应用场合?A:众数:一组数据分布的峰值,不受极端值影响,不具有唯一性,没有利用全部数据,适用于较大量的分类数据。中位数:一组数据中间位置的代表值,不受极端值影响,只利用了一个数据,信息浪费严重,适用于偏斜度较大的顺序数据。平均数:一组数据的重心,应用最广泛的集中趋势测度值,具有优良的数学性质,是统计推断的基础,利用了全部数据,易受极端值影响,适用于偏斜度不大的数值型数据。6. Q:简述异众比率、四分位差、方差或标准差的适用场合。A:对于分类数据,主要用异众比率来测量其离散程度;对于顺序数据,虽然也可以计算异众比率,但主要是用四分位差来测量其离散程度;对于数值型数据,虽然可以计算异众比率、四分位差、极差和平均差等,但主要是用方差和标准差来测度其离散程度。7. Q:标准分数有哪些用途?A:测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。8. Q:为什么要计算离散系数?A:方差和标准差是反映数据分散程度的绝对值,其数值的大小一方面受原变量本身水平高低的影响,另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。9. Q:测度数据分布形状的统计量有哪些?A:偏态系数SK(高度偏态分布|SK|1、中等偏态分布0.5-1;右偏SK0、左偏SK0,平峰分布K=10n试验次数,可用二项分布近似描述不合格品的概率。泊松分布:描述单位时间(或空间)内随机事件发生的次数。,期望:E=,方差:D=。二项分布与泊松分布的关系:当二项分布的n很大而p很小时,二项分布可近似等于泊松分布,其中=np。通常当p0.05,n20,n p5时,就可以用泊松公式近似二项分布计算。连续型随机变量的概率密度函数和分布函数:均匀分布、正态分布、指数分布;均匀分布:设连续型随机变量X的分布函数为F(x)=(x-a)/(b-a),axb ,则称随机变量X服从a,b上的均匀分布,记为XUa,b;指数分布:期望:E=1/,方差:D=1/2,离散系数V=1正态分布:若随机变量X服从一个数学期望为、标准方差为2的高斯分布,记为:XN(,2),则其概率密度函数为正态分布的期望值决定了其位置,其标准差决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是 = 0, = 1的正态分布。重要性质:P(aXb)= ;二项分布与正态分布的关系:参数为n和p的二项分布,在n很大,而0p1是一个定值时,近似服从正态分布且 = np,2 = np(1 p);泊松分布与正态分布的关系:泊松分布带有参数,当取样样本数很大时,近似服从正态分布且 = ,2 = 。随机变量的期望与方差:离散型:a、期望:,b、方差:设X为服从分布F的随机变量,则称D(X) = (Xi-E(X)2 Pi= E(X2) E2(X)为随机变量X或者分布F的方差。如果是随机变量 X 的期望值(平均数),则其方差为: D(X)= ,c、离散系数:V=/u连续型:期望:,方差:D(X) =EX-E(X)2期望与方差的性质:(1)设c是常数,则E(c)=c,D(c)=0。 (2)设X是随机变量,c、d是常数,则有E(cX+d)=cE(X)+d,D(cX+d)=c2D(X)。 (3)设 X 与 Y 是两个随机变量,则 D(X+Y)= D(X)+D(Y)+2EX-E(X)Y-E(Y) 特别的,当X,Y是两个相互独立的随机变量,上式中右边第三项为0(常见协方差), 则D(X+Y)=D(X)+D(Y)。此性质可以推广到有限多个相互独立的随机变量之和的情况。 (4)D(X)=0的充分必要条件是X以概率为1取常数值c,即PX=c=1,其中E(X)=c。随机变量函数的期望与方差:常见随机变量的期望和方差随机变量X, X服从0-1分布,则E(X)=p,D(X)=p(1-p);X服从二项分布,即XB(n,p),则E(x)=np,D(X)=np(1-p);X服从泊松分布,即X(),则 E(X)= ,D(X)= ;X服从均匀分布,即XU(a,b),则E(X)=(a+b)/2,D(X)=(b-a)2/12;X服从指数分布,即Xe(),E(X)= -1,D(X)= -2;X 服从正态分布,即XN(,2),则E(x)=,D(X)=2;X 服从标准正态分布,即XN(0,1), 则E(x)=0,D(X)=1。课后题:1. Q:频率与概率有什么关系?A:频率和概率是度量事件出现可能性大小的两个统计特征数。频率是试验值,具有随机性,可能取多个值,近似反映事件出现可能性的大小,容易得到,应用更广。概率是个理论值,由事件的本质所决定的,取唯一值,精确反映事件出现可能性的大小,需通过大量试验才能得到。由大数定理,随着试验次数的增大,该频率围绕某一常数p上下波动,且波动幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率,即为P(A)=m/n=p。2. Q:独立性与互斥性有什么关系?A:互斥事件一定是相互依赖(不独立)的,独立事件不可能是互斥的。3. Q:根据自己的经验体会举几个服从泊松分布的随机变量的实例。A:在某企业中每月发生事故的次数;单位时间内达到某一服务台需要服务的顾客人数。4. Q:根据自己的经验体会举几个服从正态分布的随机变量的实例。A:某公司销售量;身高、体重、肺活量。第六章 统计量及其抽样分布大纲重点:6、描述水平:平均数、中位数、分位数、众数;7、极差、标准差、样本方差; 1. Q:什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数?A:在实际应用中,当我们从总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行判断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能,首先必须把分散在样本中我们关心的信息集中起来,针对不同的研究目的构造不同的样本函数,这种函数在统计学中成为统计量。2. Q:什么是次序统计量?什么是充分统计量?什么是自由度?A:略。3. Q:简述2分布、t分布、F分布及正态分布之间的假设条件、应用及关系。A:三大抽样分布一般是指2分布、t分布和F分布;2分布、t分布和F分布是在正态总体条件下求出的精确的抽样分布。2分布定义: 设随机变量 X1, X2,.Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量2= X1+ X2+.+Xn所服从的分布为自由度为 n 的2分布。卡方分布最常用的是拟合优度检验。t分布定义:设X服从标准正态分布N(0,1),X2服从自由度为n的2分布,且X1、X2相互独立,则称变量t= X1/(X2/n的平方根)所服从的分布为自由度为n的t分布。t分布是在小样本场合下的正态分布(大样本场合下可以用正态分布来近似),有时候在信息不足的情况下,只能用t分布,比如在整体方差不知的情况下,对总体均值的估计和检验通常要用t统计量,这里自由度要比方差已知情况上构造的正态统计量少了一个自由度,因为损失信息肯定要损失自由度的。 F分布定义:设X1服从自由度为m的2分布, X2服从自由度为n的2分布,且X1、X2相互独立,则称变量F=( X1/m)/( X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n。F分布在方差分析、回归方程的显著性检验中有重要的地位。4. Q:什么是抽样分布?A:从一个总体中随机抽出容量相同的各种样本,从这些样本计算出的某统计量所有可能值的概率分布,称为这个统计量的抽样分布。5. Q:简述中心极限定理的意义。A:设从均值为、方差为(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为/n的正态分布。6. Q:简述Z检验、t检验、F检验、卡方检验。A:Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。当已知标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。T检验主要用于样本含量较小(例如n30),总体标准差未知的正态分布资料。T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。F检验又称“变异数分析”或“方差分析(ANOVA)”,用于两个及两个以上样本均数差别的显著性检验。基本思想:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。前提:可比性、正态性、方差齐性。方差分析主要用于:均数差别的显著性检验;分离各有关因素并估计其对总变异的作用;分析因素间的交互作用;方差齐性检验。卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。应用实例:适合度检验、独立性检验、统一性检验。第七章 参数估计(贾俊平)大纲重点:8、参数估计的原理;9、一个总体参数、二个总体参数的区间估计;10、样本量的确定;1.参数估计:参数估计是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的重要内容之一,是数理统计学的一个重要分支,分为点估计和区间估计两部分。(用样本统计量来估计未知总体参数)2.估计量:估计总体参数的统计量。3.估计值:用具体样本计算出的估计量的值,即估计量的实现。4.点估计:用某个估计值作为总体参数的估计。5.区间估计:以点估计为基础,给出总体参数估计的一个区间范围,由点估计量加减边际误差得到。能由抽样分布给出估计量与总体参数接近程度的概率度量,即置信水平。6.置信区间:总体参数的估计区间。统计学家在某种程度上确信它会包含总体参数真值,是随机区间。7.置信水平(置信度):重复构造置信区间多次,其中包含总体参数真值的区间个数所占的比例。它是针对随机区间而言的。8.估计量评价标准:无偏性、有效性、一致性。9.理论基础 大数定律:揭示了大量随机现象均值的稳定性。常见的有伯努利大数定律(频率稳定性),辛钦大数定律(简单随机样本均值依概率收敛于总体均值),切比雪夫大数定律。是用样本估计总体的理论基础。中心极限定理:揭示了独立同分布随机变量之和的极限分布是正态分布。常见的有伯努利试验场合、独立同分布试验场合的中心极限定理。是区间估计和假设检验的理论基础。抽样分布基本定理(正态假定) a. ; b. ;c. 与相互独立; d. ;e. ;f. 。10.单总体参数估计目标量:,。影响因素:a.是否是正态总体;b.总体方差是否已知;c.是大样本还是小样本。抽样分布 a. ; b. c. ;d. 。11.两总体参数估计目标量:,。影响因素:a.是否是正态总体;b.两总体总体方差是否已知、是否相等;c.是大样本还是小样本,两样本量是否相等;d.是独立样本还是匹配样本。抽样分布a. ;b. ;c. ;d. ;e. ;f. ;g. 。12.确定样本量:。课后题:1. Q:解释估计量和估计值。A:估计量是用来估计总体参数的统计量,估计值是根据一个具体样本计算出来的估计量的数值。2. Q:怎样评价估计量好坏的标准?A:无偏性:估计量抽样分布的数学期望等于被估计的总体参数。3. Q:怎样理解置信区间、置信水平?A:样本统计量所构造的总体参数的估计区间,某种程度上,确信这个区间会包含真正的总体参数。置信区间中包含总体参数真值的次数所占的比例称为置信水平。4. Q:解释95%的置信区间。A:在用同种方法构造的总体参数的所有区间中,有95%的区间包含该总体参数。5. Q:的含义是什么?A:估计总体均值的估计误差。6. Q:解释独立样本和匹配样本的含义。A:独立(匹配)样本:一个样本的元素与另一个样本中的元素相互独立(相对应)。7. Q:在对两个总体均值之差的小样本估计中,对两个总体和样本都有哪些假定?A:两个总体都服从正态分布,两个随机样本独立地分别抽自两个总体。8. Q:简述样本量与置信水平、总体方差、估计误差的关系。A:。补充Q:置信区间与置信水平、样本量的关系。A:置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。在置信水平固定的情况下,样本量越多,置信区间越窄。在置信区间不变的情况下,样本量越多,置信水平越高。第八章 假设检验(贾俊平)大纲重点:8、假设检验的基本问题;9、一个总体参数、二个总体参数的检验;10、检验问题的进一步说明;1.假设检验:统计推断的重要内容之一,先对总体参数提出一个假设,然后利用样本来检验该假设是否成立。2.原假设与备择假设:假设检验是围绕原假设是否成立展开的,若拒绝原假设,就用备择假设来替换。推翻原假设需要样本落入否定域,这是小概率事件,故在一次试验中原假设具有优势而备择假设不易发生,一旦发生,我们就有足够的理由推翻原假设,这意味着新结论的诞生。3.弃真错误(错误)与取伪错误(错误):前者是原假设为真却被拒绝所犯的错误,后者是原假设为假却没被拒绝所犯的错误。样本量一定时,两者是此消彼长的关系;若增大样本量,则两者同时变小。假设检验中遵循“首先控制犯错误”的原则(遵循统一原则;原假设明确,备择假设模糊,更愿意接受前者,因此更为关心H0为真而我们拒绝了)。4.小概率原理:发生概率很小的随机事件在一次试验中几乎不可能发生。5.统计量检验与P值检验: 否定域:由一个直观上有明确意义的统计量确定。P值:当原假设为真时,得到所观测结果或更极端结果的概率。比较:统计量检验是先确定一个显著性水平从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差;P值是检验的真实显著性水平,可利用P值直接决策或将P值与进行比较,不需要查表,具有可比性。6.假设检验流程图:课后题:1. Q:假设检验和参数估计有什么相同点和不同点?A:它们都是利用样本对总体进行某种推断。不同点是:参数估计是利用(从总体中抽取的样本计算出来的)样本统计量去估计未知的总体参数;假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立。2. Q:什么是假设检验中的显著性水平?统计显著是什么意思?A:原假设为真时被拒绝的概率或风险。不同总体之间的差异进行比较时,由于各总体存在内在的差异性,而只有当不同总体间的差异大于这个总体内部差异,则它们间的差异才具有统计显著性,否则不具有。3. Q:什么是假设检验中的两类错误?A:一类错误是原假设为真却被我们拒绝了,称为弃真错误;另一类错误是原假设为伪我们却没有拒绝,称为存伪错误。4. Q:两类错误之间存在什么样的数量关系?A:样本量一定时,两者是此消彼长的关系;若增大样本量,则两者同时变小。5. Q:解释假设检验中的P值。A:当原假设为真时,所得到的样本观察结果或更极端结果出现的概率。(拒绝原假设的最小显著性水平)如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P越小,我们拒绝原假设的理由就越充分。6. Q:显著性水平与P值有何区别。A:显著性水平a在统计学中叫做凡第一类错误的大小,第一类错误就是原假设为真时但被拒绝的概率,我们一般把这个显著性水平事先预定为0.05;P值是利用样本信息计算得到的真实显著性水平,即当原假设为真时,所得到的样本观察结果或更极端结果出现的概率。当显著性水平a从5%增大到10%,引起拒绝域变宽,即冒风险的概率增大,H0越容易被拒绝;P值是一个条件概率数值,P越小,即拒绝H0的统计证据越强。7. Q:假设检验依据的基本原理是什么?A:假设检验是除参数估计之外的另一类重要的统计推断问题,即先对总体参数u提出一个假设,然后利用样本信息去验证这个假设是否成立。它的基本思想可以用小概率原理来解释。小概率原理:发生概率很小的随机事件在一次试验中是几乎不可能发生的。但一旦发生,我们就有理由怀疑这一假设的真实性,拒绝原假设。8. Q:你认为在单侧检验中原假设和备择假设的方向应该如何确定。A:对尚未正式的事件,H0持否定态度。第九章 列联分析1. Q:简述列联表的构造与列联表的分布。A:两个以上的变量进行交叉分类的频数分布表。包括观察值的分布与期望值的分布。2. Q:用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。A:一种原料来自三个不同的地区,原料质量被分成三个不同等级,从这批原料中随机抽取500件进行检验,要求检验各个地区和原料质量直接是否存在依赖关系。H0:地区和原料等级之间是独立的(不存在依赖关系)。3. Q:说明计算2统计量的步骤。A:步骤一:用观察值f0减去期望值fe;步骤二:将(f0-fe)之差平方;步骤三:将(f0-fe)2的结果除以fe;步骤四:将步骤三的结果加总。4. Q:简述j系数、c(列联相关)系数、V 相关系数的各自特点。A: 5. Q:构造下列维数的列联表,并给出2检验的自由度。A:略。自由度=(R-1)(C-1).补充Q:拟合优度检验和独立性检验的区别。A:两种检验抽取样本的方法不同:拟合优度检验:抽样是在各类别中分别进行,依照各类别分别计算其比例。独立性检验:抽样时并未事先分类,抽样后根据研究内容,把入选单位按两类变量进行分类,形成列联表。两种检验假设的内容有所差异:拟合优度检验,原假设通常是假设个类别总体比例等于某个期望概率,独立性检验中原假设则假设两个变量之间独立。期望频数的计算:拟合优度检验:利用原假设中的期望概率,用观察频数乘以期望概率,直接得到期望频数。独立性检验:两个水平的联合概率,是两个单独概率的乘积。第十章 方差分析1.基本思想:表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数据变异的来源。观察到的数据一般是参差不齐的,我们用SST度量数据总的变异,将它分解为可追溯到来源的部分变异SSE与SSA之和,若后者的平均MSA明显比前者的平均MSE大, 就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。2.基本假定:a.各总体服从正态分布;b.各总体方差相同;c.各观测值相互独立。3.方差分析与两两均值检验:两两均值检验会增加犯第类错误的概率(),而且随着检验次数的增多,偶然因素导致差别的可能性也会增加;方差分析是同时考虑所有样本,排除了错误的累积,减少了偶然因素的不利影响,也简化了检验的过程。4.单因素方差分析: 数据结构 表1 方差分析模型由基本假定,令有令总均值有 称为第个水平的效应得单因素方差分析模型其中,为总体均值;是各组均值与总均值的误差,为因素(第j个水平的)效应;是每个水平或组的各样本数据与其组均值的误差,为残差效应。步骤 a.提出假设:;b.构造检验统计量:;c.统计决策。方差分析表差异源SSDFMSFP-valueF crit组间SSAk-1MSAMSA/MSE组内SSEn-kMSE总计SSTn-1表25.有交互作用的双因素方差分析(等重复试验情况): 数据结构(见表3)方差分析模型由基本假定,令有表3令令行、列、交互效应 得有交互作用因素方差分析模型原假设与检验统计量6.无交互作用的双因素方差分析: 数据结构(见表4)方差分析模型由基本假定,令 表4有令令行、列、交互效应 得无交互作用因素方差分析模型原假设与检验统计量7.多重比较:当方差分析拒绝原假设时,为进一步分析到底是哪些均值不相等,于是将各均值配对检验,但检验统计量不是t统计量。(最小显著差异方法,计算LSD)8.试验设计: 含义:收集样本的计划,通过科学安排试验,用尽可能少的试验获得尽可能多的信息。主要数据分析方法是方差分析。完全随机化设计:将各种处理随机指派给试验单元。数据分析方法是单因素方差分析。随机化区组设计:将试样单元划分为若干区组,再将各种处理随机指派给各区组。划分区组可消除试验单元的差异造成的影响。因每个区组只做一次试验,故只能采用无交互作用双因素方差分析方法。 因子设计:考虑两个或多个因素搭配的试验设计,每种搭配可重复试验。数据分析方法是有交互作用双因素方差分析。课后题:1. Q:什么是方差分析?它研究的是什么?A: 通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,从数据误差来源的分析入手,检验因变量的差异主要是由什么原因引起。本质上就是研究变量间的关系。2. Q:要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?A:一般来说,随着增加个体显著性检验的次数,偶然因素导致的差别的可能性会增加(并非数值真的存在差异),而方差分析则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真是的原假设。3. Q:方差分析包括哪些类型?它们有何区别?A:单因素方差分析和多因素方差分析(包括双因素分析)。影响数值型因变量的分类型自变量的个数。4. Q:方差分析中有哪些假定?A:a.各总体服从正态分布;b.各总体方差相同;c.各观测值相互独立。5. Q:简述方差分析的基本思想。A:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数据变异的来源。观察到的数据一般是参差不齐的,我们用SST度量数据总的变异,将它分解为可追溯到来源的部分变异SSE与SSA之和,若后者的平均MSA明显比前者的平均MSE大,就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。6. Q:解释因子和处理的含义。A:因子/因素:所要检验的对象;水平/处理:因素的不同表现。7. Q:解释组内误差和组间误差的含义。A:组内误差:来自水平内部的数据误差,只含有随机误差;组间误差:来自不同水平之间的误差,可能是由抽样本身形成的随机误差,也可能是由行业本身的系统性因素造成的系统误差。8. Q:解释组内方差和组间方差的含义。A:组内方差为每个水平或组的各样本与其组均值的误差平方和除以它所对应的自由度;组间方差为各组均值与总均值的误差平方和除以它所对应的自由度。9. Q:解释方差分析的基本步骤。A:提出假设:H:多个样本总体均数相等;H1:多个样本总体均数不全相等;构造检验的统计量;进行统计决策。10. Q:方差分析中多重比较的作用是什么?A:通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。11. Q:什么是交互作用?A:一因子对另一因子的不同水准有不同的效果。12. Q:解释无交互作用和有交互作用的双因素方差分析。A:略。13. Q:解释R2的含义和作用。A:R2是多重判断系数,为联合效应与总效应的比值。反映了所有自变量合起来与因变量之间的关系强度,表明自变量合起来解释因变量差异的比例。补充Q:方差分析的应用。A:方差分析主要用于: 1、均数差别的显著性检验; 2、分离各有关因素并估计其对总变异的作用; 3、分析因素间的交互作用; 4、方差齐性检验第十一章 一元线性回归1.一元线性回归是很多实际现象的近似,能较好地反映回归分析的核心思想。2.回归模型与方程 理论回归模型理论回归方程样本回归模型经验回归方程3.参数估计 普通最小二乘估计(OLSE) 最大似然估计(MLE):利用总体密度函数或概率分布及样本信息来估计参数,使得样本落在已知样本值附近的概率最大。4.OLSE的性质无偏性:。有效性(Guass-Markov定理):在G-M条件下,是的唯一最小方差线性无偏估计。估计量(协)方差5.区间估计(正态假定)6.假设检验(正态假定) 必要性:检验经验回归方程是否真正描述了因变量与自变量之间的统计规律性。t检验 a. ;b. 。F检验:。相关系数检验a. ;b. 。t统计量与F统计量的关系拟合优度检验 a.判定系数:,反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的优劣程度;b.调整判定系数:当较小时,接近于1,包含虚假成分,可结合样本量和模型中自变量的个数对进行调整;c.拟合优度检验与F检验的比较:F统计量与统计量是等价的,但不能相互代替。F统计量有精确的分布,F检验可在给定显著性水平下给出严格的统计结论;统计量没有精确的分布,拟合优度检验得出的结论比较模糊。7.残差分析残差与随机误差的比较残差的性质 a.期望:;b.方差c. 。改进残差 a.标准化残差(半学生化残差):;b.学生化残差:。残差图:诊断模型是否满足基本假定,是否存在异常值,因变量与自变量是否线性相关,等等。8.预测与控制 单值预测:。的预测区间(随机变量)的置信区间(未知参数)控制课后题:1. Q:解释相关关系的含义,说明相关关系的特点。A:相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。两个特点:现象之间确实存在着数量上的依存关系。就是说,一个现象发生数量上的变化,另一个现象也会相应地发生数量上的变化;现象间的数量依存关系值是不确定的。就是说,一个现象发生数量上的变化,另一个现象会有几个可能值与之对应,而不是唯一确定的值。2. Q:相关分析主要解决哪些问题?A:生产和经营活动。3. Q:相关分析中有哪些基本假设?A:两个变量之间是线性关系;两个变量都是随机变量。4. Q:简述相关系数的性质。A:-1r1;r具有对称性;r数值大小与x和y的原点及尺度无关;.r仅仅是描述x与y之间线性关系的一个度量,它不能用于描述非线性关系;虽然r是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。5. Q:为什么要对相关系数进行显著性检验?A:一般情况下,总体相关系数是未知的,通常是根据样本相关系数r作为的近似估计值。但由于r是根据样本数据计算出来的,它受到抽样波动的影响。由于抽取的样本不同,r的取值也就不同,因此r是一个随机变量。能否根据样本相关系数r说明总体的相关程度,就要考察样本相关程度的可靠性,也就是显著性检验。6. Q:简述相关系数显著性检验的步骤。A:提出假设H0:=0;计算检验统计量;进行决策:。7. Q:解释回归模型、回归方程、估计的回归方程的含义。A:回归模型:描述因变量y如何依赖于自变量x和误差项的方程。回归方程:描述因变量y的期望如何依赖于自变量x的方程。估计的回归方程:用样本统计量和代替回归方程中的未知参数和。8. Q:一元线性回归模型中有哪些基本的假定?A:因变量y与自变量x之间具有线性关系;在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;误差项是一个期望值为0的随机变量,即E()=0;对于所有的x值,的方差都相同;误差项是一个服从正态分布的随机变量,且独立,即N(0,)。9. Q:简述参数最小二乘估计的原理。A:通过使因变量的观察值与估计值的离差平方和达到最小来估计和的方法。10. Q:解释总平方和、回归平方和、残差平方和的含义,并说明它们之间的关系。A:n次观察值的总变差称为总平方和SST;反映了y的总变差中由于x与y的线性关系引起的y的变化部分,它是可以由回归直线来解释的变差部分,成为回归平方和SSR;除了x对y的线性影响之外的其他因素对y变差的作用,是不能用回归直线来解释的变差部分,成为残差平方和或误差平方和SSE。SST=SSR+SSE。11. Q:简述判定系数的含义和作用。A:判定系数是回归平方和占总平方和的比例,它是度量回归直线对观
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计量所考试题库及答案
- 2025年贵州省遵义市继续教育公需课考试题(含答案)
- 2025年新疆籽棉订购合作合同范本
- 2025年贵州大生态公需科目考试题目及答案
- 2025年广西壮族自治区公务员行测(A类)真题及答案
- 2025年镇江市中考英语试题卷(含答案及解析)
- 兽医考试病理学真题及答案
- 煤矿电气焊考试题及答案
- 安全员证考试试题及答案
- 软通硬件笔试题及答案
- 四年级上册数学教案 -平行与垂直 人教版
- 2022年工程机械行业发展现状分析
- 《函数的奇偶性》教学课件与导学案
- DB11-T 1796-2020文物建筑三维信息采集技术规程
- (完整版)工程流体力学课件(第四版)
- RCEP的机遇与挑战研究报告
- 非常规油气勘探开发
- 小学科学课堂存在的问题与解决方法
- 陕西污水处理定价成本监审办法
- 公司级安全技术交底内容
- GB T 3810.13-2016 陶瓷砖试验方法 第13部分:耐化学腐蚀性的测定
评论
0/150
提交评论