




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学笔记第一章 绪论第一节 统计与统计学(统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。)第二节 统计学的分科第三节 统计学与其他学科的关系第四节 统计学的产生与发展第二章 统计数据的搜集第一节 数据的计量与类型一、 数据的计量尺度1、 定类尺度计量层次最低;对事物进行平行的分类(无大小、好坏之分);数据表现为“类别”;使用时必须符合类别穷尽和互斥的要求(如男、女性别)。2、 定序尺度在对事物分类的同时给出各类别的顺序;比定类尺度精确;数据表现为“类别”,但有序;未测量出类别之间的准确差值(如成绩的优、良、差,不如100分制精确)。3、 定距尺度对事物的准确测度;比定序尺度精确;数据表现为“数值”(如成绩的100分制的分数、温度差别、货币差别等);没有绝对零点。4、 定比尺度对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点。二、 数据的类型和分析方法非参数方法品质数据:定类数据、定序数据参数方法数量数据:定距数据、定比数据三、 统计指标及其类型第二节 统计数据的来源(直接来源、间接来源)1、 统计调查方式:普查(一次性全面调查)、抽样调查(随机抽取)、统计报表、重点调查(选择少数重点进行调查)和典型调查(选择少数典型进行调查)2、 数据的搜集方法:询问调查:访问调查、邮寄调查、电话调查、电脑辅助、座谈会、个别探访观察实验:观察法、实验法第三节 调查方案设计1、 调查方案的内容:调查目的、调查对象和调查单位、调查项目和调查表、其他第四节 统计数据的质量一、 统计数据的误差1、 误差来源:登记性误差(人为造成,可以消除)、代表性误差(用样本数据推断产生,无法消除)二、 统计数据的质量要求:精度、准确性、关联性、及时性、一致性、最低成本第三章 统计数据的整理与显示第一节 数据的预处理1、 数据的审核:审核的内容:完整性审核;准确性审核;适用性审核;时效性审核2、 数据的筛选:筛选的内容:将某些不符合要求的数据或有明显错误的数据予以剔除;将符合某种特定条件的数据筛选出来,不符合的予以剔出。例子:表3-1是8名学生4门课程的考试成绩数据(单位:分)。试找出统计学成绩等于75分的学生,英语成绩最高的前三名学生,4门课程成绩都高于70分的学生。3、 数据的排序:按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索;定类、定距、定比数据的排序第二节 品质数据的整理与显示一、 定类数据的整理与显示1、 基本问题:对定类数据和定序数据主要是做分类整理;对定距数据和定比数据则主要是做分组整理2、 基本过程:列出各类别;计算各类别的频数;制作频数分布表;用图形显示数据3、 可计算的指标:频数;比例;百分比;比率4、 例子:一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。二、 定类数据的图示1、 条形图:是用宽度相同的条形的高度或长短来表示数据变动的图形。在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率。2、 圆形图:也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例。三、 定序数据的整理与显示1、 可计算的指标:累计频数(将各类别的频数逐级累加);累计频率(将各类别的频率/百分比逐级累加)2、 实例:非常不满意、不满意、一般、满意、非常满意四、 定序数据的图示1、 累计频数分布图2、 环形图:中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。第三节 数值型数据的整理与显示一、 数据的分组1、 基本概念:数据分组:根据统计研究的需要,将原始数据按某种标准划分成不同的组别。分组数据:分组后的数据。组距:一个组的上限值与下限值之差。2、 频数分布表的编制步骤:确定组数、确定组距、计算频数、编制表格(例子:)某生产车间50名工人日加工零件数如表格。试采用单变量值对数据进行分组。3、 分组方法:单变量值分组;组距分组(等距分组;异距分组)(1) 单变量值分组:将一个变量值作为一组;适合于离散变量或变量值较少的情况。例如:以生产零件个数为变量。(2) 组距分组:将变量值的一个区间作为一组;适合于连续变量或变量值较多的情况;可采取等距分组或不等距分组。例如:每五个零件为一个区间(变量)。分别有上下组限重叠、上下组限间断、使用开口组一、 数据的图示1、 分组数据的图示(1) 直方图:用矩形的面积来表示各组的频数分布的图形;直方图下的总面积等于1。(2) 直方图与条形图的区别:条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的,是分开排列;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数,宽度则表示各组的组距,是连续排列。(3) 折线图:在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉。2、 未分组数据的图示(1) 茎叶图:以该组数据的高位数值作数茎,低位数值作树叶。(2) 箱线图:由一组数据的5个特征值(最大值、最小值、中位数、上四分位数、下四分位数)绘制而成,它由一个箱子和两条线段组成。3、 时间序列数据线图:时间一般绘在横轴,指标数据绘在纵轴。4、 多变量数据雷达图:是显示多个变量的常用图示方法第四节 统计表一、 统计表的构成二、 统计表的设计第四章 数据分布特征的测度数据分布的特征和测度:集中趋势:众数、中位数、均值 离散程度:异众比率、四分位差、方差和标准差、离散系数、标准分数 分布的形状:偏态、峰度第一节 集中趋势的测度集中趋势:一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据一般水平的代表值或中心值。一、 定类数据:众数(一组数据中出现次数最多的变量值,称;可能没有众数或有几个众数;主要用于定类数据,也可用于定序数据和数值型数据)1、 未分组数据的众数(定类数据的算例、定序数据的算例):例如 M0 =商品广告、不满意2、 分组数据的众数:用于数值型分组数据;相邻两组的频数相等时,众数组的组中值即为众数,不相等时,众数采用下列近似公式计算:(L众数组的下限值;f众数组的频数;f-1 众数前一组的频数;f+1 众数后一组的频数;i众数的组距)二、 定序数据:中位数和分位数(一组数据排序后,处于中间位置上的变量值,称中位数;一组数据排序后处于25%和75%位置上的值,称四分位数。这两个都主要用于定序数据,也可用数值型数据,但不能用于定类数据。)1、 中位数位置的确定:未分组数据:位置=N+1/2 组距分组数据:位置=N/22、 未分组数据的中位数的值计算公式:Me=X(N+1/2)当N为奇数时;1/2(XN/2+XN/2+1)当N为偶数时3、 分组数据的中位数的值的计算公式(用于数值型分组数据):(L中位数所在组的下限;N/2中位数的位置;Sm-1中位数所在组前一组距的累积频数;fm中位数所在组的频数;i中位数所在组的组距)4、 四分位数位置的确定:未分组数据:位置=下四分位数N+1/4,上四分位数3(N+1)/4 组距分组数据=下四分位数N/4,上四分位数3N/45、 数值型分组数据的四分位数计算公式:下四分位数QL=LL+(N/4-SL)/fL *iL上四分位数(LUQ所在组的下限值;N数据个数;SUQ所在组以前各组的累积频数;fUQ所在组的频数;iUQ所在组的组距)三、 定距和定比数据:均值(用于数值型数据,不能用于定类数据和定序数据)1、 单变量或未分组数据的简单均值公式:2、 加权均值:3、 调和平均数(均值的另一种表现形式;用于定比数据,不能用于定类数据和定序数据)4、 几何平均数(N个变量值乘积的N次方根;适用于特殊的数据;主要用于计算平均发展速度)四、 众数、中位数和均值的比较1、 数据类型和所使用的集中趋势测度值定类数据:众数定序数据:中位数、四分位数、众数定距数据:均值、众数、中位数、四分位数定比数据:均值、调和平均数、几何平均数、中位数、四分位数、众数第二节 离散程度的测度离中趋势:反映的是各变量值远离其中心值的程度,其各测度值就是对数据离散程度的描述。一、 定类数据:异众比率(非众数组的频数占总频数的比率;用于衡量众数的代表程度)1、 计算公式:Vr=1-(Fm众数组频数/变量值总频数)二、 定序数据:四分位差(上四分位数与下四分位数之差;反映了中间50%数据的离散程度;用于衡量中位数的代表程度)1、 计算公式:QD=QU-QL三、 定距和定比数据:方差及标准差(各变量值与其均值离差平方和的平均数,为方差;方差的平方根,为标准差)1、 极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;未考虑数据的分布。计算公式:未分组数据=最大值-最小值,组距分组数据=最高值上限-最低组下限2、 平均差:各变量值与其均值离差绝对值的平均数;能全面反映一组数据的离散程度。计算公式:未分组数据: 组距分组数据:3、 方差和标准差:反映了各变量值与均值的平均差异;根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。计算公式:方差:未分组数据: 组距分组数据:标准差:未分组数据: 组距分组数据:样本方差:未分组数据: 组距分组数据:样本标准差:未分组数据: 组距分组数据:4、 标准化值(标准分数):给出某一个值在一组数据中的相对位置;可用于判断一组数据是否有离群点;用于对变量的标准化处理。Z分数没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差/方差为1。计算公式为:四、 相对离散程度:离散系数(一组数据的标准差与其相应的均值之比;测度了数据的相对离散程度;用于对不同组别数据离散程度的比较)1、 计算公式:第三节 偏态与峰度的测度一、 偏态及其测度1、 偏态:对数据分布偏斜程度的测度;偏态系数等于0为对称分布,大于0为右偏分布,小于0为左偏分布。计算公式:2、 峰度:数据分布扁平程度的测度;峰度系数等于3扁平程度适中;偏态系数小于3为扁平分布;偏态系数大于3为尖峰分布。计算公式:第五章第一节 随机事件(试验、事件和样本空间):1、 试验:在相同条件下,对事物或现象所进行的观察;可以在相同的条件下重复进行;每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切结果。2、 事件:随机试验的每一个可能结果(任何样本点集合)。3、 样本空间:一个试验中所有基本事件的集合。第二节 事件的概率1、 事件A的概率=P(A):是对事件A在试验中出现的可能性大小的一种度量;表示事件A出现可能性大小的数值2、 概率的古典定义:如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本个数m与样本空间中所包含的基本事件个数n的比值,记为P(A)=m/n【区别特点:有限结果;等可能性】3、 概率的统计定义:在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称为事件A发生的频率,随着n的增大,该频率围绕某一常数p上下摆动,且波动的幅度逐渐减小,趋向于稳定,这个频率的稳定值即为事件A的概率,记为P(A)=m/n=p第三节 随机变量的概念1、 随机变量的概念:一次试验的结果的数值型描述;一般用X、Y、Z来表示;根据取值情况的不同分为离散型随机变量和连续型随机变量。2、 离散型随机变量:随机变量X取有限个值或所以取值都可以逐个列举出来X1,X2,.;以确定的概率取这些不同的值。例:抽查100个产品,取到次品的个数,可能的取值有0,1,2,.,1003、 连续型随机变量:随机变量X取无限个值;所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点。例:测量一个产品的长度,测量误差(cm),可能的取值是X大于等于0第四节 离散型随机变量的概率分布1、 离散型随机变量的概率分布:列出离散型随机变量X的所有可能取值;列出随机变量取这些值的概率;离散型随机变量的概率函数:P(X=xi)=pi 2、 离散型随机变量的概率分布(01)分布:一个离散型随机变量X只取两个可能的值;列出随机变量取这两个值的概率。例如:合格品用1表示,不合格用0表示3、 离散型随机变量的概率分布(均匀分布):一个离散型随机变量取各个值的概率相同;列出随机变量取值及其取值的概率。例如:投掷一枚骰子,出现的点数及其出现各点的概率第五节 离散型随机变量的数学期望和方差【数学期望就是均值】1、 离散型随机变量的数学期望:在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和;描述离散型随机变量取值的集中程度E(X);计算公式为:2、 随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X);描述离散型随机变量取值的分散程度;计算公式为:第三节 几种常见的离散型概率分布二项分布、泊松分布、超几何分布第六节 连续型随机变量的概率分布均匀分布、正态分布、指数分布、其他分布1、 连续型随机变量的概率分布:连续型随机变量可以取某一区间或整个实数轴上的任意一个值;它取任何一个特定的值的概率都等于0;不能列出每一个值及其相应的概率;通常研究取某一区间值的概率;用数学函数的形式和分布函数的形式来描述2、 概率密度函数:设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),f(x)不是概率,是x在密度函数上的取值频数。3、 分布函数:F(x),分布函数是X的某个区间对密度函数的积分4、 【密度函数曲线下的面积等于1;分布函数是曲线下小于X0的面积】二、 均匀分布1、 若随机变量X的概率密度函数为:f(x)=1/b-a X大于等于a小于等于b;0 其他。称X在区间a,b上均匀分布。三、 正态分布1、 一般的正态分布取决于均值和标准差 ;曲线f(x)相对于均值 对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交。2、 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布:Z=X-/标准差 N(0,1),即标准正态分布的均值为0,标准差为1。第七节 连续型随机变量的期望和方差1、 连续型随机变量的数学期望为:E(X)=.=2、 连续型随机变量的方差为:D(X)=.=第六章 抽样与参数估计统计方法:描述统计 推断统计:参数估计、假设检验第一节 抽样与抽样分布三、 总体、个体和样本1、 概念要点:总体:调查研究的事物或现象的全体;个体:组成总体的每个元素;样本:从总体中所抽取的部分个体;样本容量:样本中所含个体的数量。2、 抽样推断:从所研究的总体全部元素中抽取一部分元素进行调查,并根据样本数据所提供的信息来推断总体的数量特征。简单随机抽样:从含有N个元素的总体中,抽取n个元素作为样本,使得每一个容量为n的样本都有相同的机会被抽中,这样的抽样方式称为重复抽样:从总体中抽取一个元素后,把这个元素放回总体中再抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称为不重复抽样:一个元素后被抽中后不再放回总体,然后再从剩下的元素中抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称三、 抽样方法概念要点:1、 概率抽样:根据已知的概率选取样本简单随机抽样:完全随机的抽选样本分层抽样(是类型抽样或分类抽样):总体分成不同的“层”,然后再每一层内进行抽样整群抽样(就是分区抽样):将一组被调查者作为一个抽样单位等距抽样(就是系统抽样):在样本框中每隔一定距离抽选一个被调查者(分层抽样是层间差异大于层内差异;整群抽样是群内差异大于群间差异。所以,事先对总体结构有一定认识时,可以用分层抽样;在总体没有原始资料可利用时,可以用整群抽样。例如:分专业抽样分层抽样;分班抽样整群抽样)2、 非概率抽样:不是完全按随机原则选取样本非随机抽样:由调查人员自由选取被调查者判断抽样:通过某些条件过滤来选择被调查者3、 配额抽样:选择一群特定数目、满足特定条件的被调查者;是由调查人员在配额内主观判断选定样本。四、 样本均值的抽样分布1、 抽样分布:所有样本指标(如均值、比例、方差等)所形成的分布;随机变量是样本统计量;结果来自容量相同的所有可能样本2、 样本均值的抽样分布【样本均值的均值(数学期望)等于总体均值;样本均值的方差等于总体方差的1/n】(即总体元素个数N总体的所有个体,样本容量n每一次取样的数量,重复抽样,得到容量为n的样本的所有可能取值所有的Nn种可能都出现为止。)例子:设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为X1=1,X2=2,X3=3,X4=4。总体的均值、方差及分布如下。现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有16个样本。所有样本的结果如下表,计算出各样本的均值,并给出样本均值的抽样分布。3、 样本均值的抽样分布(数学期望与方差)样本均值的数学期望= 样本均值的方差:重复抽样=方差/n;不重复抽样.4、 样本均值的抽样分布与中心极限定理:当总体服从整体分布N(,方差)时,来自该总体的所有容量为n的样本的均值也服从正态分布,均值的数学期望为,方差为方差/n,即XN(,方差/n)5、 中心极限定理:设从均值为,方差为 的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为 /n的正态分布。6、 总体分布:正态分布正态分布 非正态分布大样本:正态分布 小样本:非正态分布五、 样本方差的抽样分布1、 设总体服从正态分布N(,方差),X1,X2,.,Xn为来自该正态总体的样本,则样本方差S2的分布为:.将X2(n-1)称为自由度为(n-1)的卡方分布。(卡方(X2)分布即选择容量为n的简单随机样本,计算样本方差S2,计算卡方值X2,计算出所有的X2值。)六、 样本比例的抽样分布1、 比例:总体(或样本)中具有某种属性的单位与全部单位总数之比。总体比例可表示为:=N0/N 或 1-=N1/N样本比例可表示为:p=n0/n 或 1-p=n1/n2、 样本比例的抽样分布:在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布;当样本容量很大时,样本比例的抽样分布可用正态分布近似3、 样本比例的抽样分布:数学期望E(p)= N0/N 方差:重复抽样:(1-)/n;不重复抽样:(1-)/n*N-n/N-1七、 样本统计量的抽样分布(两个总体参数推断时)1、 两个样本均值之差的抽样分布:两个总体都抽取简单随机样本容量n,计算每一对样本,所有可能样本的抽样分布2、 两个样本比例之差的抽样分布3、 两个样本方差比的抽样分布第二节 参数估计基本方法参数估计的方法:点估计;区间估计基本概念:估计量:用来估计总体参数的统计量的具体数值,称 估计值:用来估计总体参数时计算出来的估计量的具体数值,称 参数的点估计:用样本估计量的值直接作为总体参数的估计值,称 参数的区间估计值:在点估计的基础上,给出总体参数估计的一个范围,称一、 点估计1、 点估计:从总体中抽取一个样本,根据该样本的观察值对总体的未知参数作出一个数值点的估计;例如:用样本均值作为总体未知均值的估计值就是一个点估计。例子:对某企业的产品进行抽样检验,设抽出100件产品,其中不合格产品5件,试估计该企业产品的合格率是多少?2、 估计量:用于估计总体某一参数的随机变量;如样本均值、样本比例、样本中位数等3、 估计量的优良性准则:一致性:随着样本容量的增加,样本均值与总体均值之间的差异缩小无偏性:抽样分布的均值等于总体均值有效性:如果与其他任何无偏估计量相比,样本均值更接近总体均值,我们就称样本均值是个更有效的估计量四、 区间估计1、 区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的;根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。(置信区间是统计量的取值范围;置信水平是概率)2、 置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率,称为。a是总体参数未在区间内的比例,置信水平是(1-a)%3、 置信区间:由样本统计量所构造的总体参数的估计区间,称,其中区间最小值称置信下限,最大值称为置信上限。(用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。)样本均值落在抽样分布的置信区间等于抽样分布的均值落在样本均值的误差范围之中。若样本区间包含了总体均值,则样本均值落在抽样分布的置信区间。4、 风险值a 置信水平1-a 边际误差x 误差范围x 可靠性系数Za/2 临界值Za/2 估计误差x:Za/2(/更号n) 公式:x +- Za/2(/更号n)=置信上(下)限第三节 总体均值和总体比例的区间估计一、 总体均值的区间估计(大样本)1、 假定条件:总体服从正态分布,且方差2未知;如果不是正态分布,可由正态分布来近似;2、 使用正态分布统计量z=x-/(/更号n)N(0,1);3、 总体均值落在1-a置信水平下的置信区间为x- +- Za/2(/更号n)或x- +- Za/2(s/更号n)(未知)此处为总体标准差,未知时以样本标准差s代替。4、 例题:一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%5、 例题:一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄数据如下表。试建立投保人年龄90%的置信区间二、 总体均值的区间估计(小样本)1、 假定条件:总体服从正态分布,且方差2未知;小样本(n30);2、 使用t分布统计量t= x-/(s/更号n)t(n-1)自由度为n-1的t分布3、 总体均值在1-a置信水平下的置信区间为x- +-ta/2(s/更号n)4、 t分布:是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。5、 例题:已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命如下。建立该批灯泡平均使用寿命95%的置信区间三、 总体比例的区间估计1、 假定条件:总体服从二项分布;可以由正态分布来近似2、 使用正态分布统计量z=p-/更号p(1-p)/nN(0,1)3、 总体比例在1-a置信水平下的置信区间为p+- Za/2 更号(1-)/n或p+- Za/2 更号p(1-p)/n(未知时)4、 例题:某城市想要估计下岗职工中女性所占的比例,随机抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间四、 总体方差的区间估计1、 假设总体服从正态分布2、 总体方差2的点估计量为S2,且(n-1)s2/ 2 X2(n-1)自由度为n-1的卡方分布3、 总体方差在1-a置信水平下的置信区间为(n-1)s2/ X2 a/2 小于等于2 小于等于(n-1)s2/ X2 1-a/2 置信上限 置信下限4、 例题:一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种产品平均重量方差的置信区间五、 估计总体均值时样本容量的确定1、 根据中心极限定理当n越大,样本的抽样分布越接近总体的真值。2、 如果确定了置信区间,就可以确定估计误差(边际误差);如果确定了置信水平,就可以确定Z/2;如果确定了估计误差和置信水平,再知道总体标准差,就可以求一定误差范围内和一定置信水平下所需要的样本容量n。3、 估计总体均值时样本容量n为n=( Z/2 )22/E2 其中E= Z/2 /更号n4、 例题:拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?六、 估计总体比例时样本容量的确定1、 根据比例区间估计公式可得样本容量n为n=(Za/2)2 *(1-)/E2 其中:E= Z/2 *更号(1-)/n2、 根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?七、 估计两个总体均值之差时样本容量的确定八、 估计两个总体比例之差时样本容量的确定第四节 正态总体方差的区间估计第九章 相关与回归分析第一节 变量关系的度量一、 变量间的关系1、 函数关系:是一一对应的确定关系;设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量;各观测点落在一条线上。2、 相关关系:变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定;当变量x取某个值时,变量y的取值可能有几个;各观测点分布在直线周围。3、 相关关系类型:线性相关(正相关负相关)、非线性相关、完全相关(正相关负相关)、不相关4、 相关关系的描述与测度(散点图)5、 相关关系的描述与测度(相关系数)相关系数:对变量之间关系密切程度的度量简单相关系数:对两个变量之间线性相关程度的度量总体相关系数(p):若相关系数是根据总体全部数据计算的样本相关系数(r):若是根据样本数据计算的,则称r的取值范围是-1,1;丨r丨=1,为完全相关,r=0,不存在线性相关关系;r大于等于-1小于0,为负相关,r大于0小于等于1,为正相关;丨r丨越趋于1表示关系越密切,越趋于0表示关系越不密切。6、 相关系数的显著性检验(r的抽样分布)(1) r的抽样分布随总体相关系数和样本容量的大小而变化(当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数p很小或接近0时,趋于正态分布的趋势非常明显。而当p远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。)(2) 当p为较大的正值时,r呈现左偏分布;当p为较小的负值时,r呈现右偏分布。只有当p接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量。7、 相关系数的显著性检验(检验的步骤)(1) 检验两个变量之间是否存在线性相关关系;(2) 等价于对回归系数1的检验;(3) 采用t检验;(4) 检验的步骤为:提出假设:H0:p=0;H1:p不等于0 计算检验的统计量:t=丨r丨更号(n-2)/1-r2 t(n-2)确定显著性水平a,并作出决策:若丨t丨ta/2,拒绝H0;若丨t丨ta/2,不能拒绝H0 (5) 例题:对不良贷款与贷款余额之间的相关系数进行显著性检验(a=0.05)第二节 一元线性回归回归分析:从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。(回归与相关分析的区别:相关分析中,变量x变量y处于平等的地位,主要描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。)回归模型的类型:一元回归(线性回归、非线性回归)、多元回归(线性回归、非线性回归)一、 一元线性回归模型1、 一元线性回归:涉及一个自变量的回归;因变量y与自变量x之间为线性关系(被预测或被解释的变量成为因变量y;用来预测或用来解释因变量的一个或多个变量称为自变量x)2、 回归模型:描述因变量y如何依赖于自变量x和误差项 的方程称为;主要用于预测和估计。3、 一元线性回归模型可表示为:y=0+1 x+误差项(1) 解释:y是x的线性函数加上误差项;线性部分反映了由于x的变化而引起的y的变化;误差项 是随机变量(反映了除x和y之间的线性关系之外的随机因素对y的影响)(2) 基本假定:误差项 是一个期望值为0的随机变量,即E( )=0。对于一个给定的x值,y的期望值为E(y)=0+1 x;对于所有的x值,误差项 的方差 都相同;误差项 是一个服从正态分布的随机变量,且相互独立。即误差项 N(0, )。(独立性意味着对于一个特定的x值,它所对应的误差项 与其他x值所对应的的 不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关)4、 估计的回归方程:总体回归参数0和1是未知的,必须利用样本数据去估计;用样本统计量0 和1 代替回归方程中的未知参数0和1 ,就得到了估计的回归方程。一元线性回归中估计的回归方程为:y =0 +1 x一、 参数的最小二乘估计1、 最小二乘估计:使因变量的观察值与估计值之间的离差平方和,达到最小来求得0 和1 的方法。用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。二、 回归直线的拟合优度1、 变差:因变量y的取值是不同的,y取值的这种波动称为。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差y-y-来表示2、 离差平方和的分解:公式:SST=SSR+SSE 总平方和SST:反映因变量的n个观察值与其均值的总离差。 回归平方和SSR:反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化。 残差平方和SSE:反映除x以外的其他因素对y取值的影响。3、 判定系数r2 :回归平方和SSR占总离差平方和SST的比例;反映回归直线的拟合程度;取值范围在0,1之间;R2 越趋向于1,说明回归方程拟合的越好,越趋向于0,说明回归方程拟合的越差;判定系数等于相关系数的平方,即R2=r24、 估计标准误差:实际观察值与回归估计值离差平方和的均方根;反映实际观察值在回归直线周围的分散状况;对误差项 的标准差 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量;反映用估计的回归方程预测y时预测误差的大小计算公式为:三、 显著性检验1、 线性关系的检验:检验自变量与因变量之间的线性关系是否显著;将回归均方MSR(回归平方和SSR除以相应的自由度即自变量的个数p)同残差均方MSE(残差平方和SSE除以相应的自由度n-p-1)加以比较,应用F检验来分析二者之间的差别是否显著。2、 线性关系的检验步骤:提出假设:H0:1=0,线性关系不显著计算检验统计量F=SSR/1SSE/n-2=MSR/MSEF(1,n-2)确定显著性水平a,并根据分子自由度1和分母自由度n-2找出临界值Fa 作出决策:若FFa,拒绝H0;若FFa,不能拒绝H0 3、 回归系数的检验:检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著;在一元线性回归中,等价于线性关系的显著性检验;理论基础是回归系数1的抽样分布(1 是根据最小二乘法求出的样本统计量,它有自己的分布)。4、 回归系数的检验步骤:提出假设:H0:1=0,没有线性关系;H1:1不等于0,有线性关系计算检验的统计量t=1 /S1 t(n-2)确定显著性水平a,并进行决策:丨t丨ta/2,拒绝H0;丨t丨ta/2,不能拒绝H0 第三节 利用回归方程进行估计和预测1、 根据自变量x的取值估计或预测因变量y的取值2、 估计或预测的类型:点估计:y的平均值的点估计、y的个别值的点估计 区间估计:y的平均值的置信区间估计、y的个别值的预测区间估计一、 点估计1、 对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计值y0 2、 点估计值有 :y的平均值的点估计、y的个别值的点估计3、 在点估计条件下,平均值的点估计和个别值的点估计是一样的,但在区间估计中则不同。4、 y的平均值的点估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计。5、 y的个别值的点估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计值y0 ,就是个别值的点估计。一、 区间估计1、 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计。对于自变量x的一个给定值x0 ,根据回归方程得到因变量y的一个估计区间。2、 区间估计有两种类型:置信区间估计、预测区间估计3、 置信区间估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间,这一估计区间称为。E(y0)在1-a置信水平下的置信区间为.4、 预测区间估计:利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y 的一个个别值的估计区间,这一区间称为预测区间。y0在1-a置信水平下的预测区间为.5、 影响区间宽度的因素:置信水平(1-a):区间宽度随置信水平的增大而增大数据的离散程度s:区间宽度随离散程度的增大而增大样本容量:区间宽度随样本容量的增大而减小用于预测的xp与x-的差异程度:区间宽度随xp与x-的差异程度的增大而增大第四节 残差分析一、 用残差证实模型的假定1、 残差:因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示ei=yi-yi ;反映了用估计的回归方程去预测而引起的误差;确定有关误差项 的假定是否成立。2、 残差图:表示残差的图形关于x 的残差图、标准化残差图;用于判断误差?的假定是否成立。3、 标准化残差:残差除以它的标准差后得到的数值。计算公式为:.4、 标准化残差图:用以直观地判断误差项服从正态分布这一假定是否成立。若假定成立,标准化残差的分布也应服从正态分布;在标准化残差图中,大约有95%的标准化残差在-2到+2之间。5、 用残差证实模型的假定:(1) 一元线性回归模型(基本假定): 误差项 ?是一个期望值为0的随机变量,即E(?)=0。对于一个给定的x值,y的期望值为E(y)=0+1x 。对于所有的x值,?的方差 都相同。 误差项?是一个服从正态分布的随机变量,且相互独立。即?N(0,方差)独立性意味着对于一个特定的x值,它所对应的?与其他x值所对应的?不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关。一、 用残差检测异常值和有影响的观测1、 异常值(概念):如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点。(如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果;如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型;如果完全是由于随机因素而造成的异常值,则应该保留该数据。)在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除。2、 异常值(识别):异常值也可以通过标准化残差来识别;如果某一个观测值所对应的标准化残差较大,就可以识别为异常值;一般情况下,当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值。3、 有影响的观测值:如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值。一个有影响的观测值可能是:一个异常值,即有一个值远远偏离了散点图中的趋势线;对应一个远离自变量平均值的观测值;或者是这二者组合而形成的观测值。4、 杠杠率点:如果自变量存在一个极端值,该观测值则成为高杠
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年风电项目噪声环境影响后评价与治理措施报告
- 2025年医养结合养老机构老年人身心健康促进服务区域政策环境报告
- 施工专业考试题及答案
- 康复专业面试题及答案解析
- 第四章 隋唐时期社会概况和文化说课稿-2025-2026学年中职历史中国历史 (全一册)人教版
- Unit 7 Mingming's diary教学设计-2025-2026学年小学英语新世纪英语五年级上册-新世纪英语
- 成人高考试题及答案医学
- Unit 4 Friends Forever Understanding Ideas Click for a Friend 教学设计 -2024-2025学年高一上学期英语外研版(2019)必修第一册
- 手术器械考试题库及答案
- 水平沟鱼鳞沟施工方案
- 采购报告范文
- 某县某年度高标准基本农田建设项目复核报告
- 医学教材 围术期过敏反应
- 【MOOC】管理会计学-西南财经大学 中国大学慕课MOOC答案
- 现代辅助生殖技术护理伦理
- 体育设施建设造价评估方案
- 风力发电运维值班员(高级工)理论考试题库(浓缩400题)
- 人美版美术七年级上册第一单元《第2课 品篆刻之美》课件
- 宪法培训课件教学课件
- 华为全球培训中心
- 2023药品耗材集中带量采购知识标准培训模版课件
评论
0/150
提交评论