《统计学》讲义.doc_第1页
《统计学》讲义.doc_第2页
《统计学》讲义.doc_第3页
《统计学》讲义.doc_第4页
《统计学》讲义.doc_第5页
免费预览已结束,剩余31页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学讲义第1章 导 论第1节统计学的发展 一、统计活动的产生和发展自从有了国家,便有了统计实践活动。我国在原始社会末期,在奴隶制形成的过程中,就已经出现了统计的萌芽。 二、统计学的产生和发展1、国势学派或记述学派:创始人是德国的康令 。17世纪中叶。文字记述为主。2、政治算术学派:代表人是英国的威廉. 配第 。17世纪中叶。用数量说话。3、数理统计学派:创始人是比利时的统计学家凯特勒。19世纪中叶。把概率论引入统计学。第2节 统计和统计学一、统计的涵义统计工作统计数据的收集活动 统计数据统计活动的结果统计学分析统计数据的方法和技术二、统计学的分科1、描述统计学(descriptive statistics)和推断统计学 (inferential statistics)描述统计学:是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而概括并分析得出反映客观事物的规律性数量特征。推断统计学:是研究如何根据样本(sample)数据去推断总体(population)数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。2、理论统计学(theoretical statistics)和应用统计学(applied statistics) 理论统计学:是指研究统计学的一般理论和统计方法的数学原理的学科,它的立足点是统计方法的研究。理论统计学是统计方法的理论基础。应用统计学:是指研究如何应用统计方法去解决实际问题的科学。第3节 统计研究的基本方法一、统计学在经济管理中的应用 在经济全球化的今天,衡量成功的管理者和决策者的标准,就是看他是否能够充分理解并有效利用统计信息。因为统计信息的作用越来越重要,它的应用范围已经涉及到会计、金融、生产、营销及经济各个领域。 二、统计学与其他学科的关系1、统计学与数学的关系统计学与数学有密切的关系,但又有本质的区别。数学研究的是抽象的数量规律,而统计学则是研究具体的数量规律;数学研究所使用的是纯粹的演绎,而统计学则主要是归纳 。2、统计学与其他学科的关系统计方法是其他学科借以探索学科内现象的数量规律性的有效手段,而对这种数量规律性的解释并进而研究各学科内在的规律,只能由各学科的深入研究来完成。三、统计研究的基本方法 大量观察法、综合指标法、统计分组法第4节 统计学中的若干基本概念一、总体 :总体是一定目的下研究的整体,是由客观存在的具有相同性质的许多个别元素组成的集合。 1、特点:同质性、差异性、大量性 2、 有限总体 无限总体二 、总体单位:构成总体的个别元素(或单位)就是总体单位,也称个体。三、标志:标志是说明总体单位所具有的特征的名称。 品质标志 数量标志 四、 指标:指标是综合反映总体数量特征的范畴,由指标名称和指标数值组成。 1、特点:综合性、具体性、数量性 2、分类:(1)绝对数指标 相对数指标 平均数指标 (2)数量指标 质量指标 3、标志与指标的区别和联系区别:(1)说明对象不同。指标是说明总体的, 标志是说明总体单位的; (2)表现形式不同。指标都能用数值表示,标志分为可以用数值表示的 数量标志和不可以用数值表示的品质标志。联系:(1)许多指标都是由数量标志汇总而来; (2)指标和标志可以变换。五、变量:说明现象某种特征的概念称为变量。变量的特点是从一次观察到下一次观察会呈现出差别或变化。如“商品销售额”、“受教育程度”、“产品质量等级”等都是变量。变量的具体表现称为变量值。比如商品销售额可以是20万元、30万元等等,这些数字就是变量值。统计数据就是统计变量的具体表现。变量可以分为以下几种类型。1 说明事物类别的一个名称,称为分类变量。分类变量的数值表现就是分类数据。如“性别”就是分类变量,其变量值表现为“男“或“女”。2 说明事物有序类别的一个名称,称为顺序变量。顺序变量的数值表现就是顺序数据。如“产品等级”就是顺序变量,其变量值可以表现为“一等品”、“二等品”等。3说明事物数字特征的一个名称,称为数值型变量。数值型变量的数值表现就是数值型数据。如“产品产量“、”年龄“等。它们的变量值可以表现为不同的数值。数值型变量根据其取值的不同,又可以分为离散型变量和连续型变量。4 只能取可数值的变量,成为离散型变量。离散型变量只能取有限个值,而且其取值都以整数位断开,可以一一例举,如“企业数”、“员工数”等等。5可以取直线上或区间中任何值的变量,称为连续型变量。连续型变量的取值是连续不断的,不能一一例举,如“年龄”、“温度”等都是连续变量。在对社会和经济问题的研究中,当离散变量的取值很多时,我们也可以将离散变量当作连续来处理。六、变异:指标的不同表现及标志的不同表现,是一种差异。没有变异就没有统计,变异是普遍存在的。七、参数:用来描述总体特征的概括性数字度量,称为参数。我们所关心的参数有总体参数、标准差、总体比例等。在统计中,总体参数通常用希腊字母表示。比如,总体平均数用(读作mu)表示,总体标准差用(读作sigma)表示,总体比例用(读作pai)表示,等等。由于总体数据通常是不知道的,所以参数通常是一个未知的常数。比如,我们不知道一个城市所有家庭的收入差异,不知道一批产品的合格率,等等。正因为如此,我们才进行抽样,根据样本计算出某些值去估计总体参数。八、统计量:用来描述样本特征的概括性数字度量,称为统计量。统计量是根据样本数据计算出来的一个量。通常我们所关心的样本统计量有样本平均数、样本标准差、样本比例等。由于样本是已经抽出来的,所以统计量总是知道的。抽样的目的就是要根据样本统计量去估计总体参数。比如,用样本平均数去估计总体平均数,用样本标准差去估计总体标准差等等。第2章 统计数据的收集第1节 统计数据及其类型一、数据的特征 1、定义:数据(data)是经过收集、分析和概括用以表达和说明的事实和数字,它是进行统计工作和统计研究的基础。2、特征:数据作为客观事物的一种数量表现,是事物必然性与偶然性共同作用的结果。偶然性使得对同一事物的多次观察得到不同的统计数据,而必然性则隐含在统计数据背后,这正是我们要利用统计方法去寻找的。 只有通过多次观察或试验得到大量的统计数据,才可以探索出其内在的数量规律性 。二、数据的类型1、定性数据(qualitative data)说明的是事物的品质特征,是不能用数值表示的,通常表现为类别。定量数据(quantitative data) 说明的是现象的数量特征,是必须用数值来表现的。 分为:离散数据(discrete data)连续数据 (continuous numerical data) 。2、 定类计量(nominal level of measurement)数据 定序计量(ordinal level measurement)数据 定距计量(interval level of measurement)数据 定比计量(ratio level of measurement)数据(1)定义:定类计量数据指将统计数据按照客观事物的某种属性进行无顺序的分类或分组。定序计量数据指将统计数据按客观事物的某种无须确认的顺序进行排列,它是在分类基础之上的排序。 定距计量数据是对事物类别和次序之间的差距的确认,这是在排序基础上进行的。定比计量数据就是有固定起点的定距计量。 (2)四种数据的比较区别:定类数据:表现为类别,但不区分顺序,是由定类尺度计量形成的。定序数据:表现为类别,但有顺序,是由定序尺度计量形成的。定距数据:表现为数值,可进行加减运算,由定距尺度计量形成的。定比数据:表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。联系:前两类数据说明的是事物的品质特征,不能用数值表示,其结果均表现为类别,也叫品质数据。后两类数据说明的是现象的数量特征,能够用数值来表现,也叫数量数据。3、横截面数据(cross-sectional data)和时间序列数据(time series data)横截面数据 在几乎同一时刻所收集的数据。时间序列数据在不同时间所收集的数据。第2节统计数据的来源一、直接渠道:通过统计研究来获得。对于使用者来说,这是第一手数据。这种统计研究被称为科学试验或统计调查。科学试验是取得自然现象数据的主要渠道,统计调查是取得社会经济现象数据的重要渠道。 二、 间接渠道:通过现成的数据渠道获得有关信息,对于使用者来说,这是数据的间接来源,因为这是使用者所获取的别人调查或试验的第二手数据。第3节调查方案设计一、统计调查的种类 1、全面调查和非全面调查全面调查:是对调查对象的全部单位进行调查登记的方式方法。如,全国人口普查。非全面调查:是对调查对象的部分单位进行调查登记的方式方法。如,对一部分职工家庭进行调查,可以了解全部职工家庭的生活状况。 2、经常性调查和一次性调查 经常性调查:是随着调查对象的不断变化,随时进行连续不断的登记的方式方法。一次性调查:是间隔一段时间,对调查对象在某一时刻的状况进行登记的方式方法。 3、采访调查、问卷调查、电话调查和座谈调查采访调查:是由调查人员向被调查人员提问,根据访问者的答复搜集统计资料的方法。问卷调查:是以问卷的形式发给被调查者,由被调查者自愿回答的一种搜集统计资料的方法。问卷的发放有邮寄、媒体传送和专门分发三种形式。电话调查:是调查者利用电话与被调查人员进行交流,从而获得统计信息的调查方法。座谈调查:是将被调查者集中在现场,从他们对调查主题发表的意见获取调查资料的方法。二、统计调查方式 1、统计报表:是依照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。统计报表要以一定的原始记录为基础,按照统一的表式、统一的指标项目、统一的报送时间和报送程序进行填报。分类:按填报范围不同可分:全面报表、非全面报表, 按报送周期不同可分:日报、月报、季报、年报等。 按填报内容和实施范围不同可分:国家、部门和地方统计报表 2、抽样调查 :是实际中应用最广泛的一种调查方式,它是从调查对象的总体中,按随机原则抽取部分单位作为样本进行调查,并根据样本调查结果来推断总体综合数量特征的一种非全面调查方式。优越性:第一,经济性强。第二,时效性高。第三,适应性好。第四,准确性大。 3、普查:是为某一特定目的而专门组织的一次性全面调查,以便掌握有关国情、国力的基本统计数据。特点:第一,一般需要间隔较长的时间进行一次;第二,一般需要规定统一的标准时间;第三,普查的适用范围比较狭窄。 4、重点调查:是从调查对象的全部单位中选择一部分重点单位所进行的调查。重点单位:是指在总体中举足轻重的单位,即所要调查的数量特征占较大比重的少数单位。 适用:当统计调查的任务只要求了解调查对象的基本情况,而调查对象中确实存在重点单位时,比较适宜进行重点调查。 5、典型调查:是根据调查目的,有意识的从调查对象的全部单位中选择少数有代表性的单位进行全面深入的调查。典型的选择:划类选典三、统计调查方案设计 1、调查目的:明确调查目的和任务,即回答“为什么调查”的问题。 2、调查对象和调查单位:确定调查对象和调查单位所解决的是“向谁调查”,由谁来提供所需数据的问题。 3、调查项目和调查表:调查中所要登记的调查单位的具体内容。确定调查项目所要回答的是“调查什么”的问题。4、调查时间和调查方法等:调查时间,包括调查数据的所属时间和调查工作期限。调查方法是搜集数据的具体方式。第4节调查问卷的设计一、问卷设计的原则1、主题明确。根据调查目的,从实际出发拟题,重点要突出,避免可有可无的问题。2、结构合理。问题的排列顺序要有逻辑性,符合人的思维程序,由易到难,由简到繁,由具体到抽象。3、通俗易懂。语气要亲切,使应答者容易理解不愿意回答,避免使用专业术语,避免主观性和暗示性。4、长度适中。问卷回答的时间控制在20分钟左右。5、便于整理。二、问卷设计的程序1、确定主题。根据调查调查目的,将所需数据一一列出,分析哪些要通过问卷取得,然后依据调查内容确定调查对象和问卷主题。2、分析样本。了解调查单位的有关特征,如社会阶层、行为规范、观念习俗等社会特征,需求动机、潜在欲望等心理特征,文化程度、知识水平等学识特征,以便有针对性地拟题。3、拟定问题。根据调查对象的特点,首先尽量详尽的列出问题,然后检查有无重复、遗漏或不恰当问句,同时进行筛选、编排。4、试问试答。设身处地提问、回答,检验问题是否明了、排序是否合理、时间是否适中、应答者是否能答并愿意回答全部问题。必要的话,可进行小范围实地试答。5、修改付印。根据试答情况进行修改,然后再试问试答,再修改,至完全合格方可定稿付印,形成正式问卷。三、问卷问题的形式1、自由式。问卷没有拟定的备选答案,回答者可以自由发表意见。2、封闭式。问卷已事先拟定备选答案。第5节统计数据的质量一、 统计数据的误差登记性误差:可以消除的。代表性误差:无法消除的,但事先可以进行控制和计算。二、 统计数据的质量要求质量评价标准:1)精度2)准确性3)关联性4)及时性5)一致性第3章 数据的整理与显示第1节 数据的预处理数据的预处理包括:数据的审核、筛选、排序等一、 数据的审核与筛选1、 审核:保证数据的质量1)直接来源数据的审核:a) 完整性:是否有遗漏,是否填写齐全b) 准确性:数据是否真实反映客观实际情况;数据是否有错误,计算是 否正确2)间接来源数据的审核:完整性、准确性、适用性、时效性2、 筛选:当数据有错误但不能纠正、不符合调查要求又无法弥补时二、 数据的排序第2节 定性数据的整理与显示一、 分类数据的整理1、 列出所分的类别2、 计算每一类别的频数、频率或比例、比率1) 频数:各组内的数据个数称为次数或频数。2) 频率:各组次数与全部次数之和的比值称为频率和比重。3) 频数分布:全部数据在各组内的分布状况称为次数分布或频数分布。4) 比例:总体中个部分的数量占总体数量的比重。5) 比率:各不同类别的数量的比值。二、 顺序数据的整理除了使用分类数据整理与显示技术外,还可以计算累积频数和累积频率1、 累积频数:将各类别的频数逐级累加起来。向上累加、向下累积2、 累积频率或百分比:将各类别的百分比逐级累加起来。三、 分类和顺序数据的图形显示选择适当图形:1、条形图(bar graph):在平面直角坐标系中,我们指定横坐标为各组变量,纵坐标表示各组的频数、相对频数或百分比频数,然后使各组条形的宽度相同,条形的高度等于该组的频数、相对频数或百分比频数。横置条形图 、纵置条形图 例:某商店顾客购买计算机频数分布表、条形图购买计算机数据的频数分布表公司频数比重(%)苹果机康柏机贝尔盖特威2000ibm131259112624101822合计501002、饼形图(pie chart):首先绘制一个圆形(饼形),然后利用相对频数或百分比频数,按各组在圆形360度中的比重,将圆形划分成对应的几个部分。例:某商店顾客购买计算机饼形图第3节 定量数据的整理与显示一、 数据的分组:单项式分组、组距式分组1、 单项式分组:是把每一个变量值作为一组,这种分组方法通常只适合于离散变量,且变量值较少的情况下使用。2、组距式分组,是将全部变量值依次划分为若干个区间,并将每一区间的变量值作为一组。它适用于连续变量或变量值较多的情况。1)组距式分组需要经过以下几个步骤:第一,确定组数。斯特格斯(sturges)经验公式:k=1+3.322lgn第二,确定组距。组距=(最大值-最小值)/组数等距分组与不等距分组第三,确定组限。一个组的最小值叫下限;一个组的最大值叫上限例:某车间50名工人日加工零件数分组并编制频数分布表2)分组的原则: 不重复不遗漏 上组限不在内组中值=开口组:缺上限或缺下限的组,其组距按邻组计算缺上限开口组的组中值=缺下限开口组的组中值=二、数值型数据的显示1、直方图(histogram)和折线图 1)直方图:在平面直角坐标系中,通常用横轴表示数据分组,纵轴表示频数或频率,这样,每组与其相应的频数,就形成了一个宽度为组距高度为频数或频率的矩形,即直方图。2)折线图:是在直方图的基础上,把直方图顶部的中点用直线连接起来所形成的图形。例:根据表3.3数据绘制直方图和折线图 图3.3 3) 直方图与条形图的区别(1)条形图的长度(横置)或高度(纵置)表示各类别的频数,其宽度则无实际意义,仅仅是类别的代表;直方图的频数用每一矩形的面积表示,其高度为各组频数或频率,宽度为各组组距。(2)条形图各矩形分离排列;直方图各矩形连续排列。2、茎叶图(stem-and-leaf display):1)茎叶图:由“茎”和“叶”两部分构成,其图形是由数字组成的。通常先将每一数据的第一个或前两个数字列在垂直线的左边,然后将每个数据的最后一个数字按从小到大的顺序记在垂直线的右边。每个数据的最后一个数字所在的行与其第一个或前两个数字所在的行相对应。例:对20名成人进行智力测试的数据如下:114 99 131 124 117 102 106 127 119 11598 104 144 151 132 106 125 122 118 118试根据以上数据绘制茎叶图。 解:以前两位数字为茎,最后一位数字为叶作茎叶图如下(图3.4)。 9 8 9 10 2 4 6 6 11 4 5 7 8 8 9 12 2 4 5 7 13 1 2 14 4 15 1图3.42)优点:(1)绘制简易,(2)是因为显示具体数值,所以提供了比直方图更多的信息。第4节 统计表一、统计表的构成1、形式:总标题、横行标题、纵栏标题和指标数值2、内容:主词和宾词 1)主词:是指统计表所要说明的总体,它可以是各总体单位的名称、总体的各个组,或者是总体的单位的全部。 2)宾词:是说明总体的统计指标包括指标名称和数值。二、统计表的设计1、合理安排统计表的结构2、正确设计表头3、正确画出表中的横竖线、正确填列表中数据4、必要时在表下方加注释第4章 数据分布特征的测度第1节 集中趋势的测度集中趋势:是一个数据集向某一中心靠拢的倾向,它可以代表这些数据的一般水平。一、算术平均数(arithmetic mean)1、定义:将所有数据值加起来除以数据的个数就得到算术平均数。2、计算公式:1)简单算术平均数: 其中, 表示算术平均数x表示各个变量值n 表示变量值的个数 是求和符号。2)加权算术平均数 其中,x代表各组的变量值f 代表各组的频数影响加权算术平均数的因素:变量值和权数选择权数的原则:变量值与其乘积是具有实际经济意义的标志总量。3)加权算术平均数与简单算术平均数的关系当 时,二、调和平均数 (倒数平均数 harmonic mean) 1、定义:调和平均数是变量值倒数的算术平均数的倒数,故又称倒数平均数。2、计算公式: 1)简单调和平均数: 式中: 表示变量值; 表示变量值个数。2)加权调和平均数 式中: 表示调和平均数; 表示权数; 表示变量值。3、平均数计算方法的选择设则 (已知m、f) (已知x、f) (已知x、m)三、几何平均数(geometric mean)1、定义:几何平均数是n个变量值乘积的n次方根,它适用于平均比率的计算。2、计算公式:1)简单几何平均数 式中:表示变量值; 表示连乘符号。 2)加权几何平均数 式中:表示变量值出现的次数。3、算术平均数、调和平均数、几何平均数之间的关系算术平均数几何平均数调和平均数四、众数(mode)1、定义:众数是一组数据中出现次数最多的变量值复众数:如果数据中的众数超过两个,则数据是多峰的,这时指出众数毫无意义。2、众数的确定:1)未分组数据和单项式分组数据:众数位置确定之后便找到了众数。2)对于组距数列:若众数组相邻两组次数相等,则众数组的组中值就是众数;若众数组上一组的次数较多,则众数在众数组内靠近上限;若众数组下一组的次数较多,则众数在众数组内靠近下限。 计算公式:mo= 式中,l 为众数组下限1为众数组与下一组频数之差2为众数组与上一组频数之差i 为众数组的组距五、中位数(median)1、定义:中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。2、中位数的计算:未分组数据:中位数位置=(n+1)/2单项式分组数据:中位数位置=f/2组距数列:确定中位数组之后,可按以下公式计算中位数:me= 其中,l 为中位数组的下限f为各组的频数sm-1 为中位数组以下的累积频数fm 为中位数组的频数 i为中位数组的组距六、中位数、众数、算术平均数之间的关系1、在同一变量数据集合中如果变量值分布呈对称型,则算术平均数、中位数和众数三者相等;2、若不对称,则中位数必居中,算术平均数和众数分列两侧。第2节 离散程度的测度(标志变异指标)离散程度:变量值之间的差异程度,即数据的离散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值的程度,因此,也称为离中趋势。标志变异指标的作用: 衡量平均数代表性的大小 反映社会经活动过程的均衡性和节奏性一、极差(全距range)1、定义:全距是一组数据的最大值与最小值之差。2、计算公式:极差(r)=最大标志值-最小标志值 对于组距数列极差也可以近似表示为: r=最高组上限值-最低组下限值二、平均差1、定义:极差的均值。2、计算公式:1)简单平均式2)加权平均式三、方差(variance)及标准差(standard deviation)1、定义:方差是各变量值与其均值离差平方的平均数。标准差方差的平方根即为标准差。2、计算公式:1)简单平均式2)加权平均式式中,为总体方差 为各变量值为总体均值n 为数据个数 为各组频数。 四、离散系数(变异系数或标准差系数)(coefficient of variation)1、定义:也称离散系数,通常是就标准差来计算的,因此,也称为标准差系数,它是标准差与均值的比率。2、计算公式: 四、 标准化数值(z-score)1、定义:也称为z分数或z值,它是一个数据在数据集中相对位置的测度。2、计算公式: 式中,x表示观察值 表示样本平均数 s表示样本标准差3、 标准化数值就是数据值偏离平均数标准差的个数。正的z值表示观察值位于平均数右侧,负的z值表示观察值位于平均数左侧。 4、 异常值:根据经验法则,对于钟形分布,几乎所有的数据都在偏离平均数3个标准差范围之内。因此,标准化数值低于-3或高于3的数据值就是异常值,也称为离群点。第3节 偏态与峰度的测度集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度就是对这些分布特征的近一步描述一、 偏度及其测定1、定义:就是指次数分布的非对称程度,以偏态系数来表示。2、计算公式:=0表示数据正态分布或对称;0表示正偏或右偏0表示负偏或左偏的绝对值越大,表示偏斜的程度就越大。二、 峰度及其测定1、定义:峰度:数据分布集中趋势高峰的形状,亦即分布曲线的尖峭程度,通常以峰度系数来表示。尖峰分布:若分布形状比正态分布更瘦更高。平顶分布:若分布形状比正态分布更矮更胖。峰度系数:测定峰度的指标。2、计算公式: =3表示正态分布峰度;3表示尖态峰,说明频数分布集中趋势显著,离散度低;3表示平坦峰,说明频数分布离散度高第5章 概率与概率分布基础第1节 随机事件一、相关概念1、随机现象:在一定条件下可能发生也可能不发生的现象。2、随机试验:对随机现象进行大量观察以便掌握其规律性的过程。3、随机事件:随机试验中每一个可能出现的结果,简称事件。 基本事件(样本点):不可能再分的事件。 样本空间:基本事件的全体。s 复合事件:由两个或两个以上基本事件组成的事件。4、互斥事件(互不相容事件):不能同时发生的事件。5、对立事件(逆事件):由两个互斥事件组成样本空间,这两个事件即为对立事件。二、事件的运算1、交换律:ab= ba,ab=ba2、分配律:(ab)c=acbc3、结合律:(ab)c=a(bc)=abc4、德摩根定律:,第2节 随机事件的概率一、概率的分配(计算)方法古典方法频率方法主观方法二、概率的分配(计算)方法加法定理:p(ab)=p(a)+p(b)-p(ab) 对于独立事件:p(ab)=p(a)+p(b)乘法定理:p(ab)=p(a)p(ba)=p(b)p(ab)对于互斥事件: p(ab)=p(a) p(b)三、全概率公式与逆概率公式1、全概率公式: 2、逆概率公式:第3节 离散型概率分布一、随机变量(random variable)随机变量(random variable)就是试验结果的数值描述。根据随机变量的取值不同,可以将其分为离散型随机变量和连续型随机变量。二、离散型随机变量的概率分布1、二项分布(binomial probability distribution) 在n次试验中成功次数为x的试验结果的二项分布概率值的计算如下:式中,n为试验次数(样本容量)x为n次试验中成功的次数p为一次子试验成功的概率f(x)为n次试验中成功x次的概率=2、泊松分布 (poisson probability distribution) p(x)=式中,p(x)为在某一间隔内某事件发生x次的概率 为x的均值 e为自然对数的底2.718283、当p0.05,n20时,泊松分布为二项分布的近似效果较好。泊松分布可作为稀有事件(小概率事件)发生次数的概率分布模型。第4节 连续型概率分布一、正态概率分布(normal probability distribution)1、正态分布xn(,2)。其分布函数为:f(x)=正态分布的期望值=,方差=2,标准差=。2、标准正态分布若xn(,2),设z=,则zn(0,1),即z服从均值为0,方差为1的标准正态分布:f(x)=()式中,为标准正态分布函数,即:(x)二、指数分布指数分布函数为f(x)=pxx=1- x0 指数分布的期望值=,方差=2,标准差=。第6章 抽样与参数估计 第1节 抽样与抽样分布一、抽样1、抽样法的特点:随机原则 部分估计总体 存在误差并可以控制2、适用: 对某些不可能进行全面调查而又需要了解其全面情况的社会经济现象,必须应用抽样法。(破坏性试验、总体过大、单位过于分散,实际调查不可能的)3、抽样法的作用1) 对某些社会经济现象虽然可以进行全面调查,但抽样法仍然有其独到的作用。2) 可以节省人力、费用,提高调查的经济效果。3) 可以节省时间,提高调查的时效性4) 可以增加调查项目,提高资料的准确性5) 抽样调查和全面调查同时进行,可以发挥相互补充和检查质量的作用。6) 可用于工业生产过程的质量控制。7) 可以对某些总体的假设进行检验,来判断这种假设的真伪。二、总体和样本1、总体(population):也叫母体,是指所要认识对象的全体。是由具有某种共同性质的许多单位组成的,因此总体也就是具有同一性质的许多单位的集合体。总体中单位数用n来表示。1) 变量总体、 属性总体2) 有限总体、 无限总体2、样本(sample):也叫子样,它是从总体随机抽取出来,代表总体的那部分单位的集合体。样本的单位数称为样本容量,用n来表示。1) 以很小的样本来推断很大的总体是抽样法的重要特点。2) 一个总体可以有多个样本。3) 大样本(n30)小样本(n30)三、总体指标和样本指标1、总体指标:也称总体参数(population parameter) 。总体参数的数值是客观存在的、确定的,但又是未知的。1) 总体均值2) 总体标准差3) 总体比例 =p2、样本指标即样本统计量(sample statistic)。统计量是总体参数的估计量 。1) 样本平均数2) 样本标准差s=3) 样本比例 p四、抽样方法 1、重置抽样(重复抽样)(sampling with replacement): 要从总体n个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取n次组成所要求容量的样本。 2、不重置抽样(不重复抽样)(sampling without replacement): 要从总体n个单位中随机抽取一个容量为n的样本,每 次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行次便组成样本。注意:不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。 五、 抽样分布1、抽样分布:对统计量的所有可能取值及其对应概率的描述,就是统计量的抽样分布,即。抽样分布反映样本统计量的分布特征,根据抽样分布的规律,可揭示样本统计量与总体参数之间的关系,计算抽样误差,并说明抽样推断的可靠程度。 2、简单随机抽样:是从总体中抽取样本最常用的方法。从容量为n的总体中进行抽样,如果容量为n 的每个可能样本被抽到的可能性相等,则称容量为n的样本为简单随机样本。 六、极限定理1、大数定律:当n足够大时,独立同分布的随机变量的算术平均数趋近于数学期望;事件发生的频率接近于其发生的概率。 即样本统计量接近于总体参数。 2、中心极限定理:中心极限定理是说明:当n充分大时,大量的起微小作用的相互独立的随机变量之和趋于正态分布。七、简单随机样本的抽样分布1. 样本平均数的抽样分布1) 抽样平均误差:或抽样标准差,样本平均数的标准差反映了样本平均数与总体平均数的平均误差。2) 计算公式: 重复抽样 不重复抽样3) 注: 抽样平均误差与总体标准差成正比变化,与样本容量 的平方根成反比变化。 当总体为正态分布时,对于任何样本容量,样本平均数的抽样分布是正态分布。若总体方差2未知,则可用样本方差s2取而代之 。 样本容量很大,无论总体分布如何,样本平均数近似服从正态分布。2. 样本比例的抽样分布 1) 当从总体中抽出一个容量为n的样本时,样本比例服从二项分布。 当n时,二项分布趋近于正态分布。所以,在大样本下,若np5且n(1-p) 5,样本比例p近似服从正态分布。2) 计算公式: 重复抽样 非重复抽样 注:式中,p为总体比例,实际计算时通常采用以往经验数据或样本比例 。第2节 参数估计的基本方法总体参数估计:就是以实际观察的样本数据所计算的统计量作为未知总体参数的估计值。 一、 总体参数的点估计(point estimate) 1. 含义:也称定值估计,就是直接以样本统计量作为总体参数的估计值。样本均值是总体均值的点估计量,样本方差s2是总体方差2的点估计量,样本比例p是总体比例p的点估计量。2. 优缺点:优点:它提供了总体参数的具体估计值,可作为决策的依据,缺点:不能提供有关抽样误差的信息。3. 优良估计量的标准1) 无偏性 2) 有效性 3) 一致性二、 抽样误差1. 统计调查的误差:是指调查所得结果与总体真值之间的差异。2. 来源:登记性误差代表性误差:系统性误差偶然性误差:抽样估计中所谓的抽样误差,就是指这种偶然性误差或随机误差。3. 实际抽样误差。指某一特定样本的样本估计值与总体参数真值之间的离差。 4. 抽样平均误差。统计学中常用标准差来衡量均值的代表性,所以抽样平均误差可以衡量样本对总体的代表性大小。 5. 抽样极限误差。指一定概率条件下抽样误差的可能范围,也称允许误差。抽样极限误差的可能范围与抽样估计的可能性即概率紧密相联。 1) 样本平均数的抽样极限误差 2) 样本比例的抽样极限误差 3) 抽样误差与抽样可靠性的关系 6. 影响抽样误差的主要因素1) 抽样单位数的多少:在其它条件不变的情况下,抽样单位数愈多,抽样误差愈小;反之抽样单位数愈少,抽样误差就愈大。显然,要想缩小抽样误差,必须扩大样本容量,这时的样本更能反映总体的特征,如果样本容量接近总体容量,那么抽样调查就近于全面调查,抽样误差也就缩小到几乎为0了。2) 总体离散程度的高低:当其它条件不变时,总体离散程度愈低,抽样误差愈小;反之总体离散程度愈高,抽样误差愈大。可见,抽样误差与总体离散程度成正比变化。总体离散程度愈低,表明总体各单位之间的差异愈小,则样本指标与总体指标间的差异就愈小,如果总体各单位之间没有差异,则此时离散程度为0,样本指标等于总体指标,抽样误差也就不存在了。3) 不同的抽样方法及组织方式三、 总体参数的区间估计1. 区间估计:就是根据样本求出总体未知参数的估计区间,并使其可靠程度达到预定要求。2. 置信度、置信区间设总体分布中有未知参数,由样本x1,x2,xn确定两个统计量和,如果对于给定的01,有p=1-则称区间(,)为的(1-)置信区间。式中,(1-)是置信度,是置信下限,是置信上限。可见,区间估计就是求出置信区间。第3节 总体均值的区间估计一、大样本(n30)下总体均值的区间估计1. 总体方差2已知时置信区间为 例:基础p98 6.12. 总体方差2未知时在大样本下,置信区间为 例:基础p99 6.2二、小样本下(n30)总体均值的区间估计在小样本条件下,样本平均数的分布依赖于总体的概率分布。若总体服从正态分布,无论样本容量如何,样本平均数都服从正态概率分布。 1. 总体方差已知时 置信区间为 2. 总体方差2未知时置信区间为 注:若总体不服从正态分布,必须扩大样本容量。例:基础p100 6.3第4节 总体比例的区间估计一、在大样本条件下,若np5,n(1-p)5,则样本比例趋近于正态分布。总体比例的置信区间为例:基础p101 6.4第5节 样本容量的确定一、样本容量的确定 1. 重置抽样 所以,必要抽样单位数2. 不重置抽样,必要抽样单位数 例:基础p101 6.5 6.6 6.7二、影响必要抽样数目的因素1. 允许误差范围。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许误差愈大,抽样单位数就可以愈少。2. 总体方差2。其他条件不变的情况下,总体方差2愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样本单位数可愈少。3. 抽样估计的可靠程度1-。当其他条件不变时,抽样估计的可靠程度愈高,z/2数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。4. 抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。5. 除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因 。第7章 假设检验第1节 假设检验的基本问题一、 假设的陈述:1、 假设:对总体参数的具体数值所做的陈述,叫假设或称统计假设。2、 假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,成为假设检验。3、 原假设:通常将研究者想收集证据予以反对的假设称为原假设,或称零假设,用h0表示。4、 备择假设:通常将研究者想收集证据予以支持的假设称为备择假设或称研究假设,用h1或 ha表示。二、 两类错误与显著水平1、 第类错误:当原假设为真时拒绝原假设,所犯的错误称为第类错误,又称弃真错误。犯第类错误的概率通常记为。2、 第类错误:当原假设为假时没有拒绝原假设,所犯的错误称为第类错误,又称取伪错误。犯第类错误的概率通常记为。三、 检验统计量与拒绝域1、 标准化检验统计量=(点估计量假设值)/点估计量的抽样标准值2、 拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合,称为拒绝域。四、 p值决策1、 p值:在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论