




已阅读5页,还剩312页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 绪论,新世纪财经系列教科书,本章概述,1,2,4,第一节社会经济统计学的性质,第二节统计学中的基本概念,统计学产生于统计工作。统计工作的历史悠久,迄今已有几千年,而统计学的产生,只有三百年左右。在统计学发展的不同阶段,形成三种主要学派。1.国势学派2.政治算术学派3.数理统计学派,第一节 社会经济统计学的性质,一、统计的涵义统计一词通常具有三种涵义:统计工作、统计资料和统计学。统计工作是指利用各种统计方法,对各种社会、经济及自然现象的总体数量进行搜集、整理、分析等工作的总称。,统计资料是指在统计工作过程中所取得的各项数字资料以及与之相联系的其他资料的总称。统计学是一门认识社会和自然的方法论科学,包括社会经济统计学和数理统计学。统计一词三种涵义关系密切。统计工作的好坏直接影响统计资料的数量和质量,统计学与统计工作又存在一种理论与实践的双向作用的关系。,二、 统计学的性质关于统计学的研究对象及性质问题,理论界一直有两种不同的观点,即统计学是实质性科学还是方法论科学的争论。从统计学的发展史来看,统计学是随着统计方法的不断完善而得以发展的,所以,统计学的性质可以表述为:统计学是一门研究现象总体数量方面的方法论科学。现象包括社会现象和自然现象。,作为一门方法论科学,统计学在其研究对象及内容上具有以下特点:(一) 适用的对象极为广泛(二) 研究的重心集中突出我们又可以对统计学的研究对象定义如下:统计学的研究对象是社会经济现象及自然现象的数量方面,即现象的数量表现、数量关系和数量界限的择定。,三、 统计学的研究方法统计学研究对象的性质和特点,决定着统计学的研究方法。统计学研究的基本方法为:大量观察法、统计分组法、综合指标法。(一) 大量观察法所谓大量观察法就是指对所要研究的事物的全部或足够数量进行观察的方法。,(二) 统计分组法统计分组法是根据统计研究的目的和任务,将调查得到的大量统计资料,按照一定的标志划分为若干个不同性质的类型或不同类型的组,使组内的单位具有相对的同质性,组间的单位具有明显的差异性,以揭示现象内部各部分之间的差异,从而达到正确运用统计指标来表明事物本质与规律性的目的。,(三) 综合指标法综合指标法是指统计是一种通过统计指标来研究和说明现象总体的综合数量特征的方法。统计资料的搜集、整理、分析是通过统计指标这一特有形式来完成的。任何一项具体的社会经济现象,最终都可以归入某项指标范畴。,第二节 统计学中的基本概念,一、 统计总体和总体单位(一) 统计总体统计总体即统计研究的具体对象,它是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体,简称总体。统计总体的一个重要特征是同质性,它是构成总体的必要条件。,1.统计总体的特点统计总体具有以下特点:(1)大量性(2)同质性(3)差异性,2.统计总体的类型统计总体按总体包含的单位数是否有限分为有限总体和无限总体。所谓有限总体,指的是一个总体所包含的单位数是能够用计数的方法获得的,是有限的。所谓无限总体,指的是一个统计总体中所包含的单位数是无法用计数的方法取得的,是无限的。,(二) 总体单位构成统计总体的每个单位叫总体单位,它是各项统计资料最原始的承担者。统计总体与总体单位会随着研究目的的不同而发生变化。例如,在研究某地上市公司的情况下,该地的所有上市公司所构成的整体是统计总体,每家上市公司就成为总体单位,但是,我们一旦改变研究目的,把该地某家上市公司作为研究目标时,这家上市公司就成为新问题中的统计总体了。,二、 标志和指标(一) 标志标志是总体单位所具有的属性和特征的名称。每个总体单位从不同的角度和要求进行观察,可以有多个属性和特征。按说明现象的性质不同,标志可以分为品质标志和数量标志。标志若以属性上的差异来表示,称为品质标志。品质标志反映了总体单位的品质属性。若以数量上的多少来表示,称为数量标志。,(二) 统计指标统计指标是反映同类社会经济现象某种综合数量特征的范畴,它表明现象总体在具体的时间、地点和条件下的综合数量表现,即说明总体的特征。统计指标一般由指标名称和指标数值两部分组成。指标名称反映现象所属的一定的社会或经济范畴,指标数值反映现象在具体环境下达到的规模、水平及比例关系。,1. 统计指标的特点统计指标一般具有三个特点:(1) 数量性。统计指标都是用数量表示的。(2) 综合性。统计指标是总体单位同质数量综合的结果。(3) 具体性。统计指标是现象在不同时间、地点、条件下的具体反映。,2.统计指标的分类统计指标可以按其研究目的从不同角度进行分类。(1) 统计指标按其作用和计算方法不同分为总量指标、相对指标和平均指标。总量指标是反映社会经济现象总体总规模和总水平的统计指标,它是各总体单位标志值直接汇总或直接计量的结果,用绝对数表示,所以也称绝对指标。其指标数值大小受总体规模大小影响。,相对指标是反映社会经济现象总体相对水平的统计指标,它是由两个有联系的统计指标对比计算的相对数,其表现形式为无名数和复合单位。相对指标的基本形式为:相对指标=比数/基数常用的相对指标有计划完成程度相对指标、结构相对指标、比例相对指标、比较相对指标、动态相对指标和强度相对指标共六种。,它们的基本公式为:计划完成程度相对数=实际完成数/同期计划数100%结构相对数=总体中某部分数值/总体全部数值100%比例相对数=总体中某一部分数值/总体中另一部分数值比较相对数=某一空间的指标数值/另一空间的同一指标数值动态相对数=报告期数值/基期数值100%,强度相对数=某一指标数值/另一有联系的不同指标数值平均指标是反映社会经济现象某一方面一般水平的统计指标,它是总体单位总量与总体标志总量对比计算的平均数,其基本公式为:平均指标=总体标志总量/总体单位总量,(2) 统计指标按其反映的时间特点不同,可分为时点指标和时期指标。(3) 统计指标按其计量单位的特点,可分为实物指标和价值指标。(4) 统计指标按其反映总体特征的不同,可分为数量指标和质量指标。,(三) 指标与标志的关系1.指标与标志的区别(1) 指标是说明总体特征的,而标志是说明总体单位特征的。(2) 标志有不能用数值表示的品质标志,而指标都是用数值表示的。数量指标用绝对数表示,质量指标用相对数或平均数表示。,2.指标与标志的联系(1) 指标数值均是由总体单位的数量标志值汇总而来的。(2) 指标与数量标志存在一定的变换关系。随着研究目的的变化,总体和总体单位发生相互转化,由此,指标和标志也会发生相应的相互转化。,三、 指标体系(一) 指标体系的概念指标体系是指一系列相互联系、相互制约、相互补充的指标组合成的整体。它可以全方位、多侧面地反映现象总体的数量特征。,(二) 指标体系的表示形式指标体系反映的是被研究现象之间的一种依存关系。被研究现象的联系是多种多样的,指标体系的表现形式也应多元化。但从指标数值、数量依存关系的角度出发,指标体系一般可用以下两种数学形式表示:(1) 指标体系数值=各个相关指标数值之和(2) 指标体系数值=各个相关指标数值之积,(三) 指标体系的分类1.宏观指标体系和微观指标体系2.国民经济指标体系、社会指标体系和科学技术指标体系3.基本指标体系和专题指标体系,(四) 建立指标体系的基本要求建立一套完整、科学的指标体系,要符合以下几个基本要求:1.指标体系的目的要明确,中心要突出2.指标体系的内容要全面,层次要清楚3.指标体系的方法要可行,具有可操作性,第二章 统计资料的搜集和整理,新世纪财经系列教科书,本章概述,1,2,4,第一节统计资料的搜集,第二节统计整理,第一节 统计资料的搜集,一、 统计资料搜集方案统计资料的搜集也称统计调查,它是根据统计研究的目的,采用科学的方法,有组织有计划地搜集统计资料的过程。统计资料可分为两种类型:一是初级资料(又称原始资料),是反映各调查单位特征的个体资料;另一是次级资料,是经过加工整理并已公布的统计资料。,一个完整的统计资料搜集方案包括以下几个方面:(一) 确定调查目的(二) 确定调查对象和调查单位(三) 确定调查项目和调查表调查项目就是统计调查的内容。在确定了统计调查项目的基础上必须设计调查表。调查表是将调查项目按一定顺序排列所形成的一种表式,它是统计调查的重要工具。,调查表一般有两种格式。1.单一表单一表也称卡片。一份单一表只登记一个调查单位。其特点是可容纳较多的调查项目。2.一览表一览表是一份表格要登记若干个调查单位的调查表。其特点是简明扼要。,(四) 确定调查时间确定调查时间有两种含义:第一,确定资料所属的时点和时期。第二,规定调查工作期限。(五) 调查的组织实施为确保统计资料搜集工作的顺利进行,在统计资料搜集方案中必须包括调查的组织实施计划。,二、 统计资料的搜集方法统计资料的搜集方法主要有以下几种:(一) 直接观察法(二) 访问法(三) 报告法(四) 问卷法,三、 统计资料搜集的组织方式统计资料搜集的组织方式有两类:一类是统计报表;另一类是专门调查。统计报表是我国定期取得国民经济基本统计资料的基本组织方式。专门调查分为(一) 普查(二) 重点调查(三) 抽样调查,四、 统计资料的审核为了保证统计资料的准确、及时、全面、系统,在整理统计资料以前,必须对搜集到的资料进行审核。审核主要包括完整性审核和逻辑性审核。完整性审核包括调查对象中每一个调查单位是否齐全;所有被调查单位的资料是否完整;报送单位、日期等是否全部正确无误。,第二节 统计整理,通过统计调查能搜集到大量的原始资料和次级资料。其中原始资料是个别的、分散的,只能反映总体中各单位的具体情况,而不能反映总体的综合数量特征,达不到认识总体的目的。因此,在统计分析之前,需要对原始资料进行整理。,一、 统计分组的概念统计分组是根据统计研究目的,将总体按一定标志区分为不同类型或不同性质的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征。,统计分组的作用是:(1) 划分现象的类型,并反映各类型组的数量特征。(2) 说明现象的内部结构。即经过分组以后,就可以计算各组在总体中所占的比重,以反映总体内部结构的变化及其规律性。(3) 揭示现象之间的相互依存关系,也就是说按照研究现象的有关标志来分组可以分析某个因素对另一因素的影响程度和因果关系。,二、 统计分组标志的选择统计分组的关键是分组标志和划分各组的界限。所谓分组标志,就是进行统计分组时所依据的标准。分组标志的选择在统计分组中占有很重要的地位。统计分组标志有品质标志和数量标志两种。(一) 按品质标志分组(二) 按数量标志分组,三、 统计分组体系分组标志可以是一个也可以是几个。用一个分组标志来划分总体的特征往往是不够的,有时更需要用一系列的分组标志来说明。所谓分组体系就是采用一系列相互联系、相互补充的标志进行多种分组,构成体系。(一) 平行分组体系(二) 复合分组体系,四、 分布数列(一) 分布数列的概念分布数列是指在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列,形成总体单位在各组的分布的数列。分布数列有两个基本要素构成:一是标志的具体表现所形成的组;二是分布在各组的单位数,即次数或频数。各组次数与总次数之比称频率,又称比重。,根据分组标志的特征的不同,分布数列可分为品质数列和变量数列两种。1. 品质数列品质数列是指按品质标志分组形成的、用以反映现象总体的属性分布状况的数列。2. 变量数列变量数列是指按数量标志分组形成的,用以反映现象总体的某一数量分布状况的数列。,变量数列按照用以分组的变量的表现形式,可以分为单项式变量数列和组距式变量数列两种。1. 单项式变量数列它是指变量数列中的每个组只用一个变量值表示。2 组距式变量数列它是指变量数列的每个组用一定范围或距离的两个变量值表示。,(二) 分布数列的编制1.确定变量数列的形式2.组距式变量数列编制方法(1) 计算全距。(2) 确定组数。(3) 确定组距。(4) 确定组限。(5) 计算组中值。,五、 统计表统计表是统计资料最常用的表达形式。将统计工作过程中所取得的各种数字资料,经过汇总整理后,按一定的项目和顺序填列在一定表格内,这种表格就称为统计表。,统计表的结构可以从表的形式和内容两方面表述。(一) 统计表的形式1.总标题2.横行标题3.纵栏标题4.数字资料,(二) 统计表的内容1.主词主词是统计表所要说明的对象,包括总体单位的名称或总体的分组等。主词一般安排在统计表的左端。2.宾词宾词是用来说明主词的各种统计指标的。宾词一般安排在统计表的右端。主词和宾词有时为了合理编排,也可以互换位置。,(三) 统计表的种类1.简单表简单表是指主词不经过任何统计分组,将总体单位依次序或将现象按时间顺序排列的统计表。2.分组表分组表是指主词按某一标志分组并按一定顺序排列所形成的统计表。3.复合表复合表是指主词同时按两个或两个以上标志分组并按一定顺序排列所形成的统计表。,(四) 统计表的设计统计表上下两端以粗线或双线绘制,称为上基线和下基线,其他线一般用细直线。统计表左右两端不封口。统计表中各主词项目之间、各宾词项目之间的顺序应该根据时间的先后、数量的大小、空间的位置、指标之间的逻辑顺序等合理编排。各横行需要合计时,一般将“合计”列在最后一行;各纵栏需要合计时,一般将“合计”列在第一栏。,六、 频数图统计图是统计资料的另一种常用的表达方式,它比统计表更直观、更鲜明、更生动。它是用几何图形、物体形象或地图来表示统计资料以说明现象的数量关系的图形。(一) 直方图(二) 折线图,(三)曲线图曲线图是在变量值增多及变量数列的组数增多时,对折线图的极限描绘,是一种理论曲线,也是连续变量的频数或频率分布的函数关系图。1.单峰不对称分布图2.单峰对称分布图3.J型分布图,第三章 集中趋势和离散趋势,新世纪财经系列教科书,本章概述,1,2,4,第一节集中趋势,第二节离散趋势,3,第三节偏态,第一节 集中趋势,统计调查取得的统计数据,经过排序和分组整理后,数据的类型和分布特点已得到初步的反映。为了进一步掌握数据分布特征的变化规律,有必要对其进行进一步的讨论及研究。在统计学中,对数据的研究方法有统计描述和统计推断两种。本章将进一步讨论统计描述内容中的集中趋势和离散趋势。,一、 平均数的概念及计算方法平均数,亦称集中趋势,是指用特定的方法所计算的一组数据的代表值。它是所有数据的中心点,反映了一组数据向某一中心值靠拢的倾向。第一, 在一个总体内计算的平均数,将总体各单位某一数量标志值之间的差异抽象化了。第二, 平均数用一个代表数值来说明被研究对象某个方面的一般水平。,(一) 算术平均数算术平均数,亦称均值。它是全部数据的算术平均,是集中趋势的最主要测度值。算术平均数在统计学中具有重要地位。根据掌握的资料条件不同,算术平均数又可以分为以下几种。,1.简单算术平均数将未分组的各变量值(标志值)相加,除以项数(标志值个数),就得到简单算术平均数。设总体数据为x1, x2,xn,则总体均值x的计算公式为:式中 表示总体均值;x表示总体各变量值;n表示总体变量值个数;表示求和符号。,2.加权算术平均数统计资料经过分组就形成了变量数列,对已分组的变量数列求平均数,就应采用加权平均方法。设原始数据被分成K组,各组的变量值为x1 ,x2,,xk , 各组变量值出现的频数(权数)为 f1,f2,fk。,则总体的加权算术平均数的计算公式为:式中 表示总体加权算术平均数;x表示总体各变量值;f表示总体中各组变量值出现的次数。,(1) 根据单项数列计算加权算术平均数。这可以直接利用上式计算。(2) 根据组距数列计算加权算术平均数。其方法基本同上,所不同的是,在组距数列中要用组中值代表各组的变量值参加计算。,(3) 根据相对权数计算加权算术平均数。加权算术平均数的权数可以有两种表现形式:绝对权数和相对权数(即频数和频率)。两种权数虽表现形式不同,但其本质无异,在同样资料条件下,计算结果应该一致。设以f/f即频率为权数,其计算公式为:(详见P36),3. 加权算术平均数与简单算术平均数的关系简单算术平均数的大小只与变量值的大小有关,加权算术平均数的大小不仅与各组变量值大小有关,而且受各组变量值出现的次数(权数)大小的影响。权数愈大,其对应的变量值对算术平均数的影响愈大;反之,则愈小,权数的大小对算术平均数的大小起着权衡轻重的作用。只有当各组的权数完全相等时,加权算术平均数才等于简单算术平均数。,4. 算术平均数的数学性质(1)各变量值与其算术平均数的离差之和等于零,即(x-X)=0(2)各变量值与其算术平均数的离差平方之和为最小,即(x-X)2为最小值,(二) 调和平均数调和平均数是根据变量值倒数计算的一种算术平均数,也称倒数平均数。调和平均数根据资料的不同,分为简单调和平均数和加权调和平均数。,1. 简单调和平均数简单调和平均数往往是根据未分组资料计算的。其公式为:式中Xh表示简单调和平均数;x表示各变量值;n表示变量值个数。,2.加权调和平均数加权调和平均数是根据分组资料计算的。其公式为:式中Xh表示加权调和平均数;x表示各组变量值;f表示各组变量值所出现的次数;n表示各组变量值次数之和。,(三) 几何平均数几何平均数是n个变量值连乘积的n次方根,根据所依据的资料不同,也可分为简单几何平均数和加权几何平均数。计算公式为:1.简单几何平均数式中 表示几何平均数;x表示各变量值;n表示变量值个数;表示连乘符号。,(四) 中位数将总体各单位的某一变量值按大小顺序排列,位于中间位置上的变量值即为中位数。显然,中位数将全部数据等分成两部分:一部分数据比中位数大,一部分数据比中位数小。从这个意义上说,中位数以其居中的位置,代表了经济现象某一方面的一般水平。依据资料的不同,中位数的计算,可以有两种不同的方法。,1. 未分组资料在未分组资料条件下,中位数的计算,关键在于确定中位数的位置,其公式为:中位数位置=(n+1)/2(n为数据的项数)。找到中位数位置后,就能方便地确定中位数的具体数值。,设一组数据x1,x2,xn,从小到大排序后为x(1),x(2),x(n)若n为奇数,则中位数为若n为偶数,则中位数为,2. 分组资料分组资料条下,中位数的计算,仍要先确定中位数的位置,即确定中位数所在的组,然后,用下限公式求出中位数的近似值。式中Me为中位数;n为数据个数;L为中位数所在组的下限;Sm-1为中位数所在组以前各组的累积频数;f为中位数所在组的频数;i为中位数所在组的组距。,(五) 众数众数是指总体中出现次数最多的变量值,它能够鲜明地反映数据分布的集中趋势。一组数据分布的最高峰点所对应的变量值即为众数。在商业活动中,众数应用较为普遍。依据资料的不同,众数的计算可以有两种不同的方法。1. 未分组资料在未分组资料条件下,只要用目测法找出次数最多的变量值即找到众数。,2. 分组资料在分组资料条件下,也要先确定众数所在的组,然后用下限公式计算众数的估计值。式中M0为众数;L为众数组下限;d1为众数组次数与上一组次数之差;d2为众数组次数与下一组次数之差;i为众数组的组距。,3. 众数、中位数与算术平均数的关系众数、中位数和算术平均数作为反映被研究现象集中趋势的三个主要测度值,既可以从它们的内在联系上进行相互推算,也可利用三者的关系,说明现象的分布特征。(1) 运用众数、中位数、算术平均数三者关系判断现象的数量分布特征。众数是一组数据分布的峰值,中位数是一组数据中间位置的代表值,算术平均数是全部数据的平均数。,因此,不难看出:当数据呈对称分布时, 算术平均数、 中位数、 众数必定相等,即有X=Me=M0;当数据呈左偏分布时, 算术平均数小于中位数且小于众数,即有XMeM0;当数据呈右偏分布时,算术平均数大于中位数且大于众数, 即有XMeM0。,(2) 利用上述三者关系进行推断。从经验看,在数据分布偏斜程度不大的情况下,不论左偏或右偏、算术平均数、中位数、 众数存在一定的比例关系:若把众数与算术平均数之间的距离作为1,则中位数与算术平均数的距离为1/3,中位数与众数之间的距离为2/3。由此,可以得到推算公式如下:M0=X-3(X-Me)=3Me-2X,第二节 离散趋势,现象的离散趋势是指总体中某一数量标志的变动范围和分散程度。反映现象离散趋势的统计指标为标志变异指标。,一、 标志变异指标的概念及作用平均数将总体各单位变量值的差异抽象化,通过一个代表数值,反映了总体的一般水平及分布的集中趋势。但集中趋势只从一个侧面说明了数据的分布特征,各变量值之间的差异程度如何,各变量值远离其平均数的程度如何,需要我们从另一个侧面,即数据的离散程度方面来进一步讨论数据的分布特征。,测定离散趋势的指标就叫做标志变异指标,也称标志变动度。标志变异指标在统计分析中的作用有:(1) 可以衡量平均数的代表性。(2) 可以考察现象发展的均衡性和节奏性。,二、 标志变异指标的计算常用的标志变异指标有极差、平均差、方差和标准差及标准差系数等。(一) 极差极差也称全距,它是一组数据的最大值与最小值之差。在组距式数列中,级差是最高组上限与最低组下限之差。极差是最简单的标志变异指标。用公式表示为:R=xmax-xmin式中R表示极差;xmax与xmin分别表示数据的最大值和最小值。,(二) 平均差平均差(A.D.)是各标志值与其算术平均数离差的平均数。由于各标志值与其算术平均数离差总和等于零,因此,要用离差的绝对值来计算平均差。用公式表示为:1.在未分组资料情况下,2.在分组资料情况下式中A.D.表示平均差;表示算术平均数;n表示总体单位数;f表示各组比变量值出现的次数。,(三) 方差和标准差方差是各变量值与其算术平均数离差平方的平均数。标准差是总体各单位变量值与其算术平均数离差平方平均数的平方根,也称均方差,它是方差的平方根。设总体方差为2,对未分组数据,总体方差的计算公式为:,对分组数据,总体方差的计算公式为:设总体的标准差为,对未分组数据,总体标准差的计算公式为:对分组数据,总体标准差的计算公式为:,(四) 离散系数极差、平均差、标准差都是反映标志变异程度有计量单位的绝对数指标,总体和样本的标志变异程度除了受变量值之间的离散程度影响外,还受变量值本身水平高低的影响,因此,在比较不同总体和样本的标志变异程度时,应消除由于变量值水平不同或计量单位不同带来的影响。在统计工作中,用离散系数来比较不同总体的平均数和不同样本的平均数的代表性。,常用的离散系数主要有标准差系数,也称均方差系数。它是一组数据的标准差与其相应的算术平均数之比,其计算公式为:离散系数主要是用于不同总体数据的离散程度的比较。离散系数大,说明该组数据的离散程度大; 离散系数小,说明该组数据的离散程度也就小。,第三节 偏态,我们已讨论了数据的对称分布及偏态分布的判别标准,即当一组数据中,X=Me=M0我们称数据为对称分布;当一组数据中,XMeM0我们称数据为右偏分布;当一组数据中,XMeM0我们称数据为左偏分布。,有时,同为右偏分布或左偏分布的两组数据,需比较偏态程度的大小,可运用皮尔逊偏度系数来测定偏态程度的大小。式中Sk为皮尔逊偏态系数;x为总体平均数或样本平均数;Me为总体中位数或样本中位数;s为样本标准差。,偏态系数的取值范围一般介于+3与-3之间当Sk=0时,表明数据为对称分布;当Sk0时,表明数据为右偏分布;当Sk 0时,表明数据为左偏分布。,第四章 概率与概率分布,新世纪财经系列教科书,本章概述,1,2,4,第一节概率的基本涵义,第二节离散型随机变量的概率分布,3,第三节连续型随机变量的概率分布,第一节 概率的基本涵义,一、 随机事件为了认识人类社会和自然界的各种运动规律,人们必须进行各种各样的科学实验。在这些科学实验中往往会出现两种现象:一类是确定性现象;另一类是随机现象。对同一个研究对象,经过多次观察和试验,其结果是确定的,我们称这类现象为确定性现象。,与上述相反,在众多的观察和实验中,我们常常会遇到这样的情况:在相同的试验条件下,对同一个研究对象反复地进行多次观察和试验,所得到的结果竟是不确定的,我们称这类现象为随机现象。,二、 概率的涵义和性质概率一词是与“随机事件”相联系的。如前所述,在一定的条件下进行某项试验,某事件A可能发生,也可能不发生,则事件A就称作随机事件。从理论上说,概率就是用来衡量随机事件在某一次试验中发生的可能性的大小的。为了完整地理解概率的涵义,先解释一个概念频率。,对随机现象进行了n次试验,其中,事件A出现了m次,则比值m/n称为n次试验中事件A出现的频率,记作W(A),即W(A)=m/n。那么,频率和概率有什么关系呢?我们知道,随机事件在某次试验中可以发生或不发生,但经过大量的无数次的试验后,它会呈现明显的规律性,即其频率趋于稳定。,这个频率的稳定值就可以看成是近似的概率。由此,可以给出概率的定义:随着随机试验次数n的增加,事件A出现的频率m/n稳定在某个常数P,则事件A的概率记作:P(A)=P,对任一随机事件A,其概率总是介于01之间的数,即有:0P(A)1当P(A)=0时,表示出现事件A的可能性等于零,也就是说,事件A是不可能事件;当P(A)=1时,表示有100%的可能性出现事件A,即事件A是必然事件。,三、 概率的基本运算(一) 概率的加法公式当我们有两个事件A和B,并且希望知道事件A或事件B或者两者都发生的概率时,必须使用加法公式。在讲述加法公式之前,我们先要了解事件的并和事件的交两个概念。事件A和事件B的并是指所有属于A或B同时属于二者的基本事件中至少有一件发生。记作AB。,事件A和事件B的交是指由事件A和事件B共同组成的基本事件。记作AB。则概率的加法公式可以表示为:P(AB)=P(A)+P(B)-P(AB)若事件A和事件B没有公共的基本事件,则称事件A与事件B互斥。互斥事件的加法公式为:P(AB)=P(A)+P(B),(二) 条件概率当我们知道事件B已经发生的概率的条件下,再要求得事件A发生的概率时,这种概率我们称为条件概率,记作P(A|B)。其计算公式为:P(A|B)=P(AB)/P(B)(三) 贝叶斯定理P(A1|B)=P(A1)P(B|A1)/P(A1)P(B|A1)+P(A2)P(B|A2)P(A2|B)=P(A2)P(B|A2)/P(A1)P(B|A1)+P(A2)P(B|A2),第二节 离散型随机变量的概率 分布,一、 随机变量在我们所进行的各种各样的随机试验中,其试验结果都是不确定的,可能是数值,也可能是用定性表示的。我们用X表示在随机试验中所发生的每一种试验结果。由于试验结果的不确定性,所以称X为随机变量。,随机变量在试验中可取得的值分为两类: 一类是在试验中可以取得有限个或可列举的数值,称为离散型随机变量;另一类是在试验中其结果可以取得某一区间内的任何数值,称为连续型随机变量。,二、 离散型随机变量的概率分布经过以上论述,可以知道随机变量X的可能取值以及可能的取值范围。但是,如果要掌握X的统计分布规律,仅仅知道随机变量可能取哪些值是不够的,而更应该知道取这些值的概率是多少。每一个随机变量都有一个概率分布。所谓概率分布,就是用图形或公式来描述随机变量的可能取值及其所对应的概率。,若变量是离散型变量,假设随机变量X的可能取值为x1,x2,xn,而取这些值的概率分别为P(x1),P(x2),P(xn),则可以列出如表4-2所示的概率分布表其中所有的概率应满足等式:P(xi)=1(i=1,2,n),离散型随机变量的分布函数是:F(x)也称为随机变量X的累积概率分布。,三、 二项分布在实际问题中,许多随机实验只有两种结果:成功或者失败。进行这种随机实验称为贝努里试验。如果在相同条件下进行n次贝努里试验,则称为二项试验。,一个二项试验具有以下四个性质:(1) 试验由一个包括n次相同的试验序列组成。(2) 每次试验有两种可能结果,一个成功,一个失败。(3) 成功的概率用P表示,失败的概率用(1-P)表示。成功和失败的概率在每次试验中都相同。(4) 每次试验都是独立的。,二项分布的概率函数是:其中: P是参数(即成功的概率),00;x是成功的次数,x=1,2,n。,四、 泊松分布泊松分布是离散型分布中另一种重要分布,它主要研究在特定时间或特定空间某一随机事件出现的次数。泊松分布的概率函数是:其中是参数(=np),00,且以X为渐近线。(3) X的取值范围是整个X,-x,也即-f(x)dx=1。(4) 越大,曲线越平缓;越小,曲线越陡峭。,正态分布的分布函数为:标准正态分布就是指=0,=1时的正态分布,其密度函数为:,F(x)是x的正态分布函数,要计算F(x)的数值时,只需要查标准正态分布表即可。而对于具有任意平均数和标准差的正态分布时,我们可以通过将其转换成标准正态分布来计算其概率问题,其转换公式为:,第五章 抽样估计,新世纪财经系列教科书,本章概述,1,2,4,第一节抽样估计中的基本概念,第二节抽样和样本分布,3,第三节总体指标估计,第一节 抽样估计中的基本概念,一、 抽样估计抽样估计又称为抽样推断,它是在抽样调查的基础上所进行的数据推算,即用抽样调查所得到的一部分单位的数量特征来估计和推算总体的数量特征。抽样估计是对总体进行描述的另一种重要方法。它具有花费小、适用性强、科学性高等特点。因此,国内外在许多领域都广泛地运用抽样推断来搜集和分析统计资料。,二、 全及总体和样本总体从统计调查的范围来看,我们通常将所研究对象的全体称为全及总体,简称为总体。从全及总体中抽取一部分单位所构成的总体称为抽样总体,又称为样本。抽样估计就是用样本的数量特征来估计总体的数量特征。一般来说,全及总体的单位数用N表示,抽样总体的单位数用n表示。当研究目的一旦确定,全及总体也就相应确定,而从全及总体中抽取的抽样总体则是不确定的。,三、 全及指标和样本指标统计是通过统计指标达到对总体的认识的。根据全及总体计算的综合指标称为全及指标。它可以有全及平均数(用 表示)、全及成数(用P表示)、全及方差(用2表示)。根据样本总体计算的综合指标称为抽样指标即样本指标。同样,样本平均数用表示,样本成数用p表示,样本方差用S2表示。在抽样估计中,全及指标是固定的量,而样本指标则是随机变量。,第二节 抽样和样本分布,一、 样本单位的抽选方法样本就是从总体中抽取一部分单位所构成的总体。选择样本的基本要求是样本应该对总体具有代表性。但不同的选样方法所抽取的样本对总体的代表性有着直接的影响。,(一) 随机抽样和非随机抽样1. 随机抽样随机抽样是根据随机原则从总体中抽取部分单位构成样本的方法。所谓随机原则就是在抽选单位时,完全排除人的主观意识,其基本要求是保证全及总体中的每一个单位都有确定的不等于零的被抽中概率,某一单位在某次抽样中是否被抽中纯属偶然。,以下介绍几种较常用的随机抽样的组织形式。(1) 简单随机抽样。(2) 分层抽样。(3) 机械抽样。(4) 整群抽样。,2.非随机抽样从上面的讨论中,我们可以看到众多的随机抽样组织方式在实践中得以广泛应用。但是在某些场合,为了某些研究目的的需要,非随机抽样也具有一定的优势。所谓非随机抽样,就是不需要遵守随机原则从总体中抽取单位构成样本。现将几种非随机抽样方式分述如下:(1) 定额抽样。(2) 判断抽样。,(二) 重复抽样和不重复抽样重复抽样就是从总体N个单位中抽取n个单位组成样本,每当抽出一个单位进行计量后,在下一次抽选单位之前将前一次选出的单位放回原总体,这样,在每次抽选样本单位时,全及总体的容量N是不变的。不重复抽样就是当第一个单位抽出以后不再放回原来的总体中,总体单位在每次抽选时是不同的。这种不重复抽样在实际工作中较常采用。,二、 抽样分布(一) 样本平均数的抽样分布在随机抽样的条件下,样本平均数是随机变量,因为从总体中可以抽得多个样本,而每一个样本的平均数是不同的。从概率论和数理统计可以知道,每一个随机变量都有其特定的分布规律。样本平均数的分布规律具有以下特征:,1. 全及总体服从N(,2)分布时(1) 样本平均数x的分布不论样本大小均服从正态分布。(2) 样本平均数的数学期望等于全及总体的平均数 ,即 。(3) 样本平均数的方差2与全及总体的方差2成正比,与样本单位成反比:2=2/n,2.全及总体不服从正态分布时在这种情况下,只要样本容量足够大(样本单位数大于30的大样本),样本平均数x的分布将近似地服从正态分布。,(二) 样本成数的抽样分布成数是全及总体或样本中具有某种特征的单位数的比重,是一个交替标志的结构相对数。所谓交替标志就是对某一标志而言,其标志值的表现为“是”与“否”两种结果。一般将“是”的标志值用“1”表示,“否”的标志值用“0”表示。,三、 抽样误差(一) 抽样误差的含义抽样误差是指因随机抽样而引起的样本结构与总体结构不一致所产生的样本指标与总体指标之间的差异。,在抽样调查中,产生统计误差的原因主要有三方面:1.登记性误差2.系统误差3.随机误差,(二) 抽样平均误差从全及总体中抽取的样本可以是多个的。根据每个样本计算的样本指标也是不确定的,由此计算的样本指标与总体指标之间的误差也就不确定。但在实际抽样中,我们一般只是抽取其中的一个样本。由于总体指标在抽样推断过程中是未知的,因此单一样本指标与总体指标之间的实际抽样误差也是未知的。合理的方法就是计算所有可能的样本指标与总体指标的平均误差。,抽样平均误差就是指所有可能的样本指标与总体指标之间的平均离差,其计算公式为:,式中 分别表示样本平均数和样本成数的抽样平均误差; 分别表示样本平均数和样本成数; 分别表示全及总体平均数和全及总体成数;K表示样本平均数或样本成数的样本个数。,然而,在实际工作中应用上式抽样平均误差的定义公式来计算是不可能的,其理由有两点:(1) 全及指标或P是一个未知量,无法在公式中使用。(2) 在抽样过程中,我们不可能将所有可能的样本个个都抽取,即不可能得到所有样本的平均数或样本成数。,根据数理统计理论,可以得出如下的关系公式。在重复抽样情况下:,在不重复抽样情况下:,式中 分别表示样本平均数的抽样平均误差和样本成数的抽样平均误差;2,P(1-P)分别表示平均数和成数的总体方差;n表示样本容量(样本单位数);N表示全及总体单位数。,第三节 总体指标估计,以上各节我们已经介绍了抽样的方法、抽样的平均误差以及抽样估计的数学基础。本节所讨论的是:如何用样本指标来估计总体指标,以完成抽样推算的最终任务。样本指标对总体指标的推算方法主要有两种:一种是点估计;另一种是区间估计。,一、 点估计点估计也称定值估计,它是用样本指标值直接作为总体指标的估计值,就是用样本平均数直接估计总体平均数,即 ;用样本成数直接估计总体成数,即p=P。用定值估计,在计算了样本指标以后,总体指标的估计值也随之得知。它是一种简单方便的估计方法,一般适用于对抽样估计的精度要求不高,或样本容量很大的情况。然而,在抽样实践中,而更多的是使用区间估计。,二、 区间估计区间估计就是运用样本指标、抽样误差和概率所构成的区间以估计总体指标存在的可能范围。在统计抽样中,区间估计被广泛使用。,如前所述,若全及总体服从正态分布,则样本平均数也服从正态分布, 。样本平均数落在以总体平均数为中心的一定范围以内,可以根据样本平均数标准差来估计样本平均数的离散范围,且离散范围可用一定的概率表示。,三、 区间估计的必要样本单位数的确定(一) 确定抽样单位数的依据在组织抽样调查时,抽多少单位组成样本是一个十分重要的问题。若抽取单位数过多,抽样误差会小一些,但所需费用会很高;若抽取的单位数过少,则会引起抽样误差偏大,用样本指标推算总体指标的精确度就会减少。因此,如何恰到好处地抽选必要的单位数,是在抽样以前所必须解决的问题。,第一,样本单位数多少决定于总体标志变动度的大小。若总体标志变动度较大,说明总体各单位的差异较大,标志值分布不够均匀,为了减少抽样误差,则需要抽取较多的单位组成样本;若总体标志变动度较小,则说明总体各单位的差异较少,可以抽取较少的单位组成样本。,第二,抽样组织方式不同也会影响抽取样本单位数的多少。一般来说,分层抽样和按有关标志排队的等距抽样的抽样单位数小于纯随机抽样,不重复抽样的抽样单位数小于重复抽样的单位数。除了以上两个主要因素以外,若抽样精度要求较高,则也需要抽取较多的单位数。当然,抽样所涉及的时间、地点和条件不同,也会影响必要的抽样单位数的确定。,(二) 必要抽样单位数的计算公式要确定必要的抽样单位数,抽样误差必须事先确定。从前面的讨论中我们知道,样本指标是一个随机变量,它与全及指标之差就是抽样误差,这个抽样误差可以是一个正离差,也可以是一个负离差。于是,样本指标与全及指标之间就有个误差范围的问题。,统计上,在用样本指标估计总体指标时,将这个误差范围称为极限误差范围;而在确定必要抽样单位数时则称其为允许误差范围。用x,p分别表示样本平均数和样本成数的极限误差范围,则,由于x,p是随机变量,它和与根据计算所确定的抽样平均误差 的关系可表示为:分别用重复抽样和不重复抽样的抽样平均误差 代入上式,就可以得到必要抽样单位数的计算公式。,重复抽样必要单位数的计算公式为:,不重复抽样必要单位数的计算公式为:,第六章 假设检验,新世纪财经系列教科书,本章概述,1,2,第一节假设检验的基本概念,第二节假设检验,第一节 假设检验的基本概念,假设检验是在以某一总体指标作为假设的前提下进行的。例如,对某批产品抽样所得的每件平均重量是480克,而每件标准重量应是500克,那么其产品重量是否在合格范围内呢?这就是假设检验问题。下面介绍一些假设检验的基本概念。,一、 总体的自然状态总体是统计研究的基本出发点。在一定条件下总体所表现的特征即为总体的自然状态或称为可能状态,可用W来表示。当条件发生变化时,其自然状态也会发生变化,但不管怎样,总体自然状态可以表现为两种:一是真实自然状态,用W1表示;二是非真实的自然状态,用W2表示。对总体指标的假设正是基于总体的自然状态。,二、 总体指标的假设对总体指标提出假设,一般同时包括两个部分,即原假设和替代假设。原假设又称虚无假设或零假设,是我们要检验的假设,用H0表示;替代假设又称对立假设或备择假设,是当原假设被否定时即可成立的假设,用H1表示。原假设和替代假设是相互对立的。若接受原假设H0,则否定替代假设H1;若否定原假设H0,则接受替代假设H1。,三、 两类错误如果原假设H0是真实的,而观察值却为x1,因为x1的点已落入临界区域,故拒受原假设H0。显然这样的判断是错误的,即将总体真实的自然状态检验为总体的非真实自然状态。这类错误我们称之为第一类错误(错误)。,另一种情况是:如果实际上替代假设H1是真实的,而观察值没有超过1,于是接受原假设H0。这个判断也是错误的,即将非真实的自然状态检验为真实的自然状态,这类错误称为第二类错误(错误),四、 检验统计量由样本所构造的随机变量称为统计量。所有的样本指标都可以称作统计量。在假设检验中,我们根据样本的数据,计算出相应的检验统计量,从而判断接受还是拒受参数的假设。检验统计量的基本形式可表示为:检验统计量样本统计量-参数假设值/统计量的标准差,假设检验的基本过程为:(1) 根据要求,提出原假设H0和替代假设H1,在检验进行中,假设H0是真实的。(2) 选定合适的检验统计量。(3) 决定显著性水平,常取0.05或0.01。,(4) 根据显著性水平确定统计量的临界区域,同时注意是双边检验还是单边检验。(5) 根据计算的统计量及所确定的显著水平作出决策,如果统计量的值落在临界区域,说明原假设和样本描述的情况有显著差异,应该否定原假设;如果统计量的值落在非临界区域(接受区域内),说明样本和原假设的值差异不显著。,第二节 假设检验,一、 总体平均数的假设检验总体平均数的假设检验就假设提出的不同可以分为单边检验和双边检验。其检验统计量的选择取决于总体分布的特征及样本单位数的多少。现分述如下:,(一) 总体为正态分布且方差已知1.双边检验2.单边检验(二) 总体为正态分布但方差未知当总体标准差未知时,不能直接运用Z统计量进行检验。这时用样本标准差S来估计总体标准差,于是得到新的统计量t。,(三)总体为非正态分布(四) 两总体平均数之差的假设检验在各门学科中经常遇到的问题之一,是把一个试验的结果与控制的目标进行比较,以观察试验是否产生了有意义的结果。解决这种问题的一个方法是:检验被试验的两个总体的平均值是否在本质上相同。当两个总体均为正态分布或近似正态分布, 且两总体的方差 为已知, 表示两总体的平均数。,则可用统计量Z进行检验:,二、 总体成数的假设检验(一) 单一总体成数的假设检验上一章我们讨论了平均数的分布及成数p的分布。一般来说,在大样本情况下,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汉字的笔画笔顺课件
- 云南省曲靖市民族中学2024-2025学年高一上学期期中检测物理试卷(含解析)
- 内蒙古自治区巴彦淖尔市杭锦后旗2024-2025学年八年级上学期9月月考数学试卷(含答案)
- 《微积分中的真善美》(视频课)知到智慧树答案
- 平凡中演讲稿
- 店面承包合同(10篇)
- 2025食品原料采购合同
- 汉字书法演变课件
- 2025年新型便携式温、湿、风向风速仪项目规划申请报告范样
- 2024年秋新北师大版数学一年级上册教学课件 第二单元 5以内数加与减 第1课时 一共有多少
- 锁骨骨折的护理课件
- 《物业管理法规》课件
- 2024华为干部管理资料第7版
- 《复活》(节选)列夫托尔斯泰-精讲课件
- (完整版)投标文件范本(格式)
- 中国风肺胀中医护理方案
- GB/T 10433-2024紧固件电弧螺柱焊用螺柱和瓷环
- 2024年样板注塑机转让合同范本
- 医院耗材供货服务方案
- 丹江口事业单位笔试真题2024
- 云南大学附属中学数学2023-2024学年七年级上学期开学分班考试数学试题
评论
0/150
提交评论