




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学原理
主讲人:林则宏
第一章绪论
第一节统计学的产生与发展
第二节统计学的性质与特点***
第三节统计学的几个基本概念***
第四节统计学与其他学科的关系
课堂练习
第一节统计学的产生与发展
-统计活动的产生与发展
二统计学的产生与发展
统计活动的产生与发展
1、统计活动在我国的产生与发展
2、统计活动在国外的产生与发展
统计学的产生与发展
一萌芽期(17中叶一18末)
1、国势学派代表人物:康令、阿亨瓦尔
2、政治算术学派代表人物:配第、格朗特
统计学的产生与发展
二近代期(18末一19末)
1、数理统计学派代表人物:拉普拉斯、凯特勒
2、社会统计学派代表人物:恩格尔、梅尔
一、统计与统计学的涵义
什么是统计?
1.统计工作
收集、整理、分析、推断数据的活动
2.统计资料
统计工作的结果。
3.统计学
分析数据的方法与技术
一、统计与统计学的涵义
1.数据搜集:例如,调查与试验
2.数据整理:例如,分组
3.数据展示:例如,图和表
•数据分析:例如,回归分析
二、统计研究对象的特点
1、数量性2、总体性3、具体性4、变异性
三、统计数据的内在规律
(一些例子)
・正常条件下新生婴儿的性别比为107:100
•投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1〜6点的频率各为
1/6
•农作物的产量与施肥量之间存在相关关系
四、统计学的应用领域
应用统计的领域
应用统计的领域(续)
统计学的分科
描述统计
•内容搜集数据整理数据分析数据展示数据
•目的描述数据特征找出数据的基本规律
推断统计
•内容参数估计假设检验
•目的
■对总体特征作出推断
描述统计与推断统计的关系
理论统计与应用统计
・理论统计
■研究统计学的一般理论研究统计方法的数学原理
・应用统计
■研究统计学在各领域的具体应用
统计学与数学的关系
(联系)
・统计学运用到大量的数学知识
・数学为统计理论和统计方法的发展提供基础
・不能将统计学等同于数学
统计学与数学的关系
(区别)
,数学研究的是抽象的数量规律,统计学则是研究具体的、实际现象的数量规律
,数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据
,统计学与数学研究中所使用的逻辑方法不同
■数学研究所使用的主要是的演绎
■统计学则是演绎与归纳相结合,占主导地位的是归纳
统计学与其他学科的关系
・统计学可以用到几乎所有的学科领域统计学可以帮助其他学科探索学科内在的数量规律性
・统计学不能解决各学科领域的所有问题对统计分析结果的解释需要各学科领域的专业人员
第四节
统计学中的几个主要术语
一、总体与总体单位
1、总体指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。
总体具有同质性和大量性
2、总体单位构成总体的基本单位。
二、样本与样本单位
1、样本:指从总体中随机抽取的若干单位构成的整体。
2、样本单位:指构成样本的基本单位。
三、标志与指标
1、标志总体单位所具有的属性和特征。
标志可分为品质标志和数量标志
2、指标说明总体数量特征的概念和数值。
指标可分为质量指标和数量指标
四、变量于变异
1、变异指标志在个体之间的不同表现。
(变异主要指品质标志)
2、变量指数量标志在个体之间的不同表现。变量可分为连续变量和离散变量
五、统计指标与指标体系
1、统计指标(略)
2、指标体系:由一系列相互联系的统计指标所组成的有特定功能的有机整体。
课堂练习
1.下列标志中,()是数量标志。
A.人口的民族B.人口的性别C.人口的职业D人口的年龄
2.商品销售量是()。
A.质量指标B数量指标C.品质标志D.数量标志
3、欲了解200名从业人员的劳动报酬收入情况,则总体单位是()。
A200名从业人员.B.200名从业人员的工资总额
C.每名从业人员D.200名从业人员的平均年龄
4,某班学生的年龄分别有19岁的、20岁的、21岁的和22岁的,这四种年龄数字是()。
A.指标B.标志C.标志值D.指标数值
5、下列属于离散变量的是().
A人口数目B.国内生产总值C利润额D工资额
6.下列各项指标中属于质量指标的有()o
A.劳动生产率B工业产品单位成本
C.生产工人平均工资D工人平均技术等级E.从业人员平均文化程度
7.下列各项指标属于价值指标的有()。
A.全国粮食产量B。国内生产总值C.国民生产总值D.社会商品零售额E.全国发电
里息
8.某年级共有学生102人,其中共青团员10()人,女生占71%,某课程考试平均成绩为8()分,
张美莉同学考分最高为96分。下列说法正确的是()。
A.其中共青团员100人是质量指标
B.女生占71%是品质标志
C.某课程考试平均成绩80分是质量指标
D.每名同学是总体单位
E.张美莉考分96分是变量值
9、统计的三个涵义中,作为基础的是()。
A.统计资料B.统计方法C统计工作D.统计科学
10、考察某单位专业技术人员状况,下列中属于指标的()。
A.具有高级职称的有150人
B.高级职称的平均年龄为45岁
C.高级职称人员中的最低年龄为28岁
D.高级职称人员中女性占33。6%
E.高级职称人员中有博士学位的58人;,
第章
二统计数据的搜集
第章
二统计数据的搜集
第
节
一
数据的计量与类型
第
节
二
统计数据的来源
第
节
三
第调查方案设计
节
四
统计数据的质量
课堂练习
一、数据的计量尺度
四种计量尺度
定类尺度
(概念要点)
・计量层次最低
•对事物进行平行的分类
•各类别可以指定数字代码表示
•使用时必须符合类别穷尽和互斥的要求
•数据表现为“类别”,无序.
・具有=或二的数学特性
定序尺度
(概念要点)
・对事物分类的同时给出各类别的顺序
・比定类尺度精确
・未测量出类别之间的准确差值
・数据表现为“类别”,但有序
・具有>或<的数学特性
定距尺度
(概念要点)
1.对事物的准确测度
2.比定序尺度精确
3.数据表现为“数值”
4.没有绝对零点
5.具有+或-的数学特性
定比尺度
(概念要点)
1.对事物的准确测度
2.与定距尺度处于同一层次
3.数据表现为“数值”
4.有绝对零点
5.具有x或十的数学特性
四种计量尺度的比较
二、数据类型和分析方法
数据类型与统计方法
变量及其类型
统计指标及其类型
第二节统计数据的来源
--统计数据的直接来源
二.统计数据的间接来源
统计数据的直接来源
(-)统计调查方式
(二)数据的搜集方法
(-)统计调查方式
普查
(概念要点)
•为特定目的专门组织的非经常性全面调查
2.通常是一次性或周期性的
3.一般需要规定统一的标准调查时间
4.数据的规范化程度较高
5.应用范围比较狭窄
抽样调查
(概念要点)
1.从总体中随机抽取一部分单位(样本)进行调查
统计表报
(概念要点)
1.统计调查方式之一
2.过去曾经是我国主要的数据收集方式
3.按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据
4.有各种各样的类型
重点调查和典型调查
(概念要点)
•典型调查
■从调查对象的全部单位中选择少数典型单位进行调查
■目的是描述和揭示事物的本质特征和规律
■调查结果不能用于推断总体
(二)数据的搜集方法
数据的搜集方法
访问调查
(概念要点)
1.调查者与被调查者通过面对面地交谈而获得资料
2.有标准式访问和非标准式访问
■标准式访问通常按事先设计好的问卷进行
■非标准式访问事先一般不制作问卷
邮寄调查
(概念要点)
•也称邮寄问卷调查
•是一种标准化调查
•调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷
•通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集
点
•问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种
电话调查
(概念要点)
•调查者利用电话与被调查者进行语言交流以获得信息
・时效快、成本低
•问题的数量不宜过多
电脑辅助调查
(概念要点)
•又称电脑辅助电话调查
•电脑与电话相结合完成调查的全过程
••般需借助专门的软件进行
•硬件设备要求较高
座谈会
(概念要点)
I.也称集体访谈
2.将•组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料
3.参加座谈会的人数不宜过多,一般为6〜10人
4.侧重于定性研究
个别深度访问
(概念要点)
•一次只有•名受访者参加、针对特殊问题的调查
•适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题
•侧重于定性研究
观察法
(概念要点)
1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息
2.调查人员不是强行介入
3.能够在被调查者不察觉的情况下获得资料
实验法
(概念要点)
1.在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料
2.有室内实验法和市场实验法
统计数据的间接来源
1.公开出版物:《中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济
统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年
鉴》、《国外经济统计资料》、《世界发展报告》……
调查方案设计
调查目的
1.调查要达到的具体目标
•回答“为什么调查?”
•调查之前必须明确
调查对象和调查单位
•调查对象:调查研究的总体或调查范围
•调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调
查对象中的一部分单位(非全面调查)
•回答“向谁调查?”
调查项目和调查表
1.调查项目:调查的具体内容
2.调查表:表现调查项目的表格或问卷
3.回答“调查什么?”
方案设计中的其他问题
1.明确调查所采用的方法
2.确定调查资料的所属时间和调查工作的期限
3.调查的组织与实施细则
数据误差的来源
统计数据的误差
・统计数据与客观现实之间的差距
・有登记性误差和代表性误差两类
■登记性误差:由于调查者或被调查者的人为因素所造成的误差。理论上讲可以消除
,代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控制和计
算
统计数据的质量要求
L精
度:最低的抽样误差或随机误差
确
准
2.性:最小的非抽样误差或偏差
联
3.关性:满足用户决策、管理和研究的需要
时
4.及
性:在最短的时间里取得并公布数据
5.致
一性:保持时间序列的可比性
・最低成本:以最经济的方式取得数据
课堂练习
1.在国有工业企业设备普查中,每一个国有工业企业是(
A.调查对象B.调查项目
C.报告单位D.调查单位
2.某市为了掌握流动人口情况,拟对该市儿个流动人口较集中的地区进行调查,这种调查的组
织方式是()
A.重点调查B.典型调查
C.普查D.抽样调查
3统计分组的关键是()。
A.正确地选择分组标志与划分各组界限
B.调查资料的准确性C.设计出科学的整理表
D.搞好分组前的准备工作
4.统计调查方案中的调查时间是指()。
A.调查工作的期限B.调查登记的时间
C.调查资料上交时间D调查资料所属时间
5.区别重点调查和典型调查的标志是()。
A.调查单位的多少不同B搜集资料的方法不同
C确定调查单位的标准不同D确定调查单位的目的不同
6.为了研究全国乡镇工业的发展情况,全国所有乡镇工业就是()。
A.调查单位B.调查对象
C.报告单位D.汇总单位
7.我国统计调查方法是以()为主体。
A.周期性普查B.统计报表
C.重点调查、D经常性抽样调查
8.统计调查按调查登记时间是否连续可分为()。
A.全面调查B.非全面调查
C.经常性调查D一次性调查
E.统计报表制度
9.统计资料整理的内容主要包括()。
A.对原始资料进行审核与检查
B.确定整理的目的与任务
C.对统计资料的系统积累
D.对原始资料进行综合汇总
E.将汇总结果编制出现统计表和分析表
10、普查属于()。
A.一次性调查B.经常性调查
C.全面性调查D.非全面调查E.专门调查
11、下述数列中,属于分配数列的有()。
A.品质数列B.动态数列
c.变量数列D.单项式数列E.异距数列
12、在同一变量数列中,组距与组数的关系是()
A.组距的大小与组数的多少成反比
B.组距的大小与组数的多少成正比
C.组距的大小与组数的多少无关
D.组数越多,组距越小;组数越少,组距越大
E.有时成正比,有时成反比
13、下列属于非全面调查的有()。
A.抽样调查B.普查
C.典型调查D,重点调查
E.专门调查
14、一般属于正态分布的变量分布有().
A.人口的死亡比率B.人的体重
C.人的身高D学生考试分数
E工人日产量
15、能形成连续变量数列的数量标志有()。
A.企业的从业人员数量
B.企业的生产设备台数
C.企业的工业增加值
D.企业从业人员工资总额
E.企业的利税总额
第
章
三统计数据的整理与显示
第
章
三
统计数据的整理与显示
第
节
一
数据的预处理
第
节
二
品质数据的整理与显示
第
节
三
数量数据的整理与显示
第
节
四
统计表
一、数据的审核、筛选与排序目的
■数据的审核
■发现数据中的错误
■数据的筛选
■找出符合条件的数据
・数据排序
■发现数据的基本特征
"升序和降序
二、数据的审核
(原始数据)
一审核的内容
•完整性审核
,检去应调查的单位或个体是否有遗漏
,所有的调查项目或指标是否填写齐全
•准确性审核
■检查数据是否真实反映客观实际情况,内容是否符合实际
■检查数据是否有错误,计算是否正确等
二、数据的审核
(原始数据)
,审核数据准确性的方法
・逻辑检查
■从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象
・主要用于对定类数据和定序数据的审核
・计算检查
■检查调查表中的各项数据在计算结果和计算方法上有无错误
・主要用于对定距和定比数据的审核
三、数据的审核
(第二手数据)
・适用性审核
■弄清楚数据的来源、数据的口径以及有关的背景材料
,确定这些数据是否符合自己分析研究的需要
•时效性审核
■应尽可能使用最新的统计数据
•确认是否必要做进一步的加工整理
四、数据的筛选
・对审核过程中发现的错误应尽可能予以纠正
•当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对
数据进行筛选
•数据筛选的内容包括:
■将某些不符合要求的数据或有明显错误的数据予以剔除
■将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出
五、数据的排序
(要点)
•按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
・排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
•在某些场合,排序本身就是分析的目的之一
・排序可借助于计算机完成
五、数据的排序
(方法)
•定类数据的排序
■字母型数据,排序有升序降序之分,但习惯I二用升序
■汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降
序之分
・定距和定比数据的排序
XN,)<)<<()
,递增排序:设一组数据为X”X2,递增排序后可表示为:X(|X(2...XN
■递减排序可表示为:X(1)>X(2)>...>X(N)
一、定类数据的整理与显示
定类数据的整理与显示
(基本问题)
・要弄清所而对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的
•对定类数据和定序数据主要是做分类整理
・对定距数据和定比数据则主要是做分组整理
•适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显
示方法并不适合于低层次的数据
定类数据的整理与显示
(基本过程)
I.列出各类别
定类数据的整理与显示
(可计算的指标)
1.频数:落在各类别中的数据个数
2.比例:某一类别数据占全部数据的比值
3.百分比:将对比的基数作为100而计算的比值
4.比率:不同类别数值的比值
定类数据整理一频数分布表
(实例)
定类数据的图示一条形图
(条形图的制作)
•条形图是用宽度相同的条形的高度或长短来表示数据变动的图形
•条形图有单式、复式等形式
•在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率
•绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
定类数据的图示一条形图
定类数据的图示一圆形图
(圆形图的制作)
•也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形
•主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用
•在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角
度,是按各部分百分比占360°的相应比例确定的
・例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360°
X25.5%=91.8°,其余类推
定类数据的图示一圆形图
(由Excel绘制的圆形图)
二、定序数据的整理与显示
定序数据的整理与显示
(可计算的指标)
1.累计频数:将各类别的频数逐级累加
2.累计频率:将各类别的频率(百分比)逐级累加
定序数据频数分布表
(实例)
定序数据频数分布表
(实例)
定序数据的图示一累计频数分布图
(由Excel绘制的累计频数分布图)
数据的图示一环形图
(环形图的制作)
・环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示
•环形图与圆形图类似,但又有区别
■圆形图只能显示一个总体各部分所占的比例
■环形图则可以同时绘制多个总体的数据系列,每,个总体的数据系列为一个环
•环形图可用于进行比较研究
•环形图可用于展示定类和定序的数据
品质数据的图示一环形图
(由Excel绘制的环形图)
编制频数分布表的步骤
一、统计分组含义、原则、种类
1、含义:
2、原则:穷尽、互斥
3、种类:按分组标志多少
按分组标志性质
按分组任务不同
4、方法:
分组方法
单变量值分组
(要点)
1.将一个变量值作为一组
2.适合于离散变量
・适合于变量值较少的情况
频数分布表的编制
(实例)
1711241291391
o8122126117122107117130122125
13133126122118108
1018123126133134
n2134127123119113127123118112
37120128124115120123127135
139128124121
单变量值分组表
(实例)
组距分组
(要点)
・将变量值的•个区间作为一组
・适合于连续变量
•适合于变量值较多的情况
•必须遵循“不重不漏”的原则
•可采用等距分组,也可采用不等距分组
组距分组
(步骤)
•确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按
Sturges提出的经验公式来确定组数K
组距分组
(几个概念)
1.下限:一个组的最小值
2.上限:一个组的最大值
3.组距:上限与下限之差
4.组中值:下限与上限之间的中点值
等距分组表
(上下组限重叠)
等距分组表
(上下组限间断)
等距分组表
(使用开口组)
等距分组与不等距分组
(在表现频数分布上的差异)
•等距分组
■各组频数的分布不受组距大小的影响
■可直接根据绝对频数来观察频数分布的特征和规律
•不等距分组
■各组频数的分布受组距大小不同的影响
・各组绝对频数的多少不能反映频数分布的实际状况
■需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况
二、数量数据的图示
1、直方图2、折线图3、茎叶图4、箱线图5、线图6、雷达图7、小结
分组数据一直方图
(直方图的制作)
•用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布
•在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个
矩形,即直方图(Histogram)
•直方图下的总面积等于1
分组数据一直方图
(直方图的绘制)
分组数据一直方图
(直方图与条形图的区别)
•条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的
•直方图是用面积表示各组频数的多少,矩形的高度表示每•组的频数或百分比,宽度则表示各
组的组距,其高度与宽度均有意义
•直方图的各矩形通常是连续排列,条形图则是分开排列
分组数据一折线图
(折线图的制作)
・折线图也称频数多边形图(Frequencypolygon)
•是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉
・折线图的两个终点要与横轴相交,具体的做法是
■第•个矩形的顶部中点通过竖边中点(即该组频数•半的位置)连接到横轴,最后个矩形顶
部中点与其竖边中点连接到横轴
■折线图卜所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
分组数据一折线图
(折线图的绘制)
未分组数据一茎叶图
(茎叶图的制作)
•用于显示未分组的原始数据的分布
・由“茎”和“叶”两部分构成,其图形是由数字组成的
•以该组数据的高位数值作树茎,低位数字作树叶
・对于"(20W“W300)个数据,茎叶图最大行数不超过
L=[10Xlog/]
5.茎叶图类似于横置的直方图,但又有区别
■直方图可大体上看出一组数据的分布状况,但没有给出具体的数值
•茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
未分组数据一茎叶图
(茎叶图的制作)
未分组数据一茎叶图
(扩展的茎叶图)
未分组数据一箱线图
(箱线图的制作)
•用于显示未分组的原始数据或分组数据的分布
•箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
•其绘制方法是:
■首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位
数。L和上四分位数。U)
,连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接
未分组数据一单批数据箱线图
(箱线图的构成)
未分组数据一单批数据箱线图
(实例)
分布的形状与箱线图
未分组数据一多批数据箱线图
(实例)
未分组数据一多批数据箱线图
(由STATIATICA绘制的多批数据箱线图)
未分组数据一箱线图
(由STATIATICA绘制的多批数据箱线图)
时间序列数据一线图
(线图的制作)
,绘制线图时应注意以下几点
・时间一般绘在横轴,指标数据绘在纵轴
•图形的长宽比例要适当,其长宽比例大致为10:7
••般情况下,纵轴数据下端应从开始,以便于比较。数据与“0”之间的间距过大时,可以采
取折断的符号将纵轴折断
时间序列数据一线图
(实例)
时间序列数据
(由Excel绘制的线图)
多变量数据一雷达图
(要点)
•雷达图(RadarChart)是显示多个变量的常用图示方法
•在显示或对比各变量的数值总和时十分有用
・假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比
•可用于研究多个样本之间的相似程度
多变量数据一雷达图
(雷达图的制作)
*设有“组样本S”S2,…工,每个样本测得P个变量X”X2,Xp,要绘制这尸个变量的雷达
图,其具体做法是
多变量数据一雷达图
(实例)
多变量数据一雷达图
(由Excel绘制的雷达图)
多变量数据一雷达图
(实例)
多变量数据一雷达图
(由Excel绘制的对数坐标雷达图)
数据类型及图示
(小结)
三、频数分布的类型
频数分布的类型
统计表的结构
统计表的设计
•要合理安排统计表的结构
・数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出列标明
•表中的上下两条横线一般用粗线,其他线用细线
•通常情况下,统计表的左右两边不封口
•表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一
•对于没有数字的表格单元,•般用“一”表示
・必要时可在表的卜方加上注释
第四章数据分布特征的测度
第四章数据分布特征的测度
第一节集中趋势的测度***
第二节离散程度的测度***
第三节偏态与峰度的测度
数据分布的特征和测度
一、集中趋势
(Centraltendency)
二、众数
众数
(概念要点)
•集中趋势的测度值之一
•出现次数最多的变量值
・不受极端值的影响
•可能没有众数或有几个众数
•主要用于定类数据,也可用于定序数据和数值型数据
众数
(众数的不唯一性)
无众数
原始数据:10591268
定类数据的众数
(算例)
定序数据的众数
(算例)
数值型分组数据的众数***
(要点及计算公式)
1.众数的值与相邻两组频数的分布有关
数值型分组数据的众数
(算例)
三、中位数和分位数
中位数
(概念要点)
•集中趋势的测度值之一
•排序后处于中间位置上的值
中位数
(位置的确定)
定序数据的中位数
(算例)
数值型未分组数据的中位数
(5个数据的算例)
原始数据:2422212620
排序:2021222426
位置:12345
数值型未分组数据的中位数
(6个数据的算例)
原始数据:10591268
排序:56891012
位置:123456
数值型分组数据的中位数***
(要点及计算公式)
•计算向上累计频数。
•在向上累计频数序列中从上往下找第一个大于N/2的数,该数所对应的既为中位数所在组。
•采用下列近似公式计算:
数值型分组数据的中位数
(算例)
四分位数
(概念要点)
1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值
四分位数
(位置的确定)
定序数据的四分位数
(算例)
数值型未分组数据的四分位数
(7个数据的算例)
原始数据:23213032282526
排序:21232526283032
位置:1234567
数值型未分组数据的四分位数
(6个数据的算例)
原始数据:232130282526
排序:21232526283()
位置:123456
数值型分组数据的四分位数
(计算公式)
数值型分组数据的四分位数
(计算示例)
Qz位置=50/4=12.5
定距和定比数据:均值(平均数)
平均数
(概念要点)
1.集中趋势的测度值之•
2.最常用的测度值
3.一组数据的均衡点所在
4.易受极端值的影响
・用于数值型数据,不能用于定类数据和定序数据
•类型:算术平均数
调和平均数
几何平均数
算术平均数
(计算公式)
简单算术平均数
(算例)
原始数据:10591368
加权算术平均数
(算例)
算术平均数
(权数对均值的影响)
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下
甲组:考试成绩(X):020100
人数分布(尸):118
乙组:考试成绩(X):020100
人数分布(尸):8
平均数
(数学性质)
1.各变量值与均值的离差之和等于零
调和平均数
(概念要点)
1.集中趋势的测度值之一
2.均值的另一种表现形式
3.易受极端值的影响
4.用于定比数据
5.不能用于定类数据和定序数据
6.计算公式为
调和平均数
(算例)
几何平均数
(概念要点)
1.集中趋势的测度值之一
2.N个变量值乘积的N次方根
3.适用于特殊的数据
4.主要用于计算平均发展速度
5.计算公式为
几何平均数
(算例)
【例4.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为
4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。
五、众数、中位数和均值的比较
众数、中位数和均值的关系
小结
一、离中趋势的含义
二、异众比率
异众比率
(概念要点)
1.离散程度的测度值之一-
2.非众数组的频数占总频数的比率
3.计算公式为
异众比率
(算例)
三、四分位差
四分位差
(概念要点)
1.离散程度的测度值之一
2.也称为内距或四分间距
3.上四分位数与下四分位数之差
QD=QU-QL
4.反映了中间50%数据的离散程度
・不受极端值的影响
・用于衡量中位数的代表性
四、方差和标准差
极差
平均差
方差和标准差
极差
(概念要点及计算公式)
1.一组数据的最大值与最小值之差
2.离散程度的最简单测度值
3.易受极端值影响
4.未考虑数据的分布
平均差
(概念要点及计算公式)
1.离散程度的测度值之一
2.各变量值与其均值离差绝对值的平均数
3.能全面反映一组数据的离散程度
4.数学性质较差,实际中应用较少
平均差
(计算过程及结果)
方差和标准差
(概念要点)
1.离散程度的测度值之一
2.最常用的测度值
3.反映了数据的分布
•反映了各变量值与均值的平均差异
・根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
(计算公式)
未分组数据:
总体标准差
(计算过程及结果)
样本方差和标准差
(计算公式)
未分组数据:
样本方差
自由度(degreeoffreedom)
•一组数据中可以自由取值的数据的个数
•当样本数据的个数为〃时,若样本均值工确定后,只有N-1个数据可以自由取值,其中必有
一个数据则不能自由取值
•例如,样本有3个数值,即由=2,孙川,4=9,则x=5,,当x=5确定后,孙,外和*3有
两个数据可以自由取值,另一个则不能自由取值,比如勺=6,⑥=7,那么小则必然取2,而不
能取其他值
•样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用
样本方差去估计总体方差/时,它是d的无偏估计量
样本方差
(算例)
原始数据:10591368
样本标准差
(算例)
样本标准差
方差
(简化计算公式)
样本方差
方差
(数学性质)
b各变量值对均值的方差小于对任意值的方差
设X。为不等于X的任意数,方为对X。的方差,则
标准化值
(概念要点和计算公式)
1.也称标准分数
2.给出某一个值在一组数据中的相对位置
3.可用于判断一组数据是否有离群点
4.用于对变量的标准化处理
5.计算公式为
五、相对离散程度:离散系数
离散系数
(概念要点和计算公式)
1.标准差与其相应的均值之比
2.消除了数据水平高低和计量单位的影响
3.测度了数据的相对离散程度
4.用于对不同组别数据离散程度的比较
5.计算公式为
离散系数
(实例和计算过程)
离散系数
(计算结果)
数据类型与离散程度测度值
一、偏态
偏态与峰度分布的形状
偏态
(概念要点)
1.数据分布偏斜程度的测度
2.偏态系数=0为对称分布
3.偏态系数>0为右偏分布
4.偏态系数<()为左偏分布
5.计算公式为
偏态
(实例)
偏态与峰度
(从直方图上观察)
偏态系数
(计算过程)
偏态系数
(计算结果)
二、峰度
峰度
(概念要点)
1.数据分布扁平程度的测度
2.峰度系数=3扁平程度适中
3.偏态系数<3为扁平分布
4.偏态系数>3为尖峰分布
5.计算公式为
峰度系数系数
(实例计算结果)
由Excel输出的描述统计量
本章小节
1.集中趋势各测度值的含义、计算方法、特点和应用场合
2.离散程度各测度值的含义、计算方法、特点和应用场合
•偏态及峰度的测度方法
•用Excel计算描述统计量
第章
五抽样与参数估计
第章
五
抽样与参数估计
第节
一
抽样与抽样分布
第节
二
总体参数估计基本方法
第节
三
两个总体均值及两个总体比例之差的估计
四
第节
五两正态总体方差比的区间估计
第节
抽样设计
一、基本概念
(-)样本容量与样本个数
(~)总体参数与样本统计量
(三)抽样方法
(一)、样本容量与样本个数
〜样本:从总体中所抽取的部分个体所组成集合
〜样本容量:样本中所含个体的数量
b样本个数:从总体中所所有可能抽取的样本的个数
(-)总体参数与样本统计量
1、总体参数:总体分布的数量特征。
例如:总体均值、总体方差、总体成数
2、样本统计量:与总体参数相对应的,从总体中随机抽取的某一样本的数量特征
例如:样本均值、样本方差、样本成数
(三)抽样方法
■概率抽样:根据已知的概率选取样本
■简单随机抽样:完全随机地抽选样本(重复与不重复抽样)
■分层抽样:总体分成不同的“层”,然后在每一层内进行抽样
■整群抽样:将一组被调查者(群)作为一个抽样单位
■等距抽样:在样本框中每隔一定距离抽选•个被调查者
■非概率抽样:不是完全按随机原则选取样本
■非随机抽样:由调查人员自由选取被调查者
■判断抽样:通过某些条件过滤来选择被调查者
■配额抽样:选择一群特定数目、满足特定条件的被调查者
二、样本均值的抽样分布
(一)、抽样分布
(概念要点)
・所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布
•是一种理论概率分布
・随机变量是样本统计量
■样本均值,样本比例等
・结果来自容量相同的所有可能样本
(二)、样本均值的抽样分布(一个例子)
样本均值的抽样分布(一个例子)
样本均值的抽样分布(一个例子)
所有样本均值的期望和方差
样本均值的分布与总体分布的比较
三、大数定理与中心极限定理
大数定理(图示)
中心极限定理(图示)
样本方差的抽样分布
样本方差的分布
卡方(2)分布
均值的标准误
•所有可能的样本均值的标准差,测度所有样本均值的离散程度
・小于总体标准差
・计算公式为
两个样本方差比的抽样分布
两个样本方差比的抽样分布
两个样本方差比的抽样分布
T统计量的分布
T统计量的分布
一、总体参数估计概述
1、被估计的总体参数2、总体参数估计的要求
1、被估计的总体参数2、总体参数估计的要求
精度的要求:所谓“精度”是指估计误差的最大范围。可以用极限误差表示。
可靠性的要求:所谓“可靠性''是指估计结果的正确性的概率大小。可以用置信度表示。
二者的关系:精度与可靠性是相互矛盾的。
二、点估计
(-)点估计的定义(二)优良性准则
(一)、点估计的定义(概念要点)
•从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出•个数值点的估计
■例如:用样本均值作为总体未知均值的估计值就是一个点估计
2.点估计没有给出估计值接近总体未知参数程度的信息
(二)、估计量的优良性准则(无偏性)
无偏性:估计量的数学期望等于被估计的总体
参数
(-)估计量的优良性准则(有效性)
(二)估计量的优良性准则(一致性)
一致性:随着样本容量的增大,估计量越来越接
近被估计的总体参数
三、区间估计
(一)、区间估计(概念要点)
1.根据一个样本的观察值给出总体参数的估计范围
•给出总体参数落在这•区间的概率
•例如:总体均值落在50~70之间,置信度为95%
置信区间估计
(内容)
(-)总体均值的区间估计(2已知)
总体均值的置信区间(2已知)
1.假定条件
■总体服从正态分布,且总体方差(G2)已知
■如果不是正态分布,可以由正态分布来近似("30)
•使用正态分布统计量Z
总体均值的区间估计(正态总体:实例)
总体均值的区间估计(非正态总体:实例)
(三)总体均值的区间估计(z未知)
总体均值的置信区间(2未知)
1.假定条件
■总体方差(])未知
■总体必须服从正态分布
•使用t分布统计量
总体均值的区间估计(实例)
(四)总体比例的区间估计
总体比例的置信区间
1.假定条件
两类结果
■总体服从二项分布
■可以由正态分布来近似
•使用正态分布统计量Z
总体比例的置信区间(实例)
(五)总体方差的区间估计
正态总体方差的区间估计(要点)
1.估计一个总体的方差或标准差
2.假设总体服从正态分布
・总体方差2的点估计量为日且
正态总体方差的区间估计(实例)
【例】对某种金属的10个样品组成的,个随机样本作抗拉强度试验。从实验数据算出的方差为
4。试求广的95%的置信区间。
正态总体方差的区间估计(计算结果)
(六)样本容量的确定
估计总体均值时样本容量的确定
・根据均值区间估计公式可得样本容量”为
样本容量的确定(实例)
估计总体成数时样本容量的确定
•根据成数区间估计公式可得样本容量〃为
样本容量的确定(实例)
【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p
的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计
值。
两个总体均值之差的估计
两个样本均值之差的抽样分布
两个总体均值之差的估计
(,、已知)
1.假定条件
■两个样本是独立的随机样本
•两个总体都服从正态分布
•若不是正态分布,可以用正态分布来近似(〃仑30和n2>30)
・两个独立样本均值之差的抽样分布服从正态分布,其期望值为
两个总体均值之差的估计
(।、已知)
•使用正态分布统计量Z
两个总体均值之差的估计(实例)
【例】一个银行负责人想知道储户存入两家限行的钱数。他从两家银行各抽取了一个由25个储
户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从
方差分别为。/=2500和,2=3600的正态分布。试求〃八-〃8的区间估计
(1)置信度为95%
(2)置信度为99%
两个总体均值之差的估计(计算结果)
两个总体均值之差的估计(,、未知,但相等)
假定条件
■两个总体都服从正态分布
■0『、6,未知,但C|2=bJ
・总体方差『的联合估计量为
两个总体均值之差的估计
(,、未知,但相等)
两个总体均值之差的估计
(实例)
【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机
安排了1()位顾冬并记录下为每位顾老办理账单所需的时间(单位:分钟),相应的样本均值
2
和方差分别为:兀=22.2,s/=16.63,焉=28.5,s2=18.92o假定每位职员办理账单所需时间均
服从正态分布,且方差相等。试求两位职员办理账单的服务时间之差的95%的区间估计。
两个总体均值之差的估计
(计算结果)
两个总体均值之差的估计
(,.、未知,且不相等)
・假定条件
,两个总体都服从正态分布
■(l/5?未知,且GJRGJ
,使用的统计量为
两个总体均值之差的估计
(I、未知,且不相等)
两个总体均值之差的估计
(续前例)
【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机
安排了10位顾客,声记录下了为每位顾老办理账单所需的时间(单位:分钟),相应的样本均
值和方差分别为:耳=22.2,S|2=16.63,总=28.5,$22=18.92。假定每位职员办理账单所需时间
均服从正态分布,但方差不相等。试求两位职员办理账单的服务时间之差的95%的区间估计。
两个总体均值之差的估计
(计算结果)
两个总薪比例之差的估计
两个总体比例之差的区间估计
1.假定条件
■两个总体是独立的
・两个总体服从二项分布
・可以用正态分布来近似
2.两个总体比例之差P「P2在1-a置信水平卜的置信区间为
两个总体比例之差的估计
(实例)
【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别
随机地调查了1()0()个成年人,其中看过广告的比例分别为0=0.18和幺=()」4。试求两城市成年
人中看过广告的比例之差的95%的置信区间。
两个总体比例之差的估计
(计算结果)
两个正态总体方差比的区间估计
两个正态总体方差比的区间估计
(要点)
1.应较两个总体的方差比
•用两个样本的方差比来判断
■如果S//S22接近于1,说明两个总体方差很接近
■如果S//52?远离1,说明两个总体方差之间存在差异
・总体方差比在1也置信水平下的置信区间为
两个正态总体方差比的区间估计
(实例)
【例】用某•特定工序生产的批化工产品中的杂质含量的变异依赖于操作过程中处理的时间
长度。某生产商拥有两条生产线,为了降低产品中杂质平均数量的同时降低杂质的变异,对两
条生产线进行了很小的调整,研究这种调整是否确能达到目的。为此从两条生产线生产的两批
产品中各随枇抽取了25个样品,它们的均值和方差为
弓=3.2,SI2=1.04
2
总=3.0,S2=051
试确定两总体方差比bj/bj的90%的置信区间。
两个正态总体方差比的区间估计
(计算结果)
类型抽样
(一)、含义
(二)、区间估计的步骤
1、计算各组平均数
2、计算样本平均数(各组频数为权数)
****3、计算平均数抽样平均误差
整群抽样
(-)>含义
(二)、区间估计的步骤
1、计算各群平均数
2、计算样本平均数
****3、计算平均数抽样平均误差
二.整群抽样
(一)、含义
(二)、区间估计的步骤
1、计算各群平均数
2、计算样本平均数
****3、计算平均数抽样平均误差
本章小结
1.抽样的有关概念
•抽样分布
•点估计和区间估计的有关概念
4,确定样本容量5.区间估计
第六章相关与回归分析
第六章相关与回归分析
第一节变量间的相关关系
第二节一元线性回归
第三节多元线性回归
第四节可化为线性回归的曲线回归
学习目标
1.掌握相关系数的含义、计算方法和应用
2.掌握一元线性回归的基本原理和参数的最小二乘估计方法
•掌握回归方程的显著性检验
•利用回归方程进行预测
•掌握多元线性回归分析的基本方法
•了解可化为线性回归的曲线回归
•用Excel进行回归分析
一、变量相关的概念
(-)变量间的关系
(函数关系)
•是对应的确定关系
•设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数
值时,y依确定的关系取相应加值,则称y是x的函数,记为y=f(x),其中x称为自变
量,y称为因变量
・各观测点落在一条线上
(-)变量间的关系
(函数关系)
(-)变量间的关系
(相关关系)
•变量间关系不能用函数关系精确表达
•一个变量的取值不能由另一个变量唯一确定
•当变量X取某个值时,变量y的取值可能有几个
・各观测点分布在直线周围
(-)变量间的关系
(相关关系)
相关关系的类型
相关关系的图示
二、相关系数及其计算
(-)相关关系的测度
(概念要点)
•对变量之间关系密切程度的度量
•对两个变量之间线性相关程度的度量称为简单相关系数
•若相关系数是根据总体全部数据计算的,称为总体相关系数,记为「
•若是根据样本数据计算的,则称为样本相关系数,记为r
(-)相关关系的测度
(计算公式)
*样本相关系数的计算公式
(-)相关关系的测度
(相关系数取值及其意义)
•r的取值范围是[-1,1]
•lrl=l,为完全相关
・r=l,为完全正相关
■r=-l,为完全负正相关
•r=0,不存在线性相关关系相关
,-l<r<0,为负相关
•()</■<1,为正相关
•仍越趋于1表示关系越密切;Irl越趋于()表示关系越不密切
(-)相关关系的测度
(相关系数取值及其意义)
相关关系的测度
(相关系数计算例)
相关关系的测度
(计算结果)
解:根据样本相关系数的计算公式有
人均国民收入与人均消费金额之间的相关系
数为0.9987
(二)相关系数的显著性检验
(概念要点)
1.检验两个变量之间是否存在线性相关关系
•等价于对回归系数।的检验
•采用t检验
•检验的步骤为
■提出假设://():p=0;小:pw()
(二)相关系数的显著性检验
(实例)
,对前例计算的相关系数进行显著性检(a=0.05)
•提出假设://«:夕=0;Hi:夕#0
•计算检验的统计量
(二)相关系数的显著性检验
(相关系数检验表的使用)
■若大于表上的a=5%相应的值,小于表上a=l%相应的值,称变量x与y之间有显著的线
性关系
■若Irl大于表上a=l%相应的值,称变量x与y之间有十分显著的线性关系
・若Irl小于表上a=5%相应的值,称变量x与y之间没有明显的线性关系
■根据前例的r=0.9987>a=5%5-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著
的线性相关关系
一、回归的含义及回归方程种类
什么是回归分析?
回归的由来
回归方程的类型
回归分析与相关分析的区别
回归的含义及回归方程种类
(什么是回归分析?)
•从一组样本数据出发,确定变量之间的数学关系式
•对这些关系式的可信程度进行各种统计检验,并从影响某特定变量的诸多变量中找出哪些变
量的影响显著,哪些不显著
•利用所求的关系式,根据•个或几个变量的取值来预测或控制另个特定变量的取值,并给出
这种预测或控制的精确程度
回归的含义及回归方程种类
(回归方程的类型)
什么是回归方程
(概念要点)
・回答,,变量之间是什么样的关系?”
•方程中运川
■1个因变量(被解释变量)
•被预测的变量
■1个或多个自变量(解释变量)
•用于预测的变量
・主要用于预测和估计
■•元线性回归方程
(概念要点)
•当只涉及一个自变量时称为一元回归,且因变量y与自变量x之间为线性关系时称为一元线
性回归
•对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系,该直线称为回归
直线
•描述因变量y与自变量x直线关系的模型称为回归方程
回归的含义及回归方程种类
(回归分析与相关分析的区别)
•相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解
释的地位,x称为自变量,用于预测因变量的变化
•相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变
量xnJ■以是随机变量,也可以是非随机的确定变量
•相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量X对变
量y的影响大小,还可以由回归方程进行预测和控制
•一元线性回归方程
总体回归方程
样本回归方程
一元线性回归方程的基本假定
总体一元线性回归方程
(概念要点)
・在各个给定自变量X值的条件下,因变量Y的期望值的轨迹,称为总体回归方程。
・总体一元线性回归方程的形式如卜
E(y)=为+夕1》
其随机形式如卜
V=/?o+Bix+e
样本回归方程
(概念要点)
一元线性回归方程
的基本假定
・期望值为0假定;
・同方差假定;
・无自相关假定;
・解释变量与扰动项无相关假定。
三、参数A和队的最小二乘估计
最小二乘法原理
最小二乘法的实例
最小二乘法
(概念要点)
最小二乘法
(图示)
最小二乘法
(和的计算公式)
最小二乘法的实例
【例10.1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记
为X。我们收集到1981〜1993年的样本数据小,)力,i=l,2,…,13,数据见表10-1。
【例】根据例1().1中的数据,配合人均消费金额对人均国民收入的回归方程
根据和的求解公式得
人均消费金额对人均国民收入的回归方程为
四、回归方程的显著性检验
离差平方和的分解
判定系数J
回归方程的显著性检验
回归系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程师考试高效掌握试题及答案
- 大一防火防爆技术考试题及答案
- 克服考前焦虑的2025年多媒体应用设计师试题及答案
- 六年级圆考试题及答案
- 2025系统集成考试不可错过的试题及答案
- 软件评测师考试知识点的透彻理解与应用分析试题及答案
- 社会工作者的终身学习与发展试题及答案
- 学习资源共享软件评测师试题及答案
- Msoffice常见复习资源与试题汇集
- 2025年网络规划设计师考试疑难解答试题及答案
- 浙江省杭州市2024年中考英语真题(含答案)
- 2024年黑龙江省哈尔滨市中考数学试卷(附答案)
- 生猪屠宰兽医卫生检验人员理论考试题库及答案
- 《陆上风电场工程设计概算编制规定及费用标准》(NB-T 31011-2019)
- 消防管理制度的制作张贴规范及图例
- DB4403∕T 199-2021 中医药健康文化宣教旅游示范基地评定规范
- 福州供电段接触网设备检修工艺
- 工装治工具管理程序(含表格)
- 《办公软件应用》培训计划
- 国家开放大学《数学思想与方法》形考任务参考答案
- 庭院绿化施工合同
评论
0/150
提交评论