统计学第二章 数据的收集与整理_第1页
统计学第二章 数据的收集与整理_第2页
统计学第二章 数据的收集与整理_第3页
统计学第二章 数据的收集与整理_第4页
统计学第二章 数据的收集与整理_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2-1复习复习2-2对某系学生情况的进行统计调查,抽取若干学生进行问卷调查。则某系全体学生是( ),问卷中,要求同学填写生源地是( ),抽取的某位同学的性别为男是( ),该系学生上学期及格率是( ),某系的男生比例为30%是( )。A 总体 B 样本 C 标志 D 指标E 标志值(标志表现) F 指标值2-32第二章第二章 数据的收集和整理数据的收集和整理通过本章的学习,我们应该知道:通过本章的学习,我们应该知道:1. 数据来源数据来源2. 数据是如何收集的数据是如何收集的3. 数据是如何整理的数据是如何整理的4. 如何做次数分布表如何做次数分布表S t a t i s t i c s2-4有

2、组织、有组织、有计划地有计划地搜集资料。搜集资料。要求:准确、要求:准确、完整、及时完整、及时对调查资料对调查资料去伪存真、去伪存真、去粗取精、去粗取精、科学分类、科学分类、浓缩简化浓缩简化描述性分析描述性分析推断分析、推断分析、决策分析。决策分析。要求:定性要求:定性定量结合定量结合2-5一、数据来源一、数据来源 Data Sources数据数据来源来源 直接来源直接来源(原始资料)(原始资料) 间接来源间接来源(次级资料)(次级资料)试验试验出版物出版物(或者网上或者网上)问卷调查问卷调查观察观察2-6二、数据收集方法二、数据收集方法2-7直接观察法直接观察法2-8调查者调查者强制、约束强

3、制、约束报告法报告法2-9采访法采访法调查者调查者被调查者被调查者 平等合作平等合作返回口头询问口头询问自填问卷自填问卷2-10危害自身健康危害自身健康影响他人健康影响他人健康浪费钱财浪费钱财容易引起火灾容易引起火灾破坏家庭团结破坏家庭团结容易控制,容易控制,但不易全面但不易全面调查问卷的问题类型:调查问卷的问题类型:容易造成人际容易造成人际关系紧张关系紧张不易控制,不易控制,但内容丰富但内容丰富您认为吸烟有哪您认为吸烟有哪些害处?些害处?危害自身健康危害自身健康影响他人健康影响他人健康浪费钱财浪费钱财容易引起火灾容易引起火灾破坏家庭团结破坏家庭团结其他其他 。2-112-12其他统计方法:登

4、记法、电话访问、网络调查、试验设计,等等学校统计毕业生就业情况,一般流程:学生签署三方协议后通知辅导员,向辅导员递交相关材料,由辅导员定期整理本学院毕业生的就业情况,并向学校就业办公室上报数据。在该项统计工作中用到了哪些数据收集方法?2-13按调查单位的范围大小分为按调查时间是否连续分为三、统计调查的种类三、统计调查的种类2-142-15统计调查的各种形式普 查统计报表抽样调查重点调查典型调查2-16普查(census)特点:全面调查一次性调查(非经常性调查)概念:指国家为详尽了解某项重要的国情国力而专门组织的一次性全面全面调查建立专门机构,配备专门人员调查。原则:规定统一的标准时点。规定统一

5、的普查期限,尽可能快地完成。规定调查的项目和指标。2-17由政府部门组织,采用统一的表格,自上而下布置,自下而上报告。任务:搜集国民经济和社会发展基本情况的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。特点:概念:统计报表制度(statistical report forms)来源基层逐级上报经常性调查2-18抽样调查(sampling survey)含义:是一种非全面调查,根据某种原则抽取一部分单位作为样本进行光差,然后根据样本数据推算总特特征。特点:1 (随机抽样)按照随机原则从总体种选择样本;2 以样本指标(统计量)为依据,估计总体特征3 抽样误差可以事先计算并加以控制。作用

6、:不可能或不必要做全面调查的(无限总体;破坏性实验)修正普查资料2-19抽样调查的组织方式1 简单随机抽样;2 系统抽样;3 分层抽样;4 整群抽样;调查一个班的学生(共调查一个班的学生(共60人,其中男生人,其中男生10人,女生人,女生50人)情况,人)情况,需要抽取需要抽取12位同学作为样本位同学作为样本抽签决定学号为2,7,12,17,22,27男生中随机抽取2人,女生中随机抽取10人抽取一个男生宿舍,一个女生宿舍的同学2-20抽样调查优点:经济性 时效性 准确性 灵活性原则:随机 最大抽样效果(最小抽样误差)2-21重点调查(key point survey)概念:在总体中选择个别或部

7、分重点单位进行非全面调查。重点单位指在总体中这些单位的标志值在标志总量中占有绝大比重。能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料;只适用于客观存在重点单位的情况(适用于存在类似“寡头”或者“垄断”的情况)特点:2-22典型调查(model survey)概念: 在初步分析的基础上,有意识地选择代表性的典型单位进行非全面调查。对于典型单位的挑选,更多地取决于主观判断作用:适宜于研究处于萌芽状态事物和倾向性问题; 起步早起步早 措施力措施力 效果好效果好重庆合川市思居村新农村建设典型调查重庆合川市思居村新农村建设典型调查 农村信息化建设调查分析农村信息化建设调查分析以湖北省仙桃市的

8、以湖北省仙桃市的5个村镇为典型个村镇为典型调查对象调查对象 2-23总体单位总体单位调查单位调查单位2-24总体单位总体单位调查单位调查单位报表制度报表制度可以全面调查,但可以全面调查,但通常是调查限定规通常是调查限定规模以上的总体单位模以上的总体单位2-25总体单位总体单位调查单位调查单位普普 查查对全部单位对全部单位进行调查进行调查2-26总体单位总体单位调查单位调查单位重点调查重点调查只调查重点单位(单位只调查重点单位(单位数不多但其标志量占标数不多但其标志量占标志总量比重较大的单位)志总量比重较大的单位)2-27总体单位总体单位调查单位调查单位典型调查典型调查对典型单位进行调对典型单位

9、进行调查,典型单位的选查,典型单位的选择并不一定按规模择并不一定按规模2-28总体单位总体单位调查单位调查单位抽样调查抽样调查按随机原则选择调按随机原则选择调查单位,各单位被查单位,各单位被选中的机会相同。选中的机会相同。2-29统计调查的组织形式统计调查的组织形式统计报表普 查重点调查典型调查抽样调查制度化的经常性调查专门组织的一次性调查全面调查非全面调查2-30统计调查方案的设计统计调查方案的设计组织调查之前统计调查方案的设计内容:1、明确调查目的(为什么调查?)2、确定调查对象和调查单位(调查谁?)3、确定调查项目(调查什么?)4、确定调查方式,问卷设计(怎么调查?)5、确定调查时间和调

10、查期限6、制定调查的组织实施计划统计调查方案:用来指导整个调查工作的纲领性统计调查方案:用来指导整个调查工作的纲领性文件,是统计设计在统计调查阶段的具体化文件,是统计设计在统计调查阶段的具体化返回2-31调查误差抽样误差:由于随机性原因产生的误差非抽样误差:由于各种操作环节失误,或设计不合理等原因造成的误差2-32二手统计资料来源查阅公开出版物;查阅公开出版物;向政府统计机构咨询;向政府统计机构咨询;向其他机构咨询;向其他机构咨询;网上查询。网上查询。2-33返回2-342-352-362 数据的整理数据整理的程序2-37数据分组数据分组2-38统计分组的种类根据分组标志的个数分类:根据分组标

11、志的个数分类:简单分组:仅按照一个标志进行分组简单分组:仅按照一个标志进行分组复合分组:按照两个或两个以上的标志进行层叠分组复合分组:按照两个或两个以上的标志进行层叠分组根据分组标志的性质分类:根据分组标志的性质分类:品质标志分组:如上市公司的行业分类品质标志分组:如上市公司的行业分类数量标志分组:人口按年龄分组数量标志分组:人口按年龄分组2-39数量分组数量分组品质分组品质分组分分类类异距分组异距分组等距分组等距分组组距分组组距分组单项分组单项分组分组方法分组方法一般原则: 穷尽原则:各有归属,不能遗漏任何一个单位 互斥原则:一个单位不能归属于几个组标志表现只标志表现只有一个值有一个值标志表

12、现在标志表现在一个区间一个区间组距?组限?变量值变动变量值变动区间的长度区间的长度相等相等2-40指每组两端表示各组界限的变量值,各组指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限的最小值为下限,最大值为上限每组变量值变动区间的长度,为上下限每组变量值变动区间的长度,为上下限之差之差连续式分组组距d=上限-下限 间断式分组组距d=上限-下限+12-41数据一共分为多少组数据一共分为多少组每组变量取值范围的中点数值每组变量取值范围的中点数值 2下限上限组中值=对于等距分组,组数n=R/d,其中R为全距,即R=最大标志值-最小标志值d=组距显然组距越大,组数越小,怎样选择组距和组

13、数比较合理?Nnlg33.31 其中N为样本单位数注意:连续型变量分组时上限的选取2-42变量数列中的组距数列组距数列编制比较复杂,下面主要研究它:(1)排序,找到最大最小值(2) 组数的确定在按实际情况稍做调整(3)组距的确定 R=Xmax-Xmin i=R/n(小数进一)(4)组限的确定(5)数出在每一组中的个体数(频数),计算频率,列表整理得到等距数列Nnlg33.31 2-43q对于离散变量,相邻组组限可以间断,也可重叠;q对于连续变量,相邻组组限必须重叠;q符合“上组限不计入”原则;q首末两组可使用“以下”及“以上”的开口组。2-44【例】根据抽样调查,某镇【例】根据抽样调查,某镇6

14、060户居民月消费资料如下,要户居民月消费资料如下,要求编制变量数列,形成次数分布。求编制变量数列,形成次数分布。753753845845740740723723891891860860563563556556670670998998663663790790925925589589683683776776700700703703639639807807708708715715643643661661545545671671780780708708667667701701500500612612650650840840778778777777775775889889653653631631948

15、9488278279109106986987607606236234154155235237637637387386476478358357707708788785785785695698058055165167687687757752-45第一步,先将第一步,先将6060个数据排序,找出最大值个数据排序,找出最大值998998和最小值和最小值415415,这个数列的全距这个数列的全距R R998-415998-415583583厘米。厘米。第二步,确定组数和组距:第二步,确定组数和组距:根据公式:根据公式:n = 1 + 3.33n = 1 + 3.33(lg60)(lg60)7,再根据实际

16、情况调整(因为全距再根据实际情况调整(因为全距583583,分,分6 6组可使每组组距组可使每组组距为为100100,分组后组限可取整)取组数为,分组后组限可取整)取组数为6 6,组距为,组距为100100第三步,确定组限:第三步,确定组限:第一组组限定为第一组组限定为400500400500;第二组第二组500600500600;依此类推,;依此类推,第六组为第六组为90010009001000也可以也可以第一组组限定为第一组组限定为500以下,第六组为以下,第六组为900及以上及以上2-46第四步,进行归组,即将各个变量值归入相应的组中,数第四步,进行归组,即将各个变量值归入相应的组中,数

17、出各个组中变量的个数,即为频数。出各个组中变量的个数,即为频数。第五步,计算频率。将各组频数除以总样本个数,即为频第五步,计算频率。将各组频数除以总样本个数,即为频率率各组单位数占总体单位总数的比重各组单位数占总体单位总数的比重频率=频数/总样本个数单位组距中的频数单位组距中的频数某组频数密度=该组频数/该组组距单位组距中的频率单位组距中的频率某组频率密度=该组频率/该组组距2-47月消费(元)月消费(元)户数户数频率(频率(%)400-50011.7500-600813.3600-70015250800-9001118.3900-100046.7合计合计60100

18、居民月消费分布表居民月消费分布表2-48第六步,绘图:一般绘制散点、折线或柱状图第六步,绘图:一般绘制散点、折线或柱状图如果是等距分组,如果是等距分组,EXCEL绘制折线图、散点图或柱绘制折线图、散点图或柱状图基本相似。但散点图需要再计算组中值,以组中状图基本相似。但散点图需要再计算组中值,以组中值为横坐标值为横坐标如果不是等距分组,则一般绘制散点图,需要计算如果不是等距分组,则一般绘制散点图,需要计算组中值,以组中值为横坐标。组中值,以组中值为横坐标。在其他分组类型中需要具体情况具体分析。例如:在其他分组类型中需要具体情况具体分析。例如:如果进行品质分组,无法绘制散点图,只能绘制折线如果进行

19、品质分组,无法绘制散点图,只能绘制折线图或柱状图,还可以通过绘制饼图表现分组后的结构。图或柱状图,还可以通过绘制饼图表现分组后的结构。单项式分组,一般绘制折线图或柱状图,也可以通过单项式分组,一般绘制折线图或柱状图,也可以通过绘制饼图表现分组后的结构。绘制饼图表现分组后的结构。2-49表示低于某分组上限的频数与频率。表示低于某分组上限的频数与频率。表示高于某分组下限的频数与频率。表示高于某分组下限的频数与频率。2-50消费分组消费分组频数频数频率频率(%)(%)向上累积向上累积向下累积向下累积频数频数频率频率/%/%频数频数频率频率/%/%400-500400-5001 11.71 1500-

20、600500-6008 813.39 9600-700600-700151525.02424700-800700-800212135.0800-900800-900111118.3900-1000900-10004 46.7合计合计60601002-51消费分组消费分组频数频数频率频率(%)(%)向上累积向上累积向下累积向下累积频数频数频率频率/%/%频数频数频率频率/%/%400-500400-5001 11.71 11.71.7500-600500-6008 813.39 915.015.0600-700600-700151525.0242440.040.0700-800700-80021

21、2135.0454575.075.05050800-900800-900111118.3565693.393.31515900-1000900-10004 46.760601001004 4合计合计60601002-52消费分组消费分组频数频数频率频率(%)(%)向上累积向上累积向下累积向下累积频数频数频率频率/%/%频数频数频率频率/%/%400-500400-5001 11.76060100100500-600500-6008 813.3595998.398.3600-700600-700151525.0515185.085.0700-800700-800212135.0363660.060.0800-900800-900111118.3151525.02510004 46.74 46.76.7合计合计60601002-53消费分组消费分组频数频数频率频率(%)(%)向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论