版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§2.1统计数据的来源数据来源直接来源间接来源试验出版物(或者网上等)问卷调查观察11、统计部门和政府部门公布的有关资料,如各类统计年鉴2、各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3、各类专业期刊、报纸、书籍所提供的资料4、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5、从互联网或图书馆查阅到的相关资料
一、统计数据的间接来源2在收集二手资料时要注意的几个问题:数据是谁搜集的?为什么目的而搜集的?数据是怎样搜集的?什么时候搜集的?在引用间接资料的时候要注明资料来源。3二、统计数据的直接来源统计调查(主要用来取得社会经济数据)科学试验(主要用来取得自然科学数据)
统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败
41、统计调查定义根据统计研究的目的和要求,运用科学的调查方法,有组织、有计划地向客观实际搜集各种原始资料的工作过程。简单地说就是得到个别事物原始资料的过程。2、资料的质量要求准确性及时性全面性经济性5(1)按调查对象所包括范围分:全面调查非全面调查(2)按调查登记时间连续性分:经常性调查一次性调查(3)按调查组织形式分:统计报表专门调查(4)按搜集资料方式不同:直接观察法采访法报告法问卷法3、统计调查的种类6总体单位调查单位7总体单位调查单位普查对全部单位进行调查8报表制度可以全面调查,但通常是调查限定规模以上的总体单位总体单位调查单位9总体单位调查单位抽样调查按随机原则选择调查单位,各单位被选中的机会相同。10总体单位调查单位重点调查只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位)11总体单位调查单位典型调查对典型单位进行调查,典型单位的选择并不一定按规模12普查:为某一特定目的而专门组织的非经常性全面调查。
☆通常是一次性或周期性的
☆一般需要规定统一的标准调查时间
☆数据的规范化程度较高
☆应用范围比较狭窄
☆我国普查规范化,制度化:年份末尾逢“0”人口普查、逢“3”第三产业普查、逢“5”工业普查、逢“7”农业普查。13统计报表:按照国家有关规定,自上而下统一布置,自下而上逐级提供基本统计资料的一种统计调查形式。
按调查范围分:全面报表非全面报表按报送周期分:日报月报季报年报14抽样调查:严格按照随机原则,从现象总体中抽选一部分单位作为样本进行调查,然后依据所取得的样本数据,对调查总体的数量特征作出具有一定可靠程度的推算和估计。☆随机原则抽选样本☆部分单位的资料推断总体数量特征☆肯定存在一定的抽样误差15三、统计调查方案基本内容:⒈确定调查的任务和目的;(为什么调查)⒉调查对象与调查单位;(向谁调查)⒊调查项目与调查表;(调查什么)⒋调查的时间和期限;⒌制定调查工作的组织实施计划。16三、统计调查方案1确定调查的任务和目的要求:(1)从研究工作需要出发,抓住实际生活中最重要的问题(2)从调查对象实际出发,把需要和可能结合起来2确定调查对象和调查单位17三、统计调查方案3调查项目和调查表满足:(1)拟定的项目应满足调查目的(2)按照需要与可能的原则,只列出能得到确切答案的项目,且对项目的提法要具体明确(3)确定的调查项目之间要尽可能做到互相联系,以便于核对答案的准确性(4)明确规定调查项目的答案形式18调查表:表头表体表脚说明词:调查表名称、调查单位、解释调查意义、表达感激之情等主题问句:被调查者基本情况、调查项目作业记录:填报时间、填报人等19示例旅游及生活方式调查问卷旅游1、您是否喜欢旅游?是□否□如果是,在3年内计划去哪?中国□亚洲□欧洲□美国□澳洲□其他□如:
2、当您旅游度假时选择哪种住宿?别墅□公寓□酒店客房□其他□如:
3、您通常与谁一同旅游度假?夫妻小孩□亲友□朋友□其他□如:
4、他们有护照吗?有□没有□5、您是否希望我们帮助您办护照呢?是□否□6、您旅游度假时通常使用:信用卡□支票□现金□生活方式1、您是否已成为以下俱乐部的会员?高尔夫俱乐部□健身俱乐部□网球俱乐部□美容院□其他□如:
202、您现在的住房是:自购别墅□自购公寓□公司房□租住别墅□租房□与家人亲戚同住□3、您的交通工具是:私家车□公司车□打的□摩托车□其他如:4、婚姻状况:已婚□单身□同居□5、您的职业:您的职务:老板□总裁□经理□职员□其他□如:————您的年龄:低于26岁□26~39岁□40~59岁□60岁以上□6、您配偶的职业:您配偶的职务:老板□总裁□经理□职员□其他□如:您配偶的年龄:低于26岁□26~39岁□40~59岁□60岁以上□217、你们夫妻双方的月收入合计(人民币/月)1000元~4000元□4000元~8000元□8000元~15000元□15000元以上□您的姓名
您的地址
您的得奖联系电话为:家庭
手机
幸运号码NO:0012083-----------------------------------------------------------------------------感谢您的宝贵时间NO:0012083为了感谢您的帮助,主办人将把所有填写完整的调查问卷存入电脑抽奖系统,该系统将赠一批高质量礼品给幸运中奖者,请保存您的回执单。祝您好运!××公司地址:××××联系电话:××22课外练习1、大学生消费结构调查2、大学生创业意向调查3、大学学习时间分配调查4、大学生图书馆使用调查5、大学生人际关系调查6、大学生电脑使用调查7、大学生就业调查8、大学生心理健康调查9、大学生困惑/困难问题调查23三、统计调查方案4调查时间和调查期限5制定调查工作的组织实施计划内容:(1)调查工作组织领导机构与人员组成(2)调查的方式方法(3)调查的工作规则和流程(4)调查前准备工作(5)其他工作24是统计调查的继续,统计分析的前提和基础地位统计整理将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程§2.2统计数据的整理251、概念
根据统计研究的目的和客观现象的内在特点,按某个分组标志(或几个分组标志)把统计总体分为若干组成部分。2、目的一、统计数据的分组
把同质总体内具有不同性质的单位分开,把相同性质的单位合并在一起,保持各组内统计资料的一致性和组与组之间资料的差异性。263、原则穷尽原则互斥原则例1:从业人员按文化程度分组小学毕业中学毕业(含中专)大学毕业文盲或识字不多小学毕业中学毕业(含中专)大专毕业大学及大学以上
(√)(×)例2:某商场把服装分为①男装、女装、童装。(×)②成年装(男女装)儿童装(男女装)(√)274、种类按分组标志的多少不同简单分组复合分组按分组标志的性质不同品质标志分组数量标志分组28例1为了了解某地区银行存款的构成,可以选用存款性质、期限两个标志分别进行分组:按存款性质分组企业存款储蓄存款财政性存款按存款期限分组活期存款定期存款简单分组复合分组存款同时按其性质及期限分组企业存款活期定期储蓄存款活期定期财政性存款活期定期例2企业职工按工龄分组:5年以下5~10年10~15年15~20年20年以上品质标志分组数量标志分组291、分配数列:统计分组后,将总体的所有单位按组归类排序,列出各组的总体单位数,形成一个数列。次数(频数):各组的总体单位数,用f表示;频率:各组单位在总体单位中所占比重,用f/∑f表示。2、品质分组的方法:按品质标志分组形成的数列
二、统计分组的方法性别人数男30女28303、数量分组的方法:按数量标志分组形成的分配数列。(1)单项式分组:每一组变量值只有一个。(2)组距式分组:每一组数值由两个变量值所确定的一个数值范围表示。4、统计分组中的几个概念(1)组限:分组的数量界限,分为上限和下限(2)组距:各组上限与下限之差。等距分组异距分组。(3)闭口组:上限和下限都齐全的组。(4)开口组:上限和下限只具备其一的组。(5)组中值:各组上限和下限的中点值。闭口组:组中值=(上限+下限)/2缺下限开口组:组中值=上限-邻组组距/2缺上限开口组:组中值=下限+邻组组距/231三、组距数列的编制1、等距分组步骤:(1)排序(2)计算全距R(3)确定组数n(4)计算组距i经验值公式(5)确定组限以最小组下限小于半个组距为最好。连续型变量:相邻组的组限必须重叠;“上限不在内”原则。离散型变量:相邻组组限必须间断,同时又能相互衔接。(6)计算各组的频数和频率(7)计算累计频数和累计频率32例:现有33个国家的人口平均寿命如下表所示,要求进行等距分组。(n=4)525354566365666767687070717272737474747576767777808080808181828383解:(1)排序;(2)全距R=83-52=31;(3)n=4;(4)组距i=31/4=7.75,取整为10;(5)最小组下限为52-5=47平均人口寿命频数频率向上累计频数向下累计频数47-57412%43357-6739%72967-771546%222677-871133%3311合计33100%----------33三、组距数列的编制2、异距分组:在标志值变动很不均匀,变动幅度大,遇极偏斜的次数分配等情况下,采用异距分组。例:某地工资水平密集分布于600-2000元,其他部分则分布十分稀少,若以500元为组距进行等距分组,则会使得这一密集的工资段分布信息丢失过大。因此,应在总体单位密集处采用较小的组距,在总体单位稀少处采用较大组距,形成各组组距不等的异距分组。反映单位组距内分布的次数34四、间接来源资料的再分组例:某县各村农民收入分组如左表所示,为了便于对比分析,需要将原有报表资料再分组成为现行报表规定分组的资料右表。平均收入(元)农村数累计310-4005252400-600136188600-900350538900-12004069441200以上561000合计1000----平均收入(元)农村数400以下?400-500?500-800?800-1000?1000-1200?1200以上?合计100052683012522715635五、频数分布的主要类型1、正态分布(钟型分布)正态分布2、U型分布U型分布3、J型分布正J型分布反J型分布右偏分布左偏分布4、偏分布36§2.3分布集中趋势的测度一、算术平均值二、调和平均值三、几何平均值四、切尾平均值五、中位数六、众数七、四分位数八、众数中位数和均值的关系37一、算术平均值(arithmeticalmean)集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据38简单算术平均值(simplearithmeticalmean)设一组数据为:x1,x2,…,xn总体均值样本均值39加权算术平均值(weightedarithmeticalmean)设一组数据为:x1,x2,…,xk相应的频数为:f1,f2,…,fk总体均值样本均值40加权均值
(例题分析)
41均值(数学性质)1. 各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小42二、调和平均值(harmonicmean)设一组数据为:x1,x2,…,xn1、简单调和平均值是各个变量值倒数的自述平均数的倒数。43例:某种蔬菜价格,甲市场3.5元/斤,乙市场4.1元/斤,丙市场4.6元/斤,若在以上市场上各买1元蔬菜,求平均每斤蔬菜多少钱?2、加权调和平均值44算术平均值与调和平均值关系按价格分组(元)组中值销售额90-100959500100-11010521000110-12011511500合计----42000例:某商场销售某种品牌皮鞋,由于季节原因,售价有所波动,按售价分组如表所示,求平均每双皮鞋的价格。45算术平均值与调和平均值关系按价格分组(元)组中值销售量90-10095100100-110105200110-120115100合计----40046三、几何平均值(geometricmean)
n个变量值乘积的
n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为5.可看作是均值的一种变形47几何平均值
(例题分析)【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。算术平均:
几何平均:48四、切尾平均值(trimmedMean)去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为n表示观察值的个数;α表示切尾系数,
49切尾平均值
(例题分析)【例】某次比赛共有11名评委,对某位歌手的给分分别是:经整理得到顺序统计量值为去掉一个最高分和一个最低分,取1/11
50五、中位数(median)1.排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据51数值型数据的中位数
(9个数据的算例)【例】
9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数
1080
52数值型数据的中位数
(10个数据的算例)【例】:10个家庭的人均月收入数据排序:
660
75078085096010801250150016302000位置:1234
5678910
53总结:未分组数据中位数确定:(1)将标志值排序(2)确定中位数所在位置=(n+1)/2n奇数,数列最中间的那个数就是中位数。n偶数,最中间两个数的算术平均值是中位数。54分组数据中位数的确定(1)按分组标志值由小到大排序(2)确定中位数位置中位数所在组称为中位数组55分组数据中位数的确定Me:表示中位数L:表示中位数组的下限fm:表示中位数组的次数Sm-1:表示中位数组以前各组的累积次数(向上累计)Sm+1:表示中位数组以后各组的累积次数(向下累计)i:表示中位数组的组距(3)由公式计算中位数下限公式:上限公式:56例:某厂工人月收入情况如表所示,试计算中位数值。月收入额(元)工人数向上累计向下累计500-6002424300600-7004872276700-800105177228800-90060237123900-100027264631000-110021285361100-120012297151200以上33003合计300--------57解:所以,中位数应在第三组中,即中位数组为700-800同时,f3=105,s2=72,s4=123,L=700,U=800,i=100,58六、众数(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据59众数(不惟一性)无众数
原始数据:10591268一个众数
原始数据:65
9855多于一个众数
原始数据:252828
36424260对于分组数据,众数计算方法:MO:表示众数L:表示众数组的下组限表示众数组次数与前一组次数之差表示众数组次数与后一组次数之差i表示众数组的组距(1)确定众数所在组(2)采用下面的近似公式计算众数下限公式:上限公式:61例:某厂工人月收入情况如表所示,试计算众数。月收入额(元)工人数向上累计向下累计500-6002424300600-7004872276700-800105177228800-90060237123900-100027264631000-110021285361100-120012297151200以上33003合计300--------62解:(1)众数组为700-800(2)代入下限公式计算众数63七、四分位数
(quartile)排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%64四分位数(位置的确定)原始数据:分组数据:65数值型数据的四分位数
(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789
66数值型数据的四分位数
(10个数据的算例)【例】:10个家庭的人均月收入数据排序:
660
75078085096010801250150016302000位置:1234
5678910
67八、众数中位数和均值的关系左偏分布均值
中位数
众数对称分布
均值=中位数=
众数右偏分布众数
中位数均值68众数、中位数、均值的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用69§2.4分布离散程度的测度一、极差二、内距三、方差和标准差四、离散系数70一、极差(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910R
=max(xi)-min(xi)计算公式为71二、内距(Inter-QuartileRange,IQR)
也称四分位差上四分位数与下四分位数之差
内距=Q3
–Q1反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性72三、方差和标准差
(VarianceandStandarddeviation)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012
x=873总体方差和标准差
(PopulationvarianceandStandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式74样本方差和标准差
(simplevarianceandstandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!75样本方差
自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n
时,若样本均值
x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则
x=5。当
x
=5
确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量76四、离散系数(coefficientofvariation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为77离散系数(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第三章热力学定律章末素养提升课件高二下学期物理人教版选择性必修第三册
- 江苏泰兴市实验初中教育集团2025-2026学年下学期九年级数学综合练习(含解析)
- 中储粮2024财务岗面试逐字稿配套题库 直接套用就行
- 2026统计数据分析题必刷题库 覆盖100%考点
- 2022《语言学概论》考前冲刺真题卷刷完提分30+
- 2026河北省初中物理寒假预习专用模拟题及详解答案
- 2022年阿斯利康合规测试内部专属答案速查手册
- 2025年《语言学概论》真题练习卷
- 湖南衡阳市成章实验中学2025-2026学年下学期八年级第一次学情自测数学试题(含解析)
- 而且还被要求签了协议书
- 医院体检质控月度分析记录
- 湖北省云学联盟2025-2026学年高二下学期3月学科素养测评数学试卷(含答案)
- 2026江苏南通市专用通信局招聘工作人员2人(事业编制)考试参考题库及答案解析
- 2026年北京市自来水集团有限责任公司校园招聘笔试备考题库及答案解析
- 2026四川成都未来医学城第一批面向社会招聘高层次人才8人考试参考试题及答案解析
- 三年级科学下册一单元第6节《设计指南针》课件
- pvc产品质量管理制度
- 【2026年中考复习】全国中考物理真卷综合能力题100道(上)
- 2026年宁夏财经职业技术学院单招职业技能测试题库附参考答案详解(夺分金卷)
- 一人公司发展研究报告2.0
- 内蒙古东岳乌拉特中旗乌兰西萤石矿建设项目环境影响报告书
评论
0/150
提交评论