运输数据分析与挖掘任务数据分析的统计基础课件_第1页
运输数据分析与挖掘任务数据分析的统计基础课件_第2页
运输数据分析与挖掘任务数据分析的统计基础课件_第3页
运输数据分析与挖掘任务数据分析的统计基础课件_第4页
运输数据分析与挖掘任务数据分析的统计基础课件_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运输数据分析与挖掘任务4数据分析的统计基础CONTENT目录知识点1统计的含义和种类知识点2统计调查的基本术语知识点3统计方法1.熟悉统计的含义及特点;2.了解统计的基本术语和特点;3.掌握数据统计的方法和种类;学习目标i知识点1

统计的含义和种类一、统计的含义吸烟导致肺癌,抗生素治疗胃溃疡,锻炼有助于预防心脏病……我们怎么知道这些?因为科学家有统计数据证明。2025/4/15

第一章总论什么是统计?正常条件下新生婴儿的性别比为107:100投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6农作物的产量与施肥量之间存在相关关系2025/4/15

第一章总论

统计是以数据为食物的动物

?统计的本业是消化数据,并产生有营养的结果。它的本质,和母牛相差不多。

2025/4/15

第一章总论Data——Statistics——Information

Grass——Cow——Milk2025/4/15

第一章总论统计statistics,一般是指统计工作或统计科学1.统计工作收集数据的活动2.统计数据对现象计量的结果3.统计学分析数据的方法与技术2025/4/15

第一章总论统计学经济学管理学医学工程学社会学…统计学的应用领域统计工作即统计实践活动,是人们利用各种科学的统计方法,搜集、整理、分析预测和提供统计资料等工作的总称。统计的含义之一一个完整的工作过程一般包括:统计设计、统计调查、统计整理、统计分析四个环节。2025/4/15

第一章总论统计工作:一、统计的含义之一政府统计:国家统计局、职能部门企事业单位统计:企业统计机构等经营统计:调查咨询公司、统计事务所等其它:如研究性统计机构等2025/4/15

第一章总论统计资料(统计信息):统计工作过程中所取得的各项数字资料及与之相关的其它资料的总称;

统计资料包括:原始资料;次级资料即整理后的资料统计资料的表现形式有:统计表、统计图、统计报告、统计公报和统计年鉴等。统计的含义之二2025/4/15

第一章总论统计学统计的含义之三

即统计理论,是统计工作实践经验的总结和理论概括。是研究如何对客观事物数量方面进行调查、整理和分析的原理、原则与方式、方法的科学。

科学的定义:统计学是一门关于数据资料的收集、整理、分析和推断的科学。总之,统计包含三种涵义,两重关系统计工作统计资料统计学工作与工作成果关系实践与理论关系总而言之,统计是适应社会政治经济的发展和国家管理的需要而建立起来的,其发展与社会生产力的发展紧密联系在一起。2025/4/15

第一章总论二、统计研究的特点数量性总体性具体性变异性2025/4/15

第一章总论但应注意,统计学研究现象的数量方面,不同于数学上研究的纯数量.例如:要了解哈尔滨市重工业产值重工业是为国民经济各部门提供技术装备、动力和原材料的工业,包括采掘工业、原材料工业和制造工业。2025/4/15

第一章总论统计研究的是大量社会经济现象中具体事物的数量方面,是在一定时间、地点、条件下发生的。又称大量性或综合性,统计研究的着眼点是大量社会经济现象总体。不排除从个别现象入手,是手段而不是目的。1、客货运输量

运输数据统计内容2、装卸搬运量3、汽车维修产量4、运输总产值、净产值、增加值5、运输线路、运输工具、劳动力数量、劳动时间6、运输安全质量、运输财务成本知识点2统计的基本概念2025/4/15

第一章总论总体即统计总体,是指要调查或统计的某一现象的全部数据的集合。一、总体与总体单位

总体单位即构成统计总体的个别单位或个别事物。是各项统计数字的原始承担者。

2025/4/15

第一章总论无限总体:含无限多个单位范围有限总体:含有限个单位差异性同质性大量性特点请思考?总体和总体单位的关系?2025/4/15

第一章总论

总体和总体单位的关系:

在一次特定范围、目的的统计研究中,统计总体与总体单位是不容混淆的,二者的含义是确切的,是包含与被包含的关系。但是随着统计研究任务、目的及范围的变化,统计总体和总体单位可以相互转化。

2025/4/15

第一章总论总体、总体单位总体、总体单位总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。总体与总体单位相对性示例2025/4/15

第一章总论课堂练习请同学们来判断:1、若欲对全国人口进行调查;2、若欲对全省农户进行调查;3、若欲对牡丹江市工业企业进行调查;4、若对农经学院各班情况进行调查;5、若对农经学院会审071班学生情况进行调查问:何为总体?个体?有限总体?无限总体?在4和5题中,班级是个体还是总体?转化的条件是什么?▼

12345总体个体2025/4/15

第一章总论(一)标志的概念标志是说明总体单位所共同具有的属性和特征的名称。

工业企业作为总体单位具有哪些标志?(二)分类1、按标志本身性质分为:(1)品质标志:说明总体单位的属性特征的标志。(2)数量标志:说明总体单位的数量特征的标志。

二、标志与标志表现请思考2025/4/15

第一章总论标志性别年龄民族宗教信仰政治面貌身高体重品质标志不变标志数量标志可变标志专业

班级

2025/4/15

第一章总论课堂练习请同学们判断以下标志为数量标志还是品质标志:

1、乡镇个数;2、新开企业代码;3、国家基建占地数量;4、农用车牌号;5、企业规模编码;6、发电量;7、企业经济类型;8、企业经济类型编码;9、牛奶产量;10、大牲畜总量▼

12345678910数量标志质量标志2025/4/15

第一章总论2、标志按变异情况可分为:可变标志不变标志一个标志在总体各单位的具体表现都相同,即标志表现无差别。一个标志在总体各单位的具体表现不完全相同,即标志表现有差别。可变标志决定总体的差异性不变标志决定总体的同质性2025/4/15

第一章总论“凡是统计调查研究的标志都是可变标志,是统计研究关注的重点”。不变标志是划分总体范围的依据。请判断2025/4/15

第一章总论(三)标志表现:即标志特征在各单位上的具体表现。数量标志的标志表现又称标志值.1、标志表现是最基础的统计资料,是形成指标数值的原材料。2、就一个品质标志或数量标志而言,其具体表现可能多种多样,不能将标志与标志表现混为一谈。

请注意思考邮政编码类型?标志和标志表现的关系?品质标志和数量标志的标志表现有何异同?思考2025/4/15

第一章总论标志性别年龄民族宗教信仰政治倾向身高体重男汉族佛教无党派43岁182cm75公斤标志表现品质标志文字表述数量标志数据表述标志是统计所要调查的项目,标志表现则是调查所得的结果2025/4/15

第一章总论2004年,我国城镇新增就业人数980万人,比预期目标多80万人;年末城镇登记失业率为4.2%;城乡居民收入增长较快。全年城镇居民人均可支配收入9422元,比上年实际增长7.7%;农民人均纯收入达到2936元,实际增长6.8%,是1997年以来增长最快的一年。年末城乡居民人民币储蓄存款余额达119555亿元,比上年末增加15929亿元。案例资料三、统计指标2025/4/15

第一章总论统计指标反映社会经济现象总体数量特征的概念及其具体数值12.852002末中国总人口亿人时间限制空间限制指标名称具体数值计量单位计算方法综合性数量性具体性具体构成要素:特点:2025/4/15

第一章总论统计指标是数量范畴,“没有无数量的指标”。某系男生数量占全系学生数的比重为100%某系学生的性别为男×数量性“男”不是数量,因此这不是指标,而是标志。2025/4/15

第一章总论总体在具体时间、地点、条件下的数量特征,即统计指标“质的规定性”。

住本地(乡、镇、街道),户口在本地;住本地半年以上,户口在外地;住本地不满半年,离开户口登记地半年以上;住本地,户口待定;原住本地,现在国外工作或学习。常住人口指标解释具体性2025/4/15

第一章总论对总体数量特征的综合说明,是由个体数量综合而来的。平均分数赵大60分+钱二78分+孙三80分+李四55分+……+上官95分+欧阳76分全班学生数综合性2025/4/15

第一章总论(四)种类1、按所说明的总体现象的内容不同:

数量指标:反映现象总规模水平或工作总量的指标,也称总量指标或绝对指标。一般通过数量标志值直接汇总而来,用绝对数表示,表示事物外延量的大小,广度.是最基本的指标,指标数值均有单位,是计算其他指标的基础。例如,人口总数、工业企业数、总产量、利润额、产值、耕地面积等。2025/4/15

第一章总论

质量指标:说明总体现象相对水平或工作质量的统计指标。又分为相对指标和平均指标,分别用相对数和平均数表示,它们通常是由两个总量指标对比派生出来的,反映现象之间内在联系和对比关系。表示的是事物内涵量的状况,深度,又叫派生指标.如性别构成、单位成本。2025/4/15

第一章总论2

、按其表现形式不同,分为:

总量指标:以绝对数形式反映社会经济现象总体规模或总水平的统计指标。

相对指标:说明社会经济现象发展过程中两个相互联系的指标对比关系。③平均指标:总体各单位某一数量标志值一般水平的统计指标。2025/4/15

第一章总论实物单位自然单位度量衡单位标准实物单位价值单位劳动单位多个单位的结合运用:复合单位双重单位多重单位(如:人·次、吨·公里)(如:人/平方公里)(如:艘/吨/千瓦)适用范围综合能力差强大小如:台、件如:米、平方米如:标准吨如:工日、工时如:元2025/4/15

第一章总论

标志是说明总体单位特征的;指标是说明总体特征的。标志中的品质标志不能用数量表示;而所有的指标都能用数量表示。区别四、指标与标志的关系

对数量标志的标志值汇总可以得到指标的数值.

随着总体和总体单位的变换,指标和数量标志之间有一个变换的关系。联系2025/4/15

第一章总论变量指可变的数量标志和所有的统计指标。变量值指变量的具体数值表现。

离散变量——只能取整数变量值的变量

连续变量——可以取小数变量值的变量.按取值是否连续五、变量思考年龄这一变量的类型?

2025/4/15

第一章总论连续型变量连续性变量的数值是连续不断的,任意两个变量值之间可以做无限分割。人的身高、体重、产品的产量(重量、体积、面积等),产值、销售额等价值量需要使用度量工具取值身高的例子:165166165.1165.2●●知识点3统计的方法数据类型的分类1、计量资料(measurementdata)用仪器、工具等测量方法获得的数据,又称数值变量。特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.2、计数资料(countdata)按某种属性分类计数后得到的数据,又称无序分类变量,有二分类和多分类两种情形.特点:无计量单位,如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(1=男,2=女)等.3、等级资料(ordinaldata)半定性或半定量的观察结果,有大小顺序,又称有序分类变量.如①癌症分期:早、中、晚。

②药物疗效:治愈、好转、无效、死亡。

③尿蛋白:

,,,++,+++及以上住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局20256552716571.55无中学顺产足月20256532216074.05无小学助产足月20258302515868.06管理员大学顺产足月20225432316169.05无中学剖宫产足月20224662515962.011商业中学剖宫产足月20245352715768.02无小学顺产早产20258342015866.04无中学助产早产20194642415870.53无中学助产足月20257832915457.07干部中学剖宫产足月实例数据计量资料计数资料三类资料间关系

例:一组20

40岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数

<8低血压

8

正常血压

12

轻度高血压

15

中度高血压

17

重度高血压计量资料等级资料计数资料一般统计方法根据数据的类型可以分为以下三种统计方法1、计量资料的统计方法**2、计数资料的统计方法3、等级资料的统计方法运用统计方法应遵循的原则坚持用数据说话的基本观点。有目的地收集数据。掌握数据的来源。认真整理数据。计量资料的统计分析1、频数分布(frequencydistribution)为了了解数据的分布情况,可以编制频数表(frequencytable).(1)求极差(range):即最大值与最小值之差,又称为全距。(2)数据分组:由样本容量n确定组数、通常分10-15个组;一般采取等距分组,组距=极差/组数。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。频数表的编制步骤编号血清甘油三脂编号血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77

表2-1:160名正常成年女子的血清甘油三酯(mmol/L)

组段(1)划记(2)频数,f(3)组中值,X(4)

fX(5)=(3)×(4)0.5~

30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8

合计

31.755.25160182.30编制频数表,绘制频数分布图对称分布:以频数最多组段为中心左右大体对称.右(正)偏态分布:频数最多组段右侧组段数多.(skewedtotherightdistribution)左(负)偏态分布:频数最多组段左侧组段数多.(skewedtotherightdistribution)2、集中趋势的描述

统计上使用平均数(average)来反映计量资料的集中趋势(centraltendency).常用平均数有:

1.算术均数(arithmeticmean),简称均数(mean)

2.几何均数(geometricmean)

3.中位数(median)

4.百分位数(percentile)3、离散趋势的描述反映数据的离散度(Dispersion),即个体观察值的变异(variation)程度,常用的统计指标有:

1.极差(Range)

(全距)

2.四分位数间距(Quartilerange)

3.方差(Variance)

4.标准差(StandardDeviation)

5.变异系数(CoefficientofVariation)四分位间距:QR=P75-P25三、SPSS实现计量资料的统计分析下面是SPSS软件中绘制频数图的步骤四、计数资料的统计分析住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月1、计数资料数据的整理按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计18

2

0

0

0

3

0

520

9

2

610

18

0

452228

71024

70111502450342852153443612650432545133703662834351034

78572483011141122

39171143214

2

314

24

3

6034

4

2

5

3

12

2

2836

2

1

1

4

5

1

1438

3

1

1

0

2

1

840

0

0

2

0

0

0

2合计

207

14110220853720614012、常用相对数指标计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)×比例基数比例基数:100%、1000‰、10000/万、100000(1/10万)等如:发病率、死亡率、发生率、阳性率、患病率等构成比(proportion):说明某一事物内部,各组成部分所占的比重,也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)×100%

如:教研室20人中高级职称有5人,占25%。相对比(relativeratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生:护士、教师:学生年龄组⑴受检人数⑵白内障例数⑶患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.36

1468448100.0030.52例:患病率与构成比五、统计表与统计图

统计表(statisticaltable)——数据代替文字描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论