版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章
数据与统计分析1第1章数据与统计分析——目录1.1数据1.2数据来源1.3统计分析1.4统计软件21.1数据——定义数据是对现象进行计量的结果。3地区年末常住人口/万人城镇人口/万人乡村人口/万人北京市21711878293天津海市24182121297江苏省802955212508浙江省565738471810表1-1
中国东部地区2018年人口分布情况地区年末常住人口/万人城镇人口/万人乡村人口/万人北京市21711878293天津海市24182121297江苏省802955212508浙江省5657384718101.1数据——个体、变量和观测值4在研究中,对每个个体的每一变量收集测量值,从而得到数据(data)。个体(element)是指收集数据的对象。变量(variable)是个体的特征或属性。观测值(observation)是数据集中每个个体的测量值集合。观测值个体变量表1-1
中国东部地区2018年人口分布情况51.1数据——定性数据和定量数据取值是否能排序否是是否有比例属性否是定性数据定量数据名义数据顺序数据定距数据定比数据是否能用数值表示是否变量是否连续连续变量离散变量是否61.1数据——定性数据和定量数据√√√√定比数据√√√定距数据√√√
分类(=,≠)排序(<,>)
间距(+,-)比值(×,÷)顺序数据名义数据四种计量尺度的比较计量尺度数学特性“√”表示该尺度所具有的特性注:
定性数据可以用数值变量表示,但不可看作是数值型数据。处理定量数据也可转化为定性数据(如年龄→老年、中年、青年、儿童)71.1数据——截面数据和时间序列数据按照被描述的现象与时间的关系截面数据(cross-sectionaldata)是在相同或近似相同的时间点上收集的不同个体的数据,用于描述现象在某一时刻的变化情况。时间序列数据(timeseriesdata)是在不同时间点上收集的同一个体的数据,用于描述现象随时间的变化情况。地区年末常住人口/万人城镇人口/万人乡村人口/万人北京市21711878293天津海市24182121297江苏省802955212508浙江省565738471810表1-1
中国东部地区2018年人口分布情况81.1数据——截面数据和时间序列数据截面数据91.1数据——截面数据和时间序列数据时间序列数据年度中央财政债务余额/亿元国内债务/亿元国外债务/亿元2018149607.42148208.621398.802017134770.15133447.431322.722016120066.75118811.241255.512015106599.59105467.481132.11201495655.4594676.31979.14表1-2
中央财政债务余额情况101.2数据——直接来源和间接来源调查或实验间接来源:别人通过调查或实验的方式收集的,使用者只是找到它们并加以使用。系统内部数据;或从公开出版、公开报道的信息中获得优点:收集方便、数据采集快、采集成本低等等缺点:针对性不够
调查(survey)通常针对社会现象。普查:调查针对总体中的所有个体;抽样调查:总体、样本、样本量(举例)。实验(experiment):在控制条件下进行的(举例)。直接来源:自己直接调查或实验获得的一手数据。使用二手数据时应注意以下几点:数据的含义数据搜集的时间计算口径计算方法数据的可信度111.2数据——直接来源和间接来源121.2数据——直接来源和间接来源(调查vs实验)抽样调查研究问题:一个班的平均身高,按一定的规律抽出20个同学的身高研究。总体:这个班的所有同学的身高。个体:A同学的身高就是1个个体。样本:20个同学的身高。样本容量:20。实验研究问题:糖宁胶囊联合利拉鲁肽对2型糖尿病治疗是否有效。实验方法:对照组皮下注射利拉鲁肽注射液,治疗组在对照组基础上口服降糖宁胶囊,然后收集每组每个人治疗前后的血糖数据。最后数据的统计分析将会有助于了解该药的治疗效果。131.3数据——什么是统计学统计学描述统计(descriptivestatistics):是将数据以表格、图形或数值形式汇总的统计方法。推断统计(inferencestatistics):利用样本数据信息对总体特征做出推断,包括参数估计和假设检验两大类。统计学(statistics):一门分析数据的科学,涉及数据的收集、整理、分析及对数字信息的解释。141.3数据——什么是统计学(推断统计)样本平均值数据对总体平均数进行估计总体:用新灯丝生产的所有灯泡的平均寿命未知200个用新灯丝制成的灯泡200个用新灯丝制成的灯泡的平均寿命为760小时抽样获得样本数据推断统计的过程151.4数据——统计软件SPSS:目前国内应用最为广泛的统计软件Excel:不是专业的统计软件,但包含一些基本的统计方法,容易上手R:专业统计人员最常用的统计软件第2章
数据的图表描述16第2章数据的图表描述——目录2.1单个定性变量的数据描述2.2单个定量变量的数据描述2.3两个变量数据的表格描述2.4两个变量数据的图形描述2.5数据可视化:创建有效图形172.1单定性变量的数据描述定性数据是非数值型的,因此只能对其进行分组(类)处理频数分布(频数、相对频数、百分数频数)条形图饼形图18频数(frequency):落在某一特定组别中的观测值个数相对频数(relativefrequency):频数除以总观测值个数(n)百分数频数(percentagefrequency):相对频数乘以100%192.1单定性变量的数据描述——频数百分数频数=相对频数×100%相对频数=频数/n2.1单定性变量的数据描述——频数分布表(实例)202.1单定性变量的数据描述——频数分布表(实例)212.1单定性变量的数据描述——频数分布表(实例)222.1单定性变量的数据描述——条形图条形图(barchart):对已汇总定性数据的频数分布进行直观描述的一种图形表示方法。用宽度相同的条形的高度来表示各类别数据的频数(条形高度与类别频数成正比)。绘制条形图时,各类别可以放在纵轴,也可以放在横轴。类别放在横轴的条形图也可称为柱形图(columnchart)。232.1单定性变量的数据描述——条形图24图2-1
购买手机品牌的条形图2.1单定性变量的数据描述——饼形图
252.1单定性变量的数据描述——饼形图26图2-2
购买手机品牌的饼形图
272.2单个定量变量的数据描述——频数2.2单定量变量的数据描述——频数分布表(实例)282.2单定量变量的数据描述——频数分布表(实例)29
2.2单定量变量的数据描述——频数分布表(实例)302.2单定量变量的数据描述——频数分布表(实例)312.2单定量变量的数据描述——直方图直方图(histogram):用矩形的宽度和高度(即面积)来表示频数分布的定量数据的图形描述方法。在直角坐标中,用横轴表示数据分组,纵轴表示频数分布,各组与相应的频数就形成了一个矩形,即直方图。32图2-5
考试成绩的直方图2.2单定量变量的数据描述——条形图vs直方图条形图用条形的高度(纵置时)表示各类别频数的多少,其宽度没有意义,是固定的。直方图用矩形的宽度和高度(即面积)来表示频数分布,其高度和宽度均有意义。条形图的条形是分开排列的,而直方图的矩形是连续排列的。332.2单定量变量的数据描述——累积频数34累积频数(cumulativefrequency):将各类有序组别的频数逐渐累加起来得到的频数。可用于描述定量数据或顺序数据表示小于或等于每一组上组限的数据个数。2.2单定量变量的数据描述——累积频数352.2单定量变量的数据描述——茎叶图茎叶图(stem-and-leafplot):用于显示未分组的原始数据的分布,既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。茎叶图由“茎”和“叶”两部分构成,以“17”为例:该组数据的高位数值作树茎“1”,低位数字作树叶“7”。362.2单定量变量的数据描述——茎叶图37图2-6考试成绩的茎叶图2.2单定量变量的数据描述——直方图vs茎叶图直方图可以直观看清数据分布的总体趋势,但是得不到原始的数据内容。茎叶图不仅可以看出数据的分布,还能保留原始数据的信息。制作茎叶图不需要对数据进行分组,当数据量较少时,用茎叶图更容易观察数据的分布。茎叶图的数据可以随时添加数据,方便记录与表示。茎叶图和直方图的应用取决于总体中的个体数。当总体中的个体取值较少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,选择直方图。382.3两个变量数据的表格描述——交叉分组表交叉分组表(crosstable),也称列联表(contingencytable):用于分类观测值的表格描述方法,是观测数据按多个变量分类所列出的频数表。交叉分组表提供了两个变量之间的相互关系的基本画面,可以帮助我们发现它们之间的相互作用。交叉分组表中的两个变量,可以是定性数据或者定量数据。392.3两个变量数据的表格描述——交叉分组表402.3两个变量数据的表格描述——辛普森悖论412.3两个变量数据的表格描述——辛普森悖论422.4两个变量数据的图形描述——散点图
432.4两个变量数据的图形描述——散点图44图2-10北京市旅游人数与餐饮业收入的散点图2.4两个变量数据的图形描述——线图线图(linechart):变量以时间为序的图形描述方法。绘图时,以时间为横轴,以变量值为纵轴。时间序列数据通常以线图的形式来表示。45图2-1204-18年北京市旅游人数的时间序列图2.4两个变量数据的图形描述——复合和结构条形图复合条形图和结构条形图均是在条形图的基础上进行的拓展,可以用于显示和对比多个数据变量。复合条形图(side-by-sidebarchart):同时显示已汇总的多个条形图的一种图形描述方法。结构条形图(stackedbar):其每一个长条被分解为不同段,每段显示该组数据的相对频数。462.4两个变量数据的图形描述——复合和结构条形图47图2-13复合条形图图2-14结构条形图2.4两个变量数据的图形描述——环形图环形图(doughnutchart):由两个及两个以上大小不一的饼图叠在一起,挖去中间部分所构成的图形。类似于结构条形图,环形图同样可以用来描述数据总体结构并对不同数据系列进行直观对比。环形图中,每个样本用一个环来表示,样本中的每组数据的相对频数(百分数频数)用环中的一段表示。482.4两个变量数据的图形描述——环形图49图2-15环形图2.5数据可视化——创建有效的图形创建有效的图形显示是科学也是艺术。作为单独的图形,简单的永远是最好的。标题要清晰、简明。图形要保持简洁,能用二维表示时不要用三维。轴有清楚的标记,并给出测量的单位。使用颜色区分类别时,要确保颜色有明显差异。用图例来标明多种颜色或线型时,要将图例靠近所表示的数据。所设计的图形应有助于洞察问题的实质,避免歪曲事实。502.5数据可视化——选择图表的类型51用于显示数据分布的图形描述方法:·条形图展示定性数据的频数分布和相对频数分布·饼形图展示定性数据的相对频数分布和百分数频数分布·直方图展示定量数据在一个区间组集合上的频数分布·茎叶图展示定量数据的等级顺序和分布形态用于进行比较的图形描述方法:·复合条形图展示两个变量频数的比较·结构条形图比较和展示两个变量的相对频数和百分数频数·环形图展示两个数据变量的相对频数和百分数频数用于显示两变量数据相关关系的图形描述方法:·散点图展示两个数据变量的相关关系·线图展示数据变量随时间的变化关系2.5数据可视化——工具Echarts:百度开发的一款不需要编程的可视化图表生成工具。其特点:可以在网页端个性化定制可视化图表;完全开源免费;可以和百度地图结合使用;能够应对较大的数据量和三维绘图任务。HighCharts:国外开放的一款成熟的可视化图表生成工具。其特点:具有详细的使用教程和案例库;产品稳定性较强;对非商业使用免费。Tableau:一款用于可视分析数据的商业智能工具。其特点:允许数据混合和实时协作;可以在不编程的情况下进行数据分析,也可以集成R语言或Python对数据进行分析;学生用户可以认证信息后免费下载和试用一年,其他用户也可以下载TableauPublic免费使用,但是需要将自己的数据公开到Tableau的服务器上。522.5数据可视化——工具PowerBI:是微软推出的一款商业智能工具。其特点:可连接数百个数据源,进行数据的收集、整理和分析,生成个性化的数据仪表板;可以在web和移动设备上与他人共享;当建立好数据模型后,可以自动刷新数据,生成新的图表,实现数据处理的全自动化;操作简单,不需要编程;个人用户可以免费使用PowerBIDesktop。FineBI:主要面向企业客户,也是一款不需要编程的商业智能工具。其特点:相比于其他商业智能工具,FineBI更加契合企业分工协作进行数据分析的工作流程;操作界面简单,对普通用户的使用和上手门槛相对更低;对于个人用户来说,FineBI可以免费下载使用。532.5数据可视化——数据仪表板数据仪表板(datadashboard):一个直观显示的集合,它用易于理解的方法汇总和展示公司或机构的信息,用以监控公司业绩。542.5数据可视化——数据仪表板55为了说明在决策中数据仪表板的使用,我们将用某超市2019年4月1日到30日一个月的销售数据,做一个销售分析的数据仪表板。首先,我们要明确数据仪表板要展示什么内容?超市的数据仪表板要帮助管理者明确如何选择更优的库存管理方法,加快库存周转率,促进产品销售,从而使企业获得更多的利润。针对这个问题,确定以下关键指标:1.总销售额、总利润。2.各品类利润的比较。3.各品牌利润、销售量的比较。4.各品牌有无促销的销售量比较。5.各品牌当前库存的库存量。2.5数据可视化——数据仪表板56频数:展示销售额利润情况条形图:各品牌的利润比较情况饼形图:各类产品的利润占比情况条形图:各品牌当前的库存量条形图:各品牌的销售量比较情况复合条形图:有无促销的销售量比较情况
周销售额:75028.3
周利润:32914.3
2.5数据可视化——数据仪表板57前面讨论的数据可视化准则适用于数据仪表板的单个图,也适用于整个仪表板。除了这些准则,数据仪表板应最大限度地减少屏幕滚动的次数,以及图与图之间应使用边框以提高可读性。构建标题陷阱,误导读者58第2章数据的图表描述的拓展——图表的欺骗性改变纵坐标刻度,拉伸纵坐标,压缩横坐标造成图形更陡峭的效果59过去一年的各季度销售额过去一年的各季度销售额第2章数据的图表描述的拓展——图表的欺骗性改变条形图宽度和高度的比例,夸大增长量60第2章数据的图表描述的拓展——图表的欺骗性加拿大家庭的周均食品支出第4章
抽样与抽样分布6162在一些情况下,对总体的观察成本太高:例:调查国民民意时对国民逐一调查耗时耗力对于某些情况,对总体进行全部检验也是不现实的:例:生产线上产品质检、湖水中物质分析样本推断总体具有一定的可靠性。为什么要抽样?第4章抽样与抽样分布第4章抽样与抽样分布——目录4.1几个基本概念4.2抽样4.3正态分布以及与其相关的几种分布4.4样本统计量的抽样分布4.5其他抽样方法634.1几个基本概念——抽样总体和抽样框抽样总体(sampledpopulation):被抽取样本的总体。抽样框(sampledframe):用于抽取样本的总体中所有个体的名单。抽样框是对抽样总体列出名册或排序编号,是抽样总体的具体表现。
目标总体与抽样总体的关系64例:检测某个地区的人均收入水平,抽样总体是该地区群众,抽样框是所有群众的列表。例:研究某企业员工薪酬水平;研究全国人民收入水平。4.1几个基本概念——总体参数与样本统计量基本概念:总体参数:描述总体特征的指标,如均值、方差等。样本统计量:由样本数据构造的不含未知参数的函数,用以描述样本特征。推断统计是通过样本统计量推断总体参数。65总体样本抽样样本统计量总体参数推断描述统计4.2抽样
66利用计算机生成随机数(均匀分布),从容量为N的总体中生成容量为n的随机样本。例如:Excel的RANDBETWEEN(1,900)能够用来随机产生1到900之间的整数。例如:Excel的RAND()能够用来随机产生0到1之间的数。674.2抽样——随机样本的生成
4.2抽样——有限总体和无限总体
684.3正态分布以及与其相关的几种分布
6970正态分布
正态随机变量在特定区间上取值的概率由该区间正态分布曲线下的面积给出4.3分布——正态分布714.3分布——正态分布正态分布的特征
72
4.3分布——标准正态分布73
74
75
76
77
78
79
4.4样本统计量的抽样分布在实际操作中,为了通过观测样本获得总体的特征,我们测量样本均值以及方差等样本统计量。从总体中抽取样本的可能性是无穷的,不同样本的统计量有不同的取值,因此样本统计量本身就是随机变量,对样本统计量的判断和比较基于它们的概率分布。样本统计量所有可能值的概率分布称为样本统计量的抽样分布,是一种理论分布。4.4样本统计量的抽样分布样本误差抽样误差(samplingerror):样本统计量与其对应的总体参数之间的差异。扩大样本容量可减少抽样误差,使得样本更具有代表性。非抽样误差(nonsamplingerror):除了抽样误差以外所有误差的总和。可以通过缜密的设计和规划进行人为控制。4.4样本统计量的抽样分布——样本均值的分布
824.4样本统计量的抽样分布——样本均值的分布83如果抽样总体服从正态分布,从总体中抽取的随机样本的均值分布服从正态分布。
=50
=10X总体分布n=4抽样分布Xn=164.4样本统计量的抽样分布——样本均值的分布84总体抽样分布
4.4样本统计量的抽样分布——样本均值的分布85总体正态分布
非正态分布
【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下均值和方差总体分布14230.1.2.3864.4抽样分布——样本均值的分布(例子)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)874.4抽样分布——样本均值的分布(例子)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5x884.4抽样分布——样本均值的分布(例子)式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值
2.样本均值的方差等于总体方差的1/n894.4抽样分布——样本均值的分布(例子)4.4样本统计量的抽样分布——其他统计量的分布
904.4样本统计量的抽样分布——其他统计量的分布
914.5其他抽样方法概率抽样(随机抽样)简单随机抽样分层随机抽样整群抽样多阶段抽样系统抽样4.5其他抽样方法——分层随机抽样分层随机抽样(stratifiedsampling):总体被分为若干个组,每个组称为层,从每层中随机抽取样本。分层随机抽样方法要求按照一定的规则或者标准对总体进行分组。每个组内样本需要具有相同或相近的特征,同时要求组间差异明显。优点:保证样本的结构与总体的结构比较相近,从而提高估计的精
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年肠道传染病消毒隔离培训
- 2026年实验室生物安全隐患排查与奖惩管理办法
- 2026年手机充电器长期不拔引发火灾事故警示
- 2026年房地产代建项目拓展与运营管理整合
- 2026年公司职业健康监护档案管理制度
- 2025甘肃省白银市中考英语真题(原卷版)
- 2025湖北省中考物理试题(解析版)
- 2026年某公司合规管理实施细则
- 2026年深基坑开挖风险辨识与坍塌应急措施
- 2026年新时代乡风文明建设的困境与突破路径
- 北京市2025中国文化遗产研究院应届毕业生招聘4人笔试历年参考题库典型考点附带答案详解
- 2026年住院医师规范化培训试题【新题速递】附答案详解
- 2026年广东省广州市高三二模英语试题(含答案)
- CNCA-C09-02:2025 强制性产品认证实施规则 移动电源、锂离子电池和电池组(试行)
- 疾控中心采购制度
- 2026西安银行总行科技部、数据管理部相关岗位招聘笔试模拟试题及答案解析
- 交通安全培训【课件文档】
- 地铁设备系统综合联调方案
- 红楼梦第9回课件
- GB/T 714-2025桥梁用结构钢
- 接地线课件教学课件
评论
0/150
提交评论