第二讲数据录入与样本描述_第1页
第二讲数据录入与样本描述_第2页
第二讲数据录入与样本描述_第3页
第二讲数据录入与样本描述_第4页
第二讲数据录入与样本描述_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲数据录入与样本描述第1页,共52页。(优选)第二讲数据录入与样本描述第2页,共52页。表格和图形方法

TabularandGraphicalMethods质量(定性)数据汇总SummarizingQualitativeData数量(定量)数据汇总SummarizingQuantitativeData探索性数据分析ExploratoryDataAnalysis交叉组列表和散点图Cross-tabulationandScatterDiagrams第3页,共52页。质量数据汇总

SummarizingQualitativeData频数分布FrequencyDistributions相对频数分布RelativeFrequencyDistributions百分数频数分布PercentFrequencyDistributions条形图BarGraph饼形图PieChart第4页,共52页。频数分布

FrequencyDistributions频数分布是用数据概括表的形式不列示若干个互不重叠分组中每组数据值出现的次数;编制频数分布表的目的是揭示表面数据的内涵,而这种数据内涵很难迅速从原始数据中获取。第5页,共52页。相对频数分布和百分数频数分布

RelativeFrequencyDistributionsandPercentFrequencyDistributions相对频数是各组数据出现的频数占数据总数的比例;相对频数分布是表明每一组的相对频数的数据集的表格总汇;百分数频数分布是相对频数乘以100;百分数频数分布是表明每一组的百分数频数的数据集的表格总汇。第6页,共52页。条形图BarGraph条形图是用图的方式描述已概括成频数、相对频数或百分数频数分布的质量数据的方法;在图形的横轴为每一组别的标记;纵轴为频数、相对频数、百分数频数;用固定宽度的条绘制每一标记,扩展条的高度达到纵轴上表示的各组别的频数、相对频数或百分数频数;条形相对独立以强调每一类是一独立的事实。第7页,共52页。饼形图PieChart饼形图也是常用的描绘质量数据相对频数分布的图形方法;先画圆,然后用相对频数把圆划分为扇形。其角度大小与相对频数对应第8页,共52页。数量(定量)数据汇总SummarizingQuantitativeData频数分布FrequencyDistributions相对频数分布RelativeFrequencyDistributions百分数频数分布PercentFrequencyDistributions点图Dotplot直方图Histogram累积分布CumulativeDistribution穹形图Ogive第9页,共52页。频数分布

FrequencyDistributions确定无重复的组别数一般为为5-20个组大样本数据分较多的组小样本数据分较少的组确定各组间的组距各组间的组距相同近似组距为最大数据值-最小数据值组数第10页,共52页。频数分布

FrequencyDistributions

确定组上线与组下线下线确定分配给该组可能的最小数据值;上线确定分配给该组可能的最大数据值;上、下线不一定是所给数据值;上、下线的确定不唯一,可依据数据中小数点的位置选取适当的上、下线;上、下线的确定应使得每个数据属且只属于其中一个组。第11页,共52页。相对频数和百分数频数

RelativeFrequencyDistributions

andPercentFrequencyDistributions相对频数分布和百分数频数分布相对频数是各组数据出现的频数占数据总数的比例;相对频数分布是表明每一组的相对频数的数据集的表格总汇;百分数频数分布是相对频数乘以100;百分数频数分布是表明每一组的百分数频数的数据集的表格总汇。第12页,共52页。点图

Dotplot点图是用图形概括数据最简单的方法之一;点图用横坐标轴显示数据的值域,然后用小圆点半每个数据值标在坐标轴的上方第13页,共52页。直方图

Histogram直方图是将数据所反映的分布直观地显示出来的一种常用方法;横轴为所感兴趣的变量,纵轴为频数、相对频数或百分频数;每一组的频数、相对频数或百分数频数用长方形表示,长方形的底在横轴上,宽是组距,高是相应的频数、相对频数或百分数频数;不像条形图,直方图在邻近的组间没有分隔。第14页,共52页。累积分布

CumulativeDistribution

累积频数分布表示小于或等于每一组上限的数据值的个数的取值情况;累积相对频数分布表示小于或等于每一组上限的数据值所点比例的取值情况;累积百分数频数分布就是累积相对频数与100乘积第15页,共52页。穹形图

Ogive穹形图即是累积频数分布或累积相对频数分布的图形;横轴为所感兴趣的变量,纵轴为累积频数或累积相对频数;第16页,共52页。探索性数据分析

ExploratoryDataAnalysis放在后面与数值方法一起讲第17页,共52页。交叉分组列表Cross-tabulation交叉分组列表是一种同时汇总两个变量数据的表格方法一般在表格的左边和顶端的标记定义两个变量的组数交叉分组列表揭示了所列两个变量之间的内在关系第18页,共52页。散点图

ScatterDiagrams散点图是将两个变量之间的关系直观地显示出来的一种方法第19页,共52页。数值方法

NumericalMethods位置的度量MeasuresofLocation离散程度的度量Measuresofdispersion形状的度量MeasuresofShape第20页,共52页。位置的度量

MeasuresofLocation平均数Mean中位数Median众数Mode百分位数Percentiles四分位数Quartiles第21页,共52页。平均数

Mean所有数据之和与数据个数的商如果数据集是总体,总体平均值(populationmean)为如果数据集为样本,样本平均值(Simplemean)为第22页,共52页。中位数

Median若数据的个数是奇数,当把所有数据按升序排列时,中位数就是处在中心位置的数若数据的个数是偶数,当把所有数据按升序排列时,中位数就是处在中心两个数的平均数

第23页,共52页。众数

Mode出现频数最高的数

如果有多于一个众数存在,则称数据是多峰的第24页,共52页。百分位数

Percentiles第p个百分位数是这样的数据值:至少有p%个数据值跟它一样或比它小;至少有(100-p)%个数据值跟它一样大或比它大。百分位数的计算:增序排列数据;计算指数I=(p/100)n若i不是整数,将其向上取整,则p分位数是第i项;若i是整数,则p分位数是第i项与第i+1项的数据的平均值。第25页,共52页。百分位数

Percentiles例有数据集6,3,8,10,6,20,5,4为求其第20个百分数,先将原数据集排序

3

4

5

6

68

10

20计算指数i=(20/100)*8≈2则原数据集的第20个百分位数就是位于第二项的4。第26页,共52页。四分位数Quartiles四分位数是特定的百分数。第一个四分位数为25%百分位数;分二个四分位数为50%百分位数即中位数;第三个四分位数为75%百分位数。第27页,共52页。离散程度的度量

Measuresofdispersion全距Range四分位点内距inter-quartileRange方差Variance标准差StandardDeviation标准差系数CoefficientofVariation第28页,共52页。全距

Range全距是数据中最大值与最小值间的差距全距是数据离散程度最简单的描述全距对最大数据及最小数据敏感第29页,共52页。四分位点内距

inter-quartileRange四分位点内距是第一与第一四分位数间的差距是中间50%的数据的全距它能够克服极端数据的影响第30页,共52页。方差

Variance方差是各数据值与其平均值之间的平均差异如果数据集是总体,总体方差为如果数据集为样本,样本方差为第31页,共52页。标准差

StandardDeviation标准差为方差的正平方根标准差具有与原始数据相同的计量单位,较方差更便于比较如果数据集是总体,则总体标准差为如果数据集是样本,则样本标准差为第32页,共52页。变异系数CoefficientofVariation变异系数是标准差相对于平均数的大小的度量如果数据集为总体,变异系数为如果数据集为样本,变异系数为第33页,共52页。平均数和方差的应用

SomeUsesoftheMeanandtheStandardDeviationZ分数z-Scores切比晓夫定理Chebyshev’sTheorem经验法则TheEmpiricalRule异常值的检验DetectingOutliers第34页,共52页。Z分数z-ScoresZ-分数通常称为标准化数值Z-分数的意义是数据值偏离平均数标准差的个数Z-分数大于0的数据是那些比平均数大的数据值Z-分数小于0的数据是那些比平均数小的数据值Z-分数等于0的数据是那些与平均数相等的数据值一个数据集经过标准化之后,其平均值变为0,标准差变成1第35页,共52页。切比晓夫定理Chebyshev’sTheorem至少(1-1/k2)个数据落在平均数k倍标准差范围内,其中k是大于1的任何数值至少75%的数据落在平均数的k=2标准差范围内至少89%的数据落在平均数的k=3标准差范围内至少94%的数据落在平均数的k=4标准差范围内第36页,共52页。经验法则

TheEmpiricalRule对于具有钟形分布的数据集而言大约68%的数据落在平均数的1倍标准差范围内大约95%的数据落在平均数的2倍标准差范围内几乎所有的数据落在平均数的3倍标准差范围内第37页,共52页。异常值的检验DetectingOutliers数据集中出现的非正常大或非正常小的数据值称为异常值Z-分数值低于-3或高于3的数据可能是异常值异常值的出现可能是由于记录错误,也可能是记录正确的非正常数据值异常值也可能来自于不同的总体第38页,共52页。探索性数据分析

ExploratoryDataAnalysis探索性数据分析技术是由简单运算及容易绘制的图形组成,可用快速汇总数据。茎叶图Stem-andLeafdisplay五数概括Five-NumberSummary箱图Boxplot第39页,共52页。茎叶图

Stem-andLeafdisplay茎叶图是一种简单的对数据进行快束描绘的数据汇总方法茎叶图不仅提供了数据排序,同时还显示了数据的分布信息与直方图有相似之处,但茎叶图还显示了实际的数据值数据的首位或首几位放置在直线的左边—称为茎数据的末位(只是最后一位)放置在直线的右边--称为叶第40页,共52页。五数概括

Five-NumberSummary最小数据值SmallestValue第一个四分位数FirstQuartile中位数Median第三个四分位数ThirdQuartile最大值LargestValue第41页,共52页。箱图

Boxplot以第1和第3四分位数(Q1和Q3)作为箱子两端,其间的间距称为四分位间距,记为IQR=Q3-Q1箱图的下限制线位于比Q1低1.5倍IQR的位置上,上限制线位于比Q3高1.5倍IQR的位置上限制线以外的是异常值第42页,共52页。双变量相关关系度量

MeasuresofAssociationBetweenTwoVariables协方差

Covariance相关系数CorrelationCoefficient第43页,共52页。协方差

Covariance如果数据集是总体,协方差为如果数据集是样本,协方差为正值表示正相关,负值表示负相关第44页,共52页。相关系数CorrelationCoefficient如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论