资料的整理与特征数的计算PPT课件_第1页
资料的整理与特征数的计算PPT课件_第2页
资料的整理与特征数的计算PPT课件_第3页
资料的整理与特征数的计算PPT课件_第4页
资料的整理与特征数的计算PPT课件_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料。,原始数据,无序,有序,统计分析,资料整理,揭示事物本质,.,2,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,第一节试验资料的搜集与整理,.,3,对试验资料进行分类是统计归纳的基础。,数量性状资料,质量性状资料(属性性状资料),计数资料(非连续变量资料),计量资料(连续变量资料),变量,定量变量,定性变量,连续变量,非连续变量,资料,.,4,数量性状(quantitativecharacter)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(dataofquantitativecharacteristics)。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。,一、数量性状资料,1、计数资料(非连续变量资料、间断变量资料、离散变量资料)指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料。,.,6,2、计量资料(连续变量资料)指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,它们之间的变异是连续性的,因此计量资料也称为连续变量资料。,.,7,二、质量性状资料(属性性状资料)质量性状(qualitativecharacter)是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(dataofqualitativecharacteristics)。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:,1、统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。,这种由质量性状数量化得来的资料又叫次数资料。,.,9,2、评分法对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例如,试剂pH值由酸到碱分成14个等级,取待测试剂滴在pH试纸上,与pH标准色版对比,由红到紫分别定义为114的数值。,两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,检测个体的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状次数资料。,.,11,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,第一节试验资料的搜集与整理,.,12,调查,试验,资料搜集的方法,一、调查调查是对已经存在的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。资料的调查又可以分为两种:普查和抽样调查。1、普查是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。如人口普查、土壤普查等等。普查可以为制定行业政策提供理论依据。,2、抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。抽样的方法有多种,主要有:机械抽样法、随机抽样法、分层抽样法,一般情况下在统计学中常常采用随机抽样的方法。随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。,二、试验试验是对已有的或没有的事物加以处理的方法。采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局部控制。,.,16,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,第一节试验资料的搜集与整理,.,17,(一)原始资料的检查与核对,调查,试验,原始数据,核对:数据本身是否有错误,检查:取样是否有差错,订正:不合理数据的订正,.,18,检查和核对原始资料的目的:确保原始资料的完整性和正确性。完整性:是指原始资料无遗缺或重复。正确性:是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。,.,19,不必分组,直接进行统计分析,小样本n30,将数据分成若干组以便统计分析,大样本n30,次数分布表,次数分布图,统计分析,样本大小,.,20,(二)次数分布表,统计表的结构和要求:结构简单,层次分明,安排合理,重点突出,数据准确。,表号标题,1、标题简明扼要、准确地说明表的内容,有时须注明时间、地点。2、标目标目分横标目和纵标目两项。横标目列在表的左侧,纵标目列在表的上端,标目需注明计算单位,如、kg、cm等等。3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“”表示,数字是“0”的,则填写“0”。4、线条多用三线表,上下两条边线略粗。,.,21,计数资料基本上采用单项式分组法进行整理。,特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。,1117,来亨鸡每月产蛋数变动范围:,分为7组,统计各组次数,计算频率和累积频率,制表,1自然值进行分组,最大值17,最小值11。,2数据主要集中在14,向两侧分布逐渐减少。,表2-3小麦品种300个麦穗穗粒数的次数分布表,45组?,9组,.,25,计量资料一般采用组距式(组限式)分组法。,全距,组数,组距,组限,归组,制表,表2-4150尾鲢鱼体长(cm),(1)求全距,又称极差(range):,R=Xmax-Xmin=85-37=48(cm),.,27,(2)确定组数和组距(classboundary),组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。,组数,组距,多,小,统计数精确,计算不方便,少,大,统计数不精确,计算方便,组数的确定,表2-5样本容量与分组数的关系,组距的确定,即每组内的上下限范围。,组距全距/组数48104.8,10组,5cm,(3)确定组限(classlimit)和组中值(classmidvalue),组限是指每个组变量值的起止界限。,上限,下限,组中值是两个组限的中间值。,第一组的组中值最好接近于资料的最小值,表2-4150尾鲢鱼体长(cm),最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值;组限可取到10分位或5分位上;临界值就高不就低。,35,40,45,85。,(4)分组,确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。,计数的方法,卡片法,唱票法,画“正”字,组限组中值次数频率累积频率FrequencyPercentCumulativePercent3537.530.02000.02004042.540.02670.04674547.5170.11330.16005052.5280.18670.34675557.5400.26660.61336062.5250.16670.78006567.5170.11330.89737072.560.04000.93337577.570.04670.98008082.520.01330.99338587.510.00671.0000,表2-6150尾鲢鱼体长的次数分布表,.,33,(三)次数分布图和频率分布图,定义:把次数(频率)分布资料画成统计图形。,特点:直观、形象,包括:条形图、饼图、直方图、多边形图和散点图,.,34,统计图绘制的基本要求:,(1)标题简明扼要,列于图的下方;(2)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图例说明。,图2.1月产蛋数次数分布柱形图,图2.2月产蛋数频率分布柱形图,条形图(barchart),又称柱形图,计数资料,特点:柱形之间要间隔一定的距离,属性资料,2饼图(piechart),图1来亨鸡月产蛋次数分布图,计数资料,属性资料,图2.3鲢鱼体长次数分布图,3直方图(histogram),又称矩形图,计量资料,特点:各组之间没有距离,.,38,组中值,4多边形图(polygon),又称折线图(broken-linechart),计量资料,图2.3鲢鱼体长次数分布图,.,40,5散点图(scatter),a.正向直线关系,b.负向直线关系,c.曲线关系,.,41,搜集、归纳原始数据,用表格、图形来表达数据,用量化的统计学指标来描述一组定量数据的分布特征,.,42,图2.1月产蛋数次数分布柱形图,集中,离散,.,43,集中性是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。,离散性是变量有着离中分散变异的性质。,变量的分布具有两种明显的基本特征:集中性和离散性。,.,44,集中性,离散性,平均数,变异数,算术平均数,中位数,众数,几何平均数,极差,方差,标准差,变异系数,调和平均数,特征数,.,45,一、平均数,平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。,.,46,(一)平均数的种类,算术平均数,中位数,众数,几何平均数,调和平均数,一、平均数,.,47,1.算术平均数(arithmeticmean),定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。,总体:,样本:,一、平均数,.,48,2.中位数(median),资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。,Md,中位数将该组数值分为两半,理论上有50的变量小于md,有50的变量值大于md,故又称百分之五十位数,记为P50。,一、平均数,1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:Md=2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:,.,50,高,招生考试或水平考试:0.30.4平常测验:0.20.25,区分度,考试中,.,51,中位数是一个位置平均数,可以免受资料中由于非常因素造成的极端值的影响。但中位数的决定只与居于中间位置的一个或两个观察值有关,没能用到全部观察值提供的信息,所以与算术平均数有一定的出入。当数据的分布较为对称时,二者相近或相等;当数据分布偏斜时,二者相差较大,此时中位数对数据趋中性的度量比算术平均数为优。,.,52,3.众数(mode),资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。,M0,注意:(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。,一、平均数,.,53,由于中位数只能代表一个、最多两个观察值,而众数却代表着大多数观察值的数量水平。用众数描述统计资料的数量水平,其代表性要优于中位数。间断性变量由于样本内的各观察值易于集中于某一数值,所以众数易于确定;连续性变量由于连接两个整数区间之内,可有多个数值存在,样本内各值不易集中于某一数值,因此不易确定众数。连续性资料众数的确定,常需在次数分布表的基础上,由出现次数最多一组的组中值决定。,.,54,4.几何平均数(geometricmean),资料中有n个观测数,其乘积开n次方所得数值。,G,G=,一、平均数,.,55,4.几何平均数(geometricmean),G,实际就是观察值对数的算术平均数的反对数。它适用于变量x为对数正态分布,经对数转换后呈正态分布的资料。主要用于以百分率、比例表示的数据资料,在计算平均增长率方面具有独特的应用价值。,G=,一、平均数,.,56,5.调和平均数(harmonicmean),资料中各观测值倒数的算术平均数的倒数。,H,适用范围:主要用于反映生物不同阶段的平均增长率或不同规模的平均规模。,一、平均数,.,57,(二)算术平均数的计算方法,直接计算法,减去常数法,加权平均法,一、平均数,.,58,1、直接计算法样本含量n30以下、未经分组资料平均数的计算。,例:随机抽取20株小麦测量它们的株高(cm)分别为:79858486848382838384818081828182828280求小麦的平均株高。,2、减去(加上)常数法若变量的值都比较大(或都比较小),且接近某一常数a时,可将它们的值都减去(或加上)常数a,得到一组新的数据,计算其平均数,再重新加上(或减去)常数a。,例:设a为80(cm)则有:79858486848382838321546432338180818281828282804101212220,“80”,.,60,3、加权平均法通常对样本容量n30且已分组的资料,多在次数分布表的基础上采用加权法计算平均数。,第i组的次数fi是权衡第i个自然值xi在资料中所占比重大小的数量,因此将fi称为是xi的“权数”,加权法也由此而得名。,若为计数资料,此时直接用自然值乘以次数来计算,即,.,61,式中:第i组的组中值;第i组的次数;分组数,若为分组资料,则用每组组中值乘以该组次数之和再除以总次数来计算,计算公式为:,例,例:将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权平均数。,表100头长白母猪仔猪一月窝重次数分布表,即这100头长白母猪仔猪一月龄平均窝重为45.2kg,计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。设是n1个数的平均数,是n2个数的平均数,那么全部n1+n2个数的算术平均数是:,此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权数,求两个牛群平均体重的加权平均数,即:,例:某牛群有黑白花奶牛1500头,其平均体重为750kg,而另一牛群有黑白花奶牛1200头,平均体重为725kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?,.,66,(三)算术平均数的重要性质,算术平均数与样本内的每个值都相关,它的大小受每个值的影响;,若每个Xi都乘以相同的数k,则原平均数亦应乘以k;,若每个Xi都加上相同的数a,则原平均数亦可直接加上a。,一、平均数,.,67,离均差之和等于零。,这一性质表明:一组资料的观察值是围绕其算术平均数作上下波动的。,.,68,离均差平方和最小。样本中观察值与其平均数的离差平方和较各个观察值与其他任意数值的离差平方和为最小。,该性质表明:算术平均数对资料的代表最强。,.,69,(四)算术平均数的作用,(1)指出一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平。,(2)作为样本或资料的代表数与其它资料进行比较。,(3)通过平均数提供计算样本变异数的基本数据。,(4)用样本的平均数估计总体平均数。,一、平均数,用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。,如果各观测值变异小,则平均数对样本的代表性强;,如果各观测值变异大,则平均数对样本的代表性弱。,三组同年龄、同性别儿童体重(kg)的数据:I组:2628303234II组:2025303540III组:2327303337,三组的平均数均为30,变异如何体现?,例:,如果各观测值没有变异,则平均数可完全代表整个样本。,.,71,集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。,仅用平均数对一个资料的特征作统计描述是不全面的,还需要引入一个表示资料中观测值变异程度大小的统计量。,变异性指标,.,72,变异数的种类,极差,方差,标准差,变异系数,二、变异数,.,73,(一)极差(全距,range),极差是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。,例:150尾鲢鱼体长R=85-37=48(cm),R=maxx1,x2,xn-minx1,x2,xn=x1,x2,xnmax-x1,x2,xnmin,二、变异数,.,74,三组同年龄、同性别儿童体重(kg)的数据:I组:26283032348II组:202530354020III组:232730333714,例:,极差,.,75,简单明了,当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。,(1)除最大、最小值,不能反映组内其他数据的变异。,优点,缺点,用途,(2)样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。,极差,.,76,如何准确地表示样本内各个观测值的变异程度,平均数,可以求出各个观测值与平均数的离差,即离均差。,离均差可以反映出一个观测值偏离平均数的性质和程度。,离均差之和为零。,?,二、变异数,.,77,平方和(SS),平方和的平均数,二、变异数,.,78,平方和的平均数,二、变异数,方差,.,79,自由度(degreeoffreedom,df),二、变异数,自由度指当以样本的统计量来估计总体的参数时,样本中可以自由变动的观察值的个数。,自由度=样本个数-样本数据受约束条件的个数,在总体平均数未知时,要计算标准差就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。,自由度一词源于物理学。,.,81,均方(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论