已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,第二章试验数据的整理,第四节基本统计量,第一节总体和样本的概念,第五节正态分布检验,第二节试验资料的属性,第三节次数分布,.,1、总体(Population)根据研究目的确定的,凡是符合指定条件的具有共同性质的全部观察对象称为总体。,例如:(1)要了解中国农科院研究生院所有学生的健康状况,那么所有研究生院的学生就构成了一个总体。(2)要了解我们SAS班所有学生的健康状况,则所有SAS班的学生就构成了一个总体。,第一节总体和样本的概念,按总体中的个体数目可分为:,.,2、个体构成总体的每一个成员称个体。,第一节总体和样本的概念,上例中的中国农科院研究生院的每一个学生就是这个总体中的成员,称为一个个体。,3、样本(Sample)从总体中抽取出来进行研究的若干个体的集合称为样本。,例:在中国农科院研究生院的学生中随机抽取100个学生测量健康状况,那么这100个学生就构成了一个样本。,.,5、观测值(Observation)每个个体的性状、特性的测定数值称观测值。,第一节总体和样本的概念,例:中的中国农科院研究生院的每一个学生的身高、体重、血压等就是一个观测值。,4、样本容量样本中包含的个体数量(样本含量),样本的容量越大,越能代表总体。例:上例中的样本容量为100,.,7、样本统计量根据样本观察值算出的样本特征数称为样本统计量。样本统计量常用英文字母表示。如:样本平均数、样本标准差S等。,6、总体参数根据总体全体观察值算出的总体特征数称为总体参数。常用希腊字母表示。如:总体平均数、总体标准差等。,第一节总体和样本的概念,.,第二节试验资料的属性,一、试验资料的性质(可分为两大类):,1、数量性状资料(Numeric)能够用测量、称量或计数的方法表示的性状的资料。,(1)连续型数量资料(可量资料Interval)通常用称量、度量或测量的方法得到的数据都可以视为连续型随机变量资料。它们在某个区间内是连续的。,例如:体重(公斤)、株高(厘米)、产量(克)、千粒重(克)等。,.,(2)离散型(间断型)数量资料(可数资料Nominal)通常用计数方法得到的数据。它们在数轴上表现为不连续,只能取整数。,第二节试验资料的属性,例如:发芽的种子数、成活的树苗数、死亡的昆虫头数、分蘖数、穗数和每穗粒数等。,.,第二节试验资料的属性,2、质量(属性)性状资料(CharacterNominal)不能直接测量,只能观测的属性性状资料。,例如:虫子的成活与死亡、叶片形状、花的颜色、小麦的芒性、接种病菌的感染与否等。,.,一、次数分布表,把次数分布以图的形式绘出,得次数分布图。,第三节次数分布,为了初步研究试验资料的分布规律性,将众多的试验资料按类别或区间进行分组,把这些不同类别或各个区间出现的个体频数叫次数分布。,把次数分布以表的形式列出,得次数分布表。,.,(一)离散性变量资料的整理,1、变量可取值个数不多时以自然单位进行分组,因为取值个数只有15、16、17、18、19、20六种,所以按自然单位分组。,第三节次数分布,.,2、若变量可取值个数太多,则可按取值大小,从小到大相邻若干个值合为一组的方法进行整理(一般要求组距相等)。,例3.2调查200个稻穗,每穗粒数资料中,最小的一穗有27粒稻谷,最多的一穗有83粒。利用此数据制作次数分布表。,第三节次数分布,.,1.求极差:,2.确定组数:,3.确定组距:,4.确定组限,制表头:,步骤如下:,5.资料归组:,R=Max(X)Min(X)=8327=56,组距=极差/组数=56/12=4.75,本例中拟分12组,第三节次数分布,.,(二)连续型变量资料的整理步骤与离散型变量的第二种方法相似。,例3.3调查140行水稻(每行1.33m)的产量(g)数据如表3.3所示。利用此数据制作次数分布表。,第三节次数分布,.,R=Max(x)Min(x)=25475=179,本例中,拟分为12组,利用例3.3此数据制作次数分布表。,1.求极差:,2.确定组数:,3.确定组距:,4.确定组限,制表头:,步骤如下:,5.资料归组:,组距=1791214.915,注:以最小值做第一组的组中值,可以多出半组,所以最终往往多出1组。,第三节次数分布,.,(三)属性变量资料的整理按属性类别分组:,第三节次数分布,.,1.直方图,2.条形图,3.饼图,第三节次数分布,二、次数分布图,.,1.直方图,第三节次数分布,适用于表示连续型变量的次数分布,以表3.3的数据分布为例说明。,.,2.条形图,第三节次数分布,适用于表示离散性和属性变量的资料,以表3.2的数据分布为例说明。,.,3.饼图适用于表示间断性和属性变量的资料,第三节次数分布,以表3.4的数据分布为例说明。,.,第四节基本统计量,样本基本统计量主要有:一、平均数类:(表征中心位置)算术平均数、几何平均数、中位数、众数等。二、变异数类:(表征变异程度)极差、样本标准差、样本方差、样本平均数标准差(即标准误)样本变异系数等。,.,第四节基本统计量,一、平均数类:1、平均数的意义和种类平均数的意义:,(1)用于表示变数的集中趋势,指示资料的中心位置,反映资料的一般质量水平。,(2)作为一组数据的代表值与其它数据作比较。,.,第四节基本统计量,1、算术平均数(Mean),所有资料观察值的总和除以观察值个数所得的商。有极端值时不够稳健。,平均数的种类:,2、中位数(Median),将资料所有观察值排序后,居于中间位置的那个观察值(当观察值数目为偶数时,居于中间位置的那两个观察值的平均数)。,.,.,.,3、众数(mode),资料中最常见的一数,或次数分布表中次数最多的那组的组中值。,例1:2,4,6,5,9,5,4,5,1,10,3众数是5,例2:小麦小穗数,众数是17,第四节基本统计量,.,.,第四节基本统计量,4、平均数的计算,1、总体平均数(populationmean):,.,第四节基本统计量,2、样本平均数(Samplemean):,.,5、算术平均数的局限性,平均数有时其代表性很差。例如下面的两组人,平均年龄都是25岁,能说这两组人的年龄是一样吗?,24岁,26岁,25岁,25岁,49岁,1岁,第四节基本统计量,.,第四节基本统计量,由此可见:样本变异大,平均数的代表性就差;样本变异小,平均数的代表性就较好。因此,需要引进一个新的统计量来反映资料的变异程度。,.,第四节基本统计量,1、极差(全距,Range)一组数据的最大值与最小值之差。即:R=Max(x)-Min(x),上例中:第一组数据的极差为:R1=26-24=2第二组数据的极差为:R2=49-1=48可见第二组人的年龄变异大的多。,二、变异数类:,.,2、方差(Variance)又称均方(MeanSquare)其功用是反映资料的离散变异程度。,总体方差2,样本方差S2,第四节基本统计量,.,1)总体方差计算,第四节基本统计量,.,2)样本方差计算,第四节基本统计量,.,第四节基本统计量,方差计算五株水稻的单株粒重为:2,8,7,5,4(克),.,3、标准差(StandardDeviation)其功用是反映资料的离散变异程度,它是方差的正平方根值,其度量单位与观察值相同。,第四节基本统计量,总体标准差(PopulationSD):,样本标准差S(SampleSD):,.,a、总体标准差的计算:,b、样本标准差的计算:,第四节基本统计量,.,4、标准误(StdError,StdMean)样本平均数的标准(误)差,反应样本平均数的变异程度,即抽样误差的大小。实质上是样本平均数构成的样本的标准差。标准误较小表示样本均数与总体均数比较接近,为了保证样本代表总体比较可靠,就得适当增大样本含量。,第四节基本统计量,.,5、变异系数(CoefficientofVariation)在比较两组平均数相差很大或数据单位不同的资料的变异程度时,则需要用到变异系数的概念。记为(CV),是指资料的标准差与平均数之比。,第四节基本统计量,.,平均数相差很大的例子:甲测量排球场长度三次,得乙测量足球场长度三次,得,第四节基本统计量,虽然两组数据的s都等于1,但不能认为两组数据的变异程度相同。乙测量得显然比甲精确。,.,2、矫正平方和(CSS),三、其它统计量,1、未矫正平方和(USS),第四节基本统计量,.,3、偏度(Skewness),第四节基本统计量,考察资料的左右对称性的分布情况:Sk0对称分布Sk0右(正)偏分布,向右侧分散更远Sk0左(负)偏分布,向左侧分散更远,.,第四节基本统计量,4、峰度(Kurtosis),以正态分布为标准考察资料陡峭分布的情况:Ku0数据正态分布Ku0数据尖峰分布,向中间集中Ku0数据扁平分布,含有较多极端值,.,5、百分位数(Percentile),第四节基本统计量,是中位数的推广,n个数据排序后,处于p%位置的值xp称为第p百分位数,表示有p%的数不超过这个值。,当np/100是整数当np/100不是整数,其中,i=np/100,即np/100取整,.,分位数的一些概念,第四节基本统计量,中位数即是第50百分位数最小值即是第0百分位数最大值即是第100百分位数下四分位数即是第25百分位数,记为Q1上四分位数即是第75百分位数,记为Q3四分位极差为上四分位数与下四分位数的差值,即Q3-Q1,.,第五节正态分布检验,检验数据资料是否服从正态分布。正态分布检验有多种方法:1)偏度、峰度、Q-Q图、正态概率纸检验2)卡方拟合优度检验3)Shapiro-Wilk检验4)经验分布拟合优度检验,1、正态分布检验,.,第五节正态分布检验,1)偏度、峰度、Q-Q图、正态概率纸检验比较直观,但有些粗略。2)卡方拟合优度检验分组不同,拟合的结果可能不同。需要有足够大的样本含量。对于连续型变量的优度拟合,卡方检验并不是理想的方法。,.,将数据排序后一分为二折返配对,计算差值,查系数表ak(n),构造W统计量。Shapiro-WilkW统计量,2、Shapiro-Wilk检验法(小样本8n50),第五节正态分布检验,.,统计量W的取值范围为0,1在原假设H0:数据服从正态分布下,统计量W应该接近于1,反之应接近于0,在给定显著性水平下,使得:,第五节正态分布检验,其拒绝域为:,2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装配式建筑施工员安全素养测试考核试卷含答案
- 野生动物管护工安全演练测试考核试卷含答案
- 硬质合金烧结工道德测试考核试卷含答案
- 卷烟封装设备操作工操作管理测试考核试卷含答案
- 老年痴呆患者治疗决策的伦理教学
- 老年疾病样本库的长期存储方案
- 住改商消防安全整治指南
- 2025四川成都市双流区空港第四幼儿园招聘7人备考题库及答案详解参考
- 临床用血申请管理制度
- 老年热浪MOF的肠道微生态干预策略
- 安全管理制度培训课件
- 2025年12月福建厦门市鹭江创新实验室管理序列岗位招聘8人备考题库必考题
- 2025下半年四川绵阳市涪城区事业单位选调10人备考题库及答案解析(夺冠系列)
- 高一生物上册期末考试题库含解析及答案
- 收购商场协议书范本
- 承揽加工雕塑合同范本
- 中国大麻行业研究及十五五规划分析报告
- 寒假前安全法律教育课件
- 干热复合事件对北半球植被的影响及响应机制研究
- 2025年四川单招护理试题及答案
- 毛巾染色知识培训课件
评论
0/150
提交评论