统计学及统计学软件使用教程_第1页
统计学及统计学软件使用教程_第2页
统计学及统计学软件使用教程_第3页
统计学及统计学软件使用教程_第4页
统计学及统计学软件使用教程_第5页
已阅读5页,还剩252页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.统计和统计软件使用教程,1统计简介,2分布式分析,3回归分析,4正交设计,5统计分析软件SAS,6统计分析软件SPSS,系统分析室制作,前言:统计介绍,统计是什么:统计是关于数学统计的收获、整理、分析和推理的科学,他可以分为技术统计和推理统计。技术统计学提出了对原始数据有用的图表制作方法,如南洋韩艺特钢11月不合格品综合判断统计分析,这些方法包括数据收集、整理、汇总和说明。在研究中,如果能得到整个整体,说明性统计也就足够了,但实际上通常只能得到整个小部分(样品),因此,要通过这种样品的有限的、不确定的信息来获取整体信息,这就是推论统计的研究领域。统计的理论基础是数学统计学,数学统计学是数学的一个领域,由一系列公理、定理、严格证明组成,还包括学者的其他领域(如微积分、概率论和高中代数等)。为了使这些理论也适用于一般研究人员,进行了简化、非军事化,出现了一般统计。建筑、人类学、生物学、经济学等各种专业领域与一般统计相结合,产生相应的专业统计。08 美国经典统计原理(上)。pdf,08 美国经典统计原理(下图)。pdf,统计经典教材:技术统计知识章,推理统计知识章,第一节方差分析,一,多个概念2,单个因子方差分析,一个、多个概念、考试中改变状态的元素称为元素,通常是大写的a、b、c,用等标记。在实验中,系数所在的状态称为系数的级别。在表示系数的字母中加入下标,以使A1、A2、用Ak表示。测试中检验的指标(可以是质量特性,也可以是产量特性)用y表示。y是任意变量。单一因子考试:考试中只调查了一个因子。例2.1-1在现有的甲、乙、丙三家工厂制造相同的零件,为了确定不同工厂的零件强度是否有差异,目前从各工厂随机抽取4个零件,并测量其强度。从这张表中可以看出,3家工厂的零部件平均强度相同吗?三个工厂的零件强度,查看此示例中的一个因素。系数a:工厂此系数有三个级别。a、b、c测试指标为零件强度。这是单个系数测试的问题。每个级别以下的测试结果构成了一个整体,现在需要比较三个整体平均值是否一致。如果每个总体分布是正态分布,并且每个总体分布相同,则比较每个总体平均值是否一致的问题可以用方差分析方法解决。2,假设单元素方差分析,系数a具有r级,Ai级的指标遵循正态分布,其平均值为,I=1,2,r。如果各级指标全部由r个整体组成,那么比较每个整体的问题就是比较每个整体的平均值是否相等的问题。也就是说,测试下一个假设是否属实。如果不是真的,表示不同水平指标的平均值有很大差异。此时系数a是重要的。否则,系数a不重要。测试此假设的分析方法是方差分析。方差分析的三个基本假设,1 .水平上,指标遵循正态分布;2 .在其他层面,各方是平等的。3 .数据相互独立。将一个测试设置为仅检查一个系数a。有r个级别,在每个级别上执行m个迭代测试,结果为I=1,2,以r表示。数据为单个系数测试数据表,I级数据平均值,总平均值。此时总共有n=rm个数据。这n个数据不相同。波动率(差异)是总偏差平方和ST,I级的数据和Ti,数据波动(差异)的原因不是以下两个:一是因为系数a的水平不同,假设H0不是真的,那么每个水平的指标平均值都不同,这一定能使测试结果不同。我们用组间二次的平方和表示,或者系数a的二次的平方和,这里乘以m,是因为在每个级别上进行了m次测试。第二是因为存在随机错误,所以在同一级别获得的数据之间也存在差异。这是由系数a的级别以外的所有原因引起的,归结为任意错误,可以用组内偏差的平方和表示。Se:也称为误差的平方和,可以证明有以下平方和分解形式:ST、SA和Se的自由度分别显示为、和,并具有分解型。其中,系数或误差的偏差平方和与其自由度的比率称为系数或误差之和,分别为:两者的比率在显著性水平上被认为系数a很重要:其中是具有自由度的f分布的1-分位数。单元素方差分析表,计算单个偏差平方和:其中是I级数据和;t表示所有n=rm个数据的总和。方差分析的步骤如下:(1)系数a的每个级别上数据的总和T1,T2,Tr和总计t;(2)计算所有种类数据的平方和。(3)依次计算ST、SA、se;(4)填写分布式分析表单。(5)将给定显著性水平求的f值与f分布表的阈值进行比较,这时系数a被认为是重要的。否则,系数a被认为不重要。前面示例的分析,(1)每个级别的数据和:数据的总和为T=1200,(2)原始数据的总和为:每个级别的数据和平方的总和为,(3)计算每个偏差的总和:ST=12492-12002/12=1492,Ft=34-1=11sa=485216/4-12002/112,(4)列方差分析表:示例2.1-1中的方差分析表,(5)=0.05时,由于F4.26,在=0.05层级下得出结论,系数a很重要。这表明,不同工厂生产的零件的强度有相当大的差异。如果系数a很重要,也可以通过在每个级别上提供指数平均值的估计来找到最佳水平。对于单个系数测试,I的水平指标平均值为、在本示例中,三个工厂生产的部件的平均强度分别估计为:由此可见,b厂生产的零件的平均强度最大。如果我们需要结实的零件,最好买b厂。就工厂而言,a工厂和c工厂应努力提高零件的强度。误差方差估计:此处方差的估计为MSe。在此示例中:的估计值为20.9。估计值为示例2.1-2略(见教材P92),3,如果迭代数不同,假设在每个级别的实验次数不同,则在Ai级别进行测试,方差分析的步骤仍然相同。但计算中只有两个变化,例2.1-3特定型号的汽化器原中小管道使燃料消耗更大,为节约能源,降低燃料消耗,设想了两种改进方案。用非燃比测量燃料消耗的程度,并分别测量目前各种结构的中小型磷管制造的化油器的燃料消耗比例。如图表所示,我想知道中小喉的结构(用系数a表示)对平均比肥消费的影响有多大。(此处假设每个结构下的燃料消耗遵循等差的正态分布),示例2.1-3的测试结果,(为了简化计算,此处所有数据减去220,不影响f比率计算和最终分析因素的重要性),(1)每个级别的重复测试次数和数据分别为:a1: m1=8,t1=69.5 a2: m2=4,T2=6.0a 3: m3=4,T3=15.4,实验总数n,(2)计算每个平方和:(3)计算每个偏差的总和:ST=757.41-516.43=240.98,ft=16-1=15sa=672.07-。(4)列分布分析表:示例2.1-3分布分析表,(5)在f分布表中给定0.05,由于F3.81,我们在=0.05级的结论是系数a很重要。表明,不同中小型喉管结构生产的化油器平均燃料消耗有显着差异。还可以提出不同结构生产的化油器平均油耗的估算。因为再加上220,就从原来的数值中减去了220。可以看出,两种改进结构优于燃料消耗,尤其是改善结构1。在此范例中,误差分配估计为6.56,标准差估计为2.56。第二次回归分析,示例2.2-1合金的强度y与合金的碳含量x有关。生产强度满足顾客要求的合金,冶炼时如何控制碳含量?如果在冶炼过程中通过检查得到碳含量,那么合金的强度能预测吗?这时需要研究两个变量之间的关系。第一个是数据收集(xi,yi),I=1,2,n。表2.2-1所示数据从生产中收集。表2.2-1数据表,第一、方差图、示例2.2-1中的散点图、第二,相关系数,1 .相关系数的定义,散点图上的n点也在一条线附近,但不在一条线上,这两个变量称为线性相关,并且可以用相关系数r描述相应线性关系的接近性。在这里,特性:n点位于一条直线上意味着两个变量之间完全线性相关。r0表示x增加时y也增加。这称为正相关,r0.576,表示两个变量之间存在(正)线性相关。4,1圆线性回归方程,1。一元线性回归方程的方法:一元线性回归方程的表达式为:其中,a和b通过最小:微分原理知道以下偏差平方和,这种估计称为最小平方估计。b称为回归系数。a通常称为常数。求一元线性回归方程的步骤如下:(1)计算变量x和y的数据以及Tx,ty。(2)计算每个变量的平方和和乘积的和。(3) lxx、lxx计算;(4)求b和a。您可以使用旧数据获取:b=2.4392/0.0186=130.6022,a=590.5/12-130.60221.90/12=28.5297,(5)建立回归方程式:绘制的回归线为,2 .回归方程的重要测试有两种方法进行。二是利用方差分析方法(便于多元线性回归分析),将总二次平方和分解为回归平方和和二次平方和两部分。总偏差平方和:回归平方和:偏差平方和:ST=SR SE。其中,自由度分别为:fT=n-1、fR=1、fE=n-2=fT-fR、f比率计算、回归方程式被视为重要的指定重要性层次。也就是说,回归方程被认为是有意义的。通常还会在分布式分析表中列出。以上示例中的方差分析步骤如下:根据前面的计算,(1)计算所有类型的平方和。ST=Lyy=335.2292,ft=12-1=11sr=blxy=130.60222.4292=317.2589,fr=1se=335.2292-335.2292,(2)列方差分析表:示例2.2-1中的方差分析表,在给定显著性水平=0.05,是,F0.95(1,10)=4.96,F4.96,f 4.96,f 4.05级别,认为回归方程具有重大(意义)。,3 .使用回归方程进行预测,给定y的预测值,概率为y的预测部分是。其中,n大,差异不大时,给出了近似的预测区间。这时。(1)给定x0的预测值,以上实例,设置x0=0.16,(2)所需估计值,以上实例,(3)以上示例n=12,95%的预测段,t0.975(10)=2.228,因此,(4)使用预测段(49.43-3.11,49.43 3 3 . 11),由于u0.975=1.96,概率0.95的近似预测部分与:(49.43-2.63,49.43 2.63)=(46.80,52.06)的差异更大,4,可转换为一元线性回归的曲线回归,在两个迭代方差图中,n点的方差不一定在一条直线附近波动,有时在一条曲线附近波动,因此建议设定曲线回归方程。1 .确定曲线回归方程的形式,2 .曲线回归方程的参数估计通过适当的变换转换成一元线性回归形式,然后在一元线性回归过程中使用最小二乘估计方法进行计算。回归曲线的形式:(1),(A0,b0),(2),(b0),(3),(b0),(4),(b0),3 .曲线回归方程的比较,一般比较标准:(1)相关指数r的大平方(a)实验设计,也称为确定系数,多因素测试中最大的困难是10个因素影响产品质量,210=1024,如果每个因素具有3个不同状态310=59049的不同实验条件,则通过实验设计问题实验次数和数据分析,获得良好条件通过少量实验获得更多的信息,达到实验的目的。采用正交表的实验设计方法是正交实验设计。(2)正交表,“l”是正交表,“9”是表的行数,测试中测试的条件数,“4”是列数,测试中可以排列的最大系数数,“3”是表的正文中只有三个不同的数字,表示每个系数可以采取的水平数。正交表具有正交性。(1)表示每列中的每个数字重复次数相同。在表格L9(34)中,每个栏有3个不同的数字,1,2,3,每个栏有3次。(2)如果把任意两列的合伙人数看作一对数,那么所有的数都可以是一对迭代。(1,1),(1,2),(1,3),(2,1),(2,2),(2,2),(2,3),常用的正交表有两个类别,(1)正交表类中的行数n、列数p和水平数q之间存在以下关系:n=qk,k=2、3、4,p=(n-1)/(q-1),例如L4(23)、L8(27)、L16(215)、L32(231)等不同类型的正交表(例如,(2) L12(211)、L18(37)、L20(219)、L36(313)不能用于调查系数之间的相互作用。常用正交表包括附录、ii、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论