SAS假设检验(公选).ppt_第1页
SAS假设检验(公选).ppt_第2页
SAS假设检验(公选).ppt_第3页
SAS假设检验(公选).ppt_第4页
SAS假设检验(公选).ppt_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章假设检验,4.1参数估计和假设测试的基本概念,4.1.1参数是4.1.2假设检验,4.1.1参数估计,从整体上获取样本,将样本统计(即样本数值特性)用作未知整体参数(即整体数值特性)的估计,并通过样本观察值分析进行估计和推断。换句话说,基于样本推断总体分布的未知参数称为参数估计。参数估计有两种基本形式:点估计和间隔估计。1.点估计点估计使用样例统计信息估计总体分布中包含的未知参数。样例统计信息作为轴上的一点估算的结果也显示为一点的数值,因此称为点估计。通常是总体唯一值,例如平均值、方差和相关系数。点估计问题是将仅依赖于样本的数量配置为未知参数或未知参数的函数的估计值。2.区间估计区间估计通过从整个总体中提取的样本,根据一定精度和准确度的要求,将具有整个参数的区间范围推断为总体分布的未知参数或参数的函数的true值的范围的估计,具有一定的可靠性。区间估计是设置区间,包括点估计值和从采样标准误差估计到给定概率值的参数。其中,给定的概率值称为“置信度”或“置信度级别”(confidencelevel),表示整体参数值在示例统计信息一个区域内的概率。此包含要估算的参数的地块称为置信区间,表示整个参数的可能范围。置信区间表示特定信任级别下示例统计信息和整体参数值之间的错误范围。置信区间,双方:置信区间,信任限制,信任限制,信任水平或信任度(称为重要性水平),单侧:置信区间,正态分布(NormalDistribution),实际上为:中等高度,两侧例如,一个12岁少女的体重总体上是39公斤,标准差4.5公斤的平均值。68%的值为34.5到43.5千克之间的95%,30到48千克之间的99%的值为25.5到52.5千克,正态分布表示不同范围的概率。例如,大约(3) :68%属于平均中心的两倍标准差范围。95%的数据进入平均中心的2倍标准差范围。99%的数据属于以平均为中心的3倍标准差范围。如果样本平均的分布是正态分布,那么在构造置信区间时,给定的概率可以用作正态分布。这个概率对应于信任级别。因此,如果建立了95%的信任区间,则该信任区间具有95%的概率(包括总平均值的95%)是信任水平。小概率事件的意义,小概率事件的意义:发生概率通常不超过5%的事件,即事件在一次尝试中很少发生。样本推理的重要内容4.1.2假设检验是判断样本和样本、样本和整体差异是否由取样错误引起,或本质差异产生的统计推断方法的基本统计推理形式。其基本原则是以原始数据为基础,然后使用完整提供信息作为样本,用适当的统计方法计算测试的统计数据,并根据一定的概率原则拒绝或拒绝对小风险假设的推断。,在对整个参数进行假设检验时,首先必须对原始假设H0,H0是整个参数的表示,而对与H0相反的替代假设H1,H0和H1只给出一个假设。通过一次采样,当发生小概率事件(通常概率小于0.05的事件称为小概率事件)时,可以以“小概率事件在一次实验中几乎不可能发生”为由,怀疑原始假设不是真的,拒绝原始假设H0,接受H1的决定;相反,如果没有发生小概率事件,就没有理由拒绝H0,必须做出拒绝H1的决定。1 .假设检验的基本思想,根据问题确定成本正H0和预备家庭h1;确定重要性级别,这是衡量稀疏性(小概率事件)的标准。经常使用0.05。选择适当测试的统计w(通常在原始假设中相同的情况下,w的分布已知),根据w的分布和值确定H0的拒绝域。通过采样观测计算的统计w的观测W0,如果W0属于H0的拒绝域,则拒绝H0;否则,无法拒绝原始假设H0。2 .概率p值是假设测试的基本步骤,SAS系统根据样本分布和样本数据自动计算实际重要性级别,SAS系统执行假设检查,p值提供直观判断标准。 p,实际计算的重要性水平小于理论的重要性水平,概率事件在一个实验中发生的概率较小(小于理论上设定的概率)。此时,如果在p值的重要性级别条件下还可以观察到小概率事件的发生,则假设更不可靠,必须拒绝原始假设。说明,如果p 能在p值显著性水平条件下观测到小概率事件的发生,则假设可能没有问题。因为如果观测概率更大的事件,其发生的可能性本来就更大,所以不能对假设做出否定判断。3 .测试的数学模型t测试是两组数据之间差异的重要测试,也称为学生t检查,主要用于样本含量较小的(例如n1000”比率的置信区间(0.194,0.681)。也就是说,在95%的信任水平上,该校每月支出超过1000元的比例估计在19.4%到68.1%之间。3 .单个示例正则总体方差的置信区间示例4-3查找该股票的收益率分布为99%的置信区间,如表4-5所示,具体股票的2014年3月22交易日收益率为99%。将数据保存到mylib.stock数据集。其中股票收益变量的名称是yield。使用分析模块查找单个示例正则总体方差的置信区间,如下所示:在分析模块中打开数据集mylib.stock。选择菜单“统计信息”“假设检验”“方差的单个样本检验命令”。在“One-SampleTestforaVariance”对话框中,选择变量yield作为分析变量。在Var=右侧文本框中输入任意正数,然后单击Intervals按钮将信任级别设置为99%。单击“OK”按钮,返回到“One-SampleTestforaVariance”对话框,然后再次单击“OK”按钮,分析结果将如图4-16所示。结果表明,股票收益率的方差在99%信任级别为置信区间(0.0005,0.0028)。4.2.2单样本正则整体假设检验,1 .单样本正态总体平均值的假设检验2。单样本正态整体比率的假设检验3。单样本正态总体方差的假设检验,1。单样本正规全平均值假设检验例4-4,市质量监督部门随机抽取超市袋大米净含量准确度准确度,20袋大米,每袋显示重量为5公斤。职员们对这种大米进行了计量测试。打包一袋大米,测量重量,记录总重量,然后倒入大米,表示包装袋的重量。最后,基于两个系牙的差异,大米的实际净重是多少。测试结果见表4-6。假设大米重量数据存储在名为weight的数据集mylib.dmzl中,在测试的样本数据中,查看变量weight的平均值和5kg之间是否存在重大差异。将weight变量的平均值设置为,并根据以下假设,根据标题使用h0: =5 h1: 5 (1) INSIGHT模块对单个示例正则总体平均值进行假设检查:相应的步骤如下:在INSIGHT模块中打开数据集mylib.dmzl。选择菜单“分析”“分布命令”。在“分布”对话框中,选择weight变量作为分析变量。单击确定按钮,获取变量的技术统计信息。选择菜单表“位置检查”命令,然后在弹出的“位置检查”对话框中输入5,输出结果如图4-18所示。有20个观察不等于5公斤,其中16个大于5公斤的结果。此外,如果分析变量为正态分布,则只需查看t测试的结果,即学生t检查、符号检查和符号轶事测试的结果。否则,您只需查看符号测试的结果。没有具体数字,只有两个比较大小的结果时,看符号轶事检验结果。所有三个测试都得出p值小于0.05的结论,因此,拒绝总平均值和5千克存在明显差异的原始假设。(2)对单个样本常规总体平均值的假设测试是通过启动分析师模块和打开数据集mylib.dmzl进行的。选择菜单“统计数据”“假设检验”“平均的单个样品t检验”命令。选择变量weight作为分析变量,填充变量框,并在假设框中设置原始假设的平均Mean=5。单击Plots按钮,然后在打开的对话框中选择tdistributionplot复选框。单击“OK”按钮,返回到“one-samplet-test foramean”对话框,然后再次单击“OK”按钮,分析结果将如图4-20所示。结果的第一部分是变量weight的简要说明统计。第二部分显示了原始假设和相反的假设条件,拒绝了原始假设,因为t统计的观察值为4.015,p值为0.0007小于0.05,所以总体平均值和5千克存在显着差异。结果的图形部分显示了t统计信息的采样分布的密度曲线图。两侧的阴影区域是拒绝域,占总区域的5%,垂直线显示了t统计信息的观察在阴影区域的位置,因此拒绝了总平均值为5千克的原始假设。(3)使用ttest流程步骤对单个示例常规总体平均值执行假设检查,如procTTESTh 0=5 data=mylib.dmzl。Varweight执行;执行。2 .单一样本正规整体比率的假设检验示例4-5大学需要调查1000名在校学生的每月支出,随机抽取16名学生调查数据,如实例4-2表4-4所示。将每月费用数据存储在数据集Mylib.outgo中。其中,每月费用变量的名称为exp。据95%的可信度估计,该校学生每月支出1000韩元以上的人的比例超过了40%。学生每月支出1000韩元以上的人所占的比例是,是在h0: =0.4h1: 1000的假设下建立的。(。在Hypotheses栏中设定0.4的原始假设值,选择Prop0.05作为替代假设,因此该校学生每月支出1000元以上的人的比例在0.05的显著性水平上不能拒绝超过40%的原始假设。3 .单个样品正态总体方差的假设检验示例4-6一家工厂生产的人造纤维强度遵循标准偏差5的正态分布,某天随机抽取12个人造纤维进行测试,以测试生产的人造纤维强度是否满足要求,测量的纤维强度为:2728282828282828282828282829029282828252802752575252593测量数据存储在数据集Mylib.strength中。其中纤维强度变量名为str。使用分析师作为单样本正态总体方差的假设检验,h0: 2=25h1: 2 25,单样本正态总体方差的假设检验。步骤如下:选择菜单“统计信息”“假设检查”“分布式的单个示例检查”命令。在One-SampleTestforaVariance对话框中,选择变量str作为分析变量。在Hypotheses列中,设置原始假设值Var=25,选择替代假设var=25。单击Plots按钮,然后在打开的对话框中选择Probabilitydistributionplot。单击“OK”按钮返回到“One-SampleTestforaVariance”对话框,然后再次单击“OK”按钮,分析结果如图4-25所示。由于示例方差为30.811,p值为0.5170,因此不能拒绝制造的人造纤维强度为要求的原始假设。4.3两个样本正态总体的参数估计和假设检验,4.3.1两个独立样本4.3.2对样本,4.3.1两个独立样本正态总体的参数估计和假设检验,1 .两个独立样本正态总体平均值的比较2。两个独立样品正态总体比率的比较3。两个独立样本正态平均总体方差的比较,1 .两个独立样本正规平均状态的比较示例4-7对10名男女学生的身高没有显著差异,制作数据集mylib.height,将男女身高的数据记录在同一分析变量a中,使用分类变量b的值区分两个样本,并推断男女身高是否存在显着差异,推断为0.05的显著性水平。1-2=0 h1:男生平均身高和女生平均身高没有太大差异。1-20,(1)利用分析模块比较两个独立样本正态平均值,如下:在分析模块中,打开数据集mylib.height。菜单“统计数据”“假设检验”“平均值的双重样本t检验”命令。在two-sampllet-testformeans对话框中(如图4-27a所示),选择变量a填充Dependent框,选择变量b填充组框。单击Plots按钮,然后在打开的对话框中选择tdistributionplot复选框,如图4-27b所示。单击“OK”按钮,返回“two-samplet-test formeans”对话框,然后再次单击“OK”按钮,分析结果将如图4-28所示。结果显示t统计信息的p值=0.00640.05,因此不能拒绝具有相同方差的假设。在方差相同的前提下,测试t-平均值,相应的p值=0.00640.05,因此在0.05的显著性水平上不能拒绝原始假设,这两种教学法的考试分数平均值没有太大差异。也就是说,两种教学方法没有太大的区别。2.两个独立样本正规整体比例比较例4-9为了调查男女学生的语言学习实际情况,在小学一年级随机挑选了27名男生和20名女生。他们的语文考试成绩见表4-9。请推断考试分数在90分以上的男生和女生的比例是否有很大差异,以0.05的显著性水平。将考试分数存储在数据集Mylib.chinese中。其中,语言分数变量的名称为Chinese。1和2分别表示男生和女生的语言分数超过90分的人的比例,则使用h0: 1- 2=0 h1: 1- 2 0,作为分析专家模块对这两个样本的总比例进行假设检验的步骤如下:在分析家中打开数据集mylib.chinese。重新编码变量Chinese,获得新变量chinese_recoded。选择菜单统计假设检验按比例双重样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论