




免费预览已结束,剩余31页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MiniTab 学习笔记一、 基本统计量1. 显示描述性统计1) 用途A 使用中心值汇总数据案例:一家汽车修理公司的客户抱怨该公司的服务时间比承诺的时间长。该修理公司决定分析前几个月的实际修理时间以便为客户提供更准确的服务时间。确定中心值(如均值或中位数)是了解数据的首要关键步骤。B 评估变异程度案例:一家零食公司希望评估新的填充机器的性能。尽管平均状态下此机器看上去以正确的重量填充薯片,但此机器性能也存在很大的差异。许多薯片袋会出现填充不足或填充过多的情况。了解数据的变化程度对应了解产品或服务是非常重要的。不仅如此,理解变异性测量指标同时也会影响对其他统计量的认识。C 研究可能的组间差异案例:一个营销团队对他们的电子简报进行的读者调查结果,以了解简报是否递送给目标受众。该团队想知道被调查者的特定特征(性别、年龄和职业)是否与希望更频繁地阅读此简报或对此简报的评价更高有关。Minitab 可以为每组数据计算单独的描述性统计量,以便我们更好地了解这些数据组治具的差异。2) 数据必须使用数字数据。拥有的数据越多,结果所能提供的信息量就越大。 实例:一位热心的年轻气象学者收集了他家乡一年内的气象数据。这些值显示了每个月中具有明显降雨的天数。JanFebMarAprMayJunJulAugSepOctNovDec降雨天数*231054433123使用Minitab 分析结果如下:结果解释:a. 观测值个数:N-是非缺失值的数量,显示的所有其他统计量都只基于非缺失值。 N*-是缺失值的数量。如果没有缺失值,则不显示此统计量。b. 均值:也称为平均数,是对分布中心所在位置的度量。只需用所有观测值的和除以观察值得个数。极端值会对均值产生极大的影响。c. 中位数:也称为第2个四分位数或第50个百分位数,是数据集中的中点,有一半观测值位于其上,一半观测值位于其下。他通过对数据排序并找出观测值变化【N+1】/2来确定。如果有偶数个观测值,中位数表示为观测值编号N/2 和【N/2】+1之间的值。中位数不像均值那样对极端值敏感。因此,当数据包含异常值或偏斜时,通常使用中位数而非均值。d. 标准差(StDEV):度量样本中的观测值偏离均值的程度。它类似于到均值的平均距离。与均值相似,标准差对极端值也很敏感。如果数据称正态分布,则标准差和均值可用来确定观测值处于给定值范围内的比例。e. 均值的标准差(SE Mean):标准差除以N。f. 下四分位数和上四分位数(Q1和Q3):Q1,也称为第25个百分位数。它等于位置(N+1)/4的数据值。如果此位置号不是整数,Minitab 将在该位置量测的两个观测值治具进行推断。Q3,也称为第75个百分位数。它等于位置3(N+1)/4的数据值。如果此位置号不是整数,Minitab将在该位置两侧的两个观测值之间进行推断。Q1和Q3通常用于四分位数极差(IQR),四分位数极差是用于描述离差的另一个统计量。IQR 是中间50%的值得极差,计算公式为Q3-Q1。相对而言,IQR 对极端值不敏感。(注:要先对数据进行有小到大的排序)g. 标准差和标准误差的计算方法:1. 计算每个值与均值的偏差并求平方:数据平方数据-均值平方差*2 -1.6362.6783 -0.6360.40510 6.36440.4965 1.3641.8604 0.3640.1324 0.3640.1323 -0.6360.4053 -0.6360.4051 -2.6366.9502 -1.6362.6783 -0.6360.405 sum40 0.00056.5452. 对平方差求和。上述数据的平方差的和为56.545。3. 通过将平方差的和除以N-1 可以求得方差:方差=(平方差的和)/(N-1)=56.545/10=5.6554. 求方差的平方根,以计算标准差:标准差=方差的平方根=2.3785. 然后,用标准差除以N的平方根,已计算均值的标准误差:均值的标准误差=标准差/N的平方根=2.378/3.317=0.7172. 图形化汇总1) 包含正态曲线的数据直方图降雨量数据部服从正态曲线,这在很大程度上是因为图形右侧很远处存在异常值。如果没有此异常值,数据看上去更服从正态分布,如下图所示:2) 箱线图l 箱的下边缘表示下四分位数Q1,而上边缘表示上四分位数Q3。因此,图形的箱部分表示四分位数极差IQR或观测值的中间50%部分。l 通过该箱的线表示数据的中位数。l 从箱扩展出去的直线称为须。须向外扩展,表示数据集中(不包含异常值)的最低值和最高值。l 极端值和异常值有点表示。如果某个值位于框之外的部分比IQR 的1.5倍还多,则将该值视为异常值(大于Q3或小于Q1)。使用箱线图可以评估数据的对称性:l 如果数据刚好对称,中位线将大致位于IQR箱的中间,并且须的长度相近l 如果数据偏斜,中位线肯不在IQR框的中间,而且一条须可能显著长于另一条。 在降雨量的箱线图中,中位线位于IQR箱中心,须长度相同。这表明除了异常值之外,数据对称。这恰好表明,异常值与样本数据的其余值可能不是来自同一总体。3) 均值、标准差和中位数的置信区间3. 单样本Poisson(泊松)率1) 用途A 将比率与目标值进行比较案例:一项分区规划要求,如果某一个十字路口每小时超过300辆车,就必须设人行横道。交通官员希望知道某个繁忙的十字路口的交通量是否超过300辆车。因为这些官员要测量时间的发生率,因此数据遵循Poisson 分布。处理Poisson 数据时,可以使用单样本Poisson 率检验将发生率与给某个基准值做比较。B 估计发生率案例:为了确定监视器屏幕上的平均划痕数是否满足客户的要求,一家计算机制造商需要估计此划痕数。显然,该制造商无法检查每台监视器,因此检查员需要计算样本的划痕数。在不测量每个可能的观测值的情况下,将无法真正的纸档真实的发生率。单样本Poisson lv检验可以采用置信区间(即可能会包含该发生率的值范围)的形式提供具有实际意义的发生率估计值。2) 数据数据必须遵循Poisson 分布。也就是说,它们必须表示事件数、缺陷数或活动数。此外,数据必须为非负数。 实例:一家城市公交公司要计算过去30天中的客户投诉数量。该公司希望设定投诉率以确定新投诉部门的人员配备要求。投诉191822211718221916232516181820211523211926211726162421181721使用Minitab 分析结果如下:结果解释:A单样本Poisson 率过程将计算置信区间,并对单样本Poisson 模型中的出现率进行假设检验。Poisson 过程描述某一事件在给定时间、面积、量或其他观测值空间内的出现次数。观测值空间的尺寸成为观测长度。B合计出现数事件在样本中的出现次数N采集观测值的次数C观测值长度:显示用户定义的观测值长度,该长度表示每个观测值周期的维度。D出现率:是在观测值得每个单位长度内,发生事件的平均次数。 出现率=(合计出现数/N)/(观测值长度)。e 置信区间是可能包含总体的出现率的一系列值。4. 双样本Poisson 率1) 用途A 确定两个组之间是否存在差异案例:一家纺织品制造商使用两台纺织机来生产最畅销的织物。它希望确保这两台机器之间不存在质量差异。因为此制造商正在测量瑕疵率(每10码材料中的织物瑕疵数),所以,此数据遵循Poisson 分布。有时,我们只需要知道存在有时间意义的差异即可。通过Poisson 数据,我们可以使用双样本Poisson 率检验比较两个组的比率。B 确定一组中发生某个事件的比率是否比另一组高案例:两位工艺控制工程师分别想出了按照电视玻璃屏幕时尽可能少地产生划痕的方法。公司希望知道那种方法所产生的划痕率更低。C 确定两组的比率差异是否为某一特定量案例:一家印刷公司考虑提高其印刷机以减少缺陷印刷件的数量。但是,仅当缺陷比率降低5%或更多时才值得对此设备升级投资。即使两组之间存在比率差异,差异可能会因为太小而没有任何时间意义。通过双样本Poisson 率检验,可以检验认为重要的任意大小之间的差异,并计算出可会包含组间差异的一系列值。2) 数据数据必须遵循Poisson 分布。也就是说,它们必须表示事件数、缺陷数或活动数。此外,数据必须为非负数。 实例:邮政分析员要对两个邮局分支机构进行比较,以确定哪个机构的客户每日到访率更高。对40个工作日内(上午9:00-下午5:00)进入每个分支机构的客户数进行统计,并使用双样本Poisson率函数比较每个分支机构的客户到访数。分局 A265249274245210231207251257249233273236257268266252259271279237226278249246217223250247268275241248255255258232243244259分局 B247257273269207258260262243264236253235236265244267247267274270267287277223257282269271274276264283224257236265247250248 使用Minitab 分析结果如下:结果解释:A 双样本Poisson 率过程执行假设检验,并计算两个Poisson 模型的出现率之间差值的置信区间。Poisson 过程描述某一事件在给定时间、面积、量或其他观测值空间内的出现次数。观测值空间尺寸成为观测值长度。B 合计出现数:事件在每个样本中的出现次数C N:在每个样本中采集观测值的次数D 出现率是在观测值的每个单位长度内,发生事件的平均次数。出现率=(合计出现数/N)/(观测值长度)E 差值估计值是两个样本的出现率之间的差值。假设检验作用于此统计量。F 假设检验。Minitab 既执行精确检验,也执行基于正态近似的检验,当合计出现次数很低时,后面一种检验可能会不够精确。在此示例中,假设检验使用以下假设:H0:两个总体具有相同的比率H1:两个总体具有不同的比率精确检验和正态近似检验的P值为0.031。因此,应否定原假设,并推断出两个样本来自Poisson出现率不同的总体。换言之,可以断定两个分支的每日客户数量是不同的。G置信区间是可能包含两个总体出现率之间差值的实际值的一系列值。对于此示例,两个出现率值差值的实际值介于-14.4768 与-0.723175之间的置信度为95%。在于假设检验结合使用时,该置信区间也很有用。该检验否定了原假设,并且检定的结论是优先使用双侧备择检验,其中两个分支的客户到访率不同。但是,仍不能精确确定哪个比率更高。可通过分析置信区间来回答此问题。由于分支A-分支B的置信区间值包含负数,因此,应推断出分支B的每日客户到访率更高。5. 单样本t检定1) 用途A 将过程均值与目标值进行比较案例:一家木材厂将部分板材标记为8英尺长。该厂需要确保它所切割的板材实际均为8英尺长,否则客户可能会对此有意见,而且甚至可能会违反标记标准。可以使用单样本t检验将均值与基准值做比较。B 估计过程平均数的值案例:一家制药公司研发出一种新型速效止痛药。该公司希望估计此药品的平均药效时间以便在其标签上注明此药的生效速度。在不测量每个可能的观测值得情况下,将无法真正知道数据的真实均值。单样本t 检定可以采用置信区间(即可能会包含该均值的值范围)的形式提供具有实际意义的平均估计值。2) 数据测量数据必须为连续的数值型数据。这些数据应遵循正态分布,并且应为随机收集的独立数据。 实例:对随机选择的15个美国高收入家庭的能量消费进行了度量,以确定平均消费是否不同于发布值$1080。能源 $12111572166812501478130711848651162130811881111174713261142 使用Minitab 分析结果如下:结果解释:A 假设:使用单样本t过程时,实际上是在根据样本数据决定哪两个相反的假设看起来成立:H0(原假设): 等于参考值H1(备择假设): 不等于参考值。(默认情况下,H1是非定向假设,但是可以指向定向假设)B. 置信区间是 的一系列可能值。由于我们不知道的实际值,因此可以根据样本数据通过置信区间来猜测实际值。样本均值提供的估计值,并且使用样本标准差(StDev)来确定估计值的远离程度。C. 检验:t检验提供两个统计量,可以用来执行均值检验:t值和p值。t值本身并不能提供什么信息,但可以用来计算p值。P值可以指示当原假设(H0)成立时以特定均值和标准差获得样本的可能性。必须在进行检验前确定否定H0 所需的p值。选择作为标准的值称为a 水平。如果p值小于或等于a 水平,则否定H0并推断出 不等于参考值。常用的a水平为0.05。6. 双样本t检定1) 用途A 确定两个组是否存在差异案例:普通塑料垃圾袋的生产商希望显示其产品的平均寿命与价格较高的竞争对手的名牌产品寿命一样。有时,只需知道存在有实际意义的差异即可。B 确定一个组是否优于另一个组案例:一个家具制造商希望找到更快捷的方式组装一种复杂的椅子。该制造商需要证据表明新方法比当前的方法更快捷。C 确定两个组之间的差异是否为某一特定量案例:一家进行大型混凝土浇灌的公司要调查一种声称可以减少养护时间的价格高昂的新化学品。此公司需要确信该化学品可以将养护时间减少至少五个小时;否则,它将不值这么多钱。即使两组之间存在均值差异,差异可能会因太小而没有任何实际意义。2) 数据必须有两个包含连续数据的数据组。样本必须是针对不同对象测量的独立样本。如果具有两个以上的组,请使用方差分析过程。 实例:一家医疗卫生管理公司具有两家医院以前的患者的满意度样本。该公司希望知道患者对其中一家医院的满意度是否比另一家医院高。该公司将使用此信息箱患者提供参考并为医院提出改进建议。这两个样本的方差非常接近,因此该公司将对检验使用综合标准差。 A81777574869062739198B896435686955375742495958657167比率81777574869062739198医院AAAAAAAAAA比率896435686955375742495958657167医院BBBBBBBBBBBBBBB 使用Minitab 分析结果如下:结果解释:A. 双样本t 置信区间和检验过程用于两个独立、随机样本中的数据推断两个总体均值(A和B)治具的差值。要使用双样本t过程,样本数据应服从正态分布。如果样本数据不是正态分布,则应考虑使用合适的非参数过程。而且,样本必须是独立的。如果样本相关或配对,则改用成对的t检验过程即可。B. 假设:使用双样本t过程时,时间是在根据样本数据决定哪两个相反的假设看起来成立:H0(原假设):差值A-B 等于选择的参考值(通常为零)H1(备择假设):A-B 不等于所选的参考值。C. 置信区间是差值A-B的一系列可能值。由于不知道此差值的实际值,因此可以根据样本数据通过置信区间来猜测实际值。样本均值之差提供A-B的估计值,并且使用样本标准差(StDev)来确定估计值的远离程度。D. t 检验提供两个统计量,可以用来对均值之差进行检验:t 值和p 值。t 值本身并不能提供什么信息,单可以用来确定p 值。p 值可以指示当H0 成立时获得样本的可能性。必须在进行检验之前确定否定H0所需要的p 值。选择作为标准的值成为a 水平。如果p 值小于或等于a 水平,则否定H0并推断出A-B不等于参考值。假设检定的补充说明:1) 假设检验假设检验是统计决策中最常用的方法之一。一般而言,假设检验室一种假定初始声明为真,然后使用样本数据检验该声明的过程。通常,初始声明是指相关的总体参数。假设检验包括两个假设:原假设(以H0表示)和备择假设(以H1表示)。原假设是初始声明,且通常使用先前的研究或常识进行指定。备择假设是可以相信为真实或有望证明为真实的内容。备择假设有时是指研究假设,并且可以使定向的或非定向的。假设检验的决策过程可以基于给定检验的概率值(p 值)。l 如果p 值小于或等于预先确定的显著性水平(a 水平),则否定原假设,转而支持另一个假设。l 如果p 值大于显著性水平,则不能否定原假设,且不声明支持备择假设。执行假设检验时,有四种可能的结果。结果取决于原假设的真假一家能否否定原假设。下表中汇总了这些结果: 真相决策 H0为真H0为假接受H0正确决策P=1-类型II 错误P=拒绝H0类型I 错误P=正确决策P=1-如果原假设为真,但否定了原假设,则发生类型I错误。发生类型I错误的概率成为,也称为显著性水平。如果原假设为假,但未能否定它,则发生类型II错误。发生类型II错的概率为。原假设为假时,否定它的概率等于1-。此值也称为检验的功效。2)置信区间和范围置信区间(CI)是用于从样本数据中估计总体参数的区间。如果备择假设(H1)是非定向的,则Minitab同时显示区间的上下限,如果H1是定向的,则只显示一个边界。置信区间有两个基本部分构成:l 点估计-从样本数据中计算单个值。此值被认为是相关参数的估计是,但点估计不可能与参数相等。因此,为了考虑估计错误的概率,在置信区间中包括了错误边际,以提供可能的参数值的范围。l 错误边际-通过使用概率来确定置信区间的宽度。为了构造置信区间,只需从点估计中加上和/或减去错误边际。对于 0.05,构造95%的置信区间。这意味着,用于构造区间的方法产生包含相关参数的区间的概率为0.95(既1-)。因此,如果构造100个95%的置信区间,则大约有95个区间包含该参数。换句话说,参数值位于该区间内的概率为95%。如果备择假设有方向,则置信区间会在一个方向无限延伸。在此情况下,只显示一个边界。3)相关样本和独立样本对连个均值之差进行检验时,确定两个样本是相关还是独立至关重要:l 如果一个样本中的值影响另一个样本中的值,则认为两个样本相关。l 如果一个样本中的不能揭示另一个样本中中值的任何信息,则认为这两个样本是独立的。4)假设检验和置信区间的关系假设正在执行假设检验。回想一下,否定原假设(H0)或无法否定该假设的决策可以基于p 值和你选择的显著性水平(a 水平)。如果p 值小于或等于,则否定H0;如果p 值大于,则无法否定H0。决策也可以基于使用同一水平构造的置信区间(或边界)。例如,显著性水平为0.05的检验的决策可以基于95%置信区间:l 如果在H0 中指定的参考值位于区间之外(即小于下限或大于上限),则可否定H0。l 如果在H0 中指定的参考值位于区间之内(即不小于下限或不大于上限),则无法否定H0。5)选择水平对的选择决定类型I错误的概率。此值越小,错误地否定原假设(H0)的几率就越小。但是,值越小,就意味着功效越低,并因此降低了检测到效应的几率。按照惯例,最常用的水平为0.05。=0.05 表示发现实际并不存在的效益的几率为5%。大多数情况下,认为这种出现错误的概率可以接受。但是,第特定检验选择时,可能需要考虑何种错误更严重:发现实际不存在的效应,或未发现实际存在的效应。选择较小的。有时选择较小、较保守的值更好。例如,假设要检验新铣床中的样本,并尝试决定是否购买并在加工车间中安装一批这种机器。如果新机器比当前使用的机器更精确,则会节省大量资金,因为生产的残次品会减少。但是,购买和安装机器的成本非常高。购买前需要确信新机器更加精确。这种情况下,可能需要选择较低的值,如0.001.这样,如果实际上并非如此,将断定新机器更精确的几率也仅为0.1%。选择较大的。另一方面,有时选择较大、叫宽松的值更好。例如,假设喷气发动机制造商要加油一种价格较低的新滚珠轴承的稳定性。很明显,如果滚珠不合格,则节省的少量滚珠成本并没有潜在灾难性后的代价值得重视。因此,可能需要选择较高的值,如0.1。尽管这意味着在不存在差异的情况下将更可能错误的断定存在差异,但更重要的是可能检测到轴承稳定性的差异(如果存在)。6) 具有合理正态分布的小样本示例下面是来自正态分布的九组数据,既“没有问题”的样本。对于未经培训的眼睛而言,其中多数直方图可能不呈钟形。7. 成对t 检定1) 用途A. 确定两个相关组是否存在差异案例:一家轮胎公司希望了解两种轮胎设计的磨损率是否不同。要确保每个设计都与相同的气候、路面状况和司机相关,该公司为每辆测试车都安装了这两种轮胎。只要在相同条件下检验成对的测量值,其样本即为相关样本。要比较相关组的均值,与双样本t检验相比,配对t 检验不但更适用,而且功能更强大。B. 评估之前和之后进行的研究结果案例:营养专家希望测试参与节食和日常锻炼项目的有效性。如果测试参与者在参与项目后体重明显下降,营养专家就可以声明此项目有效。2) 数据数据必须是两个相关样本的数字测量值。(如果样本为独立样本,请使用双样本t检验来比较) 实例:一位生理学家想确定某种类型的赛跑计划是否对稳定心率有影响。对随机选择的15个人测量了心率。然后对其实施该赛跑计划,并在一年后再次测量心率。因此,对每个人前后进行的量测构成了一个观测值对。之前687674717172758375747677787575之后677774746970717771747368717277差值1-10-32246403973-2 使用Minitab 分析结果如下:结果解释:A. 配对t 置信区间和测试法用于分析配对观测值之间的差值。这些过程用来确定总体的均值差值是否可能与参考值(通常为零)不同。分析配对观测值与分析独立样本相比的优点在于可以析出因此人或对象之间的差异而导致的观测值的变异性,从而可生成更有功效的检验。要使用配对t 过程,差值的分布应服从正态分布。如果不满足此条件,则应考虑使用合适的非参数过程。而且,样本必须是相关的或配对的。B. 使用配对的t 过程时,实际上是在根据样本数据决定哪两个相反的假设看起来成立* H0(原假设):总体中差值的均值等于选择的参考值(通常为零)* H1(备择假设):总体中差值的均值不等于所选的参考值。C. 置信区间是D的一系列可能值。由于不知道D的实际值,因此可以根据样本数据通过置信区间来猜测实际值。平均样本差值提供D的估计值,并且使用样本差值的标准差(StDev)来确定估计值的远离程度。D. t检验提供两个统计量,可用来对均值差值进行检验:t 值和p 值。t 值本身并不能提供什么信息,但可以用来确定p 值。p 值可以指示当H0成立时以特定均值和标准差获得差值分布的可能性。必须在进行检验之前确定否定H0所需的p 值。选择作为标准的值称为水平。如果p 值小于或等于水平,则否定H0并推断出不等于参考值。8. 单比率1) 用途A. 将比率与目标值进行比较案例:一家冰激凌公司通过询问品尝者是否会因为习惯他们的新口味儿购买此产品来检验新口味。如果表示要购买冰激凌的品尝者的比率超过80%,该公司将把这冰激凌推向市场。B. 估计比率案例:一家广告代理商希望知道公众对新的人工甜味剂的看法。该代理商将基于那些对此甜味剂持反对意见的人员比率来调整广告策略。2) 数据数据必须记录一系列只有两个可能结果的独立实验的结果。 实例:一家直邮公司随即选择向1000个家庭发送一种新洗衣粉的广告。在接收此邮件的1000个家庭中,87个家庭购买了这种洗衣粉。该公司希望确定此成功率十分与他们的平均成功率6.5%有差异。9. 双比率1) 用途A 指定两个组中的比率是否存在差异案例:一个工厂经理需要监管两个类似的汽车变速器装配线。它需要知道这两条线的缺陷变速器比率是否存在差异,存在差异意味着存在问题。有时,只需要知道存在有实际意义的差异即可。当只有两个可能结果时,可以使用双比率检验比较着两个组。B 确定其中一组的比率是否比另一组的比率高案例:一所学校要评估一个旨在保障儿童不退学的新咨询项目。学校希望知道此项目开始后,退学的学生比率是否显著下降。C 确定两组比率的差异是否为某一特定量案例:一家容器公司正在考虑体会用于模压塑料瓶程序的机器,从而降低出现缺陷产品的比率。但是,仅当缺陷比率低于5%或更多时才值得对此次设备升级投资。即使两组之间存在差异,以比率表示的差异,以比率表示的差异大小可能会因为太小而没有任何实际意义。通过上比率检验,可以检验认为重要的任意大小之间的差异,并计算出可能会包含组间差异的一系列值。2) 数据对于每个样本,数据都必须记录一系列只有两个可能结果的独立实验结果。 实例:大学的财政援助办公室对其大学生进行调查,确定男生还是女生更可能获得暑假职业。子啊抽样的802名男生中,725人在暑假被雇佣,而抽样的712名女生中有573人被雇佣。10. 单方差1) 用途A. 将过程方差与目标值进行比较案例:一家木地板公司要检验所有交付的未经处理木材的含水量。如果含水量变化过大,就表示木材未经过合适的干燥处理,该地板公司将不会接受这批货物。过大的过程变异将导致不一致或不可预测的结果,从而危害过程输出和客户满意度。请使用单方差检验将方差或标准差与目标值做比较。B估计过程方差 案例:一家机械厂正在使用一种新铣床生产发动机部件。因为该铣床是生产过程中的一个很有影响的部分,该机械厂希望重新评估此过程中存在的变异性大小。 在不测量每个可能的观测值的情况下,我们将无法真正知道数据的真实方差。单方差检验科员采用置信区间的形式提供具有实际意义的方差估计值。2) 数据数据应该是从服从任意分布的连续量测值中随机收集到的。实例:木材厂的经理希望分析锯木机的性能。设计了一台锯木机,以生产刚好为100cm 长的梁。经理决定要分析哲学长度的方差,以便更好地了解设备的精度。经理从中选取50个梁作为样本,以厘米为单位测量其长度,并使用单方差检验分析方差。长度99.002 100.242 100.042 99.596 100.031 99.909 99.648 100.683 100.294 98.342 100.592 99.166 100.513 99.427 99.972 99.844 102.377 99.800 101.390 101.041 99.857 100.623 99.849 100.114 100.266 101.976 99.225 100.220 101.424 102.319 100.227 100.210 99.882 101.338 99.819 101.082 98.364 99.169 100.005 100.445 99.381 100.148 101.322 99.843 100.359 99.976 99.147 101.100 99.376 100.274 使用Minitab 分析结果如下:结果解释:A. 单方差命令分析来自总体的单个样本,并为该总体的标准差和方差计算置信区间。它还以可选的假设检验为特征,来确定未知的总体标准差和方差是否等于用户指定的值。B. 描述性统计量N,此值表示样本数量,它等于样本中的非缺失观测值的个数。C. 标准差,此统计量测量数据围绕其均值分散的范围。标准差等于样本方差的平方根。D. 方差,此统计量测试数据围绕其均值分析的范围。方差等于标准差的平方。E. 如果可以安全的假设样本来自正态分布的总体,则请使用卡方方法。这些置信区间提供了可能分布包含未知总体标准差和方差的一系列值。F. 如果您的样本数据连续但不来自于正态分布的总体,则请使用Bonett 方法。这些置信区间提供了可能分布包含未知总体标准差和方差的一系列值。11. 双方差1) 用途A. 确定一个组中的数据是否比另一个组中的数据变化更大案例:一家早餐公司对大幅波动的谷类食品盒填充量感到不满意。公司将检测一种替换设备。如果此新设备可以在填充食品盒时使变异性变小,他们将购买此设备。包含变异过大的过程无法提供一致的部件或服务,而且其性能也不可预测。当在两个组或两个过程治具选择时,请选择双方差检验来确定哪个变异性更低。B. 确定两组的方差之间的差异是否为某一特定量案例:一家服装制造商因某个供应商的织物质量不稳定而感到不满意。由于不太愿意结束与此供应商的长期稳定关系,该公司仅当新供应商可以交付质量变异性减半的材料时才会更换供应商。即时两组的方差之间存在差异,差异也可能会因为太小而没有任何实际意义。通过双方差检验,可以检验认为重要的任意大小之间的差异,并计算出可能会包含组间差异的一系列值。2) 数据必须为两个随机样本都提供连续的数字测量值。数据可以来自任意分布。实例:最近的研究对在两种路面上驾驶的司机进行了比较。美味司机在两种路面的其中一种路面上驾驶:已铺筑(1)和未铺筑的土砂路(2)。为了测量驾驶水平,测试人员记录了每位司机在每种路面上所做的控制校正次数。你希望确定司机在这两种路面状况下驾驶水平的变化是否相同。方法类型1111222211112222修正41881016272314641372015817使用Minitab 分析结果如下:结果解释:A 双方差置信区间和检验过程用于根据两个独立的随机样本中的数据对两个总体比率治具的标准差和方差的相等性进行推断。Minitab 将计算两个总体方差和标准差治具比率的假设检验和置信区间;如果比率为1,则表明两个总体相等。包括方差分析在内的许多统计过程都假定不同总体具有相同的方差。使用双方差可以确定相等的假设是否有效。B 每个样本的标准差和方差将被计算并作为实际总体值得点估计值。C 置信区间是实际标准差()和方差(2)比率的一些列可能值。由于不知道或2 的实际值,因此置信区间可能会根据样本数据提供每个比率的范围。如果范围包括1,则你无法拒绝两个总体治具的值相等这一假设。置信区间表显示以下信息:l 数据分布-正态且连续(变量时连续的,但不一定正态分布)。Minitab 将计算着两个分布的置信区间。执行正态性检验,以确定应使用的分布。l 标准差比率的置信区间-即两个标准差之间的比率的95%置信区间的置信上限和下限。l 方差的置信区间-即两个方差的比率的95%置信区间的置信下限和上限。D 假设检验Minitab 中显示了用于判断方差是否相等的两种检验的结果:F检验和Levene 检验。在这两种检验中,原假设之门这两个方差(或等效的总体标准差)相等(H0:2 1/2 2=1),与指出他们不相等的备择假设相比(H1:2 1/2 21)。检验的选项取决于分布属性:l 当数据来自正态分布是使用F检验。对于偏离正态性的情况,F 检验的功能并不强大。l 当数据来自连续但不一定正态的分布时,请使用Levene 检验。Levene 检验不如F检验敏感,因此当数据为正态或接近正态时,请使用F检验。E Minitab 对于F 检验和Levene 检验度计算和显示检验统计量和p 值。l p 值较高,则表明方差之间不存在显著差异l p 值较低,则表明方差治具存在差异12. 正态性检验1) 用途A 确定数据是否遵循正态分布案例:一名研究人员希望研究喷气发动机的某个关键部件的铸造过程。由于需要使用正态分布数据的检验在于非正态数据结合使用时产生误导性结果,因此,该研究人员需要确保数据遵循正态分布。通常,统计过程都会假设数据来自正态分布。尽管许多检验不使用正态数据也可以正常工作,但在某些情况下,使用非正态数据会产生误导性结果。请使用正态性检验来确定数据是否遵循正态分布。2) 数据数据必须为数字。实例:一位营养学家随机选择了13瓶食用油样本,以便确定饱和脂肪的平均百分比是否不同于宣传的15%。仪器的研究表明,总体标准差为2.6%。单样本Z检验似乎适合用,但需要检验正态性假设。脂肪含量15.212.415.416.515.917.116.914.319.118.218.516.320使用Minitab 分析结果如下:结果解释:A. 许多统计过程都假定数据服从正态分布。为了验证此假设,可对数据执行正态性检验。Minitab 提供三种可供选择的正态性检验:l Anderson-Daarling-此检验具有极好的功效,并且在分布的高值和地址中检测对正态性的偏离是特别有效。l Ryan-Joiner(与Shapiro-Wilk 类似)-此检验具有极好的功效。它基于样本数据域期望从正态分布中获得数据之间的相关。l Kolmogrov-Smirnov这是常见的正态性检验,但功效比其他两种检验要低。每个检验的结果都带有正态概率图,这有助于确定数据是否服从正态分布。B. 正态性检验评估原假设(H0),及数据服从正态分布。如果检验的p 值小于所选的水平,则必须否定H0 并推断出数据部服从正态分布。二、 回归1. 回归1) 用途A. 确定两个变量是否具有线性关系案例:大学录取办公室对学生的学业成绩与其大学入学考试的分数之间的关系感兴趣。强线性关系将表明入学考试时作出录取决定的有效工具。回归时确定两个变量治具是否存在线性关系的强大工具;也就是说,当一个变量增大时,另一个变量将按比例增大或减小。B. 检验单个响应与多个预测变量之间的关系案例:一个农业研究员知道多种变量(温度、降雨量、肥料类型等)可以影响农作物的产量。如果她知道这些预测量的组合如何影响农作物产量,她就可以在任何气候条件下都保持产量。在许多情况下并非一个预测变量,而是多个预测变量,可以最好的描述响应或结果。回归可用于以数学方式描述这种关系。C. 预测一组新的观测值的响应案例:一家公用事业公司希望帮助客户估计他们在即将到来的冬季的燃料成本。通过现有客户的记录,该公司创建了一个基于平均温度、家庭成员数和供热系统的类型和使用年限估计取暖的公式。然后,客户即可向燃料公司提供这些数据以估计他们未来的取暖费。回归使用观测数据方程来描述一个或多个预测变量与一个响应之间的关系。通过使用此方程,可以在具有一组新预测变量时预测响应值。2) 数据预测变量和响应变量必须是数值型的。实例:在不同的HCH0 浓度、催化剂比率、凝固温度和凝固时间下生产出32件棉纤维素。对每件产品都记录了耐压等级,及抗皱性的度量。通过多元线性回归评估了响应、等级和预测变量、浓度、比率、温度以及时间之间的线性相关性。浓度比率温度时间评级8410011.42418072.27418014.610712054.97418054.67718014.771314014.65416074.54714034.85110071.481014034.72410031.641018034.56712074.7101318034.841016054.641310074.3101012074.95410011.781314014.610118012.621314013.161318074.77112072.551314014.58116072.14118071.86116011.54110011.371010074.64110011.44110011.45使用Minitab 分析结果如下:结果解释:A 线性回归用于调查响应(Y)和预测变量(X)之间的线性关系,并对其建模。响应和预测变量都是连续变量。线性回归分析常用于:l 确定响应变量如何随特定预测变量的变化而变化l 预测任何预测变量值或预测变量值组合的响应变量值B. 回归方程是回归线的一种代数表示形式,用于描述响应和预测变量之间的关系。回归方程采取的形式为:响应=常量+系数*(预测变量)+系数*(预测变量) 或者 y=b0 + b1*X1 + b2*X2 + + bk*Xk 其中:l 响应(Y)是响应的值l 常量(b0)是当预测变量为零时响应变量的值。由于此常量确定回归线截取Y轴的位置,因此称它为截距。l 预测变量(X)是预测变量的值。l 系数(b1,b2,bk)表示预测变量值得每个单位变化所对应的均值响应的估计变化。也就是说,他是X 增加一个单位时Y发生的变化。C. 系数表列出了预测变量的估计系数。线性回归用于检查响应和预测变量之间的关系。要确定响应和预测变量之间观测到的关系是否统计意义显著,需要:l 确定系数p 值:p的系数值说明响应和预测变量治具的相关性是否统计意义显著。l 将系数p 值与水平进行比较:如果p值小于选择的水平,则相关性的统计意义显著。D. S、R2 和调整的R2 是模型对数据的拟合优度的度量。这些值有助于选择具有最佳拟合的模型。l S 以响应变量的单位进行度量,它表示数据值偏离回归线的标准距离。对于给定研究,等式预测响应的效果越好,S越小。l R2 (R 平方) 描述在观测到的响应值中有预测变量解释的变异量。R2 始终岁预测变量的增加而增大。l 调整的R2 表示已根据模型中的项数调整的修正R2。如果包括了不必要的项,R2 会人为地变的很高。与R2 不同,调整的R2 在向模型中添加项时可能变小。使用调整的R2 比较预测变量数不同的各个模型。E. 方差分析表显示响应数据中由预测变量解释的变异量以及剩余未解释的变异量。如果在预测变量的某些设置下观测到重复的响应值,则未解释的变异可以分为因纯误差而导致的变异和因模型不完善(失拟)而导致的变异。小于p 的两个值是最重要的需要考虑的结果:l 使用第一个p 值(回归)分析回归系数是否与零显著不同。如果p 值小于预先选择的水平,则可以推断至少有一个系数不为零。l 使用第二个p 值(失拟)确定是否只有线性预测变量足以解释响应的变异。如果p 值小于预先选择的水平,则可以断定线性预测变量不足以解释响应的变异。在这种情况下,可能需要考虑高次项。可以一次一个地包括预测变量的二次项,并重新分析数据。F. 异常观测表显示带有绝对值大于2的标准化残差的案例。G. 要求计算响应的均值或预测新响应值时,Minitab 显示预测变量的所选值。H. 要求计算预测变量的某些设置下的响应的均值或预测新响应值时,Minitab 显示预测值表。拟合是在所要求的预测变量设置的组合下响应的预测(拟合)值。I. 对于均值响应计算,置信区间给出了在所选预测变量设置的组合下期望均值响应所在的范围。也就是说,置信区间提供了给定预测变量设置的组合下可能的平均响应值区间。J. 对于新响应预测,预测区间是期望新响应值所落的范围。也
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论