statistica 全套教程包括数据挖掘_第1页
statistica 全套教程包括数据挖掘_第2页
statistica 全套教程包括数据挖掘_第3页
statistica 全套教程包括数据挖掘_第4页
statistica 全套教程包括数据挖掘_第5页
已阅读5页,还剩304页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1BASICBASIC STATISTICSSTATISTICS ANDAND TABLESTABLES .3Basic Statistics and Tables-Descriptive Statistics.3Basic Statistics and Tables-Correlation Matrices.5Basic Statistics and Tables-t-Test, Independent, by Groups.6Basic Statistics and Tables-t-Test for Independent Samples, by Variables.9Basic Sta

2、tistics and Tables-t-Test, Dependent samples.10Basic Statistics and Tables-t-Test, Single Sample.12Basic Statistics and Tables-Frequency Tables.14Basic Statistics and Tables-Breakdown and One-Way ANOVA.16Basic Statistics and Tables-Crosstabulation Tables.17Basic Statistics and Tables-Stub and Banner

3、 Tables.19MULTIPLEMULTIPLE REGRESSIONREGRESSION.22Standard Multiple Regression.22Stepwise Multiple Regression.23ANOVAANOVA.26Main Effects ANOVA.26Factorial ANOVA.29Repeated Measures ANOVA.31NONPARAMETRICSNONPARAMETRICS.34(1)Observed vs. Expected Chi-Square.34(2)Correlations (Spearman, Kendall Tau, G

4、amma).35(3)Comparing Two Independent Samples (Groups).37(4)Comparing Multiple Indep. Samples (Groups).39(5)Comparing Two Dependent Samples (Variables).40(6)Comparing Multiple Dep. Samples (Variables).42DISTRIBUTIONDISTRIBUTION FITTINGFITTING.45ADVANCEDADVANCED LINEARLINEAR ANDAND NONLINEARNONLINEAR

5、MODELSMODELS.471.General Linear Models.472.Generalized Linear and Nonlinear Models.563.General Regression Models.614.General Partial Least Squares Models.675.Variance Components.7126.Survival Analysis.737.Nonlinear Estimation.878.Log-Linear Analysis of Frequency Tables.959.Time Series and Forecastin

6、g.9810.Structural Equation Modeling.138MULTIVARIATEMULTIVARIATE EXPLORATORYEXPLORATORY TECHNIQUESTECHNIQUES.1421.Cluster Analysis.1422.Factor Analysis.1513.Principal Components and Classification Analysis.1554.Canonical Correlation.1605.Reliability and Item Analysis.1625.1、Reliability and Item Analy

7、sis.1626.Classification Trees.1647.Correspondence Analysis.1708.Multidimensional Scaling.1759.Discriminant Analysis.17810.General Discriminant Analysis.183INDUSTRIALINDUSTRIAL STATISTICSSTATISTICS ANDAND SIXSIX SIGMASIGMA.1911.Quality Control Charts.191DATADATA MININGMINING.1951.Neural Networks.1952

8、.Independent Component Analysis.2213.Generalized Cluster Analysis.2244. General Classification And Regression Tree Models.2305.General CHAID Models.2436.Advanced C and RT, CHAID (using Interactive Trees).2617.Boosted Trees.2818. Generalized Additive Models.2869. MARSplines.29110. Machine Learning.29

9、311.Rapid11.Rapid DeploymentDeployment .29912.Goodness12.Goodness OfOf FitFit .30113.Combining13.Combining GroupsGroups .3033BasicBasic StatisticsStatistics andand TablesTables在许多研究问题中,收集之资料大部份皆杂乱无章,而且当数据笔数过多时无法直接从观察所有数据去了解数据的情形,因此为了使收集的数据能清楚,知道数据的特质及所代表的意义,可以透过简单地整理让数据以表格或者图形或者量数的方式出现,则这就是叙述统计,即对资料

10、本身作简单地说明、分析与解释。在 Statistica 软件中,大致上是由 10 个不同的节点对资料作叙述统计分析。BasicBasic StatisticsStatistics andand Tables-DescriptiveTables-Descriptive StatisticsStatistics此节点主要是对数据有基本认识,诸如对连续型变量可以做平均数、中位数、标准差等等,亦可对间断型变量或是连续型变量做次数分配表与直方图。在此一提,Statistica也可对连续型变量做次数分配表或直方图,使用者可依造自己偏好选择分类的方法,前提是需先把连续型变量分段成数个区段,而 Statist

11、ica 内建的设定是把连续型变量约分成10 份区块,使用者也可自己设定。间断变量若是以编码表示,Statistica 可以选择要以代码或是间断符号表示在图表上。另外,Statistica 还提供峯度、偏度、众数等;此外,若还需要更详细的信息,也可用此节点对变量求出常态机率图、做 K-S 检定、做常态性检定等,对数据有概略性认识。【范例说明】从 Statistica 内建的例子选取”Employees.sta” ,总共有 11 个变量,其中3 个为间断型变量,分别是 GENDER、DEPART、EDUC,其余皆为连续型变量。主要是对此笔数据有一个概略性的了解,因此我们对此数据做次数分配表与直方图

12、。在此我们也会对连续型变量做直方图,由 Statistica 内建的指令来区分变量。【范例结果】a. 对连续型变量做叙述性统计分析,其中包括次数、平均数、中位数、众数、标准差等等。4b. 接下来对连续型变量”AGE”做分隔,约略分成 9 部分,以次数分配表形式表现出来,并以此为依据做一直方图。不管是从次数分配表,或是直方图都可以看出最多人的年龄层是 25-30 岁,人数以此往两端下降,可以由图上明显发现此变量服从常态性假设。c. 最后我们对间断型变量”DEPART”做次数分配表,搭配直方图表示。5从次数分配表或是从图上可以发现 Bake 与 Package 在此笔数据中所占的比例相当,而Shi

13、p 的人数略少。BasicBasic StatisticsStatistics andand Tables-CorrelationTables-Correlation MatricesMatrices在分析数据前,分析者急欲探索变量间的相关性,藉由变量间的关系可以推论出许多意想不到的论述。很多统计分析的目的就是想了解变量间的关系,因此使用者可以藉由此节点约略了解变量间的相关性,Statistica 主要是用矩阵的形式所表现出来,也可搭配散布图或是对变量做回归估计式。此节点只有在变量均为连续型的情况下才可使用,若想知道间断型变量间的关系,就须另谋他法。【范例说明】依旧采用”Employees.s

14、ta”的例子来说明,此时我们欲知道连续型变量之间的关系,因此使用 Correlation Matrices 这个节点。6【范例结果】Statistica 会把有显着相关的变量以红字显示出来,因此我们从表中可以发现 AGE与 SENIOR、SALARY 有正相关,与 INI_PROF 有负相关,其中 SENIOR 与 SALARY 的相关程度高达 95%。在相关矩阵中,其左上右下的对角数值必为 1,因为这是代表自己与自己的相关程度。BasicBasic StatisticsStatistics andand Tables-t-Test,Tables-t-Test, Independent,Ind

15、ependent, byby GroupsGroups此节点是比较在同笔数据中,利用数据中的间断型变量把数据区分为两部分,对这两部分做一致性检定,比较此两部分是否有差异。此外,在 Statistica 还可对数据提供变异数一致性检定、盒须图与常态机率图等。【范例说明】在”Employees.sta”的例子中,若欲比较男女之间的薪资是否有差异。首先利用 GENDER 把男与女的数据区分开,再使用 t-Test, Independent, by Groups 对此两群体做分析。7【范例结果】a. Statistica 会自动的依照 GENDER 把数据区分成男与女,Group1 是代表女性,Gro

16、up2是代表男性。接着对此两群体各个连续型变量做比较。Statistica 会把有显着差异的变量用红字表示,从表中可以发现男与女的差异只有发生在HEIGHT 这部分(其 P 值小于 0.05),对于其它变量则无显着性差异。b. 为了清楚显示出 HEIGHT 所造成的差异,因此画出 HEIGHT 的盒须图,可以更清楚的显示出此两群体的相异性。(此只列出有差异性的变量图表)8从盒须图发现男性与女性的身高差距非常明显,由图中可以知道男性身高高于女性身高,女性身高大致上分部于 60 英吋到 69 英吋,大多数人集中在 63 到 65 英吋。而男性身高分布于 63-73 英吋,大部分人集中在 67-69

17、 英吋。c. 做此检定之前,必须确定数据服从常态分配。使用此方法之前,必须确定数据服从常态分配。从上图来看,不管是男性或是女性,其身高皆服从常态假设,表示使用此分析方法所得出的结果是可信的。9Basic Statistics and Tables-t-Test for Independent Samples, by Variables此节点与上述节点差异最大的地方在于此节点是比较两变量间的差异。把不同变量视为不同群体,并且比较两变量间数据的相异性,前提为此变量需为连续型变量。此法提供变异数一致型检定,Statistica 内设是 Levene 的变异数一致性的检定方法,另外还有盒须图与常态机率

18、图提供给使用者参考。【范例说明】由”Employees.sta”的例子中,我们可以发现 INI_PROF 与 CUR_PROF 同构型较高,因此我们比较此两变量下的数据是否有差异。使用此节点分析在此两个变量之下,数据是否有差异。【范例结果】从表中可以发现在平均数这部分的 P 值小于 0.05,表示在 INI_PROF 与 CUR_PROF 的资料有显着差异。在标准差的比较上,可以发现并没有太大的不同,之后再用 Levene 做一次标准差的比较,也是得到相同的结果。我们可以解释说在 INI_PROF 与 CUR_PROF 确实会造成平均数的差异,但就两者的分散情况而言,并没有太大差别。10从图形

19、上来看,也可以明显看出平均数的差异确实很大,但是从数据分布的程度来看,却差异不大。Basic Statistics and Tables-t-Test, Dependent samples许多统计数据中,数据间彼此是有相依性的,举个例子来说,在实验室做实验时,固定某种状态下,分别对两种物质(A,B)的反应做纪录,这时可以称此数据为两相依母体,因为在情况 1 之下,所抽取的 A 物质,必须与情况 1 之下的 B 物质做比较。若对分属不同情况下的物质来做比较,则失去此实验的意义。因此,此节点主要是透过成对抽样的方法比较两相依母体是否有差异。【范例说明】选取 Statistica 内建的例子”Cha

20、racteristics” ,此例子主要说明不同个体对于比赛项目的得分是否会造成差异。我们欲比较每个人对 Wellness1 与 Wellness2 所得分数是否有差异。11【范例结果】a. 分别比较 Wellness1 与 Wellness2 的平均数与变异数是否有所差异。由上表可知,每个个体对于 Wellness1 与 Wellness2 的得分有显着差距,表示每个个体在于 Wellness1 与 Wellness2 的得分上并无前后的相关性。b. 对这两个变数画盒须图。12由盒须图可以发现 Wellness1 与 Wellness2 在平均数有些微差距,而 Wellness1 的散布程度

21、又比 Wellness2 大。Basic Statistics and Tables-t-Test, Single Sample前面叙述的方法都是在比较两个不同的群提间的差异,在此提供一个对单一母体做检定的方法,此节点主要是对一个群体做推论的检定方法,可以比较所搜集到的数据与本身主观意识的认知上是否有差异。Statistica 在此还提供盒须图、直方图或是常态机率图等,有助使用者对数据有概念性了解。【范例说明】采用 Statistica 内建的”Income.sta”的例子,此数据有 3 个变量,其中COUNTY 为间断型变量,ASSET 与 INCOME 为连续型变量。在此节点中,我们想要把

22、 ASSET与 INCOME 分别拿来与常数 3 比较。13【范例结果】a. 若实验者依照自己的主观概念猜测 ASSET 与 INCOME 约等于 3 左右,把此数值与所搜集到资料做比较。由上表可以发现 ASSET 与我们所猜测的常数 3 相差不远,但是对于 INCOME 来说,此数值就稍小了点。由此可推论,ASSET 大约在 3 左右,但是 INCOME 普遍来说高于 3。b. 对两变量做常态性检定。(在此只附上对 ASSET 的常态性检定)14由图可知,ASSET 大致上来说服从常态性假设。但为了保险起见,我们还是对 ASSET 做常态机率图(下图)证。c. 验证是否符合常态分配。Basi

23、c Statistics and Tables-Frequency Tables图表比起文字更能加深阅读者的印象,因此统计上常常使用图表来辅助使用者对数据的了解。此节主要是用来对变量做次数分配表与直方图,做法与之前雷同,若是间断型变量则可以选择是否使用编码代替类别符号,若是连续型变量则须加以分段,再用次数分配表与直方图表示。而 Statistica 对于间断型变量内建的设定是以类别符号来替代编码,使用者可依照自己需要加以调整。【范例说明】在此使用 Statistica 中内建的”Fastfood.sta”来当此节点的例子。此笔数据中接式间断型变量,我们欲利用次数分配表来对这些间断型变量做一个概

24、括性了解。其中我们针对消费者购买 Food1 时,会搭配何种食物。15【范例结果】从表中可以发现消费者在购买 Food1 时,约有 34%的消费者会搭配 Pizza,其次有23.5%的消费者会搭配 Hamburger。接下来我们利用直方图表示出购买 Food1 时,会搭配食物种类的人数。16从此图可以更容易发现购买 Food1 的消费者大部分会搭配 Pizza 与 Hamburger,至于搭配其它食物的人数则不相上下,没有明显差异。Basic Statistics and Tables-Breakdown and One-Way ANOVA主要是利用间断型变量把数据分类分群,对各群做简单的叙述

25、性统计,诸如平均数、标准差、相关性、百分比等,在此不限制间断型变量只有两类,此节点可以应用到有间断型变量有多个类别,并且算出各类别的变异数分析。若读者有需要,Statistica 可以提供盒须图、常态机率图,另一个特殊的地方就是可以针对各类别的平均数与标准差做效用图,以此获得更进一步的信息。【范例说明】在此依旧采用”Employees.sta”的例子,不过此时以 GENDER 与 EDUC 为分类变数,欲探讨其对 SALARY、SENIOR、INI_PROF、CUR_PROF 的影响。【范例结果】a. 先对区分后的资料做叙述性统计分析。Statistica 会先对选取的变量做叙述性统计分析,表

26、格前两列可知 GENDER 有两个类别,EDUC 有三个类别,所以会把数据区分成六部分。上列表格只贴出 GENDER 对 EDUC 做SALARY 部分的叙述性统计,因为篇幅关系无法贴出对 SENIOR、INI_PROF、CUR_PROF 的叙述性统计。b. 再对区分后数据做变异数分析。17Statistica 对有显着影响的因素会以红字表示。由上表可知,INI_PROF 与 CUR_PROF 对数据会造成显着差异,因为其 P 值小于 0.05。c. 利用 Levene 的方法做变异数一致性分析。另外,我们欲了解把资料分成六部分后,彼此间的变异数变化程度是否有差异,因此会对数据做 Levene

27、 的变异数一致性分析。由上表可知,在这四个变数之下,其变异数有一致性。另外还可对 GENDER 与 EDUC 做交互作用图,交互作用图是把文字或数字转换成图表,用来帮助使用者了解变量间的关联性。Basic Statistics and Tables-Crosstabulation Tables此节点主要是帮助使用者了解间断型型态的数据,比较间断型变量之下每类的情况;除此之外,也可以交叉比较每个间断型变量的数据。与上述相同,在此不限制间断型变量只有两类,因此可以进行多为列联分析,并且提供间断型变量间交叉的直方图与交互作用图,帮助使用者可以由图表快速获得相关讯息。【范例说明】在此采用的例子为”Fa

28、stfood.sta” ,为了比较此两个节点的差异,在此比较GENDER、Car_1、Food_1 相互间造成的影响。18【范例结果】a. 对 GENDER、Car_1、Food_1 做三维的列联表。此节点可以同时比较多个变量间的关系,并且用次数分配表表现出来。由上表可知,我们可以同是比较性别、驾驶车种、购买食物之间的关联性。男性最常驾驶 FOR_SPRT 购买Food_1 时搭配 Pizza,至于女性则无此种特征。b. 对此三个变量以交互作用图表示其关系。19其实还可以对此个变量做直方图或是 3D 立体图形,并且可以把次数转换成百分比等,还可做其它检定,这些全由使用者依照自己需求加以调整。B

29、asic Statistics and Tables-Stub and Banner Tables此节点应用的方式与上述节点类似,但是此节点主要是应用在二维列联表,先固定某间断型变量在行,另一变量则固定在列,交叉比对此两间断型变量的关系,分别可以算出观察次数、期望次数、百分比等。Statistica在此依旧提供最基本的图表,有直方图与交互作用图表,提供使用者快速浏览数据。【范例说明】在此采用的例子为”Fastfood.sta” ,为了比较此两个节点的差异,因此我们对两个例子皆是比较 Car_1 与 Food_1 的交叉关系。20【范例结果】a. 对 Car_1 与 Food_1 做次数分配表。

30、由上表可知,此节点主要是二维列联表,大部分的人皆是驾驶着 FOR_SPRT 购买 Pizza的人,与上一个节点有类似的结论。其中差异较大的地方是,上述节点明确的叙述出男性人数多于女性人数,若单只看此表,所做的结论可能会略有偏差,有可能是因为性别的关系所以导致此结论产生。常理来说,男女性别比率应该是 1:1,但是此数据男女性别比例却与正常情况来说有极大差异,因此单看此表可能会造成严重的误导。b. 利用交互作用图表示 Car_1 与 Food_1 的关系。21从上图所得的结论与上述相差不远,不管驾驶何种车款,此八条线皆有一致的走向,表示大部分的人皆是购买 Pizza 最多。22MultipleMu

31、ltiple RegressionRegressionStandard Multiple Regression回归分析的主要用处是寻找两个或两个以上的变量之间的相互变化的关系。通常影响因变量y的自变量x并不只一个,而有k个,上述应变数(y)与自变量(x)也可用数学模型表示:nixxxyiikkiii, 2 , 122110其中为截距,为回归系数。0i【范例说明范例说明】23【范例结果范例结果】:可看出 R2 2=0.4243上表为各独立变量的回归系数估计与 T 检定,此报表不但显示数据为标准化的回归系数(B),且可看出 Beta 系数显示每一个独立变量对应变量作预测时相对的贡献,例如上面的报表

32、可看出变量 Pressure Vessel-Ton-Weeks*10-3-3对预测为重要的变量,且在统计上是显着的,而 Pressure Vessel-Ton-Weeks*10-3-3的回归系数代表变量愈高,则应变量也愈高。24偏相关(Partial )代表独立变量 Xi 对应变量 y 的独特贡献(以除去了其它变量后对 y 的解释能力);半偏相关(Semipart Cor.)的平方是该变量解释应变量总变异的比例。注注: : if 半偏相关很小但偏相关相对很大,则表示此独立变量对应变量仍有很高 的独特影响力(也就是其它独立变量所未能解释而被此变量所解释的仍大)。 Stepwise Multipl

33、e Regression 逐步回归法多半用于选择变项(variable-selection) ,从许多的预测变项中,选出少数几个具有预测力的变项。于多元回归分析中,有 forwardforward stepwisestepwise 和 backwardbackward stepwisestepwise 两种方法。其中 forwardforward stepwisestepwise 的特性是一次只能允许一个预测变项进入回归公式,第一个被选入回归公式者,是预测变项与反应变项(Y)间相关最高的(如 X1) ,第二个进入回归公式者乃是其余预测变项,各剔除了第一个预测变项(X1)的影响力之后,与反应变项

34、的部分相关(part correlation)最高者,此种方式使得每次 R 的增加量为最大,如此循环,直到 R 的增加量不再达统计上的显着水平为止,则预测变项不再进入回归公式,当预变项进入公式后则留在该公式中,此即为顺向解法的回归分析。而 backwardbackward stepwisestepwise 是先把全部的预测变项都丢入公式中,再来一一剔除。【范例说明范例说明】在 North Carolina,我们将观察空中的 biomass(BIO)和五种基底的矿物之间的关联。25【范例结果范例结果】可知放入了两个变量于模型中,R2 2=0.6584。26可看出,于 step1 时放入了 pH

35、变数,又于 step2 时放入了 Na 变数,即停止。可于此表看到 pH 和 Na 的回归系数估计与 T 检定,皆为显着的。也可于此表中看到没有放入模型的三个变量的回归系数估计与 T 检定,皆为不显着的。ANOVAANOVA变异数分析(analysis of variation , ANOVA):检定母体平均数是否相等的方法,或检定因子(factor)对依变量是否有影响。所有的母体皆服从 常态分配 变异数皆相等 常态分配间皆互相独立27Main Effects ANOVA实验设计皆为每个实验单位仅安排一种处理进行实验(如CRD),只是根据实际的限制上如加上区集(如RBD、LSD)。完全随机化设

36、计法(completely randomized design, CRD) :自母体分配抽出 n 个随机样本,假设该因子有 k 个水平,则每个样本接受每一个水平的机率必须相同。随机化区集设计法(randomized block design ,RBD) : 当无法达到 CRD 的要求时,先做成区集,然后再从区集内随机抽样并随机分派。 拉丁方格设计法(Latin Square Design, LSD): 属于两个方向的区集设计,其设计方法如下(以 3x3 拉丁方格为例) 【范例说明范例说明】有家工厂为了节省物品需要装配的时间,采取了四种方法(A、B、C、D)来实验,一开始先随机挑选了四名装配员以

37、及四件需要装配的对象。在这里,我们将采取拉丁方格设计法(Latin Square Design, LSD)。行列1231ABC2BCA3CAB28【范例结果范例结果】从 ANOVA 表中,可看出 Method 对于 Source of Variability 是有显着影响的。29从 Normal Prob. Plot 图中,可看出分配是符合常态的,和假设的一样。从以上三张表,可发现符合了”变异数一致”的假设。30Factorial ANOVA 当研究者所使用的自变项是类别变项,依变项是连续变项时,所使用的统计分析技术称为多因子变异数分析(Factorial ANOVA)。使用于实验因子有数个时

38、,则必须利用一次实验而同时完成数个因子本身之差异检定,并检定出因子间相互影响(交互作用)。另外,若k 个因子皆只有两个水平(level),则称为 2k k factorial design。【范例说明范例说明】在这里,我们将探讨的是如何才能得到最高的纸张延展长度。也就是将如何选择硬木的集中度(2%、4%、8%)、烧烤的时间(3.0hr、4.0hr)和压力(400、500、650),才能做出最好的纸张。31【范例结果范例结果】所有的 main effects(Time,Pressure,Concentration)以及 Pressure*Concentration的交互作用项都是显着的。从此图可

39、以看出,若想得到较高的长度,则应选择 Hardwood Concentration 在 2 的水平、Pressure 在 650 的水平以及 Time 在 4 hr 的水平。从 Normal Prob. Plot 图中,可看出分配是符合常态的,和假设的一样。32Repeated Measures ANOVA 若依变量有两个或两个以上时,便要使用 Repeated Measures ANOVA。例如:学生在Time 1 的考试成绩和在 Time 2 的考试成积。【范例说明范例说明】甲、乙、丙三种英文教学法(B=1 表甲教学法,B=2 表乙教学法,B=3 表丙教学法)与性别(A=1 表女生,A=2

40、 表男生),每种教学法各有男女生 10 位学生参加,期末成绩(包括字汇 X1、听力 X2、文法 X3)。从 STATISTICA 下拉菜单中选择 ANOVA 选项,便出现以下对话框: 33【范例结果范例结果】从上图可见,A、B 的交互作用是显着的,因此不再讨论 A、B 的主效用。 其中,我们也发现了期末成绩和教学法以及性别的交互作用是显着的。 我们可以从下图更清楚的看到:A1:女生 A2:男生;B1:甲教学法 B2:乙教学法 B3:丙教学法X1:字汇 X2:听力 X3:文法在此图中,我们可以发现一些现象:(1) 在字汇方面,女生以甲教学法表现较差,而男生则以甲教学法较佳。(2) 在听力方面,男

41、生以乙教学法表现出的成绩较女生稍好。(3) 在文法方面,男女生不论用何种教学法,成绩不会有太大的差异。34NonparametricsNonparametrics一般常见的统计方法仅适用于母体分配的种类已知时,而只有部分参数未知,这些统计推论方法就在研讨如何估计这些未知参数,或者这些参数得性质与范围,所以只有在一定的条件下,这些统计检定才是有效的。然而在实际生活中,并不是很容易或可以清楚母体的分布为何,或者数据根本不是来自于一个母体,这样在假定母体分布的情况下进行推断的作法就有可能产生错误的结论,又是甚至造成灾难性的后果。于是人们希望在母体分布不清楚的情况下,尽量从数据本身获得所需要的信息,这

42、就是无母数统计的宗旨。所以不以母体中任何参数为估计或检定对象的统计方法称之为无母数统计。无母数检定的假设条件比较少,并不要求母体服从什么具体的分布,有时甚至不需要什么假定,更适合一般的情况。无母数检定带有最弱的假设,对模型的限制很少,因而天然地具有稳健性,这也是它广泛被使用的一个理由。(1 1)ObservedObserved vs.vs. ExpectedExpected Chi-SquareChi-Square在有母数统计中所讨论的检定方法都是在检定母体的参数之假设,且对母体都会有些基本假设,但母体假设是否正确却不得而知,所以适合度检定方法是将样本各观察值出现次数与假设分配之理论次数做比较

43、,看观测次数与理论次数是否一致的检定方法。此外,此方法只针对单样本且连续型的数据检定,即只抽取一组样本作检定,以期回答下列问题:观察次数和某种原则下的期望次数是否有显着差异;观察的比例与所期望的比例是否有差异;样本取自某种类型的总体的假设是否合理等。而此方法为是把样本分成k个互斥的类,然后根据要检定的理论分布算出每一类的理论次数f,与实际的观察次数fe进行比较,计算02ekiefff120)(的值,显然f与f之间的差别应该比较小,即的值比较小,因此时拒绝原假0e222设,不能认为服从这种分布。 此外为使检定之效率高,要求理论次数f,若有小于 5 时须将数据合并,且若分e5组过多会造成检定失效,

44、但分组过少会造成无法检定,这些都是在进行检定时需注意的。35【范例说明】 本例采用的数据为 poverty,该数据是美国 1960 年和 1970 年对随机选择的 30 个城市人口调查结果的比较。在本例中共有七个变量,有可能与贫困相关的六个变量以及一个县在贫困线以下的家庭比例,此即为第三个变数 Pt_Poor,也是本范例所采用的变量。此例子想知道到底一个县在贫困线以下的家庭比例是否服从常态分配。 先透过其它方法算出当数据服从常态分配时的理论次数,再与第三个变数的实际次数作检定,则操作面板如下所示:【范例结果】 由上表可以看出,值为 13.53654,p 值为小于 0.633197 比 0.05

45、 大,所以不拒绝虚2无假设,即在 95%的信心水平下相信一个县在贫困线以下的家庭比例是服从常态分配。(2 2)CorrelationsCorrelations (Spearman,(Spearman, KendallKendall Tau,Tau, Gamma)Gamma) 此节点是利用无母数的方法去计算变量间的相关系数。当数据为顺序尺度时,无法计36算 Pearson 积差相关系数,则利用无母数的方计算两随机变量的样本直线相关程度。而此节点提供了三种方法,分别为:Spearman Rank 相关系数、Gamma. Statistic 及 Kendall Tau statistic。其中 Sp

46、earman Rank 相关系数的计算方法为将样本观测值分别按其大ix小给予等级排序,以表之顺序值,相同地将样本观察值按其大小给予等级排( )iR xixiy序,以表示,则计算()iR y2222( ) ()( ) ( )( )( )()( )iiiiR x R ynR x R yR xnR xR ynR y的值,此外需注意若计算结果相关系数为 0 不代表两者无关,仅代表两变量间无直线关系。【范例说明】本例采用的数据为 Adstudy,该数据是研究广告是否有效。在本数据中共有二五个变数,一个为性别,一个为两个广告百事与可口可乐,其它 23 个变量为针对这广告问一些问题的评分,而本范例所采用的变

47、量为测量一的评分结果与测量二的评分结果。此例子想知道到底这两个变量间是否具有直线关系。【范例结果】37由上表可知测量一的评分结果与测量二的评分两者的相关系数为 0.050911,这代表两变量间几乎无线性关系。从图中也可以发现这个现象。(3 3)ComparingComparing TwoTwo IndependentIndependent SamplesSamples (Groups)(Groups) 此节点为比较两群独立的母体间是否有差异,也就是检定两群母体间的分配是否相同,而这此节点提供了三种检定方法可以使用,分别为 Wald-Wolfowitz Runs Test、Mann-Whitne

48、y U Test 及 Kolmogorov-Smirnov Two-Sample Test,而这三种无母数的方法相当于有母数方法中的 Two-Sample t test ,此外此节点也可以画箱型图及长条图。 要进行分析前得先注意数据是否符合下面几项性质,符合了才能进行分析:A:两组数据为随机变量B:两母体皆为连续型资料C:假设两母体形状和变异数相同D:数据至少是顺序尺度38 另外特别注意一点,要进行分析时得有一个分两类的类别型变量,和一个有兴趣的连续型变量。因为透过类别型变量将目标变量区分成两群,而所得的两群即为想比较的两群。【范例说明】本例采用的数据为 Adstudy,该数据是研究广告是否有

49、效。在此数据中共有二十五个变数,一个为性别,一个为两个广告百事与可口可乐,其它 23 个变量为针对这广告问一些问题的评分,而本范例所采用的变量为测量一的评分(第三个变量 MEASURE01)对于两种广告是否有差异。【范例结果】39 在这个例子中三种方法的检定结果 p-value 值皆大过 0.05,所以在显着水平为 0.05时,相信这两种广告所得的测量一的评分没有显着地差异。而根据箱型图也可以发现两群数据的分布是很相近的。(4 4)ComparingComparing MultipleMultiple Indep.Indep. SamplesSamples (Groups)(Groups) 此

50、节点为比较数群独立的母体间是否有差异,这此节点提供了两种检定方法可以使用,分别为 Kruskal-Wallis ANOVA 和 Median Test,此外此节点也可以做多重比较、画箱型图及长条图。 Kruskal-Wallis ANOVA 相对应的是有母数方法的一因子变异数分析,目的在检定数个母体的中位数是否相同,也就是检定数群母体间的分配是否相同,且要进行分析前得先注意数据是否符合下面几项性质,符合了才能进行分析:A:两组数据为随机变量B:两母体皆为连续型资料C:假设两母体形状和变异数相同D:数据至少是顺序尺度 而 Median Test 方法类似齐一性检定,其目的也是检定数个母体的中位数

51、是否相同,但用在母体形状和变异数不相等时。 另外特别注意一点,要进行分析时得有一个分数类的类别型变量,和一个有兴趣的连续型变量。因为透过类别型变量将目标变量区分成数群,而所得的数群即为想比较的数群。【范例说明】本例采用的数据为 Characteristics,该数据是研究人的各项特征。在此数据中共有十二个变量,而本范例是想知道不同眼睛颜色的人身高是否有显着地差异,因此利用眼睛40的颜色这变量将身高分成三群,去比较三群的身高。【范例结果】41在这个例子中检定结果 p-value 值为 0.6672,所以在显着水平为 0.05 时,相信三种不同颜色的人在身高上没有显着地差异。而根据箱型图也可以发现

52、三群数据的分布是很相近的。(5 5)ComparingComparing TwoTwo DependentDependent SamplesSamples (Variables)(Variables) 此节点是用来处理成对样本的问题,且该节点提供了两种检定方法,分别为 Sign test 及 Wilcoxon Matched Pairs Test,也可以画箱型图。 无母数中的 Sign test 相对应于有母数中的 Paired t test,目的在于比较抽取的两组相关样本所来自母体的中位数是否一致,或者母体分配是否相同。而要进行此检定数据需为连续型变量。 而 Wilcoxon Matched

53、 Pairs Test 也相对应于有母数中的 Paired t test,使用目的也是在比较抽取的两组相关样本所来自母体的中位数是否一致,或者母体分配是否相同。不过使用 Wilcoxon Matched Pairs Test 需要较 Sign test 要求更严谨,数据须符合下列几点:首先先定义一下,数据为成对的数据有与,则ixiyiiiDxyA、的分配需为成对称的形状iDB、各间是独立的iDC、各有相同的平均数,亦及即有相同的中位数iDD、的资料至少是等距尺度的iD 由于使用 Wilcoxon Matched Pairs Test 的基本假设较 Sign test 多,因此当所有基42本假设

54、皆符合时,Wilcoxon Matched Pairs Test 会较 Sign test 来得有检定力。【范例说明】 此范例采用数据为 Synchron,此数据是研究婴儿是否和一般 10 到 16 岁的儿童一样,听人演讲时若该演讲者距离很近可以看见演讲者的表情和可以读演讲者的唇时会较看不清演讲者时来得专心。而此实验则针对相同的婴儿做两个实验看专心的程度,而两个实验分别为同部连结和非同部连结,测试婴儿注意屏幕的时间。所以本范例即采用这同部连结和非同部连结所专注的时间为变量,相比较两者是否有差异。【范例结果】43 从报表可以知道不管是 Wilcoxon Matched Pairs Test 还是

55、 Sign test,两者的检讨检定结果 p-value 值皆比 0.05 小,所以在 95%的信心水平下相信婴儿对于两种演讲方式的专注程度是有差异的。根据箱型图也可以发现两者的中位数亦显着地有差。(6 6)ComparingComparing MultipleMultiple Dep.Dep. SamplesSamples (Variables)(Variables)此节点也是用来处理成对样本的问题,不过处理对象是有数组相关样本,当处理对象只有两组时则用前面的那一个节点去处理。而该节点提供了两种方法,分别为 Friedman ANOVA 及 Kendalls concordance,也可以画

56、箱型图。 Friedman ANOVA 是用来检定 K 组相关样本所来自母体是否具有相同的中位数或相同的分配,其相当于有母数方法中的二因子未重复试验之变异数分析,因为 K 组可视为 K 个处理,而 n 个样本数则视为 n 个集区。而要进行此分析只要求数据至少是顺序尺度。 Kendalls concordance 则是类似 Spearman Rank 相关系数,不过前者是计算多组数据的相关系数,后者只计算两组资料的相关系数。而要使用此方法只要求数据至少是顺序尺度。【范例说明】 本范例采用数据为 mothers,此数据是有 20 位妈妈去参加一个研习营,一个教导训练妈妈如何照顾小孩的活动,而在活动

57、结束后由 13 位专业人员给各位妈妈妈评分,因此该数据有 20 个变量,即 20 位妈妈的成绩,而在此想比较 20 位妈妈的成绩间是否有差距,且评分为来自相同的 13 位评分员,所以为比较多组相关性样本间是否有差异。44【范例结果】从上面报表可知检定结果 p-value 值比 0.05 小,所以在 95%的信心水平下相信不同妈妈间所获得的分数是有差异的,从图中亦可发现 20 位妈妈的分数差异很大,则这代表这些45妈吗对于照顾小孩这方面的能力是有差异的。DistributionDistribution FittingFitting在 Distribution Fitting 这数据夹中只有一个节

58、点,就是 Distribution Fitting 本身。在这个节点可以针对有兴趣的变量去配适任何分配,可以知道要形成该分配各区间的合理观察值个数,也可以利用这个节点去检定该变量是否真为研究者有兴趣的分配。在这个节点内可产生许多的分配,连续型的有下列几项:Rectangular Distribution、Normal Distribution 及 Chi-square Distribution 等,间断型则有:Binomial Distribution、Geometric Distribution 及 Poisson Distribution 等,所以要配适任何的分配几乎都可行。46【范例说明

59、】此范例是用数据 Irisdat,此数据是研究三种 iris 花的花办长与宽,还有萼片的长与宽,所以数据共有 5 个变量。在此本范例想知道花的萼片长度是否是符服从常态分配,因此取第一个变量萼片长度作为研究的变量。【范例结果】47根据报表可知不管是 Kolmogorov-Smirnov.检定还是 Chi-Square 检定,检定结果的 p-value 值皆比 0.05 小,所以可知花的萼片长度不符合常态分配,且根本图形可以发现问题在于左边的数据过多,使得数据非呈现对称的形式。 AdvancedAdvanced LinearLinear andand NonlinearNonlinear Mode

60、lsModels1.General Linear Models一般线性模式是个广泛使用的工具,平常所用的变异数分析(ANOVA) 、多变量变异数分析(MANOVA) 、实验设计(Experimental Design) 、回归(Regression)及共变异数分析(ANCOVA)皆属一般线性模式的范畴。48(1.11.1)MainMain EffectsEffects LinearLinear ModelsModels 这个节点就是配适一个线型模型,而适用于当解释变量为类别型变量,且只配适变量间的主效应,不考虑变数间的交互作用项,甚至变数的高阶次项,至于反应变量则为连续型变量,且反应变量为一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论