设计您的数据分析,做比简单原始计数更多的事_第1页
设计您的数据分析,做比简单原始计数更多的事_第2页
设计您的数据分析,做比简单原始计数更多的事_第3页
设计您的数据分析,做比简单原始计数更多的事_第4页
设计您的数据分析,做比简单原始计数更多的事_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

developerWorks中国

>

Webdevelopment

|

Linux

>用PHP使Web数据分析进入更高境界设计您的数据分析,做比简单原始计数更多的事PaulMeagher(paul@),CEO,DatavoreProductions2003年12月01日

更新2004对Web数据进行有效和多层次的分析是许多面向Web企业能够生存的关键因素,数据分析检验的设计(和决策)通常是系统管理员和内部应用程序设计人员的工作,而他们可能除了能够把原始计数制成表格之外,对统计学没有更多的了解。在本文中,PaulMeagher向Web开发人员传授了将推论统计学应用到Web数据流所需的技能和概念。动态网站不断生成大量的数据—访问日志、民意测验和调查结果、客户概要信息、订单及其它,Web开发人员的工作不仅是创建生成这些数据的应用程序,而且还要开发使这些数据流有意义的应用程序和方法。通常,对于由管理站点所产生的不断增长的数据分析需求,Web开发人员的应对是不够的。一般而言,除了报告各种描述性统计信息之外,Web开发人员并没有其它更好的方法来反映数据流特征。有许多推论统计步骤(根据样本数据估计总体参数的方法)可以被充分利用,但目前却没有应用它们。例如,Web访问统计信息(按当前所编辑的)只不过是以各种方式进行分组的频率计数。以原始计数和百分比表示民意测验和调查结果的情况比比皆是。开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了,我们不应期望太多。毕竟,有从事较复杂的数据流分析的专业人士;他们是统计师和受过训练的分析师。当组织需要的不仅仅是描述性统计时,可以请他们加入。但另一种应对是承认对推论统计学日益加深的了解正成为Web开发人员工作描述的一部分。动态站点正在生成越来越多的数据,事实表明,设法将这些数据变成有用的知识正是Web开发人员和系统管理员的责任。我提倡采取后一种应对;本文旨在帮助Web开发人员和系统管理员学习(或重温,如果知识已遗忘的话)将推论统计学应用到Web数据流所需的设计和分析技能。使Web数据与实验设计相关将推论统计学应用到Web数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要:测量尺度是什么?样本的代表性如何?总体是什么?正在检验的假设是什么?要将推论统计学应用到Web数据流,需要先把结果看作是由实验设计生成的;然后选择适用于该实验设计的分析过程。即使您可能认为将Web民意测验和访问日志数据看作实验的结果是多此一举,但这样做确实很重要。为什么?这将帮助您选择适当的统计检验方法。这将帮助您从收集的数据中得出适当的结论。在确定要使用哪些适当的统计检验时,实验设计的一个重要方面是选择数据收集的衡量尺度。

回页首衡量标准的示例测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。例如,千克尺度允许您给一个物体分配数字,根据测量仪器的标准化的偏移量指示该物体的重量。有四种重要的衡量标准:定比尺度(ratio)—千克尺度是定比尺度的一个示例?分配给物体属性的符号具有数字意义。您可以对这些符号执行各种运算(如计算比率),而对于通过使用功能不那么强大的衡量标准获得的数值,您不能使用这些运算。定距尺度(interval)—在定距尺度中,任意两个相邻测量单位之间的距离(也称为间距)是相等的,但零点是任意的。定距尺度的示例包括对经度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加减,但乘除则没有意义。定序尺度(rank)—定序尺度可应用于一组有顺序的数据,有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。常见的示例包括“好恶”民意测验,其中将数字分配给各个属性(从1=非常厌恶到5=非常喜欢)。通常,一组有序数据的类别有自然的顺序,但尺度上相邻点之间的差距不必总是相同的。对于有顺序的数据,您可以计数和排序,但不能测量。定类尺度(nominal)—衡量标准的定类尺度是衡量标准中最弱的一种形式,主要指将项目分配给组或类别。这种测量不带数量信息,并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。下表对比了每种衡量标准的特征:衡量标准尺度属性具有绝对的数字含义吗?能执行大多数数学运算吗?定比尺度是。是。定距尺度对于定距尺度是这样;零点是任意的。加和减。定序尺度不是。计数和排序。定类尺度不是。只能计数。在本文中,我将主要讨论通过使用测量的定类尺度收集的数据,以及适用于定类数据的推论技术。使用定类尺度几乎所有Web用户—设计人员、客户和系统管理员—都熟悉定类尺度。Web民意测验和访问日志类似,因为它们常常使用定类尺度作为衡量标准。在Web民意测验中,用户常常通过请求人们选择回答选项(如“您偏爱品牌A、品牌B,还是品牌C?”)来衡量人们的偏好。通过对各类回答的频率进行计数来汇总数据。类似的,测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天,然后对每一天出现的点击或访问的数目计数。另外,您可以(也确实可以)通过浏览器类型、操作系统类型和访问者所在的国家或地区—以及任何您想得到的分类尺度—对点击计数。因为Web民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数,所以可以用相似的无参数统计检验(允许您根据分布形状而不是总体参数作出推论的检验)来分析它们。DavidSheskin在他的HandbookofParametricandNon-ParametricStatisticalProcedures一书(第19页,1997)中,是这样区分参数检验和非参数检验的:本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。作为通用规则,评估类别/定类尺度数据和顺序/等级-顺序数据的推论统计检验被归类为非参数检验,而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。当作为参数检验基础的某些假设值得怀疑时,非参数检验也很有用;当不满足参数假设时,非参数检验在检测总体差异时有很大的作用。对于Web民意测验的示例,我使用了非参数分析过程,因为Web民意测验通常使用定类尺度来记录投票者的偏好。我并不是在建议Web民意测验和Web访问统计信息应该始终使用定类尺度衡量标准,或者说非参数统计检验是唯一可用于分析这类数据的方法。不难设想有(譬如)这样的民意测验和调查,它们要求用户对每个选项提供数值评分(从1到100),对此,参数性的统计检验就比较合适。尽管如此,许多Web数据流包括编辑类别计数数据,而且通过定义定距尺度(譬如从17到21)并将每个数据点分配给一个定距尺度(如“年轻人”),可以将这些数据(通过使用功能更强大的衡量标准测量)变成定类尺度数据。频率数据的普遍存在(已经是Web开发人员经验的一部分),使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。为了使本文保持合理的篇幅,我将把对Web数据流分析的讨论局限于Web民意测验。但是请记住,许多Web数据流都可以用定类计数数据表示,而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。

回页首从抽样开始假设您在您的站点www.NovaScotiaBeerD上进行每周一次的民意测验,询问成员对各种主题的意见。您已经创建了一个民意测验,询问成员喜爱的啤酒品牌(在加拿大新斯科舍省(NovaScotia)有三种知名的啤酒品牌:Keiths、Olands和Schooner)。为了使调查尽可能范围广泛,您在回答中包括“其它”。您收到1,000条回答,请观察到表1中的结果。(本文显示的结果只作为演示之用,并不基于任何实际调查。)表1.啤酒民意测验KeithsOlandsSchooner其它285(28.50%)250(25.00%)215(21.50%)250(25.00%)这些数据看上去支持这样的结论:Keiths是最受新斯科舍省居民欢迎的品牌。根据这些数字,您能得出这一结论吗?换句话说,您能根据从样本获得的结果对新斯科舍省的啤酒消费者总体作出推论吗?许多与样本收集方式有关的因素会使相对受欢迎程度的推论不正确。可能样本中包含了过多Keiths酿酒厂的雇员;可能您没有完全预防一个人投多次票的情况,而这个人可能使结果出现偏差;或许被挑选出来投票的人与没有被挑选出来投票的人不同;或许上网的投票人与不上网的投票人不同。大多数Web民意测验都存在这些解释上的困难。当您试图从样本统计数据得出有关总体参数的结论时,就会出现这些解释上的困难。从实验设计观点看,在收集数据之前首先要问的一个问题是:能否采取步骤帮助确保样本能够代表所研究的总体。如果对所研究的总体得出结论是您做Web民意测验的动机(而不是为站点访问者提供的消遣),那么您应该实现一些技术,以确保一人一票(所以,他们必须用唯一的标识登录才能投票),并确保随机选择投票者样本(例如,随机选择成员的子集,然后给他们发电子邮件,鼓励他们投票)。最终,目标是消除(至少减少)各种偏差,它们可能会削弱对所研究总体得出结论的能力。

回页首检验假设假设新斯科舍省啤酒消费者统计样本没有发生偏差,您现在能够得出Keiths是最受欢迎品牌这一结论吗?要回答这个问题,请考虑一个相关的问题:如果您要获得另一个新斯科舍省啤酒消费者的样本,您希望看到完全相同的结果吗?实际上,您会希望不同样本中所观察到的结果有一定的变化。考虑这个预期的抽样可变性,您可能怀疑通过随机抽样可变性是否比反映所研究总体中的实际差异能更好地说明观察到的品牌偏好。在统计学术语中,这个抽样可变性说明被称为虚假设(nullhypothesis)。(虚假设由符号Ho表示)在本例中,用公式将它表示成这样的语句:在作出回答的所有类别中,各种回答的期望数目相同。Ho:#Keiths=#Olands=#Schooner=#Other如果您能够排除虚假设,那么您在回答Keiths是否是最受欢迎品牌这个最初的问题上取得了一些进展。那么,另一个可接受的假设是在所研究的总体中,各种回答所占比例不同。这个“先检验虚假设”逻辑在民意测验数据分析中的多个阶段都适用。排除这一虚假设,这样数据就不会完全不同,随后您可以继续检验一个更具体的虚假设,即Keiths和Schooner,或者Keiths与其它所有品牌之间没有差别。您继续检验虚假设而不是直接评估另一假设,是因为对于在虚假设条件下人们希望观察到的事物进行统计建模更容易。接下来,我将演示如何对在虚假设下所期望的事物建模,这样我就可以将观察结果与在虚假设条件下所期望的结果加以比较。

回页首对虚假设建模:X平方分布统计到目前为止,您已经使用一个报告每种回答选项频率计数(和百分比)的表汇总了Web民意测验的结果。要检验虚假设(表单元频率之间不存在差别),计算每个表单元与您在虚假设条件下所期望值的总体偏差度量要容易得多。在这个啤酒欢迎度民意测验的示例中,在虚假设条件下的期望频率如下:期望频率=观察数目/回答选项的数目期望频率=1000/4期望频率=250要计算每个单元中回答的内容与期望频率相差多少的总体度量,您可以将所有的差别总计到一个反映观察频率与期望频率相差多少的总体度量中:(285-250)+(250-250)+(215-250)+(250-250)。如果您这么做,您会发现期望频率是0,因为平均值的偏差的和永远是0。要解决这个问题,应当取所有差值的平方(这就是X平方分布(ChiSquare)中平方的由来)。最后,为了使各样本(这些样本具有不同的观察数)的这个值具有可比性(换句话说,使它标准化),将该值除以期望频率。因此,X平方分布统计的公式如下所示(“O”表示“观察频率”,“E”等于“期望频率”):

图1.X平方分布统计的公式

如果计算啤酒欢迎度民意测验数据的X平方分布统计,会得到值9.80。要检验虚假设,需要知道在假设存在随机抽样可变性的情况下获得这么一个极限值的概率。要得出这一概率,需要理解X平方分布的抽样分布是什么样的。

回页首观察X平方分布的抽样分布(下图所引用的图像来自在线的NIST/SEMATECH工程统计学因特网手册。)

图2.X平方分布图

在每幅图中,横轴表示所得到的X平方分布值大小(图中所示范围从0到10)。纵轴显示各X平方分布值的概率(或称为出现的相对频率)。当您研究这些X平方分布图时,请注意,当您在实验中改变自由度(即df)时,概率函数的形状会改变。对于民意测验数据的示例,自由度是这样计算的:记下民意测验中的回答选项(k)的数目,然后用这个值减1(df=k-1)。通常,当您在实验中增加回答选项的数目时,获得较大X平方分布值的概率会下降。这是因为当增加回答选项时,就增加了方差值的数目—(观察值-期望值)2—您可以求它的总数。因此,当您增加回答选项时,获得大的X平方分布值的统计概率应该增加,而获得较小X平方分布值的概率会减少。这就是为什么X平方分布的抽样分布的形状随着df值的不同而变化的原因。此外,要注意到通常人们对X平方分布结果的小数点部分不感兴趣,而是对位于所获得的值右边曲线的总计部分感兴趣。该尾数概率告诉您获取一个象您观察到的极限值是可能(如一个大的尾数区域)还是不可能(小的尾数区域)。(实际上,我不使用这些图来计算尾数概率,因为我可以实现数学函数来返回给定X平方分布值的尾数概率。我在本文后面讨论的X平方分布程序中会采用这种做法。)要进一步了解这些图是如何派生出来的,可以看看如何模拟与df=2(它表示k=3)对应的图的内容。想象把数字1、2和3放进帽子里,摇一摇,选一个数字,然后记录所选的数字作为一次尝试。对这个实验进行300次尝试,然后计算1、2和3出现的频率。每次您做这个实验时,都应当期望结果有稍微不同的频率分布,这一分布反映了抽样的可变性,同时,这个分布又不会真正偏离可能的概率范围。下面的Multinomial类实现了这一想法。您可以用以下值初始化该类:要做实验的次数、每个实验中所做尝试的次数,以及每次试验的选项数目。每个实验的结果记录在一个名为Outcomes的数组中。

清单1.Multinomial类的内容<?php//Multinomial.php//Copyright2003,PaulMeagher//DistributedunderLGPLclassMultinomial{var$NExps;var$NTrials;var$NOptions;var$Outcomes=array();functionMultinomial($NExps,$NTrials,$NOptions){$this->NExps=$NExps;$this->NTrials=$NTrials;$this->NOptions=$NOptions;for($i=0;$i<$this->NExps;$i++){$this->Outcomes[$i]=$this->runExperiment();}}functionrunExperiment(){$Outcome=array();for($i=0;$i<$this->NExps;$i++){$choice=rand(1,$this->NOptions);$Outcome[$choice]++;}return$Outcome;}}?>请注意,runExperiment方法是该脚本中非常重要的一部分,它保证在每次实验中所做出的选择是随机的,并且跟踪到目前为止在模拟实验中做出了哪些选择。为了找到X平方分布统计的抽样分布,只需获取每次实验的结果,并且计算该结果的X平方分布统计。由于随机抽样的可变性,因此这个X平方分布统计会随实验的不同而不同。下面的脚本将每次实验获得的X平方分布统计写到一个输出文件以便稍后用图表表示。

清单2.将获得的X平方分布统计写到输出文件<?php//simulate.php//Copyright2003,PaulMeagher//DistributedunderLGPL//Settimelimitto0soscriptdoesn'ttimeoutset_time_limit(0);require_once"../init.php";requirePHP_MATH."chi/Multinomial.php";requirePHP_MATH."chi/ChiSquare1D.php";//Initializationparameters$NExps=10000;$NTrials=300;$NOptions=3;$multi=newMultinomial($NExps,$NTrials,$NOptions);$output=fopen("./data.txt","w")ORdie("filewon'topen");for($i=0;$i<$NExps;$i++){//Foreachmultinomialexperiment,dochisquareanalysis$chi=newChiSquare1D($multi->Outcomes[$i]);//Loadobtainedchisquarevalueintosamplingdistributionarray$distribution[$i]=$chi->ChiSqObt;//Writeobtainedchisquarevaluetofilefputs($output,$distribution[$i]."\n");}fclose($output);?>为了使运行该实验所期望获得的结果可视化,对我来说,最简单的方法就是将data.txt文件装入开放源码统计包R,运行histogram命令,并且在图形编辑器中编辑该图表,如下所示:x=scan("data.txt")hist(x,50)正如您可以看到的,这些X平方分布值的直方图与上面表示的df=2的连续X平方分布的分布近似。

图3.与df=2的连续分布近似的值

在下面几节中,我将侧重于说明这个模拟实验中所使用的X平方分布软件的工作原理。通常情况下,X平方分布软件将用于分析实际的定类尺度数据(例如Web民意测验结果、每周的流量报告或者客户品牌偏好报告),而不是您使用的模拟数据。您可能还会对该软件生成的其它输出—例如汇总表和尾数概率—感兴趣。

回页首X平方分布的实例变量我开发的基于php的X平方分布软件包由用于分析频率数据的类构成,频率数据是按照一维或两维(ChiSquare1D.php和ChiSquare2D.php)进行分类的。我的讨论将仅局限于说明ChiSquare1D.php类的工作原理,以及说明如何将其应用于一维Web民意测验数据。在继续之前,应当说明:按照两维对数据进行分类(例如,按照性别对啤酒偏好进行分类),允许您通过查找列联表单元中的系统关系或条件概率开始说明您的结果。尽管下面的许多讨论将有助于您理解ChiSquare2D.php软件的工作原理,但本文未讨论的其它实验、分析和可视化问题也是使用这个类之前必须处理的。清单3研究了ChiSquare1D.php类的片段,它由以下部分构成:一个被包含的文件类实例变量

清单3.带有被包含的文件和实例变量的X平方分布类的片段<?php//ChiSquare1D.php//Copyright2003,PaulMeagher//DistributedunderLGPLrequire_oncePHP_MATH."dist/Distribution.php";classChiSquare1D{var$Total;var$ObsFreq=array();//Observedfrequenciesvar$ExpFreq=array();//Expectedfrequenciesvar$ExpProb=array();//Expectedprobabilitiesvar$NumCells;var$ChiSqObt;var$DF;var$Alpha;var$ChiSqProb;var$ChiSqCrit;}?>清单3中这个脚本的顶部包含了一个名为Distribution.php的文件。所包含的路径合并了在init.php文件中设置的PHP_MATH常量,假定init.php文件已包含在调用脚本中。所包含的文件Distribution.php包含了为几个常用的抽样分布(T分布、F分布和X平方分布)生成抽样分布统计信息的方法。ChiSquare1D.php类必须能够访问Distribution.php中的X平方分布方法,以计算所得到的X平方分布值的尾数概率。这个类中的实例变量列表值得注意,因为它们定义了由分析过程生成的结果对象。这个结果对象包含了有关检验的所有重要详细信息,包括三个重要的X平方分布统计—ChiSqObt、ChiSqProb和ChiSqCrit。关于如何计算每个实例变量的详细信息,可以查阅该类的构造函数方法,所有这些值都源自那里。

回页首构造函数:X平方分布检验的主干清单4给出了X平方分布的构造函数代码,它构成了X平方分布检验的主干。

清单4.X平方分布的构造函数<?phpclassChiSquare1D{functionChiSquare1D($ObsFreq,$Alpha=0.05,$ExpProb=FALSE){$this->ObsFreq=$ObsFreq;$this->ExpProb=$ExpProb;$this->Alpha=$Alpha;$this->NumCells=count($this->ObsFreq);$this->DF=$this->NumCells-1;$this->Total=$this->getTotal();$this->ExpFreq=$this->getExpFreq();$this->ChiSqObt=$this->getChiSqObt();$this->ChiSqCrit=$this->getChiSqCrit();$this->ChiSqProb=$this->getChiSqProb();returntrue;}}?>构造函数方法中值得注意的四个方面是:构造函数接受一个由观察到的频率组成的数组、alpha概率断开点(cutoffscore)和一个可选的期望概率的数组。前六行涉及了相对简单的赋值和被记录的计算值,以便于完整的结果对象可用于调用脚本。最后四行执行大量的获取X平方分布统计的工作,这些统计是您最感兴趣的。该类只实现X平方分布检验逻辑。没有与该类相关联的输出方法。您可以研究本文的代码下载中包含的类方法,以了解关于如何计算每个结果对象值的更多信息(请参阅参考资料)。

回页首处理输出问题清单5中的代码展示了使用ChiSquare1D.php类执行X平方分布分析是多么容易。它还演示了输出问题的处理。该脚本调用一个名为ChiSquare1D_HTML.php的包装器脚本。这个包装器脚本的目的是使X平方分布过程的逻辑与它的表示方面相分离。_HTML后缀表明输出针对的是标准的Web浏览器或其它显示HTML的设备。包装器脚本的另一个目的是用便于理解数据的方式组织输出。为了达到这个目的,该类包含了两个用于显示X平方分布分析结果的方法。showTableSummary方法显示了在代码后面展示的第一个输出表(表2),而showChiSquareStats显示了第二个输出表(表3)。

清单5.利用包装器脚本组织数据<?php//beer_poll_analysis.phprequire_once"../init.php";require_oncePHP_MATH."chi/ChiSquare1D_HTML.php";$Headings=array("Keiths","Olands","Schooner","Other");$ObsFreq=array(285,250,215,250);$Alpha=0.05;$Chi=newChiSquare1D_HTML($ObsFreq,$Alpha);$Chi->showTableSummary($Headings);echo"<br><br>";$Chi->showChiSquareStats();?>该脚本生成了下列输出:

运行包装器脚本而获得的期望频率和方差KeithsOlandsSchooner其它合计观察值2852502152501000期望值2502502502501000方差4.900.004.900.009.80表3.运行包装器脚本获得的各种X平方分布统计信息统计DF获得值概率临界值X平方分布39.800.027.81表2显示了期望频率以及每个单元的方差度量(O-E)2/E。方差值的和等于获得的X平方分布(9.80)值,这个值显示在汇总表的右下单元中。表3报告了各种X平方分布统计信息。它包括了分析中使用的自由度,并再次报告了获得的X平方分布值。获得的X平方分布值被重新表示成尾数概率值—在本例中是0.02。这意味着,在虚假设条件下,观察到X平方分布极限值9.80的概率是2%(这是一个相当低的概率)。如果您决定排除虚假设—结果可以按照零分布的随机抽样可变性获得,那么大多数统计师都不会有争议。您的民意测验结果更有可能反映了新斯科舍省的啤酒消费者总体对于啤酒品牌偏好的真正差别。为了确认这一结论,可以用获得的X平方分布值与临界值进行比较。为什么临界值很重要呢?临界值建立在为该分析设置的某一重要级别(即alpha断开级别)之上。alpha断开值按照惯例被设置为0.05(上述分析使用的就是该值)。该设置用于查找X平方分布的抽样分布中包含尾数区域等于alpha断开值(0.05)的位置(或临界值)。在本文中,获得的X平方分布值大于临界值。这意味着超出了保持虚假设说明的阈值。另一种假设—对象总体中存在着比例差异—在统计上可能更正确。在数据流的自动化分析中,alpha断开设置可以为知识-发现算法(例如X平方分布自动交互检测(ChiSquareAutomaticInteractionDetection,CHIAD))设置输出过滤,这样的算法自身在发现真正有用的模式方面无法为人们详细的指导。

回页首重新进行民意测验单向X平方分布检验的另一个有趣应用是重新进行民意测验,以了解人们的回答是否已发生变化。假定过一段时间后,您打算对新斯科舍省的啤酒消费者进行另一次Web民意测验。您再次询问他们喜爱的啤酒品牌,现在观察到下列结果:表4.新的啤酒民意测验KeithsOlandsSchooner其它385(27.50%)350(25.00%)315(22.50%)350(25.00%)旧的数据如下所示:表1.旧的啤酒民意测验(再一次显示)KeithsOlandsSchooner其它285(28.50%)250(25.00%)215(21.50%)250(25.00%)民意测验结果之间的明显区别在于,第一次民意测验有1,000个调查对象,而第二次有1,400个调查对象。这些额外调查对象的主要影响是,使得每个回答情形的频率计数增加了100点。当准备好对新的民意测验进行分析时,可以利用缺省的方法—计算期望频率来分析数据,也可以利用每个结果的期望概率(基于前一次民意测验所观察到的比例)来初始化分析。在第二种情形中,您将以前获得的比例装入期望概率数组($ExpProb),并使用它们来计算每个回答选项的期望频率值。清单6显示了用于检测偏好变化的啤酒民意测验分析代码:

清单6.检测偏好的变化<?php//beer_repoll_analysis.phprequire_once"../init.php";requirePHP_MATH."chi/ChiSquare1D_HTML.php";$Headings=array("Keiths","Olands","Schooner","Other");$ObsFreq=array(385,350,315,350);$Alpha=0.05;$ExpProb=array(.285,.250,.215,.250);$Chi=newChiSquare1D_HTML($ObsFreq,$Alpha,$ExpProb);$Chi->showTableSummary($Headings);echo"<br><br>";$Chi->showChiSquareStats();?>表5和6显示了beer_repoll_analysis.php脚本生成的HTML输出:

表5.运行beer_repoll_analysis.php而获得的期望频率和方差KeithsOlandsSchooner其它合计观察值3853503153501400期望值3993503013501400方差0.490.000.650.001.14

表6.运行beer_repoll_analysis.php所获得的各种X平方分布统计信息统计DF获得值概率临界值X平方分布31.140.777.81表6表明,在虚假设条件下,获得X平方分布值1.14的概率是77%。我们不能排除这样的虚假设,即自从上一次民意测验以来,新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数100完成的,那么这种零发现也不应当有什么令人吃惊的地方了。但是,您可以设想结果已经发生了变化,并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行(请注意表5中每列底部报告的方差大小)。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义,因为酒吧老板往往会采购酒吧里最畅销的啤酒。这些结果将受到酿酒厂老板极其详细的检查,他们会对分析过程和实验方法的适合性提出疑问;特别地,他们会对样本的代表性提出疑问。如果您打算进行一次Web实验,该实验可能具有重要的实际含义,那么,对于用来收集数据的实验方法和用来从数据得出推论的分析技术,您需要给予同等的关注。因此,本文不仅为您奠定了一个良好的基础,以便于可以加强您对Web数据的有效理解,它还提供了一些建议,这些建议是有关如何保护您的统计检验选择的,并且使得从数据获得的结论更具合理性。

回页首应用学到的知识在本文中,您已经了解了如何将推论统计学应用于普遍存在的用于汇总Web数据流的频率数据,侧重于Web民意测验数据的分析。但是,所讨论的简单的单向X平方分布分析过程也能够有效地应用于其它类型的数据流(访问日志、调查结果、客户概要信息和客户订单),以便将原始数据转换成有用的知识。在将推论统计学应用于Web数据时,我还介绍了希望将数据流视作Web实验的结果,以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制,因此您不能做出推论。但是,如果在将实验的设计原则应用于Web数据收集过程时您更加主动(例如,在您的Web民意测验过程中随机选择投票者),那么可以改变这种情形。最后,我演示了如何模拟不同自由度的X平方分布的抽样分布,而不只是仅说明其来源。在这样做的过程中,对于测量类别的期望频率小于5(换而言之,即小N实验)—我还演示了一种变通方法(使用小$NTrials值模拟实验的抽样分布)来禁止使用X平方分布检验。因此,我不只是使用研究过程中的df来计算样本结果的概率,对于数量较小的尝试,可能还需要使用$NTrials值作为参数来求得所观察X平方分布结果的概率。考虑您可能会如何分析小N实验是值得的,因为您通常可能希望在数据采集完成之前分析您的数据—当每次观察的代价都很昂贵时,当观察需要花费很长时间才能获得时,或者只是因为您很好奇。在尝试这一级别的Web数据分析时,最好谨记下面这两个问题:您是否有理由在小N条件下进行推论?模拟有助于您决定在这些环境下获得什么推论吗?参考资料您可以参阅本文在developerWorks全球站点上的HYPERLINK"/developerworks/library/wa-phpolla/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论