统计应用上常见的谬误.doc_第1页
统计应用上常见的谬误.doc_第2页
统计应用上常见的谬误.doc_第3页
统计应用上常见的谬误.doc_第4页
统计应用上常见的谬误.doc_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统 计 应 用 上 常 见 的 谬 误谢邦昌 辅仁大学统计系教授兼主任 叶瑞铃 辅仁大学应用统计研究所研究生壹、绪论让统计结果更接近事实一、研究动机 统计是一门新兴的科学,可号称是人类在二十世纪的十个伟大发现之一。自二十世纪初,从Neyman、Pearson及Fisher等人发表一连串开拓性论文之后,统计便不断地蓬勃发展,一直到今天,不论在自然科学或是社会科学的各个领域中,都找得到它的踪迹。事实上,它已成为我们生活中的一部份。 随着现代科学的不断发展,统计学不仅早已从数学中独立出来,而也已成为在社会科学研究上的一种专门的学科。今日在科学研究中,统计分析的应用早已有其不可或缺的重要地位,不仅于此,在一般人的生活周遭上的应用上,甚至在个人理财活动中都少不了统计分析的应用。因此,将统计学当成一种解决问题、寻求真相的工具,咸信将使统计对人们的生活产生更大的影响及帮助。 统计的应用范围极广,其方式主要在搜集、整理、陈示、分析及解释资料。并可在较少的成本花费下将吾人有兴趣的事物之全体(注1)抽出一部份来观察与研究(注2),然后根据所得到的信息用科学的数量方法来推测所欲了解的事实。所以根据以上所述,统计学又分为叙述统计与推论统计两大部份。现在各方面的研究工作者无一不将统计学视为最有帮助的工具之一,除了在一般的学术研究之外,尤其在工商业的各项业务,如财务、工管、销售等,都需要应用统计资料及统计方法来作分析及推论,方能使各项工作顺利完成(注3)。 近年来,统计确实已受到学界及工商业界的普遍应用;不管是学术研究论文、期刊,或者是政府出版品,乃至于民间企业刊物、杂志等,都可看到统计应用的大幅成长与统计专业程度的要求明显提高。但阅读与参考这些文献、资料的读者往往只专注于统计数字的大小,而忽略了数字背后的涵义,殊不知不少数字可能因为统计分析方法的误用而导致结果推论的错误。因此,探讨一般常见的统计分析应用上的误用情形,为本研究的第一个动机。 研究统计的人都一直深信着统计数字中永远隐藏着某些事实的真相,等待人类的智慧去寻找。多年前有位学者说:Statistics may not tell the true, but it never lies.(注4)。这句话反应出统计数字也许不能告诉我们真相,但是它绝对不会撒谎,只有人们才会这么做。因此,如何使统计数字说出真话,并找出统计误用的原因及补救的方法,为本研究的第二个动机。二、研究目的 统计理论继续不断的发展,其所论述的范围及应用的层面愈来愈广,统计除了可叙述数据、推论数据外,更重要的是其预测性的功能。因此,如何善用统计分析工具以帮助完成决策与验证实验假设,实已成为企业经营管理与科学研究之重要课题。以周密的设计,搜集完整的有关资料,经过适当的统计分析所得的结果作为依据,才能使所冒的风险与失策的可能愈小,而迅速得到预期的目的(注5)。 综合以上所述与研究动机,遂引发本研究之目的: (1)探讨统计分析应用上常见的错误情形。 (2)了解统计分析误用的原因及探讨其补救的方法。三、研究范围 统计的应用与分析方法的范围甚广,本研究仅就下列二部份进行探讨: (1)学术研究部份:针对各类学术论文之研究设计、资料分析、论文撰写部份加以讨论。 (2)日常生活应用部份:如民意调查、收视率调查等等生活上常见的统计应用方面加以讨论。 本研究先针对上述二个范畴中常犯的错误情形加以讨论,其次以实际的情形举例说明,并讨论其改进与补救方法。 此外,文内所提之例子并不列出其出处,一方面维护他人写作之权益,另一方面保障并尊重其隐私权。 注释1.在统计的术语中称之为母体。2.在统计的术语中称为母体的任何部份集合为样本。3.蔡宗儒(淡江大学统计系讲师),统计与生活,社 教资料杂志,第二二期,p4。4.郑天泽(政治大学统计研究所副教授),统计之应用 ,社教资料杂志,第二二期,p3。5.颜月珠(台湾大学财务金融学系教授),商用统计 学,三民书局八版,民国82年8月。 贰、统计应用常犯的谬误 在本部份,将分别针对实务应用上在统计分析时常见之错误情形,经归纳与整理后分述于后。一、抽样方法的不适当样本是否能代表母体 ? 1.抽样方法概论 基本上,抽样理论包含三个主要的部份抽样、估计、推论。抽样在于给予从母体抽取样本的规则;估计在于利用样本统计给予母体值的点估计;推论在于给予母体值的区间估计。在本部分仅针对抽样部份进行探讨。 抽样方法在统计中的重要性可由图21中清楚的看出。图21 抽样对统计之重要性图示 为了解母体的性状,经由抽样调查,并以其结果推测母体,此为统计推论的必要过程(注1)。抽样方法选择的适当与否,不仅影响着如何估计,而其精确(precision)度及误差(error),皆关系着整个样本是否可有效的推估母体。 此外,在实务应用上,抽样方法也涉及两个重要的因素:即效率与成本。提高效率与降低成本为每个从事研究或调查者所追求的目标。 抽样方法可分为:机率抽样与非机率抽样两种。在此我们可简单的将两者加以区别:机率抽样可推估母体;非机率抽样因其较主观而产生偏歪样本,故只能找出母体的某些特性,而未必能推估母体。故一般较严谨的调查或研究其抽样皆以前者方式为之。而常见的机率抽样又可分成:单纯随机抽样(simple random sampling)、分层随机抽样(stratified random sampling)、部落抽样(cluster sampling)、系统抽样(system sampling)、多阶段抽样(multi-stage sampling)。非机率抽样则以任意抽样(convenience sampling)、判断抽样(judgement sampling)、配额抽样(quote sampling)为代表。 选择抽样方法时之基本考虑为:样本结构是否和母体结构有一致性。因此这也是为何在完成抽样后必须作适合度检定的理由,基于此项大原则我们才可选择适合母体结构的抽样方法。在此对各抽样方法及其特殊步骤不作多述,仅将其优、缺点及适用时机列于表21。表21 各种抽样方法之比较抽样方法优点缺点适用时机简单随机抽样法分层抽样法部落抽样法系统抽样法1.母体名册完整时,直接由母体中随机抽出样本,方法简单。2.由于抽出机率均等,较易估计母体总值及抽样误差。1.层间差异愈大,层内差异愈小。2.适当分层抽样推论之误差,恒较简单抽样为低。3.可得到各层之估计值。1.当部落间差异愈小,部落内差异愈大,则抽出样本统计精确度愈高。2.部落内样本较为集中,访查员行动半径不大,可节省调查人力及费用。1.随机起号仅需抽出一个,以后累加即可。2.当个体序列成随机出现时,其推估精确度和简单抽样相同。1.通常推算结果之精确度,较分层集体、分段抽样法为低。2.由于抽出样本较为分散,所需调查人力费用较高。3.无法估计子母体特征。分层后之样本数据,其整理推算工作,通常较简单抽样为繁。1.以部落为抽样单位,各项整理统计费用将会增加,故一般多采成对抽取,便于估计误差。2.通常在各部落内分子无甚差异时,将增加部落间差异,调查结果误差必大。3.各部落内含个体多寡不同时,亦使误差加大。1.当母体名册和个体单位数不完整时,无法采用。2.遇有个体成某种周期序列,又恰与抽样间隔相近时,则抽样误差较大。1.母体较小且知道抽样单位的数量。2.有较完整的母体名册。3.单位访问成本较为固定。4.母体名册是有关母体信息的唯一来源。1.当样本的分层达到各层的抽样单位的特性尽量接近,而层与层之间的差异尽可能地扩大时使用。2.当母体中的特殊单位较多或分布不均匀时,为避免抽样误差亦使用之。1.当母体成若干部落,且部落与部落间个体同质,而同一部落内个体异质时使用。2.当无法取得母体集团名册或划样样本对象为前提时使用。1.母体有现成次序的场合时使用。2.使用此法时于划分间隔抽取的母体,其所有个体的排列次序必须是随机的。抽样方法优点缺点适用时机多阶段抽样法任意抽样法判断抽样法配额抽样法1.多阶段抽样法为群集与分层抽样之折衷办法,兼取两者之优点。2.配合行政区域抽样,抽取手续与调查管理均较便利。根据调查者自身的方便程度,不依据特定的抽样原则,具有经济、方便之优点。可由人为意志自由选择调查对象,不受抽样设计条件之各种限制,容易进行调查。适用于母体集团无法取得,且抽样手续简便,为营销研究者所乐于使用。分段抽样之误差可能加大,且整理分析较其它抽样复杂。调查结果容易产生偏误,如盲人摸象。调查结果无法推估母体平均数及抽样误差,如选择不当,其误差可能甚大。合乎条件之样本难得,抽样之误差也未能估计。当母体集团分布广而散时,如以一段式抽样,势必耗时、耗费,此时则以多段式抽样弥补其缺失。由调查者主观决定。由调查者主观决定。由调查者主观决定。 最后要提到的是,选择一个适合的抽样方法固然重要,但抽样过程的处理不当亦可造成人为的疏失,而导致结果的错误增加,亦是值得注意的问题。2.常犯的错误情形 由以上说明我们可知:抽样方法对整个统计分析的过程与结果影响甚大。而一般影响调查者对抽样方法之选择的因素不外乎(1)正确性、(2)方便性、(3)时间、(4)费用。此四项因素往往无法兼顾,这也是为何一些研究者在其研究论文中常会提及因时间、经费不足等之研究限制了!事实上,在抽样方法上的错误也多半因此四项因素而发生。 我们常发现:许多以商品之消费行为之研究、与之关系性研究或商品之市场调查等为题之研究或调查,其研究母体为所有消费者或所有某一特定族群,但调查者往往会先将抽样母体定为台北市、台中市、高雄市三区(此一观念类似部落抽样法之部落定义),在从其中用简单随机抽样、分层抽样或部落抽样等方法抽出若干样本数来统计分析,最后则用这些样本来代表所有的母体,如此以偏盖全的说法,更别说抽样及估计误差之估算了! 更甚者,一些如收视率调查、民意调查等的数据数据在此方面的错误与影响更大;因为这些数据大多会透过媒体的报导而误导消费者,进而影响其判断与决策。在日常生活中这类错误讯息层出不穷,如某报纸报导:电视公司八点文件连续剧收视率突破40,勇冠三台。如某报纸民意测验结果:候选人民众支持率达50,大幅领先其它两位候选人。但在相信这些数字之前,我们至少应先了解其抽样方法是否正确与适当,否则它们根本毫无意义可言!二、样本大小的问题勿又要马儿好,又要马儿不吃草1.决定样本大小 由于任何一种抽样方法都无法包含母体中的每一成员(除普查以外),因此抽样误差由此发生。抽样误差和样本的大小有着密切的关系;一般来说,抽样误差通常随样本的大小之增加而降低。此点由中央极限定理(Central Limit Theorem)可看出端倪(注2)。此外,在实务上我们通常如下计算抽样误差(Sampling Error):简而言之; x由 1.期望值:E(P) (n:样本数) n P(1P) 2.变异数:V(P) n 3.机率:P P 故 1.960.50.981 由上可知,抽样误差通常以 来计算,样本愈趋近于无限大,则抽样误差愈小。由此也可看出样本大小对抽样误差之重要性。 话虽如此,由先前所述,我们也应注意:若是抽样计划不好则样本愈大可能偏离母体愈远,造成更大的误差发生,故选择适当的抽样方法则不但可降低抽样误差且可加以估计。2.常犯的错误情形 同样的,在日常生活中我们常发现:不少统计分析结果往往因为其样本数过少而导致结果的不正确。因为常常研究者或调查者可能因为节省时间、成本等因素,而以较小的样本进行统计分析,因此也使得结果不正确。所以,当我们阅读某项统计结果时,最基本上应注意其样本数的大小及其抽样误差的推估,而媒体也应将此基本要项注明以建立其传播的责任。 此外,在实务上我们从选择了适当的抽样方法到将数据搜集后,接下来就是如何计算估计值,但在大多数的情况下,研究者或调查者往往忽略了抽样方法的不同而应搜集不同的样本大小数据,而常常采用在简单随机抽样方法下的计算方式,其结果也就值得怀疑。 在此需要强调:抽样误差的发生和抽样方法的适当与否及样本之大小有密切的关系,有时过大的样本亦会导致结果的偏差,且会浪费时间与金钱的成本,因此唯有选择适当的抽样方法、审慎决定抽样样本的大小,并配合研究的方向,方能提高调查结果的正确性,这也是较具实质意义的作法。三、P-值的误用仅以P-值大小来作推论是值得怀疑的1.P-值和样本大小的关系 提到P-值之误用,大部份的研究者或调查者都会认为P-值和抽样样本数目的大小有关。样本数目愈大则会使得P-值变小,虽具有统计分析上的意义,但却不具研究或调查的价值;而抽样样本过小则会导致P-值过大,促使检定力(即所谓统计的power,注3)的不足,进而使得统计假设不易达到其显著水平。 在多数的研究论文中发现;研究者往往在检定分析时会以P-值0.05作为是否达到统计分析意义之标准。如某一硕士论文以百货公司商店印象与消费者购买决策之相关性研究为题,在其分析结果中提到:以对假设Y:不同百货公司商品消费群与人口统计变量无关做独立性检定,结果在年龄、职业与月平均收入三项之P-值0.05,达到显著水平,故可拒绝上述之虚无假设Y。在此要特别注意的是;在统计分析上对使用P-值时应特别考虑其样本数目是否适中,才能对假设作进一步的推论,如此才有统计上之意义。 以上所云为一般观念上P-值在统计分析上的运用,以下将讨论一些常见的谬误。2.常犯的错误情形 以上述硕士论文为例,本假设是以-独立性检定及Pearson相关系数(或相等之无母数法)来检定不同百货公司商品消费群与人口统计变量无关之假设,它是一种变量以名义尺度表示的相关性测定,故在样本数适中时,这类分析的常犯错误就是过分引用P-值。需知P-值在此情况下所检定的是母体的相关系数(p)是否为零,亦即是检定不同百货公司商品消费群与人口统计变数有没有相关。当P-值小于显著水平(0.05)时,我们只能推翻虚无假设(),表示两者间有其相关(如上述的年龄、职业与月平均收入等三项),但P-值本身并无说明相关程度的强弱,且在样本数目不太小时,样本相关系数(r)大于0.2或0.3时都有可能达到统计意义,但大多数的研究者或调查者却都即以P-值0.05已达显著水平而大作文章,关于此点是值得怀疑的。 除此之外,有些人对单尾与双尾P-值之报告会显得没有差异,如上述之以-独立性检定为一右尾之单尾检定,但有些论文中却常以报告中的双尾P-值来做单尾检定的叙述,此乃因为一般统计报表中所显示的多为双尾P-值的因素,而报表研读者对分析报表之经验不足或判读错误又形成了另一个错误。 另一常见的错误是当比较三个或以上不同组别的时候(如MANOVA),研究者或调查者往往只使用一个P-值来报告不同组别的差异情形,虽然ANOVA的P-值非常小(通常0.0001),但因并未进一步实施多重比较(multiple comparison),而却又在结论中提出各组间比较性之关系性叙述(如A组最好,而B组又比C组好),研究者或调查者如此光以ANOVA的P-值来推论多重比较之结果是过于大意的。四、型错误(Type Error )的忽视值太大容易否定两变量既有的关系1.哲学观点与统计学观点 许多统计应用之研究或调查中,研究者或调查者通常着重型错误的机率,而采用相当严苛的标准,在此情形下,却忽略了型错误的增加,则可能导致统计分析结果的错误。 社会科学与自然科学有一项很大的差异;自然科学的法则(Law)大都是普遍性法则(Universal Laws),它是指每X事件发生后,Y事件就会发生;而社会科学截至今日为止尚未找到符合如此的法则,然在社会科学中所使用的法则仅能被称为统计法则(Statistical Law)(注4)。由此可知统计对社会科学的重要性。 自波普(Poper)提出否证论后,统计学的发展亦受到影响。简单来说,否证论即不论有多少次的成功,只要有一次的失败就足以推翻整套理论。当然,如前所述,在社会科学中并没有普遍性法则存在,任何理论被测试时,或是任何被研究关系被证实时,都会面临机率的问题,为了强调确认程度(the Degree of Confirmation)的提升,所以在欲否定的虚无假设上,即被设定了如此严苛的标准(通常0.05或0.01)。 在此对型错误与型错误之定义不再赘述。在一般的研究中,研究者是在寻找一些变量间的关系,所以在统计检定时,会有如下之形式: :A与B无关 :A与B有关 在一般情形中讨论,也就是在A与B事实上无关的情形下却认为A与B有关。严格的值意味着否定论的说法不要随意地认定关系。而从另外一方面来考虑,在A与B事实上有关的情形下,而被认为A与B无关,这种错误是比较轻微的。2.常犯的错误情形 根据上述所述,对此必须提出二项批判:第一:从效果面来看,被否定的机会太大,而就此认定研究或调查失败是过于草率的,其原因可能只是值太大而造成的失败。第二:社会科学研究的范围太大,往往一项关系被否定后再被研究之机率不大,因此,在每次统计检定时,附上值的计算应有其必要性。由此可知,对型错误之重要性忽视而导致值之忽略,是最容易造成的错误。 其次,若是抽样样本不够大,就算达到假设之显著水平,亦无法被证实。以t检定为例: t之计算方式,简单来说可由两部份组成: t 式中,r表示两个变量间之相关程度,是受两个变量间关系的强弱而定,r/则可以解释成作用力(Effect Size),df则可解释成样本大小对统计值t的贡献度,可称之为研究力(Study Size),将此概念化可转换成下式: 显著性检定作用力研究力 作用力是指变量间关系性之强弱对显著性检定之影响,研究力是指样本大小对显著性检定之影响。 举一个例子,若在两个变量间关系强度不弱时,假定为0.3,其作用力已达中度之水平(注5)。如果采用0.05双尾检定,在总样本数只有100个的情况下,则关系被证实出来的机会不到六成,如果0.01时,则机会立刻下降至不到四成。由此可见,如果研究的样本不够大,就算是有关系存在的事实,也无法被证实。 Cohen曾提出一套测定及相对严重性的指标,称之为/比,即在一定的作用力及固定的样本大小下,每设定一个值,就相对产生一个值(注6)。藉此观念,可整理出如表22的计算值(注7)。表22 作用力与显著水平之关系effectt size() and significance level(.05 and .10) N = r=.10 .05 .10 r=.30 .05 .10 r=.50 .05 .10 1020304050607080901001201401601802003004005006007008009001000 19 9 19 9 18 8 18 8 18 8 18 8 17 8 17 8 17 8 17 7 16 7 16 7 15 6 15 6 14 6 12 5 10 4 8 3 6 2 5 2 4 1 3 2 17 8 15 6 13 5 10 4 9 3 7 2 6 2 4 1 4 1 3 2 1 13* 5+ 7* 2+ 3 1 2 Note:Entries are to nearest integer;blanks indicate values1.*For r=.70 these ratios would drop to 6 and 1,respectively.+For r=.70 these ratios would drop to 2 and 1,respectively. 由表22可了解到问题的严重性,当关系强度不是很高时(r=0.1),如果样本数不是很大(样本数不超过100),型错误的机率将高出型错误机率很多,此意味着:很容易忽略或否认两个变量间既有的关系。五、问卷信度未建立未建立信度或使用不当的判定信度方法,可能以偏概全1.信度评估的概念 可靠度评估(reliability evaluation)在问卷调查时又称为信度评估,在今日各种科学的量化研究中是很重要的一环,问卷的信度与效度如未建立,则整个投入时间、人力与金钱等资源的研究或调查很可能结果毫无可信之处。 在问卷信度评估的过程中,常用到不同的统计方法加以分析,可是许多研究者或调查者通常不了解信度的内容其实甚为广泛,可概略分为再测信度(test-retest reliability)、客观性(objectivity)、内部一致性(internal consistency)等多个项目,因此往往在此情况之下其研究或调查结果因为没有建立信度而变得毫无价值。 不同种类的信度、不同种类的数据及不同的实验设计都需要以不同的统计指标作为评估的方式,很多时候在同一份问卷的审查过程中需要用到多种的指标以判定其可信的程度。 譬如,我们可能需要以内在等级相关(Intra-Class Correlation,简称ICC)系数评定其再测信度;再以Cronbachs 审定其内部一致性;有时候还需要以重复测验变异分析(Repeated Measures ANOVA)来找出是在问卷问题本身、亦或是不同的访员、甚至是不同的研究对象方面发生了不可信的因素。2.常犯的错误情形 在许多研究与调查中发现:问卷信度未建立的情形不在少数,这使得研究或欲调查问题根本无法得到确实的答案与结果,且未建立信度的问卷所得到的数据往往不仅没有结构可言,其结果更可能过于主观与发生以偏概全的情形。 在此所说的以偏概全,是指某些研究或调查,仅以一种统计方式来证明整份问卷的可信度。Cronbachs 点估计的方法是在一般研究中最常出现的问卷信度分析法,但不少研究或调查仅以Cronbachs 点估计值超过0.7,就认为问卷可信而实施访问,虽然这些研究者或调查者在Cronbachs 的使用上、计算上或解释上并无错误,但殊不知Cronbachs 这一指针仅显示以一个总分代表类似的问题是否合理,而不能仅以此一指标有信度就认为整份问卷可正式实施访问。 此外,在前面提及的再测信度方面,许多人虽然在经过文献探讨后,能够选择合适的研究方法,如皮尔森相关系数(Pearson Correlation Coefficient)、内在等级相关系数等,然而,在很多时候他们并没有对这些系数的优劣做更深入的探讨,只由它们高于预设的水平即可(一般常用的临界标准为0.7),在此要提出的是:皮尔森相关系数、内在等级相关系数在问卷不太可信的情况下,其值仍可能偏高而超过0.7的临界点(注8)。比如说当有系统偏差(systematic bias)时,皮尔森相关系数有时会接近于1;而当问卷中有不少问题属重复性问题时,ICC很可能高于0.9,且多数使用者在使用ICC时,不知道ICC有好几种,而应在不同的情况下使用不同的ICC(关于ICC之使用在此不多述及)。故以此说来,研究者与调查者在使用时需格外小心。六、多变量分析中对自变项之选择问题自变项的选择不应先使用单变项方法来决定1.自变项的选择过程 在此以线性复回归来解释在一般使用多变量分析时常见的操作现象,即是因为多变量分析有多个自变项,故大部份人便会在进行多变量分析前,先以单变项方法(如简单线性回归)分析,试图在众多的自变项中先找出具有统计意义之项目纳入复回归分析中。 使用此一方法具有下列两种好处:首先,假如某些变项在单变项或多变量中都具有统计意义或都不具统计意义,则对于结果与解释都不会造成太大的影响。另一方面,某些自变量在简单回归中达到意义,但到了复回归中却意义全失,如此的情形一般也都能找到统计上的原因,此外,通常如果在分析之前先检查各自变项间的相关矩阵(correlation matrix),也不难发现其原因。2.常犯的错误情形 以上所述是多变量分析中自变项之一般选择方法,但我们也发现许多文献中在应用多变量分析时,其自变项的选择完全仅依照研究者或调查者主观的判断而产生,甚至一般的商业调查中更无文献的探讨而以经验法则来设计问卷,如此似乎过于武断而容易主导统计分析的结果,这是一般最常见的谬误情形。 然若依循上述之方法,则最常发生的问题是把单变项分析时,达不到统计意义的变项先行删除掉,研究者或调查者认为很有可能这些自变项如果被放在复回归中分析的话,很有可能不会有意义,但若其一旦有意义而又被先前淘汰掉的话,则数据内的含意便会流失。如此一来,则对统计分析的结果可能造成无法估测的影响。七、统计方法正确,但程序编写错误类别性数据在程序编写时须以虚拟变量处理1.问题可能发生的原因 大部份的人在从事某项研究或调查工作时,都会做充分的资料查证、分析与相关理论、文献的探讨,其中当然免不了会参考其它研究或调查,只要有相同的架构及目的,便采用数据中所用到的统计方法;既然有例可循,依此分析自然可将统计方法选择错误的机率降至最低。但可惜的是,一般研究论文或调查资料中对统计分析的过程及其运算过程并无完整且深入的提及,不少研究者或调查者在一知半解的情况下,依样画葫芦的结果却造成了更严重的错误,而这些错误往往并不是在研究架构或统计方法选择中发生,而是在软件的使用与程序的编写中所犯下的错误。 此外,由于各种统计软件操作使用方法不一,统计报表的研读方法也不尽相同,在使用者对该软件不熟悉且信心缺乏的情况下,在操作过程与研读报表上发生错误的情形也是经常发生的。2.常犯的错误情形 一般发生在统计程序编写错误的情形中,除了人为操作的错误外(如键入字符错误等),较常见的是连续变项与类别变项间的数据转换问题。如某一硕士论文在探讨银行从业人员的工作满意度中的压力与压力来源的问题时,在分析影响压力感高低的因素时,因为压力在量化后其值介于0与100分之间,为一种连续性的变项,所以该研究者以逐步线性复回归(stepwise multiple linear regression)分析,若在常态分布、线性关系、相同变异等统计分析前提都符合的情况下,选择此一方法并无不合理之处。但在此要注意的是,在这些自变项中有颇多的类别性数据,有些是两分的(binary,如性别),有些是有排序的(ordered,如教育程度),还有一些是不排序的(unordered,如不同部门),这些自变量在程序编写时均需以虚拟变量(dummy variable)方式处理。然在键入数据的过程中,一般每一个变项都先以1、2、3.,等代号输入,必须先转换成虚拟变量始可放入复回归中,再行检定其统计意义。唯不少人并未做虚拟变量的转换,而直接把输入的类据(即1、2、3.,等)作为自变项的数值,所跑出来的结果自然是错误的。如此的情形,相信应不少见才对。 八、统计方法前后不一致而互相矛盾应用统计方法时须符合前提假设与使用时机1.问题可能发生的原因 一个研究或者是调查工作,一定有其欲研究、调查之问题与目的,然后依循此问题与目的,经过充分的文献探讨,再进行到研究的设计、数据分析与结论。这是一个个部份环环相扣的过程,而在量化研究中调查问卷的更是需要依照研究的目的、理论的应用等来设计,再以适合的统计分析方法来得到欲知的结果。 但在某些研究或调查中发现,许多被采用的研究方法是依照问卷的问题来随意采用的;比如说,碰到自变项与依变项皆为连续性的数据时,就应用相关分析、复相关分析等。而当依变项为连续性数据,而自变项为类别性数据时,则马上会考虑变异数分析、t考验等。若依变项与自变项两者皆为类别性数据时,则又会使用考验。但这些使用者往往并不知道各种分析方法之前提假设与使用时机,甚至有些问卷设计毫无理论支持,更遑论使用适当的分析方法了。 归咎原因,这种统计方法前后矛盾的情形乃是因为研究者或调查者对研究方法或统计分析理论的不熟悉所致,而此种情况,最常出现在一些商业杂志的意向调查中,其结果也常常过于主观而不正确。2.常犯的错误情形 所谓统计方法前后不一致,举例来说,某商研所之硕士论文研究国中学生对饮料的购买行为,该研究以购买地点为依变项,而该变项之测量以李克五点量表给分(15分),故为一连续性的变项,此外该研究依购买频率将国中生分为高、中、低三种消费群。在此,研究者认为三种消费群的购买地点之变异数差距太大,而购买地点不论在任何消费群都不太依循常态分布,故他以无母数方法之威克森等级和测验(Wilcoxon rank sum test)处理;而当他试着了解购买地点与其它变项(如信息来源等)个别之关系时,都以Pearson相关分析,这样的分析方法看起来是可以接受的。可惜的是,当他进一步了解在有意义的变项(即上述之信息来源等,在计算Pearson相关分析时之P-值少于0.05者)调整后,各消费群的购买地点是否仍有显示差异时,却使用了复回归分析法。我们知道,在使用复回归时,必须遵循一些统计的前提假设,其中两个假设便是常态分布及相同变异,而这两个假设,尤其是相同变异对统计结果的影响甚巨,偏偏在该研究论文内又如前述地使用了威克森等级和测验和Pearson相关分析,直接与间接的否定了这两个假设的可能性。这类型前后互相矛盾的统计方式,也是应当特别注意及避免发生的。九、统计图表利用不当统计图表应视统计数据的特性来选用1.统计图表之应用 统计图表在统计应用方面亦是非常重要的一部份,因为文图的整合可使阅读数据者能清楚的从图表中知道数据的特性及研究或调查所想要表达的结果,而好的统计图表的运用则更可以吸引读者的视线而增加阅读的兴趣。 更重要的是,在许多趋势分析上,统计图的运用能使读者一目了然,举例而言,在统计图中最简单与常见的要算是曲线图,它能利用线条的变化性,明白的显示出以往的情况,使读者容易地去预测出未来的发展趋势,如图22所示。图22 公司十年内营运收入统计表 由图22中可知,该企业的营业收入除在1987至1989年间是下降外,整体而言是逐年成长的。另外,在实务的运用上,我们也可由图表中立即来分析分析究竟是何原因导致该年度区间内使得收入下降,如此一目了然即是统计图表的优点所在。 除此之外,在日常生活中一些常见的统计图表还有如区域图、柱形图、横条图、折线图、茎状图、散布图、饼图等等,然而在运用与解读上应特别注意各种图形的特性,以免造成事倍功半的缺失。2.常犯的错误情形 在运用统计图表时应注意数据本身的特性,要知道并非每一类型的资料都能运用在各类的统计图中,运用不得当,不但无法指导读者了解数据的特性,更反而容易误导读者歪曲数据的正确性。而读者在阅读统计图表时,也应特别注意资料的横轴(X轴)与纵轴(Y轴)的单位,以免误解它所表示的意义。 一般常容易造成读者发生上述错误的就是:原点不是零的统计图。如图23。图23 市消费者物价指数图 由图23中可清楚的看出,纵轴底端指数从80往上加,并非由零开始,纵使图中的数据并无错误,但往往会让粗心或匆忙的的读者误解,认为该指数是由中途开始攀升的。 其次另一个常见的例子就是,某些统计图的横坐标或纵坐标所用单位容易让读者混淆,若不仔细分析则会产生误解,如图24。图24 地区失业率 由上图可看出,其纵轴为百分比(),而每一单位基数为1累加,光由该图看来会使人觉得地区失业率起伏很大,但若了解上述说明,则会发现事实上是本图使读者产生的误解。 最后要提醒统计图表读者的是,要真正了解统计资料的结果光靠统计图表是不行的,还要熟读统计文献的内容,更甚者,还要弄清楚各项数据所运用的理论及其所代表的意义。尤其在一些生活应用上的财务分析、经济等方面的图表更是如此,例如,你光看着某一项期货日指数曲线节节上升,但要知道有时指数上升未必是利多的的情况,此点相信是更重要的事。 十、其它 最后,提到一些较无法归类的错误。 第一,我们在某些论文中会发现,在名词的选择上会使人产生误解。举个简单的例子,在很多研究消费者行为的文献中都会提及知觉(perception)理论与认知(recognition)理论,但往往并没有严格的区别其不同处,使得非此学术领域的读者往往会觉得两者似乎是相同的,如此说来似乎对统计分析上的影响不大,但有时会发现连研究者本身都对该名词产生混淆,再作统计推论时则会使结果被误导。而且在一些医学研究中若发生名词选用错误的情形,严重者,则会产生不可预测的后果。 第二,有些研究或调查所犯的错误,则是在整篇文章中,不论是方法或者是结果部份,都没有提到研究或调查中所使用的统计方法为何?而在结果或讨论中,却有P-值(或其它统计值)的报告,这些P-值等的背后所使用的方法是对是错则根本无法评估,这种情形亦是屡屡见到。注释1.颜月珠(台湾大学财务金融学系教授),商用统计 学,三民书局八版,民国82年8月,P197。2.同注1,P222。 中央极限定理(Central Limit Theorem)的定义: 设一机率函数f(x),其均数为u,变异数为;由其中抽取样本大小为n的样本,得样本均数为,令,则当n时,Z的分配以标准常态分配为其极限。亦即不论母体为何种分配,当样本大小n时,样本均数的抽样分配均以常态分配为其极限,其E()u,V()。3.卢成皆、李瑛慈,医学研究中常见之统计分析谬 误,中国统计学报,第33卷第2期,民国84年6月, P285。4.Shelby D. Hunt, Mondern Marketing Theory:Critical Issues in the philosophy of Marketing Science, Ohio, Cincinnat, U.S.A.:South-western Publishing Co,chap5.5.J. cohen, Statistical power Analysis for Behavioral Sciences, Academic Press, New York, U.S.A.1977.6.同注5。7.同注5。8.同注3。 参、结论与建议非专业的统计方法所得的结果是值得怀疑的一、结论 统计方法在日常生活中或学术领域上可以帮助我们从一堆繁杂的数据数据中,藉由一些统计量的计算、估计和检定,来了解母体的特性。但数字本身是死的,重要的是我们如何去解释这些数字,如何赋予它们特殊的意义,所以,在我们看一个统计数字及别人给它下的推论时,应该不要随便轻易地相信它,因为有时候,数字是很耸动的,这时就可能会有某些人为了某些目的或因对统计的不了解,而利用统计数字说谎或误用了统计。我们在阅读统计资料时应做一个聪明的读者,不要被这些误用统计的情形所蒙骗。 在此提供五项原则来帮助我们去省思所得到的统计数字,是不是真的有足够的把握去下那样的结论,及它的正确度有多少。1.原则一:Who Say So? 我们常常可看到,不论在报章或杂志上的文章内容有如此的陈述:根据某某调查显示.或是某某研究报告指出.我们一定要非常注意接下来的结论,真的是所谓正确的统计分析结果吗?就如先前所说的,统计数字虽能说话,但它所表达的言语全靠这些研究或调查者来诠释,因往往我们看不到这些分析与推论的过程,而是直接面对他们给我们的结论,那我们如何知道是谁说的呢?若是有人刻意利用统计数字来歪曲事实,那岂不是让读者误会了无辜的统计数字了。2.原则二:How Does He Know? 你一定看过一些很明显的大标题,看了让人吓一大跳,例如,在年月日的某报纸刊载了如此的标题:每三对夫妻中,就有一对有婚前性行为。如果我们就如此相信了,那似乎这篇报导就有违统计学所应负的社会责任了,因为它并无说明如何统计分析而得知的结果,而使得读者被欺骗或误导。 因此,在阅读某些乍看是统计的资料时,我们绝对不能依它的结论而下推论,我们应该先想到一个问题:他如何知道的?在一般的研究调查中,这就牵涉到方法与信度的问题,如前章节所述,在此不多做补述。3.原则三:Whats Missing? 在一般的文献中,多数的研究者与调查者在其有限的篇幅中,并不会详列统计分析的过程与计算步骤,更甚者,在某些文章中亦不会告诉我们有多少抽样样本、用何种抽样方法、问卷如何设计、研究如何设计、信赖区间为何等等,或许连研究调查的日期都不得而知,但往往这些没有出现的讯息,涵盖了足以让我们分析数据的可信度与其它重要的意义,因此,在我们阅读一份统计资料时,应该察觉它是不是遗漏些什么重要的信息,然后再决定该如何下定论。 作为一个理智的统计资料运用者,应时时警惕资料是否完整,千万别只是随便一翻,这样难保不会使自己误信了有偏误的统计推论。4.原则四:Did Somebody Change The Subject? 或许,你也曾看过如此的广告词:根据调查,使用品牌的人,其满意度远高于使用其它品牌的人。但这有可能指示广告商的一种营销策略而已。看统计文献的时候,最怕的就是因不了解统计分析的过程而被误导,要知道,调查的母体不同则推论的结果当然也就不同。不少人会妄将统计的主题改变而使读者有错误的认知。当然,读者必须自己做好把关的工作,因为文章的作者或许不是故意的偏歪事实,但可确信的是,最后将事实偏歪的可能是读者你自己。 举一个例子,在一本家庭社会学中提到:美国1984年的离婚率是47。乍看之下,表示每两对夫妻中,就有一对会离婚,但事实是如何?好险在书中的附注有说明此一离婚率的计算,是由全年离婚夫妻对数除以该年新婚夫妻对数,再乘以100,但此一算法容易引起读者的恐慌与争议,因为离婚和新婚的人基本上是没有关连的,所以,另一种较合理的计算方式为:全年的总离婚对数除以该年的总结(已)婚对数,再乘以100,如此似乎较合情合理。5.原则五:Does It Make Sense? 这是一个最重要的问题,即是:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论