营销调研方法2_第1页
营销调研方法2_第2页
营销调研方法2_第3页
营销调研方法2_第4页
营销调研方法2_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第页营销调研2四、问卷设计方法(1)问卷调查是现代社会市场调查的一种十分重要的方法,而在问卷调查中,问卷设计又是其中的关键,问卷设计的好坏,将直接决定着能否获得准确可靠的市场信息。本部分我们将详细介绍问卷设计的有关概念和基本技巧。(一)问卷设计概述调查问卷,又称调查表,是调查者根据一定的调查目的精心设计的一份调查表格,是现代社会用于收集资料的一种最为普遍的工具。按照不同的分类标准,可将调查问卷分成不同的类型。(1)根据市场调查中使用问卷方法的不同,可将调查问卷分成自填式问卷和访问式问卷两大类。所谓自填式问卷,是指由调查者发给(或邮寄给)被调查者,由被调查者自己填写的问卷。而访问式问卷则是由调查者按照事先设计好的问卷或问卷提纲向被调查者提问,然后根据被调查者的回答进行填写的问卷。一般而言,访问式问卷要求简便,最好采用两项选择题进行设计;而自填式问卷由于可以借助于视觉功能,在问题的制作上相对可以更加详尽,全面。(2)根据问卷发放方式的不同,可将调查问卷分为送发式问卷、邮寄式问卷、报刊式问卷、人员访问式问卷、电话访问式问卷和网上访问式问卷六种。其中前三类大致可以划归自填式问卷范畴,后三类则属于访问式问卷。送发式问卷就是由调查者将调查问卷送发给选定的被调查者,待被调查者填答完毕之后再统一收回。邮寄式问卷是通过邮局将事先设计好的问卷邮寄给选定的被调查者,并要求被调查者按规定的要求填写后回寄给调查者。邮寄式问卷的匿名性较好,缺点是问卷回收率低。报刊式问卷是随报刊的传递发送问卷,并要求报刊读者对问题如实作答并回寄给报刊编辑部。报刊式问卷有稳定的传递渠道、匿名性好,费用省,因此有很大的适用生,缺点也是回收率不高。人员访问式问卷是由调查者按照事先设计好的调查提纲或调查问卷对被调查者提问,然后再同调查者根据被调查者的口头回答填写问卷。人员访问式问卷的回收率高,也便于设计一些便于深入讨论的问题,但不便于涉及敏感性问题。电话访问式问卷就是通过电话中介来对被调查者进行访问调查的问卷类型。此种问卷要求简单明了,现时在问卷设计上要充分考虑几个因素:通话时间限制;听觉功能的局限性;记忆的规律;记录的需要。电话访问式问卷一般应用于问题相对简单明确,但需及时得到调查结果的调查项目。网上访问式问卷是在因特网上制作,并通过因特网来进行调查的问卷类型。此种问卷不受时间,空间限制,便于获得大量信息,特别是对于一引起敏感性问题,相对而言更容易获得满意的答案。(二)问卷的基本结构1.问卷的基本要求一份完善的问卷调查表应能从形式和内容两个方面同时取胜。从形式上看,要求版面整齐、美观、便于阅读和作答,这是总体上的要求,具体的版式设计、版面风格与版面要求,这里暂不称述。再从内容上看,一份好的问卷调查表至少应该满足以下几方面的要求:(1)问题具体、表述清楚、重点突出、整体结构好。(2)确保问卷能完成调查任务与目的。(3)调查问卷应该明确正确的政治方向,把握正确的舆论导向,注意对群众可能造成的影响。(4)便于统计整理。2.问卷的基本结构问卷的基本结构一般包括四个部分,即说明信、调查内容、编码和结束语。其中调查内容是问卷的核心部分,是每一份问卷都必不可少的内容,而其他部分则根据设计者需要可取可舍。(1)说明信说明信是调查者向被调查者写的封简短信,主要说明调查的目的、意义、选择方法以及填答说明等,一般放在问卷的开头。(2)调查内容问卷的调查内容主要包括各类问题,问题的回答方式及其指导语,这是调查问卷的主体,也是问卷设计的主要内容。问卷中的问答题,从形式上看,可分为开放式、封闭式和混合型三大类。开放式问答题只提问题,不给具体答案,要求被调查者根据自己的实际情况自由作答。封闭式问答题则既提问题,又给出若干答案,被调查中只需在选中的答案中打“√”即可。混合型问答题,又称半封闭型问答题,是在采用封闭型问答题的同时,最后再附上一项开放式问题。至于指导语,也就是填答说明,用来指导被调查者填答问题的各种解释和说明。(3)编码编码一般应用于大规模的问卷调查中。因为在大规模问卷调查中,调查资料的统计汇总工作十分繁重,借助于编码技术和计算机,则可大大简化这一工作。编码是将调查问卷中的调查项目以及备选答案给予统一设计的代码。编码既可以在问卷设计的同时就设计好,也可以等调查工作完成以后再进行。前者称为预编码,后者称为后编码。在实际调查中,常采用预编码。(4)结束语结束语一般放在问卷的最后面,用来简短地对被调查者的合作表示感谢,也可征询一下被调查者对问卷设计和问卷调查本身的看法和感受。四、问卷设计方法(2)(三)问卷设计的过程问卷设计的过程一般包括十大步骤,确定所需信息、确定问题的类型、确定问题的内容、研究总是的类型、确定问题的提法、确定问题的顺序、问卷的排版和布局、问卷的测试、问卷的定稿、问卷的评价。1.确定所需信息确定所需信息是问卷设计的前提工作。调查者必须在问卷设计之前就把握所有达到研究目的和验证研究假设所需要的信息,并决定所有用于分析使用这些信息的方法,比如频率分布、统计检验等,并按这些分析方法所要求的形式来收集资料,把握信息。2.确定问卷的类型制约问卷选择的因素很多,而且研究课题不同,调查项目不同,主导制约因素也不一样。在确定问卷类型时,先必须综合考虑这些制约因素:调研费用,时效性要求,被调查对象,调查内容。3.确定问题的内容确定问题的内容似乎是一个比较简单的问题。然而事实上不然,这其中还涉及一个个体的差异性问题,也许在你认为容易的问题在他为困难的问题;在你认为熟悉的问题在他为生疏的问题。因此,确定问题的内容,最好与被调查对象联系起来。分析一下被调查者群体,有时比盲目分析问题的内容效果要好。4.确定问题的类型问题的类型归结起来分为四种:自由问答题、两项选择题、多项选择题和顺位式问答题其中后三类均可以称为封闭式问题题。(1)自由问答题自由问答题,也称开放型问答题,只提问题,不给具体答案,要求被调查者根据自身实际情况自由作答。自由问答题主要限于探索性调查,在实际的调查问卷中,这种问题不多。自由问答题的主要优点是被调查者的观点不受限制,便于深入了解被调查者的建设性意见、态度、需求问题等。主要缺点是难于编码和统计。自由问答题一般应用于以下几种场合:作为调查的介绍;某个问题的答案太多或根本无法预料时;由于研究需要,必须在研究报告中原文引用被调查者的原话。(2)两项选择题两项选择题,也称是做题,是多项选择的一个特例,一般只设两个选项,如“是”与“否”,“有”与“没有”等。两项选择题的特点是简单明了。缺点是所获信息量太小,两种极端的回答类型有时往往难以了解和分析被调查者群体中客观存在的不同态度层次。(3)多项选择题多项选择题是从多个备选答案中择一或择几。这是各种调查问卷中采用最多的一种问题类型。多项选择题的优点是便于回答,便于编码和统计,缺点主要是问题提供答案的排列次序可能引起偏见。这种偏见主要表现在三个方面:第一,对于没有强烈偏好的被调者而言,选择第一个答案的可能性大大高于选择其他答案的可能性。解决问题是打乱排列次序,制作多份调查问卷同时进行调查,但这样做的结果是加大了制作成本。第二,如果被选答案均为数字,没有明显态度的人往往选择中间的数字而不是偏向两端的数。第三,对于A、B、C字母编号而言,不知道如何回答的人往往选择A,因为A往往与高质量、好等相关联。解决办法是得用其它字母,如L、M、N等进行编号。(4)顺位式问答题顺位式问答题,又称序列式问答题,是在多项选择的基础上,要求被调查者对询问的问题答案,按自己认为的重要程度和喜欢程度顺位排列。在现实的调查问卷中,往往是几种类型的问题同时存在,单纯采用一种类型问题的问卷并不多见。5.确定问题的措辞很多人可能不太重视问题的措辞,而把主要精力集中在问卷设计的其他方面,这样做的结果有可能降低问卷的质量。下面是几条法则,不妨试试。(1)问题的陈述应尽量简洁。(2)避免提带有双重或多重含义的问题。(3)最好不用反义疑问句:避免否定句。(4)注意避免问题的从众效应和权威效应。6.确定问题的顺序问卷中的问题应遵循一定的排列次序,问题的排列次序会影响被调查者的兴趣、情绪,进而影响其合作积极性。所以一份好的问卷应对问题的的排列作出精心的设计。一般而言,问卷的开头部分应安排比较容易的问题,这样可以给被调查者一种轻松、愉快的感觉,以便于他们继续答下去。中间部分最好安排一些核心问题,即调查者需要掌握的资料,这一部分是问卷的核心部分,应该妥善安排。结尾部分可以安排一些背景资料,如职业、年龄、收入等。个人背景资料虽然也属事实性问题,也十分容易回答,但有些问题,诸如收入、年龄等同样属于敏感性问题,因此一般安排在末尾部分。当然在不涉及敏感性问题的情况下也可将背景资料安排在开头部分。还有一点就是注意问题的逻辑顺序,有逻辑顺序的问题一定要按逻辑顺序排列,即使打破上述规则。这实际上就是一个灵活机动的原则。7.问卷的排版和布局问卷的设计工作基本完成之后,便要着手问卷的排版和布局。问卷排版的布局总的要求是整齐、美观、便于阅读、作答和统计。8.问卷的测试问卷的初稿设计工作完毕之后,不要急于投入使用,特别是对于一些大规模的问卷调查,最好的办法是先组织问卷的测试,如果发现问题,再及时修改,测试通常选择20-100人,样本数不宜太多,也不要太少。如果第一次测试后有很大的改动,可以考虑是否有必要组织第二次测试。9.问卷的定稿当问卷的测试工作完成,确定没有必要再进一步修改后,可以考虑定稿。问卷定稿后就可以交付打印。正式投入使用。10.问卷的评价问卷的评价实际上是对问卷的设计质量进行一次总体性评估。对问卷进行评价的方法很多,包括专家评价,上级评价,被调查者评价和自我评价。专家评价一般侧重于技术性方面,比如说对问卷设计的整体结构,问题的表述、问卷的版式风格等方面进行评价。上级评价则侧重于政治性方面,比如说在政治方向方面,在舆论导向方面,可能对群众造成的影响等方面进行评价。被调查者评价可以采取两种方式:一种是在调查工作完成以后再组织一些被调查者进行事后性评价;一种方式则是调查工作与评价工作同步进行,即在调查问卷的结束语部分安排几个反馈性题目,比如,“您觉得这份调查表设计得如何?”自我评价则是设计者对自我成果的一种肯定或反思。九.市场调研中的相关分析与回归分析在研究具有相互关联的事件上,我们通常借助于相关分析和回归分析这两种统计方法,度量变量之间关联程度的方法叫相关分析。如果考虑的是两个变量之间关系时,称为简单相关;如果讨论一个变量与两个或多个其他变量的关系时,就称为复相关或偏相关,而回归分析则是根据已知的一个或一个以上变量(自变量)的值来估计另一个变量(因变量)的值,并且算出估计的误差。尽管这两种方法在现实使用时可以互相替代,但仍然存在不同,相关分析只是测定变量之间的相关程度。它考虑的是随机变量之间的共同变动,而不必区分自变量和因变量,而回归分析是希望得出一个有关各个变量之间联系的数字表达式,其中只有目标变量因变量假设为随机变动,而自变量均为已知常数,正如探讨变量之间关联度不必推导出一个方程,我们也可以在不考虑变量关联度情况下做回归分析。一般而言,两种方法是混合使用的,统称为相关回归分析,下面我们将分别介绍这两种方法。(一)相关分析(1)1.简单相关探讨变量Xi,Yi间的相关关系时,可以先做出散点图(ScatterDiagram),以数标轴上的点代表Xi,Yi的一对观察值,这可以直观地考察变量之间联系程度,且有助于选择合适的估计模型。对两个变量X,Y之间的简单相关,需要事先作出如下假设:·两个变量均为随机变量,一个样本观察值同时包括X,Y的值。·两个变量为联合正态分布。即在任何其中一个变量的观察值不变时另一个变量呈正态分布。如果两个变量X,Y的测定值为(X1,Y1),(X2,Y2)……(Xn,Yn),变量X,Y的平均数以,来表示,即:(i=1,2……n)经计算r在-1与+1之间变化。若X,Y完全正相关,一单位X的增加引得Y增加一单位,此时r=+1,反之,若X增加一单位导致Y减少一单位,两者完全负相关时,r=-1,有关情况如下表(9-1)。表9-1R=1完全正相关0<R<1正相关R=0不相关-1<R<0负相关R=-1完全负相关如果数据较多,可把X与Y分别分组,用组的组中值为代表值,由于各组皆有不同的次数f,则X1,X2……Xi…Xk与Y1,Y2……Yj…Ye可作为两个变量的相关表(Correlationtable)。见表(9-2)。XYX1X2……Xi……Xk合计Y1F11F21……Fi1……Fk1F·1Y2F12F22……Fi2……Fk2F·2┇┇┇……┇┇FkjF·jYjF1jF2j……Fij……┇┇YeF1eF2e……Fie……FkeF1合计F1F2……FiFkN表中,F1,F2…Fi…Fk表示与Y无关的X的分布,F·1,F·2…F·j…F·e表示与X无关的Y的分布,这些分布都称为X,Y的边际分布(MarginalDistribution),其中有关符号是:有关相关分析或回归分析的说明可以通过实例来表达,也方便我们作进一步的探讨,现在有一个生产宝珠笔的全国性生产商家“Click”,正准备对本公司在市场营销方面的策略效率进行调查。该公司借助地区代理商来分销“Click”笔,同时通过派驻公司销售代表和播放电视广告来辅助代理商进行销售。现确定以每年地区销售额作为效率的评价尺度,而且有关各地区销售代表的信息和数据可直接从公司记录中获取,比较而言其它他们认为与销售额有关的特征因素——电视广告和代理商的绩效的判断就相对困难一些。为获得某一地区电视广告的情况必须对广告的时段和电视频道所覆盖的范围进行分析。代理商的效绩则要求按照一定的标准对代理商进行等级评分并以最后的加总分来进行判断,如4=优秀;3=不错;2=一般;1=差劲,考虑到获取这些信息所要花费的时间和费用,最后“Click”公司决定对销售地区进行样本调查。这次随机抽取40个地区的调查结果见表9-3。首先做散点图(9-3),表a表示销售额随每月电视广告时数增加时增加,而表b则显示当该地区销售代表人数变多时,销售额也随之上升,最后表C显示某一地区的销售额与该地区代理商的绩效没有太大的关联。表a和表b进一步表示销售额与各变量之间的关系呈直线关系,以Y表示销售额,X1表示电视广告,X2表示销售代表,现计算Y与X1的相关系数以及Y与X2的相关系数分别为0.87、,表明两者之间存在显著的相关性。表9-3Click宝珠笔的地区调查结果地区销售额(千美元)广告(电视时段/月)X1销售代表人数X2005260.353019286.175033279.463039410.894061438.2126082315.383091565.1117101570.0168115426.1134118315.073133403.6106149220.544162343.694164644.6178178520.4197187329.593189426.0116205343.283222450.4135237421.8145242245.674251503.3166260375.795266265.552279620.6186298450.5185306270.153332368.076347556.1127358570.0136362318.584370260.263391667.0168408618.3198412525.3177430332.2104442393.2125467283.583471376.2105488481.8125图9-2销售Y销售Y(千美元)(千美元)在讨论相关系数时,我们更常使用另外一个概念——可决系数R2,相关系数的平方。通过一系列代数运算,R2的公式可表示如下:正如在统计上要考虑样本值与总体值之间的差异,这里我们也必须测定可信程度的大小在我们接受样本值r值为整个销售地区的调查结果,这需要对r的显著性作假设检验。假设p表示相应未知的总体相关系数,我们计算以下的t—统计量:因为置信度а=0.05,自由度为38,则临界值r=2.02或r=-2.02判别的标准为:如果r>2.02或r<-2.02,则拒绝假设,由此可知,无论是Y与X1还是Y与X2都应拒绝假设H。尽管在判断联合变化的相关度时,简单相关系数很有用,但仍有二点有关它的运用需要说明。首先,样本相关系数低或未能通过t-值显著性检验并不意味着两个变量一定没有联系,这只能说明它们缺乏线性联系,如图9-4所示,该散点图清楚地表示变量X与Y之间存在强的U-型线变化关系。然而在这种情况下得出的简单相关系数却可能接近于0,仅仅由于当将这些样本点联系起来考虑时呈现不出直线性联系。所以,即使简单相关系数非常少或不具备统计意义上的显著性,我们仍可以进一步对可能存在的非线性联系(曲线相关)作探究,尤其是有关经验或理论显示两者应该存在联系。也许研究曲线相关最简单的方法就是进行描点作散点图分析。图9-3其次,正如有关统计书上指出的,简单相关系数本身的存在并不足以推断变量之关联变动。例如,销售额与电视广告时数之间的相关系数为0.87并不保证当广告时段数上升会导致销售额的上升,尽管它试图得出这个结论,相关所说明的唯一的事是在所调查的40个地区中有关这个两个变量数据变化的模式是相近的,但这很有可能源于销售额与电视广告时数间的偶然性联系。比如,对于各个地区销售额的水平的预期会在一定程度上决定各地区广告时数高低水平,因此除非其它相关因素保持不变或其影响已计算在内,否则仅依靠简单相关系数来推断变量间的联系是十分危险的。九.市场调研中的相关分析与回归分析(2)(一)相关分析(2)2.复相关与偏相关引入更多的因素变量是我们减少判断偏差提高准确度的方法之一,这就涉及到复相关和偏相关。为了方便后面的说明,这里我们先简单引入一下回归分析,借助回归方程来解释复相关系数和偏相关系数。有关回归分析的具体内容我们将在第二节作详细的介绍。如前面所提到的,在利用相关系数说明销售额Y与电视广告时数X之间联系,我们还可以借助直线方程式来说明。建立模型(在散点图基础上)如果一方程中所包含自变量个数超过二个,我们该回归为复回归,该方程为复回归方程。即为复相关系数(MultipleCorrelationCoefficient)为复相关可决系数,在对于销售额,电视广告和销售代表人数之间关系的调查中这意味着销售额中87.4%的变动差异与电视广告时数及销售代表人数变化有关,销售代表的引入提高了变量间的相关度,因为87.4%的变动可以用这两个因素说明而电视广告时数的不同只能说明77.5%的变动。同时,说明三者之间存在强的关联度。所谓偏相关(PastialCorelation)是在测定n个独立变量对一个因变量的影响时,在排除其他变量的影响后,指定一个独立变量对这个因变量计算得的相关系数,称为偏相关系数,也可称为纯相关系数(NetConelationCoefficient),回忆在简单相关分析中有关销售额Y与电视广告X之间简单可决系数可以表示如下:这意味着在销售变动中有42.4%与电视广告无关的变动可以从销售代表数目变化中得出。相应的,在估计销售额与电视广告相关性时所犯的偏差减少了42.4%是源于销售代表数目作为增加项的引入。同样,偏相关可决系数的平方根即(一般只取正平方根)为偏相关系数。在这个例子中存在二个自变量X1,X2,因此我们可以定义有关于销售代表数目X2的偏相关系数为,我们可以类似的方法推算出有关电视广告的偏相关系数。它表示在充分考虑X2与Y相关度后加入因素X1对于Y整个变动差异的影响或增加的边际贡献之所以我们要借回归方程来解释复相关和偏相关系数是想说明各系数所代表的经济意义,并不是求相关系数非要得出回线方程不可。但从计算简便以及经济含义角度,我们经常选择两种方法一起使用。样本相关系数的分布和测验在假定两变量(x,y)的组合总体适合于正态分布(三度空间的立体正态曲面)的条件下,x与y的相关系数r的抽样分布是随着两个因素——样本单位数n与总体相关系数P的不同而变化着,不过总的说来,r分布的形态是属于各种各样的。如把总体相关系数p分成三类:P=0,P=0.50以及P=0.90,在不同的n条件下,r的分布形态是:图9-3图9-4图9-5由于r分布的偏态形态,作实际测验的计算时,比较困难,英国著名统计学家埃·爱·费煦为了补救这种复杂计算的缺陷,用变量E代替r,替代公式为:其中ln表示以e为底的自然对数,对E的变量来说,它的分布接近于正态分布,因此,就可利用正态分布表作出测验。另外,费煦已经作出了r与E间的变换表格,所以计算就大大地简化了。关于相关系数r的虚无假设的测验以及可信任界限的计算可举例如下:例如:样本为35对数据时,求出r为0.80,试用5%的显著标准来作出总体相关系数ρ=0.90的虚无假设测验。先假定以虚无假设出发,r=0.80可能从总体ρ=0.90中抽出,如果概率超过5%,就接受这个假设,否则,就推翻这个假设。从附表我们查出r=0.80时,Z=1.099,并从同一附表中,找出ρ=0.90时,MZ=1.472,我们知道这里,Mz是在0.31与0.87之间,因此,P是在0.30与0.70之间,这个指标是以附表中0.31与0.87的正数值而获得的。九.市场调研中的相关分析与回归分析(3)一、相关分析(3)3.等级相关(RankConelation)有些时候,对现象或事物无法以精密数量确定其大小,轻重,只能以等级或次序排列出。例如,才智高低,事态轻重,色泽深浅,效率大小以及味道的好坏等,一般只能以等级排列。即使是精密的数据,有时也采用等级来测定它们之间的相互关系,这种关系一般是以等级相关系数来表示的,而在这些等级相关系数中,以司庇而曼(C.Spearman)的等级相关运用最为普遍。其公式为:其中:d=各对数据的等级差异n=样本的数据总数司庇而曼相关系数是针对于两个序数变量的,其中每个变量的数据已按一定标准划分成1至n个等级,如果的和为0,那么rs=1。也就是说此时两个变量的等级是等价的。rs值由+1(完全正相关)变化到-1(完全负相关),其中若rs=0意味着彼此不相关。现有一个案例:在过去的几年间一家工业品营销公司一直从其总部附近地区的10所商科学校毕业生中招募销售人员,现在想确定这十所学校的相对名气与它的毕业生表现业绩之间是否存在关联。该公司的销售经理自己对这10所学校的声誉以及各自毕业生在本公司的表现进行了分级,这些等级评定情况见表9-4的第二列以及第三列。现在问题是各学校的名气与来自于各学校学生的销售业绩之间究竟有多大的联系呢?借助于司庇而曼相关等级系数公式,我们可知:rs的值为0.661表明两个等级排名之间至少存在一定的联系,那么这种联系在统计上显著吗?回答这个问题我们可以假定这10所学校是以商科学校总体中抽出的随机样本调查,然后检验以下检验:H0:PS=0H1:PS≠0PS为两个等级集总体相关等级系数,当n≥10时,以下的检验数据将是满足自由度为n-2的t-值分布:因为t>2.31,所以我们拒绝H0并认为各商科学校的名气与其毕业生的工作表现存在真实的相关性。换而言之,样本中0.661的相关性不大可能由于偶然性而导致的。值得一提的是我们是根据不同等级对之间的等级差距来计算rs的,这种作法与认为构成序数尺度的数字之间的差距是没有什么意义的观点不同,事实上,在计算rs时我们已假设两个变量同等级的差距是具有可比意义的,如果这个假设前提不成立,那么司庇而曼等级相关系数也就没什么意义了。九.市场调研中的相关分析与回归分析(4)

(二)回归分析(1)由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析。如果这个模型是线性的就称为线性回归分析;如果模型是曲线的就称为曲线回归分析。这种方法是处理变量间相关关系的有力工具。它不仅告诉人们怎样建立变量间的数学表达式,即经验公式,而且还利用概率统计知识进行分析讨论,判断出所建立的经验公式的有效性,从而可以进行预测式估计。这在实际中的运用是十分普遍的。线性方程是比较容易求出的,即使是曲线方程也多半会转换成线性方程进行求解。我们就从线性方程回归开始,而线性回归中最简单的就是两个变量,或者称为简单线性回归,借助第一节我们所举的“Click”公司有关销售额,电视广告以及销售代表的案例,对于销售额Y与电视广告时数X1我们可以建立模型(在散点图基础上)这是一种确定性方程,因为当α、β给定,一旦x1的值确定时有且仅有一个Y值与其对应值。然而在对社会现象进行调查时,不可能存在等于零的误差。考虑到这一点我们会在上述方程式上添加一个误差变量,以可能性模型来替代确定方程,即:这正是我们第一节中所提到的方程,误差项是该模型不可缺少的一部分,它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定а,β值情况下,Yi与Xi不是一一对应的关系;由给Xi值所能确定的只是这种情况Yi分布的平均值,而Yi真实值则围绕其上下波动。我们最终确定的回归方程是一种确定模型,因而我们希望能找到一条“最能代表真实可能性情况的方程或者说两者偏离最小。最常见的方法是最小二乘法。而该方法又以随机误差符合一定假设为前提的,这些假设条件具体如下:参看表9-3销售额Y和每月电视广告时数X1的有关数据,可以得到:25.3意味着电视广告时段每增长一个单位则销售额会增加25,300美元。正如前面所提到的,这是建立在40个地区的抽样调查基础上得出的对真实总体β值的估算值,不同的样本多半会导出不同的样本值。而且,我们还不知道这个值是否具有统计上的显著性或者它是否是由偶然性引发的。然而,这是一个比较重要的方程因为它有助于我们决定广告费用的回报是否值得。截距参数值字=135.4;这表明当自变量为0时,该回归直线穿过y轴的距离。九.市场调研中的相关分析与回归分析(5)(二)回归分析(2)估计标准差对图9-7的仔细检查发现,尽管直线拟合数据拟合得很好,但仍存在若干点对于直线的偏离,从而实际上这些偏差的大小代表了回归方程直线拟合的优劣,成为判断方程好坏的一个指标。同样我们可以利用统计中的有关知识计算出这个指标。九.市场调研中的相关分析与回归分析(6)(二)回归分析(3)有关斜率系数的分析前面计算有关斜率系数值为25.3,但我们并不知道这个结果是否源于偶然性,是否具有意义,这就需要对其进显著性检验,根据著名的Gauss-Markov理论,如果我们要对回归系数进行统计检验我们要假设该变量的离差为随机分布,这与前面我们所提到的矩状型分布是有所出处的,此外,我们还需要设定由最小二乘法所估计出的总体参数是符合有效,无偏,最大拟然估计原则的估计值。如果H0不能被拒绝,情况又会怎么样呢?正如我们所指出的,代表样本回归直线的斜率,为变动一单位Y所相应变化的数额,如果不能证明=0的虚无假设不存在,这也不能完全否定Y与X1之间没有联系,可能是我们在检验中犯了第二类错误,没有拒绝不成立的假设。另外一种可能就是Y与X之间的关联是以某种曲线型方式存在,而我们运用了错误的模式去推算。对Y值的预测如果所求出的回归方程并非为偶然联系,那么我们就可以利用它来对给定的电视广告时下的销售额进行预测,需要考虑两种情况:1.预测给定情况下的Y的平均值。2.预测给定情况下的Y的一个单值。让我们依次来讨论这两种情况。给定的的值记为,由回归方程得出的Y值即为所求的平均值,记为则对于一个每月电视广告时数为10的地区,预计平均销售为:以上告诉我们的是如何计算当电视广告时数每月为10时整个地区的平均销售额水平,但有时候我们希望能对某些特别的地区的销售进行预测。这样预测中包含了一个附加的误差项,其数值等于一个特别值可能造成的偏差。因此预测单个销售能所存在的错误率要比预测整个销售额平均水平时的大。相应地,它所满足的公式为:读者可比较一下两种预测情况下的置信区间的范围,即两者偏差的大小。九.市场调研中的相关分析与回归分析(7)(二)回归分析(4)对于使用回归分析需要注意的事项:回归分析方法的普遍性和借助计算机运算的快捷性使得许多研究人员不问该方程与研究现象适合与否或不考虑回归分析的缺陷就盲目使用,其实使用回归分析法是需要许多假设前提的,如果忽略这些前提,就会导出错误甚至是荒谬的结论,这里我们集中讨论一下有关简单回归的缺陷,这些缺陷也同样适用于我们稍后将要提到的多元回归分析。首先,如同在相关分析中看到的,回归分折局限于揭示变量之间的线值关系。如果散点图中所揭示变量之间的规律显著不呈直线变化,那么此时运用回归分析就是非常不适合的(除非通过变量转换变成线性关系)。所以一般只要可能,都要求事先根据数据划出散点图以判断变量之间的联系。其次,通过了显著性检验或佣有较高R2值的回归方程并不一定保证解释变量与被解释变量之间的因果关系,这一点是特别值得注意的;因变量与自变量的设定可能会让粗心的研究者习惯地认为如果回归方程是显著性相关的前者肯定可由后者推导出,但事实上两个变量之间是否有在联系必须从以前的经验和有关的知识理论推导出,而不是由对数据运用的数学方法得出,它只是一个验证。因此谁是因变量,谁是自变量要由研究者自己决定,而不足依赖统计工具。设想有人把经过某一地点各女士裙边离地高度与当时太阳黑子变动的数据合在一起进行分析,如果由此得到的回归方程有0.9的可决系数,是不是就要肯定后者导致了前者的变化呢?这显然是荒谬的。第三,回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的“外推预测”上可信度不高,举一个例子,在研究电视广告与销售额之间关联时电视广告时数变化范围为4~19,对于超过19或低于4的广告时数对应的销售额进行预测时,我们就面临很大的风险。因为我们并不知道当增加新的数据点后散点图是否仍遵循原来的直线。事实上,甚至在原来的范围内,随首X0值对的偏离,所得到预测的误差都在不断加大(见图9-8)图9-8A.B预测值的上下边界C对于点,yi预测值的偏离D最小的预测值的偏离(此时)第四,建立在小规模样本上的回归方程是不可靠的,极端化而言,仅由两个点推出的简单回归值线方程的可决系数为1,而不论这两点怎样分布,样本的容量进而样本包含的数据点在多元回归中占据着相当重要的地位,在多元回归中如果样本容量不大而又包含太多的自变量的话同样会导致人为形成的高相关度,一般的规则是对于方程中所含的每一个独立变量至少有10个样本数据与之对应。第五,自变量和因变量的数据变化范围能够影响回归方程的可用性,如果要令得出的回归方程具有实用性,自变量和因变量的数据范围就应该宽泛。因为如果有关每个变量的数据过于集中想推出一条准确的直线是非常困难的,对于数据要具有足够离散度这一方面Loefher和luciavish有清晰的论述:很明显,如果因变量没有什么变化,那么没有什么可以需要解释的,因而只需对目标人群的行为做担当少的研究。假定存在一定变动,我们便习探究为什么会这样进而引入自变量来解释。如果这些自变量自身没有任何差异那么它们对于整个问题是没有任何帮助的,因为如果解释变量没有变化,那么我们所观察到的总是一种状况,根本没法揭示有关因变量所拥有的多种不同状况。九.市场调研中的相关分析与回归分析(8)(二)回归分析(5)2.多元回归分析我们考虑了包括一个被解释变量(Y)和唯—一个解释变量(X)的简单线形回归。我们进一步考虑对简单模型进行扩展,使用两个或更多的解释变量来估计Y值。这种扩展就是多元线性回归。多元回归的应用范围十分广泛,它是所有宏观预测模型的基础。比如对销售量进行预测,相关的几个解释变量被认为是:广告费用、销售代理人的数量、产品价格以及季节因素(用降雨量、温度等来表示)。要知道在包括一个以上解释变量的多元回归的情形,估计的回归线不能用一个简单的二维图形(如图9-1)来表示。多元回归线是多维空间的一条曲线。确定回归方程和测算相关性的计算比在简单回归情形下要麻烦得多。这种计算一般是非人工所能为的。如今,计算机和合适的统计软件包的使用,使得回归方程和相关系数的估计成为简单的任务。多元线性回归方程在有K个解释变量的情形下采用的一般形式如下:这里,Yc是计算的(也就是估计的)Y值,a为截距,b1,b2,b3,…,bk是估算的相应于解释变量X1,X2,X3,…,Xk的回归系数值。这些系数自然是它们相应的总体参数的估计值(在简单数据资料的基础上)。总体参数用大写字母来表示:A,B1,B2,B3,…,Bk,系数bk的值是用最小二乘法原理推算出来的(参见简单线回归的内容)。回归系数bk是这样定义的,它使得残差(也就是实际值Y和估算值Yc之差)的平方和尽可能的小。因此,目标就是使得(Y-Yc)2最小化。推导a,b1,b2等数值的计算现在都可以使用合适的计算机软件包自动地迅速地进行。因此,我们把注意力集中在对计算结果、统计显著性、与多元回归有关的缺点和局限性的阐述上。与简单回归分析类似,在多元回归分析中也有四个方面需要考虑:(1)每个回归系数的说明。(2)回归系数的统计显著性。(3)回归方程的整体解释力。(4)整体解释力的统计显著性。以下我们依次讨论这些内容。(1)回归系数的解释bi代表在所有其他解释变量保持不变时,xi每变动一个单位Yc相应的变动。例如,考虑太阳镜的月销售情况,销售量(S)可用三个变量来解释:价格P,广告费用E以及每月日照小时数H。因此,销售量与解释变量之间的关系可以表示为:Sc=a+b1p+b2E+b3H这里Sc表示通过方程预测的月销售量,系数a,b1,b2和b3从过去的数据资料推导出来,包括过去一段时间销售量和三个解释变量每月的观测值。在这里截距a可以理解为当三个解释变量同时为零时的平均销售量。系数b1表示当其他解释变量保持不变,价格P变动一个单位时销售量的平均变化值。同样;系数b2表示其他变量保持不变广告费用E变动一个单位时,销售量的平均变化值。系数b3表示的意义是类似的。通过这种方法,我们能够把每个解释变量对销售量的影响分离出来,不受其他解释变量的干扰和影响。b1,b2,和b3的值被称为局部回归系数。九.市场调研中的相关分析与回归分析(9)(二)回归分析(6)2.多元回归分析(2)整体解释力和统计显著性在简单线性回归里我们详细的介绍了单个回归总数的显著性检验与回归方程的整体解释力检验,在此不再重复,我们重点对整体解释力的统计显著性检验进行介绍这需要一个不同的过程,即F-统计检验。单个系数(bk)的统计显著性检包括一个零假设检验,HO:Bk=0。整体解释力的检验是检验所有的bk是否都等于零。相关的检验统计量,即F-统计量,也是通过计算机软件包自动计算的,没有必要关心它的实际计算过程。但是,简而言之,它被定义为被解释的变化与未被解释的变化之比。回忆一下,解释变量的方差可以被分解为两部分,一部分通过回归值来解释,一部分通过残差来解释,。被解释的变化与未被解释的变化的有关表达式简单地等于,总的被解释和未被解释的方差除以各自的自由度(分别是n-k-l)。F-检验在计算了F-统计量之后,(F-检验)的统计显著性检验依照通常的程序进行。这些程序包括着先说明假设检验,然后把计算好的F-统计值与临界值相比,临界值取自在一给定概率水平下F-概率分布的F-统计表。假设可以表述为:H0:B1=B2=Bk=0H1:系数B不全为零如果我们拒绝HO,我们就可以断定,在被解释变量和至少一个解释变量之间有显著的关系,回归方程整体来看是显著的。但要注意即使回归整体来看是显著的,某些单个的回归系数可能统计上并不显著。因此检验每一个解释变量的统计显著性是很重要的,不要只依赖于整体解释力的检验。还值得注意的是,在只有一个解释变量时的简单回归分析的情形下,整体解释力的F-检验必然相当于单个回归系数B的t-检验。这时,可以看到,F=t2。F-统计表和F-分布还需要说明F-统计表的使用和设计。F-分布的形状如下图所示。注意该分布是不对称的,而且F值不可能为负。分布的实际形状决于F-统计量的表达式相应的分子和分母的自由度(分别是K和n-k-l)。F-统计表中概率值(α)有0·05和0·01两种,对应于相应的自由度,分子和分母分别用VI和V2表示,从1到∞。比如,可以查到,在vl=9和v2=12时,F-统计量的临界值(用表示)在0·05的显著水平下等于2·80,在0·01的显著水产下等于4·39;也就是说,只有5%的可能性得到一个大于2·80的F-统计值,只有1%的可能性超过4·39。注意附录分为两个部分,第一部分对应=0.05,第二部分对应于=0·01。这样,回到F-检验中,如果计算的F-统计量超过了临界值,我们拒绝零假设,并断定整个回归在统计上是显著的。在使用多元回归中,容易忽略几个问题。为了引起注意,我们简单地予以评论。详细的讨论可以在关于回归分析的专业书籍中找到。主要问题与下面这几点有关:·估计的回归方程选择了不恰当的方程形式(即线性或非线性关系),被称为方程形式的错误识别;·两个或更多的解释变量彼此相关的程度,使得可靠地度量它们各自的影响成为不可能,这个问题被称为多重共线性;·不同时间的被解释变量的观测值自身相关的可能性,被称为自相关或序列相关问题,这影响到局部回归系数显著性检验的可靠性;·预测误差可能不是常数,相反,它可能与解释变量的由于这个原因大小相关,这个问题被称为异方差问题,这也可能影响到估计回归系数的显著性检验的可靠性;·在回归模型中解释变量含有测量误差的可能性,这个问题被称为变量误差,这将导致回归系数的估计不是无偏的和一致的。举例下表是某公司在过去的12个月中每月太阳镜的销售量、平均价格、广告费用、平均日照小时数。使用这些数据:①估计回归方程,使之能够计算三个解释变量(价格、广告费用以及日照小时数)对太阳镜销售量的影响;②对结果进行说明;③在价格为2.5英镑、广告费用为25000英镑以及平均日照数为5小时的情况下,利用回归方程预测太阳镜的销售量。解答回归方程这里,多元线性回归模型为:销售量S=a+b1×(价格P)+b2×(广告费用E)+b3×(日照小时数H)用统计软件包,我们可以得到:S=120-12.2P+2.32E+13.2H说明·为了对回归果进行说明,我们注意以下几个方面:·估的回归系数(b1,b2,b3)的大小及符号。·回归系数的统计显著性。·回归整体的统计显著性。·回归模型的整体解释力。·异常观测值(即所谓的异常点)的出现。系数的大小和符号。我们可以事先猜测销售量与价格呈反向变动的关系(即销售量随价格的下降而增加),而与广告费用和日照小时数呈正向变动的关系。也就是说,事先的预计是价格的回归系数(b1)为负,而广告费用的回归系数(b2)和日照时间的回归系数(b3)为正。从上述回归方程来看确实如此。在解释回归系数的大小时,要记住原始数据的度量单位。因此有价格每上涨1英镑太阳镜的销售量下降12.2×1000=12200副,广告费用每增加1000英镑销售量增加2320副,日照时间每增加1小时销售量增加13200副。系数的统计显著性。通过统计软件包得到价格P的t-值为-2.77。判断该系数的统计显著性有两种方式。一是与t-统计表中自由度为n-k-l的t的临界值相比较,其中K是自变量的个数。于是对单尾检验(假设H1:BI〈0〉来说,t=-1.86(即8个自由度的T0.05)。因为-2.77〈-1.86,所以我们拒绝假设HO:BI=0并推断BI是显著小于零的。进行假设检验的另一个方法是利用统计软件包计算给出的P-值(概率值)。相应于-2.77的t-值的p-统计值为0.024。这表明-2.77的t-值切断了0.024(即2.4%)的单尾区域。因此如果检验是在5%的显著水平下进行的(=0.05),p-值表明检验统计量的值落入拒绝区域的概率。一般而言,如果P-值小于那么n个检验统计量必然位于拒绝区域,而如果p-值大于或等于那么检验统计量必定位于接受区域。解释了P-值的含义以后,我们可以很快地评论其化两个解释变量统计显著性,由统计软件包得到广告费用变量E的P-值为0.036,日照时间变量H的P-值为0.000,都小于0.05,因此可以认为两个变量在5%的显著水平下都是统计上显著的(即B2>0以及B3>0)。注意这里P-值只表述到小数点后第三位。整体解释力。用统计软件包计算得到多元决定系数R2=0.988,这表明销售量的变化中有98.8%可以由回归方程来解释(即通过3个解释变量的变化来说明)。调整过的多元决定系数R2=0.983。异常观测值。有些统计软件包特别指出残差(观测值减去预测值)相当大的应变量的观测值,以引起注意,它可能是误计了,也可能是一个异常事件。这样异常观测值经常被称为异常点。预测得到的回归方程为:S=120-12.2P+2.32E+13.2H把问题中给定的三个解释变量的值代入方程有:预测销售量=120-12.2×2.5+2.32×25+13.2×5=120-30.5+58+66=213.5(千副)九.市场调研中的相关分析与回归分析(10)(二)回归分析(7)3.曲线相关变量之间的关系并不完全是线性相关,更多是呈现非线性关系,这就需要我们借助变量转换,将复杂难解的曲线回归转变成通常的线性回归,求出我们所需要的模型。对数转换不仅改变了各自变量值而且也影响着方程随机误差的数值,值得注意的是,它还会改变样本的数据容量,常见的变量转换法还有增设虚变量,可以查阅有关资料,这里就不再详细介绍了。九.市场调研中的相关分析与回归分析(11)(三)多变量数据分析简介1.多变量数据分析方法计算机软硬件的发展为在市场调研数据分析中使用很多高级的统计方法提供了基础。这些发展也使得方便地分析大量且复杂的数据成为可能。特别是,被称为多元变量分析的一组技术在数据分析变革中已引起特别的关注。多变量分析是指用来对所研究的每个人或物体的多重测量同时进行分析的一组统计过程。一些流行的多变量技术包括多元回归分析、判别分析、因子分析、归类(聚类)分析、认知图和联合分析。多元回归分析使调查人员可以根据一个以上自变量的水平来预测因变量。由多元回归分析得到的一个统计量被称为可决系数或R2,它的数值在0一-1的范围内,代表了因变量变化中由自变量变化解释的百分比。b值,叫回归系数,指明了单个自变量对因变量产生的影响。多元回归分析要求因变量是可计量的,而在多元判别分析中使用的因变量在性质上是类别变量。判别分析可以用来确定在两个或两个以上组的平均判别分值是否存在统计显著性差异。这种技术也可用于建立模型,根据个人或物体在几个变量上的得分将其进行分组。最后,判别分析可用于决定两个或两个以上组别的平均数值的差别中有多少是由于自变量引起的。判别得分,被称为Z值,是根据判别方程获得的。归类(聚类)分析使调查人员可以识别各组群,这些组群内的个人或物体是相似的而与其他组群则有所不同。归类分析要求所有自变量是可计量的,但对因变量则没有特殊规定。归类分析是进行市场细分的有效工具。因子分析的目的是使大量的数据简单化。其目标是利用少量的概括性指标(即因子)来反映包括在大量可计量指标(如等级评分)中的信息。在因子分析中,没有因变量。因子分析产生出因子,它们每一个都是一组相关变量的加权组合。每个指标都根据其对每个因子变化的贡献来加权。另外一个重要的概念是因子载荷。因子载荷是通过计算因子得分与初始输人变量间的相关系数来决定的。通过检查哪些变量对给定因子的载荷大,研究人员可以为因子命名。认知图可通过因子分析、多维度量表、判别分析或相关分析等产生。这种图形象地反映了品牌、产品、公司或其他对象诸如质量和价值等关键特性方面是如何被感知的。所有方法都需要将消费者对目标现象在关键特性上的评定值或等级评分作为输人。联合分析是一种用于衡量潜在消费者如何根据每种产品或服务的特性对不同产品或服务进行权衡的技术。这种技术允许调查人员决定各种特性在各种水平上的相对值。这些估计值被称为效用,它们可作为模拟消费者选择的基础。尽管人们对多变量技术的了解仍然有限,但它们已有数十年的历史,并已在各种商业统计中得到广泛采用。例如,FairIsaac公司已发展成为年营业额达7亿美元的多变量商业应用技术企业。该公司及其客户发现,这些技术能准确预测准将按时付账、谁将延迟付账及谁将赖账。根据该公司的分析,联邦政府用秘密方式来查出逃税者。FairIsaac公司的成功表明,多变量分析可以用来预测销售前景。2.多变量软件各类多变量技术要求的计算量是相当大的。实际上,要进行所讨论的分析需用依赖计算机及相关软件。现在的个人计算机则有能力处理市场调研者有可能遇到的任何问题。多数典型的问题几秒钟内就可以得到解决。现在有许多Windows版本的多元变量分析软件,其中WindowsSPSS8.0(1997年11月版)和WindowsSTATISTICA”5.l(1997年夏季版)是最好的两种应用软件。这两种软件包括了数据库的创建和管理、数据变换和处理、图表、描述性统计和多变量过程,而且都有简单易用的图形界面。关于SPSS软件的其他信息详见wwwspss.corn。有关STATISTICA”的信息详见www.statsoft.corn。这两个网址上还提供了其他一些有用的资料。六、样本设计(3)(三)样本容量市场研究的客户经常不理解样本容量。对于每一个新客户,市场研究人员可能都需要花费大量的时间纠正对于样本容量和样本的错误概念。客户提出的一个典型问题是,“拥有17万名顾客,我们需要多少百分比得到一个精确的样本?”这是一个典型的错误观念。样本容量的决定与其说与总体容量不如说与客户的预算,研究目标,数据用途和报告的时间期限更直接相关。样本容量与样本对总体的代表性无关。样本的代表性由抽样方法决定,不幸的是,许多管理人员错误地相信样本容量和样本代表性有关。样本容量不决定代表性,然而影响结果的精确度。样本精确度指样本统计数据接近它所代表的总体真实值的程度。样本容量与样本统计量相对于总体真实值的精确度有直接关系。1.简单随机抽样下的样本容量简单随机抽样下获得的估计值是它们相应的总体值的无偏估计量。简单的情况下,如果我们假定无限的(或至少非常大的)目标总体,我们可以对简单随机抽样下在整个目标总体中测量的特征的平均值和方差作如下估计。这里n=样本容量yi=对样本中第i个元素的某个特征的测量值y=估计的平均值(总体平均值的无偏估计量)S2y=估计的样本方差(总体方差的无偏估计量)一个估计的总体参数(例如,一个平均值或一个比例)的可靠性指它的再现性——一个总体参数的估计值在给定容量的不同样本中如何重复出现。假定没有测量误差,总体参数的估计值的可靠性能以标准误来判断。例如,样本平均值的估计的标准误以下式给出与样本平均值相关的估计标准误越小,样本估计值的可靠性越大。一个估计值的标准误能用于形成对于总体估计值的置信限制。为了构造置信区间,我们对于样本估计值的抽样分布必须做出一定的假设。对于足够大的样本容量(例如说n>30),样本估计值(例如平均值或比例)的抽样分布接近于正态分布,正态理论可用于为所估计的未知总体参数构建置信区间。例如,对于真实的总体平均值的一个适宜的百分之100(1-a/2)的置信区间是出现在(6-4)中的所有符号,除了t,前面都已经定义,符号t指学生氏t-分布。我们用t-分布代替标准正态z-分布是因为在大多数情况下总体方差是未知的。t的值在学生氏t-分布表中n-1自由度中读取。如果样本容量大于30,那么t的值与在相同显著水平上从标准正态表中读取的z值相同。前面这些公式严格应用于目标总体无限大的情况。当目标样本相对于目标总体较大时,这些公式将高估总体参数(平均值或比例)的方差(标准差)。无论何时目标样本占目标总体的10%至20%或更多,就应使用修正系数。有限总体修正系数(fpc)以()给出。fpc修正的方差公式是本质上,fpc依赖于n与N的关系,如果总体容量N非常大而样本容量n较小,那么fpc将接近1;另一方面,如果样本容量n接近总体容量N,那么fpc将小于1且将减小估计的总体方差的数值。在大多数消费者商品研究中,无限目标总体的假设是合理的——目标总体通常包括数以百万的个人或家庭。在以一定精确水平估计总体参数时经常需要决定样本容量。决定样本容量的程序是①规定可接受的容许水平(h)。这是估计值与它的未知的实际总体值的差别。规定可接受容许水平的一种方法是取所需置信区间的一半。②决定可靠性系数(Z1-Z2),这个系数取决于所需确定性水平(1-a/2)。③取得在目标总体中测量的特征的标准差()的估计值。这个估计值可以基于以前的研究,小规模的试验性研究,或主观猜测,或者取特征值估计的分布范围的六分之一(如果正态)。④应用下列公式求得所需样本容量n*为了保证在预期平均值固定百分比范围内的估计值,应按照下列程序:①规定可接受的相对容许水平(N),这个值表示为一个固定百分比(例如5%或10%)。②决定可靠性系数(Z1-a/2)。③取得在目标总体中测量的特征的变异系数的估计值。变异系数是对相对离散的测量,以给出,这里是总体平均值的实际标准差,是(实际的)总体平均值。为了决定所需样本容量的目的,获取在目标总体中的特征的预期平均值的估计值()和该特征的估计的标准差(),计算估计的变异系数例假设你作为一名初级分析员的职责的一部分是监督实现作业。特别的,你负有责任估计所有为你的部门执行购物街拦截调查的实地工作人员每天完成访问的平均数。为了决定样本中应包括多少实地访问,你抽取一个简单随机样本以获取每天完成访问数目的平均值和方差的样本估计值。表6-1列出了十五名实地访问人员每天完成访问的数目。

六、样本设计(4)(三)样本容量(续)下列程序用于抽取n=5名实地访问员的简单随机样本。因为N=15,所以使用两位的随机数。在随机数表中我们选择介于0.1至15之间的五个不同的数。等于00或大于15的数以及任何重复的数字都不要。从随机数表中我们发现第一个满足这些条件的两位数是12,随后是04,01,06和11。抽取样本后(见表6-1),你,初级分析员,开始估计每天完成访问数的平均值和方差。注意到总体的有限性和n/N>20%,你决定使用fpc“修正的”方差公式。应用表达式(6-1)和(6-5)产生下列结果:在这一点上,你已拥有决定满足所需精确水平的样本容量所需的所有信息。因为不可能对0.16个访问员进行抽样,92也不能提供足够的精确度。在这个情况下,你决定在目标样本中包括93名访问员。用百分比决定样本容量的公式为当p=50%时,所取最大值,当及r为一定时,所需样本容量n*最大。实际原因是,当p=50%时,一半的受访者持一种观点,另一半受访者持另一种相反的观点,这时样本的变异性最大,为了在相同的置信水平(可靠性系数)上获取相同的精确度(可接受相对容许水平),必须加大样本容量。当p=0或p=100%时,变异性为0,所需样本容量最小,理论上只需一个样本元素即可代表整个总体。我们在第一节曾谈到容量不超过2000的样本就可以令人满意地代表几乎无限大的总体。以美国的全国性民意测验为例。它们所代表的总体可以认为是无限大。大多数全国性民意测试宣称±3%的精确度。使用95%的置信水平(),假设变异性最大(p=50%),这个计算将是换言之,如果这些全国性测验在95%置信水平上要达到±3%的精确度,它们将需要1067的样本容量(或者大的1100名受访者)。如果市场研究人员希望在他或她的估计值中达到99%的置信水平()又会如何呢?计算如下:这样,如果一项调查在99%的置信水平上要达到±3%的精确度,它将需要1850的样本容量,假设存在最大的变异性(50%)。2.分层抽样下的样本容量在定义分层随机抽样下总体特征的估计时,我们使用和简单随机抽样中相同的符号。下面所有的公式都只用于分层随机抽样下对总体平均值的估计。设想一个包括N个元素的总体,该总体分为H个互斥和尽举的层。让N1,N2,…,NH代表每一个层中元素的数目,或者说,分总体的大小。因为整个总体(N)被分为H层,所以N=N1+N2+……+NH。从每一个层中选择的样本容量表示为nn,则n=∑ni,这里n是总的样本容量。后面我们还将讨论给定总的样本容量(n)在两类分配原则下如何决定每个层中的样本容量(nn)。在分层随机抽样下,在整个目标总体中与一特征相关的平均值和抽样误差可以估计如下:最重要的是,从公式(6-12)和(6-13)我们看出,分层抽样下对平均值的标准误的估计仅取决于层内变异性。换句话说,存在于不同的层之间的差异性没有进入整个分层样本的标准误的计算。而标准误代表抽样误差,所以相对于简单随机抽样,分层样本抽样误差更少,精确度更高。当我们在一个规定的置信水平上在一个规定的误差限制内估计总体平均值时,我们能够估计样本容量。在简单随机抽样中,在目标总体中测量的特征的预期方差必须已知;对于分层随机抽样,所有层的层内方差的估计值也必须已知。分层随机抽样下的样本容量公式如下例假设保存有所有店内促销研究最近五年的记录。例行记录的信息是(1)测试品牌的产品类别,(2)数量,(3)货架空间分配,(4)促销活动,(5)测试位置。表6-2给出了关于位于布法罗(层1),辛辛那提(层),堪萨斯城(层3),明尼阿波利斯(层4)和菲尼克斯(层5)试验市场的250家商家售出数量分布的信息。初级分析员决定使用这些信息为将在这些地区执行的受控产店促销试验编制计划。根据历史记录,在未来的促销试验中售出数量的预期平均数将可能是为了计算分层随机抽样下保证估计的售出数量平均数处于实际平均数20%的范围内所需的商店数,需要知道的预期值,使用表6-2和关系(6-16),初级分析员计算层内方差的加权平均数是所以初级分析员计划抽取146家商店的样本。分层抽样中的一个重要决定是,在对所有层总共抽样n个元素的约束下,从每个层中抽样的元素数。在实际中,两个程序用于在H个层中分配全部样本容量n。一个程序,比例分配,保证分层随机抽样至少有简单随机抽样的效率。另一个程序,最优分配或非比例分配,对于一个固定的样本容量n和事先确定的层数使估计的总体参数的标准误最小,尽管它比比例分配更难应用。在这一部分我们演示这两种程序。我们将我们的讨论限制在分层随机抽样,这样,不管何种分配程序,一旦元素数nn已确定,简单随机抽样程序就用于从每一层中选择元素。比例分配在比例分配中,从层h中选择的元素数与该层中的总体大小成比例。换句话说,对于比例分配,抽样比fn=nn/Nn对所有的层都是恒定的,这一点的必然结果是整体的抽样比十二n/N就是每一层的抽样比。在这一分配程序下,从每一层中抽取的样本容量很容易计算,从每一层中抽取的元素数nn以下式给出最优分配本质上涉及一个双重加权组合;从某一给定层中抽取的样本元素数与下列数值成比例:(1)层的相对大小,(2)该层中元素间所考虑的特征的分布的预期标准差()。这个双重加权程序的理论基础很简单。首先,容易是重要的,因为所含元素数多的层在决定总体平均值时更重要。第二,层的变异性也是重要的,因为如果所考虑的特征的分布在一特定层中有一个大的标准差,那么从该层中必须选择相对多的元素以获得层参数的可靠估计。从特征分布的标准差更小的层中必须选择更少的元素。例已决定抽样146家商店后,初级分析员下一步检查在比例和最优分配下样本如何在层间分配。在比例分配下样本将如下分配给五个层:如果使用最优分配,研究下特征的标准差的某种估计必须是可以得到的。使用表6-2中的信息和表达式(6-18),样本将如下在层间进行分配:为了应用最优分配,我们需要知道,所考虑的变量的分布的标准差。在实际中,这很少是已知的。然而,有两种方法可以继续。①基于以前调查了相似的抽样变量和使用了相似的分类变量的研究调查,取得——通过平均或某种其它方法——每一层内抽样变量的分布的标准差的估计。下一步,使用这些估计值计算从每层中抽取的元素的最优分配。②从每个层中抽取一个小的“附属”样本。下一步,在附属样本的基础上计算抽样变量的抽样分布的标准差。使用,计算从每一层中抽取的元素的最优分配。作为预防性步骤,在假定的最优分配程序的基础上抽取样本后,需要检查样本的标准差,与附属样本的标准差对照。如果一致,继续。如果不一致,那么抽取另一附属样本继续前述相同程序。三、原始资料的收集(1)原始资料是市场调研人员通过实地调查获取的第一手资料,具有直观、具体、零碎等特点,是直接感受和接触的现象。原始资料的收集是市场调研中一项复杂、辛苦的工作,但又响到调查结果。一般来说,为取得原始资料,主要采用访问法、观察法、定性研究技术以及实验法等。本部分我们重点介绍这几类资料收集方法。(一)访问法访问法是通过询问的方式向被调查者了解市场情况,获取原始资料的一种方法。采用访问法进行调查,对所要调查了解的问题,一般都事先陈列在调配表中,按照调查表的要求询问,所以又称调查表法。根据调查人员与被调查者接触方式的不同,又可将访问法分为人员访问、电话访问、邮寄访问和网上访问等。1.人员访问人员访问是通过调查者与被调查者面对面交谈以获取市场信息的一种调查方法。询问时可按事先拟定的提纲顺序进行,也可采取自由交谈方式。(1)优点由于人员访问是在调查者与调查者的人际沟通中实现的,所以使用此种方法需要掌握一定的技巧和方法,同样的调查内容,同样的成本支出,同样的被调查者,方法技巧不同,调查结果可能大不一样,这就需要调查者悉心研究、妥善处理。另外,由于人员访问采取面对面的交谈方式,也使人员访问具有独特的优点:①人员访问具有很大的灵活性。由于调查者与被调查者双方面对面交流、交谈的主题可以突破时间限制;同时对于一些新发现的问题,尤其是那些争议较大的问题,调查者可以采取灵活委婉的方式,迂回提问,逐层深入。当被调查者对某一问题误解或不理解时,调查者可以当面予以解释说明,有利于资料收集工作的顺利进行。②拒答率较低。与其他方式相比,人员访问容易得到较高的回答率,这也可以说是人员访问最为突出的优点之一。③调查资料的质量较好。在访问过程中由于调查者在场,因而既可以对访问的环境和被调查者的表情、态度进行观察,又可以对被调查者回答问题的质量加以控制,从而使得调查资料的准确性和真实性大大提高。④调查对象的适用范围广。由于人员访问主要依赖于口头语言,因此,它适用的调查对象范围十分广泛,既可以用于文化水平较高的调查对象,也可以用于文化水平较低的调查对象。(2)缺点个人访问也存在如下缺点:①调查费用较高。主要表现为调查者的培训费、交通费、工资以及问卷及调查提纲的制作成本费等。②对调查者的要求较高。可以说,调查结果的质量很大程度上取决于调查者本人的访问技巧和应变能力。③匿名性较差。因而对于一些敏感性问题,往往难以用个人访问来收集资料。④访问调查周期较长,因而在大规模的市场调查中,这种收集资料的方式较少见。2.电话访问电话访问是通过电话中介与选定的被调查者交谈以获取信息的一种方法。由于彼此不直接接触,而是借助于电话这一中介工具进行,因而是一种间接的调查方法。(1)电话访问应注意的问题电话访问自身特点决定了要成功地进行访问,必须首先解决好以下几个方面的问题:①设计好问卷调查表。这种问卷调查表不同于普通问卷调查表,由于受通话时间和记忆规律的约束,大多采用两项选择法向被调查者进行访问。②挑选和培训好调查员。电话访问对调查员的要求主要是口齿清楚、语气亲切、语调平和。③调查样本的抽取及访问时间的选择问题。由于电话访问的结果只能推论到有电话的对象这一总体,所以必然存在先天性母体不完整的缺陷;同时电话访问又很容易导致无反应问题,如白天上班不在家,周末团聚拒答率高等。所以电话访问对于调查样本的抽取及访问时间的选择问题就显得尤为重要了。通常的做法是随机抽取几本电话号码薄,再从每个电话号码薄中随机抽取一组电话

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论