HLM模型在消费者研究中的应用_第1页
HLM模型在消费者研究中的应用_第2页
HLM模型在消费者研究中的应用_第3页
HLM模型在消费者研究中的应用_第4页
HLM模型在消费者研究中的应用_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、HLM模型在消费者研究中的应用内容提要:HLM,即分层线性回归模型,可以将数据分成不同层次进行回归,并在估计高层回归方程的参数时,将低层回归方程的协方差纳入考虑。该模型在样本的“齐方差”假设被破坏情况下尤其有效,常被用于处理有着分组结构的数据。本文简要介绍了分层模型的思想,并使用某消费者数据,以对一个交互变量系数的估计问题为例,将经典回归的最小二乘法估计(OLS)与分层模型进行了比较,证明了分层模型在估计交互变量系数上的有效性。        关键词:消费者研究;分层模型;交互变量   

2、0;     中图分类号:O212    文献标识码:A                     The Application of Hierarchical Linear Models in Consumer Research       

3、60;        Abstract: Hierarchical Linear Models have been widely used to analyze multi-level data with “nested” structure. In Hierarchical Linear Models, we take the “low level” covariance into account in estimating the “high level” parameters. That is the rea

4、son why Hierarchical Linear Models can be used to deal with the “nested” data set, in which the “identity of variance” assumption has been destroyed. In the thesis, to explain why the Hierarchical Linear Model does better than OLS estimation in estimating the coefficient of interaction variables, a

5、consumer data was used.        Key Words: Consumer Research; Hierarchical Linear Models; Interaction Variables                 一、引言        1

6、950年美国社会学家Robinson发表了一篇文章,提出了“生态学谬误”(ecological fallacy)的问题。它指的是在社会科学研究中,使用高层次分析单位的信息直接推测低层次分析单位的性质造成的错误。例如在社会调查获得的多层次数据中,我们既有群体层次的数据,也有个体层次的数据。如果我们的研究对象是群体,可以用个体层间的数据来汇总,再通过汇总后的数据判断群体的性质;但如果我们的研究对象是个体,却不能用组层次的数据来汇总推测个体的性质。用组层次的数据来汇总生成个体层次的信息,就会造成“生态学谬误”。 那在研究个体的时候干脆不考虑群体层次的信息能是否就能解决“生态学谬误”的问题?答案是否定

7、的。从理论上说,这样等于忽视个体所处的背景环境对个体的影响,不符合社会实际;从统计上来说,对“群效应”(cluster effect)的忽略会导致对个体变量参数估计的偏差。因此如何正确地用群体层次的数据来为个体变量的参数估计服务成为一个具有挑战性的统计问题。        西方国家的社会科学界从发现这个问题到提出有效的解决方法,经历了大约二三十年。以美国为例,20世纪50年代美国的许多官方数据都是汇总的数据,是以地区为单位的,而学者们用的几乎所有数据都是政府提供的汇总数据,因此这个问题提出造成了社会科学的一个危机。

8、按照密歇根大学社会学系和统计系Otis Dudley Duncan讲座教授谢宇的说法,美国在50年代后开展的调查革命就是为了回应Robinson的挑战。学者们开始展开调查,大量搜集个体层面的数据,但如何结合个体层面和群体层面的数据仍然是个问题。但直到分层回归模型(Hierarchical Linear Models)提出,并且计算机的发展使得原有的参数估计理论在实践上成为可能,这个问题才得到解决。        分层回归模型最早的应用主要是在教育学领域。例如1980年Burstein指出分层模型在分析教育学数据时有

9、着广泛的应用。和传统的回归模型比起来,它在分析具有群组层级结构数据方面有很大的优越性,因此在许多学科领域都得到应用。在不同领域里,分层模型有着不同的称呼。社会学研究中常称之为多层线性模型(multilevel linear models, 参见Goldstein,1995;Mason et al.,1983);在生物统计学研究里称为混合效应模型(mixed-effects models)或者随机效应模型(random-effects models, 参见Elston and Grizzle,1962;Laird and Ware, 1982;Singer,1998);统计学文献则称之为协方差成

10、分模型(covariance components models, 参见Dempster, Rubin, and Tsutakawa, 1981;Longford, 1987);计量经济学文献称之为随机系数回归模型(random-coefficient regression models, 参见Rosenberg, 1973;Longford, 1993)。        分层模型的思想不难理解,但发展出能够有效执行这种思想的估计算法,却花了很多年。从Lindly和Smith提出“hierarchical line

11、ar model”,并对线性模型的贝叶斯估计做出重要贡献以来,许多学者在各自的领域里面为分层模型的形成和发展做出了许多努力。Dempster,Laird和Rubin在1977年发展了“EM算法”; 1981年左右,Dempster,Rubin和Tsutakawa将“EM算法”应用于分层模型; 1985年Stiratelli,Laird和Ware将“EM算法”用于使方程结果收敛;1986年Goldstein将迭代最小二乘法(Iterative Generalized Least Squares)用于分层模型的参数估计,这一方法也只有出现了计算机后,人们能在短时间内进行大量的运算直到方程收敛时才能

12、得到有效应用;1987年Longford引入了费雪方程 (Fisher Scoring);1993年Randenbush将“EM算法”用于计算交互分类的随机效应模型(cross-classified models),并与Anthony S.Bryk一起,发明了专门用于处理分层模型的软件HLM。虽然目前的13.0以上的SPSS还有其他一些软件都能处理分层模型,但HLM由于运算快(它直接将所有数据读在计算机内存里)、界面友好(能够直接在界面上显示和修改方程)而得到广泛使用。        二、分层模型的理论架构

13、0;       Robinson在1950年提出的问题是一个牵涉广泛的理论问题,但是在统计学家看来,生态学谬误本质上是“忽略变量偏误”(omitted-variable bias)问题的一类,即在估计低层次方程的参数时,不切实际地假设该层次的样本之间是相互独立,不发生关联的,而没有看到这些样本被“嵌套”(nest)在更高层次的单位之中,受到这些单位属性的影响。这里被忽略的变量就是刻画这些单位层次属性的变量。        在使用普通最小二乘法估

14、计(OLS)的经典回归统计分析模型中,我们常常假设样本之间独立,并且方差相等,简称“iid假设”(independent and identity)。但实际调查中我们发现样本个体之间的相互影响几乎是难以避免的。例如在教育学研究中,同一所学校中的不同学生之间是相互影响的,并且他们都受到该学校的各种特征的影响。如果抽取五十所学校,每个学校抽取一百人,认为这样得到的五千个样本是符合“iid假设”的显然是不合适的;又比如在心理学中,对实验组中的某个实验对象可能要进行多次检测,如果认为在A身上进行的十次实验和在B身上进行的十次实验也符合“iid假设”同样是显然不合适的。如果“iid假设”受到破坏,OLS

15、仍然是无偏估计,但标准差加大,如果不对模型进行改进,估计就要发生偏差。        因此,在估计样本个体的性质时,考虑到其所属的组之间的差异是十分重要的。那么,怎么处理上述问题中的组间差异呢?在组间差异的问题上不同的模型表现着对组间差异的不同的态度。常见的有三种模型:随机效应模型、固定效应模型和多层次分析模型。随机效应模型将组和组之间的差异视为随机的量,不去考虑它;固定效应模型把组间差异看作一个固定不变的量,不在统计上进行分析,用一个给定系数 来概括总体异质性产生的共同特征;多层次模型则将固定系数和随机效应思想结

16、合起来,建立两层回归模型。第一层回归模型用样本个体层面的属性估计组层面方程的 时,在存量(截距)和增量(斜率)上都允许随机效应的存在,第二层回归模型则试图用不同组的在某些维度上属性的差异来解释组间的总体差异,因而可以得到一系列变量 的系数 的估计。第三种方法就是分层模型的方法。从估计方式来说,我们常常说在“iid假设”被破坏的情况下要使用WLS或是GLS等“权重配给”式估计,实际上分层模型也是一种“权重配给”式估计。        在Stephen W.Raudenbush和Anthony S.Bryk合著,郭志刚

17、等译的分层线性模型:应用与数据分析方法一书中,作者提出从“naive model”到最完整的模型一共有四种主要的模型,即单因素方差分析模型、以均值为结果的回归模型、随机系数模型,以截距和斜率作为结果的模型。在这里,列出第一种和最后一种作为例子:        (一)一元方差分析模型(One-Way ANOVA Model)        因为在建模中,方差模型是最原始的模型,可以提供最大能解释差异在组内和组间的分配情况,为更“完整”模型

18、的各项解释力参数提供基本参照,因此也有人称之为“naive”模型:                在该模型中,第一层的截距和斜率不仅被认为是随机的(允许 , 的存在),而且还可以通过一系列层二的变量 来估计,这就大大提高了多层数据的回归方程参数估计的准确性。从理论上讲,这说明两个不同组别的个体之间的存量(截距)和增量(斜率)差异不仅是由于这两个个体自身的属性造成的,而且还是由他们所在的单位在一系列属性上的差异造成的。  

19、60;     如果我们令两个个体在各种属性上基本一致,就能测量出组作为单位对个体的作用。这就是分层模型最重要的贡献之一:观察组织影响作用(contextual effect)。上世纪80年代末,在美国教育学研究领域的Sociology of Education、Education Researcher和American Education Research 在这些研究中,“天主学校”和“公立学校”的分类常常被用来解释学生成绩的差异:在控制了学生差异后,在以社会经济因素(SES)为X轴,某项成绩为Y轴的图表中,学校之间的差异就表现为两条直线的截

20、距和斜率不同。一般认为截距高代表更有效率、斜率低则更公平。当然这还要考虑到这两类学校的学生素质本来就可能存在区别(pretreatment1Journal等重要刊物上,许多学者发表了使用分层模型的观点探讨学校教育机制的文章。 effects)。        三、实际的消费者研究中OLS估计的缺陷举例        我们引用一份1999年进行的某次针对北京报纸精品购物指南的读者群进行调查所得到的数据。该调查总样本为1995人,其中男性占

21、越28%,女性占72%;已婚35%,未婚62%,其他3%;对被调查人群的受教育水平,收入和年龄段的描述见图1、图2和图3:                        假设需要分析的因变量为被调查人群每天阅读精品购物指南的时间(单位为分钟),我们希望通过回归分析找出影响这个因变量的自变量。出于文章篇幅的考虑,建立回归方程的前期步骤(逐步添加测试自变量,检查显著性等)在此略去。

22、最后确定回归方程为(读报时间作为因变量经过ln函数处理):                根据消费者数据分析的经验,回归方程中一些自变量之间常常存在着交互作用。在该回归方程中,我们先假设“体制内外”与“年龄段”没有交互作用,希望得到显著性的结果来否定这个原假设。我们在方程中设立了两个交互变量 “体制内*年龄段”和“体制内*年龄段的平方”,以便考察这种交互作用:3       &

23、#160;使用STATA软件,在删除缺失值之后,使用回归命令得到表1中结果:                从表一中可以看到,虽然变量“年龄段”和“年龄段的平方”是显著的,但变量“体制内”本身,以及交互变量“体制内*年龄段”和“体制内*年龄段的平方”系数的P值都大于0.05。这意味着我们无法否定原假设,因此交互作用是不显著的。我们是否可以由此判断读报时间与被访者的年龄有关,但与被访者工作是否属于“体制内”无关?   

24、     让我们重新反思一下在模型建构过程中有没有什么地方被忽略了。“体制内”一类的变量与“性别”、“年龄”等变量是不同的。后者是人口统计学的基本变量,直接描述被访者基本的生理特征;但前者却是用于描述被访者的职业特征的变量。“体制内”变量直接表达的是职业的特征而不是人的特征,它的意义是将各种职业(该消费者数据中是十四种职业)划分为两大类。如果我们直接使用这个变量来估计被访者的个人行为,等于把所有的被访者分成了两大类,将所有具有体制内(或体制外)的职业的被访者样本看作是符合“iid假设”的,忽略了不同职业者之间的区别。因此用“体制内”变量直接估计

25、个人信息,等于用“职业群体”层次的信息估计“个人”层次的信息,这就使我们对变量的参数估计产生偏差。在上文的回归方程中,原本可能显著的交互变量表现得不显著了。“城乡”、“学历”等有可能成为群组属性的变量也会产生类似的问题。        四、应用分层回归模型重建回归方程的分析            让我们引入分层模型来看一下能否使我们得到不同的结论。在这里作者使用了Stephen W.Raudenbush和A

26、nthony S.Bryk共同开发的HLM软件。        原数据被访者划分为十四种职业。我们认为个人数据是第一层数据,个人嵌套在(nested in)职业中,描述职业特点的数据是第二层数据。因为这个消费者数据在实施调查的时候并没有按照分层的方式搜集资料,我们无法取得关于第二层数据的信息。但我们可以在原有的数据的基础上人为生成一个变量:“职业是否属于体制内”(虚拟变量)。我们认为,个人嵌套在职业中的模型假设在理论上是有意义的。在本次调查中,被访者对方差独立性假设的破坏不像上文举的学校的案例中那样是由于样本在地理

27、空间内相互影响产生的协方差造成的,而是由于同一职业的被访者常常生活在类似的工作环境下,受到相同的政策影响,也通过种种渠道进行互动,有着独特的群体心理,从而形成协方差所造成的。因此基于职业的分层模型从理论上是可行的。下面我们将看到这个模型的统计指标表现如何:        首先看看各个职业被访者的阅读精品购物指南的平均时间:                可以从表2和表

28、3中看出,不同职业的被访者阅读时间是有较明显区别的。这再次证明我们不能使用个体层次的模型,分组是必要的。接着,使用HLM软件,纳入两层模型。两层模型使用到的诸变量基本描述如表4所示:                出于文章篇幅的考虑,省略ONEWAY ANAVA等“naive”模型以及中间检验过程,最终模型为(经过对中处理):           

29、     为了方便与OLS估计比较,我们通过检测,我们不但在第二层没有生成和引入其他刻画职业群体属性的变量(例如职业平均月收入),还去掉了所有斜率的随机效应,只保留了截距的随机效应。该效应是显著的。这意味着,在不同职业者之间,读报时间在存量上确实是有区别的(其实这一点已经在前面由ONEWAY ANOVA的表三证实了)。        分析结果见表5:          

30、0;             从表五可以看出,交互作用是显著的。这意味着,随着年龄的增长,体制内和体制外的不同职业者阅读精品的时间增量是有区别的。该模型如图4所示,可以看到,虽然在年轻的时候,体制外被访者的阅读“精品购物”的时间少于体制内被访者,但随着年龄的增长,前者的读报时间远远比后者增长得快,在某个交叉点上,前者的阅读时间超过了后者。也就是说,被访者的读报时间不仅与年龄相关,而且与被访者的职业是否属于体制内是相关的。不仅相关,而且我们可以从表5中看到,回归系数的绝对值和其

31、他因素相比是较高的,也就是说被访者的职业是否属于体制内,对于被访者的读报时间有着十分重要的影响,只不过这种影响是与被访者年龄共同发生作用的。                实际上,我们还可以用“解释方差的统计量”这个标准来考察分层模型与OLS估计比较起来的精确之处:        分层分析与层-1分析(OLS估计)相比,相对的解释方差是:  

32、60;              是“组内相关系数”,又称为群效应(cluster effect),它测量的是结果方差中组间部分所占的比例,即理论上因变量中的总方差中所有职业因素能解释的最大数量。也就是说,有1.9%的方差是可以也应当用第二层的职业区别解释的,但在原有的回归方程中,将方差全部归因于第一层,也就是个体层面的差异,因此个体的方差估计值被夸大了。分层模型则避免了这个问题。       &

33、#160;五、结语        综上所述,使用分层模型,从统计上看确实能有效地解决参数的估计偏误的问题。特别是当数据存在分组或者“嵌套”结构的时候更是如此。另外,从理论上看,分层模型还能使我们的假设和模型变得更准确。例如本文中正是使用了分层模型才使得我们能发现年龄和职业特性的交互变量对因变量的影响,使得我们准确把握数据中潜藏的关系。        本文的不足之处在于原数据在调查时并不是按照分层的假设去采集的,因此只能通过在原有数据基础

34、上人为生成新变量的方法来建立分层模型。要充分展示分层模型的优越性,就需要更多在调查时以明显的分层的方式采集的原始数据。        相信在不久的将来,在市场研究、经济调查、管理学等领域,分层模型会得到越来越多的应用。                参考文献        1 C

35、hi, Chia-Fen., Chin-Lung Chen. Reanalyzing Occupational Fatality Injuries in Taiwan with a Model Free Approach J. Safety Science, 2003(41): 681-700.        2 McBride, Sandra J., Ron W.Williams, John Creason. Bayesian Hierarchical modeling of Personal Exposure

36、to Particulate Matter J.  Atmospheric Environment, 2007(41): 6143-6155.        3 Ren, Dianxu., Roslyn A.stone. A Bayesian Approach for Analyzing A Cluster-randomized Trial With Adjustment for Risk Misclassification J. Computational Statistics & Data A

37、nalysis, 2007(51): 5507-5513.        4 Ruijiter, Judith M.P.de., Matt L. Huffman. Gender Composition Effects in the Netherlands: A Multilevel Analysis of Occupational Wage Inequality J. Social Science Research, 2003(32): 312-334.         5 Venkatesan, Raj., Kunmar Mehta.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论