应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:.doc_第1页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:.doc_第2页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:.doc_第3页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计计算案例1,吕晓玲应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:以网络购物使用次数为例1. 问题提出随着网络的兴起,网上购物已经在人们的生活中发挥着越来越重要的作用。网上购物以其方便快捷等特点吸引了很多购物者,但是也有一些人质疑网上购物安全性、不可触摸性等问题。影响人们选择网上购物的因素有很多,不同的人对网上购物也有不同的态度。大学生是网络购物这个群体的很重要的一部分,什么因素影响大学生对网络购物的选择?大学生由于对网络购物的态度取向不同可分为多少潜在的类别?本文应用陈述偏好方法(stated preference method)收集大学生网上购物的数据,并应用潜在分类泊松回归模型(latent class Poisson regression model)及EM算法分析数据,回答以上两个问题。2. 数据收集源于心理学的陈述偏好调查已经被市场营销中研究消费者行为广泛应用。虽然在进行每个具体研究时操作不尽相同,总的原则是事先设定几个重要因素,每个因素有若干水平,然后提出一些假想情景,每个情景是这些因素不同水平的组合。受访者按照他们的喜好给不同的情景打分或者排序。研究者应用模型分析数据,寻找各因素的重要性。为了确定影响网络购物的重要因素,我们首先开展了预调查,针对购买商品的种类、价格、邮费、卖家信用度、介绍商品详细程度以及网上购物节省时间和到货时间等因素对大学生进行了调查,并应用简单统计分析得到了对网上购物次数影响比较显著的四个因素,分别是购买商品的种类、价格、卖家信誉度以及介绍商品的详细程度。具体因素和因素水平如下所示:种类:服饰,化妆品,文体价格:50元,100元,150元,200元,250元卖家或网站的信誉度:1,2,3,4,5 介绍商品的详细程度:1,2,3,4,5 若每一种组合都进行调查则共有组合,在这里运用了正交设计的方法进行试验设计,共进行75种不同的组合,将这75种组合分成25组,每组中包含3个场景(分别为3个不同的种类),每一个被调查者将被给定3个不同的场景。每个被调查者回答的问题是在特定的场景能够在十次购物中选择网上购物的可能次数。我们总共访问了197名在京大学生,得到了在588种场景下他们对网络购物的使用情况的有效回答。3. 模型介绍市场营销中常用的分析陈述偏好数据的方法是联合分析(conjoint analysis),我们这里使用泊松回归模型,因为:(1)因变量不是受访者对场景的排序,而是使用网络购物的次数,它是一个取值为离散整数的变量,可以假设服从泊松分布;(2)可以对泊松回归模型进一步应用潜在分类模型分析受访者的异质性。我们首先介绍泊松回归模型和潜在分类模型,然后介绍如何应用最大似然法和EM算法估计参数。令为第()个个体在面临第()种场景时的选择,服从参数为的泊松分布。因为从平均的意义上来讲,取值越大意味着受访者越倾向于多次使用网络购物,所以可理解为该场景的效用(utility),它是这个场景各因素水平和受访者个人特征的函数:,其中:是维协变量,是参数,体现了受访者对协变量变化的反映,如果假设它是常数,则表明受访者是同质的(Homogeneity),但我们知道,不同受访者对不同的协变量的重要程度看法是不一样的,也就是说人群有异质性(Heterogeneity),处理这种问题的办法是假设为一个随机变量,服从概率分布。这里我们可以假设为一个连续的多元密度函数,但由于无法判定哪种形式以及在参数估计的时候很难计算多维积分,所以一般来说我们不采取这种方式,取而代之的是假设是一个离散的多元分布,取值为,相应的概率密度是,的大小以及和的取值均由数据估计得到。我们称这种方法为潜在分类模型或者离散随机系数模型(discrete random-coefficient model)。在上述模型假定下,我们知道第个个体在面临第种场景时,给定参数取值为时,泊松分布的参数。则第个个体的无条件概率密度为: (1)如果使用最大似然法估计参数,样本的似然函数可以写成: (2)4. 估计方法可以看到似然函数的形式很复杂,即使使用数值算法,也不容易找到全局最优的最大似然估计。这里我们使用EM算法。引入缺失变量: (3)假定,的分布为独立同分布,密度函数是,则,其中,。完全对数似然函数可写成: (4) (5)其中,应用EM算法,首先给定初始参数估计值。之后的迭代()过程中,E步就是在给定观测数据和参数估计的情况下,对完全对数似然函数以的分布求期望,因为(5)中完全对数似然函数是的线性函数,所以它的期望也是期望的线性函数。为了求给定观测数据和参数估计的条件期望,我们需要寻找它的条件分布。因为,所以。则的条件期望是: (6)所以在E步得到的完全对数似然函数的期望是: (7)M步即是最大化(7)式得到更新的。可以看到(7)式右侧第一项仅与有关,并且和式的每一项与一个s对应,(7)式右侧第二项仅与有关,可以单独优化,大大降低了似然函数的复杂度。此外,EM算法所得估计量的均方误差可以由Louis公式计算而得。5. 数据分析应用上述模型分析大学生网络购物数据,首先把分类变量(商品种类)转化为0、1变量,即当同时取0时,表示种类为文体。我们使用BIC准则来确定S的取值。从S=1开始,模型的BIC开始下降,并且到某一值时,开始上升。我们就选择使得BIC取最小值的S。从表1可以看出S=3。表2给出了模型在S=3和S=1(没有异质性)时的参数估计值。当S=1(假设受访者没有异质性时),受访者整体表现出更倾向于多次购买文体类商品,使用次数随商品价格下降,增加卖家或网站的信誉以及介绍商品的详细程度可以增加受访者的使用网络购物的次数。当S=3时,可以看到受访者分为三类,在网络购物的使用次数上,几个因素对这三类受访者有着不同的影响。根据表2的结果,第一类受访者(约占18.89%)更倾向于购买文体类商品,也倾向于购买价格便宜的商品,并重视卖家或网站的信誉程度和介绍商品的详细情况;第二类受访者(约占48.62%)不在乎商品的种类、价格、以及介绍的详细情况,只注重网站的信誉;第三类受访者(约占32.49%)更倾向于购买文体类商品,不重视商品的价格和卖家或网站的信誉程度,但较看重介绍商品的详细情况。 表1:BIC准则潜在类别估计参数的个数-Log LikelihoodBIC值161321.6941340.8242131257.9951299.4443201213.4821277.2504271203.6211286.518表2:参数估计值泊松回归模型(潜在类别S=3)泊松回归(S=1)类别1的概率p=0.1889类别2的概率p=0.4862类别3的概率p=0.3249加权均值截距-0.1139(0.5127)0.1706(0.1898)1.2464*(0.1959)0.4663(0.2529)0.5989*(0.1056)类别(服饰)-1.8109*(0.3731)-0.1476(0.1069)-0.2399*(0.09600)-0.4918*(0.1537)-0.3221*(0.05622)类别(化妆品)-2.5615*(0.5693)0.01659(0.09781)-1.7587*(0.1894)-1.0472*(0.2166)-0.7061*(0.06369)商品的价格-0.5378*(0.1724)-0.00466(0.06163)-0.02828(0.06243)-0.1131(0.08282)-0.0801*(0.03469)卖家或网站的信誉度0.3798*(0.08954)0.2424*(0.03018)0.05649(0.03384)0.2080*(0.04258)0.1814*(0.01772)介绍商品的详细程度0.1784*(0.06997)0.05013(0.02986)0.1142*(0.03644)0.09520*(0.03957)0.09225*(0.01749)注:括号中是参数估计的标准误差,其中*代表0.05的显著性水平,*代表0.01的显著性水平。6. 总结 本案例应用潜在分类的泊松回归模型及EM算法分析了大学生对网络购物的使用情况。最终得到三类人群,他们对商品类型、价格、卖家或网站的信誉度、以及介绍商品的详细程度有着不同的重视程度,网络营销者可以根据此结果制定不同的营销策略。此外,我们还可以进一步根据模型估计结果得到每个个体属于哪一类,从而分析这三类人在个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论