版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于需求学习的易逝品收益管理动态定价策略研究基于需求学习的易逝品收益管理动态定价策略研究摘要:木文研究了结构化模型不确定下,利用贝叶斯方法在销售过程中对不确定 参数的分布进行学习的动态定价问题。分别建立了连续需求学习和周期性需求学 习的动态定价模型。在连续需求学习模型中,利用贝努利过程來表示顾客到达过 程,提出一种贝叶斯学习机制来对顾客到达概率进行学习,将该问题构造为一个 随机动态规划模型。在周期性需求学习的动态定价问题中,利用乘式需求函数对 需求进行建模,利用贝叶斯方法对随机分布中的不确定参数进行学习,将该问题 构造为一个随机动态规划模型,并分析了如何降低状态空间的维数以简化计算以 及值函数
2、的性质。收益管理问题的一个典型特征就是需求的不确定性。现有收益管理动态定价研究 大都利用随机变量來对不确定需求进行建模,并假定随机需求的分布函数是已知 的。但随着技术的快速发展和消费者品味的变化,市场环境会不断发生变化,这 时根据历史数据得到的需求分布不能很好地反映未來的需求特征。这种情况卜, 企业一般可以根据历史数据对需求分布的函数形式进行大概的估计,但不能准确 估计出其中的一些参数,这种模型不确定就是引言中所讲的结构化模型不确定。 零售商可以在销售期初对这些参数进行一个先验估计,然后在销售过程中利用最 新的销售数据对这些估计进行调整。这就是贝叶斯需求学习但ayesian demand le
3、arning)的思想。该思想很早就已经应用到动态库存管理中来(scarf, 1959, 1960, azoury, 1985),现在已经得到广泛的应用(chen and plambeck, 2008, dehoratiusetal., 2008)。木章就是利用这种思想分别对连续时间需求模型中的 顾客到达率和离散时间需求模型中的不确定参数进行学习,并在定价决策时考虑 到此学习过程。在动态定价研究中,对需求进行建模主耍有两种方法:一种是对单个顾客进行建 模,另一种是对每个周期内的总需求进行建模(talluri and van ry力n, 2004)。 在前一种方法中,需求模型主要由顾客到达率和顾客
4、保留价格的分布构成。冃前 关于考虑需求学习的动态定价研究主要是集中在对顾客到达率的学习上(aviv andpazgal, 2005a, lin, 2006, farias and roy, 2009)。这些研究都假定顾客 到达服从时齐泊松过程,但泊松过程的强度未知,假定服从gamma分布,利 用贝叶斯方法对顾客到达率进行学习。利用泊松分布与gamma分布的共轨性 虽然可以简化模型的求解,但只能对平稳需求过程进行学习,而现实生活中顾客 的到达率往往是非平稳的随机过程(lin and sibdari, 2008)。据作者所知,r nij 还没有适用于对非时齐顾客到达进行学习的动态定价研究。另外,现
5、有研究中对总需求进行建模主耍是在价格反应函数的基础上加上或乘上 一个随机变量。这样就可以将偏离价格反应函数的数据看成是随机扰动的结杲。 现实中对该随机变量我们只能估计出一个大概的分布形式,或用一种常见的分布 来对其进行近似表示,但其参数存在不确定性,因此需要利用最新销售数据对其 值的估计进行不断更新。但门前相关研究述比较缺乏,因此本章第二部分将探讨 此问题。本章研究了需求模型参数不确定的情况下,考虑需求学习的单个企业单种易逝性 产品的动态定价问题。首先研究了连续需求学习的动态定价问题,假定顾客到达 过程服从贝努利过程,每个周期有顾客到达的概率是未知的,假定服从一定参数 的beta分布,利用贝努
6、利分布和beta分布的共辘性将这种更新机制引入到 动态定价问题屮,并分析了这种需求学习的效果。然后,本章研究了周期性需求 学习动态定价问题,将贝叶斯更新机制引入到多周期动态定价屮,建立了动态规 划模型,并根据azoury (1985)的结论分析了如何降低状态空间的维数以简化计 算。3.1连续需求学习动态定价3.1.1完全信息下的动态定价问题描述与模型构建本章研究的问题描述如下:单个零售商要在一定销售期内销售i件易逝性产品, 销售期内不允许补货,期末产品残值为零。不失一般性,将销售期分成t个周 期,t足够大使每个周期内最多只有一个顾客到达。假定顾客到达过程服从贝 努利过程,即每个周期内有一个顾客
7、到达的概率为6 ,没有顾客到达的概率为 16。该方法不仅可以看成是泊松过程的近似,述可以用来刻画更一般的需求过程(通过对时间的调整来完成),因此具有更强的适用性(levina etal., 2009, lin and sibdari, 200& lautenbacher and stidham, 1999, you, 1999)。假 定每个到达顾客的保留价格的分布函数为f(x), x为顾客的保留价格,分布 密度为f(x), f(x) = 1 f(x)o这时在价格为p时每个周期有产品销售的 概率为5f(p),这就是这部分研究所用到的需求模型,其小6 t就表示潜在的 市场需求。现实屮根据历
8、史数据统计得到的有顾客到达的概率5往往并不能真 正表示实际情况,因此有必要利用最新的数据对其估计值进行调整。下面我们首 先研究完全信息情况下的动态定价问题,即&已知31的情况。令t,t=1,2, ,t 表示当前周期到销售期末剩余的周期数。令v(l,t)表示剩余库存为丨剩余周期 数为t时从当前周期到销售期末的期望总收益。利用随机动态规划可得期望收益 为:(,)max (1 ()( 1,1) ()(,1) (1 )(,1)pvlt = 6 fpp + vi t +fpvlt + 6vltmax(1 ()( 1,1)(, 1)(, 1)p=6 fpp + vi t vlt + vlt (3.
9、1)边界条件:v(l ,0) = 0, i ,v(0, t)二 0, t定义 u(p,l,t) = (1 f ( p )( p + v ( i 1,t 1) v(l,t1)=f ( p )( p + v ( i , t 1) v(l 1,t 1)(3.2)命题3.1:如果顾客的保留价格分布函数满足: 因此u ”( p , i , t) v 0,从而(3.2)式有唯一最优解。 由此命题得证。上述命题给出了最优策略唯一的充分条件。该结果与文献(bitran andmondschein, 1997)的结果是相同的。上述命题屮的条件是很容易实现的, 我们常见的分布函数大多都能满足该条件。在本文的条件下
10、,当i充分大(l>t) 时,很显然固定价格是最优的:* arg max (1 ()pp = p f p当顾客的保留价格分布不满足命题3.1屮的条件时,我们只能采用一维搜索法 进行求解。结构性质下面研究最优值函数v(,)和最优价格策略p(,)的性质。显然下述结论 是成立的:1) 给定i , v ( i , t)随t的增加而增加;2) 给定t , v( i ,t)随i的增加而增加。首先,我们利用样本路径法(sample path argument)得到最优值函数的上模性, 然后利用这个性质得到最优值函数和最优策略的其它性质。命题3.2:对于任意正整数i和t , v(l,t)是上模的(supe
11、rmodular)或上可加 的(superadditive),即:v(l,t) + v(l 1, t 1)> v( i ,t 1) +v( i 1, t)(3.6)证明:采用样本路径法(lin, 2004)来证明值函数的上可加性。3基于需求学习 的易逝品收益管理动态定价策略研究【本章导读】本章研究了结构化模型不确定下,利用贝叶斯方法在销售过程小对 不确定参数的分布进行学习的动态定价问题。分别建立了连续需求学习和周期性 需求学习的动态定价模型。在连续需求学习模型屮,利用贝努利过程来表示顾客 到达过程,提出一种贝叶斯学习机制来对顾客到达概率进行学习,将该问题构造 为一个随机动态规划模型。在周
12、期性需求学习的动态定价问题屮,利用乘式需求 函数对需求进行建模,利用贝叶斯方法对随机分布小的不确定参数进行学习,将 该问题构造为一个随机动态规划模型,并分析了如何降低状态空间的维数以简化 计算以及值函数的性质。收益管理问题的一个典型特征就是需求的不确定性。现有收益管理动态定价研究 大都利用随机变量来对不确定需求进行建模,并假定随机需求的分布函数是已知 的。但随着技术的快速发展和消费者品味的变化,市场环境会不断发生变化,这 时根据历史数据得到的需求分布不能很好地反映未来的需求特征。这种情况下, 企业-般可以根据历史数据对需求分布的函数形式进行大概的估计,但不能准确 估计出其小的一些参数,这种模型
13、不确定就是引言小所讲的结构化模型不确定。 零售商可以在销售期初对这些参数进行一个先验估计,然后在销售过程屮利用最 新的销售数据对这些估计进行调整。这就是贝叶斯需求学习但ayesian demand learning)的思想。该思想很早就已经应用到动态库存管理屮来(scarf, 19591960, azoury, 1985),现在已经得到广泛的应用(chen and plambeck, 2008, dehoratiusetal., 2008)。本章就是利用这种思想分别对连续时间需求模型屮的 顾客到达率和离散时间需求模型小的不确定参数进行学习,并在定价决策时考虑 到此学习过程。在动态定价研究小,对
14、需求进行建模主要有两种方法:一种是对单个顾客进行建 模,另一种是对每个周期内的总需求进行建模仃alluri and van ryzin, 2004)o 在前一种方法小,需求模型主要由顾客到达率和顾客保留价格的分布构成。fi前 关于考虑需求学习的动态定价研究主要是集屮在对顾客到达率的学习上(aviv andpazgal, 2005a, lin, 2006, farias and roy, 2009)。这些研究都假定顾客 到达服从时齐泊松过程,但泊松过程的强度未知,假定服从gamma分布,利 用贝叶斯方法对顾客到达率进行学习。利用泊松分布与gamma分布的共轨性 虽然可以简化模型的求解,但只能对平
15、稳需求过程进行学习,而现实生活小顾客 的到达率往往是非33首先,构造四个零售商1,2,1,2,他们而临相同的需求。 其中,1和1分别有i件商品,2和2分别有i 1件商品。1和2剩余的周期 数为t 1,2和1剩余的周期数为t。构造策略使1,2的总收益不低于1和2的 总收益,从而使命题得证。令1, 2采取最优策略,1跟随1采取相同的价格策略,2跟随2釆取相同的 价格策略,直到事件e零售商1比2多销售一件商品发生。事件e 发生z后令2采取各自的最优策略。这样1, 2就能够分别与1, 2的数量 保持一致。由于上述策略属于1, 2的可行策略集,但不一定是最优策略,1, 2 的总收益不低于1, 2的总收益
16、。这样有两种可能的情况:1) 事件e发生了。在事件e发生时1, 2获得的总收益等于1, 2的总收益。 由于所有的零售商剩余的数量相同,因此整个销售期1和2的总收益等于2的总收益。2) 事件e 直没有发生,这时又有两种情况:a. 零售商1和2的销售期结束了。这时1至少比2多一件商品(否则事件e 就发生了),这样1和2的总收益大于或等于1和2的总收益。b. 零售商2和2销售完所有的商品。这时1和1有相同的库存,但1比1多 一个销售周期,只要1仍跟随1的价格策略直到1的销售周期结束就不会产 生比1少的收益,因此1的收益大于或等于1的收益。综上,在所有情况下1, 2的总收益都大于或等于1, 2的总收益
17、,从而命题得 证。证毕。上述命题小值函数的上模性,可以用航空公司的一个简单例子来直观理解:假 定航空公司的一条航线上有两个航班a和b,其小a航班的预售期比b长, 航空公司有两架飞机分别有i和i 1个座位,那么把座位多的飞机分配给a航 班而把座位少的飞机分配给b航班是最好的,这样能够获得更多的收益。接下 来,我们分析最优值函数和最优价格策略的性质。命题3.3: 4)给定i , v(l,t)是t的凹函数。2) 给定i ,最优策略p(l,t)是t的增函数。3) 给定t , v(l,t)是i的凹函数。4) 给定t ,最优策略p(l,t)是i的减函数。证明:1)令p表示数量为i ,剩余销售周期为t时的最
18、优价格,p表示数量为 i ,剩余销售周期为t+1时的最优价格,0<t<t 1o根据(3.1)式有:34v(l,t) v(l,t 1) = 5f(p,)p, v(l,t 1) + v(i 1,t 1)(3.7)5f ( p ) p v(l,t 1) + v(i 1 ,t1)v(l,t+1) v ( i , t) = 5f ( p ) p v(l,t) + v(l 1 , t)(3.8)(3.7)-(3.8)得:v(l,t) v(l,t 1) v (l,t+1) v ( i , t)=5 f ( p ) p * v(l,t 1) + v(i 1 ,t 1) 6f ( p ) p v(l
19、,t) + v(l 1 , t)5 f ( p ) p v(l,t 1) + v(i 1 ,t 1) 6f(p)p v(l,t) + v(l 1 ,t) =5f (p )v (i 1 ,t 1) + v(l,t) v(l,t 1) v(l 1 ,t)根据命题3.2有:v( i 1 , t 1) +v( i , t) v(l,t 1) v( i 1 , t) >0所以v(l,t) v(l,t 1) v (l,t+1) v ( i , t) >0即 2v (l,t)>v(l,t+1) + v(l,t1)因此v(l,t)是t的凹函数。2)令p(l,t )为状态为(l,t )时的最优
20、价格,设y为任意小于p(l,t )的价格, 即:0 < y < p (i , t)o 另b么:()()(,)(1,)()()(,1)(1 j)()(j(1j)fyyfyvitvi tfyyfyvitvi tfyvitvitvitvit6666+根据命题3.2有:v(l,t) v( i 1 , t) v( i , t 1) +v( i 1 , t 1)>0根据p(l,t)的定义有:5f(y)y 6f (y )v (l,t 1) v(l 1 ,t1)<5f(p)p 5f(p)v (l,t 1) v(l 1 , t 1 )35 所以5f(y)y 6f (y )v (l,t 1
21、) v(l 1 ,t1)6 f (y )v (l,t)v(l1 ,t)v(l,t1) + v(i1 ,t1)<5f(p)p 5f (p )v (l,t 1) v(l 1 ,t1)6 f (p )v (l,t)v(l1 ,t)v(l,t1) + v(i1 ,t1)= 5f(p)p 5f ( p )v (l,t) v(l 1 ,t)上式表明在状态为(l,t+1)时,对于任何小于p(l,t)的策略取得的收益都小于 采用p(l,t)取得的收益。而p(l,t)在状态为(l,t+1)时不一定是最优策略, 这就喑示状态为(l,t+1)时的最优策略大于p(l,t)o所以给定i ,最优策略是 t的增函数。
22、3) 用反证法。令p,为库存为1 + 1,剩余周期数为t+1时的最优价格,令p为 库存为i ,剩余周期数为t+1时的最优价格,贝惰:v( i + 1, t + 1) v(l ,t+1)()(,)(1,)(1j()( = )(,)(,)fppvitvitvit fppvitvitvit66 =+ + + +()(,)(h)(1,) ()( = )(,)(,) fppvitvitvit fppvitvitvit 66< + + + +=5f ( p )2v (l,t) v(l + 1,t) v(l 1,t) + v(l + 1,t) v ( i , t) 根据命题 3.2 有 v (1 +
23、1,t) v(l,t)<v(l + 1,t+1) v(l,t+1) 所以,v(l + 1,t+1) v(l ,t+1)< 5f ( p )2v (l,t) v(l + 1,t) v( i 1,t) + v(l + 1,t+1) v( i , t+1) 从而有 6 f ( p )2v (l,t) v(l + 1,t) v(l 1, t) >02v ( i , t) v( i + 1, t) v( i 1, t) >036说明最优值函数v(l,t)是i的凹函数,与假设才盾。因此假设不成立,最优值 函数是i的凹函数。4) 令p = p (i, t),对于任意y > p,
24、有:0>u(y,l,t) u ( p , i , t)= 5f(y)y + v(l 1,t) v ( i , t) 6f ( p ) p + v (i 1,t) v (i , t) (h1)(,1)()()()()(,1)(1,1)vltvitsfyyfppfpfyvitvit> +=+2&f(y)y f(p)p + f(p) f ( y )v (1 + 1,t 1) v(l,t1)= u(y,l + 1,t)u(p,l+1,t)上而第一个不等式是由定义得岀,第二个不等式是由最优值函数是i的凹函数 以及f(p)f(y)> 0得到。由此可以看出任何大于p(l,t)的价格
25、在库存为i + 1剩余周期数为t时都不是最优策略。由此命题得证。证毕。上述命题表明,给定库存水平i ,剩余的销售时间越长,最优价格就越大。这 是很直观的,因为剩余时间越长就表明能够销售出去的概率就越大,从而价格就 要定得高些;给定剩余的销售时间,剩余库存越多价格就越低,因为剩余库存越 多就说明在销售时间不变的情况下卖岀去的可能性就越小,因此就耍降价尽可能 多地卖出去。上述性质为我们求解保留价格分布函数不满足命题3.1的条件下 的最优价格策略和最优值函数减少了搜索空间,同时也为我们分析价格变化趋势 提供了建议。3.1.2考虑需求学习的动态定价在上一节小假定每个周期有顾客到达的概率6是已知的。但在
26、实际生活屮,很 多时候我们并不能得到确切的6值,只能根据以往的情况对其分布有个先验估 计。在这一部分我们假定6是未知的,服从参数为c(和p的beta分布。其中a和 p叫做超参数(super parameter),是一种先验信息,零售商可以根据经验确定或 者进行市场调研得到。beta分布的密度函数为:1 10()(1)0()apap665apr +rr,0<6< 1(3.9)其小r(i)为gamma函数。在销售期初,零售商没有最新的销售数据,只能 根据&也叫做laplace先验,是-种非信息先验。因此当我们没有关于顾客到 达概率的历史数据或不能进行市场调研时就可以令a = p
27、= 1o在下而的数值分 析中,我们就使用这个值,得到的结果也相当好。关于超参数的确定,更多请参 见(draper, 2008)。令v (l,n, t)表示剩余t个周期库存为i ,在前面t t个周期屮共有n(0< nst t)个顾客到达时剩余销售期的期望总收益。利用随机动态规划有: (,)max(1 ()(1,1,1)()(,1,1)pvlntefppvintfpv intvint666二 + + + +可以证明:(,)max( )(1, 1,1)(, 1,1)tpv i n t = 6p f p p + v i n + t v i n + t (j)。)(,"t+v i n +
28、1 + 5vi ntmax()(1,1,1)(,1,1)tp=6p f p p + v i n + t v i n + tt+ v i n t +6v i n + t vint (3.11)边界条件:v( i , n, 0) = 0, i ,v(0, n, t) = 0, t。由口标函数我们可以看岀,顾客到达率的更新对顾客的保留价格是没有影响的, 因此与命题3.1相似我们有以下命题:命题3.4:如果顾客的保留价格分布函数满足:1)连续;2)二次可微;3)函数2(1f(p)/f(p)是p的减函数。那么给定库存i和周期t, (3.11)式有唯一最优解:1()(,1,1)(1,1,1)0fpp v
29、i n t v i n t二+ + (3.12)证明:(略)。与完全信息模型相似,我们可以分析最优值函数和最优价格策略的结构性质。 我们有以下命题。命题3.5: 1)给定n ,t,v(l,n, t)是i的凹函数,也就是说:2v (i , n, t)>v(l + 1, n ,t) +v( i 1, n, t)(3.13)2)给定n ,t , p ( i , n , t)随i的增加而减小。上述命题中1)部分由于不能确定值函数是否具有上模性,因此不能利用命题 3.3中3)的证明方法来证明,但可以利用样本路径法来证明,证明过程类似于 zhao37的先验期望进行决策,其先验均值6为:a6ap在销售
30、过程小,零售商观测到顾客的到达情况,然后不断利用最新数据对6先 验分布进行调整,从而得到其后验分布,再利用其后验期望值进行下一周期的定 价决策。假定剩余销售时间为t个周期时,已经有n个顾客到达(也就是在t t 个期内有n个顾客到达),则在每个周期有顾客到达的概率为&的条件下,此事 件发生的概率为:5进行下一周期的定价决策。由上述分析可以看岀6的后验分布依然是beta分布,只不过参数不同而已, bernoulli-beta模型的这种共轨性不仅在数学上是直观的为我们下面的分 析提供了便利,而且上述模型中的参数a ,p具有很直观的经济含义。a + 0称 为先验信息的有效样本大小(effect
31、ive sample size),可以看成是在调研过程屮试 验的次数或历史数据屮总的周期数(draper, 2008)。当a + p的值比较大时就说 明历史数据提供的信息较多,新产生的数据对零售商的估计影响较少。a = p=1 叫做均匀先验,40证毕。命题3.7:给定i和t,最优价格p(l,n, t)是n的非减函数。证明:令tu p i n t = 6p f p p + v i n + t vln + t令p = p(l,n + 1,t),表示剩余t个周期,状态为(l,n+1)时的最优价格。对任 意y > p有:其小第一个不等式根据定义可得,第二不等式根据命题3.6和f(p)的单调性 可
32、得,每三个不等式是很显然的。这就说明任何高于p的价格在状态为(i , n ) 时都不是最优的,因此在其它条件不变的条件下,最优价格是n的非减函数。从 而命题得证。证毕。以上命题的经济含义是很直观的,在给定剩余库存和销售周期时,z前到达的顾 客越多说明潜在需求越大,以后销售出去的概率就越大,从而可以将价格定得高 一些。如果z前到达的顾客很少,则说明潜在需求很低,应该降价以便尽快销售 完产品o但是,由于需求的更新,收益函数对于t则不一定具备基本模型那样好的性质。 下面我们用一个简单的例子来进行说明。假定t = 1000,剩余的销售周期为 900,剩余库存为10,已经有80个顾客出现。假定顾客保留价
33、格的累积分布 函数为0.5()1pf p e,零售商关于每个周期顾客到达概率的先验分布为b (4,1)。固定141和n, 我们画出了期望收益关于t的变化图(图3.1)。从图3.1可以看岀,期望收益 函数关于t既不是凹的也不是凸的。图3. 1纟合定i和n,最优期望收益随t的变化fig.3.1 the optimal expected revenue varies with t for given丨and n关j*(3.12)式的求解,我们可以利用倒推 法求解,得到最优策略p(l,n, t)o这个最优策略是一个三维表格,零售商在 实际应用时根据当前剩余库存,剩余的销售时间以及到h前为止出现的顾客数
34、从 表格小选择相应的价格。但是当丨和t都较大时,求解最优策略需耍消耗大量 的计算时间和存储空间,这样求解最优策略就变得不切实际,因此我们转而求次 优策略。我们采用一种开环反馈控制策略(open-loop feedback control policy, olfc),其思想是在确定剩余周期为t时的价格时用每个周期有顾客到达的概率 5的后验期望值t5来代替5 ,并假定在以后的周期内不再变化,根据(3.1)式求解最优价格,只 取当前周期的价格,当这个周期结束时对6进行更新,然后重复以上过程。具 体算法如下:假定当前周期6的后验期望值为& ,stepl:将6代入(3.4)式求解,取计算所得的第
35、一个周期的价格为当前周期的 价格;step 2:利用贝叶斯定理对&进行更新并计算后验期望t16,令t166=,转 step1o开环反馈控制策略(open-loop feedback control policy, olfc)是一种实践中 普遍采用的一种策略,该策略操作简单而且产生的收益接近于最优策略产生的收 益。aviv和pazgal (2005a)将上述策略的学习过程归为“被动学习”(passive42 learning),当学习过程独立于决策时,被动学习策略能够产生很好的效果。在下 面的数值模拟小我们可以看到olfc策略下产生的收益与最优策略下产生的 收益相差很小。3.1.3模拟分
36、析在这一节,我们利用montecarlo模拟的方法来分析olfc策略相对于最优 策略(简称opt策略)的效果以及进行需求学习与不进行需求学习对收益的影 响。为了进行比较,我们随机产生顾客到达序列以及每个到达顾客的保留价格,计算 每次模拟整个销售期的总收益:(,)iv i t , i = 1, ,m, m表示模拟的样本数。为 了提高模拟精度,我们对每个模拟进行m二1000次,计算期望收益为:1(,)(,)/mvitvitm=z令t二1000, a = 1, p= 1,顾客的保留价格分布函数为0.5()1pf p e=o在下而的模拟屮各比值的标准差都在0.02%以内。首先,令实际顾客到达概率6 =
37、 0.5,比较olfc策略与opt策略的差异。 为了更好地看出两者的差异令(,)(,)100%(,)opt olfcco optvitvitrvit其中(,)olfcv i t表示在olfc策略下的期望收益,(,)optv i t表示最优策略下的期望收益。我们在不同的库存水平下计算cor ,如图 3.2所示。由图3.2我们可以看出,olfc策略下的期望收益与opt策略下 的期望收益的差异是非常小的(不超过0.03%)。这说明olfc策略近似于最优 策略,效果几乎与最优策略没有差别,但在实施过程屮却比最优策略简单有效。 在这个例子中,我们令先验期望等于实际有顾客到达的概率,口的在于说明主动 学习
38、与被动学习的差异,在下面的例子中,我们令先验估计与实际相差较大,进 一步说明olfc策略的效果。这里值得注意的是由于模拟过程屮的随机因素, 并且这两种策略间的差异非常小,因此从图3.2我们不能看出olfc策略与最 优策略间的差异是如何随库存的变化而变化的。但从前而的分析可知当库存足够 多时,对顾客到达率的学习是没有作用的,因此当库存足够多时两种策略是相同 的。和zheng (2000),此处略。2)部分的证明与命题3.3小4)相同,这里不 再赘述。命题3.6:给定1 <t<t,对任意i和os nwt,有v(l, n + 1,t) + v (i 1,n ,t)>v(l,n, t
39、) + v(l 1,n + 1,t)(3.14)bp,值函数 v (l,n,t)是 i 和n的上模函数。证明:类似于命题3.2的证明,我们利用样本路径法来证明。首先,构造四个零售商1,2,1,2。假设四个零售商剩余的销售周期数为t,在 剩余的销售期内四个零售商面临的需求是相同的。其屮,1和1分别有i件产 品,2和2分别有i 1件产品。在此z前到达1和2的顾客数分别为n,而到 达2和1的顾客数分别为n+仁构造策略使1和2的总收益不低于1和2的 总收益,从而使命题得证。令1和2分别使用自己的最优策略,即根据(3.11) 计算的最优策略,令2跟随1采取相同的策略,1跟随2采取相同的策略。上 述策略屈
40、于1和2的可行策略,但不一定是最优策略。这样在剩余的销售过程 屮会岀现两种情况:1) 销售期结束,所有零售商都没有销售完所有产品,这时1和2的总收益与1 和2的总收益是相等的。2) 在剩余销售周期为f, 1 <f< tnt, 2和2销售完了所有产品,1和1还各 有一件产品。由于在这段时间内顾客到达数是相同的都为i 1,并且定价决策 不影响学习过程,因此1和1通过学习得到下一周期有顾客到达的概率分别为: 因此,此时只要1跟随1的价格策略获得的收益就不会比1少,从血-1和2 的总收益就不会比1和2的总收益少。由于1和2使用的并不是各自的最优 策略而是可行策略,因此根据上述策略得到的收益
41、小于等于最优策略下的收益。 因为上述需求过程具有一般性,因此1和2的期望总收益不会低于1和2的 期望总收益。从而命题得证,即v (l,n + 1,t) + v(l 1,n,t)>v(l, n,t) + v( i 1, n+1,t)43图 3. 2 不同库存水平下的 corfig.3.2cor with different inventory level 卜而我 们分析本文中贝叶斯学习机制的鲁棒性。假定零售商估计的超参数仍为a = 1, p= 1,令i二10,看在不同的顾客到达概率6下,由最优策略与olfc策略得到 的期望收益如何变化。为了便于比较,我们用完全信息下的期望收益作为上界, 计
42、算两种策略下的期望收益与完全信息下的期望收益的差值占完全信息下期 望收益的比例,即,pivit是完全信息下的期望收益,如图3.3所示。由图3.3 可以看出,当估计的顾客到达率与实际的顾客到达概率相差较大时,需求学习得 到的期望收益与完全信息下的期望收益相差也比较大,但最大不超过0.8%;当 期初估计的顾客到达概率接近于实际的顾客到达概率时,收益差也较小。但是无 论期初的估计与实际差异多大,最终的收益差都不大,这说明本文的需求学习方 法具有很强的鲁棒性。另外从图屮可以看出两条曲线非常接近,这就进一步说明 了 olfc算法的有效性。当5 = 0.5时op和cpr都是大于零的,这说明进 行需求学习是
43、有一定代价的,但这个代价是非常小的。下面我们来检验需求学习的效果,将进行需求学习所得的期望收益与不进行需求 学习的期望收益进行比较。假定零售商期初确定的超参数为a = 1,p=1,如果 不进行需求学习,则认为每个周期有顾客到达的概率为0.5o令6 图3.4需求学习和不进行需求学习的收益差fig.3.4 the d iff ere nee of reve nue with and without dema nd lear ning 达概率变 化时r的变化。由图3.4可以看出当实际的顾客到达概率与估计的相差较大的, 需求学习的效果是卄常显著的,甚至可以增加高达30%的收益,这对于竞争h 益激烈、利
44、润率h趋降低的当代商业意义是非同一般的。即使期初的估计完全正 确,进行需求学习虽然需要付出一定的代价,但代价是非常小的,从图3.4可 以看出,当6 = 0.5时,进行需求学习和不进行需求学习几乎是相同的。由于在 现实生活屮这种情况是很难实现的,因此进行需求学习总能为企业增加收益。45 3.1.4模型扩展:考虑批量购买前面的模型屮都假定每个到达的顾客的需求为1,没有考虑一个顾客购买多件 产品的情况。在这一节屮我们将前面的模型进行扩展考虑了批量购买,每个顾客 不一定购买一件产品。设每位顾客购买的数量y服从参数为入的泊松分布,概 率分布为p , (j二0,1,)。假定只要当前的价格低于顾客的保留价格
45、,顾客就会 购买他所需要的数量,如果数量不够的话顾客就不会购买。%1 顾客的购买数量分布已知的情况令v (l,n, t)为剩余t个周期初始库存为丨,已出现的顾客为n时的剩余周期 的期望总收益,则%1 同时考虑顾客到达概率和购买数量学习的动态定价假定顾客购买数量的分布 小参数入是不确定的,在销售期开始前有个先验的估计,在销售过程小根据实 际销售情况进行更新。假定入服从参数为(i,n)的gamma分布,密度为:从(3.18)式我们可以看出,当同时考虑对顾客到达概率和顾客购买数量进行学 习的时候,最优值函数是相当复杂的,产生了所谓的“维数灾难”。虽然很难得 到最优策略,但可以求次优策略,我们仍可以利
46、用开环反馈控制策略,这里不再 赘述。3.2周期性需求学习的动态定价3.2.1问题描述与模型构建与上一节问题相同:单个零售商要在一定时间内销售 数量为丨的易逝性产品,销售期末产品残值为零。零售商在销售期内动态调整价 格从而使总的期望销售收入最大。与前而不同的是零售商不能对每个顾客制定不 同的价格,每次调价后都要保持一段时间(如一周)才能再次调整价格。不失一般 性,将销售期分为t个周期,令t,t=1,t表示第t个周期,t = t+1表示销 售期结束,也就是说零售商只能制定t次价格。每个周期的需求为(,)() ttttttd p £二d p£,其小()d p是需求的价格反应函数,
47、1,t£t = t是独立同分布的随机变量,其概率密度函数为f(£代),其中§是参数, 但其具体值是未知的。在销售期初,零售商确定g的先验分布为g(g )o 这样在销售期初,零售商预测的t£的概率密度为:f(£ )f(£ |§)g(e )dg这是零售商在第一周期进行决策利用的概率密度。在第t,2<t s t周期期初, 零售商观测到以前周期随机需求的实现值1 1,u£,基于这些新的样本值,零售商更新对不确定参数的先验信念,并作为 下一周期的先验信念。为了便于处理,本章假设随机变量的分布是有固定维数充 分统计量的分
48、布,例如正态分布的充分统计量是均值和方差,其维数是二维的, 是固定的。并且假定g忆)与f(£ | § )是共辄分46显然入的后验概率服从参 数为(x + i,m+ri)的gamma分布。则零售商根据此可得下-位顾客购买数量 的概率分布为:1的负二项分布。这里需要说明的是对于没有购买的顾客,我们 没办法区分是由于价格因素述是数量因素导致的。这种情况下我们假定是由价格 因素导致的,因为在库存较多时由数量不足导致不购买的可能性比较小,而当库 存较少时该假设对最终结果影响不大。令(i)yjp = py = j y,令(,)lbvi n mxt表示剩余t个周期初始库存为i ,已岀现的
49、顾客数为n,其中有m 个顾客购买,购买总数为x的条件下剩余周期内的期望总收益。贝山49这里需 要注意的是,在销售期开始时,也就是t=1时,并没有新的样本数据,只有先 验概率,因此显然,上述动态规划模型的状态是依赖于历史的,不具有马尔科夫 性。并且如果随机变量的充分统计量可以用单个变量表示的话,上述动态规划的 状态空间就是二维的,否则维数就要增加,从而导致“维数灾难”。下而我们给出 一种方法来对状态空间进行降维,从而降低计算复杂度。3.2.2状态空间降维根据azoury (1985),如果£的概率密度函数满足以下两个条件,上述动态规划 问题的状态空间就可以化简为一维。时,条件(2)满足。因此,当需求的随机项服从带有不确定刻度参数的gamma 分布时,如果该刻度参数的先验分布也服从gamma分布,则动态定价问题就 可以构造为状态空间只有一维的动态规划模型,从而大大简化计算。3.2.3结构性质命题得证。当零售商在进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年能源托管顾问服务协议
- 2025年江西省乐平市高二生物下册期末考试模拟卷附完整答案【必刷】
- 2026年广东省兴宁市高二生物下册期末考试模拟卷含答案(黄金题型)
- 2026年江苏省常熟市高二生物下册期末考试模拟卷附参考答案(培优)
- 2025年山东省胶州市高二生物下册期末考试试卷附答案【综合题】
- 2026年吉林省大安市高二生物下册期末考试模拟卷附答案【预热题】
- 2026年安徽省宁国市高二生物下册期末考试检测卷及答案1套
- 2026年福建省石狮市高二生物下册期末考试考试卷含完整答案(网校专用)
- 2026年湖北省宜城市高二生物下册期末考试模拟卷及答案
- 2025年浙江省奉化市高二生物下册期末考试模拟卷(精练)附答案
- 打肚子文章6篇
- 江苏省南通市2023-2024学年高一下学期6月期末考试数学试题(无答案)
- 西班牙社会与文化智慧树知到期末考试答案章节答案2024年天津外国语大学
- 军训服项目整体供货方案
- 五年级沪教版语文下册课外知识阅读理解专项习题含答案
- 植物微生物组的系统生物学探究
- 森林消防员劳务派遣服务投标方案技术标
- 《红楼梦》中的艺术手法与创作风格分析
- 婚姻家庭法和继承法课件
- 大健康项目商业计划精简版
- GB/T 4852-2002压敏胶粘带初粘性试验方法(滚球法)
评论
0/150
提交评论