汽车保险定价与利率厘定模型_第1页
汽车保险定价与利率厘定模型_第2页
汽车保险定价与利率厘定模型_第3页
汽车保险定价与利率厘定模型_第4页
汽车保险定价与利率厘定模型_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汽车保险定价与利率厘定模型

改革开放后,中国经济显著增长。“中国奇迹”是中国经济发展模式的实践结果,后者的形成又离不开改革开放战略的实施。我国从2001年开始实施第一轮车险费率市场化改革,回顾这十二年车险改革的艰难起伏历程,车险费率市场化工作做起来颇为费神费力,其真正得以全面实现还有很长一段路要走。核保技术、精算技术和理赔技术是车险费率市场化改革得以顺利进行所必备的三大技术,其中,精算技术是保证车险费率市场化顺利进行的核心内容。因为实行条款费率市场化意味着各保险财险公司要自行制定费率,根据投保人和被保险人的不同风险状况,进行差别化定价,而各公司制定的个性化费率都应建立在科学合理的精算假设基础上。广义线性模型(Generalizedlinearmodels,简称GLMs)在汽车保险定价中得到了广泛应用,因为该定价方法能综合考虑影响车险定价的多种因素,如从人因素(年龄、性别、驾龄、职业、是否固定驾驶员、违章肇事记录、影响安全驾驶的因素等)、从车因素(车辆理赔记录、车辆使用性质、类型、厂牌型号、核定载客数、车身颜色、制造年月、是否固定停放、事故记录等)、环境因素和地域因素等。然而,研究已表明,GLMs在某些方面仍存在一定缺陷,(1)为此保险界研究进行了各种扩展,增加了如广义线性混合模型、广义可加模型等方面的探讨。一、glmms的相关研究在我国,结合车险费率市场化改革的大背景,保险财险公司精算师在借鉴国外先进精算技术的基础上,逐渐开始在GLMs框架下,使用索赔频率和索赔额的最优估计来计算风险纯保费。在非寿险精算领域,已有的非寿险定价和索赔准备金评估的文献大多数集中于传统的广义线性模型方面。伴随着精算理论研究的发展和解决新问题的需要,近年来,广义线性混合模型已经开始在非寿险精算中受到关注,用以分析有层次性和相关性的保险数据。在统计学中对于处理有相关性的数据,较早的模型是线性混合模型(Linearmixedmodels,简称LMMs),之后出现了广义线性混合模型(Generalizedlinearmixedmodels,简称GLMMs)、分层广义线性模型(Hierarchicalgeneralizedlinearmodels,简称HGLMs)。在这些模型的线性预测项中引入随机效应,随机效应不但决定了同一个组内的观测量之间相关性的结构,而且也考虑了不同组内的来自未观测到的特征导致的非同质性。对有关GLMMs方面的研究进行梳理:Williams(1982)证实了对于二项分布中存在的过离散问题,可以用广义线性混合模型来解释。Laird和Ware(1982),Stiratelli等(1984)及Zeger和Karim(1991)对于纵向数据中变量之间的相依关系的模型建立,均涉及了GLMMs。较早的GLMMs模型研究还包括Gilmour和Anderson等(1985)、Schall(1991)、Breslow和Clayton(1993)、Wolfinger和O’Connell(1993)。McCulloch等(2001)、Hedeker(2005)分别对广义线性混合模型进行了详细的介绍;Kelvin等(2003)采用SASEnterpriseMinerdatabase(1998)的数据,利用GLM与GLMM进行了索赔频率的建模研究并对比了结果,指出了GLMM较具优势;Antonio和Beirlant(2007)将广义线性混合模型应用于信度理论和费率厘定中,结合贝叶斯推断方法给出了各种数据的预测分布。Guszcza(2008)研究了广义线性混合模型在索赔准备金评估中的应用;Klinker(2011)首先引入线性混合效应模型和广义线性模型,继而研究了广义线性混合模型在Buhlmann-Straub信度模型理论上的应用。虽然国外对GLMMs在理论层面和实践应用中的研究成果颇多,但国内对GLMMs的研究却只是近几年的事情。在保险精算领域,卢志义、刘乐平(2007)介绍了广义线性混合模型在非寿险精算应用中的最新动态;贺宝龙、唐湘晋(2009)在因变量服从泊松分布的假设下,用广义线性混合模型进行信度保费厘定;在贺宝龙、唐湘晋(2009)的基础上,康萌萌(2010)将响应变量的分布拓展到泊松、过离散泊松和负二项分布;姬文鸽(2011)研究了广义线性混合模型的三种参数估计方法和推断预测,并将其运用到未决赔款准备金的评估中。汇总已有的研究发现,国内对GLMMs技术在保险领域的研究基本处于起步阶段。考虑到GLMMs在处理连续型解释变量上的优势,相信经过一段时间的实践探索,财险公司会迫切需要对GLMMs及其在非寿险定价中的应用展开研究。本文的贡献在于详细介绍了GLMMs的理论基础和计算过程,并且使用R统计软件在保险索赔研究方面进行了模型的实证分析。这补充了国内在GLMMs方面的研究,能够使相关学者对GLMMs的理解和运用更加透彻灵活,并向国内同领域的研究者提供了费率厘定的新方法和新视角,为我国保险财险公司车险定价技术创新提供理论支持和实践参考。二、glms和lmms的理论框架由于广义线性混合模型是广义线性模型和线性混合模型的进一步推广,其结合了广义线性模型和线性混合模型二者的优点,同时克服了它们的不足,因此本部分首先介绍GLMs和LMMs的理论框架。(一)glms建模Nelder和Wedderburn(1972)最早地提出了广义线性模型,McCullagh和Nelder(1989)等关于广义线性模型的经典教材给出了其理论的全面阐述。至今,该模型在精算等领域的应用已经较为成熟,逐渐成为对精算数据建模的常用统计工具。广义线性模型是对传统线性模型的拓展,其分析的观测数据不再仅仅局限于正态分布,可以推广到更广泛的指数散布族分布,更适合于诸如二分类数据、频数数据、有偏数据等的分析建模。在使用GLMs建模时引入了联结函数,经联结函数变换后响应变量的均值表示为解释变量的线性组合。此外,GLMs不要求响应变量的方差为常数,方差可以表示为均值的函数形式。GLMs的基本假设如下:假设1:响应变量Y的每个观测值y1,…,yn相互独立,服从指数散布族(EDF)分布,其概率密度函数可以表示为:其中,θ是自然参数,准是尺度参数,a(φ)是已知函数,b(θ)、c(y,φ)是实值函数。由Y的对数似然函数可计算得:μ=E(Y)=b′(θ),Var(Y)=φb″(θ)=φV(μ),其中V(·)是方差函数。假设2:响应变量的均值μ和解释变量X=(x1,x2,…,xp)之间存在显著的相关关系,且这种关系可以利用(2)式所示的解释变量的线性组合来表示:其中,β=(β1,…,βp)′为模型待估参数组成的向量。假设3:随机部分和系统部分之间可以通过一个单调可微函数g(·)联结起来,即:针对观测数据各种不同的分布,联结函数可以选择Identity联结、Inverse联结、log联结、Inversesquared联结和logit联结等多种形式。(二)随机效应变量的分布对于某些存在相关性的数据结构类型(如聚类数据、纵向数据),传统的线性模型和广义线性模型不再合适,为此出现了新的推广,即线性混合模型(LMMs)和广义线性混合模型(GLMMs)。其中心思想在于通过在线性预测项中引入随机效应,来体现同一对象(“目标”组)内数据的相关性和不同对象(“目标”组)内的异质性,这里的随机效应变量的分布是正态分布。假设要分析的数据由N个对象的观测值组成,第i个(1≤i≤N)对象(个体)的观测次数是ni,Yi=(Yi1,Yi2,…,Yini)′是第i个对象的ni×1维的观测向量,线性混合模型的结构可表示为:其中,Xi是固定效应的ni×p维设计矩阵,Zi是随机效应的ni×q维设计矩阵,β是维固定效应参数向量,bi是第i个观测对象的q×1维随机效应参数向量,随机效应反映了各观测对象间的异质性以及同一个对象不同观测值间的相关性,εi表示第i个对象的ni×1维误差向量。LMMs模型假设个体之间相互独立,bi和εi相互独立,且bi~N(0,D),εi~N(0,∑i),D是q×q维协方差矩阵,∑i是ni×ni维协方差矩阵。由LMMs的结构可知,Yi的边际分布是正态分布,其均值是E(Yi)=Xiβ,协方差矩阵是(三)glmms的理论基础1.glms基本原理广义线性混合模型是在广义线性模型的基础上,在线性预测项中引入随机效应(个体固定效应)。假定已经得到了N个对象的观测结果,对于第i个对象的观测次数ni也可以得到(1≤i≤N)。在给定第i个对象的随机效应bi的条件下,Yi1,Yi2,…,Yini是相互独立且服从某一指数散布族分布的随机变量,即:其中ψ(·)和c(·)是已知函数,θij是自然参数,准为尺度参数。类似于GLMs,GLMMs的整个基础理论框架归纳起来,也由三大部分组成:线性部分:响应变量的均值和解释变量的关系可以用线性组合η=Xβ+Zb来表示。其中,X是模型固定效应的设计矩阵,Z是模型随机效应的设计矩阵,β表示模型的固定效应,是待估参数向量,b表示模型的随机效应。两个分布:响应变量y在随机效应b的影响下服从均值为μ,协方差矩阵为R的指数散布族分布,即y|b~(μ,R)。(2)而随机效应b服从均值为0,协方差矩阵为G的多维正态分布,即b~N(0,G)。联结函数:g(μ|b)=Xβ+Zb,其中g(·)是一个单调可微的函数,称为联结函数。联结函数包括很多种,可以参见GLMs中关于联结函数的详细介绍。与GLMs相似,GLMMs有如下结论:其中,V(·)是方差函数,其包含了随机变量均值与方差之间的联系。2.glmms的估计方法GLMMs假定bi(i=1,2,…,N)独立同分布,其密度函数为fbiα,α代表随机效应bi的协方差,是未知参数。在GLMMs中估计模型参数的方式是,首先计算变量的(无条件)分布,再应用极大似然估计方法求解。在计算变量的(无条件)分布时,会涉及复杂的数值积分。设y=y1′,…,yN′′,关于未知参数β,α和准的似然函数为:对于(8)式,其中的积分是关于随机效应bi的q微积分,当响应变量y和随机效应bi都服从正态分布时,(8)式中的这个积分可以计算出来,且β的极大似然估计量和bi的最佳线性无偏估计(BLUP)的闭合形式表达式存在,但其只是一个特例。对于更一般的情况,即当响应变量y或随机效应bi都不服从正态分布时,由于涉及到高微积分,(8)式中的积分很难直接计算出来,需要用模型近似法、数值积分法或者是贝叶斯方法得到基于似然函数的参数估计。常见的极大似然估计方法包括:Laplaceapproximation、PenalizedQuasi-Likelihood和(自适应)Gauss-Hermitequadrature。极大似然估计方法对GLMMs进行分析时,因涉及到随机效应的微积分,计算十分复杂,而贝叶斯推断方法由于计算的灵活性也是目前较为流行的估计方法。下面对这些方法进行简单的介绍。(1)极大似然估计方法Laplaceapproximation方法是估计高微积分的常用方法,Breslow和Lin(1995)利用四阶Laplace逼近来建立每个集群中只有一个随机效应的随机效应模型,Raudenbush等(2000)将这种方法拓展到高阶逼近和每个集群中存在多个相关随机效应的模型中。Laplace方法是利用函数f(x)在全局极大值点x0的泰勒展开来逼近积分即:其中,M是一个充分大的数。当(9)式右边积分的限趋于无穷大时,该积分是一个Gauss积分。Laplaceapproximation的基本形式是:其中,u0是偏微分方程的解。使用R软件时,lme4程序包中的glmer函数将LaplaceApproximation作为GLMMs回归分析的默认方法。此外,调用glmmADMB程序包中的glmm.admb函数、glmmML程序包中的glmmML函数也可以实现用LaplaceApproximation对GLMMs的计算。Penalizedquasi-likelihood(简称PQL)方法由Green(1987)提出,在Quasi-likelihood方法的基础上利用Laplace方法逼近,来得到(8)式的最大值。Breslow和Clayton(1993)对该方法进行了详细描述。对于响应变量yi(i=1,…,N)在q维随机效应b下相互独立,这里b~N[0,G(θ)],G是参数为θ的q×q维正定协方差矩阵,且条件均值记为Ei鄣yb鄣=μib,条件方差记为Varyi鄣b鄣=ai(准)V(μib),其中ai(·)是已知函数,准是尺度参数,V(·)是方差函数。基于前面关于GLMMs的介绍,有g[E(y|b)]=Xβ+Zb,各符号含义同上。quasi-likelihood函数可写为:其中,ql(β,θ)表示对数似然函数。利用Laplace近似,并且对(11)式两边取对数,得到:其中,κ(b)在b軌处取得极小值,即b軌=b軌(β,θ)是的解。对(13)式两边求导,得:其中,R是κ″(b)的余项。进而,通过进一步计算,可以得到:(16)式即为Green’s(1987)中的惩罚拟似然(penalizedquasi-likelihood),从而得到β和b的估计值。PQL方法的优点是灵活、使用广泛,但是似然推断不准确,对于方差较大或均值较小的模型是有偏估计。目前,统计软件R的MASS程序包中的glmmPQL函数可以实现用PQL方法对GLMMs的计算。Gauss-Hermite积分法的求积公式为Q是阶数,zq是第Q阶Hermite多项式的零点,wq是权重,zq和wq的列表见Abramowitz和Stegun(1972,第924页)。假定单个随机变量bi~N(0,σ2),第i个对象对边际似然的贡献记为:令δ=σ-1bi,(18)式变为:其中,准(δi;0,1)是标准正态密度。为计算(19)式,考虑数值积分假设h(z)准(z;0,1)是单峰的,令其中,mode(·)表示众数。如果h(z)准(z;0,1)是高斯密度,则μ赞和σ赞2是其期望和方差。类似地,是高斯密度,则μ和σ2是期望和方差。容易计算对于适当的函数(22)式即为自适应Gauss-Hermite积分法的求积公式,可以用来估计(19)式。进一步拓展,对于q维随机变量bi,由笛卡尔乘积法则,得:从而,调整的取决于β,α和准。最大化(23)式,利用数值迭代技术(如Newton-Raphson)可求得β和α的估计值,同时可由逆Hessian阵求得β和α的近似标准误。该方法对参数的估计相对于Laplaceapproximation方法和PQL方法更为准确,可以通过glmer函数(Rpackage:lme4,lme4a)和glmmML函数(Rpackage:glmmML)加以实现。(2)贝叶斯估计方法GLMMs拟合的贝叶斯估计方法最早由Zeger和Karim(1991)提出的。基本思路是综合关于未知参数的先验信息与样本信息,再根据贝叶斯定理,得出未知参数的后验信息,最后根据后验信息去推断估计未知参数。其采用马尔可夫链蒙特卡罗(简称MCMC)技术,算法更灵活准确,且用于估计的随机效应变量个数可以是任意多个,弥补了极大似然估计方法的不足。由于该方法技术性较强,通常结合使用R软件和WinBUGS软件来进行计算,目前在R软件的MCMCglmm程序包中可以调用MCMCglmm函数完成计算。三、示范分析(一)索赔次数的描述本文以Klugman(1992)中的一组数据为样本进行实证分析,该组数据给出了7年共931个保险索赔的详细数据。该组数据包含4个变量:个体(分为133类,用class表示),时间(分为7类,用year表示),工资(用payroll表示),索赔次数(用count表示),原始数据中各变量的定义及统计特征描述见表1。图1中,索赔次数count的散点图矩阵和折线图清晰地说明了同一对象的观测值之间的相关性和异质性:从散点图矩阵来观察,在同一观测年的不同类别的观测值之间存在着相关性;而折线图展示了相对于不同年所对应的索赔次数,可以看到不同的观测年(N=7)的观测值之间存在着异质性。将count作为响应变量,由于它是计数型变量,根据观测数据的特点,选择建立Poisson-GLMM模型进行分析比较适合。值得说明的是,由于本文在建模中将变量payroll引入模型时做了对数变换,因此将原始数据中payroll取值为零的数据去掉,只选取payroll大于零的子数据集进行分析,图1是经过调整(去掉零值)后数据集中变量之间的关系。(二)系数设定规定对于Poisson-GLMM模型,选取对数联结函数,并将Poisson(μij)作为Offset引入模型,则其可以视为一个新的变量,并且系数设定为1。模型的固定效应部分由截距项和Offset组成,随机效应部分分别考虑了仅有截距项和截距项与随机变量都有的两种情况,建立两个Poisson-GLMM模型如下:模型1:模型2:其中,Yij表示第i年、第j类的响应变量count,i=1,…,7,j=1,…,133,bi0、bi1表示服从正态分布的随机效应,其均值是0,方差是σ02和σ12,β0和β1是固定效应的待估参数,μij是Yij在随机效应影响下的条件均值。(三)模型拟合方法的比较应用R软件,调用lme4程序包中的glmer函数和MASS程序包中的glmmPQL函数,分别分析两个回归模型得到的参数估计结果,见表2、表3。表2给出了R程序中Laplaceapproximation和PQL两种方法对于模型1和模型2的拟合效果,固定效应部分的结果显示了对模型固定效应的估计。Laplaceapproximation方法中,2个模型的截距估计分别β赞0=-3.668584和β赞0=-3.666021、β赞1=-0.009782和β赞1=-0.010409;PQL方法只给出两个模型截距的估计值,它们与Laplaceapproximation方法的估计值很接近。表3中,对于Laplaceapproximation方法,模型1的随机效应bi0的方差估计值为Var(bi0)=0.00041838;模型2的随机效应bi0的方差估计值为Var(bi0)=5.9562×10-4,随机效应bi1的方差估计值为Var(bi1)=9.5273×10-7。glmer函数和glmmPQL函数的一个主要区别是:glmer函数给出了AIC、BIC、loglikelihood值和deviance等统计量的值,使得用glmer函数拟合的各模型便于比较;glmmPQL函数没有给出AIC等统计量的值,因而不能以AIC等统计量为判别标准进行模型之间的比较。调用ANOVA函数进行模型比较和自由度的检验(结果见表4),需要说明的是这里仅对使用Laplaceapproximation方法计算的两个模型进行了比较,未对使用PQL方法计算的模型进行比较,因为ANOVA函数不适用于PQL拟合方法。由表4可以看出,两种回归模型在相差2个自由度的情况下,x2统计量的概率值大于0.05,没有统计显著性,因此可以认为两个模型之间不存在显著差异,模型1即可拟合数据结果。综合上面的研究分析,最终拟合的模型为:四、广义线性混合模型在非参保职业中的应用价值和意义本文在系统回顾了广义线性模型和线性混合模型基本理论的基础上,介绍了广义线性混合模型的理论框架、参数估计方法及如何利用R软件来实现的方法。将广义线性混合模型应用到精算领域进行费率厘定,通过构建保险索赔的广义线性混合模型,得到以下几点结论:1.相对于经典的广义线性模型和线性混合模型对数据相互独立的要求,广义线性混合模型将研究数据的限制拓宽了,可以用于拟合纵向数据、空间聚类数据等更宽泛的数据类型,更适合于保险实务的分析。2.广义线性混合模型在线性预测项中引入随机效应,决定了同一对象的观测量之间的相关性和不同对象间的由未观测到的特征导致的异质性。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论