(应用数学专业论文)上海市机动车辆交通事故驾驶员因素分析.pdf_第1页
(应用数学专业论文)上海市机动车辆交通事故驾驶员因素分析.pdf_第2页
(应用数学专业论文)上海市机动车辆交通事故驾驶员因素分析.pdf_第3页
(应用数学专业论文)上海市机动车辆交通事故驾驶员因素分析.pdf_第4页
(应用数学专业论文)上海市机动车辆交通事故驾驶员因素分析.pdf_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

y 6 5 15 l l 上海市机动车辆交通事故驾驶员因素分析 摘要 基于2 0 0 3 年上海市机动车辆交通事故数据,本文从驾驶员相关信息,即年龄、 性别、驾龄、人员类型、单位所属行业、驾驶员类型等属性变量中寻找对事故严 重程度( 即每人每次损失额) 有显著影响并能有效区分不同风险水平的风险分级 变量,运用两步分级的方法确定各风险分级变量的风险等级( 风险系数) ,供机动 车辆保险定价作参考。 关键词:机动车辆、交通事故、风险水平、风险分级 d a t a a n a l y s i so f a u t o m o b i l et r a f f i ca c c i d e n t i ns h a n g h a i a b s t r a c t b a s e do nt h ea u t o m o b i l et r a f f i ca c c i d e n td a t a , t h i sp a p e rt r i e st of i n ds o m ed r i v e r f a c t o r s ,s u c ha sa g e ,s e x ,d r i v i n gy e a r ,p e r s o nt y p e ,i n d u s t r yt y p e ,d r i v e rt y p e ,w h i c h m a y i n f l u e n c et h es e v e r i t yo f t r a f f i ca c c i d e n ta n d e f f i c i e n t l yd i s t i n g u i s hr i s kl e v e l s a n d t h e s ec h o s e nf a c t o r sa l en a m e da f t e rr i s kc l a s s i f i c a t i o nv a r i a b l e s t h e p r o c e s s o f c h o o s i n gt h e r i s kc l a s s i f i c a t i o nv a r i a b l e sa n dc a l c u l a t i n gt h er i s kc o e f f i c i e n t st h a t p r e s e n t d i f f e r e n tr i s kl e v e l sw i l lb eg i v e n k e y w o r d :a u t o m o b i l e ,t r a f f i ca c c i d e n t ,r i s kl e v e l ,r i s kc l a s s i f i c a t i o n 复旦大学硕士学位论文 l 引言 1 1 研究目的 我国加入w t o 后,外资保险公司逐步进入中国市场,市场竞争将日益激烈。 我国2 0 0 3 年1 月1 日起才开始实行机动车辆保险费率市场化,属于刚刚起步阶段。 外资公司在费率厘定方面已经积累了一定的经验,中资公司要想抵住外资公司带 来的冲击,就需提升其在保险产品开发、费率厘定、营销策略、风险管理等方面 的竞争力, 机动车辆保险作为财产保险的第一大险种( 见表1 ) ,在市场中有着十分重要 的地位和发展前景,其费率厘定是一个不容忽视的重要问题。目前我国机动车辆 保险费率刚开始市场化,寻找一种原理科学,技术上能做到公平、稳定的费率厘 定方法自然成为了一个共同的关注点。 表1 历年机动车辆保险保费收入变化 2 0 0 02 0 0 12 0 0 22 0 0 3 车险 3 7 6 7 34 2 2 1 24 7 2 3 55 4 4 6 2 财产险 6 l o 1 26 8 8 2 47 7 9 5 18 6 9 4 l 百分比6 1 7 5 6 1 3 3 6 0 6 0 6 2 6 4 考虑从“人”驾驶员因素是近期机动车辆保险定价的一大热点,各大保 险公司均推出了定价考虑驾驶员因素的机动车辆保险,相关的科研工作也陆续展 开。 上海市机动车辆交通事故数据由交警在交通事故现场采集所得,其中包含每 起事故的死伤人数、直接损失折款阻及涉及人员的身份证号码、驾驶证档案号、 性别、年龄、驾龄、人员类型、单位所属行业、驾驶员类型、车牌号、初步责任 认定等信息。由于缺乏机动车辆保险投保和理赔数据,本文仅从研究机动车辆交 通事故数据出发,从驾驶员相关信息,即年龄、性别、驾龄、人员类型、单位所 属行业、驾驶员类型等属性变量中寻找对事故严重程度( 每人每次损失额) 有显 著影响并能有效区分不同风险水平的风险分级变量,并确定各风险分级变量的风 复旦大学硕士学位论文 险等级( 风险系数) ,供机动车辆保险定价作参考。 1 2 研究现状 国外和国内许多专家学者对于机动车辆保险定价都作了大量的研究工作,大 部分集中在机动车辆保险费率厘定方法的探讨,包括先验保费和后验保费的确定, 即讨论确定先验保费的纯保费法和损失率法,以及确定后验保费的无赔款优待制 度( n oc l a i md i s c o u n t ,n c d ) 或奖惩系统( b o n u s m a l u ss y s t e m s ,b m 8 ) 。j e a n l e m a i r e ( 1 9 8 5 ,1 9 9 5 ) 曾对3 0 个国家和地区的机动车辆保险费率条款进行了比较 研究,并对各国的b m s 作了详尽分析( 见文献 1 ) 。袁卫、孟生旺等在l e m a i r e 工作的基础上讨论了既考虑索赔次数、又考虑索赔额的最优b m s ,并且在二元风 险模型的基础上,提出了三元风险模型及其最优b m s ( 见文献 2 ) 。 表2 某财产保险公司机动车辆综合险费率浮动表( 上海分公司) 系数 年龄( 岁)驾龄( 年) 男性女性 31 o o0 9 8 年龄2 5 3o 9 8o 9 6 3o 9 6o 9 4 2 5 i 0 位) : 3 对车牌号出现两次以上及驾驶证档案号缺省的,通过车牌号、姓名,补驾 驶证档案号; 4 对身份证号出现两次以上及驾驶证档案号缺省的,通过身份证号、姓名, 补驾驶证档案号: 5 对驾驶证档案号出现两次以上及身份证号缺省的,通过驾驶证档案号、姓 名,补身份证号; 6 根据身份证号修正性别、年龄; 7 对于少数数据缺省的字段通过随机模拟补全; 8 根据初步责任认定,将直接损失折款分摊到各涉及人员,视为由各涉及人 员直接导致的事故损失额( 仅限于2 0 0 3 年数据,2 0 0 3 年以前未登记初步 责任认定) 。 经过上述步骤的处理,本文选出了2 0 0 3 年驾驶员年龄在1 6 至6 5 周岁可供统 计分析的机动车辆交通事故、驾驶员相关数据,共计8 2 ,2 5 0 条记录,以下的研 究都将以这部分数据为依据。这里所指的机动车辆仅指各类客车、卡车、半挂牵 引车和专项作业车,不包括摩托车。选取的字段包括:每人每次损失额、死伤人 数、驾驶证档案号、性别、年龄、鸳龄、人员类型、单位所属行业、驾驶员类型、 车牌号。 2 3 初步统计结果 一、总体情况 将驾驶证档案号作为驾驶员的唯一标识,车牌号作为机动车辆的唯一标识, 可以得到在8 2 ,2 5 0 条记录中,机动车辆交通事故次数为4 4 ,7 2 8 起,共有7 8 , 5 3 2 人、7 4 ,6 6 8 辆车参与其中,直接导致的经济损失达3 2 亿元人民币,人均 复旦大学硕士学位论文 4 0 8 4 1 0 元,平均每人每次损失额为3 8 9 9 4 9 元。 根据驾驶证档案号、车牌号分别确定不同驾驶员、机动车辆发生事故的次数 结果如表5 。 表5不同驾驶员、机动车辆发生事故次数 从表5 可以发现,一辆车由多个驾驶员使用的现象较为严重,一年中同一辆 车发生多次交通事故的机会大于同一位驾驶员,从风险角度看,不指定驾驶员驾 驶的车辆其风险大于指定驾驶员驾驶的车辆,因此保险公司应该选择“是否由指 定的驾驶员驾驶”这一项作为一个风险分级变量。保险公司如果拥有含有该变量 的足够数据,就可以通过比较“指定驾驶员”与“不指定驾驶员”两组数据确定 该风险分级变量的风险等级。 二、单因素下统计结果 根据数据库中各字段样本数目,本文主要分析以下6 个驾驶员属性变量,并 对其分组如下: 复旦大学硕士学位论文 由于一年中,驾驶员的部分信息,如年龄、性别、驾龄保持不变,我们可以 将8 2 ,2 5 0 条记录按相同的驾驶证档案号合并为7 8 ,5 3 2 条按驾驶员区分的记录。 其中,将同一驾驶员在一年中发生事故的损失额迭加,而后分别就年龄、性别、 驾龄等字段作统计分析,结果如下。 表7 分年龄段各驾驶员事故发生次数与损失额统计表 年龄段人数 事故人次数平均次数总损失额平均损失额 1 6 ,2 0 3 1 0 8 31 1 3 81 0 5 15 5 9 1 8 9 56 1 6 3 。3 4 2 1 ,2 5 8 0 2 6 8 4 0 81 0 4 83 8 7 4 5 5 8 44 8 2 7 5 1 2 6 ,3 0 1 1 8 3 51 2 3 4 81 0 4 35 0 5 5 8 1 0 14 2 7 1 9 l 3 1 ,3 5 1 4 7 5 61 5 4 3 71 0 4 66 1 6 7 4 8 1 84 1 7 9 ,6 4 3 6 ,4 0 1 4 5 1 51 5 2 7 71 0 5 25 9 1 5 7 3 9 64 0 7 5 6 0 4 1 ,4 5 j 1 3 5 6 51 4 2 5 71 0 5 15 1 7 1 6 9 1 13 8 1 2 5 3 4 6 ,5 0 3 1 0 3 7 81 0 8 5 11 0 4 63 7 2 6 6 2 8 33 5 9 0 8 9 5 1 ,5 5 3 4 0 13 5 3 61 - 0 4 01 2 4 1 3 0 4 53 6 4 9 8 2 5 6 ,6 0 8 3 9 8 6 0 1 0 2 53 0 8 4 5 4 5 3 6 7 6 4 5 6 1 ,6 5 3 1 3 41 3 81 0 3 05 2 4 2 5 23 9 1 2 3 3 复旦大学硕士学位论文 从表7 可以看出,不同年龄段的驾驶员一年中平均发生事故次数略有差异, 3 6 至4 5 岁的驾驶员相对较高,这可能是由于这一年龄段的驾驶员使用机动车辆 的机会更多的缘故。 图1 分年龄的平均每人每次损失额 不同年龄段的驾驶员一年中发生事故平均每人每次损失额具有较为明显的特 征( 见图1 ) ,平均每人每次损失额随着年龄的增加逐步减少,至 4 6 ,5 0 达到最 低点,而后略微上升趋势。 图2 分驾龄的平均每人每次损失额 不同驾龄的驾驶员平均每人每次损失额大体上随驾龄增长呈逐步下降的趋 势,但图中驾龄为5 年这一点明显偏低。若驾驶员在事故中无责,那么在信息登 记对,对他们的信息不会进行严格核对。由于驾驶员更喜欢填报“整年”( 如5 年、 茎里查兰堡圭兰垡堡苎 1 0 年等) ,而每人每次损失额的分布以损失额较低的人次数占多数,这就使得平 均损失额偏低。事实上,对数据作分析,我们发现驾龄为5 的倍数( 即5 、1 0 、 1 5 、2 0 等) 的平均损失额都是明显的“局部极小值”。 其他属性变量的统计结果参见附录表卜表4 。 复旦大学硕士学位论文 3 风险分级方法 3 1 风险分级的目的与原则 从保险机理来讲,保险是风险及其损失在总体投保人之间的分摊,是一种将少 数人的损失由大多数人以相对较小的“公平份额”合理负担的机制。它的一个基 本运作原理是,这种“公平份额”应以潜在的损失为基础,并且支付相同保费的 投保人应该具有相类似的潜在损失,也就是说,他们应该是一个相对同质( 即个 体风险具有相同的损失分布形式) 的风险集合。当然,在大多数情况下,风险集 合往往是非同质的,个体风险之间存在较大差异。因此,一个风险集合可以根据 个体风险之间的相似程度被分解为若干个风险子集合,每个风险子集合相对同质。 风险分级的目的就是为了实现这种相对同质性,使得被分入同组别的投保人具 有近似相同的潜在损失。 为实现这一分级目标,风险分级过程必须遵循以下原则: 1 公平性。对投保人进行风险分级的一个重要原因就是为了对不同的投保人 收取与其风险水平相适应的保费。对具有较高风险水平的投保人收取较高的保费; 对于低风险水平的收取较低的保费。在这种意义上,公平性也使得产品更具竞争 性。 2 竞争性。激烈的市场竞争促使保险公司重视风险分级,忽略任何一个重要 的分级变量都将意味着竞争力的削弱和市场份额的减少。 3 管理上的可行性。在风险分级过程中成本是必须考虑的一个重要因素。某 些分级结果带来的管理成本的增加可能超过他所能创造的收益,因此保险公司必 须在保费结构的公平性和管理成本的可行性之间作出选择。 4 统计上的可靠性。保费的厘定和调整都基于一个统计基础大数法则, 如果被划分的级数过多,导致每一级别的数据量过小,大数法则将不能适用。这 就要求我们必须在统计结果的可靠性与保费厘定的公平性之间进行权衡。 5 社会的认可性。一个潜在的分级变量可否用于保险实践应受到社会公众的 认可。不受认可的分级变量在激烈的市场竞争中肯定没有立足之地。 复旦大学硕士学位论文 3 2 风险分级过程 基于上述风险分级的目的与原则,风险分级过程可归结如下: 1 基于已有的数据库,选取数据量大、统计可靠性强的变量。数据量大是指 根据该变量分组后每一组别的样本数保持在一定数目之上。这里在保证统 计可靠性的基础上,变量分组可以分得较细,即组别较多,这样有利于后 续风险分级。 2 从第1 步选中的变量中选取对因变量( 风险水平) 有显著影响的变量,并 称之为风险分级变量。 3 探讨风险分级变量的相关性问题,对其作相关分析。 4 风险分级( 细分) 确定每一风险组别的风险系数: 4 - 1 与其他变量相关性不强的变量,可直接作单因素的风险分级; 4 2 相关性较强的变量作多变量的组合分级,考虑到多变量带来的复杂 性,应适当选取变量个数,建议不超过3 个。 5 对具有近似风险程度的组别进行合并,得到新的分组。 6 风险分级( 粗分) 。这时,每一风险分级变量的组别相对第1 步较少,因 而称之为风险分级的“粗分”。计算新分组下各风险分级变量的最终风险 系数。叫丑分”把原来“细分”下具有近似风险的组别进行了合并,分组 较少,简化了投保计算保费的过程,减少保费计价系统对系统资源的占用 率,有利于保险公司降低管理成本。 3 3 方法介绍 3 2 1 选取风险分级变量 所谓风险分级变量,是指风险集合的一些基本风险特征,根据这些风险特征, 能将风险集合区分成若干个具有不同期望损失的风险子集( 见文献 3 ) 。对于机 动车辆保险,可能影响投保人风险水平大小的风险分级变量主要有: 1 行驶区域:人口密度,交通密度,事故频率,交通管理水平,社会治安, 地形,气候等: 复旦大学硕士学位论文 2 驾驶员因素:年龄,驾龄,性别,婚姻状况,人员类型,有无饮酒嗜好, 违章记录,是否指定驾驶员等; 3 车辆因素:车辆用途,车辆类型,产地,车龄,机动车辆的重量,年行驶 里程数,车辆安全装置,发动机马力,汽缸容量,停车场所等; 4 销售渠道。 需要说明的是,上述所列的风险分级变量仅仅是一种可能,真正需要介入风 险分级系统的变量可能仅仅是其中的少数几个,这取决于已有的风险集合是否拥 有足够的数据以及对实际数据的统计分析结果。对于已有的风险集合,有意义的 风险分级只能基于已有的一些变量。若要增加其它一些变量,则必须推迟分析过 程,直到收集到有关该变量的足够数据。另一方面,从统计上说,所选取的变量 应该是对因变量( 风险水平,本文指每人每次损失额,如不另加说明下同) 有显 著影响的,确实能反映不同投保人的风险水平,因而在已有的变量中可能最后被 选中的风险分级变量只有少数几个。 综上所述,在已有变量的基础上,风险分级变量的选择应该考虑对因变量( 每 人每次损失额) 有显著影响的,以及能有效区分不同风险水平的分级变量。 3 2 2 风险分级 常见的风险分级方法( 见文献 3 ) 有多元回归法,乘法模型,b r i g s t o c k 方 法,本文还引入核估计方法。下文将一一介绍。 一、多元回归法 最常见的多元回归模型是多元线性回归模型。在多元线性回归模型中,因变 量( 每人每次损失额) 被表示为若干个自变量( 风险分级变量) 的线性组合。对 于保单组合中的第i 份保单 y f = 卢0 + 1 x l f + 卢2 x2 j + + s f( 1 ) 其中,y ,第i 份保单的因变量取值: x 。第i 份保单的第,个自变量的取值: 卢,一常数,它表示第个自变量对模型的贡献; 复旦大学硕士学位论文 随机误差项。 模型参数可以利用最小二乘法在使下式达到最小的前提下求得: q = 占;= 【y ,一( 卢o + 卢。工。,+ 卢2 + ) 】2 多元线性回归模型的缺陷在于其要求自变量之间两两独立,而通常情况下我 们知道很多变量之间并不独立,适用范围受到限制。 二、b r i g s t o c k 方法 b r i g s t o c k 方法( 见文献 3 ) 是一种应用单步骤分析法对费率结构进行调整 的方法。应用该方法的一个基本前提是,必须存在一个能较好反映经验赔付成本 的费率结构。在多数情况下,这一前提是无法满足的,这是该方法的一个缺陷。 b r i g s t o c k 方法在一张表中反映每个变量取值所对应的商业毛保费和实际赔付成 本。对每个组别的保费盈余或保费不足与总体平均数进行对比,从而判断哪些组 别的经营情况好于总体平均数,哪些组别的经营情况不如总体平均数。据此可以 对某些变量的风险保费进行调整,使其保费盈余接近于总体平均数( 或其它理想 值) 。 b r i g s t o c k 方法的另一个缺陷是,它的分析基于已经存在的变量,因此不能 发现新的风险分级变量。而在本文中,由于不存在一个能较好反映经验赔付成本 的费率结构,不满足应用b r i g s t o c k 方法的前提,此方法在此不予应用。 三、乘法模型 考虑两个风险分级变量的乘法模型的表达式为 z u = 门“2o x x i x y jf = i ,2 , - - m :,= 1 ,2 ,n ( 2 ) 其中z f 厂一子集f ,的损失额; 门f 厂一子集f ,的人次数; z 。, “2 靛坪熄臆獭炳 j x ,y ,风险分级变量在不同级别上的风险系数; 复且大学硕士学位论文 利用每一变量所对应的“风险水平”的边际总和应等于相应实际损失额的边 际总和,即分别对公式( 2 ) 中i 、求和,可得 z f + z o x ( n ux y ,) j z 旷p 旷z ox y ,( n i jx x i ) , lf 即y , ( 4 ) 在公式( 3 ) 中假设y ,2 1 ( j = l ,2 ,一) ,求得x 。;再将x 。代入公式( 4 ) 求得 y ,:这样逐步迭代计算,即可得到收敛结果。 在公式( 2 ) 中,我们只考虑了两个风险分级变量,实际上乘法模型完全可以推 广到3 个变量或以上的情况。但考虑到在实际应用中,如果考虑多变量,在多维 分组下每一组别的样本数会很少,经常会不满足统计可靠性原则;另一方面,考 虑变量过多也会导致保险公司不易管理及成本提高。 四、核估计方法 设k ,r 2 ,矗是随机变量y 的简单随机子样,( y ) 是r 的概率密度函数,女( ) 为r 上一个给定的概率密度函数,九 0 是一个与n 有关的常数, 记 ( ,m ( y ;耳,y 2 ,川2 面1 萎nt ( 半) , ( 5 ) 则称 为总体未知密度函数,的一个核估计,称j i ( ) 为核函数,称丸为窗宽。 由公式( 5 ) 可知,核估计方法得到的概率密度函数 ( y ) 不仅和样本有关,还 与核函数七( ) 的选择以及窗宽h 。的选择有关。本文中分人员类型对数值不为0 的 y , n z i | p , = z 南 复旦大学硕士学位论文 每人每次损失额取对数后作直方图,发现基本上呈正态分布。因此选取标准正态 1 密度函数作为核函数,选取窗宽h 。= c q 一5 ,其中c = o 7 8 5 2 是相应于标准正态 分布的一个常数,q 是样本的四分位数间距,n 是样本的观察数。 核估计方法的好处在于它给出了风险分级变量各分组下风险水平的概率分 布。对比乘法模型与核估计方法,可以看出乘法模型考虑边际总和相等,即只考 虑了期望值,没有考虑样本的波动性方差,而核估计方法由于给出了整个概 率分布,因而对风险水平的度量更加全面;对于多变量交叉分组的情况,乘法模 型则更直接,在实际应用中较为方便。因此本文的第4 部分根据这两个方法的特 点,分别将核估计方法运用于单因素模型的情况,乘法模型运用于双因素的情况。 复旦大学硕士学位论文 4实例分析 4 1 选取风险分级变量 如本文第3 部分所述,风险分级变量的选择在很大程度上受到一些客观条件 的限制。基于统计可靠性原则,并针对数据库的特征,我们选取样本个数较多的 属性变量。本文首先选取以下6 个数据样本数较多的驾驶员属性变量:年龄,性 别,驾龄,人员类型,单位所属行业,驾驶员类型。 当然,在已有变量的基础上,风险分级变量的选择还应考虑其对因变量( 每 人每次损失额) 的影响程度。一般可用多元线性回归模型,但是多元线性回归模 型主要处理因变量和自变量为定量变量的情况。本文中,由于对年龄和驾龄这两 个数值变量作分组处理,上述6 个变量均为定性变量。下面引入可以处理定性变 量的广义线性模型二元l o g i s t i c 线性回归模型以及结合分析。 一、二元l o g i s t i c 线性回归模型 对于二元l o g i s t i c 线性回归模型,因变量y 只取两个可能值( 1 或o ) 。这里, 将每人每次损失额大于样本均值的取为1 ,否则为0 。一般的二元l o g i s t i c 线性 回归模型是 工e l = 0 + p lx l + 2 工2 + + 卢。工。 i 一口 其中,p 即为y 取1 的概率,x 1 ,z :,x 。为自变量。 由于这里只考虑风险分级变量对因变量( 每人每次损失额) 是否有显著影响, 因此此处只作单因素二元l o g i s t i c 线性回归模型,即 r , 工峰l = 卢o + 卢l x l l 一, 利用s p s s 统计软件,依靠w a l d 统计量采用向前逐步回归对每人每次损失额 和各风险分级变量作单因素二元l o g i s t i c 线性回归,得到如下结果。 复旦太学硕士学位论文 表8 单因素二元l o g i s t i c 线性回归结果 年龄驾龄人员类型单位所属行业性别驾驶员类型 系数 一0 0 4 8 0 0 2 l0 ,0 3 00 0 1 201 2 9 误差0 0 0 40 0 0 3o 0 0 40 ,0 0 40 0 3 2 一 w a l d1 3 1 5 46 7 4 56 5 。8 88 ,4 21 5 8 4 显著性0 0 0 0 0 o o o0 0 0 000 0 40 0 0 0 一 “一”表示无法拟台l o g i s t i c 模型, w a l d 统计量是用来检测回归系数的显著程度的,w a l d 统计量越大表明该自变 量作用越显著。比较各w a l d 统计量大小,发现年龄、驾龄、人员类型这3 个自变 量的w a l d 统计量较大,表明对每人每次损失额的影响较为显著,其他2 个较小故 将之剔除。 二、结合分析 s a s 统计软件下的c o n j o i n ta n a l y s i s ( 结台分析) 为我们合理选取对园变量 有显著影响的风险分级变量提供了很好的技术平台。结合分析是进行市场分析常 用的统计分析方法。结合分析是由有序尺度因变量的主效应方差分析组成的,可 以帮助我们找出哪些属性是主要因素,哪些是次要因素。 这里我们选取每人每次损失额作为因变量,将上述6 个驾驶员属性变量作为 自变量。利用s a s 统计软件下的结合分析得到关于属性耜对重要性,如图2 所示。 图3 属性相对重要性 _ 蔺性变量权重 员娄型n 年龄她喊 单位所属行业如默 普龄1 1 m 性别 悌 鸟驶最类型n 2 属牲相对熏要性 复旦大学硕士学位论文 由此得出,人员类型、年龄、单位所属行业、驾龄是重要的属性。 对比上述两种方法,单因素l o g i s t i c 回归模型需对每一变量均进行回归,最 后比较回归结果,从而找出重要的变量,过程略显复杂;结合分析中属性相对重 要性用权重表示,结果较为直观,过程相对简单。两种方法得出了两种不同的风 险分级变量组:单因素l o g i s t i c 回归模型为人员类型、年龄和驾龄3 个变量;结 合分析为人员类型、年龄、单位所属行业和驾龄4 个变量。由下文的相关分析, 我们发现事实上由于人员类型和单位所属行业存在较大的相关性,在结合分析中 单位所属行业才会被认为是相对重要的属性变量。因而从总体上来看,单因素 l o g i s t i c 回归模型较之结合分析更为合理。 这里,我们选择人员类型、年龄、单位所属行业和驾龄作为能有效区分不同 风险水平( 每人每次损失额大小) 的风险分级变量。 4 2 风险分级变量间的相关分析 对于选定的风险分级变量,由于部分变量问存在相关性,某一风险分级变量 对因变量的显著性影响部分原因可熊是由于其他风险分级变量造成的,因此不是 所有单个风险分级变量的风险分级都能体现各等级实际的风险水平。对于相关性 较强的几个风险分级变量,应考虑多变量的组合分级。下面我们就介绍两种判别 定性变量相关性的方法。 一、联立表的独立性检验 参考文献 9 ,对两个风险分级变量x 和y 按其取值范围分别分成p 和q 个互 不相交的区间置,恐,肖,和五。匕,用”# 表示样本落在各交叉分组的个数。 记 :壹:兰” 显然,。:圭妻。, j ;l j t l 复旦大学硕士学位论文 表9 = 元联立表 0 一。 l2 q 2 l 1n i l n 1 2 h 1 口”1 2 n 2 1n 2 2 n 2 9 月2 z : !t p 月,t ,2 月w月p p n dn 0 2 n q l 假设h 。:两个风险分级变量工和r 是相互独立的。统计量 当h 。成立时,渐近于自由度为( p 一1 ) ( q 1 ) 的z 2 分布。它是我们判断h 。所需要 的检验统计量。 对上一节得到的风险分级变量两两运用二元联立表作独立性检验,得如下结 果 2 2自由度z 2 ( 口= 0 0 1 ) ( 年龄。驾龄)1 6 6 6 69 * 9 = 8 l n 3 5 ( 年龄,人员类型) 2 7 4 99 * 7 = 6 39 2 ( 年龄,单位所属行业)1 3 3 39 * 7 = 6 39 2 ( 驾龄,人员类型)9 8 39 * 7 = 6 3 9 2 ( 驾龄,单位所属行业) 1 0 8 59 * 7 = 6 39 2 ( 人员类型,单位所属行业)8 0 3 7 4 7 * 7 = 4 97 4 9 由上表可知,这4 个风险分级变量间相互独立的假设均不成立。 等 一 占厶皿妻 州 复旦大学硕士学位论文 但需要指出的是,由两随机变量独立可断定其不相关,而不独立并不意味着 相关,故运用联立表的独立性检验方法有时并不能得到变量间的相关性。 二、f 系数测定法 根据定性变量的变量值的数学特征,一个定性变量与另一定性变量之间的相 关程度的测量,可以利用变量值的次数来构造测定指标( 见文献 1 0 ) 。 ,:鹾j=lj = l 壹j 璺j m 。一堕 二一j = 1 月 一节得到的风险分级变量两两运用f 系数测定法,得到如下结果 表1 0 各风险分级变量间的相关系数 r 系数测定法年龄驾龄人员类型单位所属行业 年龄1 0 0 00 0 2 40 0 0 40 0 0 2 驾龄 1 0 0 00 0 0 20 0 0 4 人员类型 1 0 0 00 2 1 0 单位所属行业 1 0 0 0 我们发现人员类型与单位所属行业相关系数约为0 2 1 ,年龄与驾龄的相关系 数约为0 ,0 2 4 ,其余变量间相关性不强,因此图3 结果可以认为这4 个属性变量 中的人员类型、年龄和驾龄这3 个变量相对重要,单位所属行业的属性相对重要 性较大是由于它与人员类型的相关性较强的原因。 4 3 风险分级( 细分) 这一步骤的目的在于得到风险分级变量分组较细时各组别的风险系数,如果 有两个或以上组别具有近似相同的风险系数,就可以将这些组别合并,从而得到 新的分组。 综合l o g i s t i c 回归、结合分析和相关分析的结果发现,人员类型、年龄和驾 龄这3 个风险分级变量相对重要,其中年龄和驾龄具有一定的相关性,人员类型 墨呈查兰堡主兰壁笙苎 与其他两变量的相关性不强。因而下文对人员类型作单因素( 核估计方法) 分析, 对年龄和驾龄作双因素( 乘法模型) 分析。 4 3 1 单因素模型实例 例、人员类型 对大于0 的每人每次损失额( 记为x ) 取对数,分人员类型对每人每次损失 额对数( 记为y ) 进行核密度估计,得到 表l l 窗宽和渐近积分均方误差( a m i s e ) 人员类型运输工人其他工人专业技术负责人办事人员个体流动人口 不在业 观察数1 3 1 4 32 0 3 9 04 7 8 5 2 8 31 5 7 91 8 6 7 3 8 9 05 5 9 窗宽0 1 4 6 90 1 3 4 80 2 8 8 4 0 1 8 1 0 0 2 0 9 4 0 2 6 1 80 1 9 2 5 0 3 4 1 3 a m i s e 0 0 0 0 20 o o o l0 0 0 2 6 0 0 0 0 4 0 0 0 1 10 0 0 0 7 0 0 0 0 50 0 0 1 8 文献l l 中已证明如下定理: 定理:记上= ,z ,= e 7 i ( f = i ,2 ,一) ,在利用上述方法得到,( y ) 的估计 ( y ) 以后,利用厶( y ) 去进一步估计x 的均值、标准差,记 正2 垂( _ ,匕,匕) = 卜7 厶( _ y ) 矽, r 子2 = 占2 ( e ,匕,_ ) = 卜“f 。( y ) d y 一止2 , 月 若有界,则丘是引x 】的渐近无偏估计,占2 是陆( z ) 的渐近无偏估计。# 记每人每次损失额为l o s s ,则x = ( l o s s i l o s s o ) ,z :e r ,则有 e l o s s 2 p ( l o s s = o ) x e l o s s i l o s s = 0 + 1 ( l o s s o ) e l o s s l l o s s o 】 = p ( l o s s 0 ) 五 表1 2 各人员类型的每人每次损失额 ! 墨三型 墨塑三墨堡三妻些垫查鱼重塑皇里尘堡 堕塾望至垄些 h l o s $ o j0 5 6 6 0 5 6 50 5 7 5 0 5 6 50 5 7 90 6 4 7 0 6 6 80 6 9 5 e l o s s 3 6 9 9 2 53 9 0 9 8 7 3 6 7 7 5 2 3 8 5 6 0 7 3 8 9 8 2 6 4 6 5 7 2 3 5 0 6 2 8 8 4 0 7 2 1 6 相对风险+o 9 51 0 00 9 4 0 9 91 0 01 1 9 1 2 91 0 4 型堕! 塑:! ! ! 坠! ! 塑! :! ! ! ! ! ! :丝! 坠! ! ! 婴塑塑! :坠型! :! ! + 计算相对风险,取拟台效果最好的“其他工人”组为l ,将其他组别的e l o s s 】与“其他工人,的相除即德。 复旦大学硕士学位论文 由样本均值与e l o s a 的比较可说明,核估计方法很好的进行了拟合,相对误 差最大的为5 7 。 比较相对风险,人员类型为流动人口( 1 2 9 ) 的风险最高,其次为个体( 1 1 9 ) , 其他工人、负责人、办事人员、不在业这4 类较为近似( 约1 0 0 ) ,最低的为运输 工人和专业技术人员( 约0 9 4 ) 。 4 3 2 双因素模型实例 例二、年龄与驾龄 表1 3 年龄与驾龄风险系数矩阵 从纵向观察表1 3 ,按年龄各组的风险系数大小可将年龄重新组合分为3 组: 1 6 至2 5 岁,2 6 至4 5 岁,4 6 岁以上。 如同年龄的合并方法,横向考察表1 3 将驾龄按其各组的风险系数大小合并, 似乎应为6 组:0 年,1 年,2 年,3 4 年,5 年,6 年以上。然而风险分级原则的 第5 点社会的认可性提醒我们,如果分为6 组,驾龄这一变量在5 年驾龄这 一组别的风险水平略有波动,特别是有6 年级以上驾龄的驾驶员其风险水平反而 高于有5 年驾龄的,客户对此将不能理解,这样的费率浮动也势必不能为公众所 复旦大学硕士学位论文 接受,还还极有可能引致投保人虚报驾龄。另外在第2 部分曾提到有5 年驾龄驾 驶员的低风险水平可能由信息登记时带来的系统误差所致,我们将其与邻近组别 合并,将驾龄分为以下3 组:0 1 年,2 8 年,8 年以上。 4 4 风险分级( 粗分) 在风险分级( 细分) 时,分组较多,如果直接采用其结果,会导致较高的管 理费用和成本。上文已经提到,可按风险分级变量各组的风险系数大小进行合并 重组,得到新的分组。对新的分组再次利用乘法模型,即得到最终的风险系数。 例一( 续) 、人员类型( 核估计方法) 将人员类型分为4 组:1 运输工人和专业技术人员;2 其他工人、负责人、 办事人员和不在业;3 个体;4 流动人口。 表1 4 窗宽和渐近积分均方误差( a m i s e ) 表1 5 各人员类型的每人每次损失额 从表1 5 可以看出,新分组下人员类型这风险分级变量的风险等级差异较为 明显。 复旦大学硕士学位论文 例二( 续) 、年龄与驾龄( 乘法模型) 将年龄分为3 组:1 6 至2 5 岁,2 6 至4 5 岁,4 6 岁以上;驾龄分为3 组:0 - 1 年,2 8 年,8 年以上。 表1 6 风险系数 驾龄 年龄 0 - 12 - 8) 8 1 6 ,2 5 l 2 3 1 1 81 _ 1 5 2 6 ,4 5 1 0 41 0 00 9 8 4 6 ,6 5 0 9 30 8 90 8 8 可以发现在低年龄段不同驾龄之间有所差异,而高年龄段对于驾龄的差异非 常之小,这一点与表2 是类似的,在高年龄段对于驾龄的区分可以不用太细。另 外,风险系数随年龄、驾龄都呈逐步减少的趋势,在实际中更容易令客户理解和 接受,在这个意义上这里的风险分级结果优于同初步统计结果中图l 、图2 的情 况。 复旦大学硕士学位论文 5 进一步探讨 至此,本文对风险分级的方法介绍和实例分析告一段落,但仍有许多问题值 得进一步总结和探讨。 一、总结 本文在风险分级过程中介绍了一些方法,并通过实例分析对方法作比较,发 现在风险分级过程中,比较实用的方法如下: 1 基于已有的数据库,选取数据量大、统计可靠性强的变量。 2 从第l 步选中的变量中选取对因变量( 风险水平) 有显著影响的变量,并 称之为风险分级变量单因素l o g i s t i c 回归模型。 3 对第2 步选中的变量作相关分析r 系数测定法。 4 风险分级( 细分) : 4 1 与其他变量相关性不强的变量,可直接作单因素的风险分级核 估计方法; 4 - 2 相关性较强的变量作多变量的组合分级乘法模型。 5 对近似风险程度的等级进行合并,得到新的分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论