硕士研究生统计分析课程论文-关于保险理赔业务数据综合统计分析.docx_第1页
硕士研究生统计分析课程论文-关于保险理赔业务数据综合统计分析.docx_第2页
硕士研究生统计分析课程论文-关于保险理赔业务数据综合统计分析.docx_第3页
硕士研究生统计分析课程论文-关于保险理赔业务数据综合统计分析.docx_第4页
硕士研究生统计分析课程论文-关于保险理赔业务数据综合统计分析.docx_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士研究生统计分析方法课程论文关于保险理赔业务数据综合统计分析 2015 年 4月 20日关于保险理赔业务数据综合统计分析【摘要】本文所分析的数据来源于spass系统自带数据,数据主要是关于保险理赔业务的,其中包括了两大类信息即:投保人的自然状况,投保人的保险信息。本文主要运用了描述分析、交叉表分析、单样本T检验、独立样本T检验、单因素方差分析以及相关分析与回归分析,目的在于分析目前参与保险理赔行业中的主要群体,是否与其性别、婚姻状况、退休状况、家庭收入等因素显著有关,索赔的欺骗性是否与受教育程度等因素有关等等。通过了相应了统计分析方法验证了一些假设,例如:不同的受教育程度与投保额大小没有显著性差异,而不同理赔类型对于投保额的要求是不同的等等。【关键字】保险理赔;显著相关;显著性差异;描述分析;T检验;方差分析目录(一).研究背景3(二).数据简介3(三)数据描述性分析43.1频数分析43.1.1投保人自然状况43.1.2投保人保险信息73.2描述分析83.3交叉表分析83.3.1受教育程度与欺骗性93.3.2结论10(四)数据均值比较与检验124.1分组平均数比较124.2单样本的T检验134.3独立样本T检验134.3.1婚姻状况与投保额144.3.2退休状况与投保额14(五)方差分析155.1单因素方差分析155.1.1受教育程度与投保额155.1.2理赔类型与投保额16(六)相关与回归分析186.1相关分析186.2回归分析196.2.1散点图分析196.2.2回归系数估计20(七)结论21致谢22(一).研究背景随着人们生活水平的不断提高,人们对于保险的认识也越来越明晰化,客观化。越来越多的人通过保险业务来进行风险转移,保险是风险管理的一种方法,风险转移的一种机制,通过保险可以将众多单位和个人结合起来,将个体对应风险转化为共同对应风险,从而提高了对风险造成损失的承受能力。本文通过对收集的有关保险业务的数据进行分析,旨在得出相关结论。例如受教育程度的高低与购买保险相关性分析,家庭收入是否影响购买保险的金额等等。通过查阅有关资料,保险是指以集中起来的保险费建立保险基金,用于补偿被保险人因自然灾害或者意外事故所造成的损失,或对个人因死亡,伤残,疾病或者达到合同约定的年龄期限时,承担给付保险金责任的商业行为。(二).数据简介本文分析中所采用的数据来自spass系统自带数据,其中变量个数有16个,分为两大类:投保人自然状况:性别、出生日期、婚姻状况、家庭人口数、受教育程度、家庭收入、参加工作日期、是否退休以及所居住城市的规模,投保人保险信息:理赔代码、理赔类型、保险单生效期、事故发生日期、投保额、保险赔付额以及索赔是否具有欺骗性。该分析数据中,度量性变量有8个,名义性变量有6个。序号性变量有2个。其中,名义性变量有: 性别(“0”代表“男”,1代表女)婚姻状况(0代表未婚,1代表已婚)是否退休(0代表否,1代表是)理赔类型(“1”代表“风或冰雹灾害”,“2”代表“水灾”,“3”代表“火灾”,“4”代表“污染”,“5”代表“盗窃破坏”)欺骗性(“0”代表“否”,“1”代表“是”)序号性变量有:受教育程度(“1”代表“高中以下”,“2”代表“高中”,“3”代表“专科”,“4”代表“本科”,“5”代表“本科以上”)城镇大小(“1”代表“大于250000”,“2”代表“50000到249999”,“3”代表“10000到49999”,“4”代表“2500到9999”,“5”代表“小于2500”。单位:人)。(三)数据描述性分析3.1频数分析3.1.1投保人自然状况1.性别表3.1.1投保人性别频数分布频数百分比有效百分比男217549.349.3女224050.750.7合计4415100100图3.1.1 性别频数分布饼图2.婚姻状况表3.1.2投保人婚姻状况频数分布频数百分比有效百分比未婚205446.546.5已婚236153.553.5合计44151001003受教育程度表3.1.3投保人受教育程度频数分布频数百分比有效百分比高中以下76017.2 17.2 高中142232.2 32.2 专科93821.2 21.2 本科99022.4 22.4 本科以上3056.9 6.9 合计4415100100图3.1.3投保人受教育程度频数分布条形图4.家庭人口数表3.1.4投保人家庭人口频数分布家庭人口数频数百分比有效百分比1159236.1 36.1 2130529.6 29.6 355012.5 12.5 452511.9 11.9 52886.5 6.5 61112.5 2.5 7330.7 0.7 890.2 0.2 1020.0 0.0 合计4415100100图3.1.4投保人家庭人口频数分布图5.结论以上是对数据中投保人自然状况的频数分析,其中从图3.1.1可以看出:购买保险的人数中,男、女所占比例接近1:1,没有显著性差异;已婚人数购买保险的倾向略高于未婚人数,相差大约7%;而从图3.1.3受教育程度可以看出:高中至本科程度频数所占比例较大,本科以上最少(占6.9%),其次是高中以下(17.2%),从频数分布可以猜测其服从正态分布,当然这个结论有待验证;最后是关于家庭人口的频数分析,从图3.1.4可以看出:家庭人口越少,其购买保险的欲望越强,且随着家庭人口的增多,其购买保险的倾向逐渐减弱,这可能与家庭人口少而缺乏安全感有关。3.1.2投保人保险信息1.投保(理赔)类型表3.1.5理赔类型频数分布频数百分比有效百分比风或冰雹灾害105423.9 23.9 水灾62714.2 14.2 火灾103923.5 23.5 污染4049.2 9.2 盗窃破坏129129.2 29.2 合计4415100100图3.1.5理赔类型频数分布图2索赔欺骗性表3.1.6索赔是否具有欺骗性频数分布频数百分比有效百分比否395289.5 89.5 是46310.5 10.5 合计4415100100图3.1.6索赔是否具有欺骗性频数分布图3.结论以上是关于投保人相关保险信息的频数分析。从表3.1.5与图3.1.5可以看出:在已知的理赔类型中,盗窃破坏、火灾、冰雹灾害这三种类型所占比例较大,分别为29.2%,23.5%,23.9%,而水灾和污染所占比例相对较少;从图3.1.6与表3.1.6可以看出投保人中,在索赔过程中具有欺骗行为的所占比例为10.5%,虽然比例较少,但是依然应该引起保险公司的重视。3.2描述分析为了便于后面的统计分析,先对三个度量性变量即家庭收入、投保额、保险赔付额就行描述统计,分析其极大值、极小值、均值以及标准差。表3.2.1描述统计表 单位:以千元计N极小值极大值均值标准差家庭收入44159.001385.0066.289067.53341投保额44151.461662.0073.0114144.40129保险赔付额441552.003680.00305.0390326.23888有效的 N 4415由表3.2.1可以看出,家庭收入的均值约为66.2890,极大、极小值分别为9和1385;投保额均值约为73.0114,保险赔付额均值为305.0390。这些样本数据计算出来的均值,是否能说明总体均值也处于这一水平,所以我们可以大胆猜测总体均值与样本均值是否有显著性差异,这将在后面的比较均值部分进行分析。3.3交叉表分析交叉表分析是用来分析名义性变量之间是否相互关联的分析,在本文所分析的数据中,有性别、婚姻状况、退休状况、索赔是否具有欺骗性等变量,下面我们将分析索赔时的欺骗性行为是否与投保人的性别、婚姻状况、受教育程度等因素有关联性。3.3.1受教育程度与欺骗性表3.3.1受教育程度* 索赔是否具有欺骗性 交叉表索赔是否具有欺骗性合计否是受教育程度高中以下69169760高中12771451422专科833105938本科877113990本科以上27431305合计39524634415表3.3.2卡方检验值df渐进 Sig. (双侧)Pearson 卡方3.1734.529似然比3.2104.523线性和线性组合1.8221.177有效案例中的 N4415图3.3.1受教育程度* 索赔是否具有欺骗性条形图3.3.2结论由表3.3.1的交叉表可知,不同学历层次的投保人是否有索赔欺骗行为的频数分布,为了进一步分析受教育程度是否与索赔欺骗具有关联性,即原假设Ho:这两个因素之间没有关联性(相互独立)。所以由表3.3.2卡方检验可以得出,卡方的概率P值大于显著性水平(0.05或0.01),不能拒绝原假设,可以认为不同的教育程度对于索赔欺骗行为没有产生显著影响,即没有关联性。同理分析了性别、婚姻状况与索赔欺骗行为的关联性,其计算的卡方的概率P值均大于显著性水平(0.05或0.01),所以性别、婚姻状况这两个因素对于索赔欺骗行为也没有显著性影响。下面分别给出这两个因素与索赔欺骗的复式条形图(图3.3.2,图3.3.3),通过复式条形图也能直观的得出这一结论。图3.3.2性别* 索赔是否具有欺骗性 条形图图3.3.3婚姻状况* 索赔是否具有欺骗性 条形图(四)数据均值比较与检验4.1分组平均数比较在前面3.2描述分析中,我们得出样本数据中投保额的均值为73.0114,这一均值只能反映整体均值水平,没能反映出同一因子影响下各分组的均值大小。下面将对各影响同一因素进行分组,分别计算各分组的均值大小。目的在于观察是否同一因素下不同分组对投保额有显著性影响。 表4.1.1投保额与受教育程度分组均值比较 投保额(以千元计)受教育程度均值N标准差高中以下62.4875760128.00579高中71.50911422141.46387专科74.6360938152.73291本科80.1996990150.74198本科以上77.9103305148.30883总计73.01144415144.40129表4.1.2投保额与婚姻状况分组均值比较 投保额(以千元计) 婚姻状况均值N标准差未婚742054142.9798已婚722361145.6526总计734415144.4013表4.1.3投保额与是否退休分组均值比较 投保额(以千元计) 是否退休均值N标准差否783841152.3252是3757460.5290总计734415144.4013结论:由表4.1.1,表4.1.2,表4.1.3可知,不同层次教育程度与婚姻状况的分组均值与总体均值差距不大,而退休状况中,已退休的投保额要明显低于未退休投保额。4.2单样本的T检验为了验证某单样本平均数与总体平均数的差异,我们采用单样本T检验对其进行显著性检验。若已知总体数据的投保额的均值为70,验证该样本数据投保额均值与总体均值有无显著性差异。表4.2.1样本投保额统计量N均值标准差均值的标准误投保额(以千元计)441573.01136144.401292.173230123表4.2.2投保额 单样本检验 检验值 = 70 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限投保额(以千元计)1.3864414.1663.01136-1.24937.2720从表4.2.2中看出来;t值=1.386,df=4414,P=0.1660.05,可以认为该样本的投保额均值与总体的投保额均值无显著性差异。而均值差值=3.01136,表示该样本投保额均值比总体均值高了3.01136。4.3独立样本T检验在4.1中,我们运用分组平均数来检验婚姻状况、退休状况中不同分组对投保额是否具有显著性差异,在这里我们运用独立样本T检验来验证这两个因素中不同分组在投保额上是否存在显著性差异。 4.3.1婚姻状况与投保额表4.3.1独立样本T检验分组统计表婚姻状况N均值标准差均值的标准误投保额(以千元计)未婚205473.8884142.979813.15482已婚236172.2483145.652602.99758表4.3.2独立样本T检验结果表方差方程的 Levene 检验均值方程的 t 检验FSig.tdfSig.(双侧)均值差值投保额(以千元计)假设方差相等.019.890.3764413.7071.64009假设方差不相等.3774349.381.7061.64009如表4.3.2所示,F=0.019,P=0.8900.05,所以认为两样本方差无差异,即方差相等。所以t检验结果表明,t=0.376,df=4413,P=0.7070.05,所以认为投保人已婚与未婚在投保额上没有显著差异。这与在4.1中的观察一致。4.3.2退休状况与投保额表4.3.3独立样本T检验分组统计表是否退休N均值标准差均值的标准误投保额(以千元计)否384178.3460152.325242.45782是57437.313660.529012.52643表4.3.4独立样本T检验结果表方差方程的 Levene 检验均值方程的 t 检验FSig.tdfSig.(双侧)均值差值投保额(以千元计)假设方差相等78.186.0006.3784413.00041.03244假设方差不相等11.6411914.901.00041.03244如表4.3.2所示,F=78.186,P=0.0000.05,所以认为两样本方差有差异,即方差不相等。所以t检验结果表明,t=11.641,df=1914.901,P=0.0000.05,即可认为不同的受教育程度与投保额大小没有显著性差异。5.1.2理赔类型与投保额(1)对因变量理赔类型的基本描述统计量,如表5.1.1所示表5.1.3因变量受教育程度的基本描述统计结果投保额(以千元计) N均值标准差标准误均值的 95% 置信区间下限上限风或冰雹灾害105416.782420.51639.6319515.542418.0224水灾62735.290147.559061.8993331.560339.0200火灾1039171.5797204.533636.34537159.1284184.0309污染404202.2070227.6693811.32697179.9396224.4743盗窃破坏129117.480025.27651.7034816.099918.8601总数441573.0114144.401292.1732368.750777.2720(2)方差分析表表5.1.4方差分析表投保额(以千元计) 平方和df均方F显著性组间25043667.07946260916.770412.124.000组内66995879.195441015191.809总数92039546.2744414如表5.1.4所示,F=412.124,P=0.0000.05,即可认为不同理赔类型对于投保额的要求是不同的。(3)多重比较表5.1.5多重比较表因变量:投保额(以千元计)(I) 理赔类型(J) 理赔类型均值差 (I-J)标准误显著性Tukey HSD风或冰雹灾害水灾-18.507746.21634.024火灾-154.797275.38842.000污染-185.424567.21228.000盗窃破坏-.697625.116731.000水灾风或冰雹灾害18.507746.21634.024火灾-136.289536.23305.000污染-166.916827.86339.000盗窃破坏17.810135.99974.025火灾风或冰雹灾害154.797275.38842.000水灾136.289536.23305.000污染-30.627297.22669.000盗窃破坏154.099655.13703.000污染风或冰雹灾害185.424567.21228.000水灾166.916827.86339.000火灾30.627297.22669.000盗窃破坏184.726947.02645.000盗窃破坏风或冰雹灾害.697625.116731.000水灾-17.810135.99974.025火灾-154.099655.13703.000污染-184.726947.02645.000LSD风或冰雹灾害水灾-18.507746.21634.003火灾-154.797275.38842.000污染-185.424567.21228.000盗窃破坏-.697625.11673.892水灾风或冰雹灾害18.507746.21634.003火灾-136.289536.23305.000污染-166.916827.86339.000盗窃破坏17.810135.99974.003火灾风或冰雹灾害154.797275.38842.000水灾136.289536.23305.000污染-30.627297.22669.000盗窃破坏154.099655.13703.000污染风或冰雹灾害185.424567.21228.000水灾166.916827.86339.000火灾30.627297.22669.000盗窃破坏184.726947.02645.000盗窃破坏风或冰雹灾害.697625.11673.892水灾-17.810135.99974.003火灾-154.099655.13703.000污染-184.726947.02645.000*. 均值差的显著性水平为 0.05。如表5.1.5所示,在LSD检验中,比较两两理赔类型之间的sig值,除了盗窃破坏与风或冰雹灾害外,其余都小于0.05,这说明每两种理赔类型之间对于投保额的选择在0.05显著性水平上差异显著。同样在Tukey检验中,这一结论依然成立。(六)相关与回归分析6.1相关分析在本文的分析数据中,变量家庭人口数,家庭收入以及投保额都是度量性变量,现在要考察这3个变量之间是否存在显著相关。我们使用双变量简单相关分析有:表6.1.1变量间的相关系数表家庭人口数家庭收入(以千元计)投保额(以千元计)家庭人口数Pearson 相关性1-.088*-.037*显著性(双侧).000.015N441544154415家庭收入以千元计Pearson 相关性-.088*1.290*显著性(双侧).000.000N441544154415投保额(以千元计)Pearson 相关性-.037*.290*1显著性(双侧).015.000N441544154415*. 在 .01 水平(双侧)上显著相关。*. 在 0.05 水平(双侧)上显著相关。从表6.1.1中星号可以看出,家庭人口数与家庭收入在0.01水平上显著相关(r=-0.088,sig=0.000),家庭人口数与投保额在0.05水平上显著相关(r=-0.037,sig=0.015),家庭收入与投保额在0.01水平上显著相关(r=0.290,sig=0.000)。6.2回归分析在本文所分析的数据中,其中有变量投保额与赔付额,现在假设这两个变量存在一定的关系,即投保额的大小是否影响赔付额的大小,运用回归分析的方法检验这一假设。6.2.1散点图分析首先,绘出散点图来观察这两个变量之间的关系。图6.2.1投保额与保险赔付额散点图由该散点图可以看出,这两个变量之间似乎存在一种强的线性关系,6.2.2回归系数估计表6.2.1回归方程检验的方差分析表模型平方和df均方FSig.1回归123026067.6271123026067.6271565.659.000残差346763925.672441378577.821总计469789993.2994414a. 预测变量: (常量), 投保额(以千元计)。b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论