



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘论文关于数据挖掘技术在汽车保险中的应用论文范文参考资料 【摘要】介绍数据挖掘中的关联规则挖掘技术在汽车保险中的实际应用,关联规则分析汽车保险中的风险因素与赔付率之间的关系。得出的关联规则对车险行业的决策和发展有一定参考指导作用。 【关键词】数据挖掘;关联规则;风险 数据挖掘(DataMining,DM)又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和数据库领域研究的热点理由,所谓数据挖掘是指从数据库大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在的有用信息和知识的过程。从商业企业的角度讲数据挖掘可以描述为:按照企业既定业务目标,对大量的企业数据进行分析和探索,揭示隐藏的、的或验证已知的规律性,并进一步将其模型化的先进有效的策略。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 关联规则挖掘是数据挖掘中的重要课题和研究策略。最早是由Agrawal等人提出的,关联规则挖掘可以发现存在于数据库中的项目或属性间的隐含关系1。关联规则的一般定义如下:I=I1,I2,Im是一项目集,D是一事务数据库,D中的每个事务T都是I的子集即TI.每个事务都有一个标识符,称为TID.若A是一项目集,当且仅当AT时,我们就说事务T包含了A。一条关联规则就是形如A=B的蕴含关系。其中A包含于I,B包含于I且AB为空集.如果D中包含AB的比例是s,就称关联规则A=B在D中的支持度为s,也可以表示为概率P(AB);如果D中包含A的同时也包含B的比例是c,则说关联规则AB的置信度为c,表示为条件概率P(B|A),就是: s=sup(A=B)=P(AB) c=conf(A=B)=P(A|B)=sup(AB)/sup(A) 关联规则挖掘的步骤2 (1)找出所有的频繁项集。这些项集出现的频率至少和预定义的最小支持数一样,即所有满足最小支持度的项集的集合。 (2)由频繁项集中产生相应的强关联规则。根据定义,这些规则必须满足最小支持度和最小置信度。即确定规则A=B是否有效,可以令: r=sup(AB)/sup(A),当且仅当rmin_conf时,规则有作用(其中min_conf为最小置信度)。 (3)解释并输出规则 步骤一是关联规则发现算法设计的核心理由,因为它的效率高低是算法的关键. 由于Apriori关联规则算法3需要产生大量候选项集,资源消耗巨大,效率低。而FP-Growth关联规则算法只需扫描一次数据库,对系统资源的消耗较小,效率相对较高。因此,对于海量数据的保险信息系统,本文选用FP-Growth算法进行关联规则挖掘. 1.数据准备 数据准备是数据挖掘过程的先决条件,数据质量将直接影响数据挖掘的效率和准确度以及最终规则的合理有效性。本文选取某大型保险公司省级公司近8年车险数据库数据进行挖掘。影响车辆保险的风险主要有驾驶人员、车辆状况、地理环境、气候条件、社会环境、经营管理等因素,为此研究这些因素与风险的关系,并结合实际情况和对风险的影响程度,从中选取的目标数据每条记录中包括年龄、性别、婚姻状况、驾龄、职业、车重与载货重、车型、车龄、汽车颜色、使用性质、投保险种、保费保额、汽车贷款标志、购买价格、多车所有情况、是否连续投保、投保地点、销售渠道、投保日期、出险日期、赔付率等21个属性进行关联规则的挖掘归纳。 2.数据离散化和去冗余4 利用计算机对数据库的海量数据进行分析挖掘,需要对连续的数据作离散化工作。年龄、保额、投保出险日期、赔付率都是连续的数据。为了离散量化,根据情况和计算机编程计算的需要可将这些数据分为几类。例如,年龄分为a1(20岁),a2(20-25岁),a3(25-34岁),a4(3545岁),a5(=46岁),将日期按提取数据年份年分为8年,每年具体日期按月分为12个值。将赔付率划分为00,、(0,10%、(10%,30%、(30%,50%、(50%,70%、(70%,100%、(100%,200%、(200%,300%、(300%,+九类。去除由于误操作输入产生的明显不合逻辑和业务要求的垃圾数据。 3.确定关联规则的支持度至少为35,置信度至少为80。进行关联规则挖掘过程如下: 1)利于FP-Growth算法找出频繁项集。 2)找出满足支持度和置信度的强关联规则。 由于本文选取的样本属性值有21个,为了算法的简约和计算的省时,我们在实际挖掘中采用了分区挖掘产生关联规则的做法.具体做法如下:将样本属性值按驾驶员,车,环境分为A,B,C大区,每区与赔付率相关。如表1: ABC赔付率 年龄a1-a5车重与载货重w1-w5投保地点P1 性别s1,s2车型销售渠道
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肾病综合征患者的护理查房
- 2025标准版农村住宅购买合同协议书
- 国家施工标准合同范本
- 酒店维修合同范本简单
- 配件合同范本模板
- 奶粉店打工合同范本
- 租赁小屋合同范本
- 植物工厂购买合同范本
- 酒店转让合同范本
- 材料业绩合同范本
- 校园基孔肯雅热防控措施课件
- (2025年标准)离职手协议书
- 2025年团场人员考试题库
- 班组质量管理
- 2025年四川省建筑施工企业安管人员考试(企业主要负责人·A类)历年参考题库含答案详解(5卷)
- 实战能力评估模型-洞察及研究
- 超声引导髂筋膜阻滞技术
- 铁路建设工程质量安全监督管理办法
- 数字经济与市场结构-洞察及研究
- DB42T 1496-2019 公路边坡监测技术规程
- 学校餐厅试吃活动方案
评论
0/150
提交评论