已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)基于决策树技术的保险crm系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕+ 学位论文 摘要 传统的保险客户关系管理不能满足现代保险业提高综合竞争力的根本需 求。数据挖掘技术不断成熟,保险企业办公自动化程度、企业信息化水平、 企业管理水平的提高和管理理念的更新,使得运用分类技术等数据挖掘方法 对保险客户信息进行深层次分析,把客户数据转换为客户知识,实现对企业 决策支持并取得市场优势,成为可能。本文重点运用了数据挖掘技术中的决 策树技术,设计并实现了保险客户关系管理系统。 本文在研究客户关系管理特点和客户生命周期理论的基础上,结合数据 挖掘的基本理论和方法,了解保险公司c r m 的业务需求,进行保险客户关 系管理的需求分析,设计了保险c r m 管理系统,其中主要包括模型管理子 系统、知识子系统及客户资源管理子系统,并实现了典型模块。在设计模型 管理子系统时,主要使用了数据预处理技术和决策树技术,重点论述了数据 模型生成过程。 本系统的开发,为保险公司建立起完善并科学有效的客户关系管理提供 了实现路径。 关键词:客户关系管理;保险;数据挖掘;决策树;数据预处理 哈尔滨工程大学硕士学位论文 a b s t r a c t t r a d i t i o n a li n s u r a n c ec u s t o m e rr e l a t i o n s h i pm a n a g e m e n tc a nn o tm e e tt h e f u n d a m e n t a ld e m a n do ft h em o d e mi n s u r a n c e i n d u s t r y f o r e n h a n c i n gt h e c o m p r e h e n s i v ec o m p e t i t i v e n e s s d a t am i n i n gt e c h n i q u e sb e c o m em o r em a t r r e t h el e v e lo fi n s u r a n c ec o m p a n i e s o f f i c ea u t o m a t i o n ,e n t e r p r i s ei n f o r m a t i o n ,a n d e n t e r p r i s em a n a g e m e n ti sr a i s i n ga n dt h em a n a g e m e n tc o n c e p ti su p d a t i n gm a k e s u s i n g o fc l a s s i f i c a t i o n t e c h n o l o g y t oi n s u r a n c ec l i e n t s i n d e p t ha n a l y s i s o f i n f o r m a t i o n ,d a t ac o n v e r s i o nf o rt h ec u s t o m e rk n o w l e d g e i tm a k e sa c h i e v i n g e n t e r p r i s ed e c i s i o ns u p p o r ta n dg a i n i n gm a r k e ta d v a n t a g eb e c o m ep o s s i b l e t h e p a p e rf o c u s e do nt h eu s eo ft h ep o l i c y - m a k i n gt r e et e c h n o l o g y ,d e s i g n e da n d r e a l i z e dt h ei n s u r a n c ec u s t o m e rr e l a t i o n s h i pm a n a g e m e n t s y s t e m b a s e do nt h es t u d yo fc h a r a c t e r i s t i c so fc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t a n dc u s t o m e rl i f ec y c l et h e o r y ,c o m b i n i n gt h eb a s i ct h e o r ya n dm e t h o d so fd a t a m i n i n g ,u n d e r s t a n d i n g t h ec r mb u s i n e s sn e e d so fi n s u r a n c ec o m p a n i e s , a n a l y s i s i n gt h ed e m a n do fi n s u r a n c ec u s t o m e rr e l a t i o n s h i pm a n a g e m e n t , t h i s p a p e rd e s i g na l li n s u r a n c ec r mm a n a g e m e n ts y s t e m ,w h i c hi n c l u d i n gm o d e l m a n a g e m e n ts u b s y s t e m ,k n o w l e d g es u b s y s t e m ,a n d c u s t o m e rr e s o u r c e m a n a g e m e n ts u b s y s t e m ,a n da c h i e v i n gat y p i c a lm o d u l e i nt h ed e s i g no fm o d e l m a n a g e m e n ts u b s y s t e m ,i tm a i n l yu s e st h ed a t ap r e p r o c e s s i n gt e c h n o l o g ya n d p o l i c y m a k i n g t r e et e c h n o l o g ya n dd i s c u s s e st h ep r o c e s so fg e n e r a t i n gd a t a m o d e l t h ed e v e l o p m e n to ft h i ss y s t e mp r o v i d e sap a t hf o re s t a b l i s h i n gap e r f e c t , s c i e n t i f i ca n de f f e c t i v ec u s t o m e r r e l a t i o n s h i pm a n a g e m e n t o fi n s u r a n c e c o m p a n i e s k e yw o r d s :c r m ;i n s u r a n c e ;d a t am i n i n g ;t h ep o l i c y - m a k i n gt r e e ; d a t ap r e p a r a t i o n 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均己在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 f r 宅i - ( :蕉镏楚 ( 签字) : 臣! 里! 兰 日期:砂多年乡月i 乡日 哈尔滨工程大学硕+ 学位论文 第1 章绪论 1 1 研究背景及意义 1 1 1 研究背景 企业为客户提供优厚价值的产品和服务,客户回报企业以丰厚的利润和 发展前景。在激烈的市场竞争中,围绕客户关系建立商业活动是大多数保险 公司的一种全新变革。企业的核心经营理念已从“产品为中心 转向“以客 户为中心 。客户关系管理( c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t ,c r m ) 也由 此应运而生n ,。 数据挖掘技术不断成熟,保险企业办公自动化程度、企业信息化水平、 企业管理水平的提高,管理理念的更新n ,使得运用数据挖掘方法对保险客户 信息进行深层次分析,把客户数据转换为客户知识,实现对企业决策支持并 取得市场优势成为可能。 近年来国内诸多保险公司根据自身情况,从不同程度上进行了客户关系 管理尝试。但是,在对客户价值、客户结构、客户忠诚度、客户风险方面进 行科学分析,从而为识别企业的潜在客户、防止客户流失、保持客户,识别 客户的购买习惯提供个性化服务,但是提高客户满意度等方面所做的工作仍 然十分有限。 原因之一在于我国保险业所实施的客户关系管理水平仍然有限,运用数 据挖掘、数据仓库、高级统计分析等技术对企业客户数据进行深层次的处理, 为企业决策提供支持的客户关系管理系统方面的理论和应用还远远不够船1 。 传统的保险信息管理系统产生了大量的客户特征信息和客户行为信息, 采用决策树分类技术,有利于发现客户知识和规则,对客户信息进行数据挖 掘并建立客户知识与模型。 1 1 2 研究意义 今天,整个保险市场正在逐渐向以客户为中心的管理体系转变,致力于 提升核心竞争力的中国保险公司,迅速调整与客户之间的关系,就必须从全 方位服务的立场去理解客户n ,。 1 哈尔滨工程大学硕士学位论文 1 从竞争战略上来看,实施c r m ,可以对保险公司潜在的竞争对手起 到战略阻绝作用。顾客忠诚度和品牌认知度增加了市场潜在对手的进入成本。 2 从成本管理的角度,实施c r m ,可以实现成本驱动,降低企业拓展 市场的成本,提高企业的经营利润,满意的顾客会持续多次购买公司的产品 和服务,满意的顾客同时会产生良好的口碑效应。 3 从营销管理的角度,实施c r m ,实现管理差异化。针对不同的客户, 提供不同的服务,根据客户需求变化调整企业产品、价格及服务策略,提供 差异化的产品及服务以满足不同细分市场的客户需求,提高市场响应速度, 并引导市场发展。 4 从企业文化建设角度,实施c r m ,可以实现品牌延伸。顾客满意度、 顾客忠诚度及品牌认知度能为企业今后的品牌延伸打下良好基础。当企业新 产品推出时,良好的品牌认知度使企业无需花费大量的广告宣传、促销活动 便可迅速的获得市场的认同,降低企业的经营成本。 5 从内部经营管理角度,实施c r m ,可以实现管理改进。客户关系管 理有助于发现企业不断改进和完善其内部管理体系、管理流程,促进企业内 部计算机管理信息系统的建设和完善,培养企业内部数据文化氛围。 6 数据挖掘技术的发展趋势之一,即是针对各种实际应用逐步深化,本 课题正是针对这一发展趋势的实践探索。 1 2 国内外相关研究 1 2 1 保险客户关系管理的研究现状 由于产品技术含量低、经营对象风险大、客户购买行为可延续、后续服 务复杂等特点,客户关系管理已成为众多保险公司提高竞争优势的重要手段。 目前,应用于保险业的客户关系管理包含了销售力量自动化系统( s f a ) 、 客户服务系统( c s s ) 、营销策划( m a r k e t i n g ) 、现场服务( f i e l d s e r v i c e ) 和呼叫中心( c a l lc e n t e r ) 等众多内容。 全球最大的金融机构之一的s t a t ef a r m 保险公司使用客户关系管理软 件,提供了产品推销、信用管理、顾客利润分析、电子邮件分类和员工绩效 管理等功能。 2 0 0 2 年,中国人民保险公司全面应用c r m 系统。该系统依托c a l lc e n t e r 2 哈尔滨工程大学硕士学位论文 提供市场、销售和客户服务的管理,实现了市场细分、个性化营销。 同年,平安保险公司北京分公司推出了t u r b oc r m 系统,对其车辆保险 业务进行市场、销售和服务业务的一体化管理,实现了客户细分和个性化营 销功能。 尽管c r m 在保险领域已不是新名词,但其发展乃至成熟仍需要很长一 段时间。首先,2 0 0 2 年我国只有1 7 的保险公司拥有c r m 系统,尽管此后 几年是我国保险业信息化迅猛发展的几年,但实施c r m 的保险公司数量仍 十分有限;其次,我国保险公司应用c r m 的水平不高,大部分保险公司的 所谓c r m 系统还只是通过i t 手段来理清客户信息,以提高业务员的效率, 技术含量普遍偏低,基本上还处于呼叫中心建设层面或是仅仅满足于某一方 面需求,没有基于数据仓库进行深度开发,其功能只限于客户资料的统计与 管理,对c r m 的深层次开发和应用还很缺乏嗍。 1 2 2 决策树技术的研究现状 数据挖掘作为一种发现大量数据中潜在信息的数据分析方法和技术,分 类是数据挖掘的主要任务之一,实现分类任务的方法中,决策树方法是目前 重点研究方向之一。并且,决策树分类模型最适合用于保险公司c r m 系统 中客户信息模型的建立。 决策树方法起源于概念学习系统c l s ( c o n c e p tl e a r n i n gs y s t e m ) 6 1 0 所 谓决策树,就是在对数据进行决策分类时利用树的结构将数据记录进行分类, 其中树的一个叶结点就代表符合某个条件的属性集,根据属性的不同取值建 立决策树的各个分支,随后递归构造每个子节点的子树。它依循信息论原理 对数据库中存在的大量数据进行信息量分析,从而提取出反映类别的重要特 征。 构造决策树有多种算法,国际上最早具有影响力的决策树是1 9 8 6 年由j r q u i n l a n 提出的i d 3 速算法。该算法运用信息熵理论,根据属性集的取值分 类。选择当前样本集中最大信息增益的属性值作为测试属性,样本集的划分 则依据测试属性的值进行,测试属性有多少不同取值就将样本集划分为多少 子样本集,同时,决策树上相应于该样本集的节点长出新的叶子节点。由于 决策树的结构越简单越能从本质的层次上概括事物规律,期望非叶节点到达 哈尔滨丁程大学硕士学位论文 后代节点的平均路径总是最短,即生成的决策树的平均深度最小,这就要求 在每个节点选择好的划分。 1 9 9 3 年,j r q u i n l a n 又提出了i d 3 的改进版本c 4 5 算法h ,。该算法采用 了一种归纳学习的机制,用信息增益率来选择决策属性,在i d 3 的基础上还 增加了对连续属性的离散化、对未知属性的处理和产生规则等功能,并成为 以后诸多算法的基础。在应用于单机的决策树算法中,c 4 5 算法不仅分类准 确率高而且速度快。此外,还有c a r t ,c h a i d ,i b l e 等算法哺,。 1 3 本文的主要工作 整合现在客户资源,对客户信息进行数据挖掘,将客户数据转化为客户 知识和模型,是保险公司目前迫切需要解决的问题。 本文结合数据挖掘技术及保险客户关系管理特点,重点应用决策树技术, 设计并初步实现了保险c r m 系统。主要工作如下: 1 在充分了解客户关系管理特点和客户生命周期理论的基础上,结合数 据挖掘的基本理论和方法,了解保险公司c r m 的业务需求,进行保险客户 关系管理的需求分析,确立了保险客户关系管理的系统类型及所要挖掘的基 本模型。 2 根据建模需要,结合保险公司客户实际情况,给出了客户数据预处理 的主要过程。 3 在数据预处理技术基础上,重点介绍模型生成的关键技术即决策树技 术,给出了保险客户信息模型的生成过程。 4 结合保险c r m 中数据挖掘的整个流程及保险公司客户关系管理的业 务需求,进行了整体结构设计,其中主要包括模型管理子系统、知识子系统 及客户资源管理子系统,并实现了典型模块。 1 4 论文结构安排 本文共分五章: 第一章绪论。介绍论文的研究背景、意义,有关保险客户关系管理和决 策树技术的国内外研究历史、动态、应用概况,论文的主要工作和结构安排。 第二章保险c r m 系统相关理论概述。介绍了数据挖掘的定义、方法、 4 哈尔滨下程大学硕十学位论文 用途及数据挖掘流程;结合保险客户关系管理的特点及客户生命周期理论, 分析客户生命周期各阶段中应用到的数据挖掘技术,得出需求分析结果,确 立了保险客户关系管理系统类型及所要生成的基本模型。 第三章保险客户数据的预处理分析。介绍了数据预处理分析在数据模型 建立中的重要性和数据预处理的四种方法,结合保险公司实际,给出了客户 数据预处理的主要过程,为后期模型管理子系统的设计和实现做准备。 第四章保险c r m 系统模型生成分析。保险c r m 模型管理子系统的设 计与实现是整个系统设计的核心部分,模型生成又是模型管理子系统的关键 内容,本章在前面介绍的数据预处理技术基础上,重点介绍了模型生成的关 键技术即决策树技术,给出了保险客户信息模型的生成过程。 第五章保险c r m 系统的设计与实现。结合保险c r m 中数据挖掘整个 流程及保险公司客户关系管理的业务需求,进行了整体结构设计与实现,其 中主要包括模型管理子系统、知识子系统及客户资源管理子系统。 哈尔滨工程大学硕士学位论文 第2 章保险c r m 系统相关技术概述 客户关系管理的特点和客户生命周期理论,是新时期保险客户关系管理 的核心理念,数据挖掘技术又是新时期保险客户关系管理理念得以实现的技 术支撑。 2 1 数据挖掘简介 1 数据挖掘( d a t am i n i n g ,d m ) 定义:是指从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不 知道的但又是潜在有用的信息和知识的过程。 2 数据挖掘特点:通过对商业数据库中的大量业务数据进行抽取、转换、 分析和其它模型化处理,从中提取辅助商业决策的关键性数据归,。 3 数据挖掘任务:分为关联规则挖掘、序列模式挖掘、聚类数据挖掘、 分类数据挖掘、偏差分析挖掘和预测数据挖掘等六类。其中,分类数据挖掘 技术为保险公司c r m 系统中客户信息模型的建立,提供了最优算法。 4 数据挖掘模型 关于数据挖掘项目实施过程,c r i s p d m ( c r o s si n d u s t r ys t a n d a r d p r o c e s s f o rd a t am i n g ,跨行业数据挖掘标准流程) 模型的定义通用于解决不同的行 业的业务问题,它包括商业理解、数据理解、数据准备、建立模型、模型评 估、模型部署六个步骤n 。i t 图2 1c r i s p d m 模型 6 哈尔滨丁程大学硕士学位论文 ( 1 ) 商业理解 商业理解是把商业问题转换成数据挖掘问题的重要阶段,根据商业需求 确定挖掘目标。需求方提出相应需求,数据挖掘人员学习相关领域知识,找 到存在的问题并解决它。 对基本业务理解不足或偏差必然会提高系统实施难度甚至导致系统的崩 溃。细致的业务理解能够为后续数据理解、准备阶段,以及模型建立阶段打 下良好基础。 ( 2 ) 数据理解 数据挖掘对象是海量的历史数据。确认可使用的数据范围、数据状态、 分布、质量等情况,进行详尽的数据分析是建立模型的基础性工作。 ( 3 ) 数据准备 围绕商务定义而准备的历史数据,常常含有噪声、不完整、甚至是不一 致的。因此,要进行数据的预处理工作,以改进数据质量,提高挖掘算法效 率乃至数据挖掘所获得的模式质量、正确性。数据预处理是数据挖掘过程中 的重要步骤,是项目成功的保障。 ( 4 ) 模型建立 模型建立是数据挖掘的关键步骤。用户需根据数据实际情况选择合适的 挖掘技术,并建立相应模型。这个步骤是由数据挖掘软件自动实现的,但实 际变量和算法的合理选择,需要丰富的实际业务经验作支持。 ( 5 ) 模型评估 模型评估是根据一定评估标准从挖掘结果筛选出有意义的模式知识。 模型对预测数据的描述精确程度、预测的置信度、可理解程度,因所建 立的模型类型不同而有所区别。 ( 6 ) 模型发布 模型发布,是指利用可视化和知识表达技术,向用户展示所挖掘出的相 关知识。 保险c r m 的目的在于为企业管理者提供辅助决策的信息,数据挖掘是 实现这一目的的关键技术。 7 哈尔滨工程大学硕士学位论文 2 2 客户关系管理 客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,c r m ) 起源于2 0 世 纪8 0 年代初提出的接触管理( c o n t a c tm a n a g e m e n t ) ,即专门收集整理客户 与公司联系的所有信息n ”。 2 2 1 客户关系管理特点 美国研究机构m e t ag r o u p 根据客户关系管理的内容及功能,将客户关系 管理划分为三类:操作型、分析型和协作型。 操作型c r m 应用的设计目的是为了企业级的信息资源共享,减少信息 流动滞留点,使企业与客户间的接口统一化。操作型应用系统是客户关系管 理软件中最基本的应用模块,是一个业务信息管理系统。 协作型c r m 应用就是能够让企业客户服务人员同客户一起完成某项活 动。协作型应用目前主要由呼叫中心、客户多渠道联络中心、帮助台以及自 助服务帮助导航等组成。 分析型c r m 从操作型系统应用所产生的大量交易数据中提取有价值的 各种信息,是一种决策支持工具。分析型c r m 的主要原理是将交易操作所 积累的大量数据过滤,抽取到数据仓库,再利用数据挖掘技术建立各种行为 预测模型,最后利用图表、曲线等对企业各种关键运行指标以及客户市场分 割情况向操作型应用发布,达到成功决策的目的。 通过对三类c r m 应用的概念介绍,可以将分析型c r m 的特点概括如下: 其输入的是操作型、协作型c r m 的实际业务数据;输出的是图表、曲线等 辅助决策信息,易于理解和使用;服务目标是为企业管理者提供决策支持; 所用的主要工具是数据挖掘、数据仓库等新兴技术。 基于数据挖掘的c r m 系统结构模型见图2 2 n ”。 8 哈尔滨工程大学硕士学位论文 图2 2 基于数据挖掘的c r i l i 系统结构模型 9 哈尔滨下程大学硕士学位论文 2 2 2 客户生命周期理论 客户生命周期是客户关系生命周期的简称,指客户关系水平随时间变化 的发展轨迹,它描述了客户关系从一种状态( 一个阶段) 向另一种状态( 另 一阶段) 运动的总体特征。国内外已有很多关于客户生命周期的研究,“客 户关系具有明显的周期特征”n 钔这一观点也早己被一些学者提出。 阶段划分是客户生命周期的研究基础。目前,这方面的诸多研究中, d w y e r ,s c h u r r 和0 h 的研究最具代表性。他们提出了买卖关系发展的一个五 阶段模型,首次明确强调买卖关系的发展是个具有明显阶段特征的过程。 这一观点被广泛接受,取代了当时盛行的把交易完全看作是离散事件的观点。 国内的陈明亮经过研究,把客户关系的发展进一步划分为考察期、形成期、 稳定期、退化期四个阶段,称为四阶段模型。 1 考察期:关系探索和试验阶段。企业和客户双方考察和测试目标的兼 容性、对方的诚意、对方的绩效,考虑建立长期关系时双方潜在的职责、权 利和义务。考察期的基本特征是相互了解不足、不确定性,中心目标是评估 对方的潜在价值和降低不确定性。这一阶段,客户通常会下一些尝试性订单。 2 形成期:关系快速发展阶段。考察期双方已相互满意,双方获得的回 报日趋增多,相互依赖的范围和深度日益增加,逐渐认识到对方有能力提供 令自己满意的价值,并能履行其关系中应担负的职责,愿意承诺一种长期关 系。随着双方了解和信任的不断加深,关系日趋成熟,双方的风险承受意愿 增加,由此双方交易不断增加。 3 稳定期:关系发展的最高阶段。双方已有了长期合作的意愿:为对方 提供价值高度满意为而长期维持稳定的关系,双方都作了大量投入和大量交 易。双方的相互依赖水平达到整个客户关系发展过程中的最高点,关系稳定。 4 退化期:关系发展中关系水平的逆转阶段。退化期的特点是交易量下 降。一方或双方正在考虑结束关系甚至物色候选关系伙伴,开始交流结束关 系的意图。关系退化的原因有很多,如对对方行为不满意、发现了更适合的 关系伙伴、需求发生变化等。在任何一阶段关系都可能退化。 客户与企业发生业务的过程中,客户所处的阶段和状态随时变化,针对 不同状态的客户,企业需要制定不同的策略,。 1 0 哈尔滨下程大学硕士学位论文 2 3 保险客户关系管理系统需求分析 基于对应客户整个生命周期的各个阶段,企业的客户关系管理需求是不 同的,其所使用的数据挖掘技术也不尽相同,具体如图2 3 所示。 潜在客户 圃 响应者已有客户 新客户 v i p 客户 主要客户 普通客户 小客户 流失客户 客户离开 嚣鬻獬叫激妊憎黧罂日一户r 篙撕 ii 客户忠诚度分析 i 赢回客户 图2 3 客户生命周期不同阶段的数据挖掘技术 1 客户价值分析n 列 根据保险业务的知识,客户的潜在价值比当前价值要高。因此客户价值 的定义中潜在价值占6 0 ,当前价值占4 0 ,客户价值计算公式如下: 客户价值= 当前价值术4 0 + 潜在价值幸6 0 ( 2 1 ) 按照业务部门意见进行粗略的比例分配,确定当前价值计算公式如下: 当前价值= ( ( 1 一赔付率) + ( 1 一逾期应收比率) ) 2 ( 2 2 ) 其中 赔付率= ( 赔付金额保费金额) 堆10 0 ( 2 3 ) 逾期应收比率= ( 逾期应收保费总保费) 木1 0 0 ( 2 4 ) 逾期应收比例中的逾期应收保费不是保单的总应收保费,逾期应收保费 只是已到了交费期限的已了保险责任却未交款的部分金额。 考虑客户的潜在价值时需要同时包括该客户其他所有险种产品的情况, 而客户续保的保单数量不足以说明其贡献程度,应该根据其续保的所有保单 产品的总保费金额和总的保单产品保费金额的比例来判断,由此得到潜在价 值公式: 哈尔滨工程大学硕士学位论文 ;i i1 i i 宣 潜在价值= ( 续保保单总保费总的保单总保费) 木1 0 0 ( 2 5 ) 根据对已有客户的价值分析,找出有价值客户的特征,比对潜在客户特 征,对客户获取、保持客户以及对客户价值的二次开发有重要意义。 2 客户结构分析 根据客户职业、收入、年龄、习惯、爱好、健康状况、保单险种结构等 特点,进行客户结构分析,对实现客户交叉销售及客户保持有意义重大。 3 客户风险分析n 砌 根据保险险种特点,影响客户风险分析的因素主要分为两大类:影响死 亡率的相关因素和非死亡率因素。 影响死亡率的相关因素:年龄、性别、健康状况及病史、职业、地域、 爱好等;非死亡因素:道德风险因素、逆选择、财务状况等。 在潜在客户阶段,对准保户和已有客户进行风险分析,有利于规避企业 风险,获取客户及保持客户。 4 客户忠诚度分析 客户保持对公司利润的影响远远超过公司规模、市场份额、单位成本和 其它许多通常认为与竞争优势有关的因素。客户保持率提高极大地影响到企 业的利润的获取。对美国9 个行业的调查数据表明,客户保持率增加5 , 行业平均利润增加幅度在2 5 - - - 8 5 之间“”。客户保持已成为保险公司成功 最至关重要的目标。 而与之相反,客户流失则将给企业带来巨大损失,据有关统计显示,获 取企业新客户的平均成本是维护一个已有客户的5 倍左右,相当于一个客户 5 年内为公司带来的利润。 为避免客户流失,并保持客户,保险企业需要对流失客户进行分类,找 出有用的流失客户,分析其流失原因。 以上客户分析,可以通过使用分类技术来生成分析模型。企业可以根据 分析结果制订和实施相应策略。 因此,本课题主要将分类技术用于保险公司的客户关系管理当中,并根 据用户需求,确定其所要生成的基本模型包括以下几个方面:客户价值分析、 客户结构分析、客户忠诚度分析、客户风险分析。 1 2 哈尔滨工程大学硕士学位论文 2 4 本章小结 本章介绍了数据挖掘的定义、方法、用途及数据挖掘模型;结合保险客 户关系管理的特点及客户生命周期理论,分析客户生命周期各阶段中的用户 需求,得出需求分析结果,确定了保险客户关系管理中所要生成的基本模型 和生成模型所使用的数据挖掘技术。 哈尔滨丁程大学硕士学位论文 第3 章保险客户数据的预处理分析 保险c r m 管理的核心是模型的生成和管理,建立保险c r m 模型,首先 要抽取与模型相应的客户原始数据信息,进行数据的预处理。 3 1 数据预处理的作用 在保险c r m 数据库中,存放的是用于决策分析的知识信息,这些数据 来源并存储于相应的客户资源管理数据库。为组建c r m 数据库,需要确定 资源系统中的数据元素。数据要经过选取、清洗、转换后装载到c r m 数据 库中,从而提高数据质量,降低数据维数,以便于对这些数据进行后续分析, 建立起真正适合数据挖掘算法的分析模型。 本文用于分析的数据库所包含的主要基表如表3 1 所示。 表3 1 数据库主要基表 表名来源 业务数据调查 客户基本信息 主 辅 营销员信息 主 辅 保单信息 主 辅 险种信息 主 辅 索赔信息 主辅 为建立起真正适合数据挖掘算法的分析模型,考虑到影响客户分析的各 种因素,例如客户自然信息、购买的动态信息、营销员信息等,从保险客户 历史数据库主要基表中提取相关属性。上述信息包含客户的静态与动态信息。 3 2 保险数据预处理 3 2 1 数据集成 数据集成是指将来自多个数据源的数据合并到一起构成一个完整的数据 集。由于描述一个概念的属性在不同数据库种可能取不同的名字,在进行数 据集成时就常常会引起数据不一致或冗余。 在数据集成过程中,需要解决以下几个问题: 1 4 哈尔滨工程大学硕士学位论文 1 模式集成问题。来自多个数据源的数据与现实世界的实体相匹配,这 就涉及到实体识别问题。例如:c u s t o m e ri d 和o u s ti d 是两个数据库中的不 不同用户标识,它们是否为同一实体。 2 冗余。一个属性可以从另一属性中推演出来。如一个顾客的平均月工 资可以根据月收入计算出来。大量的数据冗余会降低挖掘速度,也会误导挖 掘进程。 3 数据值冲突的检测与处理。对于现实世界的同一实体,来自不同数据 源的属性值可能不同。例如,采用不同的长度、重量或货币单位。 将多个数据源中的数据集成起来,能够减少或避免结构数据集成造成的 数据冗余和不一致性。在完成数据集成之后,有时还需要进行数据清洗以便 消除能存在的数据冗余。 为满足挖掘的要求,需要对数据合并,相关举例如下: 1 如在客户信息表中,存在1 5 的客户超过两年未购买公司的任何保 险品,尽管这些客户数据对于企业分析客户流失、赢回流失客户是重要的, 但对于分析企业现有客户群体是无效的。所以,这部分客户信息,应该根据 分析需求加以取舍。 2 针对保险经营的特点,可以从不同角度对客户群体进行分类,从而形 成各种客户的分布统计,作为管理人员决策的依据。将客户群体进行聚类后 分出影响其分布的因素,从而指导代理人对不同类型的客户实行针对性营销, 是较容易实现的挖掘思路。由于各支公司所在地区经济发展状况差异,因此 须限定在一个经济水平相当的区域进行分析数据的采样。对于客户数量保过 少的支公司,其客户数据不应该作为被选取对象。 3 险种信息表中记录了客户购买保单中的险种信息,这些信息需要在挖 掘前聚合,以满足挖掘的需要。具体步骤是将险种信息表中的险种信息按照 保号进行数据集成,之后与保单信息表进行连接,得到保单完整信息表。 3 2 2 数据清洗 数据清洗( d a t ac l e a n i n g ) 是指消除数据中所存在的噪声数据以及纠正 其不一致的错误。数据清洗处理通常包括:填补空缺的数据值、平滑有噪声 数据,识别并去除异常值以解决数据不一致的问题。 哈尔滨丁程大学硕士学位论文 1 噪声数据是指存在着错误、异常或偏离期望值的数据。噪声数据的产 生原因有:数据采集设备有问题;在数据录入过程中发生了人为或计算机错 误;数据传输过程中发生错误。如:由于技术限制( 有限通讯缓冲区) ;由 于命名规则或数据代码不同而引起的不一致。 在数据清洗这一部分数据时,主要解决这样一些问题:发现重复记录、 发现不正确的属性值、对数据采取平滑操作以及发现和处理孤立点。 2 不完整( i n c o m p l e t e ) 数据是指挖掘目标感兴趣的属性没有值或只包 含聚集数据。例如,性别属性的缺失值本身是存在的,但没有相应的数据说 明。不完整数据的产生有以下几个原因:有些属性的内容没有,如,顾客信 息中的职业属性值缺失,可能是因为某人没有职业,或者当时被认为是不必 要的而没有填写;由于误解或检测设备失灵导致相关数据没有记录下来;与 其它记录内容不一致而被删除;历史记录或对数据的修改被忽略了。 对于缺失数据的处理方法有以下几种: ( 1 ) 丢弃相应记录。当数据记录只有一小部分含有缺失数据并且可以确 定缺失值表示信息丢失时,效果较好。例如,在审查集成后的数据挖掘信息 表时发现有3 5 名客户的所有统计信息均为空。经过调查发现,这3 5 名客户 确实在该地区购买过保单,但购买的保单中无险种信息,为了不使这些客户 记录影响最终的挖掘结果,又考虑到这部分客户数量较小不会影响总体分布 情况,故将这些客户信息删除。 ( 2 ) 对于实值数据,利用同类别均值填补缺失值,或忽略缺失值。例如, 某客户年龄为负,显然是数据录入错误,也可以看成缺失值,此处使用平均 年龄3 6 来修改属性值。 ( 3 ) 判断缺失数据的可能取值。当缺失属性为输出属性时,使用含有该 属性的己知值的实例进行分类,手工填补缺失值、利用缺省值或最可能的值 填补缺失值。例如,某客户信息数据表中有3 5 3 5 条记录( 4 2 ) 的学历属性 为缺失状态,而学历属性又是划分客户群体的一个重要因素,所以不能删除 该属性。此处把这些缺失值作为一种特殊取值单独对待。对于表中诸如婚姻 状况、收入等重要属性存在缺失值,且缺失记录个数所占比例较大,都需要 进行填补缺失值处理。婚姻状况和收入属性分别属于类别型变量和数值型变 量,可以使用最频繁值和平均值它们进行填补。 1 6 哈尔滨t 程大学硕士学位论文 3 不一致数据则是指数据内涵出现不一致情况。例如,表示商品同一属 性的编码出现不同值。有些数据不一致可以通过其他数据加以更正( 通过函 数依赖查找违反函数依赖的值) ,工程工具也可以用来检测违反限制的数据。 3 2 。3 数据转换 数据转换( d a mt r a n s f o r m a t i o n ) 就是指将数据进行转换或归并,以构成 一个适合数据挖掘的形式。在正式进行数据挖掘之前尤其是使用基于对象距 离的挖掘算法时,常常要进行数据规格化处理,以消除数值型属性因大小不 一而造成挖掘结果的偏差。 在建立模型过程中,职业、年龄属性常常需要进行泛化处理,以减少由 于属性分类过细导致的不科学、不合理现象发生。 1 职业类别划分。为实现精确计算不同人群投保费用、风险概率等目的, 可根据中华人民共和国职业分类大典将客户职业进行大类划分。见表3 2 。 表3 2 客户职业分类字典 职业代码职业类别 p 1 国家机关、党群组织、企业、事业单位负责人 p 2 专业技术人员 p 3 办事人员和有关人员 p 4 商业、服务业人员 p 5 农、林、牧、渔、水利业生产人员 p 6 生产、运输设备操作人员及有关人员 p 7 生产、运输设备操作人员及有关人员 p 8 军人 p 9 教育工作者、学生 p 1 0 运动员 p 1 1未知 2 保单类型:目前寿险累计已有二百多个险种,可按保险性质,将保单 类型划分为5 种类型,并将字段名转化为险种类型,见表3 3 。 1 7 哈尔滨工程大学硕十学位论文 表3 3 保单类型 保单类型含义 a 少儿教育基金 b 储蓄型( 养老金、储蓄金) c 医疗型( 重大疾病、住院治疗) d 意外型 e 投资型( 理财型,分红型) 3 将连续型属性概化为区间值。由于对离散型数据进行处理的速度最快, 因此在建立决策树时,需要对连续型数值进行离散化处理。例如,为保持处 理后的属性不丢失对分类结果的影响作用,又防止其由于取值过多、客户分 布严重不均匀而影响分类效果,根据实际情况,可对年龄、收入等属性进行 概化,以某保险公司客户抽样数据为例,见表3 4 和表3 5 。 表3 4 客户年龄分布字典 年龄区间 代码 ( 0 ,1 0 】 a l ( 1 0 , 2 0 a 2 ( 2 0 ,3 0 a 3 ( 3 0 ,4 0 0 a 4 ( 4 0 - 5 0 】 a 5 ( 5 0 ,一】 a 6 表3 5 客户收入分布字典 收入区间 代码 ( 0 ,1 5 0 0 0 】 s 1 ( 15 0 0 0 ,3 0 0 0 0 】 s 2 ( 3 0 0 0 0 ,5 0 0 0 0 】 s 3 ( 5 0 0 0 0 ,6 0 0 0 0 s 4 ( 6 0 0 0 0 ,一】 s 5 为进行风险分析,选取索赔金额作为目标属性,其他属性作为独立变量。 所有保单被划分为两类,即有索赔的和无索赔的,将索赔金额转换为“是否 索赔”( 值为1 或0 ) ,而后利用数据集合来生成一个完整的决策树。在生成 的决策树中可以建立一个规则基。一个规则基包含一组规则,每一条规则对 应决策树的一条不同路径,这条路径代表它经过节点所表示的条件的一条连 哈尔滨工程大学硕士学位论文 接。 3 2 4 数据消减 数据消减( d a mr e d u c t i o n ) 是指通过删除冗余特征或聚类来消除多余数 据,从而缩小所掘数据的规模,但却不会影响( 或基本不影响) 最终的挖掘 结果。现有的数据消减方法包括: 1 数据立方体聚集。 2 维数消减。例如,保单信息中的“是否体检”这一属性的缺失率达到 9 8 ,消减这一属性有利于降低维数。又如针对特殊需要分析建模时,分红 性质险种被排除,“红利领取方式”属性也将被排除,凡与分红型险种有关 的信息( 客户购买信息,仅购买分红型险种的客户信息) 均将被删除。 3 数据压缩,即利用编码技术压缩数据集的大小( 如最小编码长度或小 波) ; 4 数据块消减,如:利用聚类或参数模型替代原有数据n ”。 3 3 本章小结 本章主要介绍了数据预处理分析在数据模型建立中的重要性和数据预处 理的四种方法,结合保险公司实际,给出了客户数据预处理的主要过程,为 后期模型管理子系统的设计和实现做准备。 1 9 哈尔滨工程大学硕士学位论文 第4 章保险c r m 系统模型生成分析 建立保险c p , m 系统的目的是挖掘客户信息,生成客户信息模型,以支 持管理决策,模型生成技术及实现过程是本课题的核心部分。 4 1 决策树算法 决策树算法是一种归纳分类算法,能很好地与超大型数据库结合,并能 处理相关的多种数据类型( 连续、离散、布尔) ,决策树模型是最受欢迎的 模型。 决策树算法的主要优点如下n 们: 1 决策树算法能够生成可以理解的规则,形成挖掘模型。 2 决策树算法的计算量相对其他方法来说比较小,因此可以大大缩短计 算时间,提高系统效率。 3 决策树算法可以处理连续和离散数据。 4 决策树可以清晰地显示出属性的重要程度。 当前比较成熟的决策树方法有i d 3 、c 4 5 、c a r t 算法等,c 4 5 算法是在 i d 3 算法基础上的改进算法,c a r t 算法适用于样本集较小的情形,考虑到保 险客户信息量特点,模型生成采用c 4 5 算法。 应用这种方法需要构建一颗树对分类过程进行建模,一旦建好了树,就 可以将其应用于数据库中的元组并得到分类结果。决策树算法i d 3 c 4 5 使用 信息增益( i n f o r m a t i o ng a i n ) 作为选择属性对节点进行划分的指标。 4 1 1 信息增益 1 9 4 8 年,香农( c e s h a n n o n ) 提出了信息论。其中对信息量( i n f o r m a t i o n ) 和熵( e n t r o p y ) 的定义分别见式( 4 1 ) 和( 4 2 ) 。 i n f o r m a i n = t 0 9 2 只 ( 4 一1 ) e n t r o p y = 一p jl 0 9 2 ( 鼻) ( 4 2 ) 熵是一个衡量系统混乱程度的统计量。熵越大,表示系统越混乱。划分 2 0 哈尔滨t 程大学硕士学位论文 后熵的减少量就是信息增益,信息增益最高的划分将被作为分裂方案。 1 数据集s 划分前的熵 设数据集s 有a l ,a2 ,a n ,c 共n + 1 个属性。其中分类属性c 有n 个不同的离散属性值c l ,c 2 ,c m ,即数据集s 中的记录可分成m 个类 别。设数据集s 中的全部记录数为s ,分类属性值为e l ,c 2 ,c m 的记录 数分别为s l ,s 2 ,s m 。那么划分之前,数据集s 的总熵为: e 例= e ( s j ,s 2 ,s r a ) = 一p i l 0 9 2 ( p t ) ( 4 3 ) i = l 其中p i 是s 中任意一个记录属于类别c i 的概率,用s i s 估计。可以看出, 数据集s 的总熵在划分之前是属于不同类别记录信息量的加权平均。 2 数据集s 划分后的熵: 假设属性a 具有v 个不同的离散属性值,可使用属性a 把数据集s 划分 成v 个子集 s l ,s 2 ,s v 。设子集s j 中全部的记录数为s j ,其中分类属 性值为e l ,c 2 ,e m 的记录数分别为s u ,s z j ,s i l l i 。子集s j 的熵为: e ( s i j , s 驴。s 哪) = 芝p 口l o g2 ( p j ) ( 4 - - 4 ) 其中确是s j 中任意一个记录属于类别c i 的条件概率,用s i j s j 估计。使 用属性a 把数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 47456-2026载人航天器材料选用要求
- 1.1 马克思主义劳动观的基本观点
- Unit 6 Sunshine for all 单词短语句型语法(教材考点精练)(解析版)
- 方法模型:整体思想、分类讨论
- ktv厨房外包合同
- 上海临时工外包合同
- 东坑劳务外包合同
- 主播外包合同
- 产品渠道外包合同
- 代招客服外包合同
- 雨课堂在线学堂《大学生国家安全教育》作业单元考核答案
- 四川省市2025年中考数学真题试卷十五套附同步解析
- 实施指南(2025)《AQ 2059-2016磷石膏库安全技术规程》
- GB/T 20118-2025钢丝绳通用技术条件
- 信贷业务担保知识培训课件
- 艾滋病卡波西肉瘤课件
- 初中英语整体单元教学研究报告
- 3.1 世界是普遍联系的 课件 高中政治统编版必修4 哲学与文化
- 人教版高中高二《美术》选择性必修一-为眼睛做导游(建构画面)-教学设计
- 监狱智能管理系统
- 人造板行业政策与安全生产考核试卷
评论
0/150
提交评论