




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)基于业务数据分析的保险公司辅助决策支持系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海师范大学硕士学位论文 摘要 摘要 保险公司的业务数据量非常大,要快速处理并管理好海量的信息对企业来说 确实是个巨大的挑战。本文就是应日本某保险公司的需求开发了一个保险业务数 据管理系统,同时运用了s q ls e r v e r2 0 0 5 中的b i d s ( b u s i n e s si n t e l l i g e n c e d e v e l o p m e n ts t u d i o ) 对分类的业务数据进行分析,帮助企业找到数据间的内在 关联及潜藏在数据背后的一些信息。 保险业务数据管理系统能使企业中的员工能更快速的从大量的数据中得到 所需的数据,同时满足公司对数据处理的一些必备要求和条件,让数据的管理更 高效,数据的查询更快捷,数据的分类更有层次。这不但节省了很多管理上的开 销也提高了工作的效率。 在管理好海量数据的基础上,还要研究分析这些数据资源,找到不同客户群 的异同点及其购买产品的倾向性亦或者是客户购买行为的共性规律,这样才能帮 助企业获得新的利润增长点。光有这么多的数据而不能发现其内在的联系,找到 并利用好潜藏在数据背后的有利于企业的信息,根本无法真正体现了这些资源的 作用。近些年来随着数据分析,数据挖掘技术和决策技术的日趋成熟,这种通过 对现有业务数据的分析找到规律的模式,正为企业的进一步发展提供了一个思 路,带了来一个新的契机。 第一章写了本文的目的,意义,国内外的现状及所做的主要工作。第二章概 述了构建保险公司辅助决策支持系统所需要用到的一些技术和模块:数据管理系 统,知识库的设计,数据挖掘技术。第三章根据企业实际的需求开发保险公司业 务数据系统的一些设计及实现。第四,五章主要讲述了如何运用数据挖掘中的类 聚算法和决策树算法来构建模型,并以保险业务数据管理系统生成满足用户要求 的样本库为基础不断改进模型,帮助企业完成对客户群体的分类,和主要的客户 群体,发现他们的共性,为不同的消费人群提供人性化的服务,并为争取到潜在 的客户提供了的条件。第六章主要是对前文数据的分析和总结。 关键词:保险业务数据管理系统,知识库,类聚算法,决策树算法 上海师范大学硕士学位论文 摘要 a b s t r a c t t h ea m o u n to fi n s u r a n c ec o m p a n y sb u s i n e s sd a t ai sv e r yl a r g e ,a n di ti si n d e e dah u g ec h a l l e n g e f o rt h ec o m p a n yt oq u i c k l yp r o c e s sa n dm a n a g ev a s ta m o u n t so fi n f o r m a t i o no nb u s i n e s s e s w e h a v ed e v e l o p e da ni n s u r a n c ed a t am a n a g e m e n ts y s t e mi nt h ed e m a n do faj a p a n e s ei n s u r a n c e c o m p a n y , w h i l eu s i n gt h es q ls e r v e r2 0 0 5i nb i d s ( b u s i n e s si n t e l l i g e n c ed e v e l o p m e n ts t u d i o ) t oa n a l y s i sb u s i n e s sd a t ai nc l a s s i f i c a t i o na n dm e a n w h i l eh e l p st h ee n t e r p r i s e st of i n dt h ei n t r i n s i c c o r r e l a t i o nb e t w e e nt h ed a t aa n ds o m ei n f o r m a t i o nt h a ti sh i d d e nb e h i n di nt h ed a t a i n s u r a n c ed a t am a n a g e m e n ts y s t e ma l l o w se n t e r p r i s ee m p l o y e e st og e tt h er e q u i r e dd a t af r o ma l a r g en u m b e ro fd a t am o r eq u i c h y , a n di nt h es a m et i m ei tw i l lm e e ts o m er e q u i r e m e n t sa n d c o n d i t i o n si nt h ec o m p a n y sd a t ap r o c e s s i n g w h i c hm a k e si tp o s s i b l ef o ru st om a n a g et h ed a t a m o r ee f f i c i e n t l y t h ed a t aq u e r yw i l lb ea n s w e r e df a s t e r , a n dd a t aw i l lb ec l a s s i f i e dm o l e s t r u c t u r e d rn o to n l ys a v e sal o to f m a n a g e m e n to v e r h e a d sb u ta l s om a k e sw o r ke f f i c i e n t o nt h eb a s i so fg o o dm a n a g e m e n to nt h el a r g ea m o u n t so fd a t ar e s o u r c e s ,w ea l s on e e dt os t u d y a n da n a l y s i st h e s ed a t at of i n dt h es i m i l a r i t i e sa n dd i f f e r e n c e sb e t w e e nd i f f e r e n tc u s t o m e rg r o u p s a n dt h e i rt e n d e n c yt op u r c h a s ep r o d u c t so rt h ec o m m o nl a wo fc u s t o m e rb u y i n gb e h a v i o rs oa st o h e l pe n t e r p r i s e st oa c c e s sn e wp r o f i tg r o w t hp o i n t i tc a nn o tb et r u l yr e f l e c t e dt h er o l eo ft h e s e l e s o u l t , e so n l yh a v i n gt h e s ed a t aw i t h o u t 伽i n gt h ei n t r i n s i cl i n kb e t w e e nt h ed a t aa n dm a k ef u l l g o o du s eo ft h ei n f o r m a t i o nh i d d e nb e h i n di nt h eb u s i n e s sd a t at h a ti sb e n e f i tf o rt h ec o r p o r a t i o n i nr e c e n ty e a r s , w i t ht h ed e v e l o p m e n to fd a t aa n a l y s i s ,d a t am i n i n ga n dd e c i s i o n - m a k i n g t e c h n o l o g y , t h em o d e l , t of i n de x i s t i n gl a w sb ym e a n so ft h ea n a l y s i so fc u r r e n tb u s i n e s sd a t a , o f f e r saw a yo ft h ee n t e r p r i s ef o rt h ef u r t h e rd e v e l o p m e n t , w h i c ho fc o l l r s eb r i n g san e w o p p o r t u n i t y t h ef i r s tc h a p t e rd e s c r i b e st h ep u r p o s ea n dt h em e a n i n go ft h i sa r t i c l e ,t h ec u r r e n ts t a t u sa th o m e a n da b r o a da n dw h a th a sb e e nd o n e i ns e c o n dc h a p t e r , i to u t l i n e ss o m eo ft h et e c h n o l o g i e sa n d m o d u l e st ob u i l dt h ea s s i s t e dd e c i s i o ns u p p o r ts y s t e mf o rt h ei n s u r a n c ec o m p a n i e s :d a t a m a n a g e m e n ts y s t e m , k n o w l e d g eb a s ed e s i g n , d a t am i n i n gt e c h n i q u e s t h et h i r dc h a p t e rm a i n l y t e l l st h ed e s i g na n di m p l e m e n t a t i o no fd a t am a n a g e m e n ts y s t e m sf o rt h ei n s u r a n c ec o m p a n y , a c c o r d i n gt ot h ep r a c t i c a ln e e d so fe n t e r p r i s e i nt h ef o r t ha n dt h ef i f t hc h a p t e r , i ti ss a i dt h a th o w t oa p p l yd a t am i n i n gc l u s t e r i n ga l g o r i t h m sa n dd e c i s i o nt r e ea l g o r i t h m st ob u i l dm o d e l sa n d i m p r o v e st h em o d e lc o n t i n u o u s l yo nt h eb a s i so ft h eu s eo fi n s u r a n c ed a t am a n a g e m e n ts y s t e mt o g e n e r a t eas a m p l el i b r a r yw h i c hm e e t st h er e q u i r e m e n t so fu s e ra n dh e l p st h eb u s i n e s s e st o c o m p l e t et h ec l a s s i f i c a t i o no ft h ec u s t o m e r , t h em a i nc u s t o m e rg r o u p sa n df o u n dw h a tt h e yh a v e i nc o m m o n , p r o v i d i n gp e r s o n a l i z e ds e r v i c ef o rd i f f e r e n tc u s t o m e rg r o u pa n dm a k e si tp o s s i b l et o g e tm o r ep o t e n t i a lc u s t o m e r s t h es i x t hc h a p t e ri sm a i n l yf o rt h ep r e c e d i n ga n a l y s i so ft h ed a t a a n dc o n c l u d e s k e y w o r d s :i n s u r a n c ed a t am a n a g e m e n ts y s t e mk n o w l e d g eb a s ec l u s t e r i n ga l g o r i t h m sd e c i s i o n t r e ea l g o r i t h m s 攻读硕士学位期间的研究成果上海师范大学硕士学位论文 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以 标注和致谢的地方外,不包含其他人或机构已经发表或撰写过的研究成果。其他同志对本研 究的启发和所做的贡献均已在论文中做了明确的声明并表示了谢意。 储签笺、b 。日期:,d s 7 燃、 。 论文使用授权声明 本人完全了解上海师范大学有关保留、使用学位论文的规定,即:学校有权保留送交论 文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、 缩印或其它手段保存论文。保密的论文在解密后遵守此规定。 作者签名: 群缘 导师签名: 日期:劬,口,s 21 上海师范大学硕士学位论文第一章绪论 第一章绪论 1 1 课题的目的和意义 本课题是源自于上海计算所亚申纳罗公司接到的一个日本保险公司的项目, 开发一套用于保险业务数据处理的管理系统,并对业务数据进行分析。 现在是信息化的时代,计算机正越来越多的融入到我们的工作生活中来。企 业可以通过信息技术来改变现有的一些模式,我们可以更多的让计算机去处理那 些复杂冗余的数据。而且通过对数据的分析我们可以更有针对性的开展工作,这 样可以大大提高工作效率,从而可以创造出更大的价值。基于数据挖掘技术的分 析和辅助决策支持系统可以帮助企业从客户数据的海洋中寻找并发现那些有用 的一些信息,以帮助企业获得更好的收益,而这也是企业管理者的真实想法和迫 切需要。 近几十年来,人们利用信息技术产生和搜索数据的能力以惊人的速度在增 长,i n t e r n e t 的飞速发展让人们可以在这信息世界中任意邀游,但同时也带来 了新的问题和挑战:在这被称为信息爆炸的时代,怎样才能使自己不再数据的海 洋中迷失而且能够识别海量数据背后隐藏的重要信息呢。 在这种情况下,数据挖掘技术h 1 应运而生,很好的解决了挖掘数据背后隐藏 的知识的能力,这也是信息技术自然演化的必然结果。 从广义的角度来理解知识的话,数据,信息都是具体的表现形式,同时人们 也把概念,规则,模式和约束等看作知识的抽象形式。可以说数据就是形成知识 的源泉,而数据挖掘拍1 这个词也很形象生动的体现了这个过程,就像是从矿石中 采矿或淘金一样。发现的知识可以被用于信息管理,查询优化n 帕,决策支持n 司 和过程控制等多个领域的运用。可以这样说数据挖掘技术融入了多门学科的特 点,涉及到人工智能,数据库,统计学,机器学习,知识获取n 朝,数据可视化, 高性能计算等多个研究领域。它的存在从根本上改变了人们看问题和分析问题的 角度,让人们对数据的应用达到一个崭新的高度不单单是简单的查询而是提 供决策支持n 叼上来。 而伴随着数据挖掘的另一个词就是数据库中的知识发现旧( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) 。一般把知识发现描述为从数据库中获取正确, 新颖,有潜在应用价值和最终可理解的模式的处理过程。数据挖掘时k d d 的一个 关键步骤,同时也是它的一个技术难点所在。下图是k d d 的关键步骤。数据挖掘 算法的好坏将直接影响到k d d 所发现知识的准确性,而目前k d d 研究大部分集中 在数据挖掘算法和应用的技术上。实际应用中这两者往往用不着很严格的去区 分,在科研领域称为k d d ,在工程领域称为数据挖掘。 i 第一章绪论 上海师范大学硕士学位论文 图1 - 1k d d 的关键步骤 这套系统可以有效地管理保险公司的数据,并对其进行分类处理和分析,这 样不但可以较好地划分客户群体,决定客户的商业价值,而且为公司的销售提供 有益的思路及数据上的支持,为公司更好的了解客户提供了可能,同时也能让公 司尽可能的保持住客户群体,不让其流失。毕竟客户资源是保险公司最宝贵的东 西。 1 2 研究背景 随着人们生活水平的不断提高,越来越多的人将目光投向了对自身的关注。 物质文化生活不断地多元化,使得人们面临很多很多的选择,在面对如此多的选 择的时候,如何才能让自己作出最好的选择成为了一个困扰人的问题。不单单是 个人,企业同样面临这样的问题。一个随意的决定往往是失败的前兆,而现在在 我们周围有如此多的信息供我们选择,如何才能在这浩如烟海的信息中选出我们 所需要的东西从而作出正确的判断并以此来制定行之有效的策略【2 0 1 ,而这从微 观上来说往往决定了商场战役的胜败,但是从宏观上来说就是公司发展战略的一 个走向或者说是公司能否更多地获得市场份额的重要决策。 保险业近些年来在中国取得了长足的发展,可谓是发展迅猛,很多商家都看 到了其中蕴含着的巨大商机,纷纷投入其中,因此市场竞争也越来越激烈。中国 本土的及很多国外的公司都看准了这个巨大的市场及它所带来的巨大回报。为了 更好的了解市场,获得更准确的一手资料和情报,数据分析和决策支持系统正受 到企业们的关注。了解了消费者的需求也就能推出相对应的产品,从而更好的占 领市场,也可以使公司更快更好的发展。 中国的保险业起步较晚,中国平安,中国人保,太平洋保险是国内比较知名 的保险公司。在人们的传统印象中好像保险行业总是不那么受人欢迎,因为买保 2 上海师范大学硕士学位论文第一章绪论 险就是为了防止意外情况的发生,而最好的情况当然是不要发生意外,所以在人 们的内心中总感觉买了保险就等于要发生意外,认为买保险是不吉利的事情。这 其实是对保险业的一种误解。刚开始的一段时间里确实是很受人排斥,但随着改 革开放的进一步深化以及当初很多保险推销员的大力宣传,人们渐渐地明白了什 么才是保险,了解到它能最大程度的弥补你所遭受的损失。 改革开放3 0 年,中国保险业务快速增长,服务领域不断拓宽,市场体系日 益完善,法律法规逐步健全,监管水平不断提高,风险得到有效防范,整体实力 明显增强,在促进改革、保障经济、稳定社会、造福人民等方面发挥了积极作用。 2 0 0 7 年,保险市场运行保持了良好势头,呈现出增长较快、运行稳定、结 构优化、质量提高的基本特征。2 0 0 7 年中国保险业全行业总计实现保费收入 7 0 3 5 8 亿元,同比增长2 5 其中财产险保费收入1 9 9 7 7 亿元,同比增长3 2 6 ; 寿险保费收入4 4 6 3 8 亿元,同比增长2 4 5 ;健康险保费收入3 8 4 2 亿元,同比 增长2 4 ;意外险保费收入1 9 0 1 亿元,同比增长1 7 4 。截至2 0 0 7 年底,保 险资金运用余额2 7 万亿元,资金运用收益超过前五年的总和,达到2 7 9 1 7 亿元, 投资收益率为历史最好水平。 2 0 0 8 年,保险业积极参与抗击突如其来的两场特大自然灾害,应对历史罕见 国际金融危机的挑战,各项工作取得新的进展,保险业务较快增长,风险得到有 效防范,损失补偿功能逐步发挥。2 0 0 8 年截至1 1 月底,全国实现保费收入9 1 5 0 5 亿元,同比增长4 2 。其中,财产险保费收入2 1 5 9 1 亿元,增长1 7 5 ;人身险 保费收入6 9 9 1 4 亿元,增长5 1 8 。2 0 0 8 年前1 1 个月,保险业赔款和给付支出 已达2 6 7 5 亿元,同比增长3 2 7 。在抗灾救灾中,保险业发挥了积极作用,分 别为南方低温雨雪冰冻灾害和汶川地震灾害支付赔款5 5 亿元和1 0 亿元。 2 0 0 9 年,保险业积极应对各种严峻挑战,战胜种种困难,各方面工作取得显 著成绩。全年保费收入首次突破1 万亿元,达到1 1 1 3 7 3 亿元,同比增长1 3 8 。 财产险业务继续保持较快增长,保费收入2 8 7 5 8 亿元,同比增长2 3 1 。人身 险业务保费收入8 2 6 1 5 亿元,在上年增速较高的基础上同比增长1 0 9 。全年 赔付3 1 2 5 5 亿元。 中国保险市场具有广阔的发展前景和潜力。2 0 1 0 年,中国经济增长的内在动 力依然较强,经济仍具备实现平稳快速增长的有利条件,这为我国保险业的发展 奠定了坚实的基础。2 0 1 0 年财产保险市场将可能继续保持较快增长,其重要原 因在于车险市场的增长潜力。寿险业务的增长趋势很大程度上取决于银行保险的 增长情况,如果2 0 1 0 年银行保险业务继续调整,寿险业务的总体增长将继续趋 缓。 1 3 国内外现状的分析 国外的决策分析界比较关注的一些主要问题: 3 第一章绪论上海师范大学硕士学位论文 不确定性决策问题的建模与分析技术。面对复杂的决策问题,试图完全用数 学模型进行精确刻画似乎是不显示的,即使对某些问题可行,但求解与分析也是 非常困难的。 一个国外比较著名的通过数据挖掘而发现隐含在其中的规律的应用就是 w a l m a r t 超市的“尿布与啤酒 案例。这让越来越多的企业开始关注数据挖掘这 个技术手段以及如何更好地获知数据间的内在关系。现在用多能智体 ( m u l t i a g e n t s ) 技术实现复杂问题决策支持已经成为决策支持系统研究的一个思 路。 网络环境下的决策理论与方法。i n t e r a c t 对企业的生产组织方式和决策模式 产生了前所未有的影响。而且由于电子商务的快速发展,研究网络环境下的决策 理论与方法就显得特别重要。许多与决策分析理论和方法相关的问题在网络环境 下都需要重新开展研究。 1 3 1 保险业的发展及决策支持系统的应用前景 截至2 0 0 7 年1 2 月3 1 日,全国共有保险专业中介机构2 3 3 1 家,外资保险专 业中介机构7 家。伴随着业务的稳步发展,专业中介机构的盈利能力也不断提高。 2 0 0 7 年,全国专业中介机构共计实现盈利1 9 4 9 6 2 万元,同比增长9 6 2 2 。特 别是保险经纪机构,全年实现盈利2 2 0 5 3 万元,同比增长1 0 4 7 4 ,为历史最好 水平。保险中介盈利能力和发展前景日益受到资本市场的关注,同时,中介机构 也面临着一些挑战,例如,专业中介机构分布不平衡现象依然存在等。 2 0 0 8 年保险业实现原保险保费收入9 ,7 8 4 1 亿元人民币,同比增长3 9 1 , 但增速较2 0 0 8 年上半年下降近1 2 个百分点。2 0 0 8 年寿险业务原保险保费收入 6 ,6 5 8 4 亿元,增长4 9 2 ;财产险业务原保险保费收入2 ,3 3 6 7 亿元,增长1 7 ; 健康险业务原保险保费收入5 8 5 5 亿元,增长5 2 4 ;意外险业务2 0 3 6 亿元, 增长7 1 。2 0 0 8 年末,保险业总资产3 3 万亿元,较上年初增长1 5 2 ;保险 资金运用馀额3 1 万亿元,较上年初增长1 4 3 。 在金融海啸的冲击下,中国政府已通过各种政策来保证经济和金融的安全、 稳定与发展。保监会红头文件不断,各项监管政策陆续出台,反复强调保险业理 性回归保障,稳健经营的重要,也传达出一项讯息:未来一段时间内,将继续通 过相关措施,促进保险机构规范经营及保险业的长期稳定。国内那些将大量资金 投资于资本市场的保险公司亲历了金融风暴带来的损失,也逐渐从前一年疯狂追 逐资本市场的奔跑中冷静下来,实施新的经营策略。可以说,这次金融危机对保 险业来说,是一个调整的契机,中国保险市场将迎来新的持续稳定发展阶段。 1 3 2 数据挖掘技术与保险销售 知识发现0 9 1 和数据挖掘技术因为其在现实中具有很大的应用价值和现实意 义,所以近年来一直是学术界关注的焦点。从数据库中发现知识( k n o w l e d g e 4 上海师范大学硕士学位论文 第一章绪论 d i s c o v e r 7i nd a t a b a s e ,简称k d d ) 一词源于1 9 8 9 年8 月举行的第十一届国际联 合人工智能学术会议上。迄今为止,有关k d d 的国际研讨会规模已由原来的专 题讨论会发展到国际学术会议。如今,随着数据库文化的迅速普及,用数据库作 为知识源具有坚实的基础,同时对于感兴趣的一个特定领域,先用数据库技术将 其形式化并组织起来,就会大大提高知识过去的起点,以后从中发掘或发现的所 有知识都是针对该数据库而言的。 目前,知识发现和数据挖掘技术的研究重点在国际和国内都逐渐从对方法的 研究转向为结合实际的要求而将数据挖掘的技术融入到系统的应用中去,并且注 重多种发现策略和技术的集成,以及多种学科间的相互渗透。在市场需求的驱动 下,数据挖掘的研究正成为一块新的热点,吸引了很多数据库学者的高度关注。 目前,国外数据挖掘的发展趋势和其研究的方面主要是对知识发现方法的进 一步研究发展。在应用方面主要是逐步完善对k d d 商业软件工具,将一个大的 问题转化为多个小的问题分别求解,将注意力更多的放在解决问题的整体系统 上。国外很多计算机公司非常重视数据挖掘的开发应用,m m 和微软都成立了 相应的研究中心进行这方面的工作。 1 4 论文的研究目标 随着市场化的不断深入,各企业越来越关注自己在整个市场中的地位及所占 的市场份额,因为这直接关系到公司的收入与将来的发展。但是现在要通过招募 新客户的方式来提升销售业绩变得越来越困难。消费者面临如此多的选择,而企 业又通过何种手段怎样才能获得客户的青睐呢? 只有了解了客户的明确需求,提 出符合客户要求的产品才能在激烈的市场竞争中获胜。在目前的情况下,如何通 过最小的代价来更明确的获得客户的需求就成了企业决策者,管理者需要考虑的 问题,而其中i t 部门必须要承担起责任,建立起对数据分析处理的决策支持系 统来帮助公司推出更好的产品,用更人性化的服务来打动客户,完成对市场的拓 展及占领。通过对数据的分析同时也可以为公司将来如何发展及发展方向提出参 考意见。 s q ls e r v e r2 0 0 5 是微软的一款比较成功的产品,它提供了端到端的商业智 斛8 】集成开发平台,并且支持n e t 的应用扩展,能利用o f f i c e 工具来进行前 端展现,具有良好的用户操作友好性和扩展性,因此我选择s q ls e r v e r2 0 0 5 作 为整个应用系统的分析和挖掘工具。 1 5 论文的主要工作 1 ) 运用扩展的m v c 结构来构建保险公司业务数据管理系统,对数据库中 的数据进行分类管理,满足公司不同人的需求。 2 ) 将知识库的概念引入并运用到该管理系统中,可以根据不同的需要来生 成样本库。 5 第一章绪论上海师范大学硕士学位论文 3 ) 建立模型,并使用前面生成的样本库不断完善模型,使得模型更接近现 实的需求。 4 ) 查阅有关数据挖掘类聚方法的资料,了解其原理,并作出分析。运用该 方法对数据分析,将客户分类,并找到不同分类的客户存在的一些共性,有 利于公司推出更人性化的产品,留住客户。 5 ) 通过对决策树算法的分析研究,并结合样本库,模型库,分析并找到现 有客户的一些特点,以利于企业更有针对性的发展潜在的客户,同时也大大 提高了员工的工作效率。 6 ) 将分析得到的结果通过e x c e l 的形式来展现,给人的感觉更直观,清晰, 而且o f f i c e 是个常用的软件,省去了再去学习使用其他软件的麻烦。 由于保险行业牵扯到的数据量非常大,用人工的方法来分析处理需要花费大 量的成本。为了使资源得到成分的利用,我们可以借助数据应用分析的现代化信 息手段来完成对海量数据的处理分析,提高公司的效益。数据挖掘对查找和描述 特定多维数据集中的隐藏模式非常有用。因为多维数据集中的数据增长很快,因 此手动查找信息可能比较困难。数据挖掘提供的算法允许自动模式查找及交互式 分析。首先要创建挖掘的技术。不同的技术适合对不同的需求做处理。 本论文将采用两种数据挖掘的方法来分析处理数据。用样本库的数据不断完 善模型,并用类聚【4 】的方法来处理数据,找到不同的客户群。然后对每个分类用 决策树的方法再次处理,形成了多层挖掘,提高了数据的准确性。这种方式使得 我们可以将精力集中在我们感兴趣的数据上。 本文将通过s q ls e r v e r2 0 0 5 进行研究分析保险公司的客户数据,并结合 e x c e l 来进行主题的展现。 系统的工作量: 这个系统的项目共持续了十一个月的时间,由于日本人多次变更式样书,导 致项目的进度有些拖延。其中编写代码用了八个月的时间,还余下三个月的时间 进行测试及b u g 的修改。 由于运用数据挖掘算法来处理保险公司的数据还处于研究的初步阶段,还没 有相对成熟的产品,而且目前只有个别的企业在使用这种方法来处理数据。本文 结合企业的实际情况对通过类聚和决策树分析该保险公司的数据,具有业务创新 和应用创新。现在中国的保险行业正受到越来越的关注,保险市场也正在不断走 向成熟,并且拥有较为广阔的市场前景和潜力。虽然本文是针对日本某保险公司 的需求所作的开发,但对于中国的保险公司来说,面临同样的问题,因此在保险 业务数据的处理分析上本文也算是进行了一种有益的探索。 6 上海师范大学硕士学位论文第二章保险公司辅助决策系统的有关理论依据 第二章保险公司辅助决策系统的有关理论依据 2 1 保险公司决策支持系统的构架 图2 - 1 保险公司决策支持系统的构架 2 2 保险公司数据管理系统 帮助企业更好的管理公司的数据,同时可以更有针对性的得到想要的数据。 业务人员可以通过对数据的一系列操作从数据库中庞大的数据里找到自己想要 的数据,然后可以对这些数据进行打印,或者预览,输出到e x c e l 或者是以 c s v 的文件形式保存。 这套数据管理系统是按照日本某保险公司的具体需求来设定的,能完成企业 所要求的对数据的处理。由于系统采用了m v c 的层次结构来开发,使得系统的 各部分功能相对独立,具有较好的扩展性,而且逻辑清晰。针对保险公司业务数 据量比较大查找数据可能需要较长等待时间的情况,在系统的设计过程中采取了 先建立临时表,再对表中的数据进行操作的方法来处理,这样不但可以节省不少 系统的开销,同时减少用户等待的时间。系统还采用了用户名密码和机器号两重 身份验证措施,使得系统的安全性得到了加强。 这个系统由于分为好几个模块,所以是由多人合作完成的。先各自完成自己 的功能模块,然后再整合形成一个整体,最后生成可执行文件,而各个模块的功 能以d l l 的形式来进行调用的。 7 第二章保险公司辅助决策系统的有关理论依据上海师范大学硕士学位论文 整个系统分为好几个模块,有m a s t e r 部分,明细部分,帐票部分,数据设 定部分,入力部分,出力部分。 m a s t e r 部分包含保险会社m a s t c t ,社员m a s t e r ,细目m a s t i f f ,名称m a s t e r , 保险种类特约m a s t e r ,代理店m a s t e r ,鉴定料m a s t e r ,c a l e n d a rm a s t e r 。 入力部分包括请求书的印刷,管理番号的检索等等。 明细部分包括很多的检索画面。 帐票部分是需要用指定的控件来处理,打印,输出各种数据。 数据设定部分包括管理权限的设置,处理外部数据及系统中的一些基本初始 条件的设定。出力部分包括一些共通的画面。 整个系统分为三层,c o m m o n 层是整个系统都用到的一些函数,x m l 文件 的读取等都在这层完成。对数据的每次成功操作都需要写注册表,对数据库的操 作都要写日志文件。m o d e l 层主要用于画面和逻辑层间数据的传输。a p p l i c a t i o n 层就是存放各个不同的模块的画面的,每个功能模块都有各自固定的名字,每个 控件也有严格的命名要求。 在a p p l i c a t i o n 层还分为三个层次,c o n t r o l l e r 层,l o 百c 层,v i e w 层。c o n t r o l l e r 层负责逻辑关系的调度,l o g i c 层主要写s q l 语句,v i e w 层写页面的代码,实 现页面数据的处理。各个层次间的分工非常明确,将来如果要对系统进行升级改 造也只要在不同的层里添加代码,不影响系统的整体结构。 2 3 数据挖掘技术 数据挖掘就是从大量的,不完全的,有噪声的,模糊的,随机的实际应用数 据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用的信息,知识, 模式和规则的过程,从而利用这些知识来指导我们的活动。数据挖掘技术是目前 数据库研究领域中较为活跃的一个领域,综合利用了人工智能,数据库,机器学 习等多学科,多个领域相交叉的理论技术。其最突出的特点是善于从海量的数据 中通过数据挖掘的手段帮助我们找到一些对有价值的信息,而这一特点对于平时 业务数据量就很大的保险公司来说确实是一个很好的数据分析的帮手。 对于企业而言,数据挖掘可以有助于发现业务发展的趋势,揭示已知的过去 的事实,预测未知的结果,并帮助企业分析出完成特定任务所需的关键因素,以 达到增加收入,降低成本的目的。 2 3 1 数据挖掘的方法 数据挖掘的目的就是从大量的数据中发现隐含在其中的,对自身有意义的知 识。数据挖掘的可以完成以下六类任务:分类( c l a s s i f i c a t i o n ) ,估计( e s t i m a t i o n ) , 预测( p r e d i c t i o n ) ,关联分组( a f f i n i t yg r o u p i n g ) 或关联规则( a s s o c i a t i o nr u l e ) , 类聚( c l u s t e r i n g ) ,描述和建立简档( d e s c r i p t i o na n dp r o f i l i n g ) 。 分类,估计,预测属于直接数据挖掘,是定向数据挖掘的例子,目的是发现特定 8 上海师范大学硕士学位论文第二章保险公司辅助决策系统的有关理论依据 目标变量的值。关联分组和类聚是非定向挖掘的任务,目的是在不限定特定目标 变量的情况下揭示数据的结构或者相似性。建立简档既能是定向的,也可以是非 定向的数据挖掘任务。 2 3 2 数据挖掘的流程 随着d m k d ( d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ) 技术逐步走向深入, 人们越来越清楚地认识到d m k d 的研究主要有3 个技术支柱,即数据库,人工 智能和数理统计。数据库界目前除了关注分布式数据库,面向对象数据库,多媒 体数据库。查询优化和并行计算等技术外,已经在开始反思,数据库最实质的应 用仅仅是查询吗? 人们开始认识到,查询只不过是数据库的奴隶,发现才是数据 库的主人。 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。虽然 数据挖掘的最后结构是不可预测的,但如果首先明确了我们想要探索的问题的话 那会减少带有的盲目性,同时增加了成功的可能性。 数据准备 认清数据挖掘的对象也是很重要的。如果毫无针对性的就对数据进行处理得 出的结论往往会出现偏差,从而导致做出错误的决定,这实际上就别离了我们原 本的目的。 我们要做的就是选取数据。在公司庞大的数据库中搜索出符合条件的数据, 并以此作为数据挖掘应用的数据。同时我们可以对数据按要求进行处理。选取的 数据越有针对性,构建的模型也就越准确,那数据挖掘的结论也就更符合实际的 情况。 数据挖掘 对得到的数据进行挖掘,可以用不同的挖掘算法来对数据进行分析。 结果分析 解释并评估结果,通常会用到可视化的技术。 下图展现了数据挖掘系统的体系结构 9 第二章保险公司辅助决策系统的有关理论依据上海师范大学硕士学位论文 l 墼塑壁翌:窒望 】 图2 - i 数据挖掘系统的体系结构 数据挖掘的过程是反复的,不断求精的过程。在这个过程中需要一定的智能 性和主动性。同时,在不同的应用领域也有不同的数据挖掘算法。因此,迄今为 止还没有一套完整,统一的数据挖掘理论体系来指导如何获取有用的信息,要根 据具体的情况来做出具体分析和判断,并且利用在实践中积累的一些经验来作为 指导,从而完成预期的目标。 2 4 保险公司业务知识库 2 4 1 知识库的设计 知识库n 2 1 可定义为:知识、经验、规则和事实的集合。这里将知识库分成业 务数据库,模型库和策略库( 规则) 三个部分。根据功能可以这样来分: 1 0 上海师范大学硕士学位论文第二章保险公司辅助决策系统的有关理论依据 策略库方法层设计规则 数据挖掘 模型库创新层建立样本模型 样本库 业务数据库实体层数据层 图2 - 2 知识库的划分图 知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、 整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集 合,包括基本事实、规则和其它有关信息。 要创建知识库,首先要对数据库中的数据进行分析,选取有特征的数据来作 为分析对象更能体现结果的差异。o l a p 和d m 都是数据分析工具,但是他们处 理的问题是不同的,数据分析的深度也是不同的。d m 是一种挖掘性质的数据分 析,它能够自动地发现事物间潜在的关系和特征模式,并且可以利用这些特征模 式进行有效地预测分析;o l a p 是一种验证性质的数据分析,它负责从上到下, 由浅入深的展现问题相关的详细信息,供用户判断提出的假设是否合理。 2 4 2 保险公司业务知识库中知识的表示 知识库的基本内容课描述为k b = f + r ,其中k b 代表知识库,f 代表事实集, 相当于数据库中的实体及其属性所对应的数据集合,r 代表规则集,其中包含领 域知识或启发式知识。数据库中的规则通常是隐藏于数据结构或完整性约束中, 而知识库中的规则主要通过某种知识的方式来表示,是通过对数据的挖掘而得出 的一些共通的性质。相对于数据库,知识库的知识较少改动。数据库中所包含的 明显表达的关系约束条件可以看作某种低层次的知识。知识库中所包含的有明确 定义的事实和通过规则表达的关系也是数据库的内容。 知识库的知识【1 9 】是有层次的。最低层是“事实知识,中间层是用来控制 “事实 的知识( 通常用规则、过程等表示) ;最高层次是“策略 ,它以中间层 知识为控制对象。策略也常常被认为是规则的规则。因此知识库的基本结构是层 次结构,是由其知识本身的特性所确定的。 2 4 3 模型库的设计 要构建多维数据集,就必须使用维度作为其最基本的构成要素。我们可以通 过数据立方来构建多维数据集,它是分析数据的一种典型方式。知识库的样本库 可以以不同的维度来构建,以不同的商业视角为维度建立一个分析用的立方体, 第二章保险公司辅助决策系统的有关理论依据上海师范大学硕士学位论文 维的属性是立方体的坐标轴。当以公司的视角去观察时应该建立客户维,那么维 度可以是客户所在地区( 地区维) ,投保的产品种类( 产品维) 和投保的日期( 时 间维) 。正因为有这种多维性,就为分析数据提供了极大的方便。 维度表主要包含了存储在事实表中数据的特征数据,利用维度关键字和事实 表建立主外键的对应关系。 地区 产品 问 图2 - 3 多维数据集立方体 原始数据按照构造好的模型被重新处理后放入样本库中。 2 4 4 策略库的设计 策略库用来存放所有形成业务策略的知识,形成的策略的知识可以用产生式 规则表示,其形式为:规则号:i f t h e n ,也可以用图形图标等形式 来存储。本文运用e x c e l 将数据挖掘的结果直观的展现给使用者。 1 2 上海师范大学硕士学位论文 第三章保险公司数据管理系统 第三章保险公司数据管理系统 3 1 应用背景分析 中国的保险业虽然近几年发展迅猛,但是相比一些其他国家,我们的保险行 业还处于初级阶段,而作为发达国家的日本,其保险产业已经发展的比较成熟, 体制上比较的完善。近年来随着中国地经济不断地发展,资本市场的不断扩张, 而且在加入w t o 后对外资的开放力度的进一步加大,越来越多的国外保险公司 正以飞快的脚步加入到中国资本市场。由于国人对保险产品的了解逐步地深化, 加上中国有这么大的市场,一个巨大的商机放在所有商家的眼前。目前国内的保 险公司依然还是依靠粗放式的模式来经营,进行粗略的数据分析和市场判断。要 想在这个市场中占有先机,获得更多客户的青睐就必须提高管理模式,将业务数 据运用科学的方法进行分析管理,降低销售和管理成本,最大限度的赢取回报, 而这也就成为每个保险公司需要考虑的现实问题。对客户行为的分析,重点客户 的发现以及市场性能的评估都是企业需要考虑的。 本文所写的项目就是受日本一个保险公司的委托而开发的一个项目。完成这 个系统的开发后,将使数据的处理速度大大提高,不但降低了管理的成本,同时 也提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新课标视角下初中地理教学方法创新
- 2025年学历类自考学前儿童美术教育-大学语文参考题库含答案解析(5套试卷)
- 2025年中国储能锂电池行业市场全景分析及前景机遇研判报告 - 网
- 投资承包酒店合同范本
- 2025年学历类自考发展与教育心理学-幼儿文学参考题库含答案解析(5套试卷)
- 2025年学历类自考公共关系学-学前教育学参考题库含答案解析(5套试卷)
- 2025年学历类自考中小学教育管理-教师职业道德与专业发展参考题库含答案解析(5套试卷)
- 2025年学历类自考中外文学作品导读-幼儿园教育基础参考题库含答案解析(5套试卷)
- 设备区域安装合同范本
- 医院感染管理核心制度
- 外研版初中英语单词总表(7~9)年级
- 大众文化概论-课件
- 安全风险辨识与分级管控制度
- 【无线射频电路】-微波笔记·糖葫芦低通滤波器的设计
- 商业装修手册
- 医院信息互联互通化成熟度测评
- 股票k线图入门图解
- GB/T 15812.1-2005非血管内导管第1部分:一般性能试验方法
- 无轨运输安全操作规程
- 专升本英语统考试翻译技巧课堂教学课件2
- 除颤仪的使用及护理
评论
0/150
提交评论