




已阅读5页,还剩80页未读, 继续免费阅读
(计算机软件与理论专业论文)数据挖掘技术在车险crm中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着保险行业信息化系统的不断完善,企业积累了大量车辆保险的客户和产品 销售数据,这些海量的数据使用传统的查询或分析工具往往不能识别其中有价值 的信息,如何更加有效地管理车险业务数据库中快速增长的海量数据,将数据资 源的利用提高到知识创新的高级阶段,已经成为保险企业当前需要迫切解决的问 题。而数据挖掘恰好能够解决上述问题,所以数据挖掘技术在车辆保险c r m 中如 何应用己经成为保险行业关注的话题。 车辆保险业务的特点决定了c r m 在其经营过程中的重要地位,而有效的客户 关系管理必须建立在强有力的数据分析的基础上。车险业务拥有海量的数据,一 方面为保险公司进行数据分析提供了基础;另一方面,也使得数据分析的难度大 大增加。如何使浩如烟海的车险业务数据真正转变成为保险公司商业决策的知识 财富,从而有效地支持车险客户关系管理的决策和实施? 本文通过对车险业务和业务数据的理解、分析,提出了将数据挖掘技术中的决 策树和聚类应用到车险c r m 系统,利用c l e m c n t i n e 数据挖掘工具进行了数据挖掘 建模和数据挖掘流程设计。建立车辆承保风险分析模型,并将之与一个简单的现 有车险风险分析模型做了比较;建立车辆投保特征分析模型,并对两种决策树算 法进行了比较。 随着数据挖掘技术的不断发展,保险企业必将逐渐注重其在车险中的应用,从 而能更有效的指导其经营决策工作。 关键词:数据挖掘,车辆保险,c r m ,决策树,风险分析,车辆特征 a b s 玎u c t a b s t r a c t w i t ht h ed e v e l o p m e n to fi n :f 0 n a t i o ns y s t e m ,t h e r ea r em a i i yd a t aa b o u ta u t o m o b i l e i n s u m n c ec i l s t o m e r sa n ds a l e sf o re n t e r p r i s e u s i n gt r a d i t i o n a li n q u i r co ra n a i y s i st o o l s , h o w e v e r ,p e o p l ec a n tr e c o g n i z et l l eu s e f i l li i l f o 加a t i o n ,l e ta l o n eg e td e d s i o n m a h n g f o rf u i t h e rm a r k e ts t m t e 百e s d a t am i n i n gt e c l l l l o l o g yc a nh e l pp e o p l et os o l v em ev e r ) , p r o b l e m s 皿e r e f o r e ,h o wt 0u s ed a t al i l i l l i n gt e c l l i l o l o g ) ,i na u t o m o b i l ei n s u 砌c cc r m s y s t e mb e c o m e sah o tt o p i c t h ei m p o r t a n t p o s i t i o no fc r mw a sd e t e n n i n e db y t h ec h 啪c t e r i s t i c so f a u t o m o b i l ei i l s 啪n c c e 疵c t i v ec r mm u s tb eb a s e do np o w e r f i l ld a t aa n a l y s i s t e c h n o l o gy 1 1 l e r ea r cp l e m i f i l ld a t ap r o d u c e d i na u t o m o b i l ei n s u m n c co p e m t i o n s ,w h i c h c a i lb eu s e dt oa l l a l y s i s b u ti n 汀e a s e s 乒e a t l yd i f f i c u l t i e sa tt h es 锄et i i n e h o wt om a l ( e t h ep l e n t i f l l ld a t ar e s o u r c e st u mi m 0r e a ll = n o w l e d g et h a tc a nb eu s e di l lb u s i n e s s d e c i s i o n ,w h i c hc a i ls u p p o nt h ea u t o m o b n ei n s u r a n c ec r m ? 砧j st h e s i sp u t sf o 聊a r da p p l y i n gd a t am i n i n gi na u t o m o b i l ei l l s u r a n c cc r m t h r o u g t lu n d e r s t a i l 曲培a u t o m o b i l ei 1 1 s u r a n c ca n db u s i n e s sd a t a ,m a i n l yr e s e a r c h e so n h o wt 0u s ed e c i s i o nt r e ea n dd u s t e r i i l gt e c h n o l o g yi l la u t o m o b i l ei n s u r a n c ec r m s y s t e m f o c a lp o i i l t sw e r es e to nt w ob u s i i l e s st h e m e s :a u t o m o b i l ei n s u m n c er i s k a n a l y s i sa n dd e s i g nt h ec o n - c s p o n d i i l gd a t am i n i n gm o d e l ,a n d m p a f e dt h i s d a 瞳a m i n i n g m o d e i t ot h es i m p l yo n ew h i c hj su s i n gj na u t o m o b i l ei i l s u r a n c e ;t h ec h a r a c t e ro f i n s u r a n c e da u t o m o b i l ea n dd e s i g nt h ec o r r e s p d n d i n gd a t am i i l i n gm o d e l ,a n dc o m p a r e d t w od e c i s i o n - t r c ea l g o r i t h m s ib e l i e v et h a tw i t ht h ep r 0 芦e s so fd a t am i n i n gt e c h i l o l o g y ,i n s u r a n c e m p a n yw i n b ec o m i n gt or e a l i z el h ei n l p o n a i l c eo f 印p l i c a t i o no fd a t am i i l i n gi na u t o m o b i l e i i l s u 砌c c ,a n dd i r e c tt h ei n s u m n c ec o m p a l l yt om a k eb u s i n e s sd e c i s i o n k e y w o r d s :d a t am i n i n g ,a u t o m o b i l ei n s u r a n c c ,c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t , d e c i s i o nt r e e ,r i s ka n a l y s i s ,c h a m c t e ro fa u t o m o b i l e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示谢意。 签名:摹幽盈一日期:勺年乎月徊 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:缝! 导师签名:址 日期:弘 7 年年月巧日 第一章绪论 1 1 研究背景及意义 第一章绪论 我国加入w t o 意味着国内保险业将逐步全面地与国际保险体系接轨,更多 的外资保险公司将直接与本土的保险公司竞争。这为我国保险市场的发展提供了 良好的机遇,但是对于国内的保险公司来说,也必须面对的是由此而带来的考验。 国内保险业势必会受到一定的冲击,因为无论是从行业的成熟程度、资金实力还 是在管理运营的能力上都落后于起步早的国外公司。国外保险公司的竞争实力不 仅体现在雄厚的资金实力、多样的险种、细致的索赔评估和丰富的管理经验,而 且体现在广泛应用信息技术的方面。 机动车辆保险业务作为我国财产保险中的重要支柱,占财产险业务收入的 6 0 左右。在2 0 0 3 年以前,国内各保险公司的车险业务采用的是中国保险监督管 理委员会( 保监会) 制定的统一的条款和费率体系,采用单一的营销方式,缺乏竞 争力。为了使国内保险公司通过自我竞争先行成熟起来,以应对车险业务放开后, 国外保险公司的挑战,我国推行了一系列车险改革措施。2 0 0 2 年8 月,保监会发 布了关于改革机动车辆保险条款费率管理制度的通知。中国保监会决定改革现行 的车险条款费率管理制度。2 0 0 3 年1 月1 日,在全国范围内实施新的车险条款费 率管理制度。经过三个月过渡期,从4 月1 日起,各保险公司将全部按自行制定、 经保监会批准的新车险条款、费率【l l o 通过机动车辆保险改革,将车险从长期统一、固定的局面中“解脱”出来, 无疑对于培养国内汽车保险业竞争力的提高和长远发展,应对入世之后国外保险 公司的竞争是积极有益的。但是,由于国家长期以来对于财产险业务的监管:一 方面,国家不允许保险公司自行制定车险条款费率体系:另一方面,使得保险公 司形成了对于国家统一制定的条款费率指标体系的依赖性,缺少创新的动力。造 成了车险改革后,仍然缺乏保费制定的科学标准,保险公司产品开发、营销和服 务的创新能力不足。各保险公司内部实际上并没有针对车险的健全的数据统计、 核算体系,这样,条款费率的放开就给各保险公司的市场化经营带来了风险。也 正是由于整个市场制定保费的标准不确定,各公司为了争夺市场份额,可能会造 电子科技大学硕士学位论文 成一定的混乱局面。 1 2 车险c r m 的必要性 我们应当看到,机动车辆保险在高速发展的同时隐含着巨大的经营危机。机 动车辆保险赔付率高是各家保险公司面临的重大问题,由于机动车辆保险在财产 保险中的重要地位,其经营状况直接影响着财产保险公司的利润,甚至成为财产 保险公司效益的“晴雨表”。道路交通事故引发的保险理赔是影响机动车辆保险经 营成效的最主要因索。我国目前道路交通条件及管理手段相对较落后,人们的安 全意识普遍不强,近年汽车数量和驾驶新手又急剧增加,使我国成为道路交通事 故高发国家。据公安部统计数据资料,2 0 0 5 年我国共发生道路交通事故4 5 0 2 5 4 起,造成9 8 7 3 8 人死亡,4 6 9 9 1 1 人受伤,直接则产损失达18 8 亿元【2 】。尤其2 0 0 4 年5 月1 日道路交通安全法出台以及人身损害赔偿人幅度提高更增加了保险 公司的理赔额度,许多保险公司车险业务的赔付率超过了7 0 的盈利临界点。 由上可见,为了更好的解决机动车辆保险业务现存的问题,适应车险业务发 展的趋势,保险公司必须对于车险客户的风险、行为和价值进行分析,以支持保 险公司的费率风险防范、车险产品设计以及客户保持策略,从而实施有效的客户 关系管理。同时,考虑到车险业务海量的数据,应用数据仓库和数据挖掘技术具 有更大的适用性和紧迫性。所以,对于数据挖掘技术在车险客户关系管理中的应 用研究有重要的理论和实用价值。 1 3 保险行业c r m 应用情况 l 、美国艾克国际科技有限公司( a k u p ) 艾克国际的产品是全球市场中,为数不多能同时涵盖网络商务与客户互动的 前端及后端分析的完整功能的。其后端提供的客户行为追踪,客户服务及客户行 销的数据挖掘功能,让企业能够做到一对行销( o n et oo n em a r k e t i l l 蓟的目标。 总体上,在保险业,艾克覆盖了策略层了解客户的组成、成长潜力、稳定度 等;战术层如何预防客户流失、风险管理;执行层帮助业务人员掌握客 户信息等。艾克国际的客户都是如国泰人寿保险、新光人寿保险、宏泰人寿保险 等大型保险业客户。 2 、t u r b o c r m 公司f r u r b o c r m1 2 第一章绪论 t u r b o c r m 公司是专业从事c r m 研发和服务的国际公司,其产品t u r b o c r m 具备灵活的应用模式。中国平安保险公司北京分公司采用了t u r b o c r m 。其中的 t u r b o d s s 包含了市场分析、客户特征分析等,可以从客户产品一客户特征产 品特征等多种条件下进行数据分析,从而为公司发展提供科学、量化的数据支持。 3 、中青旅尚洋电子技术有限公司 尚洋电子在新华人寿实施了基于i n f b 皿i 】【数据仓库的寿险行业决策支持系 统。系统采用数据仓库技术,整合来自不同数据来源的业务数据、精算数据及外 部数据,根据寿险行业的特点和需求组织分析主题,对数据进行重组,在此基础 上,系统为管理人员和相关业务人员、分析人员提供方便、快速的分析处理系统 和智能化的多维报表生成发布系统。使管理人员能准确定位企业业务、财务等关 键环节中所隐藏的问题,了解寿险行业市场规律、客户行为,从而支持公司面对 瞬息万变的保险市场做出快速反应,制订出科学的、有效的决策方案。 由上面的应用案例不难看出,寿险公司比财产险公司更加重视c r m 在企业 经营中的作用,并且积极与玎公司合作开发自己的c r m 系统。 1 4 本文的工作和安排 当前,国内针对车险c r m 的研究还不是很多,应用于保险公司实际工作中 的更加有限,本人认为造成这种局面的主要原因是: 1 、各个保险公司的车辆保险数据属于商业机密,非保险公司人员难以熟悉车 辆保险业务、了解车辆保险实际情况、接触到大量实际数据,所以非保险公司的 相关研究人员在对业务、数据的理解、分析上有比较大的困难; 2 、对于保险公司的工作人员,有实际的应用需求,但是由于工作的限制没有 时间、精力对车险c r m 进行深入研究。 本人有在保险公司的工作经验,对业务比较熟悉,并且通过业务人员了解到 他们的部分需求。也有条件把研究应用到以后的实际工作中,希望在学校的学习 结果在工作中能够给公司的业务发展带来效益。 本文选取了车辆保险承保风险分析c r m 主题和车辆投保特征分析c r m 主 题。 车辆承保风险分析,主要是对车辆保险承保时客户可能产生的保险风险进行 预测,通过已有的承保、理赔数据,对每条保单数据的赔付率( 赔付金额保费收 入) 进行聚类分析,找出赔付正常和赔付较大的客户,分别将这两种客户标上类标 3 电子科技大学硕士学位论文 号,然后使用决策树进行分析,提取客户的特征,在以后的承保中,可以利用规 则对客户的承保风险进行识别,达到预测风险的功能。 车辆投保特征分析,主要是通过对承保的历史数据进行聚类分析,将客户划 分成相似的分类,由于相似的客户在购买车险产品时也有相似的选择,再对分类 信息使用决策树提取规则,利用这些规则可以在识别客户类别的基础上,向客户 推荐他们可能感兴趣的车险产品组合,达到提高车险产品营销水平的目的。 本论文共分六章: 第一章:主要阐述国内保险行业车辆保险业务的发展状况、车辆保险对于保 险公司的重要性以及现在车辆保险中存在的问题。 第二章:概括介绍了数据挖掘的发展、定义、过程、分类,并详细介绍了决 策树和聚类算法。 第三章:简单介绍了c r m 的定义、主要功能、及数据挖掘在其中的应用, 并阐述了本文c r m 数据挖掘主题及其模型设计。 第四章:概述了c r i s p d m 数据挖掘过程模型以及基于c r j s p d m 标准开发 的a e m e n t i n e 数据挖掘软件。 第五章:这章是全文的重点,详细叙述了数据挖掘的过程,为了便于今后对 数据采集、处理,建立了车险数据仓库;实现了数据属性处理和数据清理模块, 按照c r i s p d m 数据挖掘过程模型,对车辆保险风险分析和车辆投保特征分析进 行建模:在车辆保险风险分析中,将传统的车辆保险风险分析模型与文中提出的 模型进行了比较,在车辆投保特征分析模型中比较了两种决策树算法。 第六章:给出全文的总结、后继工作及在以后工作中应用的展望。 4 第二章据挖掘理论概述 2 1 数据挖掘的发展 第二章数据挖掘理论概述 数据挖掘是信息技术自然演化的结果。在2 0 世纪6 0 年代,数据收集和数据 库创建早期阶段,可以提供数据存储、查询检索和简单的事务处理。到7 0 年代, 数据库系统的研究和发展从层次和网状系统发展到关系数据库系统( r d b m s ) , 用户可以通过查询语言、用户界面、优化的查询处理和事务处理,方便、灵活地 访问数据。这时的联机事务处理( 0 l 1 p ) 对大量数据的有效存储、检索和管理做 出了巨大的贡献。8 0 年代中期,出现了数据仓库,这是一种多个异种数据源在单 个站点以统一的模式组织存储,可以支持管理决策。包括数据清理、数据集成和 联机分析处理( o 乙圩) 。o l 心具有汇总、合并和聚集的功能,并可以从不同的 角度观察信息。8 0 年代末9 0 年代初,产生了数据库中的知识发现( k h o w l e d g e d i s c o v e r yi nd a t a b a s e ) ”1 ,而数据挖掘( d a t am i n i i l g ) 是它其中的一个基本步骤。 但习惯上人们采用数据挖掘的广义概念,用其来代替数据库中知识发现这个长的 术语。本文也采用这一说法。表2 1 是数据挖掘的发展历史。 表2 1 数据挖掘发展历史 时间问题 利用技术利用产品作用特点 数据收集过去3 年计算机、磁带和i b m 、c d c 提供静态的、历 ( 2 0 世纪里公司的磁盘等守史性的数据信息 6 0 年代) 总收入是 多少? 数据访问2 0 0 2 年5( r d b ) ,s q l ,开 i b m 、o r a d e 、可以在记录级提 ( 2 0 世纪 月,西南放数据库互连 s y b a s e 、供动态的、历史 7 0 年代)地区的销 ( o d b c ) , h l f o 皿i 】( 、性的数据信息 售总额是0 l 1 口等m i c r o s o f t 等 多少? 5 电子科技大学硕士学位论文 决策支持2 0 0 2 年5联机分析处理 p i l o t 、在各种层次,提 ( 2 0 世纪月,西南( o l ”) 。多为 c 0 m s h a r e 、供动态的、可以 8 0 年代) 地区的销数据库、空间数 m i c r o s t r a t e g y回溯的数据信息 售总额是据库、数据仓库 、c o n g i l o s 等。 多少? 成 等。 都由此得 出什么结 论 数据挖掘百令只广 多处理计算机, l b m ( i n t e l l 蟾e不但能在各种层 ( 2 0 世纪 州的销售高级算法,数据 n tm i n e r 、次上提供动态 9 0 年代)情况将会仓库等海量数据s a s 的、回溯的信息, 怎么样? 库 e m e r p r i s e 还可以提供预测 为什么? m i n e r 、 性的信息 a e m e n t i n e 、 m s m i n e r 等 2 2 数据挖掘的定义 数据挖掘( d a t a m i i l i i l 彭,顾名思义就是从大量的数据中挖掘出有用的信息, 即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、 规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的 过程“1 。事先未知的信息是指该信息是预先未曾预料到的,或称新颖性。数据挖 掘就是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。 挖掘出的信息越是出乎意料,就可能越有价值。所挖掘的知识的类型包括模型、 规律、规则、模式、约束等。 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过 程,使用这些模型和关系可以进行预测,它帮助决策者寻找数据问潜在的关联, 发现被忽略的因索,因而被认为是解决当今时代所面临的数据爆炸而信息贫乏问 题的一种有效方法。数据挖掘通常又称为k d d ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 数据库中的知识发现。严格来讲,在k d d 中进行知识学习的阶段称为数据 挖掘。数据挖掘是k d d 中个非常重要的处理步骤,但人们通常不加区别地使 用这两个术语。 第二章据挖掘理论概述 数据挖掘是门交叉学科,融合了数据库、人工智能、机器学习、统计学等多 个领域的理论和技术。数据库、人工智能和数理统计是数据挖掘研究的三根强大 的技术支柱。 2 3 数据挖掘的过程 数据挖掘的过程可粗略地分为:问题定义( t a s kd e f i n i t i o n ) 、数据收集和预处 理( d a t ap r 印a m t i o na n dp - 叩r o c e s s i n g ) 、数据挖掘算法执行( d a t am i n i i l g ) 以及结 果的解释和评估( h t t e r p r c t a t i o na i l d e v a l u a t i o n ) 嘲,如图2 一l 所示: 置外 j 节7 一 原 、 低苗 7 图2 - 1 数据挖掘流程图 1 、问题定义 问题定义主要是指利用数据挖掘可以分析哪些问题。定义清晰的挖掘对象, 认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最后结果往往是不可预测 的,但要解决的问题应该是有预见性的、有目标的。为数据挖掘而挖掘数据带有 盲目性,往往不会成功。在定义挖掘对象时,需要确定这样一些问题:从何处入 手、需要挖掘什么数据、要用多少数据、数据挖掘要进行到什么程度。在问题定 义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实 7 |i;llliii一 驴瑟一 电子科技大学硕士学位论文 际工作对数据挖掘的要求;另一方面通过对各种学习算法的对比进而确定可用的 学习算法。 2 、数据收集和数据预处理 数据准备又可以分为三个子步骤:数据选取、数据预处理和数据变换。 在确定数据挖掘的业务对象后,就需要搜索所有与业务对象有关的内部数据 和外部数据,从中选择出适合于数据挖掘应用的数据。如果数据挖掘是基于数据 仓库的,那么数据的选择将比较简单,因为数据仓库己经为数据挖掘者准备好了 用于数据挖掘的基本数据。否则,就要从各种数据源去选择用于数据挖掘的数据。 这就意味着需要集成和合并数据到单一的数据挖掘库中,并协调来自多个数据源 的数据在数据上的差异。对这些数据值差异的协调是解决数据挖掘质量的关键。 多个数据源中出现的差异主要在数据定义和使用的方法上。 在选择好数据后,还需要对数据进行预处理,对数据进行清洗,解决数据中 的缺值、冗余、数据值的不一致、数据定义的不一致、过时数据等问题。数据的 应用变换是为了使数据适用于计算需要而进行的一种数据转换这种转换主要源 于两个方面的原因:一是现有数据不满足分析需求而进行的数据变换:二是应用 具体数据挖掘算法的需要。为了使计算结果更高效准确,需要对数据进行应用变 换。 3 、数据挖掘 数据挖掘算法执行阶段首先根据对问题的定义明确挖掘任务或目的,如分类、 聚类、关联规则发现或序列模式发现等。确定了挖掘任务以后,就要决定使用什 么样的算法。选择算法有两个考虑因素:一是不同的数据有不同的特点,因此需 要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希 望获取描述型的、容易理解的知识,而有的用户只是希望获取预测准确度高的预 测型知识。 4 、结果解释与评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余的或无关的模式, 这是需要将其剔除:也有可能模式不满足用户要求,这时则可能需要整个过程回退 到前一阶段,如重新选取数据,采用新的数据变换方法、设定新的参数值、甚至 换一种算法等。另外数据挖掘由于是最终面向人类用户的,因此可自2 要对发现的 模式进行可视化,或者把结果转换为用户易懂的另一种表示。 数据挖掘算法执行,仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有 两个影响要素,一是所采用的数据挖掘技术的有效性;二是用于挖掘的数据的质 8 第二章据挖掘理论概述 量和数量。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转 换,则挖掘质量不会好的。整个挖掘过程是一个不断反馈的过程,如果未能产生 期望的结果,用户需要重复先前的过程,甚至从头重新开始,直至产生满意的结 果为止。 2 4 数据挖掘中的预处理 目前所进行的关于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨而 忽视了对数据处理的研究。一些比较成熟的算法对其处理的数据集合一般都有一 定的要求,比如数据完整性好、数据的冗余性少、属性之间的相关性小。然而, 实际系统中的数据一般都具有不完全性、冗余性和模糊性,很少能直接满足数据 挖掘算法的要求。另外,海量的实际数据中无意义的成分很多,严重影响了数据 挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的归纳。预处理己 经成为数据挖掘系统实现过程中的关键问题。 2 4 1 原始数据中的问题 数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘内核更有效地 挖掘出知识,就必须为它提供干净、准确、简洁的数据。然而实际应用系统中收 集到的原始数据是“脏”的,通常存在以下几方面的问题: l 、杂乱性 原始数据是从各个实际应用系统中获取的( 多种数据库、多种文件系统) ,由 于各应用系统的数据缺乏统一标准和定义,数据结构也有较大的差异,因此各系 统间的数据存在较大的不一致性,往往不能直接拿来使用。 2 、重复性 重复性是指对于同一个客观事物在数据库中存在其两个或两个以上完全相同 的物理描述。由于应用系统实际使用中存在的一些问题,几乎所有应用系统中都 存在数据的重复和信息的冗余现象。 3 、不完整性 由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成的影 响,数据记录中可能会出现数据属性的值丢失或不确定的情况,还可能缺少必须 的数据而造成数据不完整。实际使用的系统中,存在大量的模糊信息,有些数据 设置还具有一定的随机性质。 9 电子科技大学硕士学位论文 一个完整的数据挖掘系统必须包含数据预处理模块。它以发现任务作为目标, 以领域知识作为指导,用全新的“业务模型”来组织原来的业务数据,舍弃一些 与挖掘目标不相关的属性,为数据挖掘提供干净、准确、更有针对性的数据,从 而减少挖掘内核的数据处理量,提高了挖掘效率,提高了知识发现的起点和知识 的准确度。 2 。4 1 2 预处理的作用 数据挖掘中的预处理主要是接受并理解用户的发现要求,确定发现任务,抽 取与发现好相关的知识源,根据背景知识中的约束性规则对数据进行检查,通过 清理和归纳等操作,生成供挖掘核心算法使用的目标数据。数据预处理应该包括 以下几方面的功能“: l 、数据集成( d a l ai n t e g r a l i o n ) 数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理, 解决语义模型性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据 的处理问题。用于进行知识发现的数据可能来自多个实际系统,因而存在着异构 数据的转换问题。另外,多个数据源的数据之间还存在许多不一致的地方,如命 名、结构、单位、含义等。因此,数据集成并非是简单的复制过程。它需要统一 原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长 不一致等,从而把原始数据在最低层次上加以转换、提炼和聚集,形成最初始的 知识发现状态空间。另外,在数据集成中还应考虑数据类型的选择问题,应尽量 选择占物理空间较小的数据类型。 2 、数据清洗( d a t ac l e a n i n g ) 数据清洗要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏 数据,去除空白数据域和知识背景上的自噪声,考虑时间顺序和数据变化等。主 要包括重复数据处理和缺值数据处理,并完成一些数据类型的转换。 数据清洗可以分为有监督和无监督两类。有监督过程是在领域专家的指导 下,分析收集的数据,去除明显错误的噪声数据和重复记录,填补缺值数据:无监 督过程是用样本数据训练算法,使其获得一定的经验,并在以后的处理过程中自 动采用这些经验完成数据清洗工作。 数据清洗的另一个重要内容是数据类型的转换,通常是指连续属性的离散 化。一般来说,与类别无关的离散化方法有等距区间法、等频区间法和最大熵法。 1 0 第二章据挖掘理论概述 与类别有关的方法有划分法( s p t t i n g ) 和归并法( m e 啦亩等。通过离散化,可以 有效地减少数据表的大小,提高分类的准确性。 3 、数据变换( d a t at r a n s f 0 i i i i a t i o n ) 数据变换主要是找到数据的特征表示,用维变换或转换方式减少有效变量的 数目;或找到数据的不变式,包括规格化、归纳、切换、旋转和投影等操作。 规格化指将元组集按规格化条件进行合并,也就是属性值量纲的归一化处理。 规格化条件定义了属性的多个取值到给定虚拟值的对应关系。对于不同的数值属 性特点,一般可分为取值连续和取值分散的数值属性问题:归纳指元组属性值之 间的i s a 语义关系。规格化和归纳能大量减少元组个数,提高计算效率,同时, 规格化和归纳过程提高了知识发现的起点,使得一个算法能够发现多层次的知识, 适应不同应用的需要。 我们还可以用多维数据立方( d a t ac u b e ) 来组织数据,采用数据仓库中的切换、 旋转和投影技术,把初始的知识状态空间按照不同的层次、粒度和维度进行抽象 和聚集( 即数据泛化) ,从而生成在不同抽象级别上的知识基。 4 、数据化简( d a t ar e d u c t i o n ) 有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效 率,甚至还可能导致挖掘结果的偏差。因此,有效的缩减数据是很有必要的。数 据简化是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表 达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大 限度地精简数据量。它主要有两个途径:属性选择和数据抽样,分别针对数据库 中的属性和记录。 ( 1 ) 属性选择包括针对属性进行剪枝、并枝、找方程和找相关等操作。剪枝 就是去除对发现任务没有贡献或贡献率低的属性域:并枝就是对属性进行主成分 分析,把相近的属性进行综合归并处理:找相关,即因子分析,在取值无序且离散 的属性之间寻找依赖关系,确定某个特定属性对其他属性依赖的强弱并进行比较。 通过属性选择能够有效地减少属性,降低知识状态空间的维数。 ( 2 ) 数据抽样就是进行数据记录之间的相关性分析,用少量的记录基底的线 性组合来表示大量的记录。它主要利用统计学中的抽样方法,如简单随机抽样、 渐进抽样、等距抽样、分层抽样等,具体进行统计运算,对于相同元组进行归并, 并增加必要的支持度属性域。最简单的支持度属性域就是相同元组的数目,或者 占总元组的百分比,也可以是置信度。最后去除那些支持度较低的元组( 可视为 例外或噪声) 。 u 电子科技大学硕士学位论文 2 5 数据挖掘技术分类 数据挖掘的算法和技术种类很多,根据2 0 0 5 年k d n u g g e t s 的民意调查,对 各种算法技术的使用情况如下图m : 图2 2 数据挖掘方法调查 下面对主要的技术做简单介绍。 1 、关联分析( a s s o c i a t i o na n a l v s i s ) 用来发现隐藏在大型数据集中的令人感兴趣的联系,所发现的联系可以用关 联规则或频繁项集的形式表示,这些规则展示属性一值频繁地在给的数据集中一 起出现的条件。 大多数关联规则挖掘算法通常将关联规则挖掘任务分解为如下两个主要的子 任务: 第二章据挖掘理论概述 ( 1 ) 、频繁项集的产生,其目标是发现满足最小支持度阈值的所有项集,这 些项集称作频繁项集e q u e n ti t e m s e t ) ; ( 2 ) 、规则的产生,其目标是从上一步发现的频繁项集中提取所有高置信度 的规则,这些规则称作强规则( 缸o n gn i l c ) 。 关联规则的形式化的陈述如下: 关联规则描述如下:l = ,屯,f 3 。 是m 个不同项的集合,设任务相 关的事务数据库d 是事务t 的集合,每个事务t ( t l 泡含若干项目,且t 由被 称为1 1 d 的标识符唯一标识。如果项集符合x l 且x t ,我们就说事务t 包 含x 。一个关联规则( ( a s s o c a i i o nr u l e ) 就是这样一种形式的关系:x y ,其中 x cl ,y cl ,并且x n y = o ,x ,y 分别称为关联规则x y 的前提和结论。 2 、决策树 决策树算法是数据挖掘中分类算法中的一种。它通过对给定训练数据进行分 析,生成可以用于分类预测的决策树模型。决策树模型中的每个内部节点描述了 对样本的某个属性的测试,每个内部节点有一个或多个分枝,每一个后继分支对 应于该属性的一个可能值。决策树的每个叶节点描述的是沿着路径匹配到这个节 点的样本所属的分类。生成决策树后可以通过遍历决策树来进行分类预测。也可 以将决策树转换为规则,然后通过规则匹配来进行分类预测。 一棵完全决策树能非常准确地反映训练集中数据的特征,但是由于完全决策 树对训练样本的特征描述得“过于精确”,有时候反而因失去了一般代表性而无法 实现对新样本的合理分析,所以完全决策树不一定是一棵能对新数据进行合理预 测的最佳决策树。这种现象一般称为“过适应( o v e r f i t t i i l 曲”。解决过适应问题的主 要方法是对决策树进行剪枝,即剪去影响预测精度的分枝。常用的剪枝技术有预 剪枝( p r i p m n i n g ) 和后剪枝0 0 s t p n l n i n g ) 两种a 3 、聚类分析( a u s t e r i n g ) 聚类分析主要研究的是统计学中“物以类聚”问题,它的实质是建立一种分 类的方法,能够将一批样本数据( 或变量) 按照它们在性质上的亲疏程度在没有先 验知识的情况下自动进行分类。类就是一个具有相似性的个体集合,不同的类之 间具有明显的相异性。聚类与分类不同,在机器学习领域,前者是一种无指导的 学习,而后者是一种有指导的学习。在分类时,对于目标数据中存在哪些类,事 先是知道的,只需将每个数据点属于哪一类识剐出来;而聚类是在事先不知道到 底有多少类的情况下,以某种度量为标准,将具有相似特征的数据对象划为一类, 电子科技大学硕士学位论文 同时分离具有不同特征的数据对象。聚类需要考察所有的个体才能决定类的划分, 并由算法自动确定。 在选择聚类算法时需要考虑数据的类型、容量以及聚类的目的,采用不同聚 类算法得到的聚类结果出入较大。大体上,聚类算法依据算法思想的不同可以分 为基于距离的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类和基于 模型的聚类,其简要介绍如下: ( 1 ) 基于距离的聚类 基于距离的聚类是指根据样本离所选中心点的距离来选择样本所在簇的聚类 方法。对给定的样本,先创建一个初始划分数k ,k 值大小一般需人为给定,然后 使用迭代重定位技术,通过对象在类间的移动来改进划分结果。为优化划分结果, 基于划分的聚类可能会穷举所有的划分。目前大多数的聚类应用都采用k m e a n s 和k m e d o i d s 这两种基于划分的聚类。 ( 2 ) 基于层次的聚类 层次聚类是对给定的数据对象进行层次上的分解来达到聚类的目的。根据层 次分解的不同形式,层次聚类的方法又分为凝聚的层次聚类和分裂的层次聚类。 像b i i 删算法、c u r e 算法、r o c k 算法及c h a m e i e o n 算法所采用的都是层次聚 类的思想。 ( 3 ) 基于密度的聚类 基于密度的聚类方法是根据密度的概念来聚类对象,它将簇看作是数据空间 中被低密度区域分割开的高密度对象区域。基于密度的聚类方法也是根据点的距 离作为划分标准的,但它与基于距离的聚类方法的区别是:基于距离的聚类是以某 些点为中心,计算其余的各点到这些中心点的距离,以此作为划分标准,所以基 于距离的聚类得到的结果在坐标平面上显示的都是一些圆形的区域;而基于密度 的方法是计算任意两点间的距离,通过比较这些点问距离来测算所有点的密度分 布,以此来划分聚类,因此基于密度的聚类结果在坐标平面上出现的聚类图形可 以是任意形状。比较经典的基于密度的算法有:e s t e l k r i e g c l 、s a n d e l x u 提出的 基于高密度连接区域的密度聚类算法d b s c a n ;a n k e r s t b r e u n i g 、i e g e l s a i l d e r 提出了一个通过对象排序进行聚类的算法0 p 1 1 c s ,解决了d b s c a n 需要提供参 数的不足;此外h i n n e b u r g k e i m 提出了基于密度分布函数的d e n c 叫算法。 ( 4 ) 基于网格的聚类 基于网格的聚类方法采用一个多分辨率的网格数据结构,它将空间量化为有 限数目的单元,这些单元形成了网格结构,所有的聚类操作都在网格上进行。这 1 4 第二章据挖掘理论概述 种方法的主要优点在于处理速度较快,处理时间独立于数据对象的数目,而仅决 定于量化空间每一个维度上的单位数量。基于网格的聚类算法主要包括:s t l n g , 它利用存储在网格单元中的数据信息;w i v e a u s t e r ,它用一种小波转化方法来聚 类对象:c u q u e ,它是在高维数据空间中基于网格和密度的聚类方法。 ( 5 ) 基于模型的聚类 基于模型的聚类出发点是试图通过在给定的数据和某些数学模型问建立起某 种拟合关系,一个模型表示聚类结果的一个簇。这种聚类方法是建立在数据的产 生存在一定概率分布的假设基础之上,基于模型的聚类主要有两类:统计学方法 和神经网络方法。m i c h a l s k i ,、s t e p p 提出的概念聚类,f i s h e r 提出的c 0 b w e b 以 及g e n n a r i 、l a n 舀e y 、f i s h e r 提出的c l s s s r r 等都属于统计聚类方法;r u m e l h a n 、 z i p s e r 提出的竞争学习和k o h o n e n 提出的s o m ( s e l f - o r g a n i z i n g f e a l u f e m a p s ) 等方 法则属于神经元网络方法。 4 、其它常用技术 ( 1 ) 、人工神经网络方法 这种方法是以m p 模型为基础,可以完成分类、聚类,特征挖掘等多种数据 挖掘任务。这种方法是用神经网络连接的权值表示知识,其学习方法表现在神经 网络的权值修改上。神经网络方法主要应用于数据挖掘的聚类技术中。 ( 2 ) 、粗糙集( r d u 吐s e t ) 方法 在数据库中,将行元素看成对象,列元素看成属性( 分为条件属性和决策属 性) ,等价关系r 定义为不同对象在某个( 或几个) 属性上取值相同,这些满足 等价关系的对象组成的集合称为该等价关系r 的等价类。条件属性上的等价类e 与决策属性上的等价类y 之间有3 种情况:下近似,y 包含e ;上近似,y 和e 的交非空;无关,y 和e 的交为空。对下近似建立确定性规则,对上近似建立不 确定性规则含可信度) ,对无关情况不存在规则。 ( 3 ) 、可视化技术 通过直观的图形方式将信息数据、关联关系以及发展趋势呈现给决策者,使 用最多的方法是直方图、数据立方体、散点图。其中数据立方体可以通过o l 圩 操作将更多用户关心的信息反映给用户。 ( 4 ) 、遗传算法 是一种模拟生物进化过程的算法,最早由h o l l a n d 于2 0 世纪7 0 年代提出它 是基于群体的、具有随机和定向搜索特征的迭代过程,包括4 种典型的算予:遗 传、交叉、变异和自然选择。遗传算法作用于一个由问题的多个潜在解( 个体) 电子科技大学硕士学位论文 组成的群体上,并且群体中的每个个体都由一个编码表示,同时个体均需依据问 题的目标函数而被赋予一个适应值。另外,为了应用遗传算法,还需要把数据挖 掘任务表达为秭搜索的问题,以便发挥遗传算法的优势搜索能力。同时可以用 遗传算法中的交叉、变异完成数据挖掘中用于异常数据的处理。 ( 5 ) 、统计学方法 在数据库字段项之间存在着两种关系:函数关系( 能用函数公式表示的确定 性关系) 和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 矿产资源股权转让与市场推广合作协议范本
- 离婚协议书翻译及跨国法律程序指导合同
- 离婚后子女抚养权及财产分割综合协议书
- 教育机构租赁合同终止及设施设备维护责任书
- 物业管理合同期限延长与社区志愿者服务补充协议
- 生物疫苗研发成果知识产权保护及许可合同
- 离婚协议财产分割与土地使用权转让合同规范
- 地板砖加工合同模板(3篇)
- 甘肃省兰州市七里河区2023-2024学年高一下学期第二次月考生物试卷及答案
- 单臂铣床转让合同模板(3篇)
- 电气试验标准化作业指导书
- 养老机构行政值班查房记录表格
- 中国服用过兴奋剂运动员名单 兴奋剂真的是毒品吗
- 小学英语语法时态讲解与归纳
- 《生存与修炼》熊厚音讲《道德经》教学文案
- 产教融合校企合作[可修改版ppt]课件
- 练习太极拳的三个阶段
- 华为供应商质量管理体系考察报告(全)
- 冶金工业清洁生产的主要途径(共82页).ppt
- 清洁生产实施的主要方法和途径
- 热力公司热计量远程抄表系统技术规范(2012.11.21)
评论
0/150
提交评论