




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的用户缴费信用风险评估研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo f m e n g u s e r p a y m e n t c r e d i tr i s ka s s e s s m e n t s t u d yb a s e d o nd a t am i n i n g c a n d i d a t e :l ll l s u p e r v i s o r :p r o f z h a n gg u o y i n a c a d e m i cd e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :c o m p u t e rs o f t w a r ea n dt h e o r y d a t eo fs u b m i s s i o n :d e c e m b e r ,2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 0lo u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引 用己在文中指出,并与参考文献相对应。除文中已注明引用 的内容外,本论文不包含任何其他个人或集体己经公开发表 的作品成果。对本文的研究做出重要贡献的个人和集体,均 己在文中以明确方式标明。本人完全意识到本声明的法律结 果由本人承担。 一一卜 作者( 签字) :冷丽 日期:工口户年苫月罗日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数 据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编 本学位论文,可以公布论文的全部内容。同时本人保证毕业后结 合学位论文研究课题再撰写的论文一律注明作者第一署名单位 为哈尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 囱在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :桶 日期:驯。年;月夕日 哈尔滨t 程大学硕士学伊论文 摘要 随着征信范围的扩大,用户缴费信用问题越来越受到政府和企业的重视。 信用风险评估作为数据挖掘技术的一个新的应用领域尚未成熟,还需要不断 深入地探索和研究。 本文针对银行和证券方面信用风险研究比较成熟而用户缴费信用风险研 究相对落后的情况,展开公共服务领域用户缴费信用风险评估研究。着力解 决系统效率低、复用性差等问题。系统模型主要包括数据挖掘横向通用知识 结构、数据挖掘算法建模推理支撑环境、数据挖掘调度平台、数据挖掘算法 构件库四个部分。系统模型分离数据挖掘算法构件库,并基于挖掘算法的推 理支撑环境研究,获得动态数据挖掘算法建模方案,通过设计挖掘算法路由 配置机制,实现算法动态调度。 数据挖掘算法动态配置的推理支撑环境设计,重点是知识库和推理机设 计。一方面,根据算法方案配置需求设计了数据挖掘算法建模知识表达模型, 基于建模知识基础完成算法路径的推理与解释;另一方面,推理机设计遵循 数据描述约束及任务描述约束,结合相容和相斥运算得出数据挖掘算法的可 行方案集合。 公共服务领域用户缴费信用风险评价系统从运行和应用角度评价其质 量。以电费缴纳业务的数据为例,挖掘用户非信用行为的主要特点,为企业 建立预警机制提供参考。 关键词:数据挖掘;信用模式;b p 神经网络;决策树;公共服务领域 _ 哈尔滨工稗大学硕十学伊论文 a bs t r a c t w i t ht h ei n c r e a s i n ga c c e p t a n c eo fc r e d i t ,t h eq u e s t i o no fc u s t o m e rp a y m e n t c r e d i th a sa l r e a d yb e e np a i da t t e n t i o nt om o r ea n dm o r eb yg o v e r n m e n ta n d c o r p o r a t i o n a san e wa p p l i c a t i o na r e a ,t h es t u d yo fc r e d i tr a t i n g sh a sn o tb e c o m e m a t u r ey e t m a n yo fp r o b l e m sn e e dc o n t i n u e ds t u d y t h es t u d yo fc r e d i tr i s ke v a l u a t i o nm e t h o d si nb a n k i n ga n ds e c u r i t i e s i n d u s t r yh a sb e e nm a t u r e ,b u tt h es t u d yo fc u s t o m e rp a y m e n tc r e d i ti sr e l a t i v e b a c k w a r di n d u s t r y i ns u c hc a s e ,w ec o n d u c t e das t u d yt oc u s t o m e rp a y m e n tc r e d i t r i s ke v a l u a t i o nm e t h o d s t h i sp a p e rd e s i g nd a t am i n i n gm o d e lo fc u s t o m e r p a y m e n tc r e d i tr i s ke v a l u a t i o n , a n da d d r e s st h ep r o b l e m so fl o we f f i c i e n c ya n d p o o rr e u s a b i l i t y a saw h o l e ,t h em o d e lo fd a t am i n i n gs y s t e m i n c l u d e sf o u rp a r t s : t h el a t e r a lg e n e r a lk n o w l e d g es t r u c t u r eo fd a t am i n i n g ;t h ei n f e r e n t i a lc o n t r o l s u p p o r te n v i r o n m e n to fd a t am i n i n ga l g o r i t h md e p l o y m e n tc o n s t r u c t i o n ;t h e p l a t f o r mo fd a t am i n i n gm a n a g e m e n t ;t h ec o m p o n e n tl i b r a r i e so fd a t am i n i n g a l g o r i t h m t h ec o m p o n e n tl i b r a r i e s o fd a t a m i n i n ga l g o r i t h m a r e d e s i g n e d i n d e p e n d e n t l y d e p e n d i n go ns t u d yo ft h ei n f e r e n t i a lc o n t r o ls u p p o r te n v i r o n m e n t o fd a t am i n i n ga l g o r i t h md e p l o y m e n tc o n s t r u c t i o n ,w ec a no b t a i nt h ed a t am i n i n g a l g o r i t h md e p l o y m e n tm o d e l t h ep a p e rp r o p o s e s t h em e c h a n i s ma c h i e v ed a t a m i n i n ga l g o r i t h m r o u t e rc o n f i g u r a t i o nf o rd a t am i n i n ga l g o r i t h md y n a m i c s c h e d u l i n g t h ei n f e r e n t i a lc o n t r o ls u p p o r te n v i r o n m e n to fd a t am i n i n ga l g o r i t h m d e p l o y m e n tc o n s t r u c t i o ni sd e s i g n e d t h ed e s i g no fk n o w l e d g e b a s ea n di n f e r e n c e e n g i n ei sak e yp r o b l e m o nt h eo n eh a n d ,b a s e do nt h er e q u i r e m e n to fs t u d y i n g d a t am i n i n ga l g o r i t h md e p l o y m e n t ,t h i sp a p e rd e s i g n sd a t am i n i n ga l g o r i t h m c o n f i g u r a t i o nc o n s t r u c t i o nk n o w l e d g ep r e s e n t a t i o nm o d e l ,a n dc o m p l e t e st h e r e a s o n i n ga n di n t e r p r e t a t i o no fd a t am i n i n ga l g o r i t h mp a t h s o nt h eo t h e rh a n d , t h ed e s i g no fi n f e r e n c ee n g i n ef o l l o w st h er e s t r i c t i o no fd a t ad e s c r i p t i o na n dt a s k d e s c r i p t i o n i ta c h i e v e sp r a c t i c a b l ed a t am i n i n gp l a ns e tb ym e a n so fc o m p a t i b l e 一 ll-1 哈尔滨工稗大学硕士学伊论文 a r i t h m e t i ca n dr e p e l l e n ta r i t h m e t i c c u s t o m e rp a y m e n tc r e d i tr i s ke v a l u a t i o ns y s t e mi np u b l i cs e r v i c ef i e l d a p p r a i s et h eq u a l i t yf r o mp o i n to fv i e wo fo p e r m i o na n da p p l i c a t i o n i t f i n d c u s t o m e rb a dc r e d i tb e h a v i o rp a t t e mb a s eo nt h ec u s t o m e ri n f o r m a t i o no f e l e c t r i c i t yc h a r g e sb u s i n e s s ,i no r d e rt op r o v i d ec o n s u l ta n dr e f e r e n c ef o rb u i l d i n g ac r e d i tw a r n i n gm e c h a n i s mi nc o r p o r a t i o n k e y w o r d s :d a t am i m n g ,c r e d i tp a a e m ,a l g o r i t h mo fb pn e u r a l n e t w o r k ; s e c i s i o nt r e e ;p u b l i cs e r v i c ef i e l d ; 哈尔滨t 程大学硕十学位论文 目录 第1 章绪论1 1 1 课题研究的目的、意义1 1 2 国内外研究现状2 1 2 1 数据挖掘在信用评估业务应用的国外研究现状2 1 2 2 数据挖掘在信用评估业务应用的国内研究现状3 1 2 3 存在问题和发展趋势5 1 3 论文的主要研究内容5 1 3 1 研究的目标5 1 3 2 研究的方案6 1 3 3 研究的任务6 1 4 论文的组织结构8 第2 章基于用户缴费业务的动态数据挖掘9 2 1 用户缴费业务研究9 2 2 领域工程指导下的数据挖掘系统开发9 2 2 1 缴费信用模式挖掘应用分析“1 l 2 2 2 缴费信用模式挖掘领域逻辑模型”1 2 2 2 3 缴费信用模式挖掘领域实现一1 5 2 3 公共服务领域d d m s 模型15 2 3 1 数据挖掘横向通用知识”1 6 2 3 2 挖掘算法建模推理支撑环境1 6 2 3 3 动态挖掘建模控制1 6 2 3 4 数据挖掘算法库17 2 3 5 动态数据挖掘调度控制1 7 2 4 动态数据挖掘机制”1 7 2 4 1d m 算法方案推理建模“l7 2 4 2d m 模型统一管理”19 2 4 3d m 算法库接口设计一2 0 哈尔滨工程大学硕士学位论文 宣i i i i i i i i i i i i 萱i i i i i i i i 宣i i i i i i i i i i 一i i i i i i i i i 宣i i 宣i 宣i i 宣i i i i i i i i i i i 2 5 本章小结“2 l 第3 章数据挖掘算法建模推理支撑环境2 2 3 1 数据挖掘算法建模概述2 2 3 2 数据挖掘建模知识表达一2 2 3 3 知识库设计”2 4 3 3 1k d m a c d 概念层2 5 3 3 2k d m a c d 知识层2 6 3 3 3k d m a c d 规则层2 7 3 3 4 动作层2 9 3 4 推理机设计”2 9 3 5 本章小结”3l 第4 章电费缴纳业务用户信用评价系统3 2 4 1 系统分析一3 2 4 2 集成数据挖掘算法”3 3 4 2 1 基于n e tr e m o t i n g 的算法构件库访问3 3 4 2 2 集成算法3 6 4 3 算法库调度及接口设计3 7 4 3 1 挖掘算法路由配置模块3 8 4 3 2 挖掘算法公共行为设计3 9 4 4 数据挖掘算法路径推理4 0 4 5 系统运行”4 l 4 5 1 神经网络参数设置一4 3 4 5 2 神经网络算法性能测试4 4 4 5 3 数据挖掘模型系统评估4 5 4 5 4 用户信用行为模式解析4 5 4 6 本章小结4 7 结论4 8 参考文献4 9 攻读硕士学位期间发表的论文和取得的科研成果5 3 致谢”5 4 哈尔滨丁稗大学硕士学位论文 第1 章绪论 1 1 课题研究的目的、意义 在现代社会生活中,缴费业务几乎遍布了所有的商业和服务领域,伴随 而来的是日益凸显的费用拖欠问题。为了尽量减少经济损失,企业有必要建 立费用拖欠预警系统。可以利用企业积累的尚处于数据原始状态的海量用户 信息,从不同层次的信息中发现潜在的、有价值的规则,以便管理者和经营 者迅速地做出正确的决策,这要求有效技术和工具的出现来实现海量数据向 有用信息和知识的转换。数据挖掘技术就是从存放在数据库、数据仓库或其 他信息库中的大量数据中挖掘有趣知识的过程 1 】。以数据挖掘技术为基础, 研究用户的缴费信用行为模式,并对用户的信用风险进行评估和预测,从而 有效解决费用拖欠问题,是非常有必要的。 应用数据挖掘技术需重点解决两方面问题。首先,通常人们对各自领域 所从事专业的业务特征非常熟悉,而对其他领域专业知识的了解相对匮乏, 造成不同领域的人在系统开发过程中难以沟通和协作,降低了开发效率和软 件复用率。其次,数据挖掘算法是一个定义完备的过程,它以数据作为输入 并产生模型或模式形式的输出【2 】。通常不同的挖掘任务需要对应不同算法, 无论是决策树、神经网络、关联规则还是聚类都不可能适应所有的领域。因 而往往需要调度及选择各方面的技术,使它们能够协同工作,并统一管理各 个挖掘步骤以及结果,才能共同完成某项挖掘任务。 传统数据挖掘系统强调人工主动参与,循环测试可能有效的挖掘算法, 最终得出相对可行的系统结构,导致了数据挖掘的手工化。传统数据挖掘过 程中数据处理繁琐、算法测试反复等都使得系统开发的周期较长,且在智能 性方面表现不足。因此,克服传统数据挖掘技术应用静态、机械的局限性, 采用注重多种策略和技术的集成,以及多种学科之间的相互渗透的动态挖掘 技术具有广阔的研究和应用前景,势必推动社会生产的高效发展,对经济、 科技等方面的决策具有极大的指导作用。例如,一些数据挖掘技术的成功案 例几度传为业界佳话。加拿大s i m o nf r a s e r 大学k d d 研究组,根据加拿大b c 哈尔滨t 程大学硕士学伊论文 省电话公司要求和其拥有的十多年的客户数据,总结、分析并提出新的电话 收费和管理办法,成功制定既有利于公司又有利于客户的优惠政策;美国著 名国家篮球队n b a 的教练,利用i b m 公司提供的数据挖掘技术,临场决定替 换队员,在竞赛中争取了主动权,都显示了数据挖掘对生产生活的重大意义。 1 2 国内外研究现状 1 2 1 数据挖掘在信用评估业务应用的国外研究现状 国外数据挖掘技术应用领域广泛且发展迅速,尤其是在商业和银行领域 的信用风险和预测方面。目前,研究成果主要集中在股票价格分析与预测, 金融风险分析【3 】【4 1 ,信用卡欺诈分析,气象预报等方面。o d o m 和s h a r d a 5 】使 用基于神经网络技术的数据挖掘方法研究财务危机预警模式,使用a l t m a n 选 取的5 个财务比率分析,选取6 5 家正常公司和6 5 家失败公司做样本,建立了神 经网络预警模型,并与基于统计分析方法的结果进行比较,得出在公司财务 危机的预测率方面神经网络分析方法优于统计分析方法;p a w e n 等研究了网 络用户的聚类与识别问题【6 】;j a e s n y a n g 应用支持向量机的方法研究银行破产 预警问趔7 1 ,并与其它的几种统计方法模型以及神经网络模型的预测结果进 行了比较,证实了这种方法的有效性等。 国外信用评估研究相对成熟,信用评估的主要方法包括专家系统、判别 分析、回归分析、神经网络、最邻近方法等。信用评估这种在全部客户中区 分好坏客户的想法源自于d a v i dd u r a n d ,他受至l j f i s h e 在1 9 3 6 年的一项实验的 启示,第一个产生了可以用这种方法来区分好与坏贷款申请客户的想法,开 创了信用评估的历史先河。二战以后,人们发现了从统计方法导出的模型在 贷款决策上的有利之处。o r g l e r 幂0 用回归分析设计了一个评价拖欠贷款的分 值卡,由于拖欠贷款用户信息包含消费者行为信息,他发现消费者的行为特 征比申请表特征更能表明贷款的未来质量 引。在2 0 世纪8 0 年代,信用评估在 信用卡领域的成功导致银行开始把信用评估应用于银行的其他产品,如个人 消费贷款。在8 0 年代的最后几年中,信用评估在消费信贷和小额商业贷款中 已经得到了广泛的应用。至i 9 0 年代后期,信用评估技术已相当成熟,已经有 8 0 以上的银行通过信用评估来决定信用卡的发放。2 0 0 0 年以来,信贷机构 最常采用的是用统计方法建立个人信用评分模型,至于具体采用何种方法则 2 哈尔滨t 程大学硕十学位论文 取决于不同方法对不同问题的预测准确度以及建模人员的知识及偏好。 近年来,随着信息技术的发展,具有机器学习能力的人工智能方法被引 入信用风险评估之中,该阶段的核心思想是建立量化信用风险评估的评估模 型。l u n d y 应用聚类分析数据挖掘技术对消费信贷申请者典型信用数据进行 处理得到了较为满意的结果【9 】;w i l s o n 和s h a r d a 通过运用基于神经网络技术的 系统,以高达9 7 的准确率对公司的破产进行有效的预测【1 0 l ;g r e e n es m i t h 应用遗传分类挖掘算法研究了信用风险评估的问题【l l 】;b e c k e r 运用m i n e s e t , 把监督学习方法和无监督学习方法用于贷款申请、信用卡犯罪侦察中,通过 建立可视化决策树来得到商务规则【l2 】;n a n c h e nh s i e h 运用了聚类和神经网 络的混合数据挖掘技术,设计出有效的信用评分模型【l3 】等等。 目前,发达国家已经建立了详细的个人和企业信用评分系统,形成了一 套较为完善信用评价方法和模型。无论在商务领域还是公共服务领域的信用 评估,数据挖掘研究方法都很普遍,同时,基于数据挖掘将不同的模型和方 法结合起来已经非常普遍。 1 2 2 数据挖掘在信用评估业务应用的国内研究现状 我国的信用体系建设起步比较晚,相对于国外发达国家成熟的信用体系 而言,我国的信用管理经验还十分缺乏,而且主要集中在银行、证券和电信 方面。公共服务领域的用户缴费信用风险研究作为信用体系研究的一个重要 方面,还有待扩展、完善和深入研究。 在国内,起初是由中国人民银行信用局负责开始着手建立个人信用档案 体系,目前己建成世界规模最大的个人征信数据库。2 0 0 6 年全国个人信用信 息基础数据库已经和主要的银行机构联网,信息涵盖个人基本信息、结算帐 户开立信息、银行信贷信息和住房公积金缴存信息等。通过对信用评估研究 情况来看,大多数学者对指标体系的选择遵循四个基本原则:整体性原则、 可比性原则、科学性原则和实用性原则【14 1 。 近年来,人工智能方法被引入信用风险评估之中,建立量化信用风险评 估模型成为趋势。数据挖掘技术在信用风险控制与管理方面的应用不断涌现, 被广泛的应用于金融业务、电信等行业的用户行为研究中。 3 哈尔滨t 稃大学硕士学何论文 在金融业务领域,陈良维将决策树算法应用于农村信用合作社农户贷款 信用评价问题中,提供了分析贷款组合的客观工具,对预防风险起到一定的 作用【1 5 】;李旭升等人将最小总风险准则m o r 与贝叶斯网络分类器相结合,设 计了最小总风险准则的贝叶斯网络个人信用评估模型,实现对信用评估中风 险的控制,银行可以在个人信用评估中进行风险管理【1 6 】;数据挖掘聚类算法 己成为实现客户细分目标的最重要的手段,基于银行客户数据集,通过 d b s c a n ,k - m e a n s 矛l :i x m e a n s 三种聚类算法的对比分析,改进的x m e a n s 算 法被应用于银行业客户细分,利用x m e a n s 算法建立了银行客户细分模型, 研究客户信贷信用行为模式,为银行决策者提供决策支持【1 7 1 。 在电信营销业务领域中,数据挖掘技术的客户聚类研究和应用取得阶段 性成果。o l a p 分析和贝叶斯网络被应用到电信话费的欺诈行为发现中,在 数掘挖掘技术的基础上,郑莉华研究了贝叶斯网络在电信话费欺诈建模方法 的应用【1 8 】;在电信客户行为模式研究中,通过综合客户消费行为,帐单行为 以及人口统计信息等因素,按照价值和行为两个维度进行战略分群,对客户 进行细分【1 9 】;代价敏感s v m 应用于v e r o p o u l o s 提出的采用不同惩罚系数的支 持向量机,研究由客户的欺诈行为、拖欠或滥用服务等因素所致的被动流失, 建立客户流失预测模型,能够完成对电信客户流失数据进行验证,并且取得 了一定的效果【2 0 】。 在其它业务领域研究中,数据挖掘技术应用越来越广泛。王扶东和马玉 芳等设计了适合数据挖掘技术应用的客户关系分析系统,并提出一种流程驱 动的处理过程,实现各种客户行为的理解及分析【2 i 】;张效严等设计了证券客 户分析系统,应用数据挖掘工具s p s s 的c l e m e n t i n e 8 0 的k m e a n s ,c 5 0 算 法建立挖掘模型,并运用模型预测最有潜力的客户【2 2 】;数据挖掘技术判定树 技术用于保险客户风险分析 2 3 】;预处理小波神经网络模型应用于协同创新客 户评价与应用研究【2 4 】;结合数据立方体技术以及概念分层的分析方法,将面 4 哈尔滨工程大学硕十学位论文 向属性的归纳方法( a o i ) 与k m e a n s 聚类算法相结合,应用于用户时序数据聚 类分析中,使每一类用户都具有相似的时序特征,并且方法( a o i g e n ) 能够满 足大数据量的用户行为分析要求:5 】;数据仓库技术在用户信用评价应用领域 研究取得了一定的成效【2 6 】。 总体看来,数据挖掘应用研究还有待深入,尤其是公共服务领域用户信 用研究和预测才刚刚起步,还处于积极探索和积累经验阶段。 1 2 3 存在问题和发展趋势 从数据挖掘应用研究来看,主要集中在银行和证券方面,对公共服务企 业的用户缴费信用评估的研究还比较少。在信用评估中,已有判定好坏客户 的方法并不全面。实际上,判定某客户是绝对好客户他一定能按时偿付 债务,或是绝对坏客户他一定会拖欠债务是不够的,好坏客户只是违约 概率上的大小不同,最佳信用客户也完全可能拖欠债务。 目前,比较有影响数据挖掘开发系统e n t e r p r i s em i n e r ,i n t e l l i g e mm i n e r , s e t m i n e r ,c l e m e n t i n e ,w a r e h o u s es t d i o , s e e 5 ,d b m i n e r 、q u e s t 等有普 遍的应用价值。但通用数据挖掘系统在处理特定应用问题时有其局限性,这 些系统在适用性、系统效率方面还不尽人意。 早期的数据挖掘应用主要集中在帮助企业提升竞争能力。随着数据挖掘 的日益普及,数据挖掘的应用范围也日益扩大,如生物医学、金融分析网络 服务、电信、零售业等领域。数据挖掘语言的设计,高效而有用的数据挖掘 方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘 技术解决大型应用问题,都是目前数据挖掘研究人员、系统和应用开发人员 所面临的主要问题。因此,一个重要的研究领域和发展趋势就是开发针对特 定应用的数据挖掘系统。 1 3 论文的主要研究内容 1 3 1 研究的目标 针对信用评价问题,建立基于数据挖掘的用户缴费信用评价系统,并根 据用户实际情况判断用户的信用度,建立预警机制,发现公共服务行业非信 5 哈尔滨_ 程大学硕士学位论文 用行为的主要行为特点,深化数据挖掘领域的研究与应用。 1 3 2 研究的方案 基于自上而下的原则进行系统设计,系统的设计与建立是一个部分循环 修正的过程,在此,以研究方案流程图来表示系统的开发实施路线。整体研 究方案如图1 1 。 1 3 3 研究的任务 图1 1 整体研究方案 研究数据挖掘算法的动态配置在数据挖掘建模中的应用并结合数据挖掘 工作探索公共服务领域用户消费信用的行为模式。具体包括以下几个方面: ( 1 ) 数据挖掘技术的应用现阶段主要关注两个方向的研究,数据挖掘算 法的推出及改进、数据挖掘模型的设计。在此,基于数据挖掘模型自动化设 计的目标,研究数据挖掘算法的动态配置在数据挖掘建模中的应用。主要解 6 哈尔滨丁程大学硕十学位论文 决数据挖掘算法配置方案的获得与数据挖掘算法的灵活调度问题,设计适应 公共服务领域的动态数据挖掘模型,并且利用模型对电费缴费用户信用行为 进行评价。 ( 2 ) 引入领域工程技术,抽象公共服务领域数据挖掘模型的横向通用特征 和纵向通用特征,可以实现系统开发资源复用目标。研究数据挖掘算法建模 知识,设计适应于公共服务领域的数据挖掘算法建模推理支撑环境,不仅可 以完成动态数据挖掘算法配置的目标,还可以实现应用的扩展。算法建模支 撑环境需要支持服务领域内的数据挖掘算法建模,当具体应用发生变化,需 要关注纵向领域特征模块的修改,而可以直接复用横向领域特征模块。 ( 3 ) 数据挖掘算法进出模型的方式关系到是否可以实现数据挖掘算法 根据系统运行环境灵活调度的问题。设计可扩展的数据挖掘算法集成模式, 并且基于数据挖掘算法的综合管理及调度控制完成数据挖掘算法的动态配 置。 、 ( 4 ) 基于数据挖掘算法动态配置模型,设计电费缴纳业务信用行为评价 系统。该系统需要作为模型的实际应用内容,从开发角度实例化公共服务领 域动态配置数据挖掘模型。 7 哈尔滨- 稃大学硕士学位论文 1 4 论文的组织结构 本文围绕主要研究任务分为四章论述,组织内容如下: 第1 章绪论:首先介绍了研究的背景和意义,并且分析数据挖掘技术 与信用评估的国内外研究现状、数据挖掘应用的研究热点和技术难点、论文 工作任务和组织结构。 第2 章基于用户缴费业务的动态数据挖掘:设计了适应于公共服务领 域的用户费用缴纳行为模式动态挖掘模型。抽象了模型在公共服务领域内的 公共特征( 横向通用特征) 和个性特征( 纵向通用特征) ,基于领域工程设计 思想,分离了数据挖掘算法建模推理支持环境及数据挖掘算法构件库。本章 详细设计了模型的结构和内容,明确了模型的组成及工作机制。并且依据数 据挖掘工作特点,详细描述了模型的各个元素。 第3 章数据挖掘算法建模推理支撑环境:描述数据挖掘算法方案动态配 置的具体实现,设计数据挖掘算法建模知识库,规范建模推理层次。数据挖 掘算法建模推理支撑环境主要包括知识库结构分析及推理机设计。在论述数 据挖掘算法建模知识结构的基础上,描述了各层的组织与形式。推理机制基 于最大可能原则概括为划分全局部分约束,主要内容包括数据预处理阶 段及数据挖掘阶段;遵循数据描述约束及任务描述约束;采纳相容及相斥运 算。 第4 章电费缴纳业务信用行为评价系统:论述了基于用户缴费业务行为 动态挖掘模型的电费缴纳业务信用行为评价系统开发,从系统分析、数据挖 掘算法集成、算法方案动态配置设计及系统运行效果等方面描述行为评价系 统的组成和构造。并且给出了挖掘系统针对电费缴纳业务获得的用户行为模 式,最后分析模式的产生原因。 8 哈尔滨丁程大学硕七学位论文 i im zii 1 i im i i i i i i i i 置i i i i i i i i i 第2 章基于用户缴费业务的动态数据挖掘 在数据挖掘应用系统的开发中,存在两个重要的问题:一是在挖掘系统 建设中忽略领域相似性,降低了开发效率和软件复用率;二是不同的挖掘任 务需要建立对应的数据挖掘模型,没有任何一种挖掘算法或者模型能够适应 所有领域。因此,需要选择或者配置相应的算法,使它们能够协同工作,并 协调挖掘过程,统一管理挖掘结果。结合领域建设目标的需求及数据挖掘技 术的研究,为了解决专业障碍问题,建立高效的数据挖掘算法柔性选择模式, 引入领域工程技术以功能区域规范数据挖掘应用范畴,并且根据公共服务缴 费业务工作的领域特征设计适应信用评价行为的动态挖掘模型,在集成数据 挖掘算法的基础上,研究能够动态协调各项挖掘技术的挖掘方案配置方法。 主要解决数据挖掘系统的复用性差,及人工建模效率低等问题,建立易于扩 展、灵活调度的动态数据挖掘系统( d y n a m i cd a t am i n i n gs y s t e m ,简称 、d d m s ) 。并且基于数据挖掘的方法,寻找缴费业务的用户信用行为模式。 2 1 用户缴费业务研究 缴费业务用户信用评估的应用领域包括很多行业,如供水部门、供电部 门、电信部门。通过研究缴费领域的业务特征及行为特点,从数据的角度探 讨该领域内设计行为评价系统的各项指标与内容。 首先,缴费业务具有数据多样性的特点,公共服务领域内的费用收缴工 作涉及各项信息,在多样性中,研究目标具有可探讨及实体化特征,研究对 象从传统意义的用户信息研究转化为用户行为预测研究。 其次,缴费行为研究策略大多可归类于有指导的数据挖掘模式,历史数 据可以清晰地显示用户的行为信息及基本特征,并且在信息基础上给出历史 行为的结论,即是否为信用优质用户,因此,挖掘建模主要针对归类方法, 兼顾聚类模式。 2 2 领域工程指导下的数据挖掘系统开发 数据是数据挖掘系统的处理对象,系统应当根据业务数据的领域特征, 9 哈尔滨工稗大学硕十学位论文 结合行业的特点、对象的属性和行为、行业指标等来选择合适的挖掘算法, 配置有效的挖掘模型及方案。现有的数据挖掘( d a t am i n i n g ,简称d m ) 系 统设计方法并没有对横向关联进行建模,因此,所设计系统具有较差的复用 性及灵活性。领域工程识别应用系统的共同特征和可变特征,对这些特征进 行抽象,形成领域分析模型,依据领域分析模型抽象领域中一类应用系统共 同具有的构架,即特定领域的软件构架( d o m a i ns p e c i f i cs o f t w a r e a r c h i t e c t u r e , 简称d s s a ) ,并以此为基础,识别、开发和组织可复用构件【27 1 。不同应用系 统需要面对具有不同特征的业务,利用领域工程技术可以分析领域范围内的 应用系统,识别数据挖掘应用领域的公共特征,刻画这些特征的对象和操作 进行选择和抽象,定义领域模型的相互关系和统一访问接口。由于通过领域 工程产生的可复用构件来源于领域中现有的系统,体现了领域中系统的本质 需求,因此,这些构件具有较高的可复用性【2 8 1 。 在数据挖掘系统研究的基础上,结合领域工程研究,探讨动态数据挖掘 的公共元素与应用接口,设计领域工程指导下的数据挖掘应用系统开发模式 ( 如图2 1 所示) ,通过研究数据挖掘在公共服务领域的具体应用,构建特征 模型以捕捉共同特征和可变特征。在特征模型中,横向关联被建模为领域方 面特征。根据数据挖掘的特点,领域工程指导下的动态数据挖掘系统的开发 则更加关注系统的开放性、通用性及可扩展性。这种开发模型本质上是领域 工程技术指导下的数据挖掘系统开发过程模型。关于横向关联说明如下。 定义横向关联:假如一个逻辑设计可以满足设计a ,并且同时支持设计 b ,那么a 和b 称为横向关联。 用户缴费业务行为动态挖掘系统的开发过程主要包括四个阶段:领域分 析、领域设计、领域实现、应用实现,相对应的有概念模型、逻辑模型和物 理模型三个模型层次的逐步演进,最终在物理模型基础上,实现公共服务领 域挖掘系统的开发与集成。 l o 哈尔滨工稗大学硕士学位论文 领域分析 领域设计 领域实现 至匣噩噩 应用实现亡d 公共服务应用领域数据挖掘系统集成 图2 1 领域工程指导下的数据挖掘应用系统开发模型 2 2 1 缴费信用模式挖掘应用分析 用户缴费信用行为模式挖掘应用分析属于领域设计分析阶段,分析模型 采用特征建模方法,基于领域中的共同特征及不同特征建立模型。在领域分 析阶段主要包括以下三方面任务: ( 1 ) 对来自用户缴费行业的业务知识及数据挖掘应用领域的设计知识进 行分析及抽象,确定用户缴费信用行为模式挖掘工作的特征并且建立公共服 务领域用户行为模式发现o n t o l o g y 。 ( 2 ) 在用户缴费信用行为模式挖掘领域范畴内,抽象数据挖掘各类功能 模型,并且定义相应的概念模型。 ( 3 ) 分析缴费信用行为模式挖掘应用特征之间的关系,明确特征之间的 影响方式及组合规则。 总体来说,信用模型是依靠业务数据和分析方法建立起来的。缴费信用 行为模式挖掘任务需要一个规范的模型来指导数据挖掘应用进行相应的工 作。针对不同的领域特点与标准,很多研究部门建立了自己的数据挖掘指导 模式,数据挖掘领域的研究成果层出不穷,在业界受到一定认可的方法论包 括s p s s 的5 a 和s a s 的s e m m a 及s p s s 、n c r 、d a i m l e r - b e n z 的c r i s p d m 。尽管它们采用了不同的表述方式,但总体来说定义了相似的阶段, 哈尔滨t 程大学硕十学位论文 基于数据挖掘方法论的探讨规划适用于公共服务行业用户缴费行为模式发现 的挖掘过程,如图2 2 所示。 图2 2 用户缴费行为模式发现的挖掘过程 模型建立是一个循环的过程,需要探索不同的挖掘模型使之能够适合于 所确定的信用行为模式挖掘目标,当模型建立并且从数据挖掘的结果中抽取 一些模式之后,很可能通过进一步分析数据,可以得到更好的挖掘结果。因 此需要把缴费业务数据准备和挖掘模型建立不断的迭代执行。 通过对数据挖掘技术的分析,可以发现无论应用领域如何不同,主要的 挖掘工作都可以抽象为数据预处理、数据挖掘、模式评估、知识表示四个基 本任务。根据数据特征的差异,可以选择相应的执行方案。在数据挖掘领域 横向通用特征构件库中,通过接口设计归纳数据处理的算法模块,使挖掘算 法独立于特定的数据挖掘应用。 该建模方式跳出数据挖掘流程与应用对象的限制,将注意力集中于数据 挖掘行为,而不是算法的探讨。通过领域分析与研究,利用已有的挖掘算法 成果,实现数据挖掘横向特征的提取。面对多类应用,基于领域指导的设计 可以具有较好的演化性及复用性。 2 2 2 缴费信用模式挖掘领域逻辑模型 经缴费信用模式挖掘应用分析产生领域逻辑模型,即缴费信用模式挖掘 系统的软件体系结构。数据是用户缴付业务的主要信息,是挖掘系统的处理 对象。信用模式挖掘应用中,业务数据参考模型的建立是构建特定领域软件 体系架构( d s s a ) 的基础,为在领域应用范围内进行挖掘工作提供重要支持。 1 2 哈尔滨t 程大学硕十学何论文 基于领域设计的数据分析参考模型( 如图2 3 ) 通过对数据实体的适用范 围进行分析( 划分为横向通用特征、横向领域和纵向领域数据模型) ,从体系 结构角度来明确数据模型的复用范围和程度。 r 磊藉甬丽蔚磊诞lr 一磊矗百葫聂磊蘸r i 纵向 领域1 纵向 领域2 纵向 领域r l 缴费应用领域1 横向通用特征 纵向纵向 纵向 领域l领域2l 领域1 1 缴费应用领域m 横向通用特征 图2 3 领域数据分析参考模型 数据横向通用特征的提取是领域范畴内数据挖掘工作实施的重要保证, 而数据挖掘领域o n t o l o g y 的建立和完善是建立数据横向通用特征的基础,在 该体系结构中,横向模型是从纵向模型中提取出来的,纵向以横向为基础, 并可以向横向转化;横向也可以通过实例化向纵向转移。 在数据特征规范的同时,数据挖掘d s s a 需要定义公共服务领域内,用 户缴费行业的相应领域规则,描述缴费业务及功能模块间的关系,并且将数 据挖掘应用领域模型中的共性活动设计成该领域构件库,具体包括下面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年交通设备制造业数字化转型升级政策环境分析报告
- 2025年工业互联网平台传感器网络自组网技术在航空航天领域的应用分析
- 2025年分布式能源系统生物质能源应用中的能源互联网发展优化报告
- 2025年乡村振兴背景下职业技能培训的可持续发展策略报告
- 2025年CCS项目在能源领域应用的经济效益与投资决策支持研究报告
- 2025年医疗美容消费者心理特点与服务质量优化路径报告
- 轻工行业25W22:关税博弈继续浆价震荡分化
- 施工净化车间管理制度
- 固体废物收集点管理制度
- 所属分公司财务管理制度
- 304不锈钢管材质证明书
- 预拌混凝土及原材料检测理论考试题库(含答案)
- 公开招聘社区居委专职工作人员考试笔试、面试题集及相关知识(11套试题含答案)
- 《植物生理学》课件第三章+植物的光合作用
- 游泳馆网架翻新施工组织方案设计
- 有机化学所有的命名--超全.
- 引水罐的设计计算
- 三年级译林版英语下学期按要求写句子专项强化练习题
- 电缆接线工艺设计规范流程
- 中医经络减肥课件
- 5WHY分析法培训
评论
0/150
提交评论