




已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于 数据 挖掘 的信 用卡 交 易风 险检 测研 究计 算 机 应 用 技 术 专 业研 究 生 魏 大 庆 指 导 教 师 袁 丁 刘 芳信用卡作为一种全新的支 付手段和信用工具,已经 成为众多商业银行竟相推出的产 品,经 营信用卡 业务有 高收益 ,同时也 伴随着 高风险 。随着我 国的加入,电子商务的发展, 信用体系和制度以及信用 支付环境的建立,越来越多的消费者选择使用信用卡 进行日常的消费支付。但 对于信用卡消费,较为普遍的看法还是安全问题。与 国际先进的信用卡业务的 信用卡交易风险管理体系相比,我国商业银行的信用 卡交易风险管理体系存在 者很大差距。市场经济条件下,经济越发展,信用卡欺诈行为也越来越多,主要表现为:冒用他人信用卡交易和恶意透支、伪造信用 卡诈骗、使用作废信用卡 诈骗。信用卡诈骗严重扰乱了正常的金融秩序,给银 行和持卡人造成很大的损 失,影响银行信用卡业务的健康发展。传统的检测金 融欺诈的方法主要依赖于 计算机数据库系统的支持以及客户的受教育程度。这种方法有滞后性,不准确性,不及时性等缺点。本文仔细分析了信用卡交 易的特点,发现采用数据 挖掘技术能够有效地发现其内部隐藏的、潜在的异 常交易模式,在此基础上 给出了种基于数据挖掘技术的混合检测模型,其核 心部分采用数据挖掘技术 中的决策树分类和神经网络 来 检 测 高 风 险 交 易 行 为 。 具 体 来 讲 做 了 如 下 工 作 : 把 信 用 卡 的 业 务 数 据 转 换为数据挖掘所需要的数据格式,并进行数据清洗、离散化、缺失数据处理等;建立决策树检测模型和神经 网络检测模型:建立决策 树和神经网络的混合检测模型;对比分析各个模型的检测结果。本文最后还建立了一个基 于决策树和神经网络的风 险检测实验系统,并对检测结果进行了预测评价,最后提出了下一步的研究工作重点。关键词:信用卡,数据挖掘,神经网络,决策树,交易风险检测 : : : , , , , , , , , , , , , 。 啪 , , , , : , , ; ; ; , , , : , , , 四 范 大学学 位论 文独创 性及使 用 授 权 声 明本 人 声 明 : 所 呈 交 学 位 论 文 , 是 本 人 在 导 师 塞 工 趔 羞 指 导 下 , 独 立进 行 研 究 工 作 所 取 得 的 成 果 。 除 文 中 已 经 注 明 引 用 的 内 容 外 , 本 论 文 不 含 任 何其他 个 人 或 集 体已 经 发 表 或 撰 写过 的 作 品 或 成 果。 对 本 文 的 研 究做 出 重 要 贡 献的个人 和集 体,均 已在 文中以 明确 方式标 明。本人 承 诺 : 已 提 交 的 学 位 论 文 电 子 版与 论 文 纸 本 的 内 容 一 致 。 如 因 不 符 而引起的 学术声 誉上的 损失由 本人自 负。本人同 意所 撰写 学位 论文 的使用 授权 遵照 学校 的管 理规 定:学校 作 为 申 请 学 位的 条 件 之 一 , 学 位论 文 著 作 权 拥 有 者须 授 权 所 在 大 学 拥有 学 位 论 文 的 部 分 使 用 权 , 即 : ) 已 获 学 位 的 研 究 生 必 须 按 学 校 规 定 提 交 印 刷版和 电 子 版 学 位论 文 , 可 以 将 学位 论 文 的 全 部 或部 分 内 容 编 入 有关 数 据 库 进 行检索 ; )为 教学 和 科 研 目 的, 学 校 可 以将 公 开 的 学 位论 文 或 解 密 后的 学 位 论 文作为 资料 在图 书 馆、 资料 室 等场 所或 在 校园 网上 供 校内 师生 阅 读、 浏览 。用童定褊论文 作者 签名 : 氇声别芳,弓川年歹月日第一 章 前 言研究目的和意义据国际信用卡组织最近发布的一 个调查报告称,即使保守估计,中国目前信用卡的潜在目标人群在万到 万,预计年中国中等收入的人群可能超过亿人,中国已经成为全球信用卡发展潜力最大的市场。现在国内银行都在不惜血本地扩大自己 的市场份额。对竞争日益 激烈的市场环境,我国各大银行为拓展市场,纷纷推出各种优惠措施以吸引消费者,并在信用审核时,采取较宽松的政策。然而, 这种营销策略,虽然可以 迅速增加发卡量,降低其单位运营成本,但也导致了 信用卡风险的提高。因此 ,如何在增加客户与做好风险管理问取得一个平衡点,是当前各大银行面临的重要课题。在信用卡的风险管理卅中,信用卡的核查是第一道防线,由于审核人员经验不足或缺乏客观审核标 准而难于进行评估,造成 了信用卡本身的风险。信用卡核查后的交易风险管理 又是另一道重要的防线。 信用卡的普遍使用导致了信用卡的盗窃以及信 用卡欺诈闭。如果银 行等信用卡发卡机 构没有有效的方法来区分合法交易和欺 诈性交易,就将导致 大量的经济损失。 有资料显示,截止到!,全世界信用卡交易额已经超过万亿美元,而全球信用卡欺诈交易额己占年总交易额的。而在我国,截止到年月,各类信用卡(贷记卡)发 行量已达 至万张左右 ,而信用 卡欺诈 每年给国 家造成的 损失不低 于万元】 。虽然利用多年积累的风险管理经验,银行可以从持卡人资料、交易资料中识别出一些很明显 的高风险交易,但缺乏一 套有效的检测机制加以更为准确的识别。为了解决上述问题,增强 信用卡交易的安全性,有 必要建立一个信用卡交易风险检测系统,提供一个 安全放心的交易环境。信 用卡交易风险检测方面的研究在发达国家开展 得比较早;而在我国 这方面研究还相对 较少。若能建立一套交易风险探测系统,当有人利用信用卡进行交易时,能及时识别高风险交易,并及时向监控入员发出预警 信号,进而采取相应的措 施,把损失降到最低。因此,开展信用卡交易风险探测的研究具有重要的意义。课题来源本课题来源于:四川省教育厅科研项目:数据挖掘在信用卡用户消费行为分析中的应用项目编号: 该课题是利用银行保存的 大量客户历史交易数据建 立用户消费等级评估模型、客户消费行为分析模型 、用户异常交易分析模型 等。本文主要针对客户的消费行为模式,建立客户的交易风险检测模型。国内外研究现状信用卡作为一种先进的金融支付工具 ,因其方便、快捷、安全的结算特点而倍受青睐。但是随着近几 年来信用卡的电子支付交 易量猛增,信用卡交易的风险也成直线上升, 其和统计,全球信用卡 欺诈涉及总金额超过亿美金, 所以对信用卡交易风险的 研究一直是信用卡研究的 热门问题。国内:目前国内信用卡风 险检测系统的研究还处于 起步的阶段,许多的研究都还是停留在对理论的论证方面。文献【】就银行信用卡信用风险管理中的相应问题提出了具体的分析模型和所采用的数据挖 掘算法,不过这些研 究主要集中在信用 风险上,而信用卡的交易风险谈及甚少。文献【】中就银行交易系统的功能划分和反欺诈系统的具体设计做了详细的论述, 并着重阐述采用贝叶斯分 类器对海量的信羽卡客户数据分类,预测该用 户交易行为是否欺诈 并做出及时处理。 这为我们进一步研究信用卡交易风险起了前导性作用。文献【】中介绍了一个应用数据挖掘技术开发的信用卡分析平台,其中客户交易异常行为 分析就是其中一个模块。该模块采用异常检测算法对 客户交易的合法性进行检 测。这也为我们研究信用卡交易风险提出了这么一个 思路,可以利用数据挖掘 的方法分析信用卡交易的风险。数据挖掘在商业银行的应 用,我国起步较晚,国内 的大多数银行都在研发软件。年以后,才开始出现利用数据挖掘技术研究信用卡业务的项目。其中的商用研究有:新太科技的银行客户关系管理系统【:透过统计分析和数据挖掘方法,将银行客户资料做不同角度的分析,从中发现客户的行为特性或偏好、倾向,并进而 创造 销售 机会 或避 免风 险发 生。华际友天信贷监控系统【:围绕商业银行信贷业务的发展需求,以信贷监控为基本点,采用当今最流行的数据仓库技术和数据挖掘分析理论,确定以客户分析、市场分析、风险分析、综合分析四大分析主题,并以此为基础建立分析模型,通过可视化分析工具,实现信用欺诈预测、风险评估、趋势分析、收益分 析、 辅助 市场 营 销等 各类 分析 应用 。新晨科技开发的银行信用卡分析考核系统【:是以财务数据资料为主要数据来源, 由系统对 数据进 行分类 、比较 、分析 及综合 ,以从 中分析 银行卡的发行效率为目的的一种考核方式。并通过前端客户化界面得以呈现。帮助银行的管理者全面、实时、准确地掌握银行卡的相关信息,为掌握整个企业的经营状况提供良好的工具。上海复旦德门的商业银行客户分析系统:根据对客户的卡透支情况,个人贷款逾期情况、客户的非正常交易和等级变化的跟踪分析,掌握他们的最新动向和趋势,提供预警机制,帮助银行更好地防范与控制风险。国外:从事信用卡交易风险检测方面的研究比较多,在理论上也取得了丰硕的成果。文献,中都提出了基于数据挖掘的信用卡交易风险探测的模型,并对模型采用的决策树算法、人工神经网络、聚类算法等进行了比较分析。文献【】中 还介绍了一个 基于人工神 经网络的检测 实验系统,该系统是利用客户信用卡交易数据和客户信息实现了信用卡交易风险检测,这为我们建立信用卡交易风险检测系统提供了一个实验系统原型。在商业应用上,国外已经有比较成熟的系统,目前在银行数据挖掘领域比较活跃 的软 件提 供商 有: , , ,和 等 。他 们都提出了面向银行业的解决方案。以国外银行的应用为例,其中的商用研究有:美国银行使用 数据挖 掘工具,根据 客户的消费模 式预测何时为客户提供何种产品。银行市场调查和数据库营销部经理发现:公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消 费者。 根据消 费者是 否有家 庭财产贷 款、赊 帐卡、 存款证或其它储蓄、投资产品,将 它们分成若干组,然后使 用数据挖掘工具预测何时向每位消费者提供哪种产品。美 国 公 司 开 发 的 信 用 卡 欺 诈 估 测 系 统 : 。 已 经成功地将神经网络技术应用 于信用卡和借记卡行业的 风险预测,它已被相当数量的 零 售 银行 用 于 探 测可 疑 的 信用 卡 交 易 ,的数 据 格 式 主要 针 对 一些流行的 信用卡 公司, 如,等 。坤预防型风险管理系统【卅:为 一完整的风险管理工具,特别适用于各种类型的信用卡与转帐卡的诈欺行为 ,包括遗失或冒用,伪造卡,以及伪冒申请等。结合 了神经网络 技术与数理 统计,提供 了一个进 行风险管理 的完整解 决方 案 。独一 无 二的 神 经网 络 技术 称 之为 ,成的()拥有 神经网络界最快 的学习与处理 速度。通过以上描述,就目前国内外研究的 理论和成果来看,信用卡风险检测在国内还停留在信用风险的研究上,而交易风险的检测还没得到广泛关注。虽然国外商业应用研究比较成熟,但都因为 设计商业秘密没有详细的技术资料;在理论上虽然提出了不少检测模型,不过 大多都采用一次建模,检测结果的准确率也不是很高,对各种算法的二次建模等诸多问题都还没有得到圆满的解决,因此我们研究基于决策树的神经网络的 信用卡交易风险检测系统,对提高风险检铡的准确率也是大有好处的。本文研究内容通过大量的查阅 和研究国内外 有关信用卡交易 风险检测的资 料,并在结合现代数据挖掘技术的基础上,本人提出 了一个基于决策树和人工神经网络的信用卡交易风险检测混合模型。并根据这 个混合模型建立了一个风险检测实验系统。具体来讲主要研究了如下一些内容:、研究了基于决策树和人工神经网络的风险检测混合模型。这个混合模型可以很大程度地检测信 用卡异常交易,同时对建立模型所用的决策树算法和人工神经网络结构做了详细的描述和说明。、处理模型建立前期的数据预处理中的一些关键司题。 这些问题的解决与否直接关系到本检测系统的检测结果,主要包括有以下几个方面;( )数 据 的 选 择包括选择多大的训练样本数量、选择哪些属性和应该增加哪些属性作为模型的输入。( )数 据 的 处 理包括处理数据中的缺失值、脏数据的剔除、纠正错误数据、重复数据的清除、数据的转化和集成和数据的离散化等。、从理论上说明了提出该模型的正确性和可行性。首先从大量的文献资料中获得了有关决策树和人工神经网络相结合的可行性依据,并把混合模型的检测结果分别与单一决策树检测结果和人工神经网络检测结果相比较,证实混合模型的可行性。、开发出一个实验性风险检测系统。、把检测结果与国外有关信用卡交易风险检测结果比较分析。研究方法和论文结构本文采用的研究方法主要是理论研究与实证研究相结合。在阅读大量的信用卡风险检测文献的基础上,采用实际数据,利用己有数据挖掘算法进行适应性研究开发。本文的论文结构共分六章:第一章讲述课题背景、研究意义,来源和国内外研究现状及本文工作。第二章是信用卡交易风险检测概述,主要介绍数据挖掘在银行信用卡分析中的主要应用、信用卡风险的表现,及信用卡交易风险分析的必要性。最后还介绍了基于数据挖掘技术的信用卡交易风险检测模型。第三章主要探讨信用卡交易风险检测模型建立的数据预处理,这部分是影响模型 检测准 确率的 关键部 分。第四章主要是提出了基于决策树和人工神经网络的风险检测混合模型,对建立模型所用的决策树算法和人工神经网络结构做了详细的描述和流程说明。并从理论上说明了提出该模型的正确性和可行性。第五章主要是信 用卡交易风险 检测系统的研究 ,并把混合模 型的检测结果分别与单一决策 树检测结果和人 工神经网络检测 结果相比较,证 实混合模型的可行性。第六章是小结和展望。第 二 章 信 用 卡 领 域 的 数 据 挖 掘 概 述数据 挖掘技 术概述数据挖掘技术的产生及定义众所周 知,数 据库 技术从 世 纪年 代开始 。已 经得到 了广 泛的普 及和应用。随着数据库容量的膨胀,特别是数据仓库【】以及等新型数据源的日益普及,人们面临的主要问题不再是缺乏足够的信息可以使用,而是面对浩瀚的数据海洋。如何有效的利用这些数据,已经成为广大信息技术工作者所重点关注的焦点之一。与目趋成熟的数据管理技术和软件工具相比,人们所依赖的常规数据分析工具却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识” 。面对这一挑战,数据挖掘捌和知识发现【凋技术运用雨生,并显示了强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更高的阶段。它不仅能对过去的数据进行查询,而且能够找出数据间的潜在联系,进行更高层次的分析,以便更好的解决决策、预测等问题。毫不夸张的说,如今的数据挖掘已经成为计算机、信息科学以及相关领域的一个时髦名词,而且在商业管理、生产控制、市场分析、交通、电信、科学探索等领域得到了广泛的应用。数据挖掘就是从大量的、不完全的、有噪声的、随机的实际数据中,提取隐藏在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。数据挖掘的结果是发现知识。人们把数据看作是形成知识的源泉,如同从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的、如文本、图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的、也可以是非数学的;可以是演绎的、也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的引用从低层次的简单查询提升到从数据中挖掘知识、提供决策支持。在各种需求的牵引下,汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成了新的技术热点。数据挖掘的挖掘过程在实施数据挖 掘之前,先 要制定采取什 么样的步骤 、每一步都 做什么、达至什么样的目标是必要的,有了好的计划才能保证数据挖掘有条理地实施并取的成功。那么, 有没有通用的数 据挖掘过程模型 可以用来指导人 们如何实施数据挖掘 过程昵 ?实 际上每 一个数 据挖 掘软件 提供商 和一些 数据 挖掘咨 询公司 都提出 了自 己的 数据 挖掘 过程 模型 。等 人在 年提 出了 一种 实用 的过程 模型 ,而 其后 等 人提 出的 多阶 段模 型由 于其 通用 性而 被广 泛的 接受。下面就以等人提出 的过程模型为 基础,对数 据挖掘过程 作概要性介绍。过程模型是一个高级处理过程,它包含多个处理步骤,各个步骤之间相互影响,反复调整,形成了一种螺旋式的上升过程。如图所 示,数 据挖掘 过程是 由若干 挖掘步 骤组 成,而 数据挖 掘仅是 其中的一个主要步骤。整个知识挖掘的主要过程有:数据选取从现有的数据中 ,确定哪些数 据是与本次数据 分析任务相关 的。根据挖掘目标,从原始数据中选取相关的数据集,并把不同数据源中的数据集成起来。数据清洗对于选择的数据,需要进行数据清洗工作,将数据转化为“干净”的数据。目标数据集中不可避免地存在着不完整、不一致、不精确和冗余的数据,这些数据 统 称 为“ 脏 数 据” 。 数 据 选取 之 后 必须 利 用 领域 专 家 知 识对 “ 脏 数据 ” 进 行清洗。通常采取基于规则的方法对它们实施相应的处理。数据转化数据转化的作用就是将数 据转换为易于进行数据挖 掘的数据存储形式。数据转换的方法包括以 期望的方式组织数据 ,把一种类型的数 据转换为另一种类型的,或者是对数据的属性 用数学算子或逻辑算子进 行转换。目的是将数据转换为适 应数 据挖掘 处理 的形式 。 选择挖掘算法选择合适的挖掘算法是知 识挖掘的一个基本步骤, 其作用就是利用智能方澍(分类、聚类、关联规则、神经网络等)挖掘数据模式或规律知识。模式评估根据一定评估标准从挖掘 结果筛选出有意义的模式 知识。如果结果不能让决策 者满 意, 需 要重 复以 上 挖掘 过程 。知识表示利用 可 视 化 和知 识 表 达 技 术, 向 用 户 展示 所 挖 掘 出 的相 关 知 识 。数据挖掘功能数据挖掘功能悃于指定数据挖掘任务中要找的模型类型。数据挖掘任务一般可以分为两类:描述 和预测。描述性挖掘任务 刻画数据库中数据的一般特性。预测性挖掘任 务在当前数据上进行 推断,以进行预测 。数据挖掘的功能主要包括概念描述、关联规 则、分类和预测、聚类分 析、孤立点分析等。下面对一些常用功能分别加以介绍。概念描述对于存放在数据库中的大量细节数据 ,能够以简洁的形式在更一般的抽象层描述是很有用的。允许数 据集在多个抽象层概化, 便于用户考察数据有趣的一般性质,可以方便、灵活地以不同的 粒度和从不同的角度描述数据集。这种描述性数据挖掘称为概念描 述,它是数据挖掘的一个 重要组成部分。概念描述可以通过以下技术得到:数据特征化和数据区分。数据特征化陋】是目标类数据的一般特征或特性的汇总。有许多有效的方法将数据 特征化 和汇总 。主 要包括 :一种 是基于 数据 立方体 的上卷操 作,可以用来执行用户控制的、 沿指定维的数据汇总。一 种是面向属性的归纳技术可以用来进行数据的概化和特征化,其基本操作是数据概化瞄。由于将属性概化到多高的抽象层通常 是相当主观的,主要取决于属性或应用。有些属性需要留在较低的抽象层,而另一些属性需要概化到较高的抽象层。该过程的控制称为属性概化 控制。常用的技术有以下 两种:第一种称作属性概化;值控制,或者对所有的属性设置一个概念阀值,或者对每个属性设置一个阀值。第二种技术称为概化关系阀值控 制,即为概化关系设置一个阀值。如果概化关系中不同元组的个数 超过该阀值,则应当进一 步概化,否则不再进一步概化。关联规则卿使用关联规则的目的是从一个数据库表中找出多个属性之间存在的关系。关联规则挖掘的一个典型例 子是购物篮分析。该过程 通过发现顾客放入其购物篮中的不同商品之间的联系 ,分析顾客的购买习惯。 通过了解哪些商品和哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。例如通过关联规则的算法我 们发现啤酒和尿布经常同 时被购买,利用得函的这个规则,超市可以在摆放货物时把啤酒和尿布摆放在一起。定义:令(, ,)为项目集() ,为事务数据库,其中每个事务是 一个 项目 子 集() , 并 具有 一个 唯 一的 标识 符 。 关 联规 则是 形 如啐 的 逻 辑 蕴 含 式 , 其 中 , , 且 。 有 两 个 园 子 与 这 条 规 则相关:如果事务数据库中有的事物包含挪么我们说关联规则辛的支持度()为 ,如果事务数据库 里包含的事务中有 的事务同时包含, 那么我 们说关 联规则 ; 的 可信度 ()为。即()岱()(阳同时 满 足 最 小 支 持 度 阀 值 ( 为强规则。)和最信度阀值(的规则称如果不考虑关联规则的支持度和置信度、作用度,那么在事务数据库中就会存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度、置信度和 作 用 度 的 关 联 规 则 感 兴 趣 。 因 此 , 为 了 发 现 有 意 义 的 关 联 规 则 , 需 要 给 定 两个 阈 值 : 最 小 支 持 度 和 最 小 置 信 度 。 前 者 即 用 户 规 定 的 关 联 规 则 必 须 满 足 的 最小支持度,它表示了一组物品集在统计意义上需满足的最低程度;后者即用户规定的关联规则必须满足的最小置信度,它反应了关联规则的最低可靠度。另外 , 关 联 规 则 发 现 的 思 路 还 可 以 用 于 序 列 模 式 分 析 。 序 列 模 式 分 析 的 侧 重 点 在于分析事件的前后序列关联,一般顾客在购买商品时,除了具有上述关联规律,还有 在时 间上 或序 列上 的 规律 ,发 现诸 如“ 在 购买 商品 后, 一段 时间 里顾客会 接着 购买 商品 , 而后 购 买商 品”的 模型 ,形 成 一个 客户 行为 的“ ”模式。 分类和预测分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。通过对预先建立 的学习模型进行有指导的学习训练,最终可以获得具有一定准确率的分类方法。数据分类在统计学、机器学习、人工智能等领域有着深入地研究。预测和分 类不同,他是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或区间值。预测可以用回归统计技术建模,一般采用线性回归、多元回归、非线性回归等方法获得该连续值函数模型。这里主要讨论分类模型。数据分类是一个两步过程:第一步;建立一个分类模型。根据样本数据描述,假定每个元组属于个预定义的类 ,由一个称 作类标号属 性的 属性确定。 为建立分 类模型,需 要有一个训练数据集作为输入。然后通过应用一个或几个分类算法,常用的分类算法有:决策树归纳、贝叶斯分类、神经网络、最临近分类、遗传算法、粗糙集和模糊集方法等。最后由分类算法自动的产生分类模型。第二步:使用分类模型提取的分类规则进行分类。其中决策树技术是用于分类和预测的主要技术,它的目的是根据某个新记录的属性,将其分派至预先 定义好的若干类中的一个 ,并为其添加一个字段以标识该记录的类别,它是一种挖掘数据中潜在分类规则的方法。它与神经网络、多元统计中的判别分析等分类方法相比 ,有速度快、精度高、生成模式简单易用 等 优 点 , 同 时 可 以 生 成 容 易 理 解 的 分 类 规 则 ; 计 算 量 相 对 来 说 不 是 很 大 ; 可以处理比例尺度变量和名义尺度变量; 决策树可以清晰的显示比较重要的测试属性,故在数据挖掘中被广泛采用。聚类分析聚类【】就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇 中的对象差别较大。其中 相似度是根据描述对象的属性值来计算的。作为一个 数据挖掘功能,聚类分析 能作为一个独立的工具来获得数据分布的情况,观察 每个簇的特点,集中对特 定的某些簇做进一步的分析。此 外, 聚类 分析 可以作 为其 他算 法(如特 征化 和分 类)的预 处理 步骤 ,这些算法再在生成的簇上进行处理。大体上,主要的聚类算法可以划分为如下几类:()划分 方法: 给定 一个 有个对 象或 元组 的数 据库, 用划 分的 方法 构建数据 的 个 划分 , 每 个划 分 表 示 一个 聚 簇 。也 就 是 说 ,他 将 数 据划 分 为 个组,同时满足如下的要求:()每个组至少包含一个对象;()每个对象必须属于且只属于 一个组。()层次的方法:层次的方法对给定数据对象集合迸行层次的分解。根据层次 的 分 解 如 何 形 成 , 层 次 的 方 法 可 以 分 为 凝 聚 的 和 分 裂 的 。 凝 聚 的 方 法 , 也 称为自底向上的方法,一开始将每个对象 作为单独的一个组,然后相继地合并相近的对 象或 组,直 到所 有的 组合为 一个 (层 次的 最上 层) ,或 者达到 一个 终止条件。分裂的方法,也成为 自顶向下的方法,一开始 将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂 为更小的簇直到最总每个对象在单独的一个 簇中 , 或者 达 到一 个终 止 条件 。()基 于密度的 方法:只 要临近区 域的密度 (对 象或数据 点的数目 )超 过某个阀值,就继续聚类。也就 是说,对于给定类中的每 个数据点,在一个给定范围的区域中必须至少包含某个数目的点 。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。()基于模型的方法:基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。它也基于标准的统计数字自动决定聚类的数目,考虑“噪声”数据,从而产生健壮的聚类方法。信用卡交易 风险检测概述数据 挖掘在信用 卡分析中的 主要应用客户信用风险评估客户初始信用风险评估驯就是当一个客户来银行申请新信用卡的时候,通过客户填写的基本信息,系统给出一个建议的初始信用等级。以客户的历史数据为输入,表现为客户的初始信用等级分布特征,采用数据挖掘技术建立模型,来预测新客户的初始信用等级,为客户打分。同时,客户的信用等级是一个动态变化的过程,根据客户消费行为的变化,信用等级应该相应的发生变化。根据客户 的特征 数据(客户 基本信 息)与客户 的交易 数据以 及一些 有意义 的汇总数据,构建动态的信用风险评估模型,让银行了解客户当前信用等级的分布特征,并预测下一阶段客户的信用风险变化趋势。客户透支分析分析信用卡使用中信用透支的情况,了解透支客户的具体特征。如将客户透支分为三种类型:高、中、低。银行可以对高、中、低的具体情况进行设置,比如设置透支在每月元的为高。采用数据挖掘技术以客户的基本信息、历史汇总数据为输入,所选字段需与透支无直接相关性,输出为设定的透支类别,且能够预测当前客户在今后一段时间中可能透支的情况。客户利润分析分析信用卡客户的利润分布情况,得到带来不同利润的客户的具体特征。例如将客户利润分为三种类型:高、中、低。银行可以对高、中、低的具体情况进行设置。客户利润分析同客户透支分析类似。客户类别分析模型当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,比如将客户分成四个重要的类别;交易频繁的客户、偶然大量透支的客户、稳定透支的客户、其他, 帮助银行寻找出这些不同种类客户之间的特征。可以让银行了解不同行为类别 客户的分布特征,能够预测下一阶段客户的类别变 化趋势。客户消费行为分析每个客户都有一定的消费 习惯,具有相似消费习惯 的客户可以组成一个群体。通过分析一个个群体的 消费特征,可以了解不同 稍费群体的消费模式,从而可以提供更贴切的服务。利用数据挖 掘技术将客户消费行为数据划分为不同的 聚 类 , 在 同 一 聚 类 内 部 的 客 户 具 有 相 同 的 消 费 行 为 , 不 同 聚 类 之 间 的 客 户 消费行为差异较大,对不同聚 类的客户可以采取不同的 市场营销策略。它是描述性模型,不是预言模型,主 要目的是帮助银行更好的 了解客户的消费行为。大多数人的消费行为称为“正常消费行为” ,而在生活中往往还存在消费习惯和行为“与众不同”的人。客户消费异常行为分析可以找出这些有“异常消费行为”的入,提示银行给予充分的关注和警觉。信用卡业务的风险表现随着我国信用卡支付环境的建立,越来越多的消费者开始使用信用卡进行日常的在线支付。我国各大银行为拓展市场,纷纷推出各种优惠措施以吸引消费者,并在信用审核时,采取较宽松的 政策。然而,这种营销策略,虽然可以迅速增加发卡量,降低其单位运营成本 ,但也导致了信用卡风险的提高。信用卡风险已经成为银行面临的突出问题。由于信用卡与其他类型的银行业务具有不同的特征,如:无须担保人和保证金、可按最低还款额分期还款、循环 信贷、额度授信,而且通过塑胶卡片为载体,所以在实际工作中,信用卡业务 的主要风险有一定的特殊性,主要表现鲫为以下四个方面:信用风险因持卡人信用不良而产生的拒付风险。表现为持卡人由于各种原因,经济情况恶化,无力还款,使银行贷款无法收回,形成呆帐损失的可能性,从酊引发信用风险。交易风险由于持卡人恶意透支、交易非为持卡人所授意或使用、信用卡及卡上信息被盗取后使用,一般来说,损失由发卡银行承担。作业风险因管理和作业流程上的操作不当而产生的风险。信用风脸分析在国内外研究都比较多,也较成熟,本文主要针对信用卡交易中产生 的风险展 开讨论。信用卡交易风险检测的必要性对银行信用卡风险的影响因素往往是多方面的,传统的风险检测方法无法适应这复杂需求或无法准确预测风险类别。雨数据挖掘技术则能弥补这一不足。采用数据挖掘能深入分析客户信用的信用状况的影响因素。客户信用状况的好坏与众多因索相关联如:经济环境状况、个人知识层次、收入高低、职务等。如何分析这些因素间的关系或根据这些因素来决定信用卡交易的风险等级,传统的基于统计的方法往往不能准确的解决这一难题。相反,利用数据挖掘技术则能很好的处理这类问题。采用数据挖掘能很好的分析组合信用风险问题。组合信用风险较般复杂,要深入剖析各组合要素的关系和组合分布情况,需要采用数据挖掘的描述性挖掘的方法来发掘隐含的分布特征。采用数据挖掘技术能多层次和多角度的展现数据关系。借助数据仓库的相关知识,数据挖掘能从不同的维度深入分析信用数据。从而,更为透彻的揭示信用卡风险的蕴含关系和特征,增强预测的准确性。目前的数据挖掘工具能非常全面的展现数据的关系和分析结果。交易风险检测模型信用卡的普遍使用导致了信用卡的盗窃以及信用卡欺诈。如果银行等信用卡发行机构没有有效的方法来区分合法交易和欺诈性交易,就将导致大量的经济损失。有资料显示,仅年,全世界利用万事达卡进行诈骗的损失就高达亿美元。目前,全球信用卡欺诈交易额己占年总交易额的。因此,如何预测信用卡交易的合法性,成为一个非常 迫切的问题。预测信用卡交易的合法性也称为信用卡欺诈探测,信用卡交易数据中构造一个预测模型, 然后使用这个模型预测当前信用卡交易的合法性,就能为银行挽救大量的资金 ,降低风险。而数据挖掘技术可以帮助银行等机构建立这样的风险检测模型【删,如图所表示:围 风 险 检 测 模 型 第 三 章 信 用 卡 数 据 的 预 处 理目前,信用卡数据中有许多我们并不关心的数据,以及许多不完整数据,噪音数据等等,现有的数据库无法直接进行数据挖掘,将数据进行一些必要的处理,以便于挖掘工作的顺利进行,这一工作称为数据预处理。本章就将对数据预处理的 相关 内容 做洋 细的 分析 。 ,数据预处理数据预处理是数据挖掘中的重要一环,而且必不可少。要挖掘出很好的结果,就必须为它提供干净、准确、简洁的数据。然而实际应用中收集的数据是“脏”数据,通常存在以下几方面的问题:杂乱性。原始数据是从各个实际应 用系统中获取的(多中数据库、多种系统) 。由于各应 用系统的数 据缺乏统一 标准和定义 ,数据结 构存在较大 的差异,往往不能直接拿来使用。重复性。同一事物在数据库中可能存在两个及以上完全相同的记录描述。由于应用系统在使用中都存在一些问题,几乎所有的系统中都存在有数据的重复和信息的冗余现象。不完整性。应用系统在运行过程中可能因为人为或系统本身的原因。可能造成数据表中数据属性的值丢失或错误的值,造成数据的不完整。数据挖掘中的预处理主要就是针对以上问题,根据背景知识的约束规则对数据 进 行 检 查, 通 过 清 洗 、集 成 等 操 作 ,生 成 可 供 挖掘 算 法 使 用 的目 标 数 据 。数据预处理的基本功能可以概括为以下四方面:数据集成数据集成主要是将多文件,多数据库中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突阅题以及不一致数据的处理问题。数据集成并不是数据简单的堆积,它需要统一原始数据中的所有矛盾,如字段同名异义、异名同义、单位不统一等,从而把数据在最低层次上加以转换、提 炼和聚集。数据清洗数据清洗主要是消除去源数据集中的噪声数据和无关数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西省萍乡市莲花县城厢小学2024-2025学年五年级下学期期末考试科学试卷(含答案)
- 2025年度高性能计算软件采购合同
- 2025版商业园区物业管理与安全防范服务协议书
- 2025年度环保地砖地板买卖合同范本
- 2025茶楼市场营销策划合同
- 2025范本校园发布会现场搭建与设备租赁合同
- 2025版文化创意产业合作合同协议创新管理制度
- 2025版企业年会摄影摄像服务与制作合同
- 2025版博物馆前期物业管理服务合同模板
- 2025年度商场室内涂料施工服务协议
- 防雷防静电培训考试试题及答案
- 2025年发展对象培训考试试题(含答案)
- 测绘工程技术专业介绍
- 亚马逊运营每周工作汇报
- 交警舆情课件
- 2025年郑州人才公司面试题及答案
- 2025年跨境电子商务测试题及答案
- IT项目管理进度计划及其保证措施
- 休克的诊断和治疗课件
- 广东省湛江市2024-2025学年高一下学期期末调研测试政治试卷(含答案)
- 2025-2030中国汽车玻璃水行业竞争优势与前景趋势洞察报告
评论
0/150
提交评论