




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第2章 数据挖掘过程与知识发现 第一节 CRISP_DM介绍一、数据挖掘阶段跨行业数据挖掘标准流程被行业成员广泛应用,这一模型包括以下六个阶段:1.业务理解:业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定方案书。应该是对数据挖掘的目标有一个清晰的认识,知道利润所在,其中包括数据收集、数据分析和数据报告等步骤。2.数据理解:一旦商业对象和方案书确定完备,数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。由于数据挖掘是目标导向的,不同的商业目的需要不同的数据系列。数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据,来正确描述研究问题;即对
2、问题进行简单描述;识别问题的相关数据;所选择的变量要相互独立,变量独立意味着不涵盖重复信息。3.数据准备:确定可用的数据资源以后,需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行,新增模型的应用再次提供了在业务理解根底上看清楚数据模式的时机。4.数据预先处理:噪声问题和缺失问题数据重复;数值错误;数据缺失数据的变换数据类型的变换;数据的平滑;数据的概化;数据的标准化十进制缩放:将某个数据全部除以10的相同的幂;通过极值来转化: 新数据=原数据-最小数值/最大数值-最小数值通过均值和标准差来转化:新数据=
3、原数据-均值/标准差通过对数来转化对每个数据经过自然对数进行数据转换,例如下面的转换可以把数据转换到0-1之间: O=1/(1+exp(-x)5.建立模型:数据模型建立是应用数据挖掘软件不同的情景下获得结果的过程。首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同,应用各种不同的模型,如果任务是对数据分组,那么运用判别分析;如果任务是估计,在连续数据类型的情况下,回归分析就可以运用,对于不连续的数据那么可以运用逻辑回归分析,神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具,在以后的章节中将要进行介绍。6.数据处理:数据挖掘的本质是在获取大规模的数据根底上进行统计数据
4、的分析。通过对数据进行分割,一局部成为训练集,另外一局部成为测试集。一局部进行模型开发,另外一局部成为模型检验的局部。数据挖掘就是可以通过关联、分类、聚类、序列模式、类似时间序列等方法来实现。7.模型评估:数据解释阶段是至关重要的,要对建立的模型是否能够到达问题解决的目的进行研究,即包括模型是否能够到达研究的目标;模型是否能够用适宜的方法显示。8.模型发布:数据挖掘既可以应用于核实先前的假设,也可以应用于知识发现识别未预期的有用的关系。显然,这几个步骤不是一成不变的,而是互相作用的。9.评估方法:一般来说,研究中把大规模数据集合分为两个局部:训练集和测试集,分类误差通常运用错差矩阵干扰矩阵表现
5、出来,它可以表示出正确分类的案例数目,以及分到不正确类别的案例数。错差矩阵中所揭示的两类错误的损害有时候不是一样的,例如,银行贷款给一个希望归还但是没有能力归还的,比起没有把款项贷给实际会归还的客户更加令人痛苦。运用本钱分析方法可以比较不同的预测判别方法的本钱,运用错差矩阵来度量,并且计算本钱函数,例如: 表1:错差矩阵:误分类本钱相等 帐单模型中不能够偿付模型中可以偿付合计实际不能够偿付501464实际能够偿付76578654合计126592718总分类正确率等于可用正确分类数量50+578=628除以总案例718数量而得到,于是,案例中有87.5%的数据得到了正确的分类。这里的本钱函数:
6、190×关闭良好帐户+10×保存帐户= 190×76+10×14=14580美圆实际上,把好的当作不好的比例相当高,是实践中难以接受的。如果充分运用先验概率对此进行研究,那么可以得到如下矩阵:表2:错差矩阵:误分类本钱不相等 帐单模型中不能够偿付模型中可以偿付合计实际不能够偿付362864实际能够偿付22632654合计58660718案例中93%得到了正确地执行,说明方法得到了显著的改进。二、讨论:1.将以下客户年龄的数值转换为年轻40岁以下、中年40-60和老人60岁以上的类别。客户年龄岁Fred46Herman52George36Frieda39H
7、ermione282.将以下工资转换为数值范围,20000等于0,220000等于1,其他在0-1之间客户工资美元Fred120000Herman200000George50000Frieda65000Hermione350003.几种数据挖掘技术应用于数据测试中,哪种结果是最好的?主语实际回归聚类神经网络基于规那么Fred好好好好好Herman差好差好差George好好差差差Frieda好好好好差Hermione差好差差好4.如果把好的当作差的本钱为100美元,差的当作好的本钱为500美元,那么上述各种方法的本钱是多少? 第二节 数据挖掘的数据库支持1.数据仓库:因为存在大量的数据、所以才有
8、数据挖掘。这些数据必须以结构化和可靠的形式存在。数据仓库是事实和相关数据有序保存、容易读取的存储地,而这些数据可以更好地有利于决策。数据仓库通常整合不同的来源的信息,需要识别、获取数据并对其进行清理、分类,以利于组织决策的方式进行存储。通常数据仓库处理流程包括以下三点:数据产生流程;数据管理流程;信息分析流程。数据仓库具有以下作用: 为商业用户提供完成任务所需要的数据支持;通过合并和协调,消除业务元素间的屏障; 提供组织中重要局部的宏观视野;使信息获取更加及时和详细;为特定的团队提供特定的信息;提供判断未来开展趋势的能力。2.数据集市:是用来为数据挖掘分析进行特定的效劳提取的特定信息。最初,数
9、据集市从独立的数据仓库中区别开来。现在,许多数据集市是用于连接数据仓库而不是数据仓库的竞争产品,但是因为价格比较低廉,仍有很多数据集市被独立使用。度量数据仓库的详细程度的单位是粒度,数据挖掘关注于近乎原始形式的数据,所以需要处理数据,因为数据必须完整、正确、格式正确。3.联机分析处理:联机分析处理(OLAP)是用于数据共享的多维电子表格,可以让用户在他们认为重要的维度上提取处理,生成报表。数据被分割成不同维度,并按照层级组织起来。OLAP可以生成许多变量和扩展元素。在由数据仓库、OLAP效劳器和客户端组成的系统中,OLAP产品是组成局部,通常位于本地网络中,系统连接了客户端用户。 OLAP效劳
10、器将信息从数据仓库中重新提取信息,然后对数据进行处理并发送至主效劳器,用户通过网络或者电子表格获取这些信息。4.数据仓库的实现:通过提供可靠的、完整的和干净的数据来源,数据仓库能够减轻上述情况的发生。从技术上来说,“脏数据是不正确的、不完整的或格式是错误的。与实现数据仓库系统相关的三个主要步骤如下:系统开发;数据获取;依据用途提取数据。 5.元数据:数据挖掘管理不同于数据管理,数据管理关注于管理企业的所有数据,而数据仓库管理指的是数据仓库生命周期中各个阶段的设计和操作。生命周期包括以下内容:管理元数据:设计数据仓库;确保数据质量;在操作中管理系统元数据metadata是跟踪数据所需要的参数集合
11、,用于描述仓库的组织。数据目录使得用户能够有针对性地了解数据仓库包含什么内容。数据仓库的内容由元数据定义,还提供数据的商业目的和技术目的。元数据包括以下内容: 可获得的数据; 各数据元素的来源; 指定数据的位置; 数据更新频率; 预定义报表和查询; 数据读取方法。 技术元素仅仅数据仓库管理员可见: 数据来源、内部和外部; 数据准备特征; 数据的逻辑结构; 数据仓库的物理结构和内容; 数据所有权; 平安权限; 系统信息。 第三节 数据挖掘方法概述本节准备介绍数据挖掘的根本方法,可依任务类别、估计、聚类和概要进行分类,类别和预测属于事前性质的,而聚类和概要属于事后性质的。1.数据挖掘方法:由于目的
12、不同,数据挖掘使用了大量的模型化工具。很多作者通过可行的工具来阐释这些目的。这些研究方法既包括人工智能工具,也包括历史统计学方法的结晶。统计方法是强有力的诊断工具,能够以此促进参数估计、假设检验和其他方法的开展。而人工智能artificial intelligence方法不需要对数据做太多的假设。表1:数据挖掘模型化工具Radding算法Peacock算法根底任务聚类检测聚类分析统计学分类回归模型统计学估计逻辑回归统计学分类判别分析统计学分类神经网络神经网络人工智能分类Kohionen网络人工智能聚类决策树规那么推理关联规那么人工智能分类关联规那么人工智能描述链接分析描述查询工具描述描述统计学
13、统计学描述可视化工具统计学描述2.数据挖掘方法视野:根据上述表格可以知道,假设从统计学的角度看数据挖掘,其方法应该包括以下几类:聚类分析、各种形式的回归、判别分析、多目标线性回归方法等;从人工智能的角度看数据挖掘,其方法有:神经网络、规那么推理、遗传算法等。对于数据的处理,不同的方法的处理优劣如表2所示,即处理不同数据的能力有显著的差异,应该根据实际情况进行处理。表2:数据挖掘方法处理数据的综合能力数据特征规那么推理神经网络案例推理遗传算法处理杂乱数据好非常好好非常好处理丧失数据好好非常好好处理大数据集非常好差好好处理不同数据类型好转成数字非常好转成需要形式预测的准确性高非常高高高解释能力非常
14、好差非常好好综合难易度好好好非常好运行难易度容易难容易难3.数据挖掘的作用:通过公开出版物中的信息可以发现问题可以分为以下几类:分类:用测试数据集来识别常被用来分类数据的类别和聚类,这方法典型的应用有投资风险和回报特征进行分类,以及对贷款人员的信用风险分类。预测:识别数据的关键特征,以便于找到公式来预测未来的事件,回归模型就是如此。关联:识别决定实体关系的规那么,这方面的例子主要有企业财务特征分析。检测:确定不规那么属性,对于欺诈检测特别有价值。表3:按照方法分类的数据挖掘应用领域领域方法应用问题类型财务神经网络预测股票价格预测神经网络预测破产预测规那么推理预测价格指数期货预测检测欺诈检测神经
15、网络利率预测预测案例推理神经网络银行拖欠贷款检测可视化规那么推理预测拖欠贷款预测信用评估预测证券管理预测风险分类分类金融客户分级分类规那么推理预测案例推理规那么推理、可视化贷款审批预测 第四节 实证数据集演示1.贷款申请数据:下组数据包含了贷款申请人,完整的数据集共有650个上述的观察目标。申请人信息有年龄、收入、资产和信用等级等变量,信用等级数据来自于信用机构,红色表示不良信用,黄色表示信用问题,绿色表示良好的信用记录,这些信息披露被假定为对申请贷款是有用的。按时归还表示为1,反之表示为0。如果债务超过资产那么表示为高风险,反之为低风险。表4:申请贷款训练数据集年龄收入资产债务贷款量风险信用
16、等级结果2017152低收入1109020455400高绿按时2325862低收入14756300832300高绿按时2826169低收入47355493413100高黄按时2321117低收入2124230278300高红延时227127低收入2390317231900低黄按时2642083中等收入3572641421300高红不履行2455557中等收入27040481911500高绿按时2734843中等收入0210312100高红按时2974295中等收入88827100599100高黄按时2338887中等收入6260336359400高绿延时2831758中等收入584924926
17、81000低绿按时2580180高收入31696695291000高黄延时3340921中等收入91111900762900中绿按时3663124中等收入164631144697300低绿按时3959006中等收入195759161750600低黄按时55125713高收入3821803153965200低绿按时6280149高收入511937219231000低绿按时7181723高收入783164202771800低绿按时6399522高收入78349124643900低绿按时 表5是一组测试数据集。 年龄收入资产债务贷款量风险信用等级结果37372141234201062414100低绿按时45573912504101918795800低绿按时45366921750371378003400低绿按时2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电脑预售采购合同范本
- 采购电脑保密合同范本
- 车辆合伙协议合同范本
- 雅迪电车购车合同范本
- 服装材料销售合同范本
- 电脑采购月结合同范本
- 2025至2030中国聚乙烯高密度管行业发展研究与产业战略规划分析评估报告
- 吉林省四平市会所消防安全测试题十一(含答案)
- 上海出境旅游合同样本
- 4s店消防安全培训试题及答案解析
- 医院死亡报卡培训课件
- catia考试图纸题目及答案
- pos机风险管理办法
- 2025年京东集团招聘笔试指南与面试技巧
- 2025年江西省高考物理真题
- Linux系统基础操作培训文档
- 酿造车间绩效考核制度
- 石油化工工艺装置蒸汽管道配管的设计
- 人教版五年级道德与法治上册第7课《中华民族一家亲》优秀课件
- 肝癌的中西医治疗
- 芳华电影介绍模板课件
评论
0/150
提交评论