版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
银行营销数据分类方法介绍综述目录TOC\o"1-3"\h\u32332银行营销数据分类方法介绍综述 129951.1KNN 114333图4-1k=3时的KNN算法图解 283411.2逻辑回归 37578图4-2Sigmoid函数示意 3175531.3支持向量机 428232图4-3SVM基本思想 5274521.4朴素贝叶斯 517475图4-4朴素贝叶斯算法流程 6202151.5决策树 77474图4-5决策树模型示例 762521.6随机森林 887531.7提升方法 81.1KNNKNN(K-NearestNeighbors),也称K最邻近值算法。其基本思想为:当对一个输入向量Xn进行预测时,计算这个样本与特征空间中的k个与向量Xn最邻近的向量的集合,并把向量Xn的类别预测为这k个样本中类别数最多的那一类。所以该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分类样本的所属类别。图4-1是对k=3时KNN算法基本思想的图解,其中图4-1k=3时的KNN算法图解KNN算法中仅有一个超参数k,k值的确定对KNN算法的预测结果起着至关重要的作用。如果k值较小,此时算法的近似误差较小,但估计误差会较大,预测结果对邻近点会非常敏感,容易导致算法出现过拟合的情况;而如果k值较大,会使得距离较远的点也同样对预测结果产生影响,容易导致算法出现欠拟合的情况。因此,在实际运用过程中,往往采用交叉验证的方式选取k值。这个算法的关键在于样本的所有特征都要做可比较的量化,且对样本特征要做归一化处理,利用一个可选择的距离函数计算两个样本之间的距离。常用的距离函数有,曼哈顿距离(p=1)、欧氏距离(p=2)、切比雪夫距离(p→∞),其中的p是一个变参数。下面是距离函数dxy的计算公式:d当KNN算法用于回归预测时,同样对新加入的预测实例寻找它的k最邻近,然后对这k个样本的目标值取均值,即得到新样本的预测值y。1.2逻辑回归逻辑回归(LogisticRegression)属于广义线性回归分析模型中的一种,它通过一系列连续型或类别型来预测多分类。尤其对于二分类型结果变量时,逻辑回归是十分有用的。通常,逻辑回归会采用一个Sigmoid函数,将函数值按照正负性分别将其映射为0和1,利用拟合曲线函数值来推断出类标号。图4-2Sigmoid函数示意所以该模型的一个优点在于其取值范围为0,1,可视作待分类样本属于类的后验概率,即:p=p其中,z=gx=w0+w1x逻辑回归在拟合曲线时,除了利用Sigmoid函数计算最终的类标号,同时也需要一个代价函数,并需要对其求解最小值。通过前面的公式,容易得到,x条件下y不发生(y=0)的概率为1−p,故将事件发生与不发生的概率之比记为事件的机会比(odds),然后通过取对数将两者联系起来,即得到证据权重woe(WeightofEvidence):ln这个式子可用于衡量数据区间的信息含量差异:woe值越大,则代表该数据区间中因变量为1的比例越高。更进一步,这里也可以使用一个联合概率公式,对样本标号为y的后验概率进行定义:p而其联合概率i=1npyiX1.3支持向量机支持向量机(supportvectormachines,SVM)是一种二分类模型,是从模型识别中的广义肖像算法发展而来的。其基本模型是定义在特征空间上的间隔最大的线性分类器,是一种黑盒算法,其思想即为间隔最大化。简单来讲,就是寻找最大化支持向量到分割超平面的距离,在此条件下求出分割超平面,并将其转化为一个凸二次规划问题的求解。将其在一个二元平面上做更直观的解释,可以得到图4-3:图4-3SVM基本思想SVM方法的理论基础是非线性映射,通过利用内积核函数来代替向高维空间的非线性映射,其中最常用的是径向核函数(RBF)。由于支持向量是该模型的训练结果,在决策中起着关键作用,故这个模型需要的储存空间较小,算法鲁棒性强。而且SVM方法无任何前提假设,不涉及概率密度,这也是它的显著优点。SVM模型使用范围非常广泛,无论是对线性可分数据还是线性几乎可分数据,都可以起到很好的分类效果。当对于完全线性不可分的数据,仅需将其投影到更高维的空间,利用超平面对其进行分类,也可以达到不错的分类效果。根据输入数据类型的不同,可以做出不同的模型:若输入标签为连续值,则可以用来解决回归问题;若输入标签为分类值,则可利用SVC解决分类问题。1.4朴素贝叶斯朴素贝叶斯是以贝叶斯定理为基础的一种分类法。此方法假定在给定目标值时,属性之间相互条件独立。模型通过已给定的训练集,学习从输入到输出的联合概率分布,再基于已经学习到的模型,输入x后求出使得后验概率最大的输出y。朴素贝叶斯的特点是对数据进行分类时将先验概率和后验概率相结合,这样做的好处是既避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。图4-4是朴素贝叶斯算法的流程图解:图4-4朴素贝叶斯算法流程第一阶段根据实际情况,确定特征属性,并对其进行适当划分,然后对其中一部分待分类项进行分类,得到训练样本集合。这一阶段的输入是所有等待进行分类数据,输出是特征属性和训练样本。第二阶段的任务为对分类器进行生成:首先计算每个类别在训练样本中的出现频率,和每个特征属性划分对每个类别的条件概率估计。这里分类器的生成质量,很大程度上都是由第一阶段的特征属性划分即训练样本质量所决定的。第三阶段使用分类器对待分类项进行分类,从而得到待分类项与类别的映射关系。朴素贝叶斯算法在各个不同场景的应用过程中,往往会根据需要处理的数据类型,选择不同的算法:当样本特征的分布大部分是连续值时,往往倾向于选择使用GaussianNB算法;若样本特征大部分是多元离散值,则MultinomialNB更加适合;而当样本特征是二元离散值或稀疏的多元离散值时,应该使用BernoulliNB算法。1.5决策树决策树(DecisionTree)算法是一种有监督的分类方法,这种方法可以实现数据内在规律的探究以及新数据对象的分类预测。它根据给定的训练数据集构造一个决策树模型,使之能够对实例进行正确的分类。决策树分类器呈树形结构,包含一个根节点、若干个内部节点和若干个叶节点。其中,每一个内部节点表示一个属性上的测试,即要素;每一个分支代表一个测试结果的输出,即决策;最后每一个叶节点代表一种类别,即结果。图4-5决策树模型示例决策树的建模,通常有三个步骤:特征选择、决策树的生成和决策树的修剪。其中,决策树的生成主要分两步,节点的分裂和阈值的确定。节点的分裂表示,当一个节点所代表属性无法给出判断时,则选择将这一节点分成两个或多个子节点。而阈值的确定,则表示选择最适当的阈值使得分类错误率达到尽可能的小。决策树的生成算法有ID3、C1.5和CART等,其中CART的分类效果一般优于其他决策树。ID3算法是由熵增原理决定父节点,对其进行分裂。熵代表信息的期望值,熵越小说明分类效果越好。C1.5是在ID3的基础上进行改进,以优化项除以当分割太细时的代价作为信息增益率。信息增益越大,则表示使用该特征对数据集划分所获得的“纯度提升”越大,当分割太细时,会使得信息增益率降低。而CART决策树是通过GINI系数决定分裂的方式。当总体内包含的类别越杂乱时,GINI系数则会越大。CART和ID3一样,存在偏向细小分割,即过度拟合,故为了解决这一问题,往往还需进行剪枝处理。1.6随机森林随机森林(RandomForest)是一种组成式的有监督学习方法。它是一个由多棵决策树组成的分类器,基本单元是决策树,本质则属于集成学习方法。这是由于其输出类别是由所有决策树预测类别的众数所决定。不难发现,这与集成学习Bagging(BootstrapAGGregatING)的思想是相似的。Bagging是将训练集通过Bootstrap重抽样产生若干个不同的训练集,并基于这些新的训练集上构建多个基础分类器。这些基础分类器是独立的,而在预测环节时,会将这若干个模型结果进行组合,从而得到最终的结果。其整合方式可以总结为:分类问题用服从大多数投票,回归问题则采用求均值。随机森林算法的实质,是对决策树算法的一种改进。单棵决策树的分类能力可能会存在一些弱点,但在经过随机产生大量决策树的过程后,一个测试样本可以通过每一棵树的分类结果,综合来选择最可能正确的分类。下述为随机森林算法的过程示意:(1)从样本集中有放回随机抽出n个样本;(2)从所有特征中随机选择k个特征,利用这些特征对样本建立决策树;(3)重复以上步骤若干次,即生成若干棵决策树,组合成随机森林;(4)代入数据集,经过每棵树决策,最后投票确认其最终分类。随机森林的显著优点在于,由于模型最终结果是从每棵树都选择部分样本和特征,故在一定程度上能够避免过拟合,同时也使得模型具有很好的抗噪能力。其次,模型能够处理高维度的数据,不做特征选择也适合进行并行计算。1.7提升方法Boosting是一种常用的集成方法,它是由多个弱分类器集成,构成一个新的强分类器。与Bagging不同的是,Boosting采用的是一种序贯的方法,使每一步生成的分类器依赖于之前的分类器,最后以加权的方式进行投票,给予分类效果好的分类器更多的权重,使模型具有更优的表现。AdaBoost是在每一轮构造新的分类器时,提高那些被前一轮弱分类器错误分类样本的权值,降低那些被正确分类样本的权值,然后再通过带权重的训练样本继续对分类器进行训练,从而达到一个提高分类效果的目的。它的分类器构成通过加权多数表决,加大分类误差率小的弱分类器的权值,使其在表决中其较大的作用;减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用,从而将若干个若分类器组合成一个强分类器。而XGBoost是由GBDT(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某化工厂安全生产制度
- 2026新疆艺术学院第一批招聘事业编制工作人员5人备考题库含答案详解
- 2026浙江宁波惠风体育发展有限公司招聘编外人员4人备考题库及1套参考答案详解
- 2026安徽省皖西卫生职业学院附属医院(六安市第二人民医院)招聘25人备考题库及答案详解参考
- 2026云南保山市消防救援局政府专职消防员招聘29人备考题库(第二批)参考答案详解
- 2026共青团福州市仓山区委员会编外人员招聘1人备考题库及答案详解参考
- 2026四川成都大学附属小学招聘教师4人备考题库及1套参考答案详解
- 2026安徽合肥市生命健康产业发展有限公司社会招聘1人备考题库及答案详解一套
- 2026广东云浮云安区人力资源服务中心招聘就业见习人员2名备考题库完整答案详解
- 2026浙江台州湾新区聚兴园区运营管理有限公司招聘2人备考题库完整答案详解
- 2025年大学《经济与金融-金融市场与机构》考试备考题库及答案解析
- 职业技能培训教案编写指南
- 高空施工安全免责协议书7篇
- 中国科学院杭州医学研究所招聘人员笔试高频难、易错点备考题库及参考答案详解
- 电力基础知识培训内容课件
- 天津市红桥区2024-2025学年七年级下学期期末数学试题(解析版)
- 零星维修工程(技术标)
- 建筑节能工程质量检测
- 淋浴房订货合同协议
- 防化兵基础知识
- 河道生态修复工程施工图设计总说明
评论
0/150
提交评论