“1+X”(中级)04-数据预处理_第1页
“1+X”(中级)04-数据预处理_第2页
“1+X”(中级)04-数据预处理_第3页
“1+X”(中级)04-数据预处理_第4页
“1+X”(中级)04-数据预处理_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据预处理学习完本课程后,你将能够:1.

掌握什么是数据预处理、预处理的基本方法2.

了解数据常见抽样方法3.了解什么是数据标准化、归一化及其方法4.掌握数据质量与数据清洗包含哪些内容5.了解特征工程的相关知识课程目标课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化4.数据质量与数据清洗5特征工程数据预处理概述在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而处理不同。我们通常认为的数据预处理是这样子的:但它还远不够系统化!~~删除重复值删除补全空缺值删除更正异常值数据统一更正不一致数据数据统一更正非法值数据归一化正则化无量纲化数据预处理概述数据预处理还往往包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗等环节与任务。数据抽样数据标准化及归一化数据质量提升与数据清洗课程目录1.数据预处理概述2.数据抽样2.1什么是数据抽样2.2为什么要进行数据抽样2.3数据抽样的方法和原理3.数据标准化及归一化4.数据质量与数据清洗5.特征工程什么是数据抽样数据抽样,就是针对特定问题,从整体数据中抽取出来一部分有代表性的数据,并把这些数据作为样本数据的过程。特定问题的全量数据集选出来的有一定代表性的样本数据数据抽样过程一系列方法和工具待解决的特定问题课程目录1.数据预处理概述2.数据抽样2.1什么是数据抽样2.2为什么要进行数据抽样2.3数据抽样的方法和原理3.数据标准化及归一化4.数据质量与数据清洗5.特征工程为什么要进行数据抽样对数据分析而言,在数据采集阶段,往往需要针对研究的问题选择一些的好样本来进行研究,进而通过样本情况来对整体数据做进一步判断。针对研究的问题针对调查成本与估计精度好的样本不同问题:样本要求千差万别如果研究顾客满意度,样本需要来自该产品的用户;如果研究消费满意度,样本需要取自所有潜在购买者。在成本与估计精度间寻最佳性价比比如航天器中精密仪器主轴加工精度的要求与制作香肠要求的精度不同;比如对投资股票收益率的估计和对电视节目收视率的估计精度要求不同。课程目录1.数据预处理概述2.数据抽样2.1什么是数据抽样2.2为什么要进行数据抽样2.3数据抽样的方法和原理3.数据标准化及归一化4.数据质量与数据清洗5.特征工程数据抽样的方法和原理随机抽样系统抽样分层抽样加权抽样整群抽样抽样的随机性一般来说,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取使总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫作简单随机抽样。从抽样的随机性上来看,抽样可以分为随机抽样、系统抽样、分层抽样、加权抽样和整群抽样。数据抽样的方法和原理随机抽样

建立抽样框架获取随机样本。适用场景:常常用于总体个数较少时主要特征:从总体中逐个抽取优点:操作简便易行缺点:在样本总体过大时不易实行抽签法1随机数法2水塘抽样3主要方法系统抽样当总体中的个数较多时,采用简单随机抽样效率低下。这时,可将总体分成均衡的几个部分,然后按照预先写出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样叫作系统抽样。假设要从容量为N的总体中抽取容量为n的样本,可按下列步骤进行抽样:1先将总体的N个个体编号。有时可直接利用个体自身所带的号码进行编号,如学号、准考证号、门牌号等。2确定分段间隔k,对编号进行分段。当N/n是整数时,取k=N/n。3在第一段用简单随机抽样确定第一个个体编号l(l≤k)。4按照一定的规则抽取样本。通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本。数据抽样的方法和原理数据抽样分层抽样分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,则这种抽样方法是一种分层抽样。分层抽样的主要特征是分层按比例抽样,主要使用于总体中的个体有明显差异的情况。其和随机抽样的共同点是,每个个体被抽到的概率都相等,为N/M。这种方法的优点是,样本的代表性比较好,抽样误差比较小。缺点是抽样手续较简单随机抽样还要繁杂些。数据抽样的方法和原理整群抽样将总体中各单位归并成若干个互不交叉、互不重复的集合,称为群,然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。实施方便,节省经费优点由于不同群间差异较大,由此引起的抽样误差往往大于简单随机抽样缺点抽样过程确定分群的标注将总体(N)分成若干个互不重叠的部分,每个部分为一个群。根据各群样本量,确定应该抽取的群数。用简单随机抽样或系统抽样方法,从i群中抽取确定的群数。数据抽样的方法和原理整群抽样与分层抽样的比较分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大。整体与局部的角度分层抽样的样本是从每个层内抽取若干单元或个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。样本的角度数据抽样的方法和原理加权抽样加权,是通过对总体中的各个样本设置不同的数值系数(即权值),使样本呈现希望的相对重要性程度。加权方法因子加权目标加权对满足特定变量或指标的所有样本赋予一个权值,通常用于提高样本中具有某种特性的被访问者的重要性对某一特定样本组赋权,以达到预期的特定目标。课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化3.1什么是数据标准化及归一化3.2为什么要进行数据标准化及归一化3.3数据标准化及归一化的原理与方法4.数据质量与数据清洗5.特征工程什么是标准化数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在进行数据分析时,由于数据的各个属性(特征)度量单位是不同的,为了使所有属性(特征)都能够参与模型(算法)计算,需要对属性(特征)进行规范化处理,通过函数变换将其数值都落在某个数值区间。举例:标准化之前的数据标准化之后的数据标准化方法10数据范围在0-1区间100200008000101数据范围在1-10区间5010数据范围在10-50区间什么是归一化归一化是把数据变成(0,1)或(-1,1)之间的小数,主要是为了数据处理方便提出来的,把数据映射到0~1或-1~1范围之内处理,目的是使算法处理更加便捷快速,即把有量纲表达式变为无量纲表达式,成为纯量。举例:归一化之前的数据归一化之后的数据归一化方法10数据范围在0-1之间100200008000课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化3.1什么是数据标准化及归一化3.2为什么要进行数据标准化及归一化3.3数据标准化及归一化的原理与方法4.数据质量与数据清洗5.特征工程为什么要进行数据标准化及归一化消除数据量纲与量级不同带来的影响归一化:不同变量往往量纲不同,归一化可以消除量纲对最终结果的影响,使不同变量具有可比性。比如两个人体重差10KG,身高差0.02M,在衡量两个人的差别时体重的差距会把身高的差距完全掩盖,归一化之后就不会有这样的问题。标准化:它表示的是原始值与均值之间差多少个标准差,是一个相对值,所以也有去除量纲的功效。同时,它还带来两个附加的好处:均值为0,标准差为1。均值为0有什么好处呢?它可以使数据以0为中心左右分布,而数据以0为中心左右分布会带来很多便利。比如在去中心化的数据上做奇异值分解等价于在原始数据上做主成分分析,同时,在机器学习中很多函数都以0为中心左右分布。Tips:量纲,可以理解成数据的单位;量级,可以理解成数据量的大小为什么要进行数据标准化及归一化原因小结:为什么要标准化和归一化?某些模型求解需要无量纲化避免数值问题例如:1)在使用梯度下降的方法求解最优化问题时,归一化/标准化后可以加快梯度下降的求解速度,即提升模型的收敛速度。2)一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。例如房子数量和收入,因为从业务层知道,这两者的重要性一样,所以把它们全部归一化。这是从业务层面上作的处理。例如太大的数会引发数值问题。课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化3.1什么是数据标准化及归一化3.2为什么要进行数据标准化及归一化3.3数据标准化及归一化的原理与方法4.数据质量与数据清洗5.特征工程数据标准化及归一方法0~1归一化-1~1归一化Log函数转换atan(反正切)函数转换

线性归一化非线性归一化用在数据分化比较大的场景,有些数值很大,有些很小需要根据数据分布的情况,决定非线性函数的曲线数据标准化及归一方法归一化与标准的区别:归一化是为了消除纲量压缩到[0,1]区间;标准化只是调整特征整体的分布;归一化与最大,最小值有关;标准化与均值,标准差有关;归一化输出在[0,1]之间;标准化无限制。

x*=(x-

μ)/σz-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。该种标准化方式要求原始数据的分布可以近似为高斯分布,否则效果会变得很糟糕。其中:μ为所有样本数据的均值,σ为所有样本数据的标准差z-score标准化:小数定标标准化:x’=x/(10^j),其中,j是满足使max(|x’|)<1成立的最小整数课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化4.数据质量与数据清洗

4.1什么是数据质量与数据清洗

4.2为什么要进行数据质量与数据清洗

4.3数据质量提升与数据清洗的方法5.特征工程什么是数据质量数据准确性数据精确性数据正确性数据完整性数据时效性数据全面性数据质量简单的说是“满足最终用户期望的程度”,数据质量的特征是有用性和可用性。管理制度监管体系度量标准衡量维度质量管理什么是数据清洗举例:A数据库中性别字段男B数据库中性别字段10C数据库中性别字段T99999目标数据库中性别字段男女需要进行缺失值填充需要进行逻辑错误清洗需要进行格式内容清洗课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化4.数据质量与数据清洗

4.1什么是数据质量与数据清洗

4.2为什么要进行数据质量与数据清洗

4.3数据质量提升与数据清洗的方法5.特征工程为什么要进行数据质量与数据清洗数据抽取时间点问题

统计口径业务规则问题数据源问题例如:多个系统的数据源存在不一致现象例如:数据源本身存在脏数据噪声数据例如:数据存在人工操作例如:不同数据源由不同部门管理由于生产系统的数据是随生产而变化的,在不同的时间点进行数据抽取的数据是不一致的例如:生产系统的不同版本例如:各分支机构市场政策的差异例如:同一产品、业务在业务处理规则等方面编码差异很大各机构之间的指标体系及编码规则不一致数据质量原因分析课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化4.数据质量与数据清洗

4.1什么是数据质量与数据清洗

4.2为什么要进行数据质量与数据清洗

4.3数据质量提升与数据清洗的方法5.特征工程数据质量提升方法数据质量方法论战略执行沟通组织过程管理验证架构建立合理的数据管理机构、制定数据质量管理机制、落实人员执行责任、保障组织间高效的沟通、持续监控数据应用过程和领导强有力的督促是保证企业数据质量的关键严谨的过程定义是数据质量保障的基础管理机制的保障是数据质量控制的关键完善文档的建立和维护是数据质量保障各个环节以及组织之间沟通的依据验证检查是数据保障的督促和推动有效的组织机构是管理机制的有力支持数据质量保证关键因素组织保证设计岗位明确岗位的要求和职责制定标准制定统一编码库过程评估管理123质量保证关键因素在数据处理的流程上进行规范并设置相应的控制点和稽核点规范的流程过程校验点和稽核点异常处理措施制定数据质量的评测标准并按所制定的标准进行考核:标准及时性、准确性、一致性等考核奖励、惩罚阶段评估

数据清洗——缺失值填充数据清洗——缺失值填充删除统计填充统一填充预测填充最简单的方法是删除,删除属性或者删除样本。如果大部分样本该属性都缺失,这个属性能提供的信息有限,可以选择放弃使用该属性;如果一个样本大部分属性缺失,可以选择放弃该样本。对于缺失值的属性,尤其是数值类型的属性,根据所有样本关于这维属性的统计值对其进行填充,如使用平均数、中位数、众数、最大值、最小值等,具体选择哪种统计值需要具体问题具体分析。对于含缺失值的属性,把所有缺失值统一填充为自定义值,如何选择自定义值也需要具体问题具体分体。当然,如果有可用类别信息,也可以为不同类别分别进行统一填充。可以通过预测模型利用不存在缺失值的属性来预测缺失值,也就是先用预测模型把数据填充后再做进一步的工作。数据清洗——缺失值填充缺失值填充方法例析年收入:

商品推荐场景下填充平均值,借贷额度场景下填充最小值行为时间点:

填充众数价格:

商品推荐场景下填充最小值,商品匹配场景下填充平均值人体寿命:

保险费用估计场景下填充最大值,人口估计场景下填充平均值驾龄:

没有填写这一项的用户可能是没有车,为它填充为0较为合理本科毕业时间:

没有填写这一项的用户可能是没有上大学,为它填充正无穷比较合理婚姻状态:

没有填写这一项的用户可能对自己的隐私比较敏感,应单独设为一个分类,如已婚1、未婚0,未填-1参考并引用自王宏志编著《大数据分析原理与实践》数据清洗——实体识别与真值发现实体识别同一类实体可能由不同的名字指代,例如名字王伟,用英文表示可能是“WangWei”,也可能是“WeiWang”冗余问题不同类的实体可能由相同的名字指代,例如在论文系统中检索“WeiWang”,可能出现多个不同的作者重名问题两类冲突解决两类冲突的两种技术冗余发现:用于处理冗余问题,主要是构造对象名称的相似性函数,并与阈值进行比较,从而判定对象是否属于同一实体簇。重名检测:用于处理重名问题,主要是利用基于聚类的技术,通过考察实体属性间的关联程度判定相同名称的对象是否属于同一实体簇。参考并引用自王宏志编著《大数据分析原理与实践》数据清洗——实体识别与真值发现真值发现经过实体识别之后,描述同一个现实世界实体的不同元组被聚到了一起,这些对象的相同属性可能包含冲突值。在很多情况下,冲突值来源于信息集成中的不同的数据源。在描述同一实体同一属性冲突值中发现真实的值的操作是真值发现。两种真值发现方法投票方法考虑数据源精度的迭代方法如果O是一个具体的对象,v是一组独立的数据源,在由v提供的不同的O的值之间,出现次数最大的那个O值应当被认为是真的。假设:数据源集合v只拥有独立的数据源,它只考虑事实的置信度和数据源的可信度,以及事实间的含义。从而基于以下几个基本的启发式观点来构建一个称为真相发现者的可计算模型。启发式规则1:通常对于一个对象来说,只有一个真值。启发式规则2:真值在不同的数据源中总是相同或者是相似的。启发式规则3:不同数据源之间的虚假事实就不怎么相同,也不怎么相似。启发式规则4:在特定的领域,一个数据源为许多对象提供真值,那么也更倾向于会对其他的对象提供真值。参考并引用自王宏志编著《大数据分析原理与实践》数据清洗——格式内容清洗显示格式不一致1内容中有非法的字符2内容与该字段应有内容不符3这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,例如:时间、日期、数值、全半角等表示的不一致等。某些属性值只允许包括一部分字符,例如身份证号是数字+字母x,中国人姓名是汉字等。一些情况下,用户误将本来属于一个属性的数据填写到了另一个属性中,例如姓名写了性别,身份证号写了手机号等。数据清洗方法——内容清洗数据清洗——逻辑错误清洗去重去除不合理值修正矛盾内容去掉数据中的重复信息,由于数据存在的同名和异名,去重通常要通过实体识别技术来实现,这类数据中出现的冲突值可以通过真值发现技术来进行消除。有时候用户会填入一些不合理的值,需要有效检测和修复这种不合理的值。这类不合理值的检测主要依靠属性值上的约束。有些字段是可以互相验证的,这种错误的检测可以通过规则来实现,经常用到的规则包括函数依赖和条件函数依赖。数据清洗方法——逻辑错误数据清洗——异常值(离群点,数据集中不合理的值)数据清洗方法——异常值图片来源于互联网可能原因:输入异常测量误差实验误差故意异常抽烟错误加工处理问题自然异常……检测手段:统计分析

3δ原则箱线图……异常数值处理:按缺失处理删除忽略不处理均值修正……课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化4.数据质量与数据清洗5.特征工程

5.1什么是特征工程

5.2为什么要进行特征工程

5.3特征工程的方法与原理什么是特征工程特征工程本质是一项工程活动,经过一系列的方法和流程最大限度地从原始数据中提取特征以供算法和模型使用。原始数据提取特征经过一系列的工程方法和流程算法&模型课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化4.数据质量与数据清洗5.特征工程

5.1什么是特征工程

5.2为什么要进行特征工程

5.3特征工程的方法与原理为什么要进行特征工程“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。“特征工程大数据分析中的特征特征的重要性特征提取特征选择特征构建特征学习特征工程的目的是获取优质特征以有效支持大数据分析,其定义是将原始数据转化为特征,更好地表示模型处理的实际问题,提升对于未知数据的准确性。它使用目标问题所在的特定领域知识或者自动化的方法来生成、提取、删减或者组合变化得到特征。课程目录1.数据预处理概述2.数据抽样3.数据标准化及归一化4.数据质量与数据清洗5.特征工程

5.1什么是特征工程

5.2为什么要进行特征工程

5.3特征工程的方法与原理数据分析中的特征数据类型举例观测特征结构化数据由不同的变量或属性构成属性就是特征(这里属性特指对于分析和解决问题有用、有意义的属性)非结构化数据一幅图像可能是图中的一条线一个文本可能是其中的段落或者词频率一段语音可能是一个词或者音素数据识别、特征理解数据分析中的特征定性定类:离散、无序;基于频率/占比、众数统计;可用条形图、饼图展现定序:有序、比较;基于频率、众数、中位数、百分比统计;可用条形图、饼图、茎叶图展现定量定距:数字差别有意义;基于频率、众数、中位数、均值、标准差统计;可用条形图、饼图、茎叶图、箱线图、直方图统计定比:连续;基于均值、标准差统计,可采用直方图、箱线图展现特征工程中的特征增强特征增强即清洗和增强数据,在探索性分析数据的基础上,进行如下操作:识别数据中的缺失值、填充缺失数值识别有害数据、删除有害数据数据的归一化、标准化构建新特征选择特征特征转换……特征的重要性判断特征的重要性是对特征进行选择的重要指标,特征根据重要性被分配分数,然后根据分数不同进行排序,其中高分的特征被选择出来放入训练数据集。如果与因变量(预测的事物)高度相关,则这个特征可能很重要,其中相关系数和独立变量方法是常用的方法。特征一:分数100特征分数排序示例训练数据集特征二:分数90特征三:分数80特征四:分数40特征一:分数100特征二:分数90特征三:分数80在构建模型的过程中,一些复杂的预测模型会在算法内部进行特征重要性的评价和选择,如多元自适应回归样条法、随机森林、梯度提升机。这些模型在模型准备阶段会进行变量重要性的确定。特征提取一些观测数据如果直接建模,其原始状态的数据太多。像图像、音频和文本数据,如果将其看作表格数据,那么其中包含了数以千计的属性。特征提取是自动地对原始观测降维,使其特征集合小到可以进行建模的过程。对于结构化高维数据,可以使用主成分分析、聚类等映射方法;对于非结构的图像数据,可以进行线或边缘的提取;根据相应的领域,图像、视频和音频数据可以有很多数字信号处理的方法对其进行处理。结构化高维数据推荐主成分分析、聚类等映射方法非结构图像数据考虑进行线或边缘提取特征构建表格数据文本数据图像数据特征重要性和特征选择是告诉者特征的客观特性,但这些工作之后,需要人工进行特征的构建。特征构建需要花费大量的时间对实际样本数据进行处理,思考数据的结构和如何将特征数据输入给预测算法。特征构建意味着将特征进行混合或组合以得到新的特征,或通过对特征进行分解或切分来构造新的特征。特征构建意味着设计出针对特定问题的文本指标。对于图像数据,意味着自动过滤,得到相关的结构。特征构建-示例特征重要性和特征选择是告诉者特征的客观特性,但这些工作之后,需要人工进行特征的构建。特征构建需要花费大量的时间对实际样本数据进行处理,思考数据的结构和如何将特征数据输入给预测算法。特征构建常见方法:常见业务指标或统计量同一特征的纵向联系多个特征的横向联系特征交叉时间序列从业务角度产生特征特征学习特征学习是以AI促AI,即在原始数据中自动识别和使用特征。现代深度学习方法在特征学习领域有很多成功案例,比如自动编码器和受限玻尔兹曼机。它们以无监督或半监督的方式实现自动的学习抽象的特征表示(压缩形式),其结果用于支撑像大数据分析、语音识别、图像分类、物体识别和其他领域的先进成果。原始数据识别特征使用特征抽象的特殊表达可以自动得到,但是用户无法理解和利用这些学习得到的结果,只有黑盒的方式才可以使用这些特征。用户不可能轻易懂得如何创造和那些效果很好的特征相似或相异的特征。这个技能是很难的,但同时它也是很有魅力的、很重要的。特征学习的分类特征学习是以AI促AI,即在原始数据中自动识别和使用特征。现代深度学习方法在特征学习领域有很多成功案例,比如自动编码器和受限玻尔兹曼机。它们以无监督或半监督的方式实现自动的学习抽象的特征表示(压缩形式),其结果用于支撑像大数据分析、语音识别、图像分类、物体识别和其他领域的先进成果。特征学习可以分为监督特征学习和无监督特征学习:监督特征学习包括监督字典学习、神经网络、多层感知机;无监督特征学习包括无监督字典学习、主成分分析、独立成分分析、自编码器、矩阵分解和各种形式的聚类算法,如K-means聚类特征学习的分类特征学习是以AI促AI,即在原始数据中自动识别和使用特征。现代深度学习方法在特征学习领域有很多成功案例,比如自动编码器和受限玻尔兹曼机。它们以无监督或半监督的方式实现自动的学习抽象的特征表示(压缩形式),其结果用于支撑像大数据分析、语音识别、图像分类、物体识别和其他领域的先进成果。深度学习:分层结构的神经系统启发了由简单学习模块构成的多层深度学习架构来进行特征学习;在深度学习体系中每个中间层的输出可以看做是原始输入数据的一种表示,每层利用上一层中产生的表示作为输入,生成新的表示作为输出,提供给更高层。输入的底层是原始数据,而最终层输出的是最后的低维特征或表征。受限玻尔兹曼机(RestrictedBoltzmannMachine)自编码器(Autoencoder)特征变换特征变换从信号处理观点来看从统计观点来看从几何观点来看通过变换消除原始特征之间的相关关系或减少冗余,得到新的特征,更加便于数据分析。在变换域中进行处理并提取信号的性质,特征变换操作常包括傅里叶变换、小波变换和Gabor变换等。减少变量之间的相关性,用少数新的变量来尽可能反映样本的信息。特征变换包括主成分分析、因子分析和独立成分分析等。通过变换到新的表达空间,使得数据可分性更好。特征分析包括线性判别分析和核方法等。特征选择特征选择是寻找最优特征子集的过程,特征选择是指选择获得相应模型和算法最好性能的特征集。特征按重要性可分为如下三类:特征分类相关特征无关特征冗余特征特征选择特征选择是寻找最优特征子集的过程,特征选择是指选择获得相应模型和算法最好性能的特征集。特征选择的目的:减少特征数量、降维降低学习任务的难度,提升模型的效率使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解……特征选择的目的就是获取尽可能小的特征子集,特征子集不显著降低分类精度、不影响分类分布并且特征子集应具有稳定、适应性强等特点。特征选择特征选择是寻找最优特征子集的过程,特征选择是指选择获得相应模型和算法最好性能的特征集。特征选择的策略:完全(全局)搜索策略:

广度优先策略,枚举举所有组合,穷举搜索,实用性不高

分支限界搜索,穷举基础上加入分支限界启发式策略序列前向选择、序列后向选择、双向搜索

增L去R选择算法

、序列浮动选择、决策树等随机搜索策略

随机产生序列选择算法、模拟退火算法、遗传算法特征选择特征选择是寻找最优特征子集的过程,特征选择是指选择获得相应模型和算法最好性能的特征集。工程上常用的方法有以下几种(根据特征选择中子集评价标准和后续学习算法的结合方式):Filter方法(过滤式):常见方法有

Chi-squaredtest(卡方检验)、Informationgain(信息增益)、Correlationcoefficientscores(相关系数)等,其优点是运行速度快,是非常流行的特征选择方法Wrapper方法(封装式):常见方法有递归特征消除算法,相对于Filter方法,Wrapper方法找到的特征子集分类性能通常更好Embedded方法(嵌入式):常见方法基于惩罚项的特征选择法、基于树模型的特征选择法等,特点是对特征进行搜索时围绕学习算法展开的,能够考虑学习算法所属的任意学习偏差。训练模型的次数小于Wrapper方法,比较节省时间。特征选择特征选择是寻找最优特征子集的过程,特征选择是指选择获得相应模型和算法最好性能的特征集。工程上常用的特征选择实现示例如下:实现方法一:去掉取值变化小的特征(Removing

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论