人工智能安全-3-噪声数据处理

上传人：1*** IP属地：广东上传时间：2023-10-26 格式：PPT 页数：37 大小：854KB 积分：15 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

噪声相关概述噪声处理的理论与方法基于数据清洗的噪声过滤主动式过滤噪声鲁棒模型提纲噪声类型属性噪声样本中某个属性的值存在噪声标签噪声样本归属类别关于噪声分布的假设：均匀分布、高斯分布、泊松分布等标签噪声的产生原因（1）特定类别的影响，在给定的标注任务中，各个类别样本之间的区分度不同，有的类别与其他类别都比较相似，就会导致这类样本标注错误率高。（2）标注人为的因素。（3）少数类的标注更容易错误。（4）训练数据受到了恶意投毒，当在对抗环境下应用机器学习模型时，攻击者往往会通过一些途径向数据中注入恶意样本，扰乱分类器的性能。标签噪声的影响标签噪声比属性噪声更重要数据利用率分类性能下降：KNN、决策树和支持向量机、Boosting等。模型复杂度决策树节点增多为了降低噪声影响，需要增加正确样本数量可能导致非平衡数据正面影响：Bagging训练数据中的噪声有利于提升基分类器的多样性与噪声类似的概念和研究异常离群点：outlier少数类小样本对抗样本恶意样本脏数据噪声相关概述噪声处理的理论与方法基于数据清洗的噪声过滤主动式过滤噪声鲁棒模型提纲噪声处理的理论基础概率近似正确定理（probablyapproximatelycorrect，PAC）对于任意的学习算法而言，训练数据噪声率β，必须满足β≤ε/(1+ε)，其中ε表示分类器的错误率。噪声处理的方法概览基于数据清洗的噪声过滤主动式噪声过滤噪声鲁棒模型噪声相关概述噪声处理的理论与方法基于数据清洗的噪声过滤主动式过滤噪声鲁棒模型提纲基于数据清洗的噪声处理数据层去除噪声样本修正噪声样本方法：采用噪声敏感方法检测噪声KNN，K小密度方法决策树集成学习：静态集成、动态集成；投票主动学习：人工+分类器迭代直接删除直接删除法是基于两种情况，把异常值影响较大或看起来比较可疑的实例删除，或者直接删除分类器中分类错误的训练实例。在具体实现方法上，如何判断异常值、可疑等特征，可以使用边界点发现之类的方法。基于最近邻的去噪方法从KNN本身原理来看，当k比较小的时候，分类结果与近邻的样本标签关系很大。因此，它是一种典型的噪声敏感模型，在噪声过滤中有一定优势。压缩最近邻CNN、缩减最近邻RNN、基于实例选择的EditedNearestNeighbor等，也都可以用于噪声过滤。集成去噪集成分类方法对若干个弱分类器进行组合，根据结果的一致性来判断是否为噪声，是目前一种较好的标签去噪方法。两种情况：使用具有相同分布的其他数据集，当然该数据集必须是一个干净、没有噪声的数据。不使用外部数据集，而是直接使用给定的标签数据集进行K折交叉分析。噪声相关概述噪声处理的理论与方法基于数据清洗的噪声过滤主动式过滤噪声鲁棒模型提纲主动式过滤基于数据清洗的噪声过滤方法的隐含假设是噪声是错分样本，把噪声和错分样本等同起来。位于分类边界的噪声最难于处理，需要人工确认主动学习框架和理论为人类专家与机器学习的写作提供了一种有效的途径，它通过迭代抽样的方式将某种特定的样本挑选出来，交由专家对标签进行人工判断和标注，从而构造有效训练集的一种方法。查询策略如何选择可能是噪声的样本，就成为主动学习的核心问题。查询策略主要可以分为以下两类：基于池的样例选择算法和基于流的样例选择算法。基于池的样本选择算法代表性的有：基于不确定性采样的查询方法、基于委员会的查询方法、基于密度权重的方法等不确定采样不确定性采样的查询将模型难于区分的样本提取出来，具体在衡量不确定性时可以采用的方法有最小置信度、边缘采样和熵。例如，两个样本a,b的分类概率分别为(0.71,0.19,0.10)、(0.17,0.53,0.30)，那么根据最小置信度策略应当选择样本b，因为它的归属类是最不确定的。边缘采样是选择哪些类别概率相差不大的样本其中，y1，y2是样本x的top2归属概率的类别。对于两个样本a,b的分类概率分别为(0.71,0.19,0.10)、(0.17,0.53,0.30)

，应当选择b，因为0.53-0.17<0.71-0.19。对于二分类问题，边缘采样和最小置信度是等价的。基于熵采样通过熵来度量，它衡量了在每个类别归属概率上的不确定。选择熵最大的样本作为需要人工判定的样本。基于委员会的采样当主动学习中采用集成学习模型时，这种选择策略考虑到每个基分类器的投票情况。相应地，通过基于投票熵和平均KL散度来选择样本。基分类器样本(p1,p2,..pn)c1c2cn样本x的投票熵计算时，把x的每个类别的投票数当作随机变量，衡量该随机变量的不确定性。其中V(y)表示投票给y的分类器的个数，C表示分类器总数。投票熵越大，就越有可能被选择出来。当每个基分类器为每个样本输出分类概率时，可以使用平均KL散度来计算各个分类器的分类概率分布与平均分布的平均偏差。偏差越大的样本，其分类概率分布的一致性越差，应当越有可能被选择出来。噪声相关概述噪声处理的理论与方法基于数据清洗的噪声过滤主动式过滤噪声鲁棒模型提纲噪声鲁棒性模型在分类模型中嵌入噪声处理的学习机制，使得学习到的模型能抵抗一定的噪声样本。在机制设计上，可以从样本权重调整、损失函数设计、Bagging集成学习、深度学习等角度提升模型的噪声容忍度。AdaBoost的分析与改进AdaBoost串接的基分类器中，越往后面，错误标签的样本越会得到基分类器的关注。当样本x分类错误时，其权值以exp(beta_m)变化；而对于正确分类的样本以exp(-beta_m)。从上述算法流程可以看出，0<=e_m<=0.5，相应地，beta_m>=0。因此，对于，错误的样本的权重>exp(0)=1，而分类正确的样本的权值<=exp(0)=1。经过t轮后得到的权重为exp(beta_m1)exp(beta_m2)…exp(beta_mt)。可见噪声样本的权重得到了快速增加而变得很大。AdaBoost算法的噪声敏感性归因于其对数损失函数，当一个样本未被正确分类的时候，该样本的权值会指数型增加。随着迭代次数的增加，由于算法会更多地关注于错分类的样本，必然会使得噪声样本的权值越来越大，进而增加了模型复杂度，降低了算法性能。删除权重过高的样本或调整异常样本的权重来降低标签噪声的影响。MadaBoost:针对噪声样本在后期的训练权重过大的问题，算法重新调整了AdaBoost中的权值更新公式，设置了一个权重的最大上限1，限制标签噪声造成的样本权值的过度增加。AdaBoost的损失函数改进各分类器稳健性差异的本质原因在于损失函数不同损失函数对噪声的稳健性差异0-1损失或最小二乘损失对均匀分布噪声稳健指数、对数型损失函数对各类噪声大都不稳健AdaBoost的损失函数对于每次迭代，权重是一个常数此处，h是分类器，α是分类器的权重ndAdaBoost（1）噪声样本被正确分类，表示为xp（2）非噪声样本被正确分类，表示为xq（3）噪声样本被错误分类，表示为xk（4）非噪声样本被错误分类，表示为xl预期目标ndAdaBoost的损失函数表示样本xn为噪声的概率，即样本为噪声的置信度在这样的损失函数下，（1）如果样本xn被错误分类在误分的样本中，噪声数据比非噪声数据所占的比例更大。不正确分类的样

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能安全-3-噪声数据处理

文档简介

温馨提示

最新文档

评论

人工智能安全-3-噪声数据处理

文档简介

温馨提示

最新文档

评论

相关文档