对抗环境中鲁棒的机器学习及其应用

上传人：我*** IP属地：北京上传时间：2023-03-22 格式：DOCX 页数：136 大小：3.73MB 积分：12 举报 版权申诉

已阅读5页，还剩131页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

RobustMachineLearninginAdversarialEnvironmentandItsApplicationsADissertationSubmittedfortheDegreeofDoctorofCandidate

HeZhimin UniversityofTechnologyTP391 10561塰塰凱隻乖雛

皆猯薜屎鑪柎乖雛┚添に

Ⅱ擷鑪拖陷觸渦顫拖陷う欋顫榱━顫う┥曳皠脬誘馭

腑脊渦A拖陷驤┥曳板屎柎A薜屎Ч20わ洯が例ヹ腑神煬A例ヹ耜∠┛硾芋陷шゐ埼爾遠辿B淅49A坑婪養＄┥拖陷Щ繍牲黄皆交延х曳聆胷灰杰甌浸と聆轣昂A耜∠凱聡┛尹┥陷A例ヹ巨査脬≷𠂉86Aх曳塑胷灰＄批杰板陷ш遠馭㌽靜淆辿馭┛┥曳夐娯竚昳咋┥誘馭A/烙据∠58┥曳舮萍凱隻の雛顫 ┥堙拐拖陷凱隻夐娯芋ㇸ堙瀞│醐観98┚角49堙拐拖陷Aㇷ奘＄昌

例ヹ40板瀞鎔淝堙拐┘浡拖陷朮凱Aサ昳欝┼鋤拐廝諸傷32朮絡堙┛堙│┼観垠槭菅迫娵│醐瞟毹聆┳㎎溓渦拖陷A羊掌王塑62坏Ⓥ＄現扚堙拐拖陷グ薯澮′硾板観嫻┘坑A観嫻拖陷養″◆堙瀞靭遠梧柞堙拐拖陷A娯瞟聆瞟再坑婪＄靭遠現扚䏮49瀑掌┚煙掌聆交壟羊策膂鍗観垠┚⁄暗堙拐拖陷┛┥曳62坏陷幤A坑婪塑攝𠂢拖陷A坑婪ロМ叚┛┥堙拐拖陷廝引┍観嫻＄板榱ㇸ嫻据溧49┥衽┼威┍Щ観嫻,趨竚板瀞這㐂Ц浸柞＄轄瀞坑柎40塑Ъ堙瀞│誤厩助怘A鋤拐｣ㇺ◆趨竚岌┥曳堙拐拖陷觸渦ш迫堙┨┘妻(古サⓋ)62坏┻猯｠C送KI┠ш迫サ昳俒e̊疽櫃┡＄火轗堙拐拖陷A娯瞟聆瞟再坑婪┛(浘板遠Цロ櫂靜儲坑膰凱隻の雛顫薜屎鑪柎の雛顫凱隻糖ª62槏 62坏疿ァ糖ª般卑(牲疿暗摘目前机器学习方法已经被广泛地应用到安全相关的应用中，如检测，软件检测，邮件过滤和隐写分析等。传统的机器学习假设训练数据和测试数据具有相同的分布。然而在安全应用中，这一假设通常不成立。因为这些应用中通常存在的者，它们通过修改训练集或测试集的数据来误导分类器的决策。目前研究表明只要对样本进行较小的改动就能显著地降低机器学习系统的性能，这严重着这些应用的安全性。传统的机器学习不能有效地防御对抗。本研究深入分析对抗性环境中的三种不同类型的，即诱发、试探性和隐私窃取，提升系统对这三种的鲁棒性。同时我们也会讨论两个实际的应用，即隐写分析和网页浏览。本的主要贡献包括以下四个方面：目前对抗诱发的防御措施通常牺牲分类器在无情况下的泛化能力来提升系统的鲁棒性。因此，这些防御措施应当在训练数据受到的情况下才使用。然而，目前还没有检测训练数据中是否存在诱发攻的相关研究。由于诱发会改变一个数据集的几何特征。因此描述数据集几何特征的数据复杂度能够很好地检测诱发。在本文中，诱发的检测被构造成一个二类和多类分类问题，从而检测数据集中是否存在以及存在何种。实验结果表明基于数据复杂度的方法能够有效地区分无数据集和被不同方法篡改的数据集。当前的研究表明尽管单类分类器对试探性有较强的鲁棒性，然而在无的情况下它的泛化能力较差。与之相反，二类分类器在无的情况下具有较强的分类能力，然而它在试探性的情况下性能较差。本文中提出一个混合的方法，即.5类分类器。该方法结合单类和二类分类器，在不明显降低无情况下的准确率的前提下，在特征空间中学个能更紧密地包围正常样本的决策函数。在邮件和软件数据集上的实验表明，所方法能够提升分类器在试探性下的安全性。目前的隐写分析系统在训练和测试的量化表存在差异时性能较差。者可以通过隐写分析系统的这一缺陷进行试探性，使隐写逃脱系统的检测。然而，使用所有可能的量化表来训练系统是不现实和不可行的。我们提出把量化表差异所引起的隐写分析特征的变化定义为特征扰动，并定义由特征扰动导致的分类器输出变化平方的期望为随感度。最后训练一个最小化训练误差和随感度的隐写分析分类器，从而提升系统对量化表差异的鲁棒性。实验结果表明该方法对训练和测试中量化表的差异具有较强的鲁棒性。本中的另一个应用研究是网页浏览中的信息量化技术。目前的大部分信息泄露量化技术都聚焦于eb应用。这些技术由于时间复杂度大和特定的假设前提，并不适用于度量网页浏览中的信息。我们从模式分类的角度来研究信息问题，并使用数据复杂度来量化网页浏览中的信息。此外，识别防御措施中的参数选择对其性能有较大的影响。本文提出了基于信息量化技术的参数选择模型，并把它应用到当前两种具有代表性的依赖型和独立型防御措施中。：对抗学习；鲁棒系统；诱发；试探性；隐私窃取；识别Machinelearninghasbeenwidelyusedinsecurityapplications,forexample,intrusiondetection,malwaredetection,spamfiltering,andstegysis.Traditionalmachinelearningassumesthattrainingandtestdatafollowsthesamedistribution.However,thisassumptionmaybeviolatedinsecurityapplicationssincethereusuallyexistsanattackerwhocanmanipulatethetrainingortestdatatomisleadthedecisionoftheclassification.Currentresearcheshaveshowedthataslightchangeondatacansignificantlydecreasetheperformanceofmachinelearningsystems,whichthreatensthesecurityoftheapplications.Traditionalmachinelearningisnotadequatetodealwithadversarialattacks.Thisstudyaimstoyzethreekindsofadversarialattacks,includingcausativeattack,exploratoryattackandprivacyviolation,anddeveloprobustsystemsagainsttheseattacks.Twocontributionsofthisthesisareasfollows:Thegeneralizationabilityofaclassifierisusuallysacrificedinordertoincreasethero-bustnesstocausativeattacksincurrentcountermeasures.Therefore,thesecountermeasuresshouldbeappliedonlyifthetrainingsetisattackedbyanadversary.However,thedetectionofcausativeattackonadatasethasnotbeeninvestigatedyet.Asthegeometricalnaturesofadatasetarechangedbyacausativeattack,thedatacomplexitymeasures,whichdescribegeometricalcharacteristicsofdata,isappliedtocausativeattackdetection.Thecausativeattackdetectionsareformulatedas2-classandmulti-classclassificationproblemswhichdetectwhetheranattackandwhichtypeofattackarecontainedinadatasetrespectively.Experimentalresultsshowthattheuntainteddatasetsandthedatasetswithdifferentkindsofattackscanbeseparatedbydatacomplexitymeasuresclearly.Previousstudiesshowthatalthoughaone-classclassifierisrobusttoexploratoryattacks,itsgeneralizationabilityisrelativelylow.Bycontrast,atwo-classclassifierhaswelldis-criminabilitybutitisvulnerabletoexploratoryattacks.Ahybridmethod,namedas1.5Cclassifier,isproposedtodefendagainstexploratoryattacks.Theproposedmodelcombinesone-classandtwo-classclassifierstolearnadecisionfunctionwhichmoretightlyenclosesthelegitimatesamplesinfeaturespace,withoutsignificantlycompromisingaccuracyintheabsenceofattack.Theproposedmethodcanbeusedtoimprovethesecurityofanyclassifierattesttime,asshownbytheexperimentsonspamandmalwaredetections.Theperformancesofcurrentstegysismethodsdropsignificantlywhenthezationtablesoftrainingandtestimagesaredifferent.Unfortunay,usingallpossiblezationtablesinasystemisnotrealisticandpractical.Weformulatethechangesofstegysisfeaturescausedbythedifferenceofzationtablesasfeatureperturbations,anddefineastochasticsensitivitybytheexpectedsquareofoutputchangesoftheclassifierwithrespecttothesefeatureperturbationstocomputetherobustnessoftheclassifierwithrespecttoper-turbations.Thestegysissystemminimizingbothtrainingerrorandstochasticsensitivityisproposedtoimprovetherobustnessagainstthedifferenceofzationtables.There-sultsindicatethattheproposedmethodisrobusttothedifferenceofzationtablesinthetrainingandtestimages.Mostofrecentresearchesfocusontheleakficationsinwebapplicationswhichmaybeimpracticalinwebbrowsingduetotheirtimecomplexityandspecificassumptions.Theinformationleaksofwebbrowsingarefirstlyyzedfromtheviewpointofmachinelearn-ingandfiedbydatacomplexitymeasures.Theperformancesofthesedatacomplexitymeasuresinrepresentinginformationleaksareevaluatedandcomparedwiththeexistingapproachesexperimentally.Moreover,theparameterselectionmodelbasedontheleakficationisproposedtoestimatesuitableparametersforwebsitefingerprintingcoun-termeasures.Theexperimentalresultsconfirmthatthecountermeasureswithparametersselectedaccordingtothedatacomplexitymeasuresaresecurerthanotherleakfica-tionmeasures.:Adversariallearning;Robustsystem;Causativeattack;Exploratoryattack;Privacyviolation;Websitefingerprintingcountermeasure;StegysisI·表插主要符号表第一章绪论 1 课题背景和研究意义 1 对抗学习 3 的类型 4 模型 5 诱发及其防御措施 6 试探性及其防御措施 8 隐私窃取及其防御措施主要贡献的组织结构第二章基于数据复杂度的翻转诱发检测引言翻转诱发数据复杂度基于特征值的重合程度的度量方法基于类别可分性的度量方法基于流形的几何，拓扑和密度性质的度量方法9诱发所引起的几何特征变化的例子基于数据复杂度的诱检测实验无数据集的生成数据复杂度对诱发检测的辨识能力基于数据复杂度的翻转诱发检测目基于数据复杂度的诱发类型检测本章小结第三章对试探性鲁棒的多分类器系统引言相关工作在试探性下简单的分类器风险分析安全的1.5C多分类器针对不同分类器的试探性梯度的计算实验邮件检测 PDF软件检测本章小结第四章对量化表差异鲁棒的隐写分析系统引言隐写分析和量化表隐写分析 JPEG隐写分析中的量化表特征扰动 LG-Stegyzer 敏感度 LG-Stegyzer的两阶段RBFNN训练方法 LG-Stegyzer鲁棒性的提升实验结果与当前隐写分析方法的对比使用训练的量化表来重新压缩测试的实验结果本章小结第五章网页浏览中信息量化分析引言侧信道信息量化网页浏览中基于数据复杂度的侧信道信息量化流量分析防御措施的参数选择模型基于侧信道信息量化的参数选择模型流量变形防御措施的参数选择 BuFLO防御措施的参数选择实验研究基于数据复杂度的信息量化技术的性能使用不同参数设置时识别防御措施的性能基于侧信道信息量化技术的参数选择方法的性能本章小结结论与展望参考文献攻读博期间取得的研究成果 ·致谢表人工数据集在无和被不同的翻转时的数据复杂诱发检测中不同数据复杂度（DC）对不同类型的诱发的识别能诱发多类检测的矩 L-GEM的RBFNN化表上的性能对 L-GEM的RBFNN的总体性能对不同的隐写分析方法使用训练的量化表来重新压缩测试时的性不同的隐写分析方法使用训练的量化表来重新压缩测试时的体性在流量变形防御措施中侧信道信息量化技术和检测误差间的皮尔相关性和斯皮尔曼相关在防御措施中侧信道信息量化技术和检测误差间的皮尔逊关性和斯皮尔曼相关在不同的带宽开销限制下在使用不同的信息量化技术选参数（目标和阈值）的流量变形防御措施下的检测误在不同的带宽开销和延迟限制下在使用不同的侧信道信息量化技术选择参数的防御措施下的检测误插诱发和试探性............................ 无和含有不同翻转诱发的数据无数据集（D0）和含有不同类型的数据集(Drand,Dnear,Dfar−rotate和DmaxErr)在不同数据复杂度度量上的概率密度分在不同的场景下所方法对不同强度和不同类型的诱发的检准确一维特征空间中，分类器在试探性下的分类风不同分类器在二维数据上的决策边 1.5C多分类器的结使用算法3-1对RBF核的SVM进行试探性的例邮件过滤中二类（2C）SVMs，使用正常（L）和（M）训练样本分别训练的单类（1C）SVM以及所1.5CMCS随着允许修改单词的最大数目增加时的AUC1%和软件检测中二类（2C）SVMs，使用正常（L）和（M）训练样本分别训练的单类（1C）SVM以及所1.5CMCS随着允许增加关键字的最大数目增加时的AUC1%和隐写和隐写分使用不同相机中不同的量化表来压缩的的特征向量的两个最大的成不同情景下的MPEG-7特征的第一和第二大主成不同情景下的隐写分析特征的第一和第二大主成原始的训练和情景2到6中的扰动的例 LG-Stegyzer的功能模在不同程度的相似度下，LG-Stegyzer和Chen的方法的鲁棒当使用不同相机的量化表来压缩时LG-Stegyzer和Chen的方的鲁棒与训练具有不同程度的相似度的在不同量化表的压缩下的鲁性对非线性可分问网页浏览中的侧信道信息泄当流量变形防御措施使用不同的目标和阈值时不同的侧信道信息露量化技术和者检测误差的关当防御措施使用不同的参数时不同的侧信道信息量化技术者检测误差的关使用不同的目标和阈值的流量变形的带宽开销和被检测误的参数（数据包的大小，发送间隔和最小持续时间）与带宽开销，延迟和检测误差间的关主要符号缩略英文注中文异常对抗自动特征AreaUndertheROC曲线下的可用性BufferedFixedLength基于缓冲的固定长度诱发Data数据复DiscreteCosine离散余弦Data数据Exploratory试探性False漏False误Genetic遗传梯度Hinge铰链Integrity完整性k-foldCrossLimited有限LabelFlips翻转LOO-Leave-one-outCross留一交叉局部泛化MultipleClassifier多分类器最小生MeanSquare均方Privacy隐私窃取Principal主成分Perfect完全RadialBasis径向基RadialBasisFunctionNeural径向基神RejectOnNegative负影响随机子侧信道信息敏感度SupportVector支持向流量流量WebsiteFingerprinting识别第一章绪论第一章绪论课题背景和研究意目前，模式分类已经被广泛地应用在领域中，其中包括生物识别，检测，软件检测，邮件检测，隐写分析和网络协议验证等[1–7]。研究表明基于模式识别的技术能够很好地区分开正常样本和样本，使用户摆脱样本带来的困扰。然而在这些相关的应用中，通常会存在一些的者。他们根据系统中分类器存在的缺陷想方设法地使样本逃脱系统的检测。例如，在邮件检测的应用中，者为了使邮件逃避系统的检测，会修改邮件中的一些典型的垃圾词语（即常在邮件中出现而又很少在正常邮件中出现的词语，邮件检测系统通常根据这些词语来检测邮件，如把词语“cheap”修改成“che@p”，或者向垃圾邮件中加入一些好词（即频繁出现在正常邮件而又很少出现在邮件中的词语）8,9]。在检测系统中，者会通过模仿合法流量的一些特征（如数据包大小，传输速率等）来网络的数据包，从而逃脱检测系统的检测[101]。者一般通过修改训练集的样本来误导分类器的学习12–14]，或者通过修改测试集的样本使其逃脱安全系统的检测[89,15,16]。传统的机器学习方法假设训练和测试数据都具有相同的分布。然而，在安全相关的应用中，由于者的存在，这一假设前提通常不成立。一个聪明的者会修改训练数据或测试数据使得训练和测试数据具有不同的分布，从而使传统机器学习的假设前提不再成立。在这种情况下，传统的机器学习方法的性能很差，它不仅不能准确地检测到样本，也有可能过滤掉正常的样本，给用户带来很大的损失。因此，研究在有的环境下，传统机器学习方法的行为和缺陷，并开发出对鲁棒的对抗学习算法，对相关的应用十分重要。传统的分类器在训练时一般只关注分类器的泛化能力，即分类器对与训练样本具有相同分布的未见样本进行正确分类的能力。然而，在对抗性环境中，由于存在者对分类器的误导，只考虑分类器的泛化能力是不足够的。一个具有较好泛化能力的分类器在的情况下，其性能可能会大幅度降。因此，在对抗性环境中，我们在建立分类器时也必须考虑分类器对潜在的的鲁棒性，使系统能够抵抗不同类型的攻击，保证安全系统能够正常运行。本主要研究如何提升安全系统在对抗性的环境中到不同类型时的鲁华南理工大学博士棒性。总的来说，本课题具有以下重要的研究意义：本文提出了一种翻转诱发检测算法。目前针对诱发的防御措施都以牺牲一定的泛化能力为代价来换取较高的鲁棒性。因此，在使用这些防御措施前，我们必须分析数据集中是否存在诱发。然而，目前检测数据集中是否存在诱发攻击的相关研究还不充分。本研究提出了一种基于数据的几何特征来检测训练集中是否存在以及是何种的技术。通过该技术，我们能较好地判断在何时应该使用数据过滤和鲁棒分类器等措施，并且可以根据检测到的类型选择合适的防御措施。提出一个对试探性具有较强鲁棒性的多分类器系统。首先分析了分类误差在试探性的情况下是如何改变的。通过对试探性的行为分析总结出传统分类器的缺陷，并提出结合单类分类器和二类分类器优点的多分类器系统。该系统能够在不明显降低分类器在无时的准确率的情况下，通过学个更好地包围正常样本的决策函数来提升分类器对试探性的鲁棒性。该方法是比较通用的，它能够用来提升不同类型分类器在不同的试探性下的安全性。本文提出一种对训练和测试所使用的量化表的差异比较鲁棒的隐写分析系统。目前的PEG隐写分析技术对所使用的量化表很敏感，即使用一个选定的量化表的样本来训练的隐写分析系统在检测使用不同的量化表压缩的时性能很差。者可以利用这一缺陷来使用一些非标准的量化表压缩隐写，使得系统的训练集和测试集的分布具有一定的差异，从而让隐写逃脱系统的检测。针对目前隐写分析系统中存在的缺陷，本文提出了一种基于局部泛化误差的隐写分析系统，它对训练和测试集中量化表的差异具有较强的鲁棒性。针对网页浏览应用提出一种新型的信息量化技术。目前的大部分学者都集中研究eb应用的信息量化技术。由于这些技术的时间复杂度太大以及存在特定的假设前提，使它们并不适用于度量网页浏览中的信息。针对这一问题，我们提出了使用数据复杂度来量化网页浏览中的信息。此外，目前的一些识别防御措施在使用时需要用户设置一些系统参数。这些参数对防御措施的性能和所造成的开销影响很大。我们设计出一套能根据用户对开销不同的需求而自动选择系统参数的方法，大大地增强这些防御措施的适用性。第一章绪论对抗学近年来机器学习算法在安全领域（如生物识别，检测，软件检测，垃圾邮件检测，隐写分析和网络协议验证等）得到了广泛应用。在这些安全应用中，存在一些的者。它们利用机器学习算法的缺点，来和躲避机器学习系统的检测，从而达到他们的目的。由于大多数的机器学习系统在设计之初并没有考虑到可能遭受的，因此目前大多数机器学习算法在对抗环境下表现很差，只要少量就能使系统性能大大降低，这严重影响机器学习理论在安全领域中的应用。目前，对抗学习（AdversaralLearnng,AL，即对抗环境下的机器学习，已成为机器学习研究中的一个热门方向，吸引了许多国内外的研究学者。传统的机器学习算法基于一个平稳性假设，即假设训练数据和测试数据来自同一个分布。但在对抗环境中，这一假设不再成立。对抗环境下的机器学习假定在一定的前提条件下，者能部分训练或测试数据，使得训练数据和测试数据具有不同的分布，从而误导分类器的学习和逃脱分类器的检测。者和防守者之间构成一种互相竞争的关系。它们不断地考虑对方的策略并提出相应的防守措施[17,18]。者通过探索安全系统所存在的来设计新型的[12,19]，而防守者通过筛选训练样本（如数据过滤[20–22]）和提升分类器的鲁棒性[23–25]来对抗攻击。这一过程不断地重复，直到达到一个博弈均衡。一些研究使用纳什均衡来研究者和防守者之间的对抗关系[26,27]。Dalvi等人是首批提出对抗环境下的模式分类问题的贡献者，他们把对抗分类问题看作是分类器与者之间的互相博弈的过程，并给出了形式化的框架[28]。Lowd等人提出了对分类器进行逆向工程的模型(ACRE)，从理论上分析了者是否可以在合理代价的基础上对分类器进行，例如可以通过试探的方式来获取分类器信息并设计相应的策略[29]。基于对分类器的影响，造成的损害和的特异性，Barreno等人对攻击进行了系统的分类[121930]。Biggio等人根据者的目标，对目标系统所具备的知识，修改样本的能力和所使用的策略定义了一个通用的模型[16,17]。此外，他在文献17]中提出了一个系统的方法来生成评价系统安全性的训练和测试数据集，以及一个通用的框架来评价分类器在对抗环境中的安全性。该框架能够应用到不同的分类器，学习算法和分类任务中。在邮件检测系统，生物特征识别系统和网络检测的应用中，该安全评价方法都能更彻底地分析分类器在环境中的行为，指导如何训练一个对鲁棒的系统。华南理工大学博士在对抗学习中存在不同类型的，Barreno等人分别基于三种不同的特性对基于对分类器的影响把分为诱发 Attack）和试探性（Exporaoryttack。如图1-1所示，传统的机器学习假设训练数据和测试数据是来自同一分布的。者通过修改训练或测试数据使它们具有不同的分布，从而误导分类器。在诱发中，者通过修改训练集中的数据来误导分类器的学习。与诱发相反，试探性不影响分类器的学习过程，它主要通过试探性的方法来获取系统分类器的信息，并根据这些信息来修改测试集中的数据，使其逃脱系统的检测。例如者可以把一些样本发送给分类器，从分类器对这些样本的分类结果中获取分类器的信息。因此，诱发主要影响训练数据而试探性主要影响测试数据。一般来说，诱发会对系统造成更大更长远的损害，因为它修改了训练数据的分布，误导了分类器的学习。图1-1诱发和试探性基于造成的安全损害，可分为完整性 Attack），可用性（vailablityttack）和隐私窃取（Prvacyiolaton。在完整性中，者的目标是使的样本逃脱系统的检测。在可用性中，者提升系统的总分类误差，其中包括误报率（FalsePoiives）和漏报率（FalseNegaives，使系统不再可用。隐私窃取的主要目的是从系统中窃取用户信息。根据的特异性，可分为针对性(TargetedAttack)和非针对性（IndiscriminateAttack。针对性指的是者针对某个或某些特定的样本进行攻击，从而降低分类器在这些样本上的性能。与针对性相反，非针对性不针对某些特定的样本进行，它具有一个更加灵活的目标，能更加广泛的样本，其目标第一章绪论是降低分类器在广泛的样本上的性模了一个较为通用的模型[16,17]。不同的类型以及在不同的应用中，者通常会有不同的目的。在上一小节所描述的不同类型中（如完整性，可用性，隐私窃取，针对性和非针对性等，者会有不同的目标。例如在完整性中，者的目的是最大化漏报率，即把样本错分为正常样本的比例。而在可用性中，者的目的是最大化分类器在所有样本上的分类误差。者的目的一般被构造成一个优化问题的目标函数[31]。者的知识主要是根据者对分类器不同组成部分的知识来定义的。其中包括（a）对训练数据的知识，即是否能够获取部分或全部的训练数据；（b）对特征集的知识，即是否知道系统所使用的全部或部分特征；（c）系统所使用的分类器类型，如SVM，朴素贝叶斯，径向基神经网络等；（d）系统分类器的具体参数，如性分类特重（e）者是否能够查询系统对所提供样本的反馈，者能从这些反馈中获取对至关重要的信息[29,32]。者的能力从不同的方面进行定义：（a）对每一个样本能修改的最大程度，通常使用修改后样本和原始样本之间的距离来定义（b）根据1.2.1小节中对分类器的影响，的能力可分为对训练集（即诱发）或测试集数据（即试探性）（c）能修样本的数目；（d）能否或者多大程度地改变数据的类先验分布；（e）根据具体的应用，修改样本特征时有何限制。如在对PDF软件检测系统的攻，我们很难做到删除某些关键字而不损坏PDF文件的结构，但却能很轻易地向文件中加入一些关键字。因此在这个应用中，者只能向PDF文件中加入关键字而不能删者的策略指的是者如何修改训练和测试数据来达到优化目标函数的目的。通常者会结合目标函数的特点来使用不同的优化方法。如文献[16]中使用梯度下降的方法来优化可微的目标函数，而在文献[33]中的优化问题被拆分成一个线性规划和一二规划题并用迭优的法来出的本。华南理工大学博士诱发及其防御措如1.2.1小节所描述的，诱发主要通过修改训练数据来误导分类器的学习。目前已有许多诱发的方法被设计出来。Chung等人提出了一种针对自动蠕虫特征提取系统的诱发[3435]。自动蠕虫特征提取系统首先会根据行为模式，特别是扫描行为来识别被的节点。接着从这些节点发送的数据包中提取出蠕虫的特征。者首先让一个节点扫描网络从而让自动蠕虫特征提取系统认为这是一个被的节点。接着攻击者让该节点模仿目标流量来发送数据包，使系统学习到错误的蠕虫特征，从而导致系统把合法的误判成蠕虫。这是一种诱发可用性。Newsome等人提出了针对基于机器学习的多态检测系统的诱发[36]。者向训练集中的样本加入伪造的特征，导致系统训练出依赖这些特征而不是真正的样本特征的分类器。因而不含有这些特征的样本就能逃脱分类器的检测。此外，他们也提出了一种相关的异常。这种通过向训练样本中加入的特征从而使分类器把具有这些特征的合法流量误判为流量。这是一种诱发可用性。Nelson等人针对垃圾邮件检测系统设计了两种不同的，即字典和集中[20,37]。字典通过向系统发送包含许多好词（即在正常邮件中经常出现而又很少在邮件中出现的词语）的邮件。当系统使用这些样本来训练分类器时，这些好词会有较高的得分。因此测试集中的合法邮件如果含有这些好词，就很容易被误判为邮件。当者具有很少邮件过滤系统的信息时，它会让邮件包含整个英语字典。集中中假设攻击者知道正常的目标邮件的信息。它的目的是让系统把目标邮件误判为邮件。具体做法是向系统发送具有目标邮件中词汇的邮件让其训练分类器，使这些词汇具有很高的得分。在这种情况下，目标邮件会很容易被系统判断为邮件。一些公司会利用这种技术来使邮件检测系统把竞争对手的邮件过滤掉。例如，他们制造许多包含对手公司的名字，产品和地址等词汇的邮件。近年来，支持向量机（SupportVectorMachine,SVM）被广泛地应用到安全领因此，目前也有许多诱发是针对SVM。Biggio等人基于增量支持向量机寻找能最大化SVM的分类误差的样本点[13]。此外，他还提出了一种针对SVM的标签翻转（LabelFlipsAttack,LFA）[25]。与文献[13]中的不同，翻转主要通过修改训练数据中样本的来最大化SVM的分类误差。者首先随机生成一个超平面，然后翻转离SVM分类超平面和随机超平面距离最远的样本的。离分类超第一章绪论平面最远的样本通常不是支持向量，但它们被改变后进行训练时很大可能会变成支持向量或误差向量。分类超平面也会比较接近这些点。因此，分类超平面会有明显的变化。与上面基于样本与超平面的距离来选择样本的方法不同，Xiao等人提出翻转最大化SVM分类误差的样本的[33]。他们把选择样本的问题构造成一个优化问题，并使用次优化的方法来求得能最大化SVM分类误差的样本。由于诱发给系统的性能造成很大和长期的损害。目前已经开发出了一些防御诱发的技术。这些技术主要分为两大类：数据过滤（DataSantizaion）和训练鲁棒分类器（RobustLearning19]。数据过滤指的是识别训练集中哪些样本被并把它们从训练集中去除掉，防止这些样本对分类器进行误导[20,21,37]。现有的过滤方法大多以样本对分类器泛化能力的影响来判断是否要剔除该样本。例如microModels[21]把训练集按收集样本的时间顺序切分成多个小子集，每一子集独立训练一个分类器，最后用这些分类器对样本的投票结果来判断其是否为样本。该方法假设者集中在某个或某些时间段中进行。但在许多的应用中，这个假设条件不一定能符合。因此该方法在应用上存在一定的局限性。另一种数据过滤方法是负影响过滤（RejectOnegatveImpact,RONI[20,37]，它对于训练集中的每一个样本都分别训练两个分类器，即使用包含和不包含该样本的训练集分别训练两个分类器。并计算这两个分类器在一个验证集（该验证集中的样本一般是没被的）上的分类准确率。如果包含该样本的分类器的分类准确率明显低于不包含该样本的分类器的准确率，说明该样本对分类器造成负影响，因此判断其为样本。Nelson等人显示RONI能很好地去掉针对邮件过滤系统的诱发样本[2037]。然而该方法需要一个没被的验证集，即使这个验证集的样本数目较小，但在某些应用中可能难以获取这样的验证集。此外，该防御措施的最大缺点是计算复杂度大。因为对于每一个训练样本，它都需要另一类防御措施是训练对鲁棒的分类器[23,38,39]。研究显能够很地缓和每个样本对模型的影响[23]。由于在Boosting中样本在训练集中所占比例会相对较小，它能降低诱发对分类器的影响。Biggio等人提出诱发的目标是修改训练集的样本使其分布偏离真实的分布，从而使学习到的模型偏离正确的模型[39]。因此他们认为样本可以看作是一种特殊类型的异常点。他们使用能有效地降低训练集中异常点影响的Bagging和带权重的Bagging40]方法来对抗诱发。传统的主华南理工大学博士成分分析方法（PrncpalComponentysi,PCA）找出能最大化方差的方向。但它很容易受到异常点的影响，因此很容易被者。针对这一缺陷，Croux等人提出一种PCA-Grid的算法[38]，它寻找在不低估方差的情况下能最大化均值绝对偏差（MedianAbsoluteDeviaton,MAD）的方向。Biggo等人通过修改传统SVM的核矩阵从而开发出一个对翻转诱发比较鲁棒的SVM[25]。该方法的计算复杂度和传统的SVM差不多，因为它只是对SVM的核矩阵进行了修改。它对系统在无情况下的准确率和对翻转的鲁棒性之间做了一个较好的权衡。然而该方法的缺点是它需要知道训练集中被样本的比例来设置模型的参数。数据过滤防御措施研究如何去掉改变训练数据分布的样本，使分类器不受到样本的误导。而鲁棒分类器的防御措施是研究如何在被的训练数据中学习到受样本误导较小的分类器。与鲁棒分类器的防御措施相比，数据过滤方法似乎更能从根本上防止样本对分类器的影响。正如文献[19]所描述，在许多应用中，数据过滤是唯一能获得满意的效果的防御措施。但如何检测到哪些样本是样本是比较困难的，还需要进一步的研究。试探性及其防御措在试探性中，者通过试探性的方法（如根据分类器对者所提供的样本的分类结果）来获取系统分类器的信息，并根据这些信息来找出分类器的盲点，从而修改样本使其逃脱系统的检测。常用的方法是使样本具有正常样本的一些显著的特征或者使样本去掉或降低分类器用以识别样本的主要特征。例如在针对邮件检测系统的中，者常常掩饰邮件中的一些词汇（如把“cheap”修改成“che@p”）或者是加入一些与正常邮件比较相关的词语[28,2941]。针对邮件检测系统，一些学者提出了好词[8,9]。这种通过向邮件中加入好词（即频繁出现在正常邮件而又很少出现在邮件中的词语，使系统把垃圾邮件误判为正常邮件。在这种中，通常使用能加入最大的好词数目来定义者的能力。Chen等人把这种好词应用到检测中[15]。与邮件不同，的长度是有限制的，其最大值只有140个字节。根据这一特性，他们在选择好词的时候不仅考虑词语的权重值，同时也考虑它的长度。在文献[16]中，作者把试探性构造成一个优化问题，其目标函数是被的样本点在分类器中的输出，并通过梯度下降的方法来寻找出最优的点。为了防止梯度下降的迭代过程中点落入无样本支持区域（即p(x)≈0，该方法在最小化样本点在分类器上输出的同时最大化样第一章绪论本点所在位置的正常样本的密度（即让样本向着正常样本密度大的区域的方向更新。根据这一优化问题，他们为目前比较常用的两类分类器（SVM和神经网络）设计了相应的试探性方法。并根据文献17]中的模型，模拟者对分类器具有不同程度的知识和不同的能力下，所试探性的性能。PDF软件检测的实验显示，该方法能够使PDF文件很容易地逃脱系统的检测。目前，已经有许多防御试探性的措施被开发出来。Kocz等人发现当线性分类器的某些特征具有很大的权重时，分类器对试探性的鲁棒性较差[41]。这是因为者只需要改变样本中少量的特征值就能很大程度地改变线性分类器的输出，从而使样本被错分为正常样本。他们使用特征权重分布的均匀度来度量分类器对的鲁棒性并使用调整特征权重的技术来使线性分类器权重的分布尽量均匀。Chen等[15]针对短息检测中信息长度较小的特点，提出一个新的特征权重调整技术。该技术降低长度较小的词语所对应特征的权重。这样做使得者需要向中加入的字符才能逃脱系统的检测。Zhou等人分别针对SVM的和有限制设计出鲁棒的SVM学习算法[42]。该算法在假设者最大化分类器损失的情况下最小化SVM的转折点损失（HingeLoss。其研究显示当真实的强度比预期的小很多的时候，针对悲观的模型所求得的最优SVM的性能不太理想。当对污染数据的模型做一个弱假设时，能够训练出一个对更鲁棒的SVM。多分类器在传统的模式分类问题中表现出很好的性能。研究表明多分类器系统能够提升分类器对试探性的鲁棒性[43–45]。一些学者认为其原因是者需要逃脱多个分类器才能使样本不被多分类器系统检测到[43,44]。然而他们都没有为其提供理论证明和实验验证。随后，Rodrgues等人为其提供了一些实验验证[45]。文献[46]多分类器通过在决策函数中加入一些随机的因素从而有效地阻碍者获取分类器的信息。在文献47]中，作者发现Bagging和随机子空间（RandomSubpaceMethod,RSM）的多分类器技术在提升分类器的准确率的同时，也会使得权重分布得更平均，这使得它能够提升对试探性的鲁棒性。他们通过对比Bagging和RSM在不同的中的性能后发现，当少量的特征具有比较高的区分能力时，RSM的性能优于Bagging。然而当原始的特征分布得比较平均时，Baggng的性能优于RSM。隐私窃取及其防御措随着互联网的飞速发展，网络在生活中的应用越来越广泛。但个人隐私问题严重地困扰着互联网用户。虽然一些通信机制，如TLS[48]，Tor[49]和加密通道等，华南理工大学博士够隐藏用户和服务器间通信的内容，即者是无法查看数据包里面的内容。但是者可以通过网络通信分析（raficysi,A）技术来窃取用户的多种个人信息，如用户的，用户通过搜索引擎搜索的内容，用户的身体状况和财务状况等50–56]通信分析主要从通信流量中提取一些统计特性，如数据包大小，带宽和持续时间等。并通过机器学习的方法来预测用户的个人信息。Sun等人基于HTTP对象的数量和大小来度量不同网络通信间的相似度[57]。他们通过相邻的两次请求间的通信量来推算对象的大小。但当允许使用HTTP管道时，即允许同时发送多个请求时，这种会变得无效，因为此时无法预测HTTP对象的大小。Liberatore和Levne使用数据包的大小和方向并建立朴素贝叶斯分类器来预测加密后的HTTP通信流的内容50]。随后，Lu等人提出使用数据包顺序的信息来进行通信分析[58]。他们研究表明流量变形防御措施不能有效地数据包的顺序信息。该方法通过编辑距离来度量不同网络通信间的相似性。与文献[50]中的方法相比，他们的方法具有更好的性能。在文献[53]中，Dyer等人提出一种粗糙特征（即总带宽，总持续时间和连续带宽）来预测用户的。研究表明目前的防御措施很难有效地这些粗糙特征。Cai等人基于数据轨迹之间的编辑距离来为SVM设计出新型的核函数[59]。即使在通信过程中数据包以固定大小来发送（如or，该方法也能很好的预测用户所的。者对个人信息的窃取严重困扰着互联网用户。目前防止信息的研究越越受到学者们的重视。近年来出现了许多相关的研究成果。通信分析防御措施主要是通过修改网络通信中的数据包来其统计特征，从而防止信息。数据包填充是一种经典的方法。该方法通过向数据包中加入无用的数据来改变数据包的大小。它能有效地抵抗基于数据包大小的网络通信。数据包填充包括线性填充，指数填充，最大传输单元（MTU）填充和二值填充等[50]。数据包填充会引起额外的带宽开销，因为冗余的数据被填充到每个数据包中。流量变形(rfficMorphng,TM)通过填充或拆分数据包的方式来使当前的数据包大小的分布成目标的分布[60]。流量变形能较好地抵抗基于数据包大小分布的通信分析。Dyer等人提出一种BuFLO的防御措施，该方法通过在固定时间里发送固定大小的数据包，并设定通信的最短持续时间，从而隐藏数据包大小，带宽及时间等重要统计特征。但这种方导致很高的带宽开销。此外，Panchenko等人[52]和Luo等人61]分别在应用层上设计了一些防止信息的技术。第一章绪论主要贡在对抗性的环境中，我们在训练分类器时不仅需要考虑分类器在不被时的泛化能力，还需要考虑分类器在被时的鲁棒性。本文主要研究在对抗性环境中机器学习系统在不同类型的下的行为和缺陷，并根据这些缺陷来设计出对不同类型鲁棒的系统。首先，提出一种诱发检测方法。该方法基于数据复杂度分析训练数据的一些几何特征来检测训练数据中是否存在以及存在何种诱发，为是否应该使用以及使用何种防御措施提供了重要的信息。接着通过结合单类分类器和二类分类器的多分类器系统来学个更好地包围正常样本的决策函数，从而提升试探性的难度。针对隐写分析中者可以利用量化表的差异所引起的特征扰动来进行试探性，使隐写逃脱系统的检测，本文基于局部泛化误差模型提出了一种能提升隐写分析系统对训练和测试量化表差异的鲁棒性的技术。最后针对根据用户和服务器间通信流量的特征来窃取用户个人信息的，我们提出了一种基于数据复杂度的信息量化技术，从而有效地评估系统的安全性。并根据这种信息量化技术为识别防御措施设计出参数选择模型，降低用户在浏览时的信息。传统的机器学习假设训练数据和测试数据都来自同一个分布。然而在许多安全应用中，可能存在一些的者，它们通过各种来修改训练或测试集的数据，使得受到的情况下性能很差。目前已经有一些防御的技术被提出来，但是该方面的研究还不太充分。本文分别对三类不同的防御措施存在的缺陷来提出改进的方案，从而设计出对鲁棒的系统。本文的具体贡献包括以下几点：第一，提出一种检测训练数据是否被的技术。诱发通过修改训练数据来误导分类器的学习。目前对抗诱发的措施主要有数据过滤和训练鲁棒分类器这两种方法。许多研究显示这些防御措施都会以牺牲分类器在无情况下的准确率为代价来提升分类器对的鲁棒性[25,4162–64]。因此，如果我们能检测到训练数据集中是否含有，并在训练数据集被的情况下才使用这些防御措施，就能防止在无的情况下，这些防御措施给系统造成的性能下降。据我们了解，目前还没有一种能较好检测训练数据中是否存在诱发的技术。为了弥补这一研究的空缺，本文提出了一种基于数据复杂度的诱发检测技术。实验结果表明它能很好地检测数据集中是否存在诱发。同时本文所方法也能准确地检测到训练数据集到何种诱华南理工大学博士。这对诱发防御措施有着十分重要的意义。因为当我们知道者使用何种诱发时，就能更好地设计或选择针对这种的防御措施。第二，提出对试探性具有较好鲁棒性的多分类器系统。虽然现在已有一些防御试探性的学习算法，但是它们的计算复杂度较高以及它们只针对某种特定的数据篡改方式。我们提出一个多分类器系统来克服这些缺点。该系统能够在不明显降低分类器在无时的准确率的情况下，在特征空间中学个能够更好地包围正常样本的决策函数，从而提升对试探性的鲁棒性。该方法是比较通用的，它能够用来提升不同类型分类器在不同的试探性下的安全性。第三，提出一种对训练和测试JPEG量化表差异鲁棒的隐写分析系统。研究表明使用不同量化表压缩的的隐写分析特征会具有不同的分布。隐写分析系统在检测使用与训练不同的量化表压缩的时性能很差。因此者可以使用不同于隐写分析系统训练的量化表来压缩隐写，从而逃脱隐写分析系统的检测。在本文中，我们提出把量化表差异所引起的隐写分析特征的差异定义为特征扰动。接着，定义由特征扰动导致的分类器输出变化平方的期望为随感度，并用它来计算分类器对这些扰动的鲁棒性。最后开发出一个最小化训练误差和敏感度的隐写分析分类器。该方法对训练和测试量化表的差异具有较强的鲁棒性。第四，提出一种度量网页浏览中信息量的技术，并使用该技术来提升目前识别防御措施的性能。目前的大部分信息量化技术都聚焦于eb应用。这些技术由于时间复杂度太大和特定的假设前提，它们并不适用于度量网页浏览中的信息。针对这一问题，我们提出了基于数据复杂度的信息量化技术。数据复杂度是对一个模式分类问题的程度进行量化的一种技术。我们的研究表明它能很好地度量网页浏览中的信息量，明显优于目前存在的信息量化技术。一些识别防御措施在使用时需要选择合适的参数。然而目前还没有一种较好的参数选择方法。本文基于信息量化技术设计出一个参数选择模型。该模型在用户给定的开销限制下，自动地为防御措施选择能最小化信息量的参数。我们把它应用到当前两种具有代表性的依赖型和独立型防御措施中。的组织结我们分别针对对抗环境中的三种不同类型的研究如何提升安全系统的鲁棒性。本文具体的章节组织如下：第一章绪论第一章主要介绍了研究课题的背景和意义，并介绍了对抗学习，对抗环境中三种不同类型的及其防御措施，以及本的主要贡献。第二章阐述诱发防御措施目前存在的不足，分析了检测训练数据是否被的必要性。接着详细地分析了诱发对训练数据的几何特征的影响，并设计出基于数据复杂度的翻转诱发检测技术。第三章针对当前试探性防御措施所存在的缺陷，提出一个结合单类分类器和二类分类器优点的多分类器系统。并通过两个真实的应用例子（邮件过滤和软件检测）来评估所多分类器对试探性的鲁棒性。第四章分析训练和测试中量化表的差异所造成的特征扰动以及对隐写分析系统性能的影响，把量化表的差异造成的分类器输出变化的平方的期望定义为随机敏感度，并用它来度量分类器对训练和测试量化表差异的鲁棒性。最后提出一个同时最小化训练误差和敏感度的隐写分析系统。第五章针对当前网页浏览中信息量化技术的不足，提出一种基于数据复杂度的量化技术。同时，我们基于信息量化技术设计出一个识别防御措施的参第六章对本文的研究工作进行系统的总结，分析当前研究还存在的问题以及未来的研究方向。华南理工大学博士第二章基于数据复杂度的翻转诱发检在对抗环境中，诱发(Causativettack)通过修改系统的训练数据来误导分类器的学习。目前针对诱发的防御措施主要包括两种：数据过滤和训练对诱发具有较强鲁棒性的分类器。然而研究表明这两种防御措施都会降低分类器在无情况下的泛化能力。因此，在使用这些防御措施前，我们需要分析数据集中是否存在诱发攻击。然而，目前检测数据集中是否存在诱发的相关研究还不充分。本研究发现诱发会改变数据集的几何特征。基于这一发现，本章节提出了通过数据集的一些几何特征来检测是否存在诱发的技术。我们使用数据复杂度（DataComplexit,DC）来描述数据集的几何特征。本研究针对目前的五种具有代表性的翻转诱发。首先，检测数据集中是否存在诱发被定义为一个二类分类问题。接着，我们把检测数据集中存在哪一种诱发定义为一个多类问题。每一个数据集都被看作是一个样本。我们分别从不同方面计算该数据集的数据复杂度，并把它们作为该样本的特征。分类器根据这些特征来判断每一个数据集是否被。实验结果表明基于数据复杂度的诱发检测方法能很好地区分无和被的数据集。使用径向基核(RBF)的支持向量机（SVM）来训练的诱发检测系统在识别数据集是否被时具有很高的准确率。同时本章方法也能很好地检测出数据集哪种。引诱发是对抗学习中一种常用的方法。它通过篡改训练样本的或者特征[20,29]来误导分类器的学习。例如，在蠕虫检测中，者会使一个节点去做一些可疑的行为，如通过扫描网络来引起自动特征提取（AuomaicSignaureGeneraton,ASG）系统的怀疑[34]。接着，只要是这个可疑节点发过来的流量（尽管是合法的流量，ASG系统都会判定为可疑的通信。最终，者可以通过这种方式来影响蠕虫检测系统的训练数据集。再如，当训练集十分庞大的时候，如自然语言处理应用，使用专家为大量的训练样本进行标注需要很昂贵的代价。而且这些应用的样本标注是一个简单而繁琐的工作。为了降低人工标注的成本，系统开发者通常会使用网络上一些廉价的人力资源来完成这项工作，如亚马逊土耳其机器人(AmazonMechanicalurk)6667]。然而在这种情况下，者可以成网络上的工作者来为这些训练样本进行标注，并故意给样本标注错误的，从而实施翻转。目前已研究出一些对抗诱发的技术，如训练鲁棒的分类器和数第二章基于数据复杂度的翻转诱发检过滤[20–22]等技术。然而，这些方法以牺牲分类器在无情况下的泛化能力为代价去获得更高的安全性[12,1925,64]。例如，文献[25]中显示，在没的情况下其对鲁棒的SVM的准确率比传统的SVM低25%。因此，在使用这些防御措施前我们需要研究数据集中是否存在。此外，如果我们可以预测者使用的类型，将会对设计相应的防御措施有很大的帮助。然而，尽管诱发检测是对抗诱发中的一个至关重要的问题，但它还没有得到充分的研究。Barreno等人在文献30]中提出一个需要已知一部分未被样本的诱发检测方法。然而，在一些实际的应用中这一假设很难满足，因为我们很难判断某个样本是否被。目前存在一些与诱发检测相关的技术，例如异常检测（AnomalyDeecion68]和概念漂移（ConceptDrift69]。这些技术识别与典型的数据不同的模式（例如异常检测找出和大部分数据不同的数据，而概念漂移在检测到数据流中的新样本和源样本不同时发出警示。然而，在标准的模式分类问题中，我们只能获取一个训练数据集。并且我们无法判断这一数据集的分布和真实的分布之间的差异。因此，我们很难辨别出给定的数据集是否被。在诱发中，者使用根据目标分类器的特性而精心设计出的算法来修改练数据，误导分类器学习，从而提升分类器的测试误差。然而者对训练数据集进行的改动会导致数据集的几何征发生变化。受这一现象的启发，我们提出一基于数据集的几何特性的诱发检测方法。在该方法中，我们通过数据复杂度来描述数据集的几何分布。Ho等人在文献[70]中提出了12种不同的数据复杂度度量方法，它们能很好地描述一个数据集的几何分布特性。目前，数据复杂度已经被广泛应用到多个领域，如对给定的分类问题判断哪种类型的分类器适合解决该问题[71]以及度量不同类型的分类器在不同分类问题上的优势[72–74]。通过分析无数据集和有数据集之间的几何分布差异，我们能判断一个数据集是否被。在这一章中，我们研究对抗学习中具有代表性的翻转诱发，其中包括随机翻转（RandomLabelFip，最近优先翻转（Nearet-frstLabelFlp，最远优先翻转（Furthet-firtLabelFlp，对抗性翻转（AdversaralLabelFlp33]和最远-旋转翻转（Fr-rotateLabelFip[25]。我们首先研究目前的数据复杂度度量方法能否有效地区分无和有的数据集。接着，诱发检测被定义为一个二分类问题。其中每一个数据集都由数据复杂度的不同度量方法所组成的特征向量来表示。由于RBF核的支持向量机在二分类问题上表现出很好的性能，我们用来训练分类器从而判断一个数据集中是否存在诱发。此外，我们还会把二分类问题扩展到多分类问题上，从而进一步预测者使用的诱发的华南理工大学博士本章余下部分的组织结构如下：2.2小节介绍了翻转诱发。2.3小节详细地分析了12种不同的数据复杂度度量方法。2.4小节通过一个简单的例子来描述了数据集被诱发后几何特性的改变，以及数据复杂度是如何捕获这种变化的。2.5小节建立了基于数据复杂度的诱发检测模型。实验结果及相关分析在2.6小节中展示。最后，2.7小节对本章所做的工作进行总结，并介绍未来的研究方向。翻转诱发目前模式识别技术已经被应用到许多安全相关的应用中。在这些安全应用中，者的目标是通过修改训练数据来降低系统的性能。者和防守者之间构成一种互相竞争的关系。它们不断地考虑对方的策略并提出相应的防守措施[17,18]。者通过探索安全系统所存在的来设计新型的[12,19]，而防守者通过筛选训练样本（如数据过滤[20–22]和提升分类器对的鲁棒性[23–25]来对抗。近年来出现了许多翻转诱发。这些方法假设者能够获取系统的训练集。他们的目标是通过向训练集中加入精心设计的噪声来误导分类器学习，从而降低分类器的分类准确率。其强度是由被样本的百分比来定义的。目前已有许多翻转诱发，其中包括随机翻转，最近优先翻转，最远优先翻转，最远-旋转翻转和对抗性翻转25,33]。随机翻转随机地选择训练数据中的样本，并把它们的改为另一类的。这种相当于向数据集中加入随机的噪声。最近优先翻转篡改离决策超平面最近的样本的。这种攻击使得决策边界更复杂。与此相反，在最远优先翻转中，者优先翻转离决策超平面最远样本的。Biggio等人提出一种针对SVM的较为先进的对抗性翻转，即最远-旋转翻转[25]。这种选择距离SVM分类超平面和一个随机超平面最远的样本作为攻击样本。与最远优先翻转不同，最远-旋转除了考虑样本点与SVM决策超平面的距离外，还额外地考虑到它与一个随机的超平面的距离。这样做的目的是为了使分类器在改动后的数据上学习到的分类超平面尽量旋转更大的角度。详细的过程如算法2-1所示。Xiao等人提出了另一种先进的对抗性翻转[33]。这种目的是最大化用有数据(D′={(xi, )所训练的SVM在无数据集(D={(xi, ) 第二章基于数据复杂度的翻转诱发检算法算法2-1:最远-翻输入数据集D{(xiyi)}ni=1L;RSVMC;λ1输出:被的数据集D′用无数据集D训练一个SVM得到α和D中的每一个样本计算：si=si=si/max(s1,...,fork:1→R

j=1yjαjK(xj,xi)+b)，并进行归SVMαrnd为D中的每一个样本计算：qi=yi yjαrndK(xj,xi)+brnd)，并进行归一化qi=qi/max(q1,...,

D中的每一个样本计算权重：vi=αi/Cλ1si−k翻转L个具有最小权重的样本的，生成新的被数据集D′kk用D′训练一个SVM并计算它在数据集D上的误差kkreturnekDk的分类误差。为了简化算法，该方法通过D中的每一个样本并翻转其来得到扩展的数据集U{(xi,yi)}2n。其中当i=1,...,n时，(xi,yi)∈D；当i=n+1,...,2n时，xi=xi−n,yi=−yi−n。该可以转化为以下的优化问题：

1∥w∥2+

iqi(ξi—i

s.t.yi(wTxi+b)≥1− ξi≥ i=1,...,

qi≤ (2-qi+qi+n=1, i=1,...,n,qi∈{0,1}, i=1,...,2n,其中w，ξ，b和C分别是用无的数据集所训练的SVM的权重向量，松弛变量，差和惩罚参数。ξiD=max(0,1−yifD(xi))是样本(xi,yi)在用无样本训练的分类(fD)上的铰链损失（HingeLoss）。q是一个二值向量，它控制翻转哪些样本的。华南理工大学博士制条件qi+qi+n=1确保样本xi只能有唯一的。L表示翻转样本的数目。公式(2-1)的问题可以拆分成一个线性规划和一个二次规划问题，并通过迭代的方法来求解出向量q，从而判断出翻转哪些样本的。数据复杂数据复杂度[707275] 通过数据的几何特征来度量一个分类问题的程度。目前数据复杂度已经被应用到多个领域[73,74,76–78]中并表现出很好的性能。例如，在训练分类器前，数据复杂度能预测分类器是否适合给定的分类问题[71]。其次它还能应用在度量单个分类器[72–74]和多分类器[75,79,80]在分类问题上的优势领域。在这一小节中，我们会简单地介绍12种不同的数据复杂度度量方法。由于其中一种度量方法T2不适用击检测，我们只会利用到其中的11种度量方法。这是因为T2计算特征数目和样本数目的比例，而翻转不会改变这一比例。因此数据集在前和后，其T2值都不会改变。数据复杂度被分成三种不同的类型[70]：特征值的重合程度，类别的可分基于特征值的重合程度的度量特征的可分性可以通过特征在不同的类别中的重合率来度量。如果在一个分类问题中，不同类别的特征存在很大的重合度，那么这是一个比较的分类问题。因为通过特征无法区分不同的类别。Fisher(F1)用最具区分度的特征来表示类别的可分性。每一个特征jFisher判别率定义(µ(c1)−fj= j

(2-σ(c1)2+σ(c2) µ(c1),µ(c2),σ(c1)σ(c2)c1c2j 当类间距离较小以及同一类中样本比较分散时，类间的重合区域较大。F1定义为：F1=max (2-j一个大的F1表示至少存在一个特征能够很好地区分不同的类别。重合区域的体〟(F2)通过重合区间（即具有不同类样本的区间）来表示类别的可分性。F2 基于每个特征中不同类别重合区间的宽度和所有样本特征值的跨度之间的比第二章基于数据复杂度的翻转诱发检例来计算重合区域(d

(c2)

(c2)F2

∏

)−

)),

(2- max(x(c1)),max(x(c2))− min(x(c1)), x(c1)x(c2)c1c2j个特征向量，d 大的F2表示不同类别间的重合区域比较大，说明这是一个的分类问题最大（单个）特征效能(F3)考虑最大的特征效能，即在所有特征中，位于重合区间以外样本点的比例的最大值。一个较大的F3表示至少具有一个特征能够区分大部分基于类别可分性的度量方法基于类别可分性的度量方法用数据的线性可分性(L1L2)和类边界的复杂度(N1,N2和N3)来表示分类问题的程度线性规划的最小误差(L1)是每个被线性分类器错分的点到分类超平面的距离的总和，即一个线性规划中的目标函数的值[81]。与此相似，线性规划的误差率(L2)计算L1中定义的线性分类器的训练误差率。类边界样本比例(N1)首先在不管样本的类的情况下，使用数据集中的所用样本构建一棵最小生成树(MST)，接着计算与其他类别样本相连的样本数目和样本总数目之间的比例作为N1的值。N1描述类边界的长度。N1具有较大的值表示许多样本位于类边界附近，此时类边界较复杂。平均类内/类间最近距离比例(N2)是所有样本到最近的同类样本的距离的总和与到最近的异类样本的距离的总和之间的比例。我们用(xi,yi)表示第i个样本，其中xiyi分别是样本的特征向量和类。那么N2可以通过以下计算 min{dist(x,x

=y,j=1,2,...,n,i̸=N2

(2-

min{dist(xi,xk)|yi̸=yk,k=1,2,...,dist(xixj)xixj之间的欧氏距离，nN表示样本点离同类的样本比较远而离异类的样本比较近，这说明该分类问题较最近临分类器误差率(N3)是最近临分类器在留一交叉验证（Leave-one-outCross的距离近。N3具有较大的值表示不同类别的样本是互相交错的。华南理工大学博士基于流形的几何，拓扑和密度性质的度这种类型的度量方法假设一个类是由一个或多个流形组成的。这些度量方法通过流形的形状，位置和互联性来间接地度量类别的可分性。线性规划的非线性可分性(L3)是用原始数据来训练的线性分类器在通过线性插值的人工构造的测试集上的误差率。这个人工构造的测试集是在原始数据中随机选取两个样本并用随机的系数进行线性插值所产生的新样本点所组成的。当数据集中不同类别的样本互相交错时，L3的值较大。与L3相似，最近临分类器的非线性可分性(N4)是用原始数据训练的最近临分类器在通过线性插值而人工构造的测试集上的误差率。一个较大的N4表示数据集中不同类依附性相关子集保留的样本点的比例(T1)通过依附子集来描述流形的形状。依附子集是以每一个样本点为中心并不断扩大其半径直到接触到其他类别的样本点为止的一个超球体。T1是在去掉完全位于其他超球体里面的冗余超球体后，需要覆盖所有样本的超球体的数目与总样本数目之间的比例。当不同类的样本间的距离较小时，超球体的半径会比较小，因此需要的超球体来覆盖样本，从而导致一个较大的T1。在这种情况下决策边界的形状比较复杂。每维的平均样本数目(T2)是样本点的数目和样本点特征数目之间的比例。本文将不使用这一个度量方法，因为翻转诱发不会改变样本的数目和特征的数目。诱发所引起的几何特征变化的例在诱发中，者修改训练样本从而误导分类器的学习。这导致被的训练集与没被的训练集间存在不同的几何特征[39,62]。通过数据复杂度能够很好地捕获到这些差异，从而判断一个给定的数据集是否存在。我们用一个简单的例子来说明诱发是如何改变数据集的几何特征。同时，也分析数据复杂度如何捕获这些变化。首先，我们构造一个二维的人工数据集。数据集中有两类，每一类分别具有200个样本。这两类的样本都服从一个高斯分布，它们具有不同的均值（µ+=[0.4,0.5]和µ−=[0.8,0.5]）和相同的标准差（σ+=σ−=0.1）。没的原始数据集如图2-1a所示。线性SVM（C=1）的决策边界用实线来表示。原始数据集中的10%样本被翻转(Rand)，最近优先翻转(Near)，最远优先翻转(Far)，最远-旋转标签翻转(Far-rotate)和对抗性翻转(MaxErr)，第二章基于数据复杂度的翻转诱发检如图2-1b-f所示。在图2-1e中，最远-旋转

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

对抗环境中鲁棒的机器学习及其应用

文档简介

温馨提示

最新文档

评论

对抗环境中鲁棒的机器学习及其应用

文档简介

温馨提示

最新文档

评论

相关文档