PP流量识别问题初探.ppt_第1页
PP流量识别问题初探.ppt_第2页
PP流量识别问题初探.ppt_第3页
PP流量识别问题初探.ppt_第4页
PP流量识别问题初探.ppt_第5页
免费预览已结束,剩余34页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

P2P流量识别问题初探 周骏2007 5 26 内容提要 研究背景研究现状分析与探讨小结 研究背景 与传统的分布式系统相比 P2P技术的分布化程度 可扩展性 健壮性 性价比 负载均衡能力等都表现得更加优秀 客观来说比较适合现有网络结构 因此 P2P应用在近年来得到了迅猛的发展 P2P流量在Internet流量中占据的比例越来越重 仅仅靠提高网络容量很难应对这种局面 有效的解决办法是研究和发展P2P流量的识别和过滤技术 Cont P2P技术正是在不断地挑战中生存并发展的 它不断采用新的技术隐藏传输行为 躲避运营商的识别 动态端口应用层隧道加密传输采用分布式散列表 DistributedHashTable DHT 技术提高分布化程度 研究现状 P2P流量分类和识别主要分为4种类型 基于端口识别基于应用协议特征字识别基于行为特征的启发式识别基于机器学习方法的分类和识别 基于特征端口的识别 通常 基于特征端口来识别网络流量和应用是最为简单并行之有效的方法 随着端口跳变 信息隐藏等技术的广泛采用 这种识别方法已经不再适用于P2P流量的识别与检测 基于应用协议特征字的识别 优点在于识别的准确率高 可在线处理缺点在于需要获取分组的应用层负载 对处理效率的影响较为严重涉及到隐私保护等法律问题对于采用了信息加密传输的应用无法识别应用协议的特征字提取比较困难应用协议升级后 必须重新提取特征字无法识别新应用 Cont Haffner Sen等人提出了自动构造应用特征字的一种方法 AutomatedConstructionofApplicationSignatures ACAS 采用机器学习技术 使用预先分类好的样本数据对分类器进行训练后 可以用于应用特征字的自动提取是一种新的思路 但该方法还不够成熟 基于行为特征的启发式识别 综合利用流的属性 统计特性以及流的行为特征 按照启发式规则对流进行分析 达到对P2P流量分类和识别的目的 优点是 不依赖于流的应用层报文内容 用于分析的测度及其导出指标容易获取 因此便于工程实现和应用 缺点是 分类和识别的结果不是确定性的 而是基于概率的结果 因此方法的精度取决于P2P应用特征的显著程度和启发式规则对这种特征的覆盖能力 此外 这类方法用于分类效果较好 用于单个P2P应用识别还有待进一步研究 代表性方法 T Karagiannis A Broido M Faloutsos andK claffy TransportLayerIdentificationofP2PTraffic inIMC 04 Taormina Italy October25 27 2004 根据少量的运输层首部信息 使用两种启发规则来进行P2P流识别 该方法只能用于事后分析 可识别出90 以上的P2P流量 表明了基于流的运输层行为特征也可以进行流量识别 摆脱了基于应用协议特征字进行识别时所面临的困境 Cont BLINC方法 参见程磊论文 结合流的属性和参与特定应用时主机的行为特征 进行P2P流量识别提出了主机行为特征的社交层 功能层和应用层描述6条启发式规则可以对80 90 的流量进行分类 准确性高于95 Cont Cross Layerpeer to peertrafficidentificationandoptimizationbasedonactivenetworking 主动网络技术基于小波分析的模式检测方法P2P测量 识别和优化的架构 跨层协作的P2P识别和优化方法eDonkeyvsFTP分组到达间隔时间 分组大小模拟结果表明 在进行了6层小波包分解后 在1 3 6层两种协议的差别非常显著 Cont F Constantinou等 IdentifyingKnownandUnknownP2PTraffic P2P应用中存在的两个特征进行识别 覆盖网络直径大 参与主机既是客户机又是服务器 该方法具有较好的性能 使用普通PC机 处理速度高于200 000pkt s 但是精度还有待进一步提高 4个验证数据集平均情况下 漏报率在10 左右 覆盖网络直径的近似计算方法 Cont DanielStutzbach RezaRejaie UnderstandingChurninPeer to PeerNetworks IMC 06 October25 27 2006 RiodeJaneiro Brazil 波动特性指的是成千上万个peer点相互独立的到达和离开行为造成的整体效应 利用 爬虫 技术对Gnutella 非结构化的 Kad 采用DHT 进行测量 采集了样本数据集 利用BitTorrent 内容分布式 的日志工具采集了BT的样本数据集 Cont 关于churn的结论不同P2P系统的全局动态性非常相似会话长度并不遵从指数分布大部分Peer点是高度稳定的 少数Peer点则快速地变化Peer点在连续出现时 其会话长度是相关的 基于机器学习的分类方法 两个过程 模型的训练过程和使用模型进行分类的过程无指导的机器学习方法首先对分类识别对象进行聚类 然后按照聚类的结果产生分类器有指导的机器学习方法 通常使用一个迭代计算过程 借助于预先分类好的样本数据集进行学习 直到满足结束条件时结束学习过程 产生分类器 无指导的机器学习方法 基本思路 产生的分类取得较好的类内相似度和较好的类间相异度时训练结束 并产生分类器对监测到的流进行分类识别使用聚类算法 基于运输层的统计信息 分组大小的统计值 到达间隔时间的统计值 字节数 连接持续时间等 进行聚类并产生分类器EM AutoClass K Means DBSCAN 基于密度的空间聚类算法 Cont 准确度采用AutoClass算法 模型建立时间长 全局精度高采用DBSCAN算法 产生的聚类簇少 但精度高 适合于针对单个应用类的流量识别采用K Means算法 全局精确度稍差于AutoClass 但速度远快于AutoClass 有指导的机器学习方法 分类算法 最近邻 朴素Bayes等 后者具有较好的精度人工神经网络 SOM SelfOrganizingMap 自组织映射 M Crotti M Dusi F Gringoli L Salgarelli TrafficClassificationthroughSimpleStatisticalFingerprinting Cont 基于协议指纹的分类方法思想 相同应用协议产生的流 达到一定数量时 它们的统计信息足以用来表征该应用协议提出了协议指纹 protocolfingerprinting 的概念分类引擎中包含一个协议指纹库分类引擎计算到达流与协议指纹库中各指纹的偏离程度 据此进行判定 分析与探讨 局限性技术难点研究动向基本思路 局限性 基于应用特征字的识别方法计算量大 自适应能力弱 应用协议特征字分析提取的难度大 自动化程度低 协议演化后需要重新析取 不能识别采用了加密技术的应用 基于应用行为特征的方法各有千秋 无论是基于启发式规则进行推断 抑或是采用机器学习技术进行自动分类 其结果是 在识别一类应用时精度尚有保证 但是无法用于准确识别具体应用 Cont 共性问题只注重P2P应用的单个方面的特性 系统研究P2P应用后 是否能够发现这些方面具有的某种联系 如果这样 就能够综合利用P2P应用各个层次的信息 进行跨层设计 以进一步提高识别和分类方法的准确性 多数方法是基于数据包进行检测的 方法的可用性在高速网络环境下面临严重的挑战 基于流的高效实时识别和分类方法更有研究价值和现实意义 技术难点 研究基础部署监测设施进行流量采集 利用采集到的数据集展开研究和分析是当前的一种主要做法 然而部署监测节点受多方面因素制约 并且不同观测点采集到的流量数据差异性较大 这种做法可能会影响到分析结果的普适性 一种可行的变通方法是利用学术界现有监测设施提供的trace文件 但是大多trace文件共享前对地址 负载等进行了处理 因而 直接利用这些trace文件也并不乐观 Cont 对方法进行准确性评价的问题 通常的做法是 对用于评估该方法的样本数据集进行预先分析 然后以此作为参照 对该方法的结果进行评价 由于这种预先分析过程的精度直接影响评价结果 因此预先分析的结果必须是确定性的 对海量的样本数据集进行确定性的预先分类是强度非常高的工作 如何高效精准地获得评价样本数据集 Cont 提高方法的实时性方法的实时性是决定方法是否有工程应用价值的关键指标之一 当前研究工作重点在于解决方法的准确性问题 实时性方面考虑不够 方法的实时性一方面取决于采用的特征属性集是否能快速提高可区分性 另一方面也需要提高算法的效率和降低计算的复杂度 有效降低存储耗费也是提高方法实时性的必要途径 Cont 提高方法的健壮性主要是指方法可应用的范围和方法持续有效的时间 该方法不受部署位置的影响 例如即可有效应用于边界网络也可有效应用于骨干网络该方法对于现有P2P应用的演化 新的P2P应用的推出具有良好的适应性和扩展性 研究动向 主动测量方法和被动测量方法有效结合 针对特定P2P应用提出系统的测量方案 综合利用P2P应用各个层次的信息 进行跨层设计 以提高识别和分类方法的准确性 基于NetFlow流研究P2P应用识别和分类方法如果可行 将大大提高方法的可用性 降低实现成本 市场前景更为广阔 Cont 引入数据流技术和发展数据流上的在线数据挖掘技术 对于提高P2P应用识别和分类方法的实时性也值得展开相关研究 研究基于策略或者基于插件技术的P2P应用识别和分类框架 对于提高方法的健壮性和扩展性也有一定的帮助 基本思路 Peer点进行应用初始化 加入覆盖网络的阶段 应当具有很强的可区分性集中式 纯分布式 或者是混合式的覆盖网络 其不同之处是基于内容分布的应用层路由方式不同 采用集中式和混合式覆盖网络的P2P应用 普通Peer点进行内容路由的过程实际上是一个重定向的过程采用纯分布式覆盖网络的P2P应用 这一过程实际上是一个基于本地计算后按照策略转发的递归过程 无论采用上述哪种结构的覆盖网络 无论通信过程是否采用了加密技术 节点在加入覆盖网络这一阶段的通信过程 必然具有针对性 换句话说 必然会与某些特定目标节点建立连接 接收并更新覆盖网络的拓扑信息 Cont 综合利用主 被动测量技术采集数据 充分利用数据挖掘等技术提高离线状态下协议分析的准确性和自动化程度 有效提取P2P应用的流量特征和行为特性 研究基于数据流管理系统的网络流在线分析的方法和手段 以提高实时在线识别和分类的效能 其中涉及到概要数据结构设计和提高连续查询算法精度的问题 以及发展数据流管理系统的在线数据挖掘技术 Cont 基于策略的P2P应用识别架构出发点之一是为识别系统提供自适应特性 这种基于策略的架构将对识别方法的控制和识别方法本身分离开来 本质上提供了一种独立于识别方法和P2P应用的调度和控制机制 出发点之二是能够将初始化阶段的识别算法以及结果和基于流量特征与行为特性的识别算法以及结果综合加以利用 互为补充 以期获得更高的准确性和实时性 小结 概述了P2P流量识别问题的研究进展对该研究问题的局限性 技术难点和未来研究方向进行了探讨提出了自己的研究思路 参考文献 1 SenS WangJ Analyzingpeer to peertrafficacrosslargenetworks In Proc ofthe2ndACMSIGCOMMWorkshoponInternetMeasurementWorkshop 2002 2 KaragiannisT BroidoA BrownleeN ClaffyKC FaloutsosM IsP2Pdyingorjusthiding In Proc oftheIEEEGlobecom2004 2004 1532 1538 3 S Sen O Spatscheck andD Wang Accurate ScalableIn NetworkIdentificationofP2PTrafficUsingApplicationSignatures inWWW2005 NewYork USA May17 22 2004 4 A MooreandK Papagiannaki TowardtheAccurateIdentificationofNetworkApplications inPAM2005 Boston USA March31 April1 2005 Cont 5 P Haffner S Sen O Spatscheck andD Wang ACAS AutomatedConstructionofApplicationSignatures inSIGCOMM 05Workshops Philadelphia USA August22 26 2005 6 T Karagiannis A Broido M Faloutsos andK claffy TransportLayerIdentificationofP2PTraffic inIMC 04 Taormina Italy October25 27 2004 7 T Karagiannis K Papagiannaki andM Faloutsos BLINC MultilevelTrafficClassificationintheDark inSIGCOMM 05 Philadelphia USA August21 26 2005 Cont 8 DedinskiI MeerHD HanL MathyL Cross Layerpeer to peertrafficidentificationandoptimizationbasedonactivenetworking In Proc ofthe7thInt lWorkingConf onActiveandProgrammableNetworks 2005 9 FivosConstantinou PanayiotisMavrommats IdentifyingKnownandUnknownP2PTraffic 10 DanielStutzbach RezaRejaie UnderstandingChurninPeer to PeerNetworks IMC 06 October25 27 2006 RiodeJaneiro Brazil 11 A McGregor M Hall P Lorier andJ Brunskill FlowClusteringUsingMachineLearningTechniques inPAM2004 AntibesJuan les Pins France April19 20 2004 Cont 12 S Zander T Nguyen andG Armitage Self LearningIPTrafficClassificationBasedonStatisticalFlowCharacteristics inPAM2005 Boston USA March31 April1 2005 13 ZanderS NguyenT ArmitageG Automatedtrafficclassificationandapplicationidentificationusingmachinelearning In Proc oftheIEEE30thConf onLocalCom

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论