网络电子商务外文翻译外文文献英文文献SMTP路径分析_第1页
网络电子商务外文翻译外文文献英文文献SMTP路径分析_第2页
网络电子商务外文翻译外文文献英文文献SMTP路径分析_第3页
网络电子商务外文翻译外文文献英文文献SMTP路径分析_第4页
网络电子商务外文翻译外文文献英文文献SMTP路径分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、smtp 路径分析摘要大部分域名认证的支持者建议合并域名认证和信誉服务.这篇论文为你介绍一种学习邮件域名和ip地址声誉的新算法,它以分析传输已知的垃圾邮件和好邮件的路径为基础它将产生一个有效的算法来提供合并域名认证需要的信誉信息,以此来进行过滤的决定这个算法实现了许多由域名认证系统提供的有益的服务,如黑名单服务,白名单服务,不需要任何基础设施成本和首次展示的需要 简介验证发送邮件域名的机制已经变得越来越普遍,规范而且受到激烈的争论最短路径优先算法的目标,访客id,发送者id基本上是相同的它们都被设计为通过使域名所有者发布一个包含外发邮件服务器的名单来阻止”欺骗”通过这些测试的消息可以可靠的与一

2、个参与发送消息的域名关联然而这个信息不能充分的过滤垃圾邮件此外,想知道一个负责任的域名,垃圾邮件过滤需要了解哪些域名发送垃圾邮件因此大多数域名认证的支持者建议合并域名认证和信誉服务这篇论文为你介绍一种学习邮件域名和ip地址声誉的新算法,它以分析传输已知的垃圾邮件和好邮件的路径为基础此信息结合一个新算法用于过滤欺骗性邮件标题,以确保垃圾邮件发送者不能规避分析。其结果是一个有效的算法,它提供域名认证所需要的信誉信息用来做过滤决定.有趣的是,该算法的分析表明,部分或大部分域名认证系统,黑名单,白名单所得到的优势,可以通过本地学习而不需要大量的采取域名认证或者第三方的黑白名单服务.我们描述的算法只使用

3、来自收到的邮件的头部中的标准”收到”行中提到的ip地址,来分析此消息是否是垃圾邮件.这是一个学习算法,在此算法中我们假设它在一种具有代表性的根据选定的ip地址分类的邮件上锻炼.隐含在此算法后的直觉是来自相同或相似ip地址的邮件很可能享有共同的分类.实验证据证明,此直觉是正确的.该算法在识别垃圾邮件或者非垃圾邮件上是非常精确的,但是它不能准确的标记含有资源很少的网站.对于其他的,使用其他技术比如朴素贝叶斯或者重桂的筛选器可以更精确的区分.例如,虽然smtp路径分析不如普通使用了贝叶斯的垃圾邮件筛选器精确,它认为贝叶斯筛选器处理的信息通常最优,在那个领域的那些方面它做的更好.其结果可以纠正贝叶斯筛

4、选器做出的错误评估,而贝叶斯筛选器可以在数据信息不足的时候做有效的路径分析.一个聚合的分析器使用两种结果比只用其中任何一个结果更有效.比较这种方法和域名验证计划如spf是非常有趣的.spf让一个域名声明它的传出邮件网关.如果spf信息是正确的所有通过那个域的邮件必须通过这些网关.如果一个消息通过spf检查,而且主要的域不发送垃圾邮件,那么直接通过这个邮件通路传给用户是安全的.由于垃圾邮件发送者同时也注册了域名发布了spf记录,我们不能假设通过spf验证的邮件来自于无垃圾邮件的域名.这就需要一些方法来决定这些域名的信誉.这里所描述的算法直接使用ip地址,建立了它们的信誉,有时候基于附近的ip地址

5、,而不是由一个外部的声明集对它们进行分组然后根据分组学习它们的信誉.在这一点spf拥有的主要的优势是:1 spf可以将不同的地址分到一个组,所以为这个组产生一个信誉信息会需要较少的信息.2 spf,明确的说明这些范围的边界.spf或许可以声明另一种优势,在这种优势里它可以(如果声称的发送域发布了spf)区分通过合法的网关发送的邮件和从僵尸进程直接发往互联网的邮件.然而我们的算法事实上擅于识别合法的网关以及筛选直接从僵尸进程主机(或者”僵尸网络”;查阅honeynet, 2005)发送的邮件,所以这个优势并不会像它被认为的那样优秀.spf信息无疑可以在适当的时候和我们的算法结合,如果不结合那么我

6、们的算法将依靠自己.注意,虽然spf在声明的域名没有发布spf信息的时候不能识别任何东西,但是我们的算法可以从发送路径来学习而不管什么域名被声明为信息源.这篇论文剩下的部分包括此算法更详细的描述-对我们所做实验的解释,对实验的讨论以及我们的结论.2 收到的头部smtp协议指定,每个用于发送邮件信息的smtp中继必须在消息头部列表中添加”received”行,包括(至少)收到消息的服务器的信息和从哪里收到的消息,以及一个说明添加头部时间的时间戳.这些头部共同提供了用于传递消息的smtp路径的记录.然而,收到消息中的smtp路径信息不能完全相信.消息头部没有署名或者以任何方式验证,所以很容易被伪造

7、.沿路径的任何smtp服务器可以插入虚假头部,使此消息好像来自发送者选择的任何一个路径.尽管如此,某些收到的消息的头部是可信任的.例如,所有你自己的域的入站smtp服务器添加的头部是可信任的.一个网站可能也信收到的由经常合作的组织产生的行,假设它们可以识别这些组织的出站服务器.但是,一旦隐含的收到的行中的smtp路径指向一个未知的或者不可信任的服务器的时候,那么声称的剩下的smtp路径信息不可信任.就像下面所讨论的,开发一个根据收到的行进行分析的有效的垃圾邮件筛选器的一个关键挑战就是决定哪些记录在收到的行中的smtp路径信息是可信任的.3 算法smtp路径分析通过根据以往发自此ip的邮件的记录

8、来学习ip地址的优良来进行工作. 该算法的学习阶段需要一套预归类是为垃圾邮件或非垃圾邮件标记的邮件作为输入 .学习算法提取每个消息中的ip地址序列,这些ip用来到达消息接收者,并且记录ip地址的数据.在它的分类阶段,此算法提取目标信息的ip序列,然后根据可能用于传送此消息的网关的ip地址为这个消息产生一个评分. 该分数可以经过一个阈值,产生或不产生一个垃圾邮件的分类,或者可以作为聚合筛选器的输入.此算法不考虑其它信息;特别的,它不另外的分析消息的内容或者考虑任何域名信息.在我们的算法的大多数基本形式中,为每个ip地址收集的数据只是简单的垃圾或者非垃圾邮件出现的次数.这些计数然后就被用于估计一个

9、经过任何以前的ip地址的邮件是否是垃圾邮件.概率估计是顺利的而且对纠正小样本是有必要的.在分类中,我们观察被用来传递消息的ip地址序列,根据我们有充分数据的链中最后一个ip地址分配给这个消息一个分数.在以上的算法轮廓看似合理之前有两个问题必须解决:1. 很多机器(尤其是那些在链开始的位置,它们可能是僵尸电脑或者垃圾邮件制作者链接到它们的服务提供者)不具有固定的ip地址,看到相同的训练集中的ip地址就像我们嫩试图分类的消息的概率比我们想象的小.2. 上述技术容易被欺骗.那就是这个消息可能来自一个平凡的ip地址,这个机器可能声称它正在传递一个来自合法发送者的消息.当没有充分的数据来给当前ip地址做

10、一个可信任的决定的时候我们通过结合当前ip和那些附近ip的数据解决动态ip问题.有多种可用于此目的的”附近”的定义.我们的解决办法是建立一个我们目前所看到的ip地址的树.树跟节点有256个子树.每个子树对应一个ip地址第一个字节 可能的变化.反过来,每个子树拥有256个子树,每个子树对应于一个ip地址第二字节可能的变化.对于第三第四自己都是一样的,当然随着我们走到树的下部,分支变得稀疏,产生一个带有少于232个节点的树.在每个节点n我们存储垃圾邮件的数目,sn以及非垃圾邮件的数目nsn此节点所代表的 ip地址或者范围已经出现了.一个概率将被计算出来,用来衡量此节点有多么普通,概率是sn/(sn

11、+nsn):垃圾邮件数目除以通过此地址或者此范围的邮件总数.我们不能简单的按照这个概率的样子来使用它,再一次,这里有两个问题:1.我们试图为内部节点记录的是可以在我们得到一个ip地址但是在此节点下没有完全匹配的情况下帮助我们的信息.那个值应该受到平均ip子集的变化的影响,而不是受到这些范围内某些特定的ip的变化的影响.这可能非常重要在这个情况下,这些ip被垃圾邮件制造者使用,但是此范围总的来说不是这样,所以我们平均子节点的活跃性,而不是根据通过他们的邮件总数来衡量.2.如果一个节点只看到一片垃圾邮件和没有非垃圾邮件 ,那么下一条消息是垃圾邮件的可能性不是100%.我们解决两个问题的办法是我们计

12、算出该ip地址的评分.我们加一个0.5分的人为的新根 .我们多次到达包含实际ip的子树如果有一个可用的话.在该子树我们计算了他的子树和父节点的平均值.也就是说,如果有9个子节点,我们采取10个节点的平均:父节点和9个子节点。对于叶节点我们采用父节点和由包含此叶节点的消息总数的叶节点的比率的平均值.当然,有时候我们没有到达一个叶节点,如果我们从来没有在我们的训练集中见过这种确切的ip地址.当我们收到一个新消息,我们查看每个ip地址,从最后一个ip开始-最靠近我们收消息的机器的地址.我们计算它的分数,一个介于0和1的数字,然后与下一个地址的分数结合起来.我们采取了两个ip地址spamminess加

13、权平均,使用的权等于1/(秒*(1 - s)的其中s是上述spamminess .其理由是,一个ip地址很可能是垃圾邮件或非垃圾邮件是一个邮件的本质的较好的指标- 即分数最极端的的地址是计算的最重要部分.我们持续使用这种将目前的平均成绩和下一个ip垃圾性相关联的计算方法一直到最后结束.如上所述,上述技术容易受到欺骗 .如果垃圾邮件发送者通过伪装来欺骗我们的算法,这些来自垃圾地址的邮件会显示为来自合法的地址.为了解决这个问题, 我们为每一个中间地址建立一个信誉值,如果地址是不可信的,我们至少可以部分地忽略剩余的地址.经过算法的实验我们发现了两个有用的改进.我们发现,在实践中,如果在我们的训练设置

14、的ip地址有任何序列完全匹配,当我们只找到一个内部节点的时候,它是一种比上面给出的分数更好的指标. 因此,我们给予精确匹配更多的权重. 我们发现,在产生消息的地址和作为网关的地址之间有一个区别,我们将源地址和中间地址分开统计. 在我们方面,当ibm公司开发了互联网的存在,大多数以前有过互联网电子邮件地址的研究所的用户,从研究所的内部网关转移到全体范围的网关是很缓慢的.由于垃圾邮件的增加,研究网关现在似乎很少被用于合法邮件-通过这些网关其中之一的邮件98%是垃圾邮件,但是一些研究人员仍然在使用它.因此,从那里传向ibm的其他部门的邮件将被标记为可能为垃圾邮件.,根据接对收到的行的分析.我们通过将

15、最后一个ip(被推测为源站点)的数据和其它地址的数据分开来修复这个问题.因此,如果一个地址范围收到的垃圾邮件很多,但以它附近的地址为源的所有邮件都是好的,那么我们给它一个好成绩.4 实验方法我们的实验是针对一个数据库,这个数据库是从一个包括两百名成员的国际组织中收集来的,其中含有约170000封邮件.这些邮件最初被标记为请求用户对进入他们垃圾邮件文件夹的垃圾邮件和正常邮件进行投票. 200名用户全部是ibm的员工,他们知道这些信息将被用于研究目的.我们的数据库得到了进一步的“净化“采用了类似的技术,包括相似信息的分类和处理异常值. 我们一直注意不要在清理我们的数据库的过程中使用我们正在研究的算

16、法和类似的技术. 然而,在我们的评价中小数量的明显错误已得到纠正. 这种情况的数量很少,不会大幅影响整体效果. 5 实验结果图1使用标准的roc曲线比较了smtp路径分析的和传统的朴素贝叶斯分类器的性能.图中所示的算法产生一个评分,而不是产生一个黑白名单的结论. roc曲线显示不同组合的垃圾邮件捕获率和假阳性率,这些概率可以通过选择阻断垃圾邮件的不同的分数阙值来实现.smtp路径分析分类器的执行效果是非常好的,捕获到一千封中所有假阳性率小于1的垃圾邮件的70%.与现在的spf和dnsrbl黑名单所能做的工作相比这毫不逊色. 然而,它的性能随着现在基于贝叶斯的反垃圾邮件过滤器所能做的工作而下降.

17、关于smtp路径分析有趣的是,它发现垃圾邮件的方法和贝叶斯文本分类的方法毫不相关.smtp路径分析只根据邮件如何被路由而做决定,完全忽略邮件内容. 同样地,典型的贝叶斯分类器无法有效利用受到的行头,因为它对邮件如何被路由的一无所知. 其结果是,利用分类聚合技术结合这两种算法可以相当成功. 图1:smtp路径分析的roc曲线图1还显示了结合贝叶斯和smtp路径分析用线性回归聚合(西格尔,2005年)的性能. 结果表明该smtp路径分析,可以减少一半任何给定的假阳性率垃圾邮件错误的数量.图2,下页,显示四行. 红线是5000训练和5000测试; 蓝色的虚线显示每个10,000; 绿色显示每个400

18、00; 黄色的是全部数据库中所有的在测试桶中的85000封邮件和在训练桶中的85000封邮件. 正如从图中可以看出,该算法的尺度非常好. 结果表明数据的每翻一番该算法的准确性大约翻一番. 该算法也很有效的,因为它只观察消息的一小部分. 因此,它可以作为一个更复杂的算法的非常有用的预过滤器.6 讨论和比较目前还没有标准的企图用更少的活动得到更好地处理有关谁发送的电子邮件的方法. 最相关的活动在身份验证领域, 而且在邮件跟踪头的标准的改进活动中. 其中许多活动可以,一旦被实施和广泛的应用,与上述观点结合起来协同工作.在我们解析接收到的行的过程中,我们经常发现失踪的ip地址.现行标准将收到行头中的i

19、p地址作为可选的元素. 如果网关不包括一个ip地址,我们就忽略它,不能获得该一跳的信息. 这样看起来,一个垃圾邮件制造者可以只设立一个不包括ip地址的设置,然后这垃圾邮件发送者将逃避一些东西.终止它的是这样的现实,接收网关它的网关地址放入接收行中,它将在这里被拾起,我们将知道它是一封垃圾邮件. 然而,包括一个简单到ip地址解析的方式的标准将使我们的工作要容易得多.图2:缩放的smtp分析我们的实验使用的ip地址范围,在字节边界划分,已经产生了非常有益的成果. 很明显,虽然,这并不总是正确的方法来确定ip地址的关系. 我们计划用树结构的进一步实验,允许将ip地址范围内的字节处进行划分(例如,处理

20、一个的子网掩码).缓存的对“名目项”数据库的查询还可以帮助关联不能在同一分组网络掩码的ip地址. 托管域可能仍然是一个问题,其中有两个无关的域拥有”相邻的ip”,这是他们使用同一个服务器的服务的好处. 在这种情况下,虽然,托管服务将是地址范围的最终所有者, 并且必须承担其客户行为的一些责任. 我们认为,服务条款的实施将缓解这一问题,但是还需要此领域的更多实验.我们期待着在更大程度上使用spf的资料-到目前为止,我们已经做了我们的算法与spf算法有限的比较,而且发现使他们能够相互补充得方法. spf被越来越广泛的部署,我们想将它和我们上面讨论的算法结合起来. 我们最新的

21、例子是135k的消息,其中约23k不是垃圾邮件,样品显示了3k的“软故障“和2k“硬故障“15.7k通过spf的测试. 但是,垃圾邮件发送者也已注册和发布了域名的spf记录,而我们的贝叶斯算法发现15.7k通过了spf检查,3584封垃圾邮件.根据已知的我们的贝叶斯筛选器的性能,我们预计,最多有4封被它识别为垃圾邮件的邮件其实是正常的邮件. 所以我们获得了本身并不令人吃惊的结果spf依靠它自己将不能阻止足够多的垃圾邮件. 我们还注意到这样一个事实,我们直接使用ip地址,而不是尝试将他们关联到域或发件人(也就是说,我们不试图验证发件人或检测欺骗,而是旨在确定交付路径的垃圾性),避免spf含有的关

22、于转发器和邮件列表的困难. 如果从到再到的路径不是含有垃圾的,那么在传输路径中间受到损害将是无所谓的. 这表明,我们的机制可能是spf的一个很好的补充.有两种技术,我们打算尝试:l 将来自spf域名内部的所有邮件映射到一个ip地址,然后将我们的算法用于此结果.我们将收缩此域名内的所有地址为一个入口.l 当邮件从此域名内部的任何地方发送,为每一个spf域名在域边界上插入一个固定的id. 这将不会取代现有的ip地址,但会添加域标识符序列.我们已经表明,受益可以从检查ip地址中得到,即使没有利用spf等域验证机制. 接下来我们讨论我们的算法

23、与spf相结合的价值.在过很长一段时间就会有不部署spf的域出现,所以这里描述的技术对于来自他们的邮件特别有用. 此外,这里描述的技术,建立一个有学问的声誉系统,并可能部分被用于建立一个信誉服务. 许多人相信,我们的实验也认为,信誉服务是授权域验证技术所必要的.在ibm北美公司大约有10个邮件网关, 可能有10倍的关于ibm的信息需要收集. 如果在一个域中的机器有的已经成为僵尸机器,而且僵尸通过邮件网关发送,这些僵尸电脑所发送的邮件将通过spf测试.在我们用大量数据描述的算法中,这些僵尸电脑的信誉可以和这个域中其它机器相区分,因为被用于发送垃圾邮件的僵尸电脑会发送大量的邮件.后者不能被一个纯粹

24、的基于域的系统做到.然而,一个纯粹的基于域的系统比一个纯粹的基于ip的系统需要的学习数据要少,因为一个纯ip系统在一个组织打开了一个在此地址范围内与旧网关在不同部分的网关的时候会感到迷惑. 虽然本组织可以确保在此网关部署以前,spf记录包含了新的网关, 但是我们的算法需要一些时间来了解它.古德曼介绍了使用接收行的机制和问题, 因为它们不可信而且不能总是被可靠地解析(古德曼,2004).她特别地开发了新技术,来识别内部可信的smtp服务器和外部不可信的smtp服务器的边界. 这里介绍的根据历史来学习哪些ip地址可信的方法很好地回避了这个问题; 从而,暗中确定可信任的内部和外部,从而提供可靠的接收

25、头.7 结论我们已经确定,检查ip地址对于阿森纳社区是一种宝贵反垃圾邮件团体可以使用的新增工具. 当它和贝叶斯过滤器结合使用,它的性能大约是这个贝叶斯过滤器的准确度的两倍.理解它在和域名认证结合起来是如何工作的,这在精炼此算法以及理解域名认证技术本身的价值都是很重要的下一步.致谢作者想要感谢ibm的反垃圾邮件研究小组的其他成员,他们参加了讨论和技术工作为此篇论文做出了贡献.涉及到的人员包括nathaniel borenstein, jason crawford, schlomo hershkop, and jeffrey kephart.参考文献lentczner, m. and wong,

26、m. “sender policyframework: authorizing use of domains in mailfrom”, internet draft,/internet-drafts/draft-lentcznerspf-00.txt, october, 2004.wong, m. and schlitt, w. “sender policy framework:authorizing use of domains in e-mail”, internetdraft, /internet-drafts/draftschlitt-spf-classic-00.txt, december, 2004.lyon, j. and won

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论