CN114036360B 网络爬虫拦截方法、装置、电子设备及可读存储介质 (网宿科技股份有限公司)_第1页
CN114036360B 网络爬虫拦截方法、装置、电子设备及可读存储介质 (网宿科技股份有限公司)_第2页
CN114036360B 网络爬虫拦截方法、装置、电子设备及可读存储介质 (网宿科技股份有限公司)_第3页
CN114036360B 网络爬虫拦截方法、装置、电子设备及可读存储介质 (网宿科技股份有限公司)_第4页
CN114036360B 网络爬虫拦截方法、装置、电子设备及可读存储介质 (网宿科技股份有限公司)_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本申请公开了一种网络爬虫拦截方法、装日志包含的域名从消息队列中读取包含多条包确定第一访问日志对应的访问请求是否为恶意2读取消息队列中的第一访问日志,所述消息队列是缓存器按照接收顺序根据所述第一访问日志包含的域名,从所述消息队列中依次读所述根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请若所述多条访问日志中不存在所述第二访问日志,则确定从所述多条访问日志中的每条访问日志中提取出至少根据从所述多条访问日志中每条访问日志提取出的至少两3.根据权利要求2所述的方法,其特征在于,所述至少两个特征为客户端标识和IP地确定所述多个第二访问日志中各第二访问日志包含的IP地址根据所述第一访问日志包含的IP地址,从所述多条访问日志中确定3按照存储器中各访问日志包含的域名,将所述存储器中的访问日志分分析目标访问日志流中各访问日志包含的至少两个特征接收所述第二终端设备通过所述配置界面发送的配置请求,所述终端设备对所述第一标识执行所述目标操作得到第二标识后再发送携带所述第二标识的4根据所述拦截指令拦截所述第一终端设备发监听zookeeper集群以确定所述zookeeper集群上的节点信息是否若监听到所述节点信息更新,则从所述文件集群获取更新的读取模块,用于读取消息队列中的第一访问日志,所述消息队列是缓序对来自至少两个边缘节点的访问日志排序得到的;根据所述第一访问日志包含的域名,从所述消息队列中依次读取多条包含所述域名的访处理模块,根据所述多条访问日志,确定所述第一访问日志对应的访问所述处理模块根据所述多条访问日志,确定所述第一访问日志对应的至少一个边缘节点的访问日志排序得到消息队列,所述消息队列中位于第一访问日志之所述处理模块根据所述访问请求生成访问日志时,用于当所述访问被处理器执行时实现如权利要求1至12任5[0002]网络爬虫,也叫网络蜘蛛,通常根据网页的地址来寻找网页的统一资源定位符行检测与防护。边缘节点接收到来自终端设备的超文本传输协议(HyperTextTransfer[0009]根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请缘节点的访问日志排序得到消息队列。6电子设备实现如上第一方面或第一方面各种可能的实现电子设备实现如上第二方面或第二方面各种可能的实现程序被处理器执行时实现如上第一方面或第一方面各种可能的实现程序被处理器执行时实现如上第二方面或第二方面各种可能的实现7爬虫将网站的核心内容爬取并复制到其他网站,极大影响核心网站在搜索引擎上的排名,[0040]CDN加速网络中,终端设备发起的访问请求会根据访问者所在的区域分散到各地8对各边缘节点的访问日志排序得到消息队列。9[0053]配置管理中心18用于根据计算集群11或离线组件17识别出的恶意网络爬虫生成该节点信息用于指示配置文件集群19上的配置文件发生更新。边缘节点12监听zookeeper群按照域名对消息队列中的访问日志进行分流,以得到按照域名区分的多个访问日志流。访问日志,根据访问日志包含的域名从消息队列中读取包含多条包含该域名的访问日志,于消息队列中的访问日志来自全网的边缘节点,计算集群对该全网数据进行实时流式分两个访问日志分到不同的访问日志流中。用于指示第一终端设备对所述第一标识执行所述目标操作得到第二标识后再发送携带所终端设备的第一标识也称之为预分配客户端标识(PreClientID),第一终端设备对第一标接收到携带第一标识和目标操作的指示信息,并对第一标识执行目标操作生成第二标识。的客户端标识、IP地址等进行统计以确定第一访问日志对应的访问请求是否为恶意请求,[0103]下面,以至少两个特征为IP地址和URL为例,对上述实时多维度分析进行详细说包含IP地址1且与第一访问日志包含相同域名的访问日志称之为第三访问日志,则第三访发送用于请求配置界面的配置请求;相应的计算集群接收该配置请求,并向第二终端设备征进行实时分析或离线分析。[0139]图5为本申请实施例提供的一种网络爬虫拦截装置的示意图。该网络爬虫拦截装对应的访问请求为恶意请求时,向所述至少一个边缘节点中的各边缘节点发送拦截指令,[0151]本申请实施例提供的网络爬虫拦截装置,可以执行上述实施例中计算集群的动[0152]图6为本申请实施例提供的网络爬虫拦截装置的另一个示意图。该网络爬虫拦截[0162]本申请实施例提供的网络爬虫拦截装置,可以执行上述实施例中边缘节点的动[0167]处理器71的具体实现过程可参见上述方法实施例,其实[0170]本申请实施例还提供一种计算机程序产品,该计算机程计算机程序被处理器执行时实现如上计算集群或边缘节点者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论