CN114117299B 一种网站入侵篡改检测方法、装置、设备及存储介质 (恒安嘉新(北京)科技股份公司)_第1页
CN114117299B 一种网站入侵篡改检测方法、装置、设备及存储介质 (恒安嘉新(北京)科技股份公司)_第2页
CN114117299B 一种网站入侵篡改检测方法、装置、设备及存储介质 (恒安嘉新(北京)科技股份公司)_第3页
CN114117299B 一种网站入侵篡改检测方法、装置、设备及存储介质 (恒安嘉新(北京)科技股份公司)_第4页
CN114117299B 一种网站入侵篡改检测方法、装置、设备及存储介质 (恒安嘉新(北京)科技股份公司)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN114117299B(21)申请号202111361696.7(22)申请日2021.11.17(65)同一申请的已公布的文献号申请公布号CN114117299A(43)申请公布日2022.03.01(73)专利权人恒安嘉新(北京)科技股份公司号27号楼五层5002室(56)对比文件王杰杨满智金红陈晓光(74)专利代理机构北京品源专利代理有限公司GO6F16/958(2019.01)权利要求书3页说明书13页附图4页(54)发明名称一种网站入侵篡改检测方法、装置、设备及存储介质(57)摘要本发明实施例公开了一种网站入侵篡改检测方法、装置、设备及存储介质,该方法包括:获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页信息:网页源码、网页域名、网页图片和网页文本信息;从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。通过获取网页信息集合,对网页信息集合中的待检测网页信息进行入侵篡改检测,保证待检测网站的安全性。根据待检测网页信息的信息类型选择合适的检测2获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页信从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,确定篡改检测结果;其中,当所述待检测网页信息为网页域名时,确定所述待检测网页信息对应的检测方获取网页源码并进行分析,确定网页超链接集合;根据所述网页超链接集合和网页域名确定目标二级域名;统计所述目标二级域名的数量;判断所述数量是否大于第一预设数量阈值,若是,确定篡改检测结果为泛二级域名篡2.根据权利要求1所述的方法,其特征在于,当所述待检测网页信息为网页源码时,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,确定篡改检测结果,包括:获取预确定的正则表达式集合;根据所述正则表达式集合中的正则表达式对所述网页源码进行字符串匹配检测,确定篡改检测结果。3.根据权利要求1所述的方法,其特征在于,所述根据所述网页超链接集合和网页域名对所述网页超链接集合中的网页超链接提取二级域名,得到至少一个超链接二级域对所述网页域名提取二级域名,得到网页二级域名;将各所述超链接二级域名分别与网页二级域名比较;将比较结果为不同的超链接二级域名确定为目标二级域名。4.根据权利要求1所述的方法,其特征在于,当所述待检测网页信息为网页域名时,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,确定篡改检测结果,包括:将所述网页域名通过预设的网页安全接口输出到域名检测平台;接收所述域名检测平台返回的域名检测结果;对所述域名检测结果进行分析,确定篡改检测结果。5.根据权利要求1所述的方法,其特征在于,当所述待检测网页信息为网页图片时,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,确定篡改检测结果,包括:将所述网页图片输入到预确定的图片检测网络模型中,所述图片检测网络模型根据检测数据集和分类数据集进行训练得到;根据所述图片检测网络模型的输出结果确定目标对象;对所述目标对象中的待检测文字进行异常检测,根据异常检测结果确定篡改检测结6.根据权利要求5所述的方法,其特征在于,所述图片检测网络模型的训练步骤包括:获取检测数据集和分类数据集,所述检测数据集和分类数据集中的待训练图片对应关联标准信息,所述标准信息包括标准位置信息和标准类别信息;3将当前迭代下对应的待训练图片输入到当前的待训练网络模型中,得到预测信息,所述预测信息包括预测位置信息和预测类别信息;采用给定的损失函数表达式,结合所述标准信息和预测信息,获得相应的损失函数;基于所述损失函数对所述待训练网络模型进行反向传播,得到用于下一迭代的待训练7.根据权利要求1所述的方法,其特征在于,当所述待检测网页信息为网页文本信息时,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,确定篡改检测结果,获取网页源码,并确定所述网页源码中的文本标签;根据各所述文本标签和网页文本信息确定目标文本;对各所述目标文本进行异常检测,确定异常文本;判断所述异常文本的数量是否大于第二预设数量阈值,若是,确定篡改检测结果为网8.根据权利要求7所述的方法,其特征在于,所述根据各所述文本标签和网页文本信息确定各所述文本标签在网页文本信息中所对应文本的文本长度;确定各所述文本长度中满足预设长度条件的目标文本长度;将所述目标文本长度对应的文本确定为目标文本。9.根据权利要求7所述的方法,其特征在于,所述对各所述目标文本进行异常检测,确针对每个目标文本,确定所述目标文本和预确定的异常文字信息库的编辑距离;统计所述编辑距离满足预设距离条件的异常词数量;当异常词数量大于第三预设数量阈值时,确定所述目标文本为异常文本。10.根据权利要求1-9任一项所述的方法,其特征在于,还包括:根据至少一个篡改检测结果生成预警工单,并发送至对应的用户。信息集获取模块,用于获取待检测网站的网页信息集合,所述网页信息集合至少包括检测模块,用于从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果;其中,当所述待检测网页信息为网页域名时,检超链接确定单元,用于获取网页源码并进行分析,确定网页超链接集合;二级域名确定单元,用于根据所述网页超链接集合和网页域名确定目标二级域名;数量确定单元,用于统计所述目标二级域名的数量;二级域名检测单元,用于判断所述数量是否大于第一预设数量阈值,若是,确定篡改检测结果为泛二级域名篡改;否则,确定篡改检测结果为未发生篡改。一个或多个处理器;存储器,用于存储一个或多个程序,45技术领域[0001]本发明实施例涉及计算机技术领域,尤其涉及一种网站入侵篡改检测方法、装置、设备及存储介质。背景技术娱乐及人们的工作和生活产生了深远的影响,许多传统的信息正在被移植到互联网上。网站作为电子政务、电子商务的重要平台,一旦被黑客攻破,重要信息和数据会被获取、破坏或篡改,同时也会造成重大的经济损失和恶劣的社会影响。因此,如何对网站是否发生入侵篡改进行检测变得尤为重要。发明内容[0003]本发明提供一种网站入侵篡改检测方法、装置、设备及存储介质,以实现对网站发生入侵篡改的准确检测。[0004]第一方面,本发明实施例提供了一种网站入侵篡改检测方法,所述方法包括:[0005]获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页[0006]从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,确定篡改检测结果。[0007]第二方面,本发明实施例还提供了一种网站入侵篡改检测装置,该装置包括:[0008]信息集获取模块,用于获取待检测网站的网页信息集合,所述网页信息集合至少[0009]检测模块,用于从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。[0010]第三方面,本发明实施例还提供了一种计算机设备,该设备包括:[0012]存储器,用于存储一个或[0013]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的一种网站入侵篡改检测方法。[0014]第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的一种网站入侵篡改检测动方法。[0015]本发明实施例提供了一种网站入侵篡改检测方法、装置、设备及存储介质,通过获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页信息:网页源码、网页域名、网页图片和网页文本信息;从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。6通过获取网页信息集合,对网页信息集合中的待检测网页信息进行入侵篡改检测,保证待检测网站的安全性。根据待检测网页信息的信息类型选择合适的检测方式,对待检测网站进行不同角度的检测,提高检测结果的准确性。附图说明[0016]图1是本发明实施例一中的一种网站入侵篡改检测方法的流程图;[0017]图2是本发明实施例一中的一种网站入侵篡改检测系统的架构示意图;[0018]图3是本发明实施例二中的一种网站入侵篡改检测方法的流程图;[0019]图4是本发明实施例二中的一种网站入侵篡改检测方法的实现示例图;[0020]图5是本发明实施例三中的一种网站入侵篡改检测装置的结构示意图;[0021]图6是本发明实施例四中的一种计算机设备的结构示意图。具体实施方式[0022]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。[0023]下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存[0025]实施例一[0026]图1给出了本申请实施例一提供的一种网站入侵篡改检测方法的流程图,该方法适用于检测网站是否发生入侵及篡改的情况。该方法可以由计算机设备执行,该计算机设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,计算机设备可以是笔记本、台式计算机以及智能平板等。[0027]图2为本实施例提供的一种网站入侵篡改检测系统的架构示意图,该系统包括数接口15和入侵篡改检测分析模块16.其中,数据源接入模块11用于获取待检测网站111的数据,待检测网站可以是重点网站、备案网站等。元数据筛选模块12对数据进行筛选,数据筛选包括数据格式筛选、数据有效性筛选和数据格式解析。高性能检测引擎13实现数据检测,数据检测包括植入暗链检测、网页图片检测和网页文本信息检测,得到篡改检测结果。通过轻量级消息队列14对数据进行处理,轻量级消息队列14包括消息数据生产者Producer,消7息、数据消费者Consumers,消息队列Message。通过开放的RESTFUL_API接口15将检测得到的篡改检测结果发送给入侵篡改检测分析模块16,进行检测结果分析。[0028]如图1所示,本实施例一提供的一种网站入侵篡改检测方法,具体包括如下步骤:[0029]S101、获取待检测网站的网页信息集合,网页信息集合至少包括以下至少一种网[0030]在本实施例中,待检测网站具体可以理解为具有检测是否被入侵篡改需求的网站,本申请中的待检测网站可以是任意网站。待检测网站可以预先设置,根据不同网站的重要程度预设设置,当待检测网站的数量不止一个时,对于每个待检测网站均采用同样的方式进行入侵篡改检测。网页信息集合具体可以理解为由不同类型的网页信息构成的数据集。网页图片具体可以理解为网页中展示的图片;网页文本信息具体可以理解为网页中的页域名、网页图片或网页文本信息。获取待检测网站的网页信息的方式可以是通过爬虫采集。其中,网页域名从MD5.txt文件中提取,网页文本信息从MD5.txt和MD5.html文件中获取。[0031]S102、从网页信息集合中选择待检测网页信息,确定待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。[0032]在本实施例中,待检测网页信息具体可以理解为具有检测需求的网页信息,由于网页信息的类型有多种,不同的网页信息需要通过不同的方式进行检测。篡改检测结果具体可以理解为进行入侵篡改检测后得到的检测结果,可以是发生篡改,未发生篡改;在篡改检测结果为发生篡改时,篡改检测结果可以直接通过篡改类型表示。[0033]具体的,从网页信息集合中选定一种网页信息作为待检测网页信息,进行检测。在进行检测时,对网页信息集合中的网页信息可以仅选择其中一项进行检测,也可以选择多项网页信息进行检测。当需要对多种类型的网页信息均进行检测时,可以首先选择一种网页信息作为待检测网页信息,在完成此待检测网页信息的检测后,再次从网页信息集合中选择一种网页信息作为新的待检测网页信息,并选择合适的检测方式进行检测。当待检测网页信息为网页源码或网页域名时,进行植入链检测,植入链检测包括正则表达式检测、泛二级域名检测、网站检测。当待检测网页信息为网页图片或网页文本信息时,通过机器学习或神经网络技术进行内容检测,例如,检测网页图片或网页文本信息中是否包含负面信息[0034]本发明实施例提供了一种网站入侵篡改检测方法,通过获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页信息:网页源码、网页域名、网页图片和网页文本信息;从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。通过获取网页信息集合,对网页信息集合中的待检测网页信息进行入侵篡改检测,保证待检测网站的安全性。根据待检测网页信息的信息类型选择合适的检测方式,对待检测网站进行不同角度的检测,提高检测结果的准确性。[0036]图3为本发明实施例二提供的一种网站入侵篡改检测方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,具体主要包括如下步骤:8[0037]S201、获取待检测网站的网页信息集合。[0038]当所述待检测网页信息为网页源码时,执行S202-S203,确定篡改检测结果。[0039]S202、获取预确定的正则表达式集合。[0040]在本实施例中,正则表达式集合具体可以理解为由一个或者多个正则表达式构成的数据集。[0041]需要知道的是,在网页源码进行检测时,其原理是通过对网页源码分析,检测其中的暗链(即hiddenlinks,是黑帽SEO的作弊手法之一)。为了检测网页源码结构是否被恶意修改(使内容不可见),针对黑帽SEO常用收发“暗链”进行检测,实现对网页源码结构是否被篡改的检测。[0042]暗链常见类型有3类:设置标签的属性不同的暗链类型,通过设置相应的正则表达式进行检测。预先确定检测不同类型暗链所需的正则表达式,根据各正则表达式形成正则表达式集合并存储。在对网页源码进行入侵篡改检测时,直接获取正则表达式集合。[0043]S203、根据正则表达式集合中的正则表达式对网页源码进行字符串匹配检测,确定篡改检测结果。[0044]依次通过正则表达式集合中的正则表达式对网页源码进行字符串匹配,若匹配成[0045]当所述待检测网页信息为网页域名时,执行S204-S207或执行S208-S210确定,篡改检测结果。[0047]在本实施例中,网页超链接集合具体可以理解为网页的所有超链接构成的数据集合,即所有外链集合。如果待检测网页信息为网页域名,此时进行的入侵篡改检测可以是泛二级域名检测,也可以是网站域名是否被篡改检测,对于两种不同类型的检测,采用不同的方式进行检测。进行泛二级域名检测,通过S204-S209步骤进行检测;进行网站域名是否被[0048]具体的,当对网页域名进行泛二级域名检测时,获取网页源码,并对网页源码进行分析,得到一个或者多个网页超链接,由一个或者多个网页超链接构成网页超链接集合。[0049]S205、根据网页超链接集合和网页域名确定目标二级域名。[0050]在本实施例中,目标二级域名具体可以理解为与网页域名的二级域名不匹配的网页超链接的二级域名。[0051]具体的,分别对网页超链接集合中的网页超链接和网页域名提取二级域名,并将网页超链接集合和网页域名的二级域名进行循环匹配,根据匹配结果确定目标二级域名。[0052]作为本实施例的一个可选实施例,本可选实施例进一步将根据网页超链接集合和网页域名确定目标二级域名优化为:[0053]A1、对网页超链接集合中的网页超链接提取二级域名,得到至少一个超链接二级域名。[0054]在本实施例中,超链接二级域名具体可以理解为网页超链接的二级域名。对网页超链接集合中的每个网页超链接分别提取二级域名,得到超链接二级域名。9[0056]在本实施例中,网页二级域名具体可以理解为网页域名对应的二级域名。提取网页域名的二级域名,得到网页二级域名。[0057]A3、将各超链接二级域名分别与网页二级域名比较。[0058]对于每个超链接二级域名,分别将其余网页二级域名进行匹配比较,确定超链接二级域名与网页二级域名是否相同。[0059]A4、将比较结果为不同的超链接二级域名确定为目标二级域名。[0060]确定比较结果为不同的超链接二级域名,将此部分超链接二级域名确定为目标二级域名。[0061]S206、统计目标二级域名的数量。[0063]S208、确定篡改检测结果为泛二级域名篡改。[0064]S209、确定篡改检测结果为未发生篡改。[0065]在本实施例中,第一预设数量阈值具体可以理解为判断目标二级域名的数量是否在正常范围内的边界值。第一预设数量阈值可以根据需求设置。比较数量和第一预设数量阈值的大小,当数量大于第一预设数量阈值时,确定篡改检测结果为泛二级域名篡改;当数量小于或等于第一预设数量阈值时,确定篡改检测结果为未发生篡改。[0066]S210、将网页域名通过预设的网页安全接口输出到域名检测平台。[0067]在本实施例中,网页安全接口具体可以理解为进行网页入侵篡改检查,保证网页安全的接口。域名检测平台具体可以进行网页域名是否为篡改检测的平台,域名检测平台还可以验证网站的其他功能是否准确。通过网页安全接口将网页域名输出到域名检测平台,以使域名检测平台进行域名检测。[0068]S211、接收域名检测平台返回的域名检测结果。[0069]在本实施例中,域名检测结果可以是域名正常或域名异常。域名检测平台对网页域名进行检测,验证网页域名是否正常。[0071]当域名检测结果为正常时,篡改检测结果为未发生篡改;当域名检测结果为异常时,篡改检测结果为发生网站域名篡改。[0072]当所述待检测网页信息为网页图片时,执行S213-S215,确定篡改检测结果。[0073]S213、将网页图片输入到预确定的图片检测网络模型中,图片检测网络模型根据检测数据集和分类数据集进行训练得到。[0074]在本实施例中,图片检测网络模型具体可以理解为用于识别图片中存在的对象的神经网络模型。检测数据集(DetectionDatasets)有很多限制,分类标签的信息太少的数量小于分类数据集(ClassificationDatasets),而且检测数据集的成本太高,使其无法当作分类数据集进行使用。而分类数据集却有着大量的图片和十分丰富分类信息。本申请提出了一种新的训练方法-联合训练算法,通过把这检测数据集和分类数据集的数据混合到一起,使用一种分层的观点对物体进行分类,用巨量的分类数据集数据来扩充检测数据集,从而把两种不同的数据集混合起来。在检测数据集和分类数据集上训练物体检测器(ObjectDetectors),用检测数据集的数据学习物体的准确位置,用分类数据集的数据来增加分类的类别量、提升模型的健壮性。通过检测数据集和分类数据集中的数据进行训练得到图片检测网络模型,将网页图片输入到图片检测网络模型中,图片检测网络模型根据学习到的经验对网页图片进行预测处理。[0075]作为本实施例的一个可选实施例,本可选实施例进一步优化包括了图片检测网络模型的训练,图片检测网络模型的训练步骤包括:[0076]B1、获取检测数据集和分类数据集,检测数据集和分类数据集中的待训练图片对应关联标准信息,标准信息包括标准位置信息和标准类别信息。[0077]在本实施例中,待训练图片具体可以理解为用于进行模型训练的图片;标准信息具体可以理解为待训练图片中目标进行标注的信息,例如,待训练图片中包括一只猫、一个即为标准类别信息;横坐标为30-50像素点,纵坐标为40-70像素点,为标准位置信息。标准位置信息还可以通过其他方式表示,例如,左顶点的坐标,以及长、宽,由此可以确定矩阵框,矩形框的位置即为目标的位置。检测数据集和分类数据集中的待训练图片预先进行标[0078]B2、将当前迭代下对应的待训练图片输入到当前的待训练网络模型中,得到预测信息,预测信息包括预测位置信息和预测类别信息。[0079]在本实施例中,待训练网络模型具体可以理解为未完成训练的、基于深度学习的神经网络模型。预测信息具体可以理解为模型预测得到信息,预测信息包括预测位置信息进而预测类别信息。[0080]具体的,将当前迭代下对应的待训练图片输入至当前的待训练网络模型中,待训练网络模型根据当前的网络参数进行预测,得到待训练图片中各目标对应的预测位置信息和预测类别信息。[0081]B3、采用给定的损失函数表达式,结合标准信息和预测信息,获得相应的损失函[0082]在本实施例中,损失函数表达式可以理解为计算损失函数的表达式,在对待训练网络模型进行反向传播时,需要通过损失函数调整模型的参数。损失函数可以是GAN损失函[0083]具体的,对于每个待训练图片,根据其对应的标准信息和预测信息,采用损失函数表达式进行计算,得到对应的损失函数。当一个图片中有多个目标时,由于每个目标均对应标准信息和预测信息,可以依次计算每个目标对应的损失函数,得到多个损失函数后,根据多个损失函数进行计算,得到最终的损失函数,作为此次迭代的损失函数。[0084]B4、基于损失函数对待训练网络模型进行反向传播,得到用于下一迭代的待训练[0085]在神经网络模型的训练过程中,通过反向传播方法不断更新调整模型,直至模型的输出与目标趋于一致。在确定了损失函数后,利用该损失函数对待训练网络模型进行反向传播,得到满足收敛条件的图片检测网络模型。本发明实施例对具体的反向传播过程不做限定,可根据具体情况进行设置。模型训练完成后,就可以通过图片检测网络模型实现对图片中对象进行类别和位置的预测。[0086]S214、根据图片检测网络模型的输出结果确定目标对象。[0087]在本实施例中,目标对象具体可以理解为网页图片中的对象。网页图片输入到图11片检测网络模型中后,图片检测网络模型根据网络参数对网页图片进行预测处理,得到存在目标对象的位置,以及目标对象的类别。[0088]S215、对目标对象中的待检测文字进行异常检测,根据异常检测结果确定篡改检测结果。[0089]在本实施例中,待检测文字具体可以理解为目标对象中包含的文字,例如,目标对象为印章,印章中的文字即为待检测文字。异常检测结果可以是文字异常、文字正常。目标对象中可能存在待检测文字,待检测文字可能是异常文字,例如,包含了负面信息、不当言论等,对待检测文字进行文字是否异常的检测,根据异常检测结果确定篡改检测结果,例[0090]当所述待检测网页信息为网页文本信息时,执行S216-S219。[0092]在本实施例中,文本标签为通过HTML设计网页页面时的文本标签。在检测网页文本信息是否发生了入侵篡改时,需要获取网页源码,根据网页源码对网页文本信息进行入侵篡改检测。直接获取网页源码,对网页源码进行分析,得到网页源码中的所有文本标签。[0093]S217、根据各文本标签和网页文本信息确定目标文本。[0094]在本实施例中,目标文本具体可以理解为从网页文本信息中筛选出的文本。根据文本标签确定网页文本信息中的文本,进而对文本的长度进行筛选,得到满足条件的目标[0095]作为本实施例的一个可选实施例,本可选实施例进一步将根据各文本标签和网页文本信息确定目标文本优化为:[0096]C1、确定各文本标签在网页文本信息中所对应文本的文本长度。[0097]在本实施例中,文本长度具体可以理解为文本中所包括数据的长度。查找每个文本标签在网页文本信息中对应的文本,确定各文本的文本长度。[0098]C2、确定各文本长度中满足预设长度条件的目标文本长度。[0099]在本实施例中,预设长度条件为预先设置的长度范围,例如2-20。依次判断每个文本长度是否满足预设长度条件,若是,确定此文本长度为目标文本长度。[0100]C3、将目标文本长度对应的文本确定为目标文本。[0101]确定各目标文本长度对应的文本,将此部分文本确定为目标文本。[0103]在本实施例中,异常文本具体可以理解为包含异常文字、信息的文本。对各目标文本进行分析,确定异常文本中的信息是否异常,例如,目标文本信息中是否包含过多的敏感[0104]作为本实施例的一个可选实施例,本可选实施例进一步将对各目标文本进行异常[0105]D1、针对每个目标文本,确定目标文本和预确定的异常文字信息库的编辑距离。[0106]在本实施例中,异常文本信息库具体可以理解为由异常词、异常句子构成的信息库。编辑距离具体可以理解为由一个字串转成另一个字串所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。对于每个目标文本,通过序列比对等方式计算此目标文本中各词或句子与异常文字信息库的编辑距离。计算编辑距离的方式可通过机器学习建模进行计算。[0107]D2、统计编辑距离满足预设距离条件的异常词数量。[0108]在本实施例中,异常词数量具体可以理解为异常词的数量。预设距离条件具体可以理解为预先设定的距离范围条件,例如,大于0.75.比较目标文本中每个词或句子对应的编辑距离与预设距离条件,确定满足预设距离条件的编辑距离,此部分编辑距离对应的词或句子为异常词,统计异常词的数量得到异常词数量。[0109]D3、当异常词数量大于第三预设数量阈值时,确定目标文本为异常文本。[0110]在本实施例中,第三预设数量阈值具体可以理解为用于判断目标文本是否异常的数量阈值,可根据需求预先设置。比较异常词数量与第三预设数量阈值的大小,当异常词数量大于第三预设数量阈值时,确定目标文本为异常文本,可能发生篡改;异常词数量小于或等于第三预设数量阈值时,确定目标文本为正常文本,未发生篡改。[0112]S220、确定篡改检测结果为网页篡改。[0113]S221、确定篡改检测结果为未发[0114]在本实施例中,第二预设数量阈值具体可以理解为判断异常文本的数量是否符合要求的阈值。本申请中的第一预设数量阈值、第二预设数量阈值和第三预设数量阈值的取值可以相同,也可以不同,在实际应用中根据需求设置即可。统计异常文本的数量,并比较异常文本的数量和第二预设数量阈值的大小。当异常文本的数量大于第二预设数量阈值时,确定篡改检测结果为网页篡改。[0115]通过对常见文字篡改行为进行分析,提取被篡改文本的特征,形成异常文字信息库。利用机器学习技术对网页文字内容进行建模,自动判断文本是否被恶意篡改。并且可设置预警方式,在网页文本信息发生篡改后进行预警,输出篡改信息及危险度评分。对文字的篡改可能发生在页面的任何地方,被篡改的形式也多种多样,本申请实施例能够自动检测多种文字被篡改的形式。[0116]作为本实施例的一个可选实施例,本可选实施例进一步优化包括:根据至少一个篡改检测结果生成预警工单,并发送至对应的用户。[0117]在本实施例中,预警工单具体可以理解为对用户进行预警的工单,用于提醒用户网站已经被篡改,及时处理以保证网站安全。本申请实施例中的用户可以是待检测网站对应的管理人员、维护人员等。预先选择待检测网站对应关联的用户。当至少有一个或超过预设数量的篡改检测结果为发生篡改时,生成预警工单下发给对应的用户。预警工单中可以包括发生篡改的类型,例如,泛二级域名发生篡改,以便用户可以及时确定篡改类型,执行相应的处理。发送的方式可以设置为发送至邮箱、通过短信发送至手机、或者通过作业系统发送给对应的账号。同时,根据篡改检测结果还可以生成运营报告。[0118]进一步地,图4为本申请实施例提供的一种网站入侵篡改检测方法的实现示例图。[0121]采集网络数据的方式可以是通过爬虫的方式进行采集。[0122]S303、从网络数据获取网页数据文件。CN114117299B[0123]S304、从网络数据获取网页源码文件。[0124]S305、从网络数据获取网页截图文件。[0125]S306、根据网页源码文件和网页数据文件可以得到网页URL、网页域名、网页标签、网页关键字、网页描述、网页短文本、短文本超链接、网页文本集合、网页链接集合,即包括了网页源码、网页域名和网页文本信息。[0126]S307、根据网页URL、网页域名、网页标签、网页关键字、网页描述、网页短文本、短文本超链接、网页文本集合、网页链接集合,得到网页URL、网页域名和网页链接集合。[0128]S309、丢弃数据。[0129]S310、进行植入链检测。植入链检测包括:网站检测、泛二级域名检测和正则表达式检测,并执行S322。[0130]其中,网站检测即为通过域名检测平台对网页域名进行检测,得到检测结果。泛二级域名检测即为通过网页超链接集合和网页域名确定二级域名进行检测,得到检测结果。正则表达式检测即为通过正则表达式对网页源码进行检测,得到检测结果。[0131]S311、根据网页URL、网页域名、网页标签、网页关键字、网页描述、网页短文本、短文本超链接、网页文本集合、网页链接集合,得到网页短文本、短文本超链接。[0132]S312、判断网页短文本、短文本超链接是否包含中文,若是,执行S313;否则,执行[0133]在网页短文本、短文本超链接包含中文的情况下,确定文本标签在网页文本信息中所对应文本的文本长度。[0134]S313、判断文本长度是否满足预设长度条件,若否,执行S314;否则,执行S315。[0135]确定文本长度满足预设长度条件的目标文本长度,并将目标文本长度对应的文本确定为目标文本。[0136]S314、丢弃数据。[0137]S315、对目标文本进行异常检测,确定异常文本。[0138]S316、对异常文本的数量与第二预设数量阈值进行比较,得到篡改检测结果,并执行S322。[0139]S317、根据网页截图文件获取网页图片。[0140]S318、判断网页图片是否有效,若否,执行S319;否则,执行S320。[0141]S319、丢弃数据。[0142]S320、对网页图片进行检测。[0143]对网页图片进行检测的方式可以是通过图片检测网络模型进行检测。[0144]S321、得到篡改检测结果,并执行S322。[0145]S322、对篡改检测结果进行汇总。[0146]S323、输出检测结果,分别执行S324和S325。[0147]S324、生成运营报告。[0148]S325、生成预警工单并下发。[0150]本发明实施例提供了一种网站入侵篡改检测方法,通过获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页信息:网页源码、网页域名、网页图片和网页文本信息;从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。通过获取网页信息集合,对网页信息集合中的待检测网页信息进行入侵篡改检测,保证待检测网站的安全性。根据待检测网页信息的信息类型选择合适的检测方式,对待检测网站进行不同角度的检测,提高检测结果的准确性。并且检测过程中通过检测数据集合分类数据集训练得到图片洁厕网络模型,既保证位置预测的准确性,又可以增加分类的类别量,提升模型的健壮性,从而提高入侵篡改检测的准确性。[0151]实施例三[0152]图5为本发明实施例三提供的一种网站入侵篡改检测装置的结构示意图,该装置包括:信息集获取模块41和检测模块42。[0153]其中,信息集获取模块41,用于获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页信息:网页源码、网[0154]检测模块42,用于从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。[0155]本发明实施例提供了一种网站入侵篡改检测装置,通过获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页片和网页文本信息;从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,并确定篡改检测结果。通过获取网页信息集合,对网页信息集合中的待检测网页信息进行入侵篡改检测,保证待检测网站的安全性。根据待检测网页信息的信息类型选择合适的检测方式,对待检测网站进行不同角度的检测,提高检测结果的准确性。[0157]表达式获取单元,用于获取预确定的正则表达式集合;[0158]匹配检测单元,用于根据所述正则表达式集合中的正则表达式对所述网页源码进行字符串匹配检测,确定篡改检测结果。[0159]进一步地,当所述待检测网页信息为网页域名时,检测模块42包括:[0161]二级域名确定单元,用于根据所述网页超链接集合和网页域名确定目标二级域[0162]数量确定单元,用于统计所述目标二级域名的[0163]二级域名检测单元,用于判断所述数量是否大于第一预设数量阈值时,若是篡改检测结果为泛二级域名篡改;否则,确定篡改检测结果为未发生篡改。[0164]进一步地,二级域名确定单元,具体用于对所述网页超链接集合中的网页超链接提取二级域名,得到至少一个超链接二级域名;对所述网页域名提取二级域名,得到网页二级域名;将各所述超链接二级域名分别与网页二级域名比较;将比较结果为不同的超链接二级域名确定为目标二级域名。[0166]域名输出单元,用于将所述网页域名通过预设的网页安全接口输出到域名检测平[0167]检测结果接收单元,用于接收所述域名检测平台返回的域名检测结果;[0168]检测结果分析单元,用于对所述域名检测结果进行分析,确定篡改检测结果。[0169]进一步地,当所述待检测网页信息为网页图片时,检测模块42包括:[0170]模型输入单元,用于将所述网页图片输入到预确定的图片检测网络模型中,所述图片检测网络模型根据检测数据集和分类数据集进行训练得到;[0171]模型输出单元,用于根据所述图片检测网络模型的输出结果确定目标对象;[0172]异常检测单元,用于对所述目标对象中的待检测文字进行异常检测,根据异常检测结果确定篡改检测结果。[0174]数据集获取模块,用于获取检测数据集和分类数据集,所述检测数据集和分类数据集中的待训练图片对应关联标准信息,所述标准信息包括标准位置信息和标准类别信[0175]预测信息确定模块,用于将当前迭代下对应的待训练图片输入到当前的待训练网络模型中,得到预测信息,所述预测信息包括预测位置信息和预测类别信息;[0176]损失函数确定模块,用于采用给定的损失函数表达式,结合所述标准信息和预测[0177]反向传播模块,用于基于所述损失函数对所述待训练网络模型进行反向传播,得到用于下一迭代的待训练网络模型,直至满足迭代收敛条件,得到图片检测网络模型。[0180]目标文本确定单元,用于根据各所述文本标签和网页文本信息确定目标文本;[0181]异常文本确定单元,用于对各所述目标文本进行异常检测,确定异常文本;[0182]篡改检测单元,用于判断所述异常文本的数量是否大于第二预设数量阈值,若是,确定篡改检测结果为网页篡改;否则,确定篡改检测结果为未发生篡改。[0183]进一步地,目标文本确定单元,具体用于确定各所述文本标签在网页文本信息中所对应文本的文本长度;确定各所述文本长度中满足预设长度条件的目标文本长度;将所述目标文本长度对应的文本确定为目标文本。[0184]进一步地,异常文本确定单元,具体用于针对每个目标文本,确定所述目标文本和预确定的异常文字信息库的编辑距离;统计所述编辑距离满足预设距离条件的异常词数量;当异常词数量大于第三预设数量阈值时,确定所述目标文本为异常文本。[0186]工单发送模块,用于根据至少一个篡改检测结果生成预警工单,并发送至对应的[0187]本发明实施例所提供的网站入侵篡改检测装置可执行本发明任意实施例所提供的网站入侵篡改检测方法,具备执行方法相应的功能模块和有益效果。[0188]实施例四[0189]图6为本发明实施例四提供的一种计算机设备的结构示意图,如图6所示,该设备包括处理器50、存储器51、输入装置52和输出装置53;设备中处理器50的数量可以是一个或多个,图6中以一个处理器50为例;设备中的处理器5可以通过总线或其他方式连接,图6中以通过总线连接为例。[0190]存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的网站入侵篡改检测方法对应的程序指令/模块(例如,网站入侵篡改检测装置中的信息集获取模块41和检测模块42)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的网站入侵篡改检测方法。[0191]存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述[0192]输入装置52可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。[0193]实施例五[0194]本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种网站入侵篡改检测方法,该方法包括:[0195]获取待检测网站的网页信息集合,所述网页信息集合至少包括以下至少一种网页[0196]从所述网页信息集合中选择待检测网页信息,确定所述待检测网页信息对应的检测方式并进行相应的篡改检测,确定篡改检测结果。[0197]当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的网站入侵篡改检测方法中的相关操作。[0198]通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论