数据安全与隐私保护 课件 第7章-大数据算法安全与隐私保护_第1页
数据安全与隐私保护 课件 第7章-大数据算法安全与隐私保护_第2页
数据安全与隐私保护 课件 第7章-大数据算法安全与隐私保护_第3页
数据安全与隐私保护 课件 第7章-大数据算法安全与隐私保护_第4页
数据安全与隐私保护 课件 第7章-大数据算法安全与隐私保护_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章大数据算法安全与隐私保护6.1问题导入2023年10月,高女士计划和朋友从上海飞往湖南长沙,本想买往返套票,但始终找不到合适的时间,无奈之下只好分开买单程票。买完单程票后才发现往返套票价格反而比买单程票总价格更贵。而张女士一直在某网络店铺购买文具,系统经常自动为她给推荐该店铺的商品,她也一直根据推荐信息进行购买。2024年2月,偶然打开店铺页面仔细比价才发现,系统推荐的文具比店铺同样商品的价格贵很多,而且没有运费险等优惠。这种现象被称为大数据“杀熟”。6.1问题导入这种现象被称为大数据“杀熟”。大数据“杀熟”的形式多样,其主要类型如下表所示:7.2大数据算法概述3.大数据算法的分类应用近年来,大数据算法在理论研究、技术应用、社会实践等方面都得到了广泛的应用。一些典型的大数据算法概括为:●推荐算法:为用户推荐内容或商品的算法。●关联规则学习:分析数据中的频繁项集和关联规则的算法。●K-Means聚类算法:将数据分为若干个聚类的算法。●随机森林:用于分类和回归分析的算法。●协同过滤:基于用户和物品之间的关系,为用户推荐物品的算法。

7.2大数据算法概述●数据挖掘算法:从大量数据中挖掘出潜在的、以前未知的、对用户有价值的信息的过程。这种算法主要应用于数据的预处理、特征选择和模式挖掘等环节。●机器学习算法:通过学习审计的模式和规律来建立模型并进行决策和预测的算法。●深度学习算法:是机器学习的一种特殊方法,通过构建多层神经网络来模拟人脑的工作原理,这种算法在图像识别、自然语言处理和语音识别等领域取得了很大的成功。7.2大数据算法概述从互联网大数据到政务大数据,到企业大数据,再到个人大数据,大数据算法成为人们认识世界、了解世界、改造世界的重要工具,如图所示7.2.2机器学习算法1.机器学习的定义机器学习是让计算机模拟或实现人类的学习行为,通过对数据的学习和分析,让计算机系统获取新的知识或技能,重新组织已有的知识结构使之不断完善自身的性能。简而言之,机器学习是一种从数据中学习规律和模式的方法,通过数据来预测、分类或者决策。机器学习的模型结构如下图。

7.2.2机器学习算法机器学习、人工智能和深度学习之间的关系下图所示。7.2.2机器学习算法2.机器学习的工作流程机器学习算法的工作原理是从大量数据中自动发现规律和模式,从而为人类提供更准确、更快速的服务。通过收集数据,进行预处理和特征提取、模型训练、模型评估并进行应用,实现对数据的自动分析和预测,工作流程如图所示。7.2.2机器学习算法●数据收集:机器学习需要大量的数据来进行分析和学习,因此需要收集数据并将其转化为可计算的形式,这些数据有不同的来源,例如传感器、日志、数据库、文本和图像等。●数据预处理:数据收集后,需要对数据进行清理和处理,去除噪声、填补缺失值、归一化或标准化等,预处理步骤可以帮助算法更好地理解数据。●特征提取:特征提取是指在机器学习中对原始数据进行转换、组合和选择等处理,以提取更有用的特征或属性,帮助机器学习算法更好地理解和处理数据。例如,在图像分类问题中,特征可以是像素的颜色或形状。7.2.2机器学习算法●模型评估:训练完成后,需要对模型进行评估和调整,以检查其性能和精度,并进行优化。模型的性能通常通过准确率、精确率、召回率等来衡量。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算法来重新建立模型,再次进行评估。如此循环往复,最终获得满意的经验来处理其他的数据。●模型应用:一旦模型经过训练和评估,并达到预期的性能水平,机器学习模型可以用于新数据的预测、分类、聚类等任务,如API、应用程序等。7.2.2机器学习算法机器学习算法的本质就是“重现人认识世界的过程”,通过实例数据学习,对于给定的输入,产生一个特定的输出,该过程如图所示。7.2.2机器学习算法3.机器学习算法的分类机器学习算法按照学习方式分类,可分为监督学习、无监督学习、半监督学习、强化学习;按照学习策略分类,可以分为机械学习、示教学习、类比学习、基于解释的学习、归纳学习;按照学习任务分类,可以分为分类、回归、聚类;按照应用领域分类,可以分为自然语言处理、计算机视觉、机器人、自动程序设计、智能搜索、数据挖掘和专家系统。7.2.2机器学习算法深度学习是机器学习的一个分支,它的实质是深度神经网络,一般的神经网络有3-4层,而深度神经网络包含上百层,深度学习的提出和发展归功于大数据的出现和计算性能的提高。深度学习与机器学习的关系如图所示。7.2.2机器学习算法深度学习与机器学习的共同点是对数据进行分析,但它们的学习过程不同,机器学习需要人工对数据进行特征提取,然后应用相关算法对数据进行分类,利用已有数据特征和数据标签对数学模型进行训练以达到最优,再对新数据进行分类和预测;而深度学习不需要人工对训练数据进行特征提取,直接利用深度神经网络对数据特征进行自学习、分类7.2.2机器学习算法机器学习与深度学习的工作过程如图所示。7.2.2机器学习算法(1)监督学习监督学习是机器学习中的一种学习训练方式,是使用标记数据集来训练算法,以便训练后的算法可以对数据进行分类或准确预测结果。在监督学习中,每个样本数据都被正确地标记过。算法模型在训练过程中,被一系列“监督”误差的程序、回馈、校正模型进行训练,以便达到在输入标记数据时,输出数据也能够接近标记的数据,即适当拟合。监督式学习可分为回归和分类,回归是使用一种算法来理解因变量和自变量之间的关系,回归模型能够根据不同的数据点来预测数值。分类是使用一种算法将测试数据准确地分配到特定的类别中。7.2.2机器学习算法监督学习流程如下:●数据准备:准备好的数据集分为训练集、验证集和测试集。训练集是用来训练模型的数据集,验证集是确保模型没有过拟合的数据集,测试集是用来评估模型效果的数据集。●数据预处理:数据预处理主要包括重复数据检测、数据标准化、数据编码、缺失值处理、异常值处理等。●特征提取和特征选择:特征提取和特征选择都是对原始数据进行降维的方法,从而去除数据的无关特征和冗余特征。●模型训练:模型的本质是函数,模型训练就是利用已有的数据,通过一些方法确定函数的参数。7.2.2机器学习算法●模型评价:模型评价的基本思路是采用交叉验证方法,对于同一问题有不同的数学模型,通过模型指标的比较来选取最优模型;对同一数学模型,通过模型指标的比较来调整模型参数。典型的监督学习算法有朴素贝叶斯、决策树、支持向量机、逻辑回归、线性回归、k近邻等,它们的特点和应用如表所示7.2.2机器学习算法7.2.2机器学习算法(2)无监督学习模式识别、语音识别、文本分类无监督学习是指在机器学习过程中,用来训练机器的数据是未被标签的,机器只能依靠自己不断探索,对知识进行归纳和总结,尝试发现数据的内在规律和特征,从而对训练数据打标签。无监督学习分为是聚类、关联和降维。聚类是根据未标记数据的相似性或差异性对它们进行分类分组;关联是使用不同的规则来查找给定数据集中变量之间的关系;当特定数据集中的特征(或维度)太多时,降维能够在保持数据完整性的同时,将数据输入的数量(维度)减少到可管理、可操作的大小。7.2.2机器学习算法无监督学习与监督学习的本质区别在于用来训练的数据是否已经被标注,这也使得监督学习与无监督学习各有利弊。监督学习在处理大量数据的问题时比较吃力,但是一旦学习到位,其结果将非常准确和值得信赖。无监督学习可以很轻松处理大量的数据,但是学习出来的结果不具备透明度,即无法解释,但也因此导致无监督学习可以发掘出许多以前未曾被人类注意的新规律。7.2.2机器学习算法(3)半监督学习半监督学习是一种利用标记和未标记数据训练模型的机器学习方法。半监督学习的目标是结合监督学习和无监督学习的优点,利用标记数据的准确性以及未标记数据的丰富性和较低成本,来提高机器学习的准确性和效率。半监督学习可是监督学习和无监督学习之间的桥梁,它结合了监督学习和无监督学习的优势。监督学习要求所有数据都被标记,而无监督学习根本不需要标签,而半监督学习结合了标记和未标记数据来训练模型,然后可以进行预测。7.2.2机器学习算法主动学习、(纯)半监督学习和直推学习之间的区别如图所示7.2.2机器学习算法(4)强化学习强化学习是一种基于智能体与环境交互学习的方法,其主要特点是以目标导向的方式来进行学习和决策。在强化学习中,智能体通过与环境的交互来获得奖励信号,然后根据这些奖励信号来调整自身的行为策略,从而使得智能体能够在环境中更好地实现目标任务。强化学习的基本原理是通过智能体与环境的交互学习,使得智能体能够逐步发现和学习哪些动作可以获得更高的奖励,从而实现对复杂任务的自主决策和优化,强化学习示意图如下图所示。7.2.2机器学习算法强化学习算法与监督学习相似,但有所不同。●输入的数据不同。监督学习的数据集是给定标签的,但模型一开始并不知道标签是什么,只有到最后将输出标签和真实标签进行对比时才知道。而强化学习的数据集没有给定标签,只给出一个回报函数7.2.2机器学习算法●反馈机制不同。监督学习有反馈,无监督学习无反馈,而强化学习是执行多步之后才反馈。●目标不同。强化学习看重行为序列下的长期收益,而监督学习往往只关注标签或已知输出的误差。●判断标准不同。强化学习的奖惩概念没有正确或错误之分的,而监督学习标签就是正确的,并且强化学习是一个“学习+决策”的过程,有和环境交互的能力,交互的结果以惩罚的形式返回,而监督学习不具备。7.2.3搜索引擎算法1.搜索引擎系统架构搜索引擎系统架构可以分为4个部分,即搜索引擎爬取、搜索引擎索引、搜索引擎检索和搜索引擎排序。搜索引擎通过使用网络爬虫抓取很多个页面来工作,它们在网络中按照链接查找新页面,然后将这些页面添加到搜索引擎中,再提取结果。7.2.3搜索引擎算法7.2.3搜索引擎算法(1)搜索引擎爬取搜索引擎通过自动化程序(也称为爬虫、蜘蛛或机器人)在互联网上自动收集和检索网页内容。搜索引擎爬取程序按照一定的策略和规则,从一个网页开始,通过其中的链接逐步遍历整个互联网上的网页,将网页内容下载并存储在搜索引擎的服务器上。例如,它们会优先爬取高质量、高权威度的网站,以及包含与搜索关键词相关的网页。搜索引擎爬取程序能够识别并排除一些不需要的内容,如重复的网页、垃圾信息、过时的网页等。爬取的频率能够根据网站的更新频率和重要性进行调整,对于更新频率较高的网站,会更频繁地进行爬取,以保证搜索结果的及时性和准确性。7.2.3搜索引擎算法(2)搜索引擎索引搜索引擎会对收集到的网页内容进行分析和分类,并将其保存在一个索引库中,以便后续搜索时能够快速查找相关内容。为了让用户在搜索时能够快速找到相关的信息资源,搜索引擎会通过自己的算法对索引中的内容进行处理和分析,并生成一个排序后的结果列表,以便用户在搜索结果中找到最相关的信息资源。搜索引擎会分析网页中的关键词、标题、描述等元素,并进行分词、去除停用词等处理,生成一个倒排索引表,以便快速查找相关的网页信息。搜索引擎索引通常包括以下几个方面的内容:7.2.3搜索引擎算法①关键词:搜索引擎会从网页的标题、正文、链接文本等位置提取出关键词,并对其进行分词、去除停用词等处理。②URL:搜索引擎会将每个网页的URL作为索引的一个重要标识,以便用户在搜索时能够快速找到相关的网页。③网页内容的描述:搜索引擎会从网页中提取出一段描述文字,以便在搜索结果中显示给用户,帮助用户更好地了解网页的内容。④网页的权威度和可信度:搜索引擎会根据一些指标,如网页的外部链接数量、质量等,对网页进行排序和评估,以便向用户呈现最可信、最权威的信息资源。7.2.3搜索引擎算法(3)搜索引擎检索①用户输入关键词或短语:用户在搜索引擎的搜索框中输入与自己需求相关的关键词或短语。②搜索引擎根据关键词进行匹配:搜索引擎会将用户输入的关键词与索引库中的关键词进行匹配,找到与其相关的网页或其他信息资源。③搜索引擎排序:搜索引擎会根据一定的算法对搜索结果进行排序,将最相关的结果展示在前面,以便用户快速找到所需信息。④展示搜索结果:搜索引擎将排序后的搜索结果列表展示给用户,用户可以根据自己的需求选择相应的信息资源。7.2.3搜索引擎算法(4)搜索引擎排序搜索引擎根据一定的算法对搜索结果进行排序,并将最相关的结果展示在搜索结果列表的前面,以便用户快速找到所需信息。排序算法通常会考虑网页与关键词的相关度、网页的权威度和可信度、用户的搜索历史和位置等因素,具体包括以下几个因素:①网页与关键词的相关度:搜索引擎会根据网页中出现的关键词数量、位置等因素,计算出网页与关键词的相关度,相关度越高的网页排名越靠前。②网页的权威度和可信度:搜索引擎会根据网页的外部链接数量、质量等指标,评估网页的权威度和可信度,权威度和可信度越高的网页排名越靠前。7.2.3搜索引擎算法③网页的更新频率:搜索引擎会根据网页的更新频率,对其进行排序,更新频率越高的网页排名越靠前。④用户的搜索历史和位置:搜索引擎会根据用户的搜索历史和位置信息,提供个性化的搜索结果,将与用户需求和位置相关的信息排名靠前。7.2.3搜索引擎算法2.搜索引擎的基本原则●关键字匹配原则:搜索引擎会根据用户的搜索关键字,在网页的标题、内容、标签和其他元数据中查找匹配的关键字,包括关键字的频率、位置和相关性等因素。●网页质量和权威性原则:搜索引擎会评估网页的质量和权威性,以确定其在搜索结果中的排名。质量因素包括网页的内容原创性、信息准确性、结构清晰性和用户体验等,权威性因素包括外部链接的数量和质量,以及网页的社交媒体影响力等。●用户体验原则:搜索引擎算法会在网页的加载速度、移动友好性、易用性和安全性等方面进行优化,以提高用户的搜索体验。7.2.3搜索引擎算法●上下文和用户意图原则:搜索引擎会尝试理解用户的搜索意图,并根据搜索上下文提供相关的搜索结果。例如,当用户搜索的是“苹果”时,搜索引擎会根据用户的上下文,判断用户是在寻找水果还是科技公司,以提供相应的结果。●算法更新和持续改进原则:搜索引擎公司会定期更新和改进其算法,以提高搜索结果的质量和适应用户需求的变化。这些更新可能基于机器学习、人工智能和大数据分析等技术,以提高算法的准确性和效果。当用户进行搜索时,搜索引擎会根据用户的关键字查询搜索引擎数据库,并应用算法来对网页进行排名。7.2.3搜索引擎算法2.搜索引擎的基本原则●关键字匹配原则:搜索引擎会根据用户的搜索关键字,在网页的标题、内容、标签和其他元数据中查找匹配的关键字,包括关键字的频率、位置和相关性等因素。●网页质量和权威性原则:搜索引擎会评估网页的质量和权威性,以确定其在搜索结果中的排名。质量因素包括网页的内容原创性、信息准确性、结构清晰性和用户体验等,权威性因素包括外部链接的数量和质量,以及网页的社交媒体影响力等。●用户体验原则:搜索引擎算法会在网页的加载速度、移动友好性、易用性和安全性等方面进行优化,以提高用户的搜索体验。7.2.3搜索引擎算法3.搜索引擎的目标搜索引擎的主要目标是帮助用户快速、方便地找到他们需要的信息资源。具体来说,搜索引擎的目的包括以下几个方面:(1)收集和索引信息资源:搜索引擎通过爬虫程序自动收集互联网上所有可访问的网页内容,并将其存储在自己的数据库中,然后对其进行分析和处理,生成一种数据结构,以便用户在搜索时能够快速查找到相关的信息资源。(2)提供个性化的搜索结果:搜索引擎会根据用户的搜索历史、位置等信息,提供个性化的搜索结果,让用户能够更快地找到与自己需求相关的信息资源。7.2.3搜索引擎算法(3)展示最相关的信息资源:搜索引擎会根据一定的算法对检索到的信息资源进行排序,将最相关的结果展示在搜索结果列表的前面,以便用户能够快速找到所需的信息资源。(4)提供多种搜索方式:搜索引擎不仅支持文本搜索,还支持图片搜索、视频搜索、新闻搜索等多种搜索方式,为用户提供多样化的搜索体验。7.2.3搜索引擎算法4.搜索引擎的数据处理过程搜索引擎的底层原理涉及复杂的计算和数据处理过程,包括以下基本步骤:(1)网页抓取:搜索引擎的爬虫程序(蜘蛛)按照一定的规则和策略遍历互联网上的网页,并抓取网页的内容,包括文本、链接和其他元数据。(2)索引构建:抓取的网页内容被存储在搜索引擎的索引数据库中。索引是一个结构化的数据集合,用于快速检索和匹配用户的搜索查询。(3)关键字提取:搜索引擎从网页的内容中提取关键字,并建立关键字的索引,以便能够根据关键字匹配用户的搜索查询。7.2.3搜索引擎算法(4)相关性评估:搜索引擎使用一系列算法和规则来评估每个网页与用户搜索查询的相关性,包括关键字的匹配度、关键字的位置和频率、网页的质量指标等。(5)排名计算:基于相关性评估,搜索引擎为每个网页计算一个排名得分,排名得分决定网页在搜索结果中的位置。(6)结果呈现:搜索引擎根据排名得分将网页按顺序呈现给用户,搜索结果会分页显示,以便用户浏览更多的搜索结果。7.2.3搜索引擎算法5.搜索引擎的排序方法对于一个特定的查询,搜索结果的排名主要取决于两组信息,即网页的质量、查询与网页的相关性。(1)网页的质量计算网页的质量一般使用PageRank算法,它是由Google提出的用来标识网页的重要性的一种方法,主要用于网页的排序。PageRank是一个定义在整个网页集合上的函数,为每个网页分配一个正实数来代表该网页的重要性,这些数值组成一个向量,其中较高的PageRank值意味着该网页在重要性上的优势,因此在搜索结果中可能会被优先显示。对于一个互联网网页,该网页PageRank的计算基于以下两个基本假设:7.2.3搜索引擎算法●数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。●质量假设:质量高的页面会通过链接向其他页面传递更多的权重,因此越是被质量高的页面指向的页面,则该页面越重要。例如,假设有三个网页A、B和C,如图7-16所示。A链接到B和C,B只链接到C,而C只链接到A。在随机游走模型中,从A出发的浏览者有50%的概率跳转到B或C;从B出发的浏览者会100%跳转到C;而从C出发的浏览者则会100%跳转到A。7.2.3搜索引擎算法经过多次迭代,会发现C的PageRank值会比A和B都高,因为它接收到了A和B的流量。7.2.3搜索引擎算法一个网页,如果指向该网页的超链接越多,随机跳转到该网页的概率也就越高,该网页的PageRank值就越高,这个网页也就越重要。例如,假设有5个网页,假设左边两个网页节点的PageRank值已知,分别为1和0.9,则右边三个节点中最上面的节点,收到左上网页0.5的PageRank值和左下网页和0.3的PageRank值,则它最终的PageRank为0.5+0.3=0.8;同样,右边三个节点中最中间的节点,收到左上网页0.5的PageRank值和左下网页和0.3的PageRank值,则它最终的PageRank值也是0.5+0.3=0.8。

7.2.3搜索引擎算法网页链接示意图如下:7.2.3搜索引擎算法(2)网页的相关性衡量网页的相关性,一般采用TF-IDF算法。TF-IDF算法称为词频-逆文档频率计算方法,是一种在信息检索和文本挖掘中常用的加权技术,它通过综合考虑词频(TF)和逆文档频率(IDF)来评估一个词或短语对于整个文档集或语料库的重要性。字词的重要性随着它在文件中出现次数的增加成正比增加,但同时会随着它在语料库中出现的频率成反比下降。7.2.3搜索引擎算法●词频TF(TermFrequency):表示一个词在一个文档中的出现频率。TF可以通过简单地计算词在文档中出现的次数除以文档总词数来获得,或者通过将词频进行归一化处理,例如使用词频的对数形式,计算方法为:●逆文档频率IDF(InverseDocumentFrequency):表示一个词在整个文档集合中的稀有程度,即词的权重。IDF可以通过计算文档集合中总文档数除以包含该词的文档数的对数来获得。IDF越大,表示词越稀有,对于区分不同文档的能力越强,计算方法为:7.2.3搜索引擎算法●网页的相关性TF-IDF:TF-IDF是将TF和IDF相乘得到的权重值,即TF-IDF=TF*IDFTF-IDF值越大,表示该词在文档中的重要性越高。TF-IDF可以用于计算文档的相似性,进行特征选择和文本分类等任务。7.2.3搜索引擎算法例如在文档《中国的蜜蜂养殖》中,假定该文长度为1000个词,“中国”“蜜蜂”“养殖”各出现20次,则这三个词的词频TF=0.02。然后,搜索Google发现,包含“的”字的网页共有250亿张,假定这就是中文网页总数。包含“中国”的网页共有62.3亿张,包含“蜜蜂”的网页为0.484亿张,包含“养殖”的网页为0.973亿张。则它们的逆文档频率(IDF)和网页的相关性(TF-IDF)如表所示。7.2.3搜索引擎算法“蜜蜂”的TF-IDF值最高,“养殖”次之,“中国”最低。所以,如果只选择一个词,“蜜蜂”就是该文档的关键词TF-IDF算法简单快速,结果比较符合实际情况。但缺点是单纯以词频衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。算法也无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,权重的计算不够科学。7.2.3搜索引擎算法(2)网页的相关性衡量网页的相关性,一般采用TF-IDF算法。TF-IDF算法称为词频-逆文档频率计算方法,是一种在信息检索和文本挖掘中常用的加权技术,它通过综合考虑词频(TF)和逆文档频率(IDF)来评估一个词或短语对于整个文档集或语料库的重要性。字词的重要性随着它在文件中出现次数的增加成正比增加,但同时会随着它在语料库中出现的频率成反比下降。7.2.4推荐算法推荐算法是利用用户的一些行为,通过特定的数学算法,来推测出用户可能喜欢的物品。推荐算法可以分为基于内容的推荐算法、基于关联规则的推荐算法、基于协同过滤的推荐算法和混合推荐算法4种类型。1.基于内容的推荐算法基于内容的推荐是应用最为广泛的推荐机制,它的核心思想是根据推荐物品或内容的元数据,发现物品或者内容的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品。基于内容的推荐算法的基本思路是根据用户过去喜欢的物品,为用户推荐和他过去喜欢物品相似的物品。7.2.4推荐算法因此,抽取物品和用户的特征是推荐算法的重要手段,通过计算物品特征向量和用户偏好向量之间的相似度进行推荐最常见的相似度计算公式就是余弦相似度,即:7.2.4推荐算法最常见的相似度计算公式就是余弦相似度,即:其中,𝐹𝑢表示某个用户的偏好特征,𝐹𝑖表示某个候选物品的偏好特征。若余弦相似度的值越接近于1,表示候选物品越接近用户偏好;若值越接近于-1,表示候选物品越不适合该用户。在计算所有候选物品与用户的相似度之后,按照相似度从高到低进行排序,根据实际要求,保存TOP-K个候选物品并推荐给用户。

7.2.4推荐算法基于内容推荐算法的优点是易于实现,不需要用户数据,不存在稀疏性和冷启动问题。它根据物品本身特征推荐,也不存在过度推荐热门的问题。推荐过程不需要巨大的用户群体或者评分记录,只有一个用户也可以产生推荐列表,可以为具有特殊兴趣爱好的用户推荐罕见特性的项目,信服度较高。但此类算法对用户的个人偏好只能进行浅层内容分析,对项目的分析不够全面,存在推荐内容可能会重复的问题。因此推荐算法抽取的特征既要保证准确性又要具有一定的实际意义,否则很难保证推荐结果的相关性。7.2.4推荐算法2.基于关联规则的推荐算法基于关联规则的推荐算法通过分析历史数据中的项集关系来生成推荐,算法的核心是发现物品之间的强关联。例如,规则X→Y,表示X事件发生后,Y事件会有一定概率发生,如果发生的概率高于一定的阈值,则该规则被称为强关联规则,X和Y之间强关联。关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物篮分析。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。7.2.4推荐算法基于关联规则的推荐算法通常包括两个步骤:(1)找出数据集中所有的频繁项集,这些项集出现的频繁性要大于或等于最小支持度。(2)根据频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。例如,现有5个用户,分别购买了面包、牛奶、尿布、啤酒、鸡蛋和可乐中的任意几种商品,如表所示,如果购买了该商品,用1表示,否则用0表示。7.2.4推荐算法通过对购买表的分析发现,5个用户中有3人同时购买了牛奶和尿布,有2人购买完牛奶和尿布后,又购买了啤酒。因此,可以得到项集(X,Y)={牛奶,尿布}支持度计数为3,项集(X,Y,Z)={牛奶,尿布,啤酒}支持度计数为2。7.2.4推荐算法则对于关联规则{牛奶,尿布}→{啤酒}的支持度和置信度为:

因此,可以认为规则{牛奶,尿布}→{啤酒}具有关联,当一个用户购买了牛奶和尿布后,推荐系统会自动为其推荐啤酒。7.2.4推荐算法基于关联规则的推荐算法得到{牛奶,尿布}→{啤酒}的具体处理过程如图所示。7.2.4推荐算法3.基于协同过滤的推荐算法协同过滤算法是一种基于用户行为数据的推荐算法,其基本思想是通过分析用户的历史行为数据,找到与当前用户兴趣相似的其他用户或物品,然后向当前用户推荐这些相似用户或物品中的未曾接触过的内容。协同过滤算法主要分为两种类型,即基于用户的协同过滤和基于物品的协同过滤。(1)基于用户的协同过滤基于用户的协同过滤的核心思想是向用户A进行个性化推荐时,先找到与A具有相似兴趣的其他用户B,将B喜欢的但是A未曾见过的物品推荐给该A。7.2.4推荐算法如图所示,用户1和用户3是兴趣相似的用户,用户1购买了物品1和物品3,用户3除了购买物品1和物品3外,还购买了物品4;因此向用户1推荐物品4。7.2.4推荐算法基于用户的协同过滤算法主要分为两个步骤:第一步:找到与用户A具有相似兴趣爱好的用户B,即计算用户之间的相似度。第二步:将用户B喜欢的但是用户A未曾见过的物品推荐给用户A。用户相似度计算,可以采用余弦相似度和皮尔逊相关系数方法来计算。①设X、Y分别表示用户x和y对应的向量,则用户设x和y的相似度采用余弦相似度方法计算为:7.2.4推荐算法②设表示用户x1对物品p的评分,表示用户x1对所有物品的平均评分。使用皮尔逊相关系数来计算两个用户之间的相似度的方法为:在以上两种相似度计算方法中,sim∈[−1,1],当sim=1时,表示变量完全正相关;当sim=0时,表示无关;当sim=-1时,表示完全负相关。一般设定,sim的值为0.8~1.0时表示极强相关,0.6~0.8时表示强相关,0.4~0.6时表示中等程度相关,0.2~0.4时表示弱相关,0.0~0.2时表示极弱相关或无相关。7.2.4推荐算法最终将用户对物品的评分进行计算,在获得用户对不同物品的评价得分后,根据得分进行排序就得到推荐列表,用户x对物品p的评分计算方法为:其中,simx,y表示用户x与用户y的相似度,Ry,p表示用户y对物品p的评分,表示用户x的平均评分,表示用户y的平均评分。7.2.4推荐算法例如,Alice和4个用户对物品的评分如表所示,满分为5分,评分的高低可以间接反映用户对物品的喜好程度。现根据4个用户对5个物品的评分,以及Alice对其中4个物品的评分,判断是否应该把物品5推荐给Alice。7.2.4推荐算法第一步:根据已有的评分情况,计算Alice和其他4个用户的相似程度,找出与Alice最相似的n个用户。根据推荐算法,构建用户向量,分别为:Alice=[5,3,4,4]U1=[3,1,2,3]U2=[4,3,4,3]U3=[3,3,1,5]U4=[1,5,5,2]使用皮尔逊相关系数方法计算Alice和用户1的相似度:7.2.4推荐算法7.2.4推荐算法同理,可以得到Alice和用户2、用户3、用户4的相似度分别为0.7、0、-0.79。如果n=2,那么与Alice最相似的两个用户为用户1和用户2,相似度分别为0.85和0.7。第二步:根据n个用户对物品5的评分情况,以及他们与Alice的相似程度,推测Alice对物品5的评分。如果评分较高,则就把物品5推荐给Alice,否则不进行推荐。①根据相似度用户,计算Alice对物品5的最终得分。因为用户1对物品5的评分是3,用户2对物品5的打分是5,根据评分计算公式,可以计算出Alice对物品5的最终得分:7.2.4推荐算法因此,可以推测Alice对物品5的评分为4.87,如下表所示。②根据评分对Alice进行推荐,得到的推荐排序为:物品1>物品5>物品3=物品4>物品2所以,如果要向Alice推荐两款物品,可以推荐物品1和物品5。7.2.4推荐算法(2)基于物品的协同过滤基于物品协同过滤的核心思想预先根据其他用户的偏好数据计算出每个物品最相似的物品列表,然后为用户推荐与喜欢物品相类似的物品。如图所示,物品1和物品3是兴趣相似的物品,购买物品1的用户,都购买了物品3;而用户3购买了物品1,但没有购买物品3,因此向他推荐物品3。7.2.4推荐算法7.2.4推荐算法因此,基于物品的协同过滤算法主要分为两个步骤:第一步:计算物品之间的相似度。第二步:根据物品的相似度和用户的历史行为给用户生成推荐列表。基于物品的协同过滤算法跟基于用户的协同过滤算法计算过程类似,以上例中Alice为例,给她推荐相似的物品。①根据已有的评分情况,计算一下物品5和物品1、2、3、4之间的相似度。根据推荐算法,构建物品向量,分别为:item1=[3,4,3,1]item1=[1,3,3,5]item1=[2,4,1,5]item1=[3,3,5,2]item1=[3,5,4,1]使用皮尔逊相关系数方法计算物品5和物品1的相似度:7.2.4推荐算法则物品5和物品1的相似度为0.97。同理,可以得到物品5和物品2、物品3、物品4的相似度分别为:-0.48、-0.43、0.58。如果n=2,那么与物品5最相似的两个物品为物品1和物品4,相似度分别为0.97和0.58。7.2.4推荐算法②计算Alice对物品5的打分情况。因此,可以推测Alice对物品5的评分为4.6,如下表所示。7.2.4推荐算法③根据评分对用户进行推荐由上述计算得,Alice对物品5的评分为4.6,根据Alice的评分得出物品推荐序列为:物品1>物品5>物品3=物品4>物品2所以,如果要向Alice推荐两款物品,可以推荐物品1和物品5。

7.2.4推荐算法(3)协同过滤算法的性能比较从单个用户的角度来考虑,基于物品推荐的多样性不如基于用户好,因为基于物品推荐的物品和用户以前看的物品都很相似,推荐的物品不具有多样性。如果从推荐物品覆盖率的角度考虑,基于物品推荐具有很好的新颖性,能够推荐一些冷门的物品,能够给用户提供更加丰富的选择从推荐算法的适应度来考虑,基于用户推荐的原则是假设用户会喜欢那些和他有相同喜好的用户喜欢的物品,如果一个用户没有相同喜好的朋友,那算法的效果就会很差,所以一个用户对基于用户推荐算法的适应度与他有多少共同喜好用户成正比。7.2.4推荐算法4.混合推荐算法混合推荐算法是将多种推荐算法进行混合、相互弥补缺点,以获得更好的推荐效果。混合推荐算法最常见的组合有以下几种类型(1)加权型首先将协同过滤的推荐结果和基于内容的推荐结果赋予相同的权重值,然后比较用户对项的评价与系统的预测是否相符,然后调整权重值。加权型混合方式的特点是整个系统性能都直接与推荐过程相关,能够根据推荐结果分配和调整相应的混合模型。

7.2.4推荐算法(2)转换型根据问题背景和实际情况采用不同的推荐算法,最常用的方式是使用基于内容推荐和协同过滤混合的方式。首先使用基于内容的推荐算法,如果不能产生高可信度的推荐,然后再尝试使用协同过滤方法。(3)合并型同时采用多种推荐算法给出多种推荐结果,为用户提供参考。如构建一个基于web日志和缓存数据挖掘的个性化推荐系统,首先通过挖掘web日志和缓存数据构建用户多方面的兴趣模式,然后根据目标用户的短期访问历史与用户兴趣模式进行匹配,向用户推荐相似网页。同时,通过对多用户间的系统过滤,为目标用户预测下一步最有可能的访问页面,并根据得分对页面进行排序,后推荐。7.2.4推荐算法(4)特征组合型将来自不同推荐数据源的特征组合起来,由另一种推荐算法采用。一般会将协同过滤的信息作为增加的特征向量,然后在增加的数据集上采用基于内容的推荐算法。特征组合的混合方式使得系统不再仅仅考虑协同过滤的数据源,能够降低用户对项目评分数量的敏感度。(5)瀑布型用后一个推荐方法优化前一个推荐方法,它是一个分阶段的过程,首先用一种推荐算法产生一个较为粗略的候选结果,在此基础上使用第二种推荐算法对其作出进一步精确地推荐。瀑布型在低优先级算法上具有较高的容错性,因为高优先级得出的评分会变得更加精确,而不是被完全修改。7.3对大数据算法的攻击7.3.1数据投毒攻击1.数据投毒攻击的概念数据投毒攻击是指向训练数据中加入恶意数据来破坏或干扰模型的学习效果,攻击者通过插入恶意数据来误导模型,使其对某些类别产生错误的预测,投毒攻击是机器学习训练阶段最直接的威胁数据投毒攻击的基本目标是降低目标模型的整体性能或预测精度,如尽可能多地隐藏攻击的轨迹或精细地控制异常的范围,降低或增加某些指标而使其他指标不受影响,包括延长模型收敛或者拒绝模型收敛。7.3对大数据算法的攻击2.数据投毒攻击的分类(1)无目标投毒攻击无目标投毒攻击的目标是引导训练过程来实现一个被腐化的模型,使其尽可能地偏离真实的模型。●降低模型整体性能。该类攻击的目的是降低目标模型的整体性能,影响分析模型、扰乱分析结果,攻击的成功率取决于模型的过拟合特征。例如,攻击者通过随机打乱数据集图像的标签,然后将它们提供给监督学习算法。●降低模型某些个体的准确度。该类攻击的目的是降低某些样品的准确性,同时其他部分保持正常。例如在人脸识别模型中的无目标攻击,攻击者只需要降低自己输入的分类精度,只要攻击者的输入被错误地分类,攻击就会成功。7.3对大数据算法的攻击(2)有目标投毒攻击有目标投毒攻击关注的是目标模型错误预测的类别,它是一种复杂的隐形攻击,攻击者强制目标模型在指定的样本上产生异常输出,同时确保其在其他良性样本上的合法功能,它比无目标投毒攻击更难实施。例如,在一个数字分类任务中,攻击者通过数据投毒,使得模型对数字“7”进行错误分类,同时又对其他数字进行正常分类。有目标投毒攻击和无目标投毒攻击最大的区别就在于对模型的干扰程度不同,无目标投毒攻击是仅仅使得攻击者输入的个体被错误分类,但其他样本保持正常;而有目标投毒攻击需要使某一类别发生错误,其他类别正常。7.3对大数据算法的攻击(3)后门投毒攻击在有目标和无目标投毒攻击者中,攻击的结果是使目标模型的性能下降,这使得模型所有者很容易检测到这些攻击。因此,如何隐藏攻击者的攻击痕迹,成为攻击者所追求的另一个目标,而后门投毒攻击就能够尽可能地隐藏攻击者的行为。7.3对大数据算法的攻击3.数据投毒攻击的技术(1)标签操作数据投毒攻击技术中最常用的就是标签操作,在机器学习中学习到的知识主要基于样本-标签对,因此只要样本-标签对中的固定模式被破坏,机器学习模型的性能就会下降。最常用的标签操作方法是标签翻转,即翻转一些样本的标签,使得模型出现错误。但标签翻转通常会显著降低模型的性能,很容易被检测出来。7.3对大数据算法的攻击(2)数据操作对标签的修改,无法实现更复杂的攻击目标,而对样本空间的数据操作,比翻转标签更有可能实现复杂的攻击。数据操作需要优化中毒样本的生成以达到最大的攻击效果。数据操作的优点是控制投毒样本容易,易于实现任何对抗目标,但这种方法每次只能产生一个毒样本,效率较低。(3)代码操作代码操作是通过对开源的训练代码进行投毒攻击,在合法软件的开发、传播和升级过程中进行劫持或篡改,从而达到非法的攻击。7.3.2数据对抗攻击1.数据对抗攻击的概念数据对抗攻击是指在原始样本中添加一些人眼无法察觉的扰动,使机器做出错误的判断。7.3.2数据对抗攻击2.数据对抗攻击的分类在构造对抗样本的过程中,根据攻击者掌握机器学习模型信息的多少,可以分为白盒攻击和黑盒攻击两种。●白盒攻击攻击者能够获知机器学习所使用的算法,以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。●黑盒攻击攻击者并不知道机器学习所使用的算法和参数,但攻击者仍能与机器学习的系统有所交互,如通过传入任意输入观察输出,判断输出的类型和结构。7.3.2数据对抗攻击3.数据对抗攻击的防御对于数据对抗攻击,主要采用以下方法进行防御。●对抗训练:将生成的对抗样本和原始样本混合在一起训练出一个鲁棒性更强的模型。●梯度掩码:因为许多对抗样本都是基于梯度去生成的,所以将模型的原始梯度隐藏起来,就能够达到抵御对抗样本攻击的效果。●随机化:向原始模型引入随机层或者随机变量,使模型具有一定随机性,进一步提高模型的鲁棒性,对噪声的容忍度变高。●去噪:在输入模型进行判定之前,先对当前对抗样本进行去噪,剔除其中造成扰动的信息,使其不能对模型造成攻击。7.3.3托攻击1.托攻击的定义托攻击就是攻击者通过注入虚假欺骗的信息,达到影响推荐系统推荐结果的目的,是对大数据推荐算法最常见的攻击。从托攻击目的来看,托攻击可以分为推攻击、核攻击和恶意扰乱攻击3种类型。推攻击是试图提高目标项目的推荐排名,核攻击是试图降低目标项目的排名,恶意扰乱攻击是试图使推荐系统失灵。7.3.3托攻击2.托攻击模型托攻击模型分为两部分,一部分是评分攻击,即对用户的评分项进行攻击;另一部分是关系攻击,即对用户的关系文件进行攻击。用户的评分项目分为4种类型,即目标项目、选择项目、装填项目和未评分项目。其中,目标项目是攻击者希望攻击的项目,选择项目是攻击者希望让攻击更有效选择出的项目,装填项目是攻击者希望让攻击更难被检测出来,未评分项目是剩余的所有的项目都是未评分项目。7.3.3托攻击针对评分项目,能够实施评分攻击,常用的评分攻击方法有选样攻击、随机攻击、平均攻击、流行攻击、分段攻击等,具体为:●选样攻击:选定固定的攻击项目后,其他的项目直接复制真实用户的概貌,除了目标项目不同,选择项目,装填项目与真实用户完全相同。●随机攻击:选定固定的攻击项目后,选择项目为空,装填项目随机选择并随机赋值,该攻击不需要任何系统知识,成本较低,但是攻击效果一般。●爱/憎攻击:选定固定的攻击项目后,选择项目为空,装填项目随机选择并随机赋最大值或最小值。该攻击不需要任何知识,没有选择项目,方式很简单,成本低,效果却很好。

7.3.3托攻击●平均攻击:选定固定的攻击项目后,选择项目为空,装填项目随机选择并赋全局的均值。●流行攻击:选择项目为最流行的项目并赋评分最大值,装填项目随机选择并随机赋值,通过这种方式,注入的虚假用户可以与系统中大量的用户建立相似关系。●分段攻击:选择项目与目标项目非常类似的项目并赋评分最大值,装填项目随机选择并随机赋值,这种方式需要知道项目间的相似程度,需要大量的先验知识。●探查攻击:选择项目随机选择且探查系统中用户的评分项目评分,装填项目为事先设置好的种子项目并随机分配一定的评分。7.3.3托攻击3.托攻击的衡量指标托攻击的成效主要通过预测准确度和排序准确度两个指标来衡量,预测准确度是计算在托攻击的情况下和正常的情况下的预测值的平均偏移,准确度越高,攻击达到的效果越高。排序准确度是观察目标攻击的用户是否进入了正常用户的top-k推荐列表,top排名越靠前,说明攻击成效越显著。7.3.3托攻击4.托攻击的检测托攻击检测技术是防御潜在的托攻击威胁,提升大数据推荐算法的安全性的重要手段。托攻击检测技术能够在模型训练前识别和移除恶意用户,通过防止训练数据被污染来保护模型。一般的托攻击检测方法采用平均评分偏差值方法,通过平均评分的偏差和最近邻相似度等特征,对随机攻击、均值攻击和流行攻击下的虚假配置文件进行准确识别。7.3.4搜索优化攻击1.搜索优化攻击的概念搜索引擎优化又称为SEO(SearchEngineOptimization),是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果进行排名的技术。然而,一些不法分子为了提高搜索引擎关键词排名,利用搜索引擎优化SEO,进行一系列的不正当的优化工作,使得产生了大量信息垃圾,以此来欺骗大数据搜索引擎算法,提高SEO页面在搜索页面中的排名,一般把这种攻击称为搜索优化攻击、SEO攻击,或者黑帽SEO技术,是对大数据搜索引擎算法常用的攻击方法。7.3.4搜索优化攻击2.SEO攻击的形式搜索优化攻击主要通过锚文本、网址、关键词堆砌来实现攻击。●锚文本锚文本也称为锚文本链接,是链接的一种形式,它通过将关键词与URL链接起来,使用户能够点击这些关键词以访问目标网页。锚文本在网站优化和搜索引擎排名中扮演着十分重要角色,能够提高网站排名,外部链接的锚文本会为网站提供关键的权重。大量无用的、以欺骗搜索引擎和用户的锚文本就是SEO攻击的一种存在形式。●网址在互联网上借助群发软件,大量地发布目标网站的网址,欺骗搜索引擎对这类网址进行优先抓取,当用户进行相关搜索时,使得这类网站排在前面,从而严重影响用户想要得到的搜索结果。7.3.4搜索优化攻击●关键词堆砌通过对网站标题或是页面进行大量地关键词堆砌,以达到在搜索引擎中权重排名的提升,从而把用户诱导进入目标网站。通过站群对网站进行权重的传递,欺骗搜索引擎获取比较好的排名。3.SEO攻击常用方法搜索优化攻击的方法主要有群发、网页劫持、PR劫持、链接养殖场、博客论坛污染、文字隐藏等。●群发群发是常用的SEO攻击方法,通过群发软件大量群发带有网站链接的文本,大量交换友情链接,在短时间内迅速提升网站的链接,提升搜索引擎的排名。7.3.4搜索优化攻击●网页劫持网页劫持是将别人的网站内容或者整个网站全面复制下来,偷梁换柱放在自己的网站上,增加网站的吸引力,提升搜索引擎的排名●PR劫持PR劫持是指利用跳转方法,使用欺骗手段获得工具条上比较高的PR值显示,提升网页的等级及重要性,在搜索结果中提升网站排名。●链接养殖场链接养殖场是指通过链接到一些专门提供高链接的网页,采用交换链接等方式增加网站被链接的数量,以增加在搜索引擎排名中的优势。7.3.4搜索优化攻击●博客论坛污染为增加网站链接,在博客、论坛上大量、频繁发帖,然后埋藏很多自己网页的链接,欺骗搜索引擎对链接质量的判断,提高网站的点击率,提升搜索排名。●文字隐藏为增加关键词密度,使用大量无用的文字,但文字颜色设置与背景色相同白色,或者使用用户用肉眼是看不到字体,但是搜索引擎可以检索,从而提升搜索引擎的排名。7.4基于大数据算法的安全技术7.4.1基于大数据算法的安全分析技术大数据安全分析技术是将大数据技术应用到网络和信息安全领域,通过采集、存储、挖掘和分析流量、日志、事件等与安全相关的各类网络行为数据,从更高视角、更广维度上发现异常、捕获威胁,实现对异常行为、未知威胁的早期检测和快速发现的一种技术。与传统安全分析技术相比,大数据安全分析技术基于海量异构数据存储与快速计算处理能力,拓展安全分析与监控数据源的广度和深度,能够发掘更为隐蔽的安全威胁,能够在更长时间窗口内对多维度数据进行深度回溯和关联分析,能够快速发现异常行为或未知安全威胁,并及时采取防御措施。7.4基于大数据算法的安全技术1.以大数据模型为基础,分析安全威胁,构建动态自主学习的安全体系通过收集全球范围内的网络安全数据,建立集认证、授权、监控、分析、预警和响应处置于一体的安全服务体系,从中提取出威胁情报,包括恶意软件、漏洞信息、黑客组织等,实现对整个信息系统的安全形势掌控和处置,构建动态自学习安全防御体系。7.4基于大数据算法的安全技术2.以大数据分析为手段,分析安全事件,构建智能安全管理体制网络攻击手段日益多样化、协同化,并向着分布式发展,给安全管理人员判定安全事故增加了困难。而多样化的安全设备产生的不同形式的、大量的安全事件,使得管理人员难以从海量数据中及时发现、分析和准确判定安全事故。通过对网络数据的长期分析,对网络中所有设备的行为进行收集、记录和分析,建立每个设备的基础行为模型,通过机器学习等技术检测设备异常行为,行为分析对于发现零日漏洞和高级威胁有很好的效果。7.4基于大数据算法的安全技术3.以大数据技术为工具,检测安全威胁,实现更准确的安全趋势预测网络攻击具有突发性、偶然性和不连续性等特点,难以有效预测下一刻是否会发生攻击。但是,可以分析攻击目标、意图,并结合当前安全防护能力和脆弱性情况,预测下一段时间内安全风险分布情况。随着信息安全数据的高度共享,安全趋势预测的数据范围不再局限于业务系统和安全日志等数据,借助大数据思维,广泛关联网络舆情、政治局势、经济发展等数据,有效提高预测的准确率。如何利用大数据技术对海量数据进行实时处理分析,以快速检测和发现未知威胁,成为网络安全防护理念转型的核心与关键。7.4.2基于大数据算法的网络安全态势感知技术1.网络态势感知的概念态势感知是一种基于环境的、动态、整体地洞悉安全风险的能力,是以安全大数据为基础,从全局视角提升对安全威胁的发现识别、理解分析、响应处置能力的一种方式,最终是为了决策与行动,是安全能力的落地。网络安全态势感知的一般过程分为网络环境感知、态势理解和态势预测三部分。●网络环境感知是感知网络环境并提取网络数据。对于复杂动态的网络环境和繁多冗杂的数据,采用防病毒软件、漏洞扫描、防火墙和入侵检测系统等技术来收集网络数据,或通过资产列表、风险识别、调查、事件响应报告等方式来收集网络数据。等。7.4.2基于大数据算法的网络安全态势感知技术●态势理解是整合提取的网络数据,分析数据之间的相关性,定位网络脆弱点,评估安全事件发生的可能性,得到评估数据来制定决策,进行主动防御。态势理解是网络安全态势感知的核心,通过对不同的数据采用不同的方法进行分析,包括有自适应共振理论模型、贝叶斯网络分类器和博弈模型等。●态势预测是基于态势理解输出的网络数据,预测网络安全状况,得到预测数据来制定决策,执行主动防御。态势预测是网络安全态势感知的目标,不仅要预测网络威胁攻击以及攻击者的下一步行动,还要克服对数据完整性的依赖,预测网络安全状态的发展趋势。7.4.2基于大数据算法的网络安全态势感知技术2.网络安全态势感知的作用随着网络与信息技术的不断发展,人们的安全意识在逐步提高。人们已经不再坚持认为自己的网络是绝对安全的,相反的,认为网络遭受攻击是必然的、常态化的。人们不能阻止攻击行为,但是可以提前识别和发现攻击行为,尽可能降低损失,安全防护思想已经从过去的被动防御向主动防护和智能防护转变。在这样的背景下,以网络安全态势感知技术为人们有效解决问题提供了有效的支持,网络安全态势实现以下三个方面的转变:●安全建设的目标从满足合规转变为增强防御和威慑能力,并且更加注重对抗性,对情报技术提出了更高要求。7.4.2基于大数据算法的网络安全态势感知技术●攻击检测的对象从已知威胁转变为未知威胁,通过大数据分析、异常检测、态势感知、机器学习等技术,实现对高级威胁的检测。●对威胁的响应从人工分析并处置转变为自动响应闭环,强调应急响应、协同联动,实现安全弹性。3.网络安全态势感知系统的功能网络安全态势感知系统具备网络空间安全持续监控能力,能够及时发现各种攻击威胁与异常,能够对威胁相关的影响范围、攻击路径、目的、手段进行快速判别,从而支撑有效的安全决策和响应,能够建立安全预警机制,来完善风险控制、应急响应和整体安全防护的水平,实现威胁检测、分析响应、预测预防、主动防御四个功能。7.4.2基于大数据算法的网络安全态势感知技术●威胁检测:提供网络安全持续监控能力,及时发现各种攻击威胁与异常。●分析响应:建立威胁可视化及分析能力,对威胁的影响范围、攻击路径、目的、手段进行快速研判,目的是有效的安全决策和响应。●预测预防:建立风险通报和威胁预警机制,全面掌握攻击者目的、技术、攻击工具等。●主动防御:利用掌握的攻击者相关目的、技术、攻击工具等情报,完善防御体系。7.4.2基于大数据算法的网络安全态势感知技术4.网络安全态势感知系统技术架构构建网络安全态势感知平台,一是采集整个防御链条下的终端、边界、服务、应用等各类安全数据,收集与网络安全有关的各类威胁情报信息,并将这些数据进行统一存储,形成安全数据仓库。二是结合各类安全规划、安全模型、分析算法等,对数据仓库中的海量安全数据进行深度挖掘分析,从中发现安全事件、分析潜在威胁、预判未知风险,通过大数据智能分析产生网络威胁情报。三是基于大数据的分析结果和产生的威胁情报,实现网络安全威胁报警、重要安全系统的实时监测、网络风险预警及感知、可视化态势展示等应用。7.4.2基于大数据算法的网络安全态势感知技术整体技术架构分为3个层次,即网络安全威胁数据汇聚与存储、面向威胁情报的大数据分析、态势感知与预警业务应用。网络安全威胁数据汇聚与存储是确定要采集的态势感知数据源,并运用大数据存储管理技术将所采集的数据统一存储到大数据平台中,形成支撑数据分析和态势感知的各类原始的安全数据。7.4.2基于大数据算法的网络安全态势感知技术5.网络安全态势感知技术标准网络安全态势感知总体架构主要包括前端数据源、网络安全态势感知的核心组件和影响网络安全态势的要素(如应急处置、安全决策、数据共享等)三部分,其中网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论