CN119377995B 一种数据防泄漏体系的搭建方法 (新疆国融信联大数据投资有限公司)_第1页
CN119377995B 一种数据防泄漏体系的搭建方法 (新疆国融信联大数据投资有限公司)_第2页
CN119377995B 一种数据防泄漏体系的搭建方法 (新疆国融信联大数据投资有限公司)_第3页
CN119377995B 一种数据防泄漏体系的搭建方法 (新疆国融信联大数据投资有限公司)_第4页
CN119377995B 一种数据防泄漏体系的搭建方法 (新疆国融信联大数据投资有限公司)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

司蒙古自治州库尔勒市塔指西路天河美本申请提供一种数据防泄漏体系的搭建方触发数据融合和泄漏风险预测流程并获取新增模型,动态调整数据组合的敏感程度和防护措2获取来自不同数据源的多个数据集,针对每个数据集进行数据预根据主成分特征,构建数据泄漏风险预测模型,采用支持续监测不同数据源的数据更新情况,当检测到新增数据时,自动基于业务需求和数据使用场景,制定数据访问和共享策略,根据数据源接口适配器获取关系型数据库中的数据,并通过FTP协议读取文件服务器根据候选特征集构建特征重要性评估模型,通过递归特征消除方法利用Apriori算法对标准化后的关键特征数据集进行关联规则挖掘,计算特征对之间根据支持度和置信度绘制特征关联网络图,采用Dijkstra最短路3根据字段信息计算字段名称的Jaccard相似度,对数值型字段计算数据特征的皮尔逊若Jaccard相似度或皮尔逊相关系数大于预设的相似度阈值,则确定相应字段为潜在应用Apriori算法挖掘数据集间的频针对频繁项集计算关联规则的支持度和置信度,若支持度大利用强关联的数据项组合构建数据关联网络,采用Louvain算法检测数据关联网络中融合后的目标敏感度特征集合,采用主成分分析法对目标敏感度特征集合进行降维处理,获取多个异构数据源的预设评分标准,预设评分标准包括数采用随机森林算法,结合数据源可靠性得分计算各数据源中关键特征的重要性得分,通过数据源权重与特征重要性得分的乘积构建利用加权特征融合矩阵对不同数据源的关键特征进行加权求和运算,若存在同名特对融合后的目标敏感度特征集合进行Z_score标准化处理,消除不同特征间的量纲差针对标准化后的目标敏感度特征集合,计算特征协方差矩阵并求解特征值和特征向获取历史样本数据库及日志文件中的已知风险等级样本,针对样4采用网格搜索方法对支持向量机的核函数类型和惩罚参数C及核函数参数丫进行优对待预测的多源异构数据,通过特征提取及主成分变换,获取与若风险得分超过敏感度阈值,则将数据组合标记为高度敏感数据,根据数据组合中敏感信息类型及高度敏感数据标记,从预设脱敏针对脱敏处理后的数据组合,根据数据敏感程度及处理性能要求,7.根据权利要求1所述的方法,其特征在于,所述持续监测不同数据源的数据更新情括:接收数据源发送的更新状态信息,更新状态信息包括新增数据的时间戳和数据源标根据更新状态信息调用数据融合模块,数据融合模块采用基于时间对数据融合模块生成的融合数据集进行特征提取,采用若更新后的风险得分与预设阈值存在偏差,则采用随根据更新后的风险得分,调整相应数据组合的防护措施,包将数据泄漏风险预测模型的参数更新和防护措施调整信息记录至安全5获取数据泄漏风险和敏感程度信息,构建数据风险矩阵,数据风根据数据风险矩阵将数据组合映射到若干象限,针对所述象限制定访问和共享策略,若判断数据组合属于泄漏风险低但敏感程度高的象限,则实若判断数据组合属于泄漏风险高但敏感程度低的象限,则设部署全方位日志审计和异常监测系统,全方位日志审计和异常67[0018]根据数据源接口适配器获取关系型数据库中的数据,并通过FTP协议读取文件服化后的关键特征数据集;利用Apriori算法对标准化后的关键特征数据集进行关联规则挖Dijkstra最短路径算法识别风险传8标准化后的关键特征数据集。利用Apriori算法对标准化后的关键特征数据集进行关联规数据统一转换为UTF_8编码的CSV格式,存储在预处理数据集目录"/preprocessed_data"使用Apriori算法对标准化后的关键特征数据集进行关联规则挖掘,设定最小支持度为[0020]对每个数据集的数据类型、结构和内容据字段信息计算字段名称的Jaccard相似度,对数值型字段计算数据特征的皮尔逊相关系9例如"客户名称"和"用户姓名"的Jaccard相似度为0.85,"年收入"和"月薪"的皮尔逊相关数据源A的更新频率为24次/天、完整性为98%、异常值比例为0.5最终可靠性得分为接着,对矩阵中的同名特征进行加权平均,如"用户ID"在三个数据源的加权分数分别为进行训练并得到数据泄漏风险预测模型,将待预测的多源异构数据输入至风险预测模型据库和日志文件中提取10000条历史数据样本,包含20个主成分特征和对应的风险等级标用2000条独立测试样本评估模型性能,得到准确率94精确率92召回率95%。设定风融合和泄漏风险预测流程并获取新增数据的敏感度特征表示,更新数据泄漏风险预测模存在偏差,则采用随机梯度下降算法对数据泄漏风险预测模型进行在线学习和增量训练,Quartz调度框架设置5分钟间隔的定时任务,同时配置ApacheKafka消息队列,Topic为"data_update"。当检测到数据库表"user_info"新增100条记录时,立即向Kafka发送消息{source:"user_db",timestamp:"2024_04_1515:30:00",count:100}。数据融合模块接收后的平均风险得分为0.72。基于新的风险得分,使用SGDClassifier实现随从"内部可见"调整为"机密"。最后,系统生成审计日志{operation:"model_update",time:"2024_04_1515:35:00",risk_score:0.72,encr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论