CN119396826B 分享数据治理平台 (深圳市分享信息系统有限公司)_第1页
CN119396826B 分享数据治理平台 (深圳市分享信息系统有限公司)_第2页
CN119396826B 分享数据治理平台 (深圳市分享信息系统有限公司)_第3页
CN119396826B 分享数据治理平台 (深圳市分享信息系统有限公司)_第4页
CN119396826B 分享数据治理平台 (深圳市分享信息系统有限公司)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利审查员李艳丽(65)同一申请的已公布的文献号(73)专利权人深圳市分享信息系统有限公司地址518100广东省深圳市南山区粤海街道麻岭社区科研路9号比克科技大厦(72)发明人刘烨铭夏舒俊李诗婷台本发明属于数据治理技术领域,本发明提供了分享数据治理平台,通过对治理平台治理后的数据进行分析,有助于识别治理平台的数据治理能力,并分析当前实际分享数据与历史治理数据之间的差异程度,评估实际分享数据信息与历史治理数据之间的差异,从而提高了评估实际数据与历史治理数据之间差异的准确度,有利于对治理平台的数据治理方案作出调整,再将内存超限组与特征非重合组进行分类处理,解决治理平台在治理多样性分享数据时效率低下的问题,进而2历史数据采集模块:获取历史接收周期内治理平台历史接收信息,对历史接收信息进在历史接收周期内,将数据治理平台的分享数据进行提取,并进行分类归纳,过程如获取分析数据组内相同接收特征数量,将分析数据将多个分析数据组相对应的接收特征值进行大小比较,并按照从实际数据分析模块:基于治理局限信号,通过实际数据日志对实际分享数据信息进行2.根据权利要求1所述的分享数据治理平台,其特征在于:历史治理数据的获取方式在历史治理表格内,获取分析数据组内相同接收特征数量,并将历史治理表格内分析数据组相对应的单元组数量比进行相加求获取分析数据组内相同接收特征相对应分享数据的内存,并将相同接收特征相对应分享数据的内存进行大小比较,得到历史组内最大内存和历史组将历史治理表格内分析数据组相对应的单元内存范围差进行相加求和取均值,得到内3算得到数据差异值Qc,其中,θ、μ表示为预设的比例系数。4.根据权利要求3所述的分享数据治理平台,其特征在于:内存差异值的提取方式为:将实际分享数据按照数据特征进行分类归纳,将相同数据特征的实际分享数据作为一个比对数据组,得到多个比对数据组;任意从多个比对数据组内抽取一个比对数据组进行分析,过程如下:获取比对数据组内实际分享数据相对应的内存,并将实际分享数据相对应的内存进行大小比较,得到组内最大内存;对历史治理数据进行分析,过程如下:获取分析数据组相对应的历史组内最大内存和历史组内最小内存,将多个分析数据组相对应的历史组内最大内存进行大小比较,提取最大的历史组内最大内存,标记为历史最大内存;将组内最大内存与历史最大内存进行比较,若组内最大内存大于历史最大内存,将存在内存超出历史最大内存的实际分享数据的比对数据组标记为内存超限组;算,得到内存超限数量;提取内存超限组内超出历史最大内存的实际分享数据,获取超出历史最大内存的实际分享数据的内存,与历史最大内存进行作差,并与历史最大内存进行比值计算,得到内存超出值;将所有内存超限组相对应的内存超出值进行相加求和取均值,得到超出程度值;将内存超限数量与超出程度值进行乘积计算,得到内存差异值,并标记为Nc。5.根据权利要求3所述的分享数据治理平台,其特征在于:类型差异值的获取方式为:将多个比对数据组相对应的数据特征进行整合,得到比对特征集合R={r₁、r₂、r₃、、rn},其中,In表示为第n个比对数据组相对应的数据特征,n表示为比对数据组的总数量;将多个分析数据组相对应的接收特征进行整合,得到分析特征集合T={t₁、t₂、t₃、、tm},其中,tm表示为第m个分析数据组相对应的接收特征,m表示为分析数据组的总数量;从比对特征集合R与分析特征集合T中元素进行特征重合比对,若比对特征集合R中元素的数据特征与分析特征集合T中元素的接收特征不重合,则将比对特征集合R中元素的数据特征标记为非重合特征,并将非重合特征相对应的比对数据组再次标记为特征非重合组;统计特征非重合组的数量,并比对数据组总数量进行比值计算,得到类型差异值,并标6.根据权利要求1所述的分享数据治理平台,其特征在于:分类讨论的判定过程如下:4将内存超限组与特征重合组进行重合比较,若内存超限组与特征重合组为同一个比对若内存超限组与特征重合组不为同一个比对数据组,则标记为不同超限重合组;将内存超限组与特征非重合组进行重合比较,若内存超限组与特征非重合组为同一个比对数据组,则标记为同非特征超限组;若内存超限组与特征非重合组不为同一个比对分析组,则标记为不同非特征超限组。7.根据权利要求6所述的分享数据治理平台,其特征在于:对同超限重合组和不同超限将同超限重合组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存后进行治理操作;优先将特征重合组内数据进行治理操作,再将内存超限组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存后进行治理操作。8.根据权利要求6所述的分享数据治理平台,其特征在于:对同非特征超限组和不同非特征超限组的治理方案调整,过程如下:将同非特征超限组内的内存超出值进行大小比较,并按照从小到大的顺序进行排序,得到优先治理表;按照优先治理表内的排序,逐一将特征超限组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存,并将压缩后的实际分享数据转换为历史治理表格内分析数据组相对应的接收特征;对内存超限组优先处理,将内存超限组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存,进行数据治理操作,再将特征非重合组转换为历史治理表格内分析数据组相对应的接收特征,进行数据治理操作。5分享数据治理平台技术领域[0001]本发明属于数据治理技术领域,具体地说是分享数据治理平台。背景技术[0002]数据治理平台通常采用数据中台技术和微服务架构,为数据资源中心与外部数据系统提供数据服务,同时数据治理平台也是数据质量检查工具,支持数据比对,重复相似检查等操作。[0003]在现有技术中,通常使用数据治理平台对不同来源的分享数据进行治理,但是,缺乏对历史接收周期内治理平台处理数据的能力和特点的系统性评估,例如,没有有效地分析历史数据中接收特征的多样性、内存使用情况等,从而难以判断治理平台在处理数据时的局限性或多样性,而且在实际数据治理过程中,还忽视了实际分享数据与治理平台治理类型之间的匹配性评估,这可能导致治理平台在处理某些类型的数据时效率低下,甚至无法正常工作,因此,本申请通过对治理平台治理后的数据进行分析,有助于识别治理平台的数据治理能力,并分析当前实际分享数据与历史治理数据之间的差异程度,评估实际分享数据信息与历史治理数据之间的差异,从而提高了评估实际数据与历史治理数据之间差异的准确度,有利于对治理平台的数据治理方案作出调整,再将内存超限组与特征非重合组进行分类处理,解决治理平台在治理多样性分享数据时效率低下的问题,进而通过调整数据治理平台治理数据的优先顺序,提高治理平台在治理多样性数据时的治理效率。发明内容[0005]为了弥补现有技术的不足,解决背景技术中所提出的至少一个技术问题。[0007]历史数据采集模块:获取历史接收周期内治理平台历史接收信息,对历史接收信[0008]历史数据分析模块:基于历史治理表格,对历史治理表格内多个分析数据组进行分析,得到历史治理数据,其中,历史治理数据包括类型占比和内存占比,并对历史治理数据进行分析处理,得到平台治理值,将平台治理值与平台治理阈值进行比较,若平台治理值大于平台治理阈值,则生成治理局限信号;[0009]实际数据分析模块:基于治理局限信号,通过实际数据日志对实际分享数据信息进行提取,其中,实际分享数据信息包括内存差异值和类型差异值,将实际分享数据信息与历史治理数据进行分析处理,得到数据差异值,并与数据差异阈值进行比较,若数据差异值小于数据差异阈值,则生成治理优化信号;[0010]治理方案优化模块:基于治理优化信号,对治理方案进行调整,完成对实际分享数据的治理工作。[0011]作为本发明进一步的方案为:历史治理表格的获取方式为:6[0017]将类型占比L₂和内存占比N₂代入到公式:组内最大内存和历史组内最小内存进行作差,并与分享数据治理平台的内存进行比值计[0024]将类型差异值Lc与内存差异值Nc代入到公式:7[0031]将组内最大内存与历史最大内存进行比较,若组内最大内存大于历史最大内存,将存在内存超出历史最大内存的实际分享数据的比对数据组标记为内存超限组;[0032]统计内存超限组的数量,并将内存超限组的数量与比对数据组的总数量进行比值[0033]提取内存超限组内超出历史最大内存的实际分享数据,获取超出历史最大内存的实际分享数据的内存,与历史最大内存进行作差,并与历史最大内存进行比值计算,得到内存超出值;[0034]将所有内存超限组相对应的内存超出值进行相加求和取均值,得到超出程度值;[0035]将内存超限数量与超出程度值进行乘积计算,得到内存差异值,并标记为Nc。[0036]作为本发明进一步的方案为:类型差异值的获取方式为:[0037]将多个比对数据组相对应的数据特征进行整合,得到比对特征集合,其中,Yn表示为第n个比对数据组相对应的数据特征,n表示为比对数据组的总数量;[0038]将多个分析数据组相对应的接收特征进行整合,得到分析特征集合[0039]从比对特征集合R与分析特征集合T中元素进行特征重合比对,若比对特征集合R中元素的数据特征与分析特征集合T中元素的接收特征不重合,则将比对特征集合R中元素的数据特征标记为非重合特征,并将非重合特征相对应的比对数据组再次标记为特征非重合组;[0040]统计特征非重合组的数量,并比对数据组总数量进行比值计算,得到类型差异值,并标记为Lc。[0041]作为本发明进一步的方案为:分类讨论的判定过程如下:[0042]将内存超限组与特征重合组进行重合比较,若内存超限组与特征重合组为同一个比对数据组,则标记为同超限重合组;[0043]若内存超限组与特征重合组不为同一个比对数据组,则标记为不同超限重合组;[0044]将内存超限组与特征非重合组进行重合比较,若内存超限组与特征非重合组为同一个比对数据组,则标记为同非特征超限组;[0045]若内存超限组与特征非重合组不为同一个比对分析组,则标记为不同非特征超限[0046]作为本发明进一步的方案为:对同超限重合组和不同超限重合组的治理方案调[0047]将同超限重合组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存后进行治理操作;[0048]优先将特征重合组内数据进行治理操作,再将内存超限组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存后进行治理操作。[0049]作为本发明进一步的方案为:对同非特征超限组和不同非特征超限组的治理方案8[0050]将同非特征超限组内的内存超出值进行大小比较,并按照从小到大的顺序进行排[0051]按照优先治理表内的排序,逐一将特征超限组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存,并将压缩后的实际分享数据转换为历史治理表格内分析数据组相对应的接收特征;[0052]对内存超限组优先处理,将内存超限组内内存超出历史最大内存的实际分享数据进行内存压缩处理,压缩至小于等于历史最大内存,进行数据治理操作,再将特征非重合组转换为历史治理表格内分析数据组相对应的接收特征,进行数据治理操作。[0053]本发明的有益效果如下:[0054](1)本发明通过分析数据治理平台所治理的历史数据相对应的接收特征,并将相同接收特征的历史数据进行归纳整合,得到历史治理表格,分析历史治理表格内数据,得到平台治理值,从而通过平台治理值反映出治理平台在历史周期内所处理的数据类型以及数据的内存大小,有助于识别治理平台的数据治理能力;[0055](2)本发明基于治理局限信号,通过实际数据日志对实际分享数据信息进行提取,并与历史治理数据进行比对分析,得到数据差异值,通过数据差异值综合反映出实际分享数据与历史治理数据之间的差异程度,评估实际分享数据信息与历史治理数据之间的差异,从而提高了评估实际数据与历史治理数据之间差异的准确度,有利于对治理平台的数据治理方案作出调整;[0056](3)本发明通过分类讨论的方式对内存超限组、特征重合组和特征非重合组内数据进行分析,并针对性地对分析结果进行治理策略改进,从而解决治理平台在治理多样性分享数据时效率低下的问题,进而通过调整数据治理平台治理数据的优先顺序,提高治理平台在治理多样性数据时的治理效率。附图说明[0057]下面结合附图对本发明作进一步说明。[0058]图1是本发明分享数据治理平台的模块组成图;[0059]图2是本发明分享数据治理平台内的步骤流程图。具体实施方式[0060]为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。[0061]实施例1[0062]如图1—图2所示,本发明实施[0063]历史数据采集模块:获取历史接收周期内治理平台历史接收信息,其中,历史接收信息包括接收特征,对接收特征进行分析处理,得到接收特征值,并基于接收特征值,得到历史治理表格;[0065]具体的,在历史接收周期内,将数据治理平台的分享数据进行提取,并进行分类归9[0066]需要说明的是,同类归纳的方式是通过将相同接收特征的数据进行归纳操作;析数据组是至少由两个或两个以上相同接收特征数据组成;[0068]获取分析数据组内相同接收特征数量,将分析数据组内相同接收特征数量与目标分析周期内分享数据总数量进行比值计算,得到接收特征值;[0069]将多个分析数据组相对应的接收特征值进行大小比较,并按照从大到小的方式进[0070]历史数据分析模块:基于历史治理表格,对历史治理表格内多个分析数据组进行分析,得到历史治理数据,其中,历史治理数据包括类型占比和内存占比,并对历史治理数据进行分析处理,得到平台治理值,将平台治理值与平台治理阈值进行比较,生成治理类型[0071]其中,治理类型信号包括治理多样信号或治理局限信号;[0072]需要说明的是,在历史治理表格内,不同分析数据组内的接收特征是不相同的,但是,分析数据组内的目标接收特征为相同特征;[0073]在历史治理表格内,获取分析数据组内相同接收特征数量,并与历史接收信息内的接收特征总数量进行比值计算,得到单元组数量比;[0074]将历史治理表格内分析数据组相对应的单元组数量比进行相加求和取均值,得到[0075]获取分析数据组内相同接收特征相对应分享数据的内存,并将相同接收特征相对应分享数据的内存进行大小比较,得到历史组内最大内存和历史组内最小内存,并将历史组内最大内存和历史组内最小内存进行作差,并与分享数据治理平台的内存进行比值计[0076]将历史治理表格内分析数据组相对应的单元内存范围差进行相加求和取均值,得[0077]将类型占比L₂和内存占比N₂代入到公式:计算得到平台治理值Pz,其中,a、β表示为预设的比例系数,且α取值为2.347,β取值为[0078]可以理解的是,平台治理值所表示的含义是:反映出治理平台在历史周期内所处理的数据类型以及数据的内存大小,具体来说,若这个平台治理值越大,则说明治理平台在历史周期内所处理的数据类型单一化,且处理数据的内存范围较小,反之,若这个值越小,则说明治理平台在历史周期内所处理的数据类型多样化,且相对应数据的内存大小多样[0080]若平台治理值大于平台治理阈值,则说明治理平台在历史周期内所处理的数据类型单一化,且处理数据的内存范围较小,生成治[0081]若平台治理值小于等于平台治理阈值,则说明治理平台在历史周期内所处理的数据类型多样化,且处理数据的内存大小多样化,生成治理多样信号;[0082]本发明实施例具体实施方式为:通过分析数据治理平台所治理的历史数据相对应的接收特征,并将相同接收特征的历史数据进行归纳整合,得到历史治理表格,分析历史治理表格内数据,得到平台治理值,从而通过平台治理值反映出治理平台在历史周期内所处理的数据类型以及数据的内存大小,有助于识别治理平台的数据治理能力,并根据识别得到的数据治理能力,针对性对治理策略进行改进。[0083]实施例2[0084]如图1—图2所示,在实施例1的基础上,本发明实施例所述的分享数据治理平台,[0085]实际数据分析模块:基于治理局限信号,通过实际数据日志对实际分享数据信息进行提取,其中,实际分享数据信息包括内存差异值和类型差异值,将实际分享数据信息与历史治理数据进行分析处理,得到数据差异值,并与数据差异阈值进行比较,若数据差异值小于数据差异阈值,则生成治理优化信号;[0086]在一些实施例中,将实际分享数据按照数据特征进行分类归纳,将相同数据特征的实际分享数据作为一个比对数据组,得到多个比对数据组;[0087]需要说明的是,每个比对数据组内实际分享数据的数据特征相同,且比对数据组内至少有两个或两个以上的实际分享数据构成,但是,不同比对数据组的数据特征不同;[0088]任意从多个比对数据组内抽取一个比对数据组进行分析,过程如下:[0089]获取比对数据组内实际分享数据相对应的内存,并将实际分享数据相对应的内存进行大小比较,得到组内最大内存;[0091]获取分析数据组相对应的历史组内最大内存,将多个分析数据组相对应的历史组内最大内存进行大小比较,提取最大的历史组内最大内存,标记为历史最大内存;[0092]将组内最大内存与历史最大内存进行比较,过程如下:[0093]若组内最大内存大于历史最大内存,即比对数据组内存在内存超出历史最大内存的实际分享数据,将存在内存超出历史最大内存的实际分享数据的比对数据组标记为内存超限组;[0094]若组内最大内存小于等于历史最大内存,即比对数据组内实际分享数据内存均小于历史最大内存,并标记为内存未超组;[0095]统计内存超限组的数量,并将内存超限组的数量与比对数据组的总数量进行比值[0096]提取内存超限组内超出历史内存范围的实际分享数据,获取超出历史内存范围的实际分享数据的内存,与历史最大内存进行作差,并与历史最大内存进行比值计算,得到内[0097]将所有内存超限组相对应的内存超出值进行相加求和取均值,得到超出程度值;[0098]将内存超限数量与超出程度值进行乘积计算,得到内存差异值,并标记为Nc;[0099]将多个比对数据组相对应的数据特征进行整合,得到比对特征集合,其中,Yn表示为第n个比对数据组相对应的数据将比对特征集合R中元素的数据特征标记为重合特征,并将重合特征相对应的比对数据组则将比对特征集合R中元素的数据特征标记为非重合特征,并将非重合特征相对应的比对重合组和特征非重合组内数据进行分析,并对治理方案进行调整,完成对实际分享数据的治理工作;[0115]将内存超限组与特征重合组进行重合比较,过程如下:[0116]若内存超限组与特征重合组为同一个比对数据组,则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论