一种多数据源融合实体关系真实度计算算法_第1页
一种多数据源融合实体关系真实度计算算法_第2页
一种多数据源融合实体关系真实度计算算法_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种多数据源融合实体关系真实度计算算法

0基于时域的大数据分析随着信息技术的快速发展,社会数据化程度不断提高,数据源的多样性、数据量的巨大化以及数据集相关性信息的获取和分析提供了更有利的条件。多源数据的组合或集成,多源数据的交叉验证和相关性分析,可以获得比单一数据源更准确、更全面的信息。在当前大数据时代,针对多源数据的融合已成为大数据分析处理的关键环节然而,由于数据管理系统在数据采集过程中的记录不准、人为操作等原因,错误数据、过时数据等数据不一致导致多个数据源对同一实体的联系存在冲突,因此,针对数据不确定信息的处理一直是多数据源融合所面临的主要问题之一,相关的解决方法、技术等学界已有一些研究。如:Yin等人面对在满足公安应用场景及业务需求中所遇见的多数据源融合过程中同一单值属性的实体对象关联多个对象值问题,即实体对象之间的关联产生多义性问题,本文基于应用场景的系统环境和业务数据特征,提出了一种结合时间属性权值和数据源权重的多数据源DatasourceRank算法,实现对实体对象之间真实度计算。该算法仅对实体对象相关联的数据进行计算,以数据源为基准单位,结合实体关系的时间属性以及各数据源权重,计算实体对象之间的关联度,从而发现当前的实体对象之间真实关联关系。其优点在于,可基于查询信息实时进行计算,并依据关联度高低向用户推荐检索结果,为业务分析工作提供更加精准的信息。1同一号号的关联度分析在本应用场景中,数据平台中的数据源有数百种,数据量多达两万多亿条,且每天还以数十亿条的量在不断增加。但是,数据源中的数据来源复杂,质量良莠不齐,多存在由于原始记录不准、更换号码、人为操作等原因,造成不同数据源中同一个号码可能关联不同的用户的情况,见图1。当出现这种情况时,如何高效计算该号码与每个用户的关联度,找出当前最有可能的使用人就是至关重要的问题。在本应用场景中,时间属性是重要的因素。比如,某个手机号码在2002~2006年系甲使用,但2007年至今该号码被甲销号后,又由运营商分配给乙使用,则该两组数据均为真实数据,但从信息对于业务工作的价值度来看,后组数据的重要程度明显要高于前者。因此,本文主要研究的问题可描述为:给定一批数据源集合S={S2各用户关联度的计算基于多数据源的实体关系关联度计算主要涉及实体关联时间属性权值的计算、数据源权重的计算以及所查询号码与各用户关联度的计算,见图2。同时,针对本应用场景,由于各数据源之间具有业务关联性,因此,对数据源权重的计算借鉴了PageRank算法2.1移动用户时间权重的计算如前所述,时间属性是权衡该类业务数据中实体之间关系价值的重要因素之一,因此,以运营商登记的用户号码注册信息为基准,结合同一用户在不同数据源中的号码记录情况,计算这些号码对于该用户的时间权重。假设T(usr,num)为用户usr与号码num的时间关系权值,当用户usr存在多个号码注册记录信息时,用户usr与各使用号码的时间权值可表示为T(usr,num)={T(usr,numθ(num2.2计算数据源的权重假设D=(D其中,m给定一个D的初始值D2.3实体关系关联度生成由公式(2)计算所查询号码num在数据源i下与用户usr的关联概率P式中,G表示所查询号码num在数据源i下与用户usr关联的总次数;V表示所查询号码num在数据源i下存在的所有关联总次数。然后,结合之前所计算得到的时间权重T(usr,num)和数据源权重D最后,依据多个数据源的信息价值,由公式(4)计算出号码num与用户usr的关联度P(num→usr)值。基于所查询号码与用户之间关联度的计算结果进行排序,按照关联度值的排名顺序向用户推荐结果,其中,关联度值最高的关联关系即为该号码当前最有可能的使用人。3实体关系时间权重的确定本文使用了1500条公开电话号码数据作为查询数据,分别基于本文DatasourceRank算法和PageRank算法进行关联度值计算并排序,提取其结果进行分析对比验证,其结果可见表1。本文提出的DatasourceRank关联度计算算法基于实际应用场景中的数据特性,考虑了实体关系的时间价值、不同数据源权重等多种影响因素,其准确率明显更高,同时,由于其以数据源为基准单位,仅对实体对象相关联的数据进行计算,所需要的时间开销也有所降低。以其中一个号码“138*****883”为查询对象进行详细分析,从业务大数据平台中检索相关数据,发现该号码在4个数据源中存在多条记录数据,该号码与多个用户之间存在交叉关联性,见图3,图中椭圆形表示手机号码,方形表示数据源,而圆形表示使用过该号码的人。根据本文的DatasourceRank方法进行计算。首先,进行实体关系时间权重的计算,主要伪代码如下:当D表3是基于PageRank算法所获得的排序结果。将表2与表3对比可以看到,排序结果发生了变化,下面针对这些变化进行分析:表3中排在第1的关联用户a在表2中排在了第2,表3的结果仅依据各用户实体与所检索号码的关联记录频次进行计算和排序,号码“138*****883”与用户a的关联记录数最多,所以得到的关联度值最高,被排在了第1,但从使用时间属性上看,用户b使用此号码的最后时间明显要比用户a晚,从本应用的业务价值来说,用户b的价值比用户a的价值更重要。使用本文算法进行关联度计算排序后,在表2中可见用户b与号码“138*****883”的时间关系和数据源业务权重值相对更重要,进而基于加权计算后,得到的总关联度值最高,故用户b排在了结果的第一位,其结果更符合用户的实际业务分析需求。4面向数据源的业务数据分析本文针对目前存在的多数据源融合过程中,同一单值属性的实体对象关联多个对象值的问题进行分析,基于数据管理的业务需求及公安应用场景,提出了一种结合实体关系时间属性权值和数据源权重的计算算法,通过加权计算的方式计算实体关系的关联度值,使用户在搜索时能迅速准确地找到当前与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论