犯罪信息网络分析与建模_第1页
犯罪信息网络分析与建模_第2页
犯罪信息网络分析与建模_第3页
犯罪信息网络分析与建模_第4页
犯罪信息网络分析与建模_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、犯罪信息网络分析与建模庄一洲1庄一洲、刘森峰、肖柳斯并列第1作者,刘森峰2*,肖柳斯2*指导教师:程国胜3*(南京信息工程大学1.大气物理学院,2.大气科学学院,3.数学与统计学院,江苏 南京210044)摘要:本文基于2012年美国数学建模 C题的数据,利用83人共15个种类的600条信息进 行了犯罪信息网络分析, 建立了概率网络模型和最短路径模型, 设计了相应的求解算法, 对 所有人的可疑度进行评价和排序,找出通信网络中的可疑嫌犯,并对两个模型进行了对比。然后基于中心性理论建立了识别嫌犯领导人的模型,得到犯罪集团中最可能的领导人。最后讨论了文本分析、语义网络分析方法在犯罪信息网络分析中的应

2、用,并对模型在其他领域推广应用的可行性进行了探讨。关键字:网络分析;概率;图论;中心性;文本分析;语义分析0引言随着资本经济扩张以及高科技在各行各业的广泛应用,经济型白领犯罪的势头愈发迅猛。张文军1 的研究发现,白领犯罪人利用职权之便或者娴熟业务技能的优势,使得犯罪主体所采用的犯罪手段与其他形式犯罪相比,具有更大的隐秘性,从而使得案件侦查的难度加大。林志刚2 的研究表明,越是经验丰富的高智商犯罪嫌疑人,做事越小心谨慎。基于一系列的犯罪心理研究成果对交流信息即情报进行挖掘,有助于提取涉嫌关系网。 陈鹏等3 对犯罪组织结构的社会网络进行了研究。Freema n 4 提出了一套计算整个网络中任何一个

3、成员在网络中的重要与影响程度方法,包括点度中心度,中间中心度和接近中心度。周景等 5通过文本挖掘技术,提取并建立情报信息的特征向量,采用中心度测度算法,提出一个自动化的情报分析系统,能定量分析各成员在犯罪网络中的地位和角色。因此,从情报关系网络中侦破经济型白领犯罪的急需解决的问题。本文从某个案件的通信网络出发,对信息进行分类和识别,建立数学模型对人员的可疑性进行评价并且确定犯罪集团的领导人。1数据本文分析数据来自 2012年美国交叉学科建模竞赛(ICM),题目以商业犯罪为背景, 给出了发生在83人(7人确定为嫌犯,8人确定非嫌犯)之间15个种类(3类为可疑型) 的600条交流信息。2嫌犯可疑度

4、当前已经确认所有 83人中有8人为非嫌犯,7人为嫌犯,且15类信息中主题7、11、 13为可能与罪案有关的主题。基于已知情报,建立概率模型和最短路径网络模型对公司内 所有83人的可疑度进行研究。2. 1概率模型除了已确定的嫌犯和非嫌犯, 我们假设任何一个人是嫌犯的可能性仅与跟其有直接信息 联系的人有关,如关联人是嫌犯或者信息是可疑类型,则嫌疑度较大,以下我们将以结点的概念来代替该案件中的 “人”。为了表明这个概率网络中结点间的关系,我们建立以下模型。设S=7,11,13为可疑主题集,U=1,2,3,4,5,6,8,9,10,12,14,15为非可疑主题集;把83个结 点分成3组,即嫌犯组、非嫌

5、犯组和未确定组。分别设pa, pb和PJ ( j =0,183,不包括15个属于嫌犯组或非嫌犯组的结点)为三类结点各自是嫌犯的概率,易知pa=1, pb =0,01 O结点j收发可疑主题信息数越多,则R越大。结点的可疑程度:Wji 二 na a nb b, i =1,2丄(1)其中na( nb)为该结点收发的可疑(非可疑)主题信息数,a ,b分别为其权重。Pj2pWJ2Wj3Pj3W1 PjWJ4 PJ4WjiPjl图1结点网络由许多以一未确定组结点为中心,包括与其直接联系的所有结点构成的小网络组成(如图1所示)。仿照全概率公式 P(A) .P(A| BI)P(BI) 1的形式,设网络的中心结

6、I点j的概率Pj为全概率公式中的P(A),相连结点概率Pji为公式中的P(Bi),而WiiP(A|Bn戶于故JI迟 Wji,iP =P(A)=2: P(A|B)P(B)】 = :Z 丁Ii I X Wji.IWJippJi、PjiWjiI、WjiI任一结点的概率均由其周围有直接的联系的结点概率计算得到,实际上是把所有结点给联系起来,形成了一个“概率网络”。但是未确定组的结点概率都是未知的,所以直接利用上式不能计算出所有结点的概率,于是设计以下迭代算法求解(图1形象地展示求解过程):1. 设定迭代次数T,初始化参数,Pj(0) = 0(j =1,2,68) , t=1。2. 更新网络结点的概率值

7、:遍历j =1,2,.,68,使用式(2),计算未确定组所有结点概率片。683计算所有结点在本次迭代前后的概率差平方和:e(t)=E Pj-Pjg)24.令t - t 1,若t T则程序终止,否则返回2.计算过程中,e(t)若随t增加而趋近于0,则表明整个概率网络趋近于稳定,且所有的Pj基本已满足式(2)t = 0t = 1t=2最 g图22.2最短路径网络模型用网络图G二V(G), E(G)表示整个信息传递网络,其中结点集合V(G)表示人员,边集合E(G)表示信息;嫌犯组结点构成集合 V(G),非嫌犯组结点构成集合 Vn(G)。通常为 了避免泄密,嫌犯同谋会用尽可能短的人际网络路径来进行谋划

8、信息的交流,所以图上的最短路径对评价可疑性有重要的作用,此外可疑信息也要比一般信息重要的多。因此,结点的可疑程度取决于网络图中信息的类型、数量和与嫌犯间的“距离”。最短路径距离d(Vi,Vo(G)用结点Vi到Vo(G)中任意结点的之间的最少边数来表示:d(v,V(G)=叫门d(v,Vk, vVo(G)定义可疑指数Score来度量结点的可疑程度,已知嫌犯、非嫌犯的可疑指数分别为10、0 ;非确定组可疑指数按下式计算Score = jWjd(Vi,V(G)其中,Wj表示第i个结点直接相连的第j条边的权重,它的值由信息的类型决定, 可疑信息和非可疑信息分别取值和W2,求和符号对所有与结点 Vi直接相

9、连的边进行求和,Score越大,第i个结点的嫌疑程度越高。具体的算法过程如下所示: 1.创建嫌犯组的结点集合 V(G)和非嫌犯组的结点集合 Vn(G);2计算所有结点到V(G)的最短距离;创建一个邻接矩阵来表示信息传递网络,相连的边赋值为1,不相连的边赋值为0。V(G)的结点初始化 d(Vk,V(G) =0,Vn(G)中的结点初始化 d(Vk,V(G)二。同时构成新的集合(1) 从V0(G)的结点出发,在矩阵中搜索所有与其直接相连的结点,WG),将它们的最小距离赋值为1。(2) 继续往下搜索,某个结点一旦被访问赋值过,它的值将不会再被修改,直到网络 图中所有结点都被访问过为止;3. 访问所有的

10、边,赋给它们权重w,根据公式(3)计算d(v,V(G),并且由它相连的两个结点计算Ld(Vi,V(G)4. 对于集合Vo(G)的结点,Score赋值为10.0;对于集合Vn(G),Score赋值为0.0;其他结点的可疑指数按公式(4)累加计算每个结点收到的可疑贡献总和。整个算法流程可由图 3形象表达。d = 0d = 1d = 2图3嫌犯由黑色圈表示,可疑度越大,圈内颜色越深2.3结论在概率模型中,设置参数:a =0.9,b=0.1,T=20,基于以上所设计的迭代算法,使用MATLAB编程计算,e(t)随t的变化趋势如图4所示:经过20次迭代计算后,e(t) ::: 0.001 ,即未确定组的

11、各个结点概率值R已经趋于稳定。对所有结点按Pj进行排序,得到一份83人的可疑度排序表(略)。设定临界概率值为 Pd =0.5,概率高于Pd的结点则认为其属于嫌犯类(共 43人)。 在图论模型中,我们设1.0可疑信息Wj 二0.1 一般信息k即认为10条一般信息的对可疑度的贡献等价于1条可疑信息。根据模型求解步骤,计算每一个Score , ( i 32183 ),可得到可疑度排序表(略);2条可疑信息,即被确认为嫌设定临界值Score = 2 (如一个人与已知犯罪者交流超过 犯),结果显示共有38个人被确定为嫌犯。2.4模型比较与优缺点分析将模型一与模型二得到的各结点嫌疑度(可能性)通过图5共同

12、展示:图5图中y轴(嫌疑度排名)采用了对数坐标,因为我们更重视排名靠前即嫌疑度较大的结 点(人)。以上建立的两个模型, 模型一以概率论为基础, 将整个信息网处理成一个概率网,借助全概率公式的形式,将信息类型和数量与每个人的涉嫌程度联系起来,所用的迭代算法巧妙有效,且收敛快;而模型二以图论为基础,一个人是一个顶点,边长用以衡量一个未确定组 的人与嫌犯的关系,边长越短,二者关系越密切,则此人的嫌疑度越大,模型考虑了未确定 组人与嫌犯的距离, 考虑了不同信息对可疑度的影响不同;算法复杂度小,运算速度快,容易实现。但模型存在以下缺点:1)模型中的权重参数以及嫌疑性分界线都由人工设定,导致嫌疑人序列因设

13、置的参量的变化而有所变化。尽管通过改变参量可以验证模型是稳定的,但是仍不能提供保证模型结果有效的理由。对此采用的改进方法只能是在与其他模型的结果作出对比,或者将模型应用于其他实例作出对比之后,找到最合适的参量。2) 在建立的所有模型中,我们假设收、发信息对侦查分析具有同样的效果,即信息传 递无向,但是事实上,在一些案例中,这样的假设是不合理的。因此在以后的工作中,必须针对案例本身做出适当调整。3)针对信息本身,我们只关注了其是否可疑,如果可以对其可疑程度进一步分类,效果会更好;此外,我们得到的是经过一次处理的信息,如果我们可以得到源信息,将有利于我们挖掘更多的信息去辨别各人员的可以程度,提高模

14、型精度。4)没有考虑信息发出方与接收方的差异,仅考虑信息对通信双方的影响,没考虑对其他人的影响。3嫌犯领导人的识别陈鹏等的研究提出了犯罪组织结构的社会网络的分析方法。Freeman认为成员在犯罪网络中的地位可以通过该网络的结构的一些特征来体现,并提出了一套计算网络中成员的重要性和地位的方法,包括点度中心度,中间中心度和接近中心度。1) 点度中心度cd (n i) = d (ni)(5)式中d(nj表示成员ni的连接数。网络中与某结点直接相连的结点的数目越多,该结点的影 响力越大。(6)2) 中间中心度Cb(ni) gjk(ni)/gjkj史式中gjk为除了结点i以外任意两个结点j和k之间的最短

15、路路径个数,gjk(nJ是结点j和k之间的最短路路径经过结点 i的个数。当一个结点处于其他 2个结点的最短路径上,表明 该结点具有控制其他 2个结点之间通信的能力,处于比较重要的地位。(7)3) 接近中心度CC ( ni ) dm)j吕式中d(ni, nj)表示结点ni到达其他任意一位结点 的最短距离。当网络中一结点到达其他结点最短路径的总和越小,表明该结点更容易通过较短的距离与其他结点联系,为领导人的可能性较大。以上的研究结果表明犯罪集团领导人在社会网络中往往具有中心性的特征,我们定义一个综合指数来评价网络中一个结点的中心性程度(8)中的M、-2和3表示三项对应的权重系数,Cd、CB和CC由

16、各指标归一化后得到的。根据2.2确定的嫌犯,分别计算每个人的Cd、Cb 和 Cc,设1=-2=-3 = 1/3,计算综合指数C,结果显示排在前 3位的为Paul、Elsie和Dolores,这三个人最可能是犯罪集团的 领导人。而且目前案件已知公司中有3名主管领导人,而 Dolores正是其中之一,这对侦破案件具有重要的意义。4模型的进一步讨论4.1文本分析与语义网络分析犯罪侦查过程中,往往能收集到大量情报,但是就情报表面资料往往不足以提供破案线 索,而必须对情报内在的本质进行挖掘,以及对情报间的规律进行探索,从而从大量的资料 中得到有效的信息。 随着计算机技术以及数学方法的发展, 越来越多的人

17、对情报分析进行深 入的研究, 其中有两种比较常用的智能方法: 文本分析和语义网络分析。其中,文本分析可 以根据其应用领域分为三种类型:口令分析, 内容分析, 数据分析。而语义网络分析既是一 种研究方法,也是一种理论框架,后者以同义和认知为基础, 关注于篇章结构,依据文本内 容分析去发掘字符的使用频率。在我们模型中,可以应用文本分析和语义网络分析方法对信息主题进行进一步挖掘,有 利于克服模型中由于数据因素而造成的缺陷,其方法如下:1)挖掘关键词 我们主要应用频率统计、 关联式法则分析、 数据挖掘等一系列的数学方法和计算机技术 去挖掘文本关键词,步骤如下: 对文本进行词语使用频率统计,找到高频词。

18、 初步认定可疑关键词 利用关联式规则分析,对可疑关键词就可信度进行排序,确定关键词2)根据可疑关键词对交流信息进行分类。3)就分类主题和关系密切程度对所有人进行分类。 基于文本分析和语义网络分析对信息进行统计和分类, 即预处理, 有助于我们将模型应用于超大容量的信息网。4.2 其他学科应用 我们建立的模型不只是能应用于解决犯罪侦查问题,模型中用到的概率论、迭代算法、 图论等知识广泛应用于不同的学科和领域, 我们的模型特别适合于各种网络数据资料, 根据 一定的特征进行排序。模型中的“结点“可以具体化成为实物,应用于各个领域的分析中。例如, 将模型应用于感染细胞辨别中, 模型中结点即受感染的细胞,

19、 根据与细胞直接相关系 的细胞群的情况而判定其是否受到感染。随着现代医学影像技术以及其他实验技术的发展, 我们可以得到已感染的细胞数量以及位置等数据, 再应用我们的模型, 有助于了解感染扩大 的速度与范围。5 总结 在参加了多次数学建模竞赛后, 首先, 我们体会到了团队合作的重要性, 团队中三位队 员应在科学的时间计划下充分发挥各自优势,团结合作,合理分工,提高解决问题的效率。 其次,要充分开拓思路,发散思维,善于捕捉灵感与整理零散的想法,及时讨论与完善,还 要重视交叉学科知识应用, 这样在解决复杂问题时才能找到较为有效和创新的思路。我们在解决嫌犯确认问题时建立的两个模型分别运用了概率论和图论

20、中的知识,同时设计了巧妙的求解算法,简单有效地解决了问题。最后,细节是影响论文质量的一个重要因素,连贯、流 畅的行文,直观、精美的图表都能为论文增色不少。此外,竞争意识,坚持不懈的精神以及 一丝不苟的研究态度在比赛中也十分重要。参考文献:1 张文军论白领犯罪J上饶师范学院学报.2005,25:51-552 林志刚贪污贿赂犯罪的心理学剖析 J.淮海文汇,2010,33 陈鹏,袁宏永.犯罪组织结构的社会网络分析J.清华大学学报(自然科学版),2011,51,1097-11014 Freeman L C. Centrality in social networks: Conceptual clari

21、ficationJ. Social Networks,1979,1:215-239 周景,王瑛,王勇基本犯罪网络的情报分析系统的研究与应用J.现代计算机(专业版),2011 , 7(4): 3-66 Daniel Zwillinger, Stephen Kokoska .CRCStandard Probability and Statistics Tables and FormulaeM.CRC Press,20007 王树禾 .图论及其算法 M. 合肥 :中国科学技术大学出版社,19908 Method in text-analysis: An introduction. http:/www

22、.cch.kcl.ac.uk/legacy/teaching/av1000/textanalysis/method.html9 Marya L.Doerfel, George A Barnett. A Semantic Network Analysis of the International Communication Association.Human Communication Reseach,25(4), 199910 元昌安数据挖掘原理与SPSS Clementine应用宝典M.北京:电子工业出版社,2009Message Network Analysis and Modeling1

23、* 2* 2* ZHUANG Yi-zhou1*, LIU Sen-feng 2*, XIAO Liu-si 2*3*Advisor: CHENG Guo-sheng 3*(1 School of Atmospheric Physics , 2 School of Atmosphere Science , 3 School of Mathematics and Statistics , Nanjing University of Information Science & technology, Nanjing 210044, China )Abstract:This paper is about n etwork an alysis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论