(计算机应用技术专业论文)改进的决策树算法在刑事审讯决策支持中的应用.pdf_第1页
(计算机应用技术专业论文)改进的决策树算法在刑事审讯决策支持中的应用.pdf_第2页
(计算机应用技术专业论文)改进的决策树算法在刑事审讯决策支持中的应用.pdf_第3页
(计算机应用技术专业论文)改进的决策树算法在刑事审讯决策支持中的应用.pdf_第4页
(计算机应用技术专业论文)改进的决策树算法在刑事审讯决策支持中的应用.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)改进的决策树算法在刑事审讯决策支持中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 犯罪行为分析本身是一门涉及面极广的学科,渗透了法学、心理学、行为学等多学 科。由于各种案件的复杂性、犯罪嫌疑人的多样性、审讯人员的素质等因素,现有的审 讯过程常常浪费了大量人力和物力,而且存在着一定的偏差。目前在该领域,相关部门 已经建设了大量业务信息数据库,已具相当规模,并已建成连接全国各地成千上万台电 脑的大型信息网络,隐藏在大量业务数据中的某些有价值的规律、趋势,有待挖掘和提 取。 本文以大连市公安局项目刑事审讯辅助决策支持系统为研究背景。该系统将计算机 技术应用于刑事审讯的全过程,包括审讯案例信息管理、审讯过程跟踪、以及对已有大 量案例记录进行数据挖掘。 本文详细介绍了数据挖掘技术在刑事审讯决策支持中的应用。设计、实现了个基 于改进的决策树算法的数据挖掘模型;通过引入用户兴趣度概念,改进了i d 3 决策树算 法,弥补了i d 3 决策树算法在属性选择上偏向于选择属性取值较多项的缺陷;并利用 关联分析方法对不同案例进行了分析,了解不同犯罪行为之间的关联。目的是依据数据 挖掘技术实现对大量的犯罪记录信息进行数据挖掘,找出大量案例记录数据中的潜在规 律,用于度量案例中各种因素对于特定案例所起的作用,给出对于特定案例审讯的可行 性审讯方案,提高审讯系统的办案过程的准确率和效率。 目前在国内,数据仓库和数据挖掘技术得到成功应用的例子主要集中在金融、保 险、商业等领域,而在犯罪行为分析领域,鲜见有效应用。本文通过对公安系统犯罪记 录数据的分析,建立了一个合理的数据挖掘模型。得出的结论包括:在犯罪个性心理分 析中,除去胆汁形、粘液形等气质因素外,教育起了决定作用;在犯罪风险分析中,有 无职业起决定作用等。这些规则与案例分析专家决策基本上符合。本文是在该领域有效 应用数据挖掘技术的一次尝试。 关键词:刑事审讯;数据挖掘;数据仓库;决策树 改进的决策树算法在刑事审讯决策支持中的应用 i m p m v t 蛆d 幽nt r 傥a 蜘r 量t h m sa p p h c a t i o n i nc r i m i n a l j o i t e r m 2 a n o nn e d 噶l o ns u d i o r t a b s h 翟d t h ec r i m i n a l 妒sa n a 】蜘si sa 乳蛔e c tj n d l 碰n g 姗哪五e 魄缸姗p l et b el 删;t h e 渊鼢t b c 岫s t i l d y a d d 0 n 缸ar e 础0 f 砌龇0 f c 黜伽蝴c 血e 铡删sm m 蛳c i t y i t e l 腻g 嘶0 n 牟裙0 1 1 n c l s 自c 妇a n d 础盘岛嘲t h e 【i 妇g 址釉鲫协呻嘴h a s 姗删t h e 础瑚! l p 0 黼a n d 此恻蛔呻l y , h a st h e 硎妇a 咖1 p l e f t e d 峥s c a l e 曲曲删h a s 旺砒 s o i t s 缸e 啪m i n e l h eh 蝴瑚i n g 馘l i n d 恤腻s e n r i 溺, t 岫聊蜘( x m i n a l 姬t a 舒咄m 豳吐撇d 。c i s 衄蜘p p o 幢毋咖越r e 越c h b a 础- 粤。哪dt h i s 掣咖a p p l 岫c 0 衄脚t e c h n 0 1 1 0 甜i n 也ec r :衄【i n _ a lj n 蛔? r 0 俘曲阻a l t i 弭) c e s s i n c l l l d i n g 证b n n 棚础罂涨峨哪s 恤咄a n d 也ed a t a 岫雠b 勰e o f t h e n 均曩矗v ec 鼬掂s “删s 弛p 日p c r 姗1 h e 蛐n o l o 盯o f 咖眦慨a n d 咖岫a p p 崎 缸c r i l i n a li n 蛔鲷妇s ) r 蜘i n 删t h e 出s i 乒h a sr e 删b a s e d t h ei n l 印删 d i s i t 慨8 1 9 0 枷sd 啦m 岫gm o d 吐也m 咄i n l p i 训n ga 啦韶i m 喇0 0 n c 吼t b e 州酗d e c i s i 豫a l 舳h a s 姗姗b a s e d 恤咖d 醯i o n a 1 鲫f 斑b n lt kf k 聘矗p p e 打i n 吐d 妇g 缸t r i 埘s 妇山缸h 笛捌e do n t h e 如蛐u s i 】堆 t h e 伽蛐娜砌由。恤咄t h e 酬i s 僦临蛆曲d a t a 蛐 b a s 。d 衄t b ed a am i n i n gt e c h d o l o 盯哟蛐协曲m 嬲s i v e 如硝删酬鸭 蜘i n 恤瓣c a 辩渤僦硎i g 位岫t 咄u 躐i n 眦删r i n g i nt b c 黜砌 l c i d do f 自曲叫t h e 忙w m 蝴乎删n g 血e 印l 础c 渊 mp f 嘲1 h et 。| 。b i o j 盯a :b 0 啦d 如w 萄e h 删i s 堍a l 诅d 嘲m 抽i n g 曲忱i f ia 翮c c e 鼹丘d 即p h c 撕。血t k 既加中蛔m a i l 田c 0 珊珂血鼬e 妞丘i 峨血鲫黜乜a d ed o 蝴虹b 毗毹f 蜘 印m i c a l i 倘戤躲l y 匝i 1 1c r j m j 曲锄a l y s i sd o m a i nt h i sp 孕咿h 船o 、捌a 飑鹪渤l e1 ) 毗am 扯i n gm o d d s 砌e 璐e 丘l lr 山sb a 忙b e 曲g 跳骶r u l 铭a 孕w 咂t h e 州b 胛d 吨e n 血p 印嚣i s 缸e 妇ma p 曲洳i nd 删锄踟碰舢勰出陆硝 d c c 洳鳓驴p 。峨毋s t e 札 k 对w o r d s :c r i m i 蛆i n t e r r o g 枷0 n id a 忸m i n i n g ;d a 忸w 眦h 哪s i n g ;d 仪赫蛐t 馓 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:盈:盔丑 日期:m j 、弓 改进的决策树算法在刑事审讯决策支持中的应用 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名: 导师签名: 5 2 大连理工大学硕士学位论文 己l考 71 日 刑事审讯是公安系统最重要、最复杂、涉及范围最广的任务之一,由于各种案件的 复杂性、犯罪嫌疑人的多样性、审讯人员的素质等因素,现有的审讯过程常常浪费了大 量人力和物力,并存在一定的偏差。因此迫切需要建立一套以现代信息技术为基础,用 于辅助审讯人员的计算机支持系统。计算机技术特别是人工智能、专家系统、数据挖掘 等技术的飞速发展和公安系统的“金盾工程 的建设为开发这样的信息系统打下了坚实 的基础。系统主要是对犯罪嫌疑人、时间、地点、犯罪原因结果等进行科学系统的数据 分析,运用数据挖掘算法找出大量案例的隐含关联,并将结果用于辅助决策。 公安部门的信息化程度,已经成为是否能够快速、有效破案的重要因素,传统的以 审讯人员的主观经验作为选择审讯方式的方法,由于个 精力的局限性,缺乏对于大量 案例总体趋势及隐含其中的相互关联信息的把握。这要求开发出一种能够针对海量刑事 审讯记录的数据挖掘支持系统,计算机技术在未来的刑事审讯问题方面必将显示巨大的 威力。 ”目前在我国公安部门的信息化程度已有很大提高,但对于大量数据的研究很少。美 国、英国、韩国、我国的台湾地区早在2 0 世纪9 0 年代就开始将人工智能技术引入了犯 罪调查中,大陆地区只有宁波大学在这方面进行了尝试,美国a r i z o n a 大学人工智能实 验室开发的c o p l i n l ( 系统 2 4 】,加拿大i n v e s t 认i d e 软件公司开发的i n v e s t i a i d e c 伽嘴r c i a lb e 系统 1 9 ,2 l 】,英国菲尔德大学开发的s o c i s 系统等智能系统都在实际 使用中取得很大的成功 2 :2 】,节省了警务人员的时间和精力。计算机技术在刑事审讯方 面有很大的发展空间,毫无疑问在这方面作一些工作是值得的。 题目以大连市公安局立项课题刑事审讯辅助决策支持系统为背景,并针对重点 的刑事犯罪案件记录的特点,在对涉及的各个方面进行了详细分析的基础上,给出了刑 事审讯辅助决策系统的数据挖掘模型。 刑事审讯决策是公安办案管理的一项重要内容,审讯活动的五要素:人、事、时 间、场所、原因以及方式。审讯前需要对此五方面进行准备。人即审讯对象,包括犯罪 人和犯罪嫌疑人两种,需要准备审讯对象的相关信息。事是指审讯具体过程以及审讯达 到的目标。时间是指审讯活动安排的时间,例如犯罪现场立即视讯、后期审讯等。场所 是审讯的场所。审讯的“原因 就是要取得犯罪嫌疑人的供词;审讯的“方式 指如 改进的决策树算法在刑事审讯决策支持中的应用 何运用具体的审讯行为和言语对犯罪嫌疑人实施审讯,与他谈话,向他提出问题。在这 个过程中,运用所掌握的所有讯问技术促使犯罪嫌疑人做出有罪供述。 建立刑事审讯辅助决策模型旨在运用数据知识学习方法实现对大量的犯罪记录信息 进行数据挖掘;依据数据仓库的分析方法,找出海量数据中的潜在规律;依据挖掘出的 规则,给出对于特定案例审讯的可行性审讯方案:依据大量的案例数据的具体情况,改 进决策树算法,使得决策树的分类准确率及运算效率更高 通过软件实现对刑事审讯工作科学性指导,可以提高刑事审讯的效率及科学性;可 以将办案人员从繁杂的案件资料中解脱出来;可以通过对长期积累的大量案件进行分析 提出犯罪趋势,便于加强管理,提早预防犯罪发生。 本文对知识发现、数据挖掘及基刊商的决策树算法进行了深入的学习研究,并在针 对刑事审讯i 记录类型进行了具体分析的基础上,引入了用户兴趣度的概念,设计实现了 基于改进的卫d 3 决策树算法的决策支持模型。 综上所述,本文的主要工作有。 ( 1 ) 对知识发现和数据挖掘技术进行了深入的研究。 ( 2 ) 给出了各种基于信息熵的决策树算法的比较分析,总结了他们各自的优缺点。 ( 3 ) 针对审讯案例的特点,引入用户兴趣度概念,改进了坞算法,提高了其对案 例记录的分类效果。 ( 4 ) 建立了基于犯罪记录信息进行挖掘的决策模型,实现了对审讯过程的辅助支 持。 ( 5 ) 利用关联分析方法分析了各种案件之间的潜在联系。 本文研究设计的刑事审讯辅助决策系统已在大连公安局的案例记录匕做了大量的试 验。从试验结果的情况看,系统生成的辅助决策意见与专家提供的方法有较大的吻合 度。一 。 本文首先介绍了数据挖掘及知识发现的相关知识,对数据挖掘的概念、分类、方法 和知识发现、数据仓库理论作了简要概述。然后对决策树算法、信息熵理论、基于信息 熵的圬和c 4 5 算法进行了比较研究,分析了他们的利弊。接着是本文的重要研究工 作,针对案例记录属性值的特点引入用户兴趣度的概念,将改进的b 算法应用于刑事 审讯辅助决策模型中。对大量的审讯案例进行数据挖掘,找出其中的隐含信息,并将所 得分类结论应用于决策支持中。最后讲述了用数据挖掘的关联分析方法如何对案例记录 进行试验性分析,从中发现不同案例间隐含的关联性信息。 2 大连理工大学硕士学位论文 1 相关知识 知识发现是个多步骤的处理过程,知识发现的主要环节是数据挖掘,数据挖掘直 接影响知识发现的效果。 1 1 数据挖掘技术 数据挖掘( d a 土am i l l 蛐就是从大量的、不完全的、有噪声的、模糊的、随机的原 始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用、可信、新颖的信 息和知识的过程。从广义角度讲数据、信息是知识的表现形式,但在数据挖掘中更多把 概念、规则、模式、规律和约束等看作知识。原始数据可以是结构化的,如关系型数据 库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的 异构型数据。发现知识的方法可以是数学的或非数学的、演绎的或归纳的。发现的知识 可以被用于信息管理、查询优化、决策支持、过程控制等。总之,数据挖掘是一门广义 的交叉学科,它的发展和应用涉及到不同的领域,尤其是数据库、人工智能、数理统 计、可视化、并行计算 2 】等。 , 。数据挖掘也被称为数据库中知识发现( 鼬1 0 、蛾蜘d i 鲫) v l 巧i nd i t a b a s e , ) d ) 3 】,它研究主要基于三大技术支柱,包括数据库、人工智能和数理统计。图1 1 简要描述了数据挖掘技术的形成过程。数据库理论的发展促成了数据仓库的形成,人工 智能的发展促进了机器学习的进步,同时这些技术与传统的数理统计理论的结合,最终 促进了数据挖掘的产生。 i 数据库理论 1 人工智能 vv l 数据仓库数理统计机器学习 么 数据挖掘 图1 1 数据挖掘的形成 f 追1 1f 0 m i a 矗o no f d a t am i n i n g - 3 - 改进的决策树算法在刑事审讯决策支持中的应用 1 1 1 数据挖掘分类 由于数据挖掘本身涉及到不同的学科领域,其分类方法也有很多:根据开采对象 分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体 数据库、异质数据库及网络数据库等;根据开采方法可粗略地分为:机器学习方法、统 计方法、神经网络方法和数据库方法;在机器学习中可细分为:归纳学习方法( 决策 树、规则归纳等) 、基于范例学习、遗传算法等;根据开采目标可分为:数据处理、预 测、回归、分类、关联分析、模型可视化、探索性数据分析等。应该注意的是,具体应 用中可以根据数据挖掘的不同目标和挖掘方法的不同使用情况,选择适合的方法或把不 同的方法组合使用。例如,为了确定哪些顾客喜欢购买新产品,商务分析员可能会首先 利用聚类方法来划分顾客数据库,然后应用回归方法对每个划分预测购买行为。 1 1 2 数据挖掘方法简介 数据挖掘方法有多种【4 】 5 】,其中比较典型的有分类分析、聚类分析、关联分析、 序列模式分析、可视化、偏差分析、粗糙集和模糊集理论等。 ( 1 ) 分类分析 分类分析指分析数据库中的一组对象,找出其共同属性,构造分类模型,然后利用 分类模型对其它的数据对象进行分类。要构造分类模型,需要个训练样本数据集作为 输入,训练集由一组数据库记录或元组组成,每个元组包含一些字段值,又称“属性 或“特征 ,这些字段和测试集中记录的字段相同。另外,每个训练样本记录有一个类 别标识。分类目标是分析训练集中的数据,利用数据中能得到的特征,为每一类建立一 个恰当的描述或模型,然后根据这些分类描述对测试数据进行分类或产生更恰当的描 述。本文可以举一个简单的例子,信用卡公司的数据库中保存着各持卡人的记录,公司 根据信誉程度将持卡人记录分成三类:良好、一般、较差,并且类别标记已赋给了各个 记录。分类分析就是分析该数据库的记录数据,对每个信誉等级做出准确描述,如“信 誉良好的客户是指那些年收入在5 万元以上,年龄在4 0 _ 一5 0 岁之间的人士一,然后根 据这些描述对其它具有相同属性的数据库记录进行分类。 在分类分析中,分类模型的构造方法有统计方法、神经网络方法及机器学习方法 等。统计方法包括贝叶斯法和非参数法( 近邻学习或基于事例的学习) ,对应的知识表 4 大连理工大学硕士学位论文 示为判别函数和原型事例。神经网络方法主要是多层前向神经网络的误差反向传播 ( 钮mb a c k 口和g a d o n ,b p ) 算法网,用模型表示是前向反馈神经网络模型,该算法的 实质是一种非线性的判别函数。机器学习方法包括决策树法和规则归纳法,前者对应的 表示是决策树或判别树,后者则般为产生式规则。另外,近年来又出现了一种称为粗 糙集的( r 舢g hs 哟新的理论方法,它将知识表示为产生式规则。 ( 2 ) 聚类分析 聚类分析与分类分析不同,是把一组物理对象或抽象对象( 未分类的记录) 按相似 性归为若干类别,也称为“无指导分类一,其目的是使同一类别中的对象间的距离尽可 能小,而不同类别中对象间的距离尽可能大。对于一个很大的多维数据集,在数据空间 中数据点通常不会均匀分布。数据聚类方法可以找出稀疏和稠密的位置,进而发现数据 集的整个分布模式。聚类分析方法适合于在所分析的数据缺乏描述信息,或者是无法组 织成任何分类模式时采用,可以自动得到类别结果。聚类分析采用的方法通常包括统计 方法,机器学习方法和神经网络方法。 聚类分析和分类分析在实际应用中可以结合使用,例如在最初的分析中,分析人员 根据以往的经验先利用聚类分析将要分析的数据进行标定,划分类别:然后用分类分析 方法分析该数据集合,挖掘出每个类别的分类规则;接着用这些分类规则重新对这个集 合( 抛弃原来的划分结果) = 进行划分,以获得更好的分类结果。这样分析人员可以循环 使用这两种分析方法直至得到满意的结果。 ( 3 ) 关联分析 关联分析是利用关联规则进行数据挖掘,是近年来研究较多、应用较广泛的一种数 据挖掘方法,相应地关联规则模式也是一种比较重要的数据挖掘知识模式。关联规则的 概念由籼弘w a l 、h i e l i 璐k e 和s w l m i 提出网,是数据中一种简单但很实用的规则,属 于描述型模式。目前已有多种关联规则的挖掘算法,均属于无监督学习方法,如 a p o 对、抽样算法、d l c 算法等 刀。关联分析的目的是挖掘隐藏在数据间的相互关 系,主要针对事务数据库,如售货数据( 货篮数据b 越衙d a :啪,它能发现形如“9 0 的 顾客在一次购买活动中购买商品a 的同时购买商品b 之类的知识。 关联规则发现的研究趋势是从单一概念层次关联规则的发现,发展到多概念层次的 关联规则的发现,即在具体应用中发掘规则可以作用到数据库不同的层面上,比如在分 析超市销售事务数据库过程中,从数据库原始字段如面包、牛奶提升到更抽象的概念: - 5 改进的决策树算法在刑事审讯决策支持中的应用 食品,就有可能发现更为抽象的规则;二是通过采用减少数据库扫描次数、采样、并行 数据挖掘等技术提高算法效率。另外关联规则知识的进步处理、模糊关联规则的发 现、高效率的关联规则挖掘算法、文本和网络数据中关联规则发现也是未来关联规则挖 掘要深入研究和解决的问题。 ( 1 4 ) 序列模式分析 序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但前者的侧 重点在于分析数据间的前后序列关系。序列模式分析的任务描述:在给定交易序列数据 库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列 数据库上,返回该数据库中出现的高频序列。它能发现数据库中形如“在某一段时间 内,顾客购买商品a ,接着购买商品b ,而后购买商品c ,即序列4 一占_ c 出现的 频度较高一之类的知识。与关联分析类似,在进行序列模式分析时同样也需要由用户输 入最小置信度和最小支持度。 ( 5 ) 可视化技术 可视化是指用图表等形式来表示数据,是数据挖掘中种很重要的技术,它拓宽了 传统图表的功能,使用户对数据的剖析更清楚。通过可视化技术可以把数据库中的多维 数据变成多种图形,这对提示数据的状况、内在本质及规律性起到了很大作用。 固偏差分析 偏差分析技术用于抽取数据中的偏差或异常,包括:不适合于标准类的异常、相邻 两时间段内信息的改动、处于模式边缘的冗余。 ( 粗糙集和模糊集方法 粗糙集理论( r o u 曲s e tn 啪劝和模糊集( f 啦巧s 耽n 删理论都是针对不确定性 问题提出的,都可以用来描述知识的不精确性和不完全性,但侧重点不同,从知识的 “粒度一上来看,模糊集主要着眼于知识的模糊性,而粗糙集着眼于知识的粗糙性;从 知识描述的方法上来看,模糊集是通过对象关于集合的隶属程度来近似描述的。而粗糙 集是通过个集合关于某个已知的可利用的信息库( 即近似空间) 的一对上、下近似来 描述的;从集合的对象间的关系来看,模糊集强调的是集合边界的病态定义,即边界的 不分明性,而粗糙集强调的是集合对象间的不可分辨性;从研究的对象来看,模糊集研 6 - 大连理工大学硕士学位论文 究的是属于同一类的不同的对象的隶属关系,重在隶属程度,而粗糙集研究的是不同类 中的对象组成的集合之间的关系,重在分类。 粗糙集方法与传统的统计及模糊集方法不同的是它只依赖数据内部的知识,用数据 之间的关系表示知识的不确定性;而后者需要依赖先验知识对不确定性进行定量描述, 如统计分析中的先验概率、模糊集理论中的模糊度等。在粗糙集中不精确的概念包含下 近似和上近似定义,分别指一定包含所有对象和可能包含所有对象。 用粗集处理不确定性问题的最大优点在于不需要数据的预先或附加的信息,而且容 易掌握。粗糙集的一些理论和方法可用来从数据库中发现分类规则,其基本思想是将数 据库中的属性分为条件和结论属性,对数据库中的记录根据各个属性的不同属性值分成 相应的子集,然后基于条件属性划分的子集与结论属性划分的子集间的上下近似关系生 成判定规则。 数据挖掘中常用的技术主要有5 种常用方法。一下分别就各种技术各自特点加以介 绍。 ( 1 ) 神经网络 简单地说,神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模 玉式识别。它基于人脑的组织模式,将众多结构和功能极其简单的神经元通过各种方式联 接成个复杂的网络结构,以实现复杂的智能行为。神经网络具有很强的自学习能力, 能够自动地从训练样本中学习领域知识( 一般来说,知识隐式编码于网络结构中) ,网 络具有很强的自适应能力,而且神经网络的智能活动表现为一种并行的联想方式,能够 像人脑一样实现快速的“推理一。 ( 2 ) 遗传算法 自然界的生物体在遗传、变异和选择的作用下,优胜劣汰,不断地从低级向高级进 化和发展。科学家发现隐藏在适者生存、不适者被淘汰的进化规律背后的实质是一种优 化的思想。遗传算法( g e 雠趣;0 f i 仿m ) 【8 】是一类借鉴生物界自然选择和自然遗传机制 的随机化搜索算法,其主要特点是群体搜索策略和群体中个体之间的信息交换,比较适 用于处理传统搜索算法难以解决的复杂的非线性问题,如多参数的优化问题。 ( 3 ) 决策树方法 - 7 - 改进的决策树算法在刑事审讯决策支持中的应用 决策树是代表着决策集的树形结构。基于决策树的方法是从实例集中构造决策树, 是一种有指导的学习方法。一般都是自上而下生成的,选择分类的方法有很多种,但是 目的致,就是对目标类尝试最佳的分类。最为典型的决策树学习算法是) 3 算法,它 采用自项向下不回溯策略,保证找到一个简单的树,算法c 4 5 是 3 算法的扩展,将 分类领域从类别属性扩展到数值型属性。关于决策树方法将在第三进行详细讨论。 ( 4 ) 近邻算法:对数据集合中每一个记录进行分类的方法。 ( 5 ) 规则推导:从统计意义匕对数据中的“如果那么 规则进行寻找和推导。 用。 衡量数据挖掘算法的标准主要有6 个方面,如下所述。 ( 1 ) 描述模型的能力。指能否从数据库中挖掘出复杂的模型。 ( 2 ) 可伸缩性。指对目标数据集合的大小的敏感度是否适合于大型数据库。 ( 3 ) 鲁棒性。指对错误数据以及环境的变化等情况,是否具有抗干扰的适应能力。 ( 4 ) 知识可理解性。指发现的知识是否能为人理解,是否能作为先验知识被再次利 ( 5 ) 是否需要主观知识。指在数据挖掘过程中是否依赖于专家先验的主观知识。 适用的数据类型。指是否只适用于数值型或符号型的数据,还是两种数据都可 1 1 3 数据挖掘过程 数据挖掘过程是个多次的循环反复的过程,每一个步骤一旦与预期目标不符,都 要回到前面的步骤,重新调整,重新执行。其主要步骤如图1 2 所示。 ( 1 ) 业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步挖掘的最后 结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲 目性,是不会成功的 ( 2 ) 数据准备 数据的选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用 于数据挖掘应用的数据。 8 大连理工大学硕士学位论文 数据的预处理。研究数据的质量,为进一步的分析做准备。并确定将要进行的挖掘 操作的类型 数据的转换。将数据转换成个分析模型。这个分析模型是针对挖掘算法建立的。 这是建立个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 ( 3 ) 挖掘 对所得到的经过转换的数据进行挖掘。除了完善重选择合适的挖掘算法外,其余一 切工作都能自动地完成。 ( 4 ) 结果分析 解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视 化技术。 ( 5 ) 知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。 图1 2 数据挖掘的一般步骤 f i g 1 2 & 釉l a ls t e p o f d 砌m 砬n g 典型的数据挖掘系统的体系构成中,数据库、数据仓库或者是其他一些信息存储媒 介为数据挖掘的工作对象;服务器主要是响应数据挖掘引擎的请求,提取相应的数据; 领域知识库主要用来指导挖掘的过程,以及用来评价挖掘出来的候选模式;数据挖掘引 擎是整个系统的杨凸部分,可以由以下模块组成:分类模块、关联规则模块、聚类分析 模块、时序模块和异常分析模块等。 - 9 改进的决策树算法在刑事审讯决策支持中的应用 模式评价模块主要是根据一定的度量标准来与数据挖掘模块交互,以使得数据挖掘 向着用户感兴趣的方向进行,往往越是高效的数据挖掘系统这种交互影响的程度越高: 图形用户界面主要是为方便用户与数据挖掘系统的交互:由用户提出挖掘任务、指定重 要的挖掘参数以及由当前返回的结果指导进行更进一步的挖掘工作。 1 2 数据仓库 数据仓库( d a t aw 戤h o i l s i r l g ,d w ) 是面向主题的、集成的、不可更新的( 稳定性) 、 随时间不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策制定过程,是一 个作为决策支持系统和联机分析应用数据源的结构化数据环境 9 】。在技术上可以根据它 的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库的设计的技术咨 询四个方面。数据挖掘的总体框架如图1 3 所示。 图1 3 数据仓库的总体框架 f i g 1 3m 胁o f 此d a t aw a 触 数据仓库是利用计算机和数据库技术的最新发展,把整个企业中不同地理位置、不 同存储格式和不同通信方式的数据按一定要求集成在一起,并能把当前使用的业务信息 分离出来,保证关键任务的联机事务处理应用的安全性和完整性,同时可以访问各种各 样的数据库。数据仓库不是单一的产品,而是由软硬件技术组成的环境。它把各种数据 库( 源数据库) 集成为一个统一的数据仓库( 目标数据库) ,并且把各种数据转换成面向 - 1 0 - 大连理工大学硕士学位论文 主题( s 蛔洲e 删) 的格式,能从异构的数据源中定期抽取、转换和集成所需要的数 据,便于最终用户访问,并能从历史的角度进行分析,最后做出战略决策。 数据仓库并非是个仅仅存储数据的简单的信息库,而是个矗以大型数据管理信 息系统为基础,附加在这个数据库系统之匕并存储了从企业所有业务数据库中获取的综 合数据并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统 如果说 传统数据库系统的重点是快速、准确、安全、可靠地将数据存进数据库的话,数据仓库 的重点则是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息 之后,再供管理人员进行分析使用。 数据仓库技术更多的是一种管理技术,是当今信息管理技术的主流,是促进企业正 确管理与决策的重要决策支持工具。通常,在现有数据库的基础上,建立和开发数据仓 库就能将企业中多个数据源中的数据相集成,从而建立企业业务的完整视图,可使经营 者从历史角度更好地理解企业的行为和运行状态,跟踪业务趋势,综合运用操作型数据 和分析型数据,进行预测、分析制定计划并做出战略决策,以利于企业的经营目标和未 来的发展,并给企业带来巨大的经济效益。 1 3 知识发现 数据库中的知识发现( 鼬瑚v 1 吨ed i s c o v e 匆i nm 【t a b a ,k d d ) 是用数据库管理系 统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,从大量原始 数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。图1 4 是k d d 的流程图,从图中可以清晰地看出k d d 从大量数据中挖掘知识的过程。 数据库中的知识发现根据对数据的分析建立对数据特性以及数据之间关系描述的模 式,这些发现的知识可用来指导经营活动或做出预测。如通过知识提取可以得到超市中 销售商品之间的关联,根据这些关联可以指导上货计划,而且通过对商品的销售情况分 析,可以得到影响销售的因素,从而指导上货,减少可能的积压。 总之数据仓库是一个经过处理、整合的数据库,而知识发现是挖掘知识的一连串程 序,数据挖掘只是数据库中知识发现的一个重要程序,它们最终目的是为了组织取得决 改进的决策树算法在刑事审讯决策支持中的应用 策支持所需的信息,这些信息是突破盲点、人所未见的知识和讯息,使组织获得竞争优 势。 原始数据库 数据规范化;包括去调异常数据和不相干数据 数据集成:将不同数据集中的数据集成到单个 系统中 数据转化:如将数据转变成统一的表现形式以 方便挖掘中的一些模式 数据控制蹦;一些智能的用来发现目标数据库 中的一些模式 模式评价;识别上一步得到的模式中真正有价 值的模式 知识的表示:将上一步得到的模式或者知识以 用户可以接受、可理解的方式表现出来 有价值的、实现无法 预制的知识 图1 4 k d d 流程图 f i g 1 4 豳) d sj e i o w 但目前专家对数据挖掘和知识发现之间的差异有不同的理解,有时数据挖掘也被称 作知识发现,数据挖掘这一术语的含义还有待讨论。本章认为数据挖掘是知识发现过程 中的个重要部分。 1 4 数据挖掘的应用。 数据挖掘技术以及应用此技术所获得知识和信息可以被广泛的应用于信息管理、商 务管理、过程控制、市场分析、工程设计和科学研究等众多领域,这些领域的管理决策 层可以通过对历史数据的分析,发现诸如市场供需规律、商品价格走势、家庭收入与消 费特点、购买商品的习惯等规律,以支持企业的生产、经营和销售决策。具体实例如 下。 1 2 - 大连理工大学硕士学位论文 在财务金融方面,预测市场动向,防范犯罪欺诈,认定客户的信用风险。根据以往 审核的资料,找寻核发信用卡的规则。从消费及缴费数据中发现信用卡呆帐可能。在业 务决策方面,分析与竞争对手的优劣势,发现客户转向竞争对手时的前兆,找到现有客 户中可能离开的客户,想办法留住他们。分析推出新产品的最好时机。分析客户信息以 设计更好的产品来满足其需求。分析销售资料发掘顾客的消费习性。在客户管理方面, 分析从前信用不良的客户特征,从而找出现有客户中可能有不良信用的客户,防止产生 坏账。分析获利高的客户的共同特征。 - 1 3 - 改进的决策树算法在刑事审讯决策支持中的应用 2 刑事审讯辅助决策系统的综合分析 2 1 刑事审讯问题描述 犯罪行为分析本身是一门涉及面极广的学科,渗透了法学、心理学、行为学等多学 科。由于各种案件的复杂性、犯罪嫌疑人的多样性、审讯人员的素质等因素,现有的审 讯过程常常浪费了大量人力和物力,而且存在着一定的偏差。目前在该领域,相关部门 已经建设了大量业务信息数据库,已具相当规模,并已建成连接全国各地成千上万台电 脑的大型信息网络,具备关联性的规律趋势等潜藏在大量业务数据后面,尚有待挖掘和 提取。本文利用已有的数据资源建立数据仓库,对案例记录进行深度的数据挖掘,通过 分类分析、关联分析挖掘出有用的潜在规律。 审讯有多种定义,例如搿审讯是侦查人员为揭露案件真相,证实犯罪和查明犯罪 人,依法就案件事实和其他案件有关的问题以言词的方式对犯罪嫌疑人进行提问,以获 取真实供述或辩解的一项侦查行为井;“审讯是指侦查人员为了进步查明和证实犯罪 事实,依照刑事诉讼法的有关规定,对犯罪嫌疑人进行讯问的种侦查行为 等等。总 体上来说,审讯定义应该主要从审讯的形式( 言语形式) 、内容( 案件事实或与案件有 关的问题) 、目的( 揭露和查明案件真相) 对审讯的内涵作了界定。 刑事案件中,人的主体行为是案件的主导。本系统设计的本质依据:辅助决策支持 系统的系统模型决定了本系统需要和人进行密切的交互,所以设计的时候要充分考虑人 的作用。 信息收集依据:人类行为的基本模式是:雪= 厂c p 毋。其中b 代表人的行为:p 代表个人:e 代表环境( 包括社会环境,各种环境) ;f 代表函数。所以库表结构的构 建要从个人与环境两个部分入手。 现实的刑事案件处理过程之中要使用大量的历史数据,总结案件规律、侦查经验、 破案经验。对大量的案例记录处理过程可以用决策树算法进行分类,并在分类过程中加 入用户兴趣度,以确保分类中专家认为较重要的信息会出现在离决策树根部较近的位 置,保证决策支持的准确科学性。将改进的d 3 算法应用到刑事案件处理过程之中作 1 4 大连理工大学硕士学位论文 为人工处理的辅助工具,加快处理过程,精确处理结果。刑事案件数据仓库,表结构基 本符合星形结构。 刑事案件中的几种关系决定了审讯系统与人的关系密切。系统中必须考虑人的因 素。一下分别列出了刑事审讯中的4 种主要关系。 人与人的关系:( 1 ) 犯罪嫌疑人与同案犯的关系,组织者与被组织者、领导者与一般 成员等;( 2 ) 犯罪嫌疑人与被害人的关系。 人与事的关系:犯罪嫌疑人与发生在案件整个过程之中的一些事件的关系,该犯罪 嫌疑人对事件的影响等。注意应该分清组织责任与个人责任。 人与物的关系:犯罪嫌疑人与涉案相关物证的关系,需要弄清楚物属关系,物品在 案件中所起到的作用等等。 事与物的关系:案件事实与物证的关系。 本文可以根据以上几种常见关系,确定数据库表结构。 刑事审讯的全过程通常包括三部分:审讯准备、审讯过程与审讯总结。定罪过程与 审讯过程是相辅相成的,定罪作为审讯的指导,审讯为定罪提供证据依据。其中数据挖 掘以及辅助决策可以参与其中很多地方。例如,相似性案件的定罪一般准则,相似性犯 罪嫌疑人的通常使用的手段,各种类型案件之间存在的相互关联等等。 ( 1 ) 审讯准备 审讯活动的五要素:人、事、时间、场所、原因以及方式。审讯前需要对此五方面 进行准备。人即审讯对象,包括犯罪人和犯罪嫌疑入两种,需要准备审讯对象的相关信 息。事是指审讯具体过程以及审讯达到的目标。时间是指审讯活动安排的时间,例如犯 罪现场立即视讯、后期审讯等。场所是审讯的场所。审讯的“原因一就是要取得犯罪 嫌疑人的供词;审讯的“方式”指如何运用具体的审讯行为和言语对犯罪嫌疑人实施审 讯,与他谈话,向他提出问题。在这个过程中,运用所掌握的所有讯问技术促使犯罪嫌 疑人做出有罪供述。从广义上说,证人是指了解案情而随时被通知到法庭就其所了解的 情况作证的人。但一般情况下都不对证人使用审讯手段。 ( 2 ) 审讯过程 应用审讯技巧和相关资料进行审讯以获取口供。审讯过程是由审讯人员主导的,审 讯人员研究犯罪嫌疑人的相关资料,了解犯罪嫌疑人的性格特点等等。针对案件信息中 1 5 - 改进的决策树算法在刑事审讯决策支持中的应用 所有可疑之处进行询问,综合使用各种审讯技巧。审讯过程实际上是审讯人员所做决策 的应用阶段,决策的正确与否会在此时得到验证。在审讯的过程之中会需要审讯人员随 机应变,以对付各种可能出现的情况,随时做出新的决策,以推动审讯的正确执行,取 得正确的结果。 ( 3 ) 审讯总结 结案学习,归档,报告,定罪等。在这个过程中,本文对于已经结案的审讯记录进 行分类挖掘和关联分析,找出一类案件的导出规则和各类案件中存在的潜在联系。 随着信息化的发展,有关部门已经建立了相当规模的犯罪信息系统,但对这些信息 系统的使用仅仅停留在查询、更新、统计等初级应用上,而对于数据库中蕴涵内容的应 用还基本上处于空白。以下将讨论用改进的d 3 算法构造刑事审讯辅助决策支持模型中 的分类分析模型。 2 2 挖掘技术在刑事审讯中的应用现状 美国、英国、韩国、我国的台湾地区早在2 0 世纪9 0 年代就开始将人工智能技术 引入了犯罪调查中,大陆地区只有宁波大学在这方面进行了尝试 2 4 】,美国知i z i 咂a 大 学人工智能实验室开发的c o p l i n k 系统 1 9 ,2 1 】,加拿大b v e s 6 a i d e 软件公司开发的 h e 鲥a i d ec c 髓删砸a lb & e 系统 2 2 】,英国菲尔德大学开发的s o c i s 系统c 捌等智能系 统都在实际使用中取得很大的成功,节省了警务人员的时间和精力。这些系统都是将人 工智能引入到犯罪调查中。就其主要的功能和技术原理大致可以分为3 种类型:专家系 统、数据挖掘系统、智能信息检索系统。 k 删d ec c 忸咄髓i a lb & e 是典型的专家系统,将犯罪心理学、办案人员的经验 等整理归纳为系统能够识别,并且能够合理利用的知识。 根据刑侦人员输入的现实世界数据进行推理,最后给出结果,专家系统基于公安人 员积累的大量断案审判知识、国家法律以及犯罪心理学等有关理论,其体系结构和编程 实现都比较简单,成功与否的关键在于知识挖掘和获取,需要公安系统的大力配合。 以s 0 c i s 2 1 】系统为代表的数据挖掘系统主要依赖于公安系统积累的大量有关犯罪的 数据记录,运用关联分析、序列分析、决策树、聚类分析、神经网络、粗糙集、支持向 - 1 6 大连理工大学硕士学位论文 量机等传统的数据挖掘知识方向方法来进行犯罪预测、嫌疑犯的识别、并案侦查等。从 大量的数据中发现规律,以让公安部门在警力分配、侦察、审讯等过程中作到有的放 矢。数据挖掘系统成功与否除了和模型选择、算法实现密切相关外,还和公安系统现有 的信息系统所积累的数据的质量和数量有关系。 以加协n 大学的c o p n n k 系统为代表的智能信息检测系统类似于个专业的搜索引 擎,被称为是犯罪调查方面的9 0 0 9 l e ,主要完成对数据库、互联网上海量数据的快速的 检索定位、关联分析和可视化表示。比如输入个犯罪嫌疑人的已知的不完整的信息, 系统从数据库和互联网上搜索符合条件的所有候选者,及与之相关的所有的文档。 智能信息检索系统实现技术比较复杂,需要实现数据库、文件系统、互联网数据的 互操作,开发的工作量比较大,主要使办案人员从海量数据中摆脱出来,系统直接将相 关联数据按照数据之间的关系呈现出来,为办案人员节省时间、精力,为案件的侦破提 供线索。c o i 嗽可以对罪犯线索数据库和报告进行分析,让警官充分利用有限的信 息,找出他们在其他地方得不到的调查线索。举例来说:如果一个强盗被确认为张某, 他驾驶的是辆白色货车,而又知道他和一个叫李某的犯罪团伙成员有联系,调查人员 就会输入这些信息。c o p i ,姗( 可以搜寻罪犯资料数据库,列出所有先前与他有关的案 件,以及所有与李某有关的案件,还有与两人涉及案件有关的任何证人或嫌疑犯。 掣: 2 3 决策模型的综合分析 本文利用公安系统的“金盾工程一中的大量犯罪记录、计算机的数据仓库和数据挖 掘技术,在拟定的算法下对大量的犯罪行为记录进行分析,从而发现犯罪的规律、趋 势,了解不同犯罪行为之间的关联,以及何种状态会诱发何种犯罪行为等等。这对于在 短时间内减小人为因素的干扰,提高审讯人员针对犯罪种类及犯罪人心理特征采取相应 的审讯侦破效率,有着很大的帮助。从大量案例记录的挖掘中找出犯罪趋势,对于预防 犯罪,加强对重点地区进行重点监控有着相当重要的意义。 2 3 1 决策模型的基本思想 辅助决策模型设计上采取多种算法结合的方法加上人为裁定的方式,以达到刑事审 讯辅助决策要求的高精度。使用多种算法对同个问题进行推导,最后对推导结果进行 排序和横向比较,可作为刑审人员的参考,如图2 1 所示。 - 1 7 改进的决策树算法在刑事审讯决策支持中的应用 今后,可以将不同的算法分布到不同的机器单独运算,进一步提高运算速度。尽量 分离算法与数据的结合程度,确定比较通用的结构。所以采用数据抽取与算法分离,算 法自带库表结构以保存参数和中间结果。 2 3 2 决策模型的主要工作 图2 1 系统过程图 f i g 2 1 咖舯嬲s 样本抽取以实现辅助决策支持为目的的数据抽取。可以对数据库中任何表中的任何 列的数据进行相关组合,并进行数据离散化处理。所以需要此功能能够读取数据库系统 表信息,实现对库中所有表和表中的数据进行操作。样本抽取需要提供用户操作接口, 对表中数据进行筛选;可以选取表中任意列,并与其他表的任意列按照一定规则组合成 新表;可以对表中数据进行基本的离散化操作;还可以对表进行数据填充。所有对数据 库的操作应该独立于数据库之外,所以本模型程序使用了m i c m s m 的a d o - n e t 编写 访问数据库的功能模块。 a d o 脚( a c 6 似d 咖州咖) 提供对蛐s q l s 唧等数据源以删 0 u d b 和咀。公开的数据源的一致访问。数据共享使用者应用程序可以使用 a d o n e t 来连接到这些数据源,并检索、操作和更新数据。 a d o n e i 具有以下特点。 ( 1 ) 协作性、通用性:具有在异构环境下的相互通信的能力,a d o 舯盯本身就支持 多种数据库访问接口,通过简单的编程就可以实现数据库平台无关性。 ( 2 ) 伸缩性:具有在不降低系统性能的前提下,服务动态增加的客户端的能力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论