【毕业学位论文】(Word原稿)边检口岸管控数据挖掘技术的研究与实现-软件工程_第1页
【毕业学位论文】(Word原稿)边检口岸管控数据挖掘技术的研究与实现-软件工程_第2页
【毕业学位论文】(Word原稿)边检口岸管控数据挖掘技术的研究与实现-软件工程_第3页
【毕业学位论文】(Word原稿)边检口岸管控数据挖掘技术的研究与实现-软件工程_第4页
【毕业学位论文】(Word原稿)边检口岸管控数据挖掘技术的研究与实现-软件工程_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

职业型硕士博士(打印时删除) 硕士学位论文 (专业学位) 边检口岸管控 数据挖掘技术 的 研究与实现 姓 名: 学 号: 所在院系: 软件学 院 职业类型: 工程硕士 专业领域: 软件工程 指导教师: 副 指导教师 : 二 一三年六 月 A in 2013 边检口岸管控数据挖掘技术研究与实现 同济大学 学位论文版权使用授权书 本人完全了解同济大学关于收集、保 存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 年 月 日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 年 月 日 同济大学 硕士学位论文 摘要 I 摘要 外高桥 出入境边防检查站隶属于上海边防检查总站, 承担着 外高桥港区及 码头等 23 个一类口岸 与二类口岸 出入境人员及交通运输工具的边防检查任务。同时,还承担着严密防范与严厉打击非法出入境活动和在沪举行的重大国际性活动的边检安保工作 。这就要求边检机关采取更有力的措施提高工作效率、实行重点管控 方式 以适应口岸的发展,因此本人提出开发一套适合边检日常工作的应用系统,实现决策分析与决策支持。 本文以 外高桥边检 站多年积累的查控查堵工作数据与民警实际工作经验 为依托 ,用现代的数据挖掘技术为 决策层提供科学决策依据,更有针对性地开展边检工作,提供工作效率 。 本文通过引入数据挖掘技术中的关联规则算法, 研究了 法在 外高桥 口岸出入境船舶管理中的应用, 并结合实际情况提出了基于权值参数的关联规则算法, 以该算法实现了 外高桥边检管理 信息系统 的核心数据挖掘 。 通过外高桥边检管理信息系统 对 相关 数据进行选择、集成、泛化及离散化等处理,从多个角度进行 数据 挖掘 工作。 一方面对靠泊口岸的各类国际航行境船舶的基本信息进行数据挖掘,从宏观 角度得到某类船舶的大致规律;另一方面通过对“船舶风险项目”进行风险分级,并且对不同风险项目赋以不同权值,然后以单艘船舶靠泊期间的 实际 情况 的 记录 数据 为例进行挖掘, 得出该船靠泊期间的稳定情况,最后与船舶靠泊码头的环境项结合,提出有针对性地监管方案, 对口岸国际航行船舶监管工作提供了一定的决策参考作用。 关键词: 数据挖掘;出入境;关联规则; 法;权值参数 I to of of of as a s up at of of of an of by it is an us to to to of in to to on at of so as to to in a of is of to In of to of of of an on of be as (1) of a of in of of (2) On of of of in a of of of on (3) By of of in on of of in I so as to of of at a of On by of t to at of a at as an a of so as to of of of of to a to of of 同济大学 硕士学位论文 目录 目录 第一章 绪论 . 12 . 12 . 13 究 . 16 文主要内容和意义 . 16 文安排 . 17 第二章 数据挖掘概述 . 19 . 19 . 20 . 22 . 23 . 25 . 26 第三章 关联规则算法的分析与应用 . 27 联规则的基本概念及算法 . 27 统 法 . 28 . 33 高 法效率的方法 . 34 法的改进 . 35 章小结 . 36 第四章 外高桥边检管理信息系统数据准备 . 37 数据迁移 . 37 临时数据采集 . 38 据预处理 . 41 章小结 . 44 第五章 外高桥边检管理信息系统设计 . 45 . 45 同济大学 硕士学位论文 目录 高桥边检管理信息系统设计 . 46 统框架设计 . 46 . 48 据导入 . 50 舶风险评估 . 51 船舶风险评估介绍 . 51 于单艘船舶靠泊期间风险评估挖掘模块的数 据选择 . 52 舶风险评估数据预处理 . 53 . 54 舶总体情况分析 . 55 . 55 . 57 码头环境评估 . 58 数据挖掘过程模型建立 . 60 本章小结 . 62 第六章 外高桥边检管理信息系统的实现与结果分析 . 63 舶信息数据查询模块 . 63 据导入模块 . 68 次全量数据导入 . 68 据约简 . 69 . 71 . 72 体船舶数据预处理 . 72 体船舶数据挖掘 . 73 . 77 艘船舶数据挖 掘举例一 . 77 艘船舶数据挖掘举例二 . 81 . 85 . 86 同济大学 硕士学位论文 目录 第七章 总结与展望 . 87 致谢 89 参考文献 . 90 附录 A 个人论文发表情况 . 92 第 1 章 绪论 第一章 绪论 据挖掘 的研究及应用 随着数据库技术的迅速发展以及数据库管理系统的广泛应用, 从上世纪 60年代开始,人们各行各业的数据开始逐渐 积累 , 目前的数据库系统 虽 可以高效地实现数据的录入、查询、统计等功能,但无法发现数据 和数据之间 存在的关系和规则 。于此同时,随着人们对这些海量数据是否能够转变为有价值信息及知识的兴趣度与日俱增,逐渐形 成了“数据丰富,知识贫乏”的现象。日积月累的数据量存储在大规模数据仓库中, 人们希望能够对 数据 进行更高层次的分析,以 全方位 利用数据 。面对这一挑战,数据挖掘技术应运而生,该技术通过对海量数据进行分析研究,在“数据”与“信息”的鸿沟之间,利用各种数据挖掘技术,架起了一座桥梁,揭示隐藏在数据后有价值的重要信息,对决策制定、商业战略、知识基础以及科学和药物领域研究等众多方面贡献卓著。 数据挖掘( 称 数据 库中的知识发现( 是目前人工智能和 数据库 领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。 词首次出现在 1989 年 8 月在美国底特律召开的第 11 届国际人工智能联合会议的专题讨论会上。 1993 年以后,美 国计算机协会( 年都举行了专门的会议研究探讨数据挖掘技术,会议名称为 简称 议。 议的规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成, 以及多种学科之间的相互渗透。此后,“数据挖掘”开始流行,它是“知识发现”概念的深化,知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物。此外,还有这一主题的地区性国际大会;相关的学科领域,特别是机器学习、归纳逻辑程序设计、 药数据处理、分布式第 1 章 绪论 人工智能、基于实例的推理 (也十分活跃。 1 此后,“数据挖掘”开始流行,它是“知识发现”概念的深化,知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物。此外,还有这一主题的地区 性国际大会;相关的学科领域,特别是机器学习、归纳逻辑程序设计、药数据处理、分布式人工智能、基于实例的推理 (,关于的也十分活跃。商品化的 件工具己开始进入市场,如 2。 由 司 究中心的 人研究开发的多任务数据挖掘系统 向大型数据库系统 ,包括关联规则、分类规则、序列模式和相似序列等。该系统的特点为 :提供了专门在大型数据库上进行多种数据挖掘的功能 ;多种挖掘算法具有近似 线性计算的复杂度 ;算法具有找全性 ,即能将所有满足指定类型的模式全部寻找出来 ;为多种发现功能设计了相应的并行算法 3 4。 我国的数据挖掘研究开始于 90 年代中期,到年代中后期,初步形成了知识发现和数据挖掘的的基本框架。自年代中期一批研究成果学术论文逐渐发表在计算机学报、计算机研究与发展、软件学报、人工智能与模式识别等刊物 上研究重点也正在从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。但是基本上还是以学术研究为主,实际应用上处于起步阶段。 其实, 数据挖 掘是一种决策支持过程,它主要基于 人工智能 、机器学习、 模式识别 、统计学、 数据库 、可视化技术等,高度 自动化 地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风 险,做出正确的决策。 随着数据挖掘理论研究的逐步成熟,数据挖掘工具也应运而生。目前,世界上比较有影响的典型数据挖掘工具有: 学的 学的 、 学的 港大学的 及学的 s 。 内外对关联规则算法的研究及应用 关联规则作为数据挖掘领域的一个重要分支,该问题是由 于 1993年首先提出的,众多的研究人员在该规则算法提出后对算法的挖掘效率等问题进第 1 章 绪论 行了大量的研究。其中的工作包括了对传统算法进行优化,如引入随机采样、并行的思想等,诣在提高算法挖掘规则的效率,对关联规则的应用进行推广,从最初的研究领域扩展应道到其他诸如人事管理、教育及医学科研等领域,并取得了理想的效果。 美国 伊利诺伊大学 香槟分校计算机系, 士,美国 信息网络 学术研究中心主任 韩家炜 教授把 关联规则定义为:假设 的集合。给定一个交易数据库 D,其中每个 事务 (t 是 ,每一个交易都与一个唯一的 标识符 D)对应。关联规则在 D 中的 支持度( D 中事务同时包含 X、 Y 的百分比,即 概率 ; 置信度 (包含 的百分比,即 条件概率 。如果满足 最小支持度 阈值 和 最小 置信度 阈值 。这些阈值是根据挖掘需要人为设定。 993 年在文献 5中第一次提出了关联规则的基本概念,并且给出了一个初始的 法; 995 年在文献中提出了经典的 个算法奠定了关联规则挖掘算法的基础,该算法中所使用的思想在其它多个算法中被使用。同 时,在文献中还提出了一个改进的算法 后,许多人对 法进行了改进。 使用 文献中提出了 法,它不需要产生候选频繁集;通过将数据库压缩进一棵频繁模式树来产生条件模式基并最终生成频繁集。文献中提出了基于采样的算法,他们从数据库中抽取采样得到规则然后得到在全局数据库中的规则。文献中提出了一种动态扫描数据库来产生频繁集的 在第一次扫描数据库时,动态地开始对数据库的各次扫描,求解各个长度频繁集的过程同时进行,有效地减少了对数据库的扫描次数。 随着数据仓库和联机分析处理( 发展,逐渐形成了多层和多维关联规则的挖掘算法。文献中提出了属性概念分层的概念,在文献中, 据概念分层的定义,提出了多层关联规则的挖掘算法。文献提出了多维关联规则挖掘的基本思想,将其转化为布尔型关联规则求解。 文中提出了挖掘二维关联规则的算法;应用桶结构存储划分的数据,加快关联规则的挖掘。为了加强关联规则的通用性,人们对其中的部分概念 进行了发展。文献中对兴趣度进行了发展,提出了基于兴趣度的关联规则算法。在文献中提出了强集合项集的概念。文献提出了基于约束的关联规则挖掘算法,利用规则模板和设置初始值对规则进行过滤。以上第 1 章 绪论 三者的目标都是要挖掘有效的强规则,但侧重点各有不同。 在挖掘关联规则时考虑时间因素在最近几年才逐渐发展成熟,并形成了序列模式的挖掘算法。文献提出了 借鉴 文献中, 法,它是应用模式增长来挖掘数据库中的序列模式。 在国内 , 关联规则挖掘的研究在我国起步较晚,初始阶段的研究重点集中在对国外算法的理解和改进上,以适合中国数据库系统的实际情况。在 2000年,我国才开发出了第一套主要针对关联规则挖掘的产品“ 它是基于 C/2000年以后, 关联规则应用 在我国各个领域得到重视,并将理论与应用相结合,使得该技术产生长远发展。理论方面,由 吴绍函 、 李景文 、 李航 等计算机领域专家不断研究,在国外数据挖掘理论基础上提出 法 、 法 、 法 (新型理论研究成果,极大推动了我国 关联规则 挖掘技术的前进。 目前在很多领域, 关联规则 挖掘 都成为了 一个时髦的 代词 ,尤其是在如银行、电信、保险、交通、零售 (如超级市场 )等商业领域。 比如 零售 领域的数据分析员通过数据挖掘技术 分析了解客户行为的一些特征, 帮助 企业 提高竞争力及促进销售 ; 金融 领域则 一般采用模型预测法 (如神经网络或统计回归技术 )进行投资决策 。 在关联规则评价及处理方面,王剑 6等指出了原有的“支持度 体系存在的局限性,并在统计相关性理论的支持下对这个评价体系进行了扩展,提出了更能真实反映用户需求和兴趣的关联规则评价体系,即“支持度 相关度”评价体系。同时 提出了一种用相关性理论对强关联规则进行进一步过滤的算法。周欣 7等通过分析现有的关联规则采掘算法中所存在的问题:首先关联规则在其表达形式上没有考虑各种可能的反面示例的影响,因而导致知识表达功能的不够完善;其次是可能有规则即使可信度和支持度都很高,仍没有实际意义,甚至是误导性的。然后通过对关联规则的形式定义作了修改,将运用差异思想引入的兴趣度阈值 运用到关联规则中,给出形式定义及实际意义,只有绝对值高于指定兴趣度阈值的规则才被视为是有趣的而被采掘出来。 第 1 章 绪论 据挖掘技术在 出入境边防检查 工作中的应用研究 计算机技术在出入境检查管理工作中的广泛应用,为口岸出入境检查机关保留、存储了大量的业务数据(旅客出入境记录,员工出入境记录,口岸现场查获的违法违规人员资料,在控人员信息、失效人员证件信息、网上追逃人员的查获资料,社会服务机构公司及人员的备案资料等等) ,上述大量的数据目前仍然仅仅处于“被存储”状态中,并未得到广泛系统的利用。 虽然出入境管理工作早已从传统 的手工模式向现代的计算机管理转变,也拥有了出入境边防检查专用“梅沙”系统,拥有较多的事务性功能,但是不可否认的是,我们仍然没有将日常大量的数据有效地利用,缺乏智能化的分析功能,没有将潜藏在大量业务数据后的具备关联性的规律挖掘出来。 随着信息技术的高速发展,出入境边防检查部门积累的数据量急剧增长,如何从海量的数据中提取有用的成份成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。 用技术手段对业务数据进行 整合集中, 挖掘加工,从中抽取对出入境检查工作有用的信息,完成信息数据的积累和存储,建立数 据仓库;在这些数据信息的基础上,研发数据挖掘系统,对数据进行 综合分析,构造面向问题分析的数据模型,再使用多种 分析方法从多个不同角度进行分析、比较,找出内在联系,提供把握宏观情况和业务指导 的 信息数据,为决策层提供决策分析的科学依据。 文主要内容和意义 出入境活动因其频繁性、复杂性、安全性和国际性而越来越被全球所注视。随着 上海 “ 四个中心 ” 建设快速推进,形成了空、海、陆全方位 开放的格局, 口岸出入境活动呈现“大进大出、快进快出”的局面, 出入境人员、交通运输工具业务量年均增幅 10%以上。 上海作为中国改革开放和经济发展的龙头,在“加快建设国际航运中心” 的 背景下,出入境上海港的国际航行船舶数量逐年大幅提升 。目前上海已成为世界第二大集装箱 进出港 ,业务量的持续 上 升,随之而来不断增加的航线,越来越多的货轮 停靠上海口岸, 为各类非法出入境人员提供了偷渡的机会。 特别是一些往来 上海 香港 、 上海 日本、 上海 韩国 之间的贸易货轮,由于其航行距离及时间相对较短,使得上海成为非法出入境人员首选偷渡地区。第 1 章 绪论 此外 ,由于我国 经济的快速 发展,非洲等第三世界国家偷渡来我国的情况也 时 有发生,且 有 上升趋势。 经济的快速发展利国利民 , 但却对 口岸出入境管理部门 提出了更高的要求 。如何在当前“工作量激增、人员少、工作 强度大”的困难条件下 进一步加强对国际航行船舶的管理,切实提高码头管控力度,确保口岸秩序安全稳定,是我们目前亟需研究并着手解决的难题,这对国家安保工作也有重大的意义。 于上海口岸而言,外高桥港区因其特殊的地理位置、占进出口总量 55%的集装箱吞吐量而格外受到关注。可以说,外高桥港区码头的安全保证了上海经济发展的平稳。因此,对于外 高桥口岸的日常管理工作就显得尤为重要。 为 了更深入细致地了解各类出入 上海 港 口岸国际航行船舶的具体情况,优化边检机关对于外高桥口岸 国际航行船舶停靠期间的监管模式, 本文 通过自主编写的“外高桥边检管理信息系统”,结合数据挖掘技术中关联算法规则,分析得出各类船舶内在关联以及单独船舶存在的风险情况,结合当前船舶所在码头各类风险要素,总结出对于船舶的风险评价,提出决策支持,将警力适当调配,保证口岸安全。 在口岸管理人员少、船舶数量多的情况下做到监管效率最大化,本文通过对传统关联规则 提出了基于权值参数的 适合外高桥口岸特点的 关联规 则挖掘算法。首先, 对靠泊口岸的各类国际航行境船舶的基本信息进行采集,通过 关联规则进行数据挖掘,从宏观角度得到某类船舶的大致规律;其次, 通过对“船舶风险项目”进行风险分级,并且对不同级别的风险项目赋以不同的权值, 然后在得出某项总体规律的情况下对于 单艘船舶靠泊期间的动态情况进 行实时记录 , 以验证该规律在实践中的正确性,最后将船舶风险以及码头风险等各要素综合得出 该船舶 评分 。 通过结果分析找出风险项目之间的联系及隐藏在数据背后有价值的规律或结论,发现安全管理方面的漏洞隐患, 对采取应对措施提出建议,同时也为船舶监管方式提供参考,做到对不同特点船舶采取对应的监管措施,能够在口 岸 实现有针对性的船舶检查, 在警力紧张的情况下 做到监管效率最大化。由数据挖掘所得出的结果,亦可在整个上海口岸实现信息共享,即便当一艘船舶首次靠泊于某辖区时,该辖区出入境边防检查机构可参考该船舶以往靠泊其他辖区时的信息,采取相应监管措施。 文安排 第 1 章 绪论 第一章主要介绍了数据挖掘产生背景及国内外研究现状,并且通过分析数据挖掘技术与公安出入境部门的关系,引出本文的研究内容及意义。 第二章 从数据挖掘整体概念入手, 首 先介绍了数据库中知识发现的过程,然后对数据挖掘功能、挖掘过程方法,以及挖掘结果的评估做了具体分类阐述。 第三章在引入关联规则概念的基础上,具体介绍了传统关联规则的 及该算法所存在的不足之处,然后通过对该算法复杂度 的改进和设置项的权值参数,得出适用于本文研究内容的关联规则算法。 第四章 介绍外高桥边检站管理信息系统前期数据收集整理工作的具体内容,包括了 检 最后介绍了 数据 挖掘工作前 期 数据预处理方面的研究。 第五章 介绍 外高桥边检站管 理 信息系统的具体设计步骤,包括了设计背景介绍、系统模块分类、数据的选择、数据处理、部分模块设计、挖掘过程模型的建立 以及船舶与码头的风险评估机制 。 第 六章 介绍每个模块的具体功能,并辅以部分业务数据,观察数据输入输出的结果是否达到预期效果 , 船舶、码头相结合的风险评估机制是否与实际相符合,并以曾经靠泊的国际航行船舶数据为例印证系统的可靠性 。 第七 章对本文研究内容、结果以及 需改进之处做总结,并对数据挖掘技术在公安出入境领域的更多应用做出 展望。 第 2 章 数据挖掘概述 第二章 数据挖掘概述 数据挖掘指的是 从大型数 据库中提取人们感兴趣的知识,这些知识是隐含的、事先不知的、潜在有用的信息 。 数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域,其目的在于从大量数据中发现隐含的、新的、令人感兴趣的关系和规律。它不仅面向特定数据库的简单检索、查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导解决实际问题,发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。这样一来,就把人们对数据的应用从低层次的末端 查询 操作,提高到为各级经营决策者提 供决策支持的层次。 数据挖掘从技术角度的定义可概括为:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。如果从商业角度进行定义则表述为按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的有效方法。 程 许多人会将数据挖掘视为另外一个流行术语,即从数据中发现知识(同义词。同样,也有人将数据 挖掘简单视为 程中一个必不可少的步骤。数据挖掘和基于数据库的知识发现( 两个息息相关的概念。由于 现今人们 的工作大部分是基于数据库的,所以实际研究中更多提到是 们从不同的方面给 了很多定义, 知识发现的过程做了如下归结 1: (1) 数据清理 ( 移除有噪声的、不一致的数据 ); (2) 数据整合 ( 将多种数据源进行组合 ); (3) 数据选择(把和分析工作有关的数据从数据库中取出) ; (4) 数据变化(将数据 转变或整理为合适挖掘工作需要的形式,以便进行诸第 2 章 数据挖掘概述 如概括或聚合等操作) ; (5) 数据挖掘(一项必要过程,在此过程中会应用到一些有效方法,以便抽取数据模式) ; (6) 模式评价(在一些兴趣准则的基础上,对能够真正反映知识的有趣模式进行确认) ; (7) 知识呈现(使用相关技术将挖掘后得到的真正有价值的知识呈现给用户)。 以下给出 程模型: 原 始 数 据清理及整合数 据 仓 库选择及转化待 挖 掘 数 据数据挖掘评估及呈现12345模 式 集知 识图 程 .1 of in 据挖掘具体功能 总的来说,数据挖掘工作可被分为两类:描述类和预测类 1。描述类挖掘工作刻画了数据库中数据的一般特性。而预测类挖掘工作则在现有数据上进行推理,用以进行预测工作。 在有的情况下,用户们可能并不知道他们的数据中存在哪些模式知识是有价值的,故而会倾向于要求搜索不同类型的模式。所以,能够同时搜索多种模式知识以得到信息并且满足用户的期望和应用,这对一个数据挖掘系统而言是很重要第 2 章 数据挖掘概述 的。除此之外,数据挖掘系统还应该能够挖掘多种层次抽象水平的模式知识。数据挖掘系统还应让用户给出提 示,指导 其感兴 趣 的模式 搜索。以下列出了数据挖掘的功能,以及这些功能所能发现的模式知识的类 型。 概念 /分类描述: 数据往往和一些概念及类别联系起来。通过综合总结、简洁及区分的方式,就能对每个类别和概念进行准确的描述,以上就称为概念描述。概念描述的方法有以下三种: (1) 数据概括:通过对目标数据的总结 ; (2) 数据辨别:将一目标数据类和另一比类进行比较,并对比较结果给出概要性总结 ; (3) 数据概括与数据辨别。 频繁模式挖掘:频繁模式也就是在数据中出现频率达到一定标准的模式, 其通过对给定数据集合进行搜索,寻 找出数据集合中的频繁项(在给定数据集合中频繁出现的项目),再通过分析频繁项之间的相互联系,继而发现对使用者有信息价值的项与项之间的有趣关联关系,为制定各类决策措施提供参考信息。 分类和预测: 分类是发现模式工作中的一个步骤,该模式通过对已有的训练数据进行学习,以区分数据的类型或概念,目的是将该模式应用于一些未知数据,以便对这些数据进行预测。分类挖掘所获得的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有:决策树、神经网络等。 聚类分析:聚类分析与分类预测方法之间存在着不同,聚类分析所分析处理的数据均 为无类别归属,分类预测方法所学习获取分类预测模型所使用的数据是已知的类别归属,在聚类分析处理的数据集中是不存在类别归属标志的。聚类分析中,首先需要根据“各聚集内部数据对象间的相似度最大化和最小化”的基本原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分成若干组。因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每个聚类分析所获得的组就可视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集中,又可以通过分类学习获得相应的分类预测模型(规则)。此外通过反复不断地对所获得 的聚类组进行聚类分析,还可以获得初始数据集合的层次模型 21。 异类分析:一个数据库中的数据一般不可能都符合分类预测或聚类分析所获第 2 章 数据挖掘概述 得的模型。那些不符合由大多数数据对象所构成的规律的数据对象就被成为异类。以前许多数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论