数据挖掘论文4篇_第1页
数据挖掘论文4篇_第2页
数据挖掘论文4篇_第3页
数据挖掘论文4篇_第4页
数据挖掘论文4篇_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Word版本,下载可自由编辑数据挖掘论文4篇数据挖掘论文篇一

数据挖掘技术在金融业、医疗保健业、市场业、零售业和创造业等无数领域都得到了很好的应用。针对交通平安领域中交通事故数据通过率低的现状,可以利用数据挖掘对相关交通事故数据举行统计分析,从而发觉其中的关联,这对提高交通平安水平具有十分重要的意义。

1数据挖掘技术概述

数据挖掘(DataMining)即对大量数据举行有效的分类统计,从而整理出有逻辑的、有价值的、潜在的未知信息。普通来讲,这些数据存在极大的随机性和不彻低性,其包括各行各业各个方面的数据。数据挖掘是一个结合了数据库、人工智能、机器学习的学科,涉及统计数据和技术理论等领域。

2数据挖掘关联分析讨论

关联分析作为数据挖掘中的重要组成部分,其主要作用就是利用数据之间的互相关联从而发觉数据集中某种未知的联系。关联分析最初是在20世纪90年月初被提出来的,向来备受关注。已被广泛应用于各行各业,包括医疗体检、电子商务、商业金融等各个领域。关联规章的挖掘普通可分成两个步骤[1]:

(1)找出频繁项集,不小于最小支持度的项集;

(2)生成强关联规章,不小于最小置信度的关联规章。相对于生成强关联规章,找出频繁项集这一步比较棘手。由R.Agrawal等人在1994年提出的Apriori算法是生成频繁项集的经典算法[2]。Apriori算法使用了Level-wise搜寻的迭代办法,即用k-项集探究(k+1)-项集。Apriori算法在整体上可分为两个部分。

(1)发觉频集。这个部分是最重要的,开销相继产生了各种各样的频集算法,特地用于发觉频集,以降低其复杂度、提升发觉频集的效率。

(2)通过所获得的频繁项集各种算法主要致力产生强关联规章。固然频集构成的联规章未必是强关联规章,还要检验构成的关联规章的支持度和支持度是否超过它们的阈值。Apriori算法找出频繁项集分为两步:衔接和剪枝。

(1)衔接。集合Lk-1为频繁k-1项集的集合,它利用与自身衔接就可以生成候选k项集的集合,记作Ck。

(2)剪枝。频繁k项集的集合Lk是Ck的子集。剪枝首先通过Apriori算法的性质(频繁项集的全部非空子集都是频繁的,假如不满足这个条件,就从候选集合Ck中删除)对Ck举行压缩;然后,利用扫描全部的事务,确定压缩后Ck中的每个候选的支持度;最后与设定的最小支持度举行比较,假如支持度不小于最小支持度,则认为该候选项是频繁的。目前,在互联网技术及科学技术的迅速进展下,人工智能、机器识别等技术兴起,关联分析也被越来越多应用其中,并在不断进展中提出了大量的改进算法。

3数据挖掘关联分析在道路交通事故缘由分析当中的应用

近年来,我国越来越多的学者将数据挖掘关联分析应用于道路交通事故的讨论中,主要是分析道路、车辆、行人以及环境等因素与交通事故之间的某种联系。Pande和Abdel-Aty[3]利用关联分析讨论了美国佛罗里达州20xx年非交错口发生的道路交通事故,重点分析了各个不同的影响因素与交通事故之间的内在联系,利用讨论得出如下结论,道路照明条件不足是启发道路交通事故的主要因素,除此之外,还发觉天气恶劣的环境下道路弯道的直线段也极易发生交通事故。Graves[4]通过数据挖掘技术中的关联规章对欧洲道路交通事故举行了分析,主要讨论了交通事故与道路设施情况之间的关联,利用讨论发觉了易导致交通事故发生的各个道路设施情况因素,此讨论为欧洲路面建设及投资提供了强大的决策支持。我国学者董立岩在讨论道路交通事故数据的文献中,将粗糙集与关联分析举行了融合,提出了基于偏好信息的决策规章简约算法并将其应用其中,利用分析发觉了道路交通事故的未知逻辑。王艳玲利用关联分析中的因子关联树模型重点分析了影响道路交通事故最重要的因子,发觉在道路交通事故常见的诱因人、车、路及环境中对事故影响最大的因子是环境。许卉莹等通过关联分析、聚类分析以及决策树分析三种数据挖掘技术对道路交通事故数据举行分析,终于得出了科学的道路交通事故预防和交通平安管理决策依据。尚威等在讨论中,对大量的道路交通数据举行了有效整合,并在此基础上根据交通事故相关因素的不同特点整理出与事故发生有关的字段数据,形成新的事故数据记录表,然后再按照多维关联规章对记录的相关数据举行分析,从而发觉了事故诱导因素记录字段值和事故结果字段值组成的道路交通事故频繁字段的组合。张听等在充分把握聚类数据挖掘理论与办法的基础上,提出了多目标聚类分析框架和一个引发式的聚类算法k-WANMI,并将其用在道路交通事故的聚类讨论中对不同权重的属性举行了多目标分析。同样,许宏科也通过该办法对马路隧道交通流数据举行了聚类分析,其在讨论中不仅明确了隧道交通流的峰值逻辑,而且还按照这种逻辑制订了隧道监控设备的不同控制计划,对提升隧道交通平安的水平做了极大的贡献。徐磊和方源敏在讨论中,提出了由简化信息熵构造的改进C4.5决策树算法,并将其应用在交通事故数据的讨论中,对交通数据举行了正确分类,发觉了一些躲藏的规章和学问,为交通管理提供了依据。刘军、艾力斯木吐拉、马晓松运用多维关联规章分析交通事故记录,从而找到导致交通事故发生次数多的主要缘由,并且指导相关部门作出相应的决策。杨希刚运用关联规章为现实中的交通事故的预防提供依据。吉林高校的吴昊等人,基于关联规章的理论基础,定义了马路交通事故属性模型,并结合改进后的Apriori算法,分析了交通事故历史数据信息,为有关单位和用户寻觅道路黑点(即事故多发点)提供了技术支援和决策协助。

4结语

利用数据挖掘中的关联分析办法虽然能够对道路交通事故的相关因素举行清楚的分析,但是目前在这一方面的讨论仍有不足之处。由于关联分析在道路交通事故的讨论中往往只能片面发觉某一种或几种因素影响交通事故的逻辑,很难将全部影响因素结合起来举行全面系统的分析。然而道路交通事故的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论