(交通运输规划与管理专业论文)基于关联规则DM方法的道路交通事故分析.pdf_第1页
(交通运输规划与管理专业论文)基于关联规则DM方法的道路交通事故分析.pdf_第2页
(交通运输规划与管理专业论文)基于关联规则DM方法的道路交通事故分析.pdf_第3页
(交通运输规划与管理专业论文)基于关联规则DM方法的道路交通事故分析.pdf_第4页
(交通运输规划与管理专业论文)基于关联规则DM方法的道路交通事故分析.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(交通运输规划与管理专业论文)基于关联规则DM方法的道路交通事故分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东理t 大学硕十学何论文 摘要 摘要 随着科技水平和交通管理手段现代化程度的提高,智能化的交通管理技术 已经成为研究和应用的热点。智能交通系统的概念是用先进的信息技术和通讯 技术保证道路交通的安全、使道路运输达到最优的配置,主要针对各个地区道 路交通事故特征、导致交通事故的人车路因素、提高道路交通安全的对策措施 等方面开展研究工作。数据挖掘是一种从大型的数据库或数据仓库中提出隐藏 的预测性信息的新技术。关联规则是用来挖掘大量数据中项集之间有趣的关联 或相关联系,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和 置信度阈值的多个域之间的依赖关系。关联规则数据挖掘于19 9 3 年由a g r a w a l 等人提出,它最初是以分析事务数据库中项与项之间联系为目标,后来的研究 者们对问题原型进行多方面的改进和扩充。目前,关联规则挖掘技术己经被应 用到商业、电信、金融、农业、医疗等领域,并取得了良好的效果。 城市机动车数量的增加已经导致城市交通事故的频繁发生,能否对已发生 事故作出正确的分析将直接影响到能否对未来类似事故的成功避免。本文研究 的范畴属于智能交通系统技术,采用了理论研究、算法实验与实际应用紧密结 合的研究方法。按照公安部标准数据库配置系统环境进行开发,针对临淄城区 交通指挥中心提供的2 0 0 7 年交通事故记录数据进行测试。采用人工智能中的数 据挖掘技术对相关数据进行分析,以关联规则理论构成数据模型,根据数据挖 掘技术中的关联规则理论,利用改进的多维a p r i o r i 算法,从记录交通事故的 数据库中发现潜在的、有价值、有联系的规律。用以指导交通管理部门作出决 策,杜绝事故隐患、减少事故发生,保障人们的生命和财产的安全。 关键词:智能交通,数据挖掘,多维关联规则,a p r i o r i 算法 l l l 东理下大学硕+ 学何论文 a b s t r a c t a bs t r a c t w i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g ya n dt h ei m p r o v e m e n to ft h e m o d e r n i z a t i o ni e v e lo ft r a f f i cm a n a g e m e n t i n t e l l i g e n tt r a f l f i cm a n a g e m e n th a s b e e nt h eh o ts p o to fr e s e a r c ha n da p p l i c a t i o n t h ec o n c e p t i o no ft h ei n t e l l e c t u a l t r a f :f i cs y s t e mi st og u a r a n t e et h es e c u r i t yo ft h er o a dt r a f n ca n dt om a k et h er o a d t r a n s p o r t a t i o nr e a c ht h eo p t i m u md i s p o s i t i o nw i t ht h ea d v a n c e di n f o r m a t i o n t e c h n o l o g ya n dc o m m u n i c a t i o nt e c h n o l o g y w h a tt h ei n t e l l e c t u a lt r a f f i ci ss t u d i e d i sm a i n l ys t u d y i n gt h ec h a r a c t e r i s t i co fe a c hr e g i o n a lt r a f f i ca c c i d e n to ft h er o a d t h ef a c t o r so fp e o p l eo rv e h i c l e so rr o a d st h a tc a u s et h et r a f n ca c c i d e n t s t h e c o u n t e r m e a s u r e st h a tc a ni m p r o v et h es a f e t yo fr o a dt r a f 丘c e t c d a t am i n i n gi san e wt e c h n o l o g yt h a tc a ns e a r c ho u tt h ef o r e c a s t i n g i n f o r m a t i o nh i d e di nt h el a r g ed a t a b a s eo rd a t aw a r e h o u s e a s s o c i a t i o nr u l e sa r e u s e df o rm i n i n gt h ei n t e r e s t i n ga s s o c i a t i o na n dc o r r e l a t i v ec o n n e c t i o nb e t w e e n i t e m sf r o mm a s sd a t a a n df o c u so nc o n c l u d i n gt h er e l a t i o no fd a t ai nd i f f e r e n t f i e l d sa n df i n i n go u tt h ed e p e n d e n tr e l a t i o n s h i po fm u l t i d o m a i nt h a tm e e tt h e g i v e nt h r e s h o l do fc o n f i d e n ta n ds u p p o r t a s s o c i a t i o nr u l e sm i n i n ga r ea d v a n c e d b ya g r a w a la n dt h e o t h e ri nl9 9 3 f i r s tt h ep u r p o s ei sa n a l y z i n gt h er e l a t i o no f i t e m si nt r a n s a c t i o nd a t a b a s e ;l a t e ri n v e s t i g a t o ri m p r o v e da n de x t e n d e dt h e p r o t o t y p eo fq u e s t i o n a tp r e s e n t ,a s s o c i a t i o nr u l e st e c h n o l o g yh a sb e e na p p l i e dt o b u s i n e s s ,t e l e c o m m u n i c a t i o n ,f i n a n c e ,a g r i c u l t u r e ,m e d i c a lt r e a t m e n ta n ds oo n i th a sb r o u g h tag o o de f f e c t t h ei n c r e a s ei nt h en u m b e ro fu r b a nv e h i c l e sh a sl e dt ot h ef r e q u e n t o c c u r r e n c eo ft r a f f i ca c c i d e n t s w h e t h e rw ec a na n a l y z et h o s ea c c i d e n t sc o r r e c t l y i nt h ep a s tw i l ld i r e c t l yd e t e r m i n et h ea v o i d a n c eo ff u t u r eo n e so ft h es i m i l a rk i n d t h et e c h n o l o g yt h a tt h i st e x ts t u d i e sb e l o n g st ot h ei n t e l l e c t u a lt r a f f i cs y s t e m t h i st e x ta d o p t st h er e s e a r c ha p p r o a c ht h a tc o n s i s t sw i t ht h et h e o r e t i c a lr e s e a r c h t h ea l g o r i t h me x p e r i m e n ta n dt h ep r a c t i c a la p p l i c a t i o nc l o s e l y a c c o r d i n gt ot h e m i n i s t r yo fp u b l i cs e c u r i t y ss t a n d a r dd a t a b a s e ,s y s t e md i s p o s e st h es y s t e m a t i c e n v i r o n m e n tt o d e v e l o p a n d u t i l i z e s i m p r o v e d m u l t i d i m e n s i o n a l a p r i o r i a l g o r i t h m s y s t e mu t i l i z e st h et r a f f i ca c c i d e n td a t aa b o u tt h eu r b a na r e ao f2 0 0 , w h i c hp r o v i d e db yt h ec e n t e ro ft r a f n cc o n t r o li nl i n z i t ot e s t a c c o r d i n gt ot h e a s s o c i a t i o nr u l e s i tu t i l i z e st h ei m p r o v e dm u l t i d i m e n s i o n a la p r i o r ia l g o r i t h mt o f i n dt h ep o t e n t i a la n dv a l u a b l el a w sf r o mt h ed a t a b a s ew h i c hr e c o r d st h ed a t ao f t r a f f i ca c c i d e n t s w h i c hi su s e dt og u i d et h ea d m i n i s t r a t i v ed e c i s i o n so ft h et r a f 6 c , t o s t o pp o t e n t i a la c c i d e n t s ,t or e d u c ea c c i d e n t st ot a k ep l a c e ,a n dt op r o t e c t p e o p l e sl i f ea n dp r o p e r t y k e y w o r d s :i n t e l l i g e n tt r a f f i c ,d a t am i n i n g ,m u l t i d i m e n s i o n a la s s o c i a t i o nr u l e , a p r i o r ia l g o r i t h m i l 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得山东理工大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名: 乃鸱 时间: w 厂年于月7 f 日 关于论文使用授权的说明 本人完全了解山东理工大学有关保留、使用学位论文的规定,即:学校有权保留送 交论文的复印件和磁盘,允许论文被查阅和借阅;学校可以用不同方式在不同媒体上发 表、传播学位论文的全部或部分内容,可以采用影印、缩印或扫描等复制手段保存、汇 编学位论文。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名: 导师签名: 乃曰1 9 与 、k 彳彩 时间:x 刁年于月,f 日 时间:叫年j 碉夕,日 学位论文出版授权书 本人完全同意中国优秀博硕士学位论文全文数据库出版章程( 以下简称 “章程”) ,愿意将本人的学位论文提交“中国学术期刊( 光盘版) 电子杂志社 在中国优秀博硕士学位论文全文数据库中全文发表。中国优秀博硕士学位 论文全文数据库可以以电子、网络及其它数字媒体形式公开出版,并同意编入 中国知识资源总库,在中国博硕士学位论文评价数据库中使用和在互联 网上传播,同意按“章程规定享受相关权益。 导师签名:立坐毖 喝一 山 趔一 一 l 名 年 签刀十 者 ! 一 耳 山东理t 大学硕 :学位论文 第一章绪论 1 1 研究背景 第一章绪论1 帚一早珀下匕 1 1 1 中国道路交通安全状况 自18 8 6 年汽车问世以来,道路交通事故就一直困扰世界各国,道路交通 安全状况越来越受到各国的重视。中国自改革开放以来,道路交通有了长足的 发展,但道路交通事故也随之逐年增加。随着国民经济的增长,中国国民的购 买力逐年增强,道路上的交通量也持续快速增长,而相应的道路建设和管理很 难跟上交通量的增长大的步伐,这必然会导致道路交通事故的持续增长。 近年来,我国道路交通死亡人数年均在lo 万以上i l 】。无论从我国历年来 交通数据的纵向分析,还是与国外的横向对比,都可以看出,我国道路交通安 全形势相当严峻。我国道路交通事故的各项指标均持续增长,交通安全状况日 趋恶化,交通事故多已成为严重影响社会发展和人民生活的重要因素。 道路交通安全是一个世界性的社会问题,它已成为国际社会一大公害。目 前每年因交通事故而死亡的人数估计已高达5 0 万,受伤人数达1 2 0 0 多万, 交通事故已成为全世界非正常伤亡的重要因素。我国作为一个发展中国家,国 民经济快速发展,交通运输繁忙,然而道路交通的高速发展,使得道路交通事 故猛增。根据全球各交通和警察部门的统计,2 0 0 1 年我国共发生7 5 5 万起 交通事故,死1 0 6 万人,伤5 4 5 万人,直接经济损失达3 0 9 亿元人民币。 在2 0 0 4 年全世界交通事故死亡人数的5 0 万人中,我国交通事故死亡人数为 l o 4 万人l lj 。据卫生组织统计,每年因为交通安全事故原因造成的死亡达到了 1 2 0 万人,而整个道路交通伤害达到5 0 0 0 万人,并且这种伤害将是永久性的 伤害。多年来我国每年因交通事故死亡人数均超过1 0 万人,居世界第一。我 国的道路交通安全形势非常严峻,统计数据表明,每5 分钟就有一人丧身车 轮,每1 分钟都会有一人因为交通事故而伤残。每年因交通事故所造成的经济 损失达数百亿元l l 。j 。 我国的道路交通事故率明显高于世界发达国家和许多发展中国家,交通事 故给国家财产和人民生命财产安全带来了巨大损失。针对我国道路等级低、交 通混行严重、行人干扰大、高速公路刚刚起步等特点下,如何分析交通事故, 减少交通事故,提高道路的安全设计和提高道路的安全管理,加强道路交通管 理、减少道路交通事故是交警重要的业务工作,如何利用科技手段准确把握交 山东理t 大学硕 :学位论文 第一荦绪论 通事故的趋势和特征,做到有针对性地制定道路交通管理措施,减少道路交通 事故的发生,是科技强警的一个重要方面。成为建设现代化交通运输系统中急 需解决的一个重要问题。 我国公安机关正在继续加强对交通事故多发点段的排查和治理工作。公安 机关希望与有关部门积极配合,通过改善道路状况、增加道路标识等,努力完 善交通基础预防措施,不断增强交通事故预防能力。提高现有道路通行能力, 缓解交通阻塞,减少交通事故,并为今后城市规划、建设管理提供精确的交通 流量、流向数据。大大提高道路交通管理的效率。为减少交通事故,保障国家 财产和人民生命财产安全,国家每年都要花费大量人力、财力用于对道路交通 事故多发地段的排查、制定整治对策等工作。因此,急需研究开发相关的智能 化系统。 目前,道路交通事故研究主要建立在采集分析统计大量交通事故数据资料 的基础上,主要依靠公安部9 8 版和2 0 0 3 版事故信息管理系统或其它一些省市 自己组织的道路交通事故管理软件系统,这些系统都具有数据采集、传输、查 询和统计功能,一般的情况是,事故处理的最基层单位各事故大队负责数据采 集和本区域内的事故报表统计并同时向支队传输数据,支队在完成本区域内的 数据汇总和统计功能的同时并向总队传输数据,总队完成全省范围内的数据汇 总、报表统计并向公安部传输数据,公安部根据各省上报的数据进行汇总和统 计。但是从数据采集上来讲,这些数据的采集工作都是各级部门人为进行的, 所以在各级之间采集和统计的数据可能会存在差异,出现数据缺失或不标准的 情况;从数据统计上来讲,系统统计着重于对事故发生后的经济损失和死伤人 数的简单统计,未能反映出事故发生的条件因素,难以为基层交通事故预防、 处理、决策工作服务。利用数据挖掘技术从记录交通事故的数据库中发现潜在 的、有价值的规律,得到具有较高支持度和置信度的分析结果,提供给交通指 挥部门,用以指导道路交通管理决策,杜绝事故隐患、减少事故发生。本项目 采用人工智能中的数据挖掘技术对相关数据进行分析,以粗糙集、关联规则与 聚类等数据挖掘理论构成一个交通事故数据挖掘模型。 1 1 2 交通事故分析在国内外的研究现状 美国、日本、加拿大等发达国家在道路交通运输和信息化建设方面走在了 世界的前列,相应地在交通事故数据采集和分析系统的建设方面处于领先地 位。在美国,国家交通统计局建立了事故分析报告系统f a r s ,其数据包括全 美公路交通事故数据和血液酒精含量检测数据,并将这些数据在i n t e r n e t 上 予以发布,通过该系统可以得到全美各地区和城市的交通事故分布情况。该系 2 山东理t 大学硕 j 学位论文 第。币绪论 统是美国交通安全年度评价报告的主要数据来源,除联邦政府外,各州也建立 了类似的交通事故统计分析系统,如加州建立了收集当地交通事故数据的 c a r a s 分析系统,该系统能生成各种交通事故统计图表、计算和分析高事故 率的地段和地区,同时该系统也加强了交通事故管理部门和其它公众组织的联 系,实现了信息的共享。德州交通研究所开展了t r a m cs e r v i c e s ( t r a s e r ) 项 目,目标是分析交通事故数据,确定事故多发地点,改善交通安全设施,减少 交通事故。 在日本,由交通建设和警察部门联合建立了交通事故研究分析中心。其主 要目标是从微观和宏观分析评价日本交通安全状况,制定相应的安全措施实现 数据和信息共享。 在加拿大,交通运输部建立了t r a i d ( t r a f f i ca c c i d e n ti n f o r m a t i o nd a t a b a s e ) 交通事故信息数据库,为交通事故的分析研究提供技术支持【4 】。 在国内,除公安部交管局开发了交通事故统计系统外,也有部分省市开始 建立交通事故分析系统。但就现有的国内各交通事故分析系统来看大都采用了 传统的关系数据库进行开发,面向的是事务处理,对数据的利用仅限于查询和 分析。对数据进行深层次的分析和挖掘不够,缺乏增值利用,同时受部门管辖 职权的限制,常年积累的交通事故数据分散分布行业内部行业间,信息共享困 难。 1 2 本文的结构和内容 随着我国道路交通运输的飞速发展,出现了交通事故数量激增,部分路段 交通事故频发,交通安全形势严峻的状况。在交通管理急需采用科技手段提高 交通管理水平,建立交通事故分析系统,对交通事故数据,特别是事故黑点交 通事故数据进行挖掘是解决交通安全管理中存在问题的一种有效途径。 本文主要研究的是基于关联规则理论的道路交通事故的数据挖掘,实现对 交通事故数据分析决策工作。具体组织结构如下: 第一章绪论。概述了道路交通事故分析系统的背景和研究现状,介绍了 本文的主要研究内容。 第二章数据挖掘综述。介绍了数据挖掘的基础知识,阐述了数据挖掘的 定义、过程、功能以及数据挖掘研究的现状。 第三章关联规则数据挖掘。对关联规则数据挖掘进行了详细介绍,并按 照不用的分类标准对当前的关联规则挖掘技术进行了分类,重点对关联规则经 典算法a p r i o r i 算法进行了详细阐述,并作了举例分析,同时对相关的改进算法 和多维多层关联规则进行了介绍。 3 1 j 东理t 大学硕l :学位论文 第一荦绪论 第四章道路交通事故多维数据模型。针对道路交通事故这一具体问题, 分析道路交通事故属性后确定基于关联规则的雪花型数据模型。 第五章道路交通事故多维关联规则挖掘的应用研究。详细介绍了提取关 联规则的改进的a p r i o r i 算法,对多维关联规则作了具体应用,结合s q l 分组语 句,将算法用于交通事故中“人、车、路”等因素对交通事故产生影响的分析, 得出了一些具有实际意义的结论。 第六章全文总结。总结前期工作,阐述论文的研究成果并对未来的工作 提出展望。 4 山东理t 人学硕l j 学何论文 第二二帝数据挖掘综述 第二章数据挖掘综述 数据挖掘( d a t am i n i n g ,简称d m ) 就是从大量的数据中挖掘出有用的 信息,是根据人们的特定要求,从浩如烟海的数据中找出所需的信息,供给人 们的特定需求使用的。 2 1 数据挖掘的概述 2 1 1 数据挖掘的定义 我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变 着整个人类社会。如果用芯片集成度来衡量微电子技术,用c p u 处理速度来 衡量计算机技术,用信道传输速率来衡量通信技术。早在2 0 世纪8 0 年代,全 球信息量以每2 0 个月翻一番的速度在增长,这一势头已经维持了十多年。这 极度膨胀的数据信息量给人们带来方便的同时也带来了一大堆问题: 1 信息过量,难以消化; 2 信息真假难以辨识; 3 信息安全难以保证; 4 信息形式不一致,难以统一处理,等等。 那么如何有效的利用丰富数据海洋的宝藏为人类服务,早已成为广大信息 技术工作者重点关注的焦点之一。激增的数据背后隐藏着许多重要的信息,人 们希望能够对其进行更高层次的分析,以便更好地利用这些数据。现有的数据 库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存 在的关系和规则,无法根据已有的数据预测未来的发展趋势,也就是无法有效 地为决策者提供其决策支持所需要的相关知识1 5 l 。目前的数据库系统缺乏挖掘 数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 为有效解决这一问题,自二十世纪8 0 年代开始,数据挖掘技术逐步发展 起来。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各 种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和 访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更 高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据 之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经 投入使用,因为对这种技术进行支持的海量数据搜集、强大的多处理器计算机、 山东理t 大学硕 :学位论文第二千数据挖掘综述 数据挖掘算法这三种基础技术已经发展成熟。 f r i e d m a n 1 9 9 7 y 0 举了四个主要的技术理由激发了数据挖掘的开发、应用 和研究的兴趣: 1 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记 录。 2 先进的计算机技术,例如更快和更大的计算能力和并行体系结构。 3 对巨大量数据的快速访问。 4 对这些数据应用精深的统计方法计算的能力。 数据挖掘是指一个完整的过程,该过程是从大型的数据库或数据仓库中提 出隐藏的预测性信息的新技术,从海量的企业信息资料库中挤压出更有价值的 信息,它能挖掘出数据间潜在的模式,并使用这些信息做出决策或丰富知识。 至此,我们可以得出数据挖掘的定义: 1 技术角度的定义 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有价值的信息和 知识的过程。 2 、商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的 大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决 策的关键性数据。因此,数据挖掘可以描述为:按企业既定业务目标,对大量 的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进 一步将其模型化的先进有效的方法【6 】。典型的数据挖掘系统结构,如图2 1 所 示。 一个典型的数据挖掘系统主要包含以下部件: 1 数据库、数据仓库或其它信息库,它表示数据挖掘对象是由一个( 或组) 数据库、数据仓库、数据表单或其它信息数据库组成。通常需要使用数据清洗 和数据集成操作,对这些数据对象进行初步的处理。 2 数据库或数据仓库服务器,这类服务器负责根据用户的数据挖掘请求, 读取相关的数据。 3 知识库,此处存放数据挖掘所需要的领域知识,这些知识将用于指导数 据挖掘的搜索过程,或者用于帮助对挖掘结果的评估。挖掘算法中所使用的用 户定义的阈值就是最简单的领域知识。 4 数据挖掘引擎,这是数据挖掘系统的最基本部件,它通常包含一组挖掘 功能模块,以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等 挖掘功能。 6 山东理t 人学硕 :学位论文 第一:章数据挖掘综述 图2 1 典型的数据挖掘系统结构 5 模式评估模块,该模块可根据趣味标准( i n t e r e s t i n g n e s sm e a s u r e s ) ,协 助数据挖掘模块聚焦挖掘更有意义的模式知识。当然该模块能否与数据挖掘模 块有机结合,与数据挖掘模块所使用的具体挖掘算法有关。显然若数据挖掘算 法能够与知识评估方法有机结合将有助提高其数据挖掘的效率。 6 可视化用户界面,该模块帮助用户与数据挖掘系统本身进行沟通交流。 一方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提供挖 掘搜索所需要的相关知识;另一方面系统通过该模块向用户展在数据挖掘中被 研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最 后结果和指引分析人员完成数据挖掘的依据和顾问。 2 1 2 数据挖掘与传统数据库查询及统计的区别 数据挖掘技术使信息系统的发展上升到一个新的高度,即自动的发现新的 信息。传统的系统在一个已经假设的前提下通过数据的组合、查询和分析来得 到对假设结果肯定或者否定的结论【6 j 。数据挖掘技术则自动地分析数据,并通 过分析、归纳和推理,发掘隐藏在数据中的那些有用的信息,这些信息的表现 形式为:规则、概念、规律及模式等。它可以使决策者发现隐藏的关系和模式, 进而预测末来可能发生的行为,从而建立符合实际需要的业务模型,辅助企业 7 山东理t 大学硕十学位论文 第币数据掺掘综述 做出正确的决策。 也就是说,在数据挖掘中,我们通常并不知道我们要找的东西是什么。数 据挖掘主要的目的是模式发现,模式是数据的局部结构,当数据一多,我们不 可能预先知道这些数据中的所有的模式,所以,也不可能通过抽样的方法或传 统的统计来完成所有的模式分析。数据挖掘于是强调使用算法、靠明确的指令 让计算机一个一个帮我们找,从而发现我们可能预想不到的模式。 数据挖掘并不是用规范的数据库查询语言( 如s q l ) 进行查询,而是对查询 的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事 件发生的结果,并没有深入研究发生的原因,而数据挖掘则致力于了解事件发 生的原因,并且以一定的置信度对末来进行预测,用来为决策行为提供有利的 支持。 d m 与o l a p 不同,主要体现在它分析数据的深入和分析过程的自动化,自 动化是说:其分析过程不需要用户的参与。这是它的优点,也正是它的不足, 因为在实际中,用户也希望参与到挖掘中来,如只想对数据的某一子集进行挖 掘,以及对不同抽取、集成水平的数据进行挖掘,还有想根据自己的需要动态 选择挖掘算法等等。 o l a p ( 联机分析处理) 与d m ( 数据挖掘) 都是数据库( 数据仓库) 的分析工 具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。前者建立在 多维视图的基础之上,强调执行效率和对用户命令的及时响应,而且其直接数 据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据 深层次的对人们有用的模式( p a t t e r n s ) ,一般并不过多考虑执行效率和响应速度 f 7 8 1 。 2 2 数据挖掘的过程 数据挖掘过程中各步骤的大体内容如下: 1 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖 掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而 数据挖掘则带有盲目性,是不会成功的。 2 数据准备 ( 1 ) 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从 中选择出适用于数据挖掘应用的数据。 ( 2 ) 数据的预处理:研究数据的质量,为进一步的分析作准备,并确定将 要进行的挖掘操作的类型。 8 山东理t 大学硕i :学位论文第二:带数据挖掘综述 ( 3 ) 数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘 算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3 数据挖掘 对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法 外,其余一切工作都能自动地完成。 4 结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会 用到可视化技术。 5 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。 图2 2 的各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的 反馈。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。 图2 3 给出了各步骤在整个过程中的工作量之比。可以看到,6 0 的时间 用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总 工作量的l o 。 图2 2 数据挖掘的基本过程和主要步骤 9 图23 数据挖掘过程中的工作量比例 2 3 数据挖掘的任务 数据挖掘通过预测未柬趋势及行为,做出前摄的、基于知识的决策。数据 挖掘的目标是从数据库中发现隐含的、有意义的知识,比较典型的数据挖掘任 务有概念描述r c o n c e p td e s c r i p t i o n ) 、关联分析( a s s o c i a t i o na n a l y s i s ) 、分类和预 测( c l a s s i f i c a t i o na n dp r e d i c t i o n ) 、聚类分析( c l u s t e r i n ga n a l y s i s ) 、孤立点分析 ( o u t l i e rm i n i n g ) 等“”j 。 1 概念描述 概念描述本质上就是对某类对象的内涵特征进行概括。一个概念常常是对 一个包含丈量数据的数据集合总体情况的概述。如对一个商店所售电脑基本情 况的概述总结就会获得所售电脑基本情况的一个整体概念,对一含有大量数据 的数据集合进行概述性的总结并获得简明、准关联规则数据挖掘方法的研究和 应用确的描述,这种描述就称为概念描述。概念描述分为特征化描述和区别性 描述。前者描述目标类数据的一般特征和特性的汇总,后者是将目标类对象的 一般特性与一个或多个对比类对象的特性比较。获得概念描述的方法主要有两 种:利用更为广义的属性,对所分析数据进行概要总结,其中被分析的数据 就称为目标数据集i 对两类所分析的数据特点进行对比并对对比结果给出概 要性总结,而其中两类被分析的数据集分别被称为目标数据集和对比数据集。 2 关联分析 从广义上讲,关联分析是数据挖掘的本质。既然数据挖掘的目的是发现潜 藏在数据背后的知识,那么这种知识一定是反映不同对象之间的关联。关联知 识反映一个事件和其他事件之间的依赖或关联。数据库中的数据一般都存在着 关联关系,这种关联是复杂的,有时是隐含的。关联分析的目的就是要找出数 据库中隐藏的关联信息。关联分析发现关联规则。这些规则展示属性一值频繁 地在给定数据集中一起出现的条件。这种关联关系有简单关联、时序关联、因 t l l 东理t 大学硕f :学位论文 第二辛数据挖掘综述 i i 果关联、数量关联等。这些关联并不总是事先知道的,而是通过数据库中数据 的关联分析获得的,因而对商业决策具有新价值。简单关联,例如:购买面包 的顾客中有9 0 的人同时购买牛奶。时序关联,例如:若a t & t 股票连续上涨 且d e c 股票不下跌,则第三大i b m 股票上涨的可能性为7 5 。它在简单关联中 增加了时间属性。 关联分析广泛应用于购物篮或事务数据分析。关联规则挖掘是关联知识发 现的最常用方法,其中最为著名的是a g r a w a l 等提出的a p r i o r i 及其改进算法, 关联挖掘的目的就是从数据库中挖掘出满足最低支持度和最低可信度的关联 规则。关联规则的研究和应用是数据挖掘中比较活跃和深入的分支,已经提出 了许多关联规则挖掘的理论和算法。 3 分类和预测 分类是数据挖掘中的一个重要的目标和任务。目前的研究在商业上应用最 多。分类就是找出描述并区分数据类或概念的模型,以便能够使用模型预测类 标记未知的对象类。分类的目的是学会一个分类函数或分类模型( 也常常称作 分类器1 。要构造这样一个分类器,需要有一个训练样本数据作为输入。分类 器的作用就是能够根据数据的属性将数据分派到不同的组中。这样我们就可以 利用该分类器来分析己有数据,并预测新数据将属于哪一个组,即数据对象的 类标记,然而,在某些应用中,人们可能希望预测某些空缺的或不知道的数据 值,而不是类标记。当被预测的是数值数据时,通常称之为预测。分类模式可 以采用多种形式表示,如分类规则,判定树,数学公式或神经网络。分类知识 挖掘的一些有代表性的技术有:决策树、贝叶斯分类、神经网络分类、遗传算 法、类比学习和案例学习,以及粗糙集和模糊集等方法。分类应用的实例很多。 例如,我们可以将银行网点分为好、一般和较差三种类型,并以此分析这三种 类型银行网点的各种属性,特别是位置、盈利情况等,并决定它们分类的关键 属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进 行分析,以便决定预期银行网点属于哪一种类型。 4 聚类分析 一般把学习算法分成有导师( 或监督) 和无导师学习两种方式,主要区别是 有没有类信息作为指导。聚类是典型的无导师学习算法。聚类分析数据对象而 不考虑已知的类标记,它将数据对象分组成为多个类或簇,同一个类中的对象 具有较高的相似度,而不同类中的对象差别较大。一般情况下,训练数据中不 提供类标记,聚类可以用于产生这种标记。聚类按照某个特定标准( 通常是某 种距离) ,最终形成的每个类,在空间上都是一个稠密的区域。所形成的每个 类可以导出规则。通过聚类技术可以把数据划分为一系列有意义的子集,进而 实现对数据的分析。例如,一个商业销售企业,可能关心哪些客户对制定的促 山东理下大学硕i j 学位论文 第一:荦数据挖掘练述 销策略更感兴趣。聚类分析与分类和预测不同,前者总是在类标识下寻求新元 素属于哪个类;而后者通过对数据的分析比较生成新的类标识,它以某种容易 理解的形式展示给用户,刻画了数据所蕴含的类知识。 分类和聚类技术互有交叉和补充。聚类技术主要是以统计方法、机器学习、 神经网络等方法为基础的。常用的聚类算法有基于划分、层次、密度、网格和 模型的五大类聚类算法。聚类分析有很广泛的应用,包括市场或客户分割、模 式识别、数据分析、图像处理及许多其它方面。 5 孤立点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致关 联规则数据挖掘方法的研究和应用这些数据对象是孤立点。在挖掘正常类知识 时,通常总是把它们作为噪音来处理。因此以前许多数据挖掘方法都在正式进 行数据挖掘之前就将这类孤立点数据作为噪声或者意外而将其排出在数据挖 掘的分析处理范围之外。然而在一些应用场合中,如信用欺诈、入侵检测等小 概率发生的事件往往比经常发生的事件更有挖掘价值。因此当人们发现这些数 据可以为某类应用提供有用信息时,就为数据挖掘提供了一个新的研究课题, 即孤立点分析。孤立点探测和分析对于欺诈探测、定制市场、医疗分析及许多 其他的任务是非常有用的。发现和检测孤立点的方法主要有基于概率统计、基 于距离和基于偏差等检测技术的三类方法。 2 4 数据挖掘的历史、现状与发展趋势 从数据库中发现知识( k n o w l e d g ed i s c o v e r yd a t a b a s e ,简称k d d ) 一词 首次出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上。到目前为 止,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由 原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统 应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。并行 计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知 识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。根据g a r t n e rg r o u p 的h p c 研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统 用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处 理系统来创建新的商业增长点”。数据挖掘技术己经在许多行业都得到应用并 取得了一定的实效,其中包括天文学、生物医学、医疗保健、d n a 分析、银 行、金融、零售业和电信业等【l 们。 在信息量极为庞大的天文、气象、生物技术等领域中,由于所获得的大量 实验和观测数据靠传统的数据分析工具己难于对付,因此对功能强大的智能化 山东珲t 大学硕 j 学位论文 第二辛数据挖掘综述 自动分析工具要求迫切,这种需求推动了数据挖掘技术在科学研究领域的应用 发展,并且已获得一些重要成果。 数据挖掘在市场营销中的应用可分为两类:数据库市场营销和购物篮分 析。前者的任务是通过交互查询、数据分割和模型预测等方法来选择有潜力的 顾客以便向他们推销产品。后者的任务是分析市场销售数据以识别顾客的购买 行为模式,从而帮助确定商店货架的布局,促进商品的销售。 在银行业,数据挖掘主要用于信用欺诈的建模和预测、风险评估、趋势分 析、收益分析以及辅助直销活动。在金融市场,已将神经网络用于股票价格预 测、购买权交易、债券等级评定、资产组合管理、商品价格预测以及金融危机 预测等方面。 电信业己经从单纯的提供市话和长话服务演变成提供综合电信服务,如语 音、传真、寻呼、移动电话、图像、电子邮件、计算机和w e b 数据传输,以及 其他数据通信服务。而且随着许多国家对电信业的开放和通信技术的发展,电 信市场正在迅速扩张并愈发竞争激烈。因此,利用数据挖掘技术来帮助理解商 业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量是非 常有必要的。 数据挖掘语言的设计、高效的数据挖掘方法和集成的数据挖掘环境的建立 以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘研究和应用开发 所面临的主要问题。下面是数据挖掘的发展趋势: 1 算法效率和可伸缩性。目前,数据库的规模呈指数增长。据统计,数据 和计算资源的增长速度符合摩尔定理,每1 8 个月翻一番。因此,海量数据挖掘 的最大挑战不仅仅在于数据库的绝对规模,还在于数据挖掘系统能够处理这些 持续增长的数据集合。为了保证高效率,数据挖掘系统必须能有效地处理海量 数据,其算法必须是高效率和可伸缩的。 2 处理不同类型的数据和数据源。目前数据挖掘系统处理的数据库大多是 关系数据库。随着数据库应用范围的日益扩大和规模、功能的日益完善,数据 库中将包含大量复杂的数据类型。如结构化的数据,复杂的数据对象,混合文 本,多媒体数据,时空数据,事务数据及历史数据等,甚至出现新的数据库模 型。因此,保证数据挖掘系统能有效地处理此类数据库中的数据是至关重要的。 3 数据挖掘系统的交互性。数据挖掘中操作者的适当参与能加速数据挖掘 过程。一方面,交互界面接收用户的检索、查询要求和数据挖掘策略,为用户 表达要求和策略提供了方便;另一方面,交互界面又把生成的结果传递给用户, 由于生成的结果可以是多种多样,因此,准确而直观地描述挖掘结果和友好而 高效的用户界面一直是研究的重要课题。 4 w e b 挖掘。由于w e b 上存在大量信息,并且w e b 在当今社会扮演越来越重 山东理t 人学硕l :学位论文 第一:章数据挖掘综述 要的角色,有关w e b 内容挖掘、w e b 日志挖掘和因特网上的数据挖掘服务,将 成为数据挖掘中一个最为重要和繁荣的子领域。 5 数据挖掘中的隐私保护与信息安全。数据挖掘能从不同的角度、不同的 抽象层上看待数据,这将潜在地影响数据的私有性和安全性。随着计算机网络 的日益普及,研究数据挖掘可能导致的非法数据入侵是实际应用中需要解决的 问题之一。 6 探索新的应用领域。早期的数据挖掘主要集中在帮助企业提高竞争能 力。随着数据挖掘的日益普及,它的应用领域也在不断扩大。信息产业的发展 为数据挖掘提供了广阔的空间,数据挖掘技术的应用范围将不断得到拓宽,特 别是在生物工程、商业智能、网络服务等领域的应用将成为新的研究热点。同 时由于通用数据挖掘系统在处理特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论