(系统理论专业论文)基于决策树的轨道不平顺数据分析.pdf_第1页
(系统理论专业论文)基于决策树的轨道不平顺数据分析.pdf_第2页
(系统理论专业论文)基于决策树的轨道不平顺数据分析.pdf_第3页
(系统理论专业论文)基于决策树的轨道不平顺数据分析.pdf_第4页
(系统理论专业论文)基于决策树的轨道不平顺数据分析.pdf_第5页
已阅读5页,还剩108页未读 继续免费阅读

(系统理论专业论文)基于决策树的轨道不平顺数据分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 是从大量数 据中发现潜在规律、提取有用知识的方法和技术。近年来,k d d 受到了普 遍关注,已经成为信息系统和计算机科学领域研究中最活跃的部分。k d d 被认为是从数据中发现有用知识的整个过程,而数据挖掘( d a t am i n i n g , d m ) 被认为是k d d 过程中的一个特定步骤,它用专门算法从数据中抽取 模式。 数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖 掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售等领 域。但数据挖掘技术应用于铁路轨道不平顺数据分析领域,目前研究较少。 铁路线路监测产生了大量的轨道不平顺数据,期待对其进行挖掘,找出其 中潜在的规律,以对未来的数据进行分析与预测。 本文以实现基于决策树的铁路轨道不平顺数据分类系统为目标。首先 在初步调研与分析知识发现与数据挖掘相关理论与应用的基础上,归纳了 该领域的主要研究内容和关键技术。然后介绍了目前轨道不平顺数据管理 的现状,以秦沈客运专线轨道不平顺数据为例,展现了现有系统的作用和 意义。并着重分析了其存在的弊端,并合理地提出了自己的改进方案。进 而结合数据挖掘的应用现状和理论基础,重点分析了分类算法的理论、方 法和实现技术。研究的主要内容有数据挖掘的过程模型、数据预处理、决 策树分类的常用算法等。最后设计和实现了一个基于决策树的轨道不平顺 数据分类k d d 系统,并对所采集的秦沈客运专线轨道不平顺数据进行了 分类挖掘,分析了已有数据的规律,并对未知类别的数据进行了预测。试 验表明,本文所提出的算法是有效的,具有实际应用价值。本文所实现的 轨道不平顺数据分类系统对于实际的轨道不平顺数据分析及预测具有一定 的指导及帮助作用。 本文主要研究工作如下: 1 、基于i d 3 及c 4 5 算法,分析了一般决策树的建树、剪枝算法; 2 、 针对一般决策树缺乏伸缩性的缺陷,分析高速可伸缩分类算法:s l i q 算法及s p r i n t 算法,深入研究了算法的实现策略: 3 、 以秦沈客运专线的轨道不平顺数据为例,阐述轨道不平顺数据分析的 意义、现状及存在的不合理点,具体提出利用决策树分类挖掘算法对 庞大的轨道不平顺数据进行分析与预测的改进设想; 4 、基于本文所阐述的k d d 过程模型和关键技术,及所提出的研究设想, 设计实现一个切实可用的、完整流程的k d d 系统:轨道不平顺数据 分类系统,著对实际数据进行分析与预测,验证了文中所提出的研究 设想的实际可行性及其所产生的效用。 本文针对上述研究内容,进行了火量的实验研究和论证。结果表明, 本文的理论、方法与技术基本正确有效,所实现的轨道不平顺数据分类系 统对实际的轨道不平顺管理可提供一定的指导作用,具有良好的实际应刚 前景。 关键词:k d d ,数据挖掘,轨道不平顺,车辆动力响应,车体加速度,分 类,决策树,i d 3 ,c 4 5 ,s l i q ,s p r i n t 。 l l a b s t r a c t k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ( k d d ) i sm e t h o da n dt e c h n i q u et h a t d i s c o v e rl a t e n tr u l ea n dd i s t i l lu s e f u lk n o w l e d g ef r o ml a r g en u m b e r so fd a t a r e c e n t y e a r s ,k d d i sp a y e dp e r v a s i v ea t t e n t i o n ,a n di tb e c o m e st h em o s ta c t i v e p a r t o fi n f o r m a t i o ns y s t e ma n dc o m p u t e rs c i e n c er e s e a r c hr e a l m k d di s c o n s i d e r e da st h ew h o l ep r o c e s so fu s e f u lk n o w l e d g ed i s c o v e r yi nd a t a b a s e s , a n dd a t am i n i n g ( d m ) i sc o n s i d e r e da sap a r t i c u l a rs t e po f k d d p r o c e s s ,a n d i t d i s t i l lp a r e mf r o mt h ed a t au s i n gs p e c i a la r i t h m e t i c d a t am i n i n gt e c h n i q u ef a c et ot h ea p p l i c a t i o nf r o mt h ef i r s t n o wi nm a n y f i e l d s ,d a t am i n i n gi s af a s h i o n a b l ew o r d ,p a r t i c u l a r l yi nt h er e a l m ss u c ha s b a n k ,t e l e c o m ,i n s m a n c e ,t r a n s p o r t a t i o na n dr e t a i le t c b u td a t am i n i n gi sf e w u s e di nd a t aa n a l y s i so fr a i l w a yt r a c kd i s c o m p l a n a t er e a l m i tp r o d u c e dl a r g e n u m b e r so f r a i l w a yt r a c kd i s c o m p l a n a t ed a t ai nr a i l w a yt r a c ki n s p e c t i o n ,a n di t i se x p e c t e dt ob em i n e dt of i n dt h el a t e n tr u l et oa n a l y z ea n df o r e c a s tt h ed a t ao f 矗l t i l r e t h e p a p e ra i m sa tt h er e a l i z a t i o no f t h ec l a s s i f i c a t i o ns y s t e mo f r a i l w a y t r a c kd i s c o m p l a n a t ed a t ab a s i n go nd e c i s i o nt r e e f i r s t l y , t h ep a p e rc o n c l u d e s t h em a i nr e s e a r c hc o n t e n t sa n dt h ek e yt e c h n i q u eo ft h er e a l m ,b a s i n go n e l e m e n t a r yi n v e s t i g a t i o na n da n a l y s i so nt h er e l a t e dt h e o r i e sa n dk e yt e c h n i q u e o fk d da n dd m t h e nt h e p a p e ri n t r o d u c e d t h ec n l t e n ts t a t u so ft r a c k d i s c o m p l a n a t em a n a g e m e n t ,a n dp u t i ta se x a m p l eo f1 r a c kd i s c o m p l a n a t ed a t a o fq i n s h e np a s s e n g e rt r a n s p o r t a t i o ns p e c i a ll i n e ,a n de x h i b i tt h ef u n c t i o na n d m e a n i n g o f e x i s t e n ts y s t e m t h e p a p e r m a i n l y a n a l y z e s i t se x i s t e n t l i m i t a t i o n , a n db r i n gf o r w a r do w na m e l i o r a t i v ep r o j e c tt h ep a p e rc o m b i n et h ep r e s e n t c o n d i t i o no fa p p l i c a t i o na n dt h ef o u n d a t i o no ft h e o r yo fd a t am i n i n g ,a n d m a i n l ya n a l y z e d t h et h e o r i e s 、m e t h o da n dr e a l i z a t i o nt e c h n i q u eo f c l a s s i f i c a t i o n a r i t h m e t i c t h em a i nc o n t e n to fr e s e a r c hc o n t a i nt h ep r o c e s sm o d e lo fd m 、 d a t ap r e p r o c e s s i n ga n dc o l t n n o na r i t h m e t i co fd e c i s i o nt r e ec l a s s i f i c a t i o n f i n a l l y , t h ep a p e rd e s i g n e da n dr e a l i z e dak d ds y s t e mo f t r a c kd i s c o m p l a n a t e d a t ac l a s s i f i c a t i o n b a s i n go nd e c i s i o nt r e e ,a n dm i n e dt h e d a t ao ft r a c k d i s c o m p l a n a t eo fc l a s s i f i c a t i o n o fq i n s h e np a s s e n g e rt r a n s p o r t a t i o ns p e c i a l l i n ew eg a t h e r e d ,a n da n a l y z e dt h er u l eo ft h ed a t a ,a n df o r e c a s tt h ed a t ao f f u t u r ew i t hu n k n o w n c l a s s e x p e r i m e n ti n d i c a t e dt h a tt h ea r i t h m e t i ci se f f e c t i v e , a n di th a sa c t u a lu s i n gv a l u et h ec l a s s i f i c a t i o ns y s t e mo ft r a c kd i s c o m p l a n a t e d a t aw er e a l i z e dh a si n s t m c h v ea n dh e l p f u lf l l n c t i o nf o ra n a l y z ea n df o r e c a s to f a c t u a lt r a c kd i s c o m p l a n a t ed a t a m a i nr e s e a r c hw o r ko f t h i sp a p e rs h o w e da sf o l l o w s : 1 、a n a l y z ea r i t h m e t i c o ft r e e b u i l d i n ga n dt r e ep r u n i n go fg e n e m l d e c i s i o nt r e e ,b a s i n go ni d 3a n dc 4 5 2 、c o n t r a p o s e t ot h el i m i t a t i o no ft h el a c ko fr e t r a c t i l i t yo fg e n e r a l d e c i s i o nt r e ep u tf o r w a r dc l a s s i f i c a t i o na r i t h m e t i cw i t hh i g hs p e e dm a d r e t r a c t i l i t y :s l i q a n ds p r i n t a r i t h m e t i c ,d e e p l y s t u d i e dt h e r e a l i z a t i o ns t r a t e g y 3 、p u ti ta se x a m p l eo ft r a c kd i s e o m p l a n a t ed a t ao fq i n s h e np a s s e n g e r t r a n s p o r t a t i o ns p e c i a ll i n e ,e x p a t i a t e t h e m e a n i n g 、s t a t u s 、a n d i n c o n s e q u e n c e ,p u tf o r w a r dt h ea m e l i o r a t i o na s s u m et oa n a l y z ea n d f o r e c a s tt h ec o l o s s a ld a t ao ft r a c kd i s c o m p l a n a t eu s i n gc l a s s i f i c a t i o n a r i t h m e t i cb a s e do nd e c i s i o nt r e e 4 、b a s i n gt h ek d dp r o c e s sm o d e la n dk e yt e c h n i q u ea n da m e l i o r a t i o n a s s u m e d e s i g n e da n d r e a l i z e dap r a c t i c a b l ek d d s y s t e mw i t l lw h o l e p r o c e s s :t m c kd i s c o m p l a n a t e d a t ac l a s s i f i c a t i o n d y d t e mb a s i n g o n d e c i s i o nt r e e ,a n da n a l y z e da n df o r e c a s t e dt h ea c t u a ld a t ao ff u t u r e a n dv a l i d a t e dt h ea c t u a lf e a s i b i l i t yo f t h ea m e l i o r a t i o na s s u m ea n dt h e e f f e c ti tb r i n g e d t h ep a p e ra i m e da ta b o v er e s e a r c hc o n t e n t s ,p u tu pal o to fe x p e r i m e n t r e s e a r c ha n dd e m o n s t r a t i o n t h er e s u l t se x p r e s s e st h a t ,t h e o r i e s 、m e t h o da n d t e c h n i q u ei sr i g h tb a s i c l y , a n dt h ec l a s s i f i c a t i o ns y s t e mo f t r a c kd i s c o m p l a n a t e d a t a b a s i n g o nd e c i s i o nt r e ec a n p r o v i d e i n s t r u c t i v ef u n c t i o nf o rt r a c k d i s c o m p l a n a t e d a t a m a n a g e m e n t , a n di th a v e g o o d a n da c t u a l a p p l i e d f o r e g r o u n d k e yw o r d s :k d d ,d a t am i n i n g ,t r a c kd i s c o m p l a n a t e ,d y n a m i c a lr e s p o n do f v e h i c l e ,v e h i c l ea c c e l e r a t i o n ,c l a s s i f y , d e c i s i o nt r e e ,i d 3 ,c 45 ,s l i q ,s p r i n t 北京交通大学坝:0 学位论义第一章绪论 第一章绪论 知识发现被认为是从数据中发现有用知识的整个过程,而数据挖掘被 认为是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模 式。而分类是数据挖掘中应用的最多的任务。本论文的任务在于分析决策 树分类挖掘的经典算法,同时将其应用于轨道不平顺数据分析与预测,设 计实现一个切实可用的、完整流程的k d d 系统:轨道不平顺数据分类系 统,并对实际数据进行分析与预测。那么做为理论铺垫,本章我们首先来 了解一下相关的理论知识:知识发现、数据挖掘以及分类。 1 1 知识发现 数据库知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ,k d d ) 是从大量数 据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发 现受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中 最活跃的前沿领域。 1 1 1 知识发现的产生 知识发现是如何产生的? 又有什么作用呃? 需要是发明之母信息技术及数据仓库技术的发展,在产生巨大决 策效益的同时,带来了新的问题。快速增长的海量数据收集、存放在大型 和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。 结果,收集在大型数据库中的数据变成了“数据坟墓”难得再访问的 数据档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而 是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工 具。此外,考虑当前的专家系统技术,通常,这种系统依赖用户或领域专 家人工地将知识输入知识库。不幸的是,这一过程常常有偏差和错误,并 且耗时、费用高。知识发现工具进行数据分析,可以发现重要的数据模式, 对商务决策、知识库、科学和医学研究作出了巨大贡献。数据和信息之间 的鸿沟要求系统地开发知识发现工具,将数据坟墓转换成知识“金块”【1 1 。 知识发现的产生,正是基于“从数据坟墓向知识金块转换”的此霰求, 并为之提供强有力数据分析工具。 f r i e d m a n 列举了四个主要的技术理由激发了知识发现的开发、应用和 北京交通大学硕i 学位论文 第一章绪论 研究的兴趣: 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的 数据纪录: 先进的计算机技术,例如更快和更大的计算能力和并行体系结 构: 对巨大量数据的快速访问; 对这些数据应用精深的统计方法计算的能力。 数据库知识发现这个术语首先出现在1 9 8 9 年8 月在美国底特律召开 的第1 1 届国际人工智能联台会议的专题讨论会上,1 9 9 1 ,1 9 9 3 和1 9 9 4 年 又接着继续举行k d d 专题讨论会。随着参加会议人数的增多,从1 9 9 5 年 开始,每年都要举办一次k d d 国际会议。这几次国际k d d 学术会议上讨 论的问题有:( 1 ) 定性知识和定量知识的发现;( 2 ) 数据汇总:( 3 ) 知识发现 方法:( 4 ) 数据依赖关系的发现和分析;( 5 ) 发现过程中知识的应用;( 6 1 集 成的交互式的知识发现系统;( 7 ) 知识发现的应用。另外从1 9 9 7 年开始, k d d 拥有了自己的专门杂志k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) ) 。随 着互联网的发展,网络上设立了很多关于k d d 研究的网站、论坛以及新 闻组。除了研究外,也出现了相当数量的k d d 产品和应用系统,并且获 得了一定的成功,得到了业界的广泛关注。 1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘( d a t am i n i n g , d m 。有人翻译为数据发掘,数据采掘,数据开采) 国际学术会议。由于把 数据库中的“数据”形象地比喻成矿床,“数据挖掘”一词快流传开来。 1 9 9 5 年以来,国外在数据挖掘知识发现方面论文已经非常多,已形成了热 门研究方向。 知识发现是应用需求推动下多种学科融合的结果【2 j ( ”。随着研究逐步 走向深入,知识发现的研究已经形成了三根强大的技术支柱:数据库、人 工智能和数理统计。因此,k d d 大会程序委员会曾经由这三个学科的权威 人物同时来任主席。 1 1 2 知识发现的定义 k d d 被认为是从数据中发现有用知识的整个过程。d m 被认为是k d d 过程中的一个特定步骤,它用专门算法从数据中抽取模式( p a t t e r n s ) 。 定义:k d d = 数据清理+ d m + 知识评价与解释。目前学术界公认,d m 是k d d 的核心,而k d d 是d m 的扩展和延伸。 数据仓库( d a t aw a r e h o u s e ) 为k d d 作数据准备,相当于k d d 的数据 清理。但数据仓库可以独立成产品,它自己的相对简单的数据分析机制, 2 北京交通大学硕士学位论文 第一章绪论 而k d d 也可以不需数据仓库而用自己的数据消理模块。 由于k d d 是门新兴的、来自各种不同领域的交叉性学科,因此有 很多不同的术语名称,除了知识发现称呼外,主要还有“知识抽取” f i n f o r m a t i o ne x t r a c t i o n ) ,“信息发现”( i n f o r m a t i o nd i s c o v e r y ) 。“知识发现” ( k n o w l e d g ed i s c o v e r y ) ,“智能数据分析”( i n t e l l i g e n td a t a a n a l y s i s ) ,“信息 收获”( i n f o r m a t i o nh a r v e s t i n g ) 等等称法。从k d d 的名称中可以看出,k d d 更强调与数据库的联系。 k d d 至今有多种定义,其中得到公认的定义是f a y y a d 4 等给出的: k n o w l e d g ed i s c o v e r yi nd a t a b a s e si st h en o n t r i v i a lp r o c e s so fi d e n t i l y i n g v a l i d ,n o v e l ,p o t e n t i a l l yu s e f u l ,a n du l t i m a t e l yu n d e r s t a n d a b l ep a t t e r n si n d a t a 。 数据库中的知识发现是从数据集中识别出有效的、新颖的、潜在有用 的,阻及最终可理解的模式的高级过程。 其中: 数据集:是指一个有关事实f 的集合( 如学生档案数据库中有关学生基 本情况的各条纪录) ,它是用来描述事物有关方面的信息,是我们进一步发 现知识的原材料。 新颖:经过知识发现提取出的模式必须是新颖的,至少对系统来说应 该如此。模式是否新颖可以通过两个途径来衡量:其一是得到的数据,通 过对比当前得到的数据和以前的数据或期望得到的数据之间的比较来判 断该模式的新颖程度;其二是通过其内部所包含的知识,通过对比发现的 模式与已有的模式的关系来判断。通常我们可以用一个函数来表示模式的 新颖程度n ( e ,f ) ,该函数的返回值是逻辑值或是对模式e 的新颖程度的 一个判断数值。 潜在有用:提取出的模式应该是有意义的,这可以通过某些函数的值 来衡量。用u 表示模式e 的有用程度,则u = u ( e ,f ) 。 可被人理解:知识发现的一个目标就是将数据库中隐含的模式以容易 被人理解的形式表现出来,从而帮助人们更好地了解数据库中所包含的信 息。知识发现不同于以往知识获取技术的一个特点是发现的知识是人们( 至 少是领域专家) 可以理解的,如“i ft h e n ”的形式,因此挖掘过程也是 一个人机交互、螺旋上升的过程。而以往的方法,如人工神经网络,不论 是知识发现过程还是知识应用过程,内部都是一个近“黑箱”过程。 模式:对于集合f 中的数据,可以用语言l 来描述其中数据的特性。 表达式e l ,e 所描述的数据是集合f 的一个子集f e 。只有当表达式e 比 列举所有f e 中元素的描述方法更为简单时,我们才可称之为模式。如:“如 果成绩在8 1 9 0 之间,则成绩优良”可称为一个模式,而“如果成绩为8 1 , 8 2 ,8 3 ,8 4 ,8 5 ,8 6 ,8 7 ,8 8 ,8 9 或9 0 ,则成绩优良”就不能称 北京交通大学硕l 学位论文 第一章绪论 之为一个模式。 高级过程:知识发现是对数据进行更深层处理的过程,而不是仅仅对 数据进行加减求和等简单运算或查询,要有一定程度的智能性、自动性。 因此说它是一个高级的过程”。 1 1 3 知识发现的过程 f a y y a c l l 9 9 6 年给出了如图1 1 所示的k d d 知识发现处理过程,是公 认的通用的知识发现过程定义。 t 数据挖 t 评估与裘 辕式 数精球 展开文p i :; ! j ;一童,一童 图1 - 1 知识发现过程 在知识发现过程中,数据被存储在数据库中,根据数据挖掘算法的要 求从数据库中选取数据挖掘所需要的数据,在数据预处理阶段对数据噪音 和错误数据进行处理,然后对数据进行变换满足数据挖掘算法的要求,选 4 北京交通大学顿士学位论文 第章绪论 择合适的数据挖掘算法进行数据挖掘,以发现知识模式,这是知识发现的 核心阶段,最后对发现的模式进行解释和评估,剔除冗余和无关的模式, 并要对发现的模式进行可视化,把结果转换成用户易懂的表示方式。 我们可以看出,k d d 过程主要由数据处理,数据挖掘和结果分析三个 主要部分组成。 数据处理 数据处理又可分为三个子步骤:数据选取( d a t as e l e c t i o n ) 、数据 预处理( d a t ap r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。数 据选取的目的是确定发现任务的操作对象,即目标数据( t a r g e td a t a ) , 是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般 可能包括消除噪声、推导计算缺值数据、消除重复纪录、完成数据类 型转换( 如把连续值数据转换为离散型的数据,以便于符号归纳,或 是把离散型的转换为连续值型的,以便于神经网络) 等。当数据挖掘 的对象是数据仓库时,一般来说,数据预处理己经在生成数据仓库时 完成了。数据变换的主要目的是消减数据维数即降维( d i m e n s i o n r e d u c t i o n ) ,即从初始特征中找出真正有用的特征以减少数据挖掘时 要考虑的特征或变量个数。 数据挖掘 数据挖掘阶段首先根据对问题的定义明确挖掘的任务或目的。如 分类q 【”、聚类队关联规则发现【9 域序列模式发现等。确定了挖掘 任务后,就要决定使用什么样的算法。选择实现算法有两个考虑因素: 一是不同的数据有不同的特点。因此需要用与之相关的算法来挖掘; 二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、 容易理解的知识( 采用规则表示的挖掘方法显然要好于神经网络之类 的方法) ,而有的用户只是希望获取预测准确度尽可能高的预测型知 识,并不在意获取的知识是否易于理解。 结果解释和评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关 的模式,这时需要将其剔除:也有可能模式不满足用户要求,这时则 需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据 变换方法、设定新的参数值,甚至换一种算法等等。另外,k d d 由于 最终是面向用户的,因此可能要对发现的模式进行可视化,或者把结 果转换为用户容易理解的其它表示形式,如把分类决策树转换为 “i t h e n 一”规则。 数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个 影响要素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的 质量和数量。如果选择了错误的数据或不适当的属性,或对数据进行了不 5 北京交通大学硕士学位论文 第一章绪论 适当的转换,则挖掘的结果不会好。 1 2 数据挖掘 数据挖掘作为k d d 的一个核心步骤。其采用不同算法从数据中抽取 不同模式。 1 2 1 模型分类 数据挖掘的任务是从数据中发现模式。模式是个用语言l 来表示的 一个表达式e ,它可用来描述数据集f 中数据的特性,e 所描述的数据是 集合f 的一个子集f e 。e 作为一个模式要求它比歹毡举数据子集f e 中所有 元素的描述方法简单。模式有多种分类,下面做一个简要的介绍: 知识发现的方法模型按照功能分为预测型( p r e d i c t i v e ) 模型和描述型 ( d e s c r i p t i v e ) 模型”j ”j 。在预测模型中用来预测的称为独立变量,要 预测的称为相关变量或目标变量。预测模型包括分类模型、回归模型和时 间序列模型;描述模型包括聚类模型、关联模型。前者有时又称为有监督 学习,因为在建立模式前数据的结果是己知的,可以直接用来检测模式的 准确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时, 使用一部分数据作为样本。用另一都分数据来检验、校正模式。后者称为 无监督学习,因为在模式建立前结果是未知的,模式的产生不受任何监督。 在实际应用中,往往根据模式的实际作用细分为以下几种: 关联模型( a s s o c i a t i o nm o d e l ) 关联分析是从数据库中发现知识的一类重要方法。若两个或多个 数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以 建立起这些数据项的关联规则。例如,买面包的顾客有9 0 的人还买 牛奶,这是一条关联规则。若商店中将面包和牛奶放在一起销售,将 会提高他们的销量。 分类模型( c l a s s i f i c a t i o nm o d e l ) 分类是数据挖掘中应用的最多的任务。分类是找出一个类别的概 念描述,它代表了这类数据的整体信息,以及该类的内涵描述,一般 用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类 别中的某一个。有两种分类技术最为普遍地用于知识发现:决策树和 简单贝叶斯分类器。著名的决策树算法是q u l i a n 的c 4 5 决策树算法 ,被得到了极其广+ 泛的应用。本文在第三章将对决策树分类技术有 详细的介绍。 6 北京交通大学硕士学位论文第一章绪论 聚类模型( c l u s t e r i n gm o d e l ) 数据库中的数据可以划分为一系列有意义的子集,即类。在同一 类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。 聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。例如 鸡,鸭,鹅等都属于家禽。聚类方法包括统计分析方法,机器学习方 法,神经网络方法等。 回归模型( r e g r e s s i o nm o d e l ) 回归模型用属性的历史数据预测未来趋势。在最简单的情况下, 可以用标准统计方法,如线性回归等。但现实中往往非线性问题居多, 如股票价格的涨跌、机械系统故障的发生等,由于受许多因素的影响, 问题变得非常复杂。回归模型的任务就是找出对这些变化的准确描 述。回归的输出是连续数值。有些技术既可以用于分类,又可以用于 回归,如c a r t ( c l a s s i f i c a t i o n a n dr e g r e s s i o n t r e e s ) 等。 时间序列模型( t i m es e r i e sm o d e l ) 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序 列的影响。例如,在所有购买了激光打印机的人中,半年后8 0 的人 再购买新硒鼓,2 0 的人用旧硒鼓装碳粉癌所有购买了彩色电视机的 人中,有6 0 的人再购买v c d 产品。在时序模式中,需要找出在某 个最小时间内出现比率一直高于某一最小百分比( 阈值) 的规则。这些 规则会随着形式的变化做适当的调整。 1 2 2 数据挖掘的方法 作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数 据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可 能是不完全的、有噪声的、随机的,有复杂的数据结构( 维数大) 。最后, 数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。 以下是常见和应用最广泛的算法和模型: i 、统计学方法 在数据挖掘中,统计学可应用于预测、聚类规则挖掘和时序数据的趋 势分析等【1 4 】【”j 。预测是数据分析的种重要形式,通过建立连续值函数模 型,可以预测数据的未来变化趋势。连续值的预测可以使用统计学中的回 归统计技术建模,如线性回归、多元回归、非线性回归、广义线性回归( 对 数回归、泊松回归等) 。许多问题可以用线性回归方法解决,而更多的问 题则可以对变量进行变换,使得非线性的问题转换为线性的问题加以处 理。统计学方法还可以应用于基于模型的聚类分析。例如,概念聚类是一 7 北京交通大学硕:l 学位论文第一章绪论 种基于模型的聚类方法,它对于一绸为标记的对象,产生一个分类模式。 这种聚类不仅能够确定相似对象的分组,还可以发现每一个分组的特征描 述,即每一个分组代表了一个概念或类。概念聚类的大多数方法采用了统 计学的途径,在决定概念或聚类时使用概率度量,用概率描述导出的概念。 2 、信息论方法 信息论是研究信息的测度及其性质、信息传输和信息处理系统的一般 规律的学科分支。其研究内容主要包括:以编码理论为中心的所谓狭义信 息论,它研究信息的测度、信息的容量、信源特性、信源编码、信道和信 息系统模型等;信号处理技术,它研究信号和噪音分析、信号的过滤与检 测,以及有关理论:以计算机为中心的信息处理技术与理论,例如模式识 别、自学习理论、自动机器翻译等。 3 、集合论方法 粗糙集 粗糙集,是由波兰华沙理工大学z p a w l a k 教授等提出的研究不 完整数据、不精确知识的表达、学习和归纳的理论与方法。粗糙集方 法与使用统计学方法或模糊集合论方法处理不精确数据的方法不同, 它是以对观察和测量所得数据进行分类的能力为基础的,为智能信息 处理提供了有效的理论基础和处理技术。 模糊集 模糊性是客观存在的,系统的复杂性越高,精确化能力就越低, 也就意味着模糊性越强。在进行分类规则挖掘时,如果采用精确值作 为阈值或边界是比较苛刻的,引入模糊集的隶属函数后可以使分类更 加接近于现实。基于模糊集理论的分类方法通常需要将属性值转换为 模糊值,然后使用模糊规则对给定样本数据进行分类。模糊集合理论 还可以用于对实际问题进行模糊评判、模糊决策、模糊模式识别和模 糊聚类分析等。 4 、生物学方法: 人工神经网络 神经网络是人工智能领域的一个重要的分支。在人工神经网络 中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人 脑的神经元那样互相连接起来,构成一个阿络。神经网络并非使用编 程的方式让计算机去做某项工作,丙是采用所谓“训练”的方法让神 经网络进行“学习”。完成某项工作的正确动作,使得神经网络的某 些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模 式不被强化。从而让神经网络“学会”如何去做这项工作。 遗传算法 遗传算法( g e n e t i ca l g o r i t h m s ,简记为g i ) :是- - t 0 借鉴生物界 北京交通大学l 面士学位论文第一章绪论 自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。 遗传算法的研究历史比较短,是从2 0 世纪6 0 年代末期到7 0 年代初 才开始的,当时的一些学者从试幽解释自然界中生物的复杂适应过程 入手,模拟生物进化的机制来建立人工系统的模型。经过近3 0 的发 展,现已取得了理论研究的进展平i i 丰硕的应用成果。目前,以遗传算 法为核心的进化算法己与模糊系统理论、人工神经网络等起成为人 工智能研究中的热点,受到许多学科的共同关注”q 。 5 、可视化技术 可视化数据分析技术i 】1 拓宽了传统的图表功能,使用户对数据的剖析 更清楚、更直观。例如,把数据仓库中的多维数据或者把由数据挖掘获得 的模式和规则变成多种图形,这对揭示数据的状况、内在本质及规律性起 到了重要的作用。 1 2 3 数据挖掘的应用 需要强调的是,数据挖掘技术从一开始就是面向应用的。 数据挖掘技术的应用开发在国外已经迅速发展,许多大公司( 如 i n f o r m i x ,o r a c l e ,i b m 等) 都投入了巨资对其进行研究,并开发出了一些产 品和原型,如d b m m e r ”j 、q u e s t 、e x p l o r a 等。与国外相比,国内在这 方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来 关于时序模式、分类、聚类、w e b 数据挖掘等的研究也日益受到重视,并 取得了不少可喜的成果,些原型系统或数据挖掘工具已经研制成功并在 不断完善中。 目前,对数据挖掘的应用,主要集中在银行、电信、保险、交通、零 售( 如超级市场) 等商业领域。数据挖掘所能解决的典型商业问题包括: 数据库营销( d a t a b a s em a r k e t i n g ) 、客户群体划分( c u s t o m e rs e 群n e n t a t i o n c l a s s i f i c a t i o n ) 、背景分析( p r o f i l e a n a l y s i s ) 、交叉销售( c r o s s - s e l l i n g ) 等市场分析行为,以及客户流失性分析( c h u ma n a l y s i s ) 、客户信用记分 ( c r e d i ts c o r i n g ) 、欺诈发现( f r a u dd e t e c t i o n ) 等等。 最近,g a r m e rg r o u p ( 著名的市场研究公司) 的一次高级技术调查将 数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大 关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资 焦点的十大新兴技术前两位。根据最近g a r t n e r 的h p c 研究表明,“随着 数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用 新技术来挖掘市场以外的价值,采用更为,“阔的并行处理系统来创建新的 商业增长点”。 9 北京交通大学硕i 学位论文第一章绪论 数据挖掘技术应用于铁路交通运输领域,目前研究较少,但也进行了 某些探讨分析。文献【1 w 通过信息技术的应用,以及基于关联规则发现、 无序矩阵判定等基本数据挖掘操作,对货运装载的超限数据实行了数字化 管理,并建立了分析超限数据的智能化软件系统。文献口”结合在铁路机务 段从事管理信息系统开发的经验,讨论了在成本控制中应用数据挖掘技术 的可行性,并提出了基于这一技术的成本控制系统的基本结构框架和设计 实现。文献口l 】以铁路机务段现有的数据库为基础,将关联规则挖掘算法应 用于铁路机务段管理信息系统,通过一个原型的实践表明,挖掘的关联规 则和知识对提高企业m i s 的管理水平有显著作用,说明了进一步研究的方 向。文献口”对铁路货运数据挖掘问题的理论框架、研究现状及进展作了综 合评述,根据铁路货运数据信息的特点,围绕着货运数据挖掘、货运数据 的综合应用问题进行了研究。 数据挖掘在铁路交通运输领域的研究与应用已经取得了不小的成 果,对实际的铁路运输工作具有一定的指导意义并产生了一定效益。然而 不论从深度还是广度,与数据挖掘在其他领域的蓬勃发展相比,这些研究 还处于起步阶段,很多研究仅仅是针对某个小范围的部门,或是仅仅处 于设想

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论