(计算机软件与理论专业论文)面向列车客票数据预测分析及特征提取方法的研究.pdf_第1页
(计算机软件与理论专业论文)面向列车客票数据预测分析及特征提取方法的研究.pdf_第2页
(计算机软件与理论专业论文)面向列车客票数据预测分析及特征提取方法的研究.pdf_第3页
(计算机软件与理论专业论文)面向列车客票数据预测分析及特征提取方法的研究.pdf_第4页
(计算机软件与理论专业论文)面向列车客票数据预测分析及特征提取方法的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机软件与理论专业论文)面向列车客票数据预测分析及特征提取方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

p j - 6 3 5 7 2 5 捅要 随着铁路信息化技术的发展,作为铁路信息系统子系统的客票营销系统已经 积累了丰富的数据,如何以较少的人力和技术成本合理利用现有的客票信息资源 获取有价值的决策信息,日趋成为铁路决策部门的一个迫切需求和铁路客票营销 和信息技术部门的一个工作重点。数据挖掘技术的迅速发展为铁路客票营销工作 的深入分析奠定了良好的理论基础,但是现有的数据挖掘工具在面对海量存储级 别的客票数据和结合铁路背景的实际应用需求时,具有一定的局限性,不能直接 为其所用,需要结合应用需求进行方法改良。 本文面向铁路客票的营销需求分析,以铁路客运为背景,针对客票数据特征, 围绕如何对铁路客票数据建立有效的数据分析模型进行了深入的研究和大量的 应用性实验。本文是以数据挖掘分类方法中的决策树归纳方法和数据挖掘中的概 念描述为理论出发点,以建立合理的面向客票数据的数据分析方法为目的的。对 于不同的决策树分类算法,特别是对i d 3 、s l i q 、s p r i n t 等进行了较为详尽、 深入地研究,通过详细的分析和综合研究,针对目前铁路客票营销系统中预测方 法的不足,提出了一个改进的决策树方法t t d t p a 。此方法具有突破内存的限制、 可提取的定量规则以描述主类分布、易于实现并行等特点,从而使得经过改进的 决策树分类方法t r d t p a 可以更有效地满足铁路客运营销分析的需求。同时, 本研究还尝试采用了朴素贝叶斯方法和一种基于等价类划分方法对客票数据分 别进行建模,以期能改善对客票数据的分析的综合性能。特别是后一种方法,它 可以提取数据集中小类属数据的特征,从而有效的弥补了t t d t p a 方法在此方 面的局限。通过对这些方法实际应用结果的归纳分析,根据它们不同的特点,在 本文最后给出了对实际客票数据进行数据分析时建立数据分析模型的方法。 通过研究,我们对挖掘技术在客票数据中的应用有了一定的积累,为进一步 的研究奠定了良好的基础并提供了一定的理论指导。另一方面,将有效的数据挖 掘技术应用于铁路客票营销分析,建立合理的预测分析模型,为铁路部门合理安 排运能、科学组织管理提供了准确的决策信息和先进的预测手段。 关键字:数据挖掘,预测性挖掘,描述性挖掘,决策树归纳,粗糙集, 铁路客票营销,铁路客运 a b s t r a c t w i t hc h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yi nc h i n ar a i l w a y , r i c ht i c k e td a t a h a v eb e e nc o l l e c t e di nc h i n ar a i l w a yt r a i nt i c k e ts y s t e m ( c r t r s ) ,w h i c hi s t h e s u b s y s t e mo f c h i n ar a i l w a yi n f o r m a t i o ns y s t e m h o wt oe f f i c i e n t l y e x t r a c tt h e v a l u a b l ed e c i s i o ni n f o r m a t i o nf r o mt h eh u g et i c k e td a t as e aw i t ht h el o w e rh u m a n a n d t e c h n i q u ee x p e n d i t u r ei sb e c o m i n g t h eu r g e n tr e q u e s tf o rm ed e c i s i o nd e p a r t m e n to f r a i l w a ya n dh a sb e e nt h ek e yp o i n tf o rt h ei n f o r m a t i o nd e p a r t m e n to fr a i l w a y i ti s t h e t e c h n i q u e s a b o u td a t a m i n i n gd e v e l o p e dr a p i d l y t h a te s t a b l i s ht h es t a b l e t h e o r e t i c a lf o o t s t o n ef o rt h ef u r t h e rr e s e a r c ho nt h er a i l w a yt i c k e t i n ga n a l y s i s ,b u t t h e r ea r es o m el i m i t a t i o n se x i s t e di np r e s e n td a t am i n i n gm e t h o d sw h e nt h e ya r e a p p l i e dt ot h eh u g ed a t a s e t sw i t ht h er a i l w a yb a c k g r o u n d s o ,t h eg e n e r i cm e t h o d s m u s tb ei m p r o v e dt of i tt h ea p p l i c a t i o nn e e d s r e g a r d i n gt h er a i l w a yp a s s e n g e rt r a f f i c a so u rs t u d yb a c k g r o u n da n da n a l y z i n g a r o u n dt h et r a i nt i c k e t i n gr e q u i r e m e n t s ,w ed od e e p l yr e s e a r c ha n dm a k el o t so f a p p l i c a t i o ne x p e r i m e n t so nh o w t ob u i l dt h ee 伍c i e n td a t aa n a l y s i sm o d e lo nt i c k e t d a t a s e ti nc r t r s t h em e t h o d so fd e c i s i o nt r e ei n d u c t i o na n dc o n c e p td e s c r i p t i o n i nd a t am i n i n ga r et h et h e o r e t i c a lp o i n tw h i c hw eb e g i no u rs t u d y , a n dt h i sr e s e a r c h a i m sa tb u i l d i n gr a t i o n a la n de f f i c i e n tm o d e l st oa n a l y z et r a i nd a t a s e t s f i r s t l y , a f t e r d e t a i l e d l md e e p l ya n a l y z e da n ds t u d i e do nc u r r e n tc l a s s i f i c a t i t na l g o r i t h m s ,e s p e c i a l l y , s u c ha so n 口d 3 、s u q 、s p r i n t , a n da c c o r d i n gt ot h er e q u i r e m e n t so fd e c i s i o n a n a l y s e sa n dt h el i m i t a t i o n so fc u r r e n tp r e d i c t i o nm e t h o d si nc r t r s f ln e wm e t h o d t r d t e a , w h i c hi sb a s e do nd e c i s i t nt r e ei n d u c t i o n i sp r e s e n t e d t t d 吼h a st h e c h a r a c t e r i s t i ct ob r e a kt h em e m o r yr e s t r i c t i o n c a ne x t r a c tak i n do fi n s t r u c t i v er u l e s t h a tc o l i c c tt h ea d v a n t a g e sb o t hp r e d i c t i o na n ds t a t i s t i c a n di sf a s c i l et oi m p l e m e n t t h ep a r a l l e la l g o r i t h m t h e r e f o r ei ti ss u i t a b l ef o rs u p p o r t i n gm u l t i 1 e v e lr e q u i r e m e n t s o ft h ed e c i s i o n m a k e r sf o rp r e d i c t i v ea n a l y s i si nc r t t s s e c o n d l y , f o r i m p r o v i n gt h e i n t e g r a t e da n a l y s i s ,t h i sr e s e a r c ha l s ot r yt ot a k eo t h e rt w od a t aa n a l y s i sm e t h o d st o a n a l y z et h et r a i nt i c k e td a t a o n ei st h en a i v eb a y e s i a n ,a n dt h eo t h e ri san e w m e t h o d b a s e do nt h ei n d i s c e m i b i l i t yr e l a t i o n t h ea p p l i c a t i o ne x p e r i m e n t sh a dp r o v e dt h a tt h e l a t t e rm e t h o dh a se f f i c i e n ta b i l i t yt oe x t r a c tt h ed a t ac h a r a c t e r i s t i co ft h em i n o r i t y k i n d si nm a i nc l a s s ,w h i c hi u s ti nt i m et om a k e u pt h et 兀) 删sl i m i t a t i o no nt h i s s i d e a n dt h e na c c o r d i n gt ot h ei n d u c t i o na n a l y s i sb a s e do nt h e s em e t l l o d sa n d c o n s i d e r i n g t h ea p p l i c a t i o nb a c k g r o u n d ,t h ei n s t r u c t i v em e t h o dt h a ti su s e dt ob u i l d i n g t h ea n a l y s i sm o d e lo nt h et r a i nt i c k e td a t ai sb e e ng i v e na tt h ee n dd a r to ft h i sp a p e r t h i ss t u d ym a k e sa ne f f i c i e n te x p l o r a t i o ni nt h ea p p l i c a t i o nf i e l d so fd a t am i n i n g t e c h n i q u e sa n dp r o v i d e sa f a v o r a b l eg r o u n d w o r kt om a k ef u r t h e rr e s e a r c h e so nd a t a a n a l y s i si nc r t i 弓a n dt h ei m p r o v e dm e t h o d sh a v et h ea b i l i t yt ob u i l da ne f i c i e n t p r e d i c t i v em o d e l t oh e l pd e c i s i o nm a k e rt ok n o wt h er a i l w a yt r a n s p o r t a t i o ns i t u a t i o n s w e l l ,g e tt h em u l t i a s p e c t ,m u l t i 1 e v e la n a l y s e sf o rt r a i nt i c k e td a t a k e y w o r d s :d a t a m i n i n g ,d e s c r i p t i v em i n i n gt a s k s ,p r e d i c t i v em i n i n g t a s k s , d e c i s i o nt r e ei n d u c t i o n ,r o u g hs e t ,t r a i nt i c k e ta n a l y s i s ,t r a i nt r a f f i c l l 面向列车客票数据预测分析及特征提取方法的研究 1 绪论 技术的进步源于应用的需求,数据挖掘的发展也不例外。正是由于传统数据 库系统,特别是关系数据库系统的成功,使我们有了强有力的事务处理工具,在 计算机的辅助下,人们可以方便地将传统的事务处理得很好,但是与此同时,快 速增长的海量数据也被相应的收集、存放在大型、大量的数据库中,从而使得人 们更希望计算机帮助他们分析数据、理解数据,帮助他们基于丰富的数据做出决 策,做人力所不能及的事情瓯于是,数据挖掘从大量数掘中,用非平凡的 方法发现有用的知识就成了一种自然的需求。正是这种需求引起了人们的广 泛关注,导致了数据挖掘研究的蓬勃开展【2 】【3 1 。 技术的进步又促进应用的日臻完善。在完成了全国铁路客票发售和预定数据 库系统后,面对收集在大型数据库中的海量客票数据,铁路客票营销决策部门通 常感觉数据资源丰富但是从中提取有利于决策指导的信息却十分有限,他们的决 策常常不是基于数据瘁中信息丰富的数据资源,而是基于决策者或铁路专家的经 验与直观判断。这并不是因为决策部门不愿意从客观数据中获取直接的信息资 源,而是因为决策者们缺乏从海量数据中提取有价值知识的有效工具。因此连接 数据资源和信息资源之间的鸿沟、将数据海洋转换成信息知识,就成为决策部门 的迫切需求,由此也就产生了本文的研究。 数据挖掘任务一般可以分为两类:预测和描述【4 】o 预测性挖掘任务是指在当 前数据上进行推断、预测。描述性挖掘任务则刻画数据库中数据的一般特征。本 文的研究目标就是利用数据挖掘方法对客票数据集进行分析,提取有用的知识对 铁路客运提供有实际指导意义的信息。 下面将就论文所基于的基础方法、研究背景和研究意义以及论文的整体布局 进行介绍。 1 1 基础方法 从数据分析的角度,数据挖掘可以分为两类:预测式数据挖掘和描述式数据 挖掘。预测式数据挖掘是指通过分析数据,建立一个或一组模型,并试图预测新 数据集的行为。搐述式数据挖掘刚以篱洁概要的方式绉述数据,并提供数据的有 趣的一般性质。二者都是数据挖掘的重要任务 4 1 。 面向列车客票数据预测分析及特征提取方法的研究 1 1 1 预测式数据挖掘 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预 测未来的数据趋势。分类是预测分类标号或离散值,而预测则是对连续值建立函 数模型。大部分分类算法是内存算法,通常都假定数据量很小。最近的数据挖掘 研究建立在这些工作之上,开发了可规模化的分类和预测技术,能够处理大的、 驻留磁盘的数据。考虑到实际的应用背景,本研究主要利用其中的分类技术。下 面将对分类进行详细的讨论。 1 1 1 1 分类( c l a s s i f i c a t i o n ) 概述 分类( c l a s s i f i c a t i o n ) 是数据挖掘的一个重要任务,分类过程可以被分为以下两 步朔: 第一步,建立一个模型,描述预定的数据类或概念集。通过分析由属性描述 的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标 号属性m a s sl a b e la t t r i b u t e ) 的属性确定。对于分类,数据元组墩称作样本、实例 或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个 元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号, 该步也称作有指导的学习( 即模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行) 。通常,学习模型用分类规则、判定树或数学公式的形式提供。 这些模型可以用来为以后的数据样本分类,也能对数据库的内容提供更好的理 解。 第二步,使用第一步建立的模型进行分类。首先评估模型( 分类法) 的预测 准确率。如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组 或对象进行分类。( 这种数据在机器学习也称为“未知的”或“先前未见到的” 数据) 。 在对数据集进行分类之前,为提高分类和预测过程的准确性、有效性和可规 模性,可以对数据集使用下面的预处理: 数据清理:旨在消除或减少数据噪音和处理空缺值的数据预处理。尽管大部 分分类算法都有处理噪音和空缺值的机制,但该步骤有助于减少学习时的混乱。 相关性分析:数据中许多属性可能与分类任务不相关。例如,记录银行贷款 星期几签署的数据可能与应用的成功不相关。因此,可以进行相关分析,删除学 面向列车客票数据预测分析及特征提取方法的研究 习过程中不相关或冗余属性。在机器学习,这一过程称为特征选择。包含这些属 性将减慢和误导学习步骤。 理想地,用在相关分析上的时间,加上从“压缩的”结果子集上学习的时间, 应当少于由原来的数据集合上学习所花的时问。因此,这种分孝斤可以帮助提高分 类的有效性和可规模性。 数据变换:数据可以概化到较高层概念。概念分层可以用于此目的。对于连 续值属性,这一步非常有用。例如,属性i n c o m e 的数值值可以概亿为离散的区 间,如l o w ,m e d i u m 和h i 吕h 。类似地,标称值,如s t r e e t ,可以概化到高层概念, 如c l 印。由于概化压缩了原来的训练数据,学习时的输入输出操作将减少。 1 1 1 2 目前的主要分类技术 分类是数据挖掘的一个重要研究领域。目前,关于分类的研究非常广泛,本 节主要给出一些主要的分类技术的概述。主要包括决策树归纳【5 l 6 r l l 8 】1 9 】【1 0 1 、贝叶 斯方法f l t 】、神经网络f 1 2 j 、k - 最临近分类、基于案例的推理、遗传算法、粳糙集 1 3 1 1 1 4 3 和模糊集方法等等1 4 】1 1 5 1 。 ( 1 ) 决策树归纳 决策树归纳( d e c i s i o n t r e ei n d u c t i o n ) 的基本算法是贪心算法,它采用自顶向 下递归的划分,控制方式构造决策树。其中,每个内部结点表示在个属性上的 测试,每个分枝代表一个测试输出,而每个叶结点代表类。树的最顶层结点是根 结点。在决策树构造时,许多分枝可能反映的是训练数据中的噪音或孤立点。树 剪枝试图检测和剪去这种分枝,以提高在未知数据上分类的准确性。从决策树的 根到叶结点,沿每一条分支,可以很容易的得出分类规则。决策树已在由医疗到 游戏理论和商务等应用领域广泛使用。判定树是一些商业规则归纳系统的基础。 本文将在第二章详细的讨论决策树的一些主要算法。 ( 2 ) 贝叶斯分类 贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性,如给定 样本属于一个特定类的概率。贝时斯分类基于贝时斯定理,用于大型数据库,贝 叶斯分类也已表现出高准确率与高速度。朴素贝叶斯分类假定一个属性值对给定 类的影响独立于其它属性的值。该假定称作类条件独立。做此假定是为了简化所 需计算,并在此意义下称为“朴素的”。贝时斯信念网络是图形模型。不像贝叶 斯朴素分类,它能表示属性子集间的依赖。贝叶斯信念网络也可以用于分类。理 3 面向列车客票数据预测分析及特征提取方法的研究 论上讲,与其它所有分类算法相比,贝盱斯分类具有最小的出错率。然而,实践 中并非总是如此。这是由于对其应用的假定( 如类条件独立性) 的不正确性,以 及缺乏可用的概率数据造成的。种种实验研究表明,与判定树和神经网络分类算 法相比,在某些领域该分类算法可以与之媲美。 ( 3 ) 后向传播分类 后向传播是一种神经网络学习算法。神经网络最早是由心理学家和神经学家 提出的,旨在寻求开发和测试神经的计算模拟。粗略地说,神经网络是一组连接 的输入输出单元,其中每个连接都与一个权相联。在学习阶段,通过调整神经 网络的权,使得其能够预测输入样本的正确类标号。由于单元之间的连接,神经 网络学习又称连接者学习。神经网络需要很长的训练时间,因两对于有足够长训 练时间的应用更合适。它需要大量的参数,这些通常主要靠经验确定,如网络拓 扑或“结构”。由于人们很难解释蕴涵在学习权之中的符号含义,神经网络常常 因其可解释性差而受到批评。这些特点使得神经网络在数据挖掘的初期并不看 好。然而,神经网络的优点包括其对噪音数据的高承受能力,以及它对未经训练 的数据的分类能力。此外,最近已提出了一些由训练过的神经网络提取规则的算 法,这些因素推动了神经网络在数据挖掘分类方面的应用。 ( 4 ) k - 最临近分类 最临近分类基于类比学习。训练样本用n 维数值属性描述,每个样本代表n 维空间的一个点。这样,所有的训练样本都存放在n 维模式空间中。给定个未 知样本,k - 最临近分类法搜索模式空间,找出最接近未知样本的k 个训练样本。 这k 个训练样本是未知样本的k 个“近邻”。“临近性”用欧几里德距离定义。其 中,两个点x = ( x l ,x 2 ,x n ) 和y = ( y l ,y 2 ,y 1 1 ) 的欧几里德距离是: 一 a ( x ,y ) ,f 了。y 1 ) 2 y 箭 未知样本被分配到k 个最临近者中最公共的类。当k = 1 时,未知样本被指 定到模式空间中与之最临近的训练样本的类。 最临近分类是基于要求的或懒散的学习法,即它存放所有的训练样本,并且 直到新的( 末标记的) 样本需要分类时才建立分类。这与诸如判定树归纳和后向 传播这样的急切学习法形成鲜明对比,后者在接受待分类的新样本之前构造一个 一般模型。当与给定的无标号样本比较的可能的临近者( 即,存放的训练样本) 面向列车客票数据预测分析及特征提取方法的研究 数量很大时,懒散学习法可能招致很高的计算开销,这样,它们需要有效的索引 技术。正如所预料的,懒散学习法在训练时比急切学习法快,但在分类时慢,因 为所有的计算都推迟到那时。与判定树归纳和后向传播不同,最临近分类对每个 属性指定相同的权,当数据中存在许多不相关属性时,这可能导致混淆。 最临近分类也可以用于预测,即返回给定的未知样本实数值预测。在此情况 下,分类返回未知样本的k 个最临近者实数值标号的平均值。 ( 5 ) 基于案例的推理 基于案例的推理( c a s e b a s e dr e a s o n i n g , c b r ) 分类法是基于要求的。不像晟 临近分类法将训练样本作为欧氏空间的点存放,c b r 存放的样本或“案例”是 复杂的符号描述。c b r 的商务应用包括诸如顾客服务台问题求解,此时案例描 述产品有关的诊断问题。c b r 还被用在诸如工程和法律领域,其中案例分别是 技术设计和合法规则。 当给定一个待分类的新案例时,基于案例的推理首先检查是否存在一个同样 的训练案例。如果找到一个,则返回附在该案例上的解;如果找不到同样的案例, 则基于案例的推理将搜索具有类似于新案例成分的训练案例。概念上讲,这些训 练案例可以视为新案例的邻接者。如果案例用图描绘,这涉及搜索类似于新案例 的子图。基于案例的推理试图组合临近的训练案例,提出新案例的解。如果解之 间出现不相容,可能需要退回搜索其它解。基于案例的推理可能使用背景知识和 问题求解策略,以便提出可行的组合解。 基于案例的推理存在的挑战包括找到一个好的相似矩阵( 例如,为匹配子 图) ,开发对训练案例索引的有效技术和组合解的方法。 ( 6 ) 粗糙集方法 粗糙集理论可以用于分类,发现不准确数据或噪音数据内在的结构联系。它 用于离散值属性,因此,连续值属性必须在处理前离散化。 粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的所有数据 样本是不加区分的,即对于描述数据的属性,这些样本是等价的。给定现实世界 数据,通常有些类不能被可用的属性区分,租糙集可以用来近似或“粗略地”定 义这种类。给定类c 的粗糙集定义用两个集合近似:c 的下近似和c 的上近似。 c 的下近似由一些这样的数据样本组成,根据关于属性的知识,它们毫无疑问属 于c 。c 的上近似由所有这样的样本组成,根据关于属性的知识,它们不可能被 面向列车客票数据预测分析及特征提取方法的研究 认为不属于c 。粗糙集也可以用于特征归约( 可以识别和删除无助于给定训练数 据分类的属性) 和相关分析( 根据分类任务评估每个属性的贡献或意义) 。 一般地说,后三种方法在商品化的数据挖掘系统中较少用于分类。例如,最 临近分类存储所有样本,当由非常大的数据集学习时,这可能带来困难。特别是 目前基于案例的推理、遗粗糙集分类还处于原型阶段。 1 1 1 3 分类方法评价 分类方法的评估和比较的标准主要有下述指标组成: ( 1 ) 预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类 标号的能力。 ( 2 ) 速度:这涉及产生和使用模型的计算花费。 ( 3 ) 强壮性:这涉及给定噪音数据或具有空缺值的数据,模型正确预测的 能力。 ( 4 ) 可伸缩性:这涉及给定大量数据,有效地构造模型的能力。 ( 5 ) 可解释性:这涉及学习模型提供的理解和洞察的层次。 数据库研究界对数据挖掘的分类和预测的贡献一直强调可规模性,特别是对 判定树归纳。 1 1 。2 描述式数据挖掘 概念描述是描述式数据挖掘的最基本形式。它以简洁汇总的形式描述给定的 任务相关数据集,提供数据有趣的一般特性。概念描述由特征和比较组成;前者 汇总并描述称作目标类的数据集,而后者汇总并将一个称作目标类数据集与称作 对比类的其它数据集相区别。 1 。1 2 1 概念描述的主要技术 概念特征和概念比较最常用的方法是面向属性归纳方法,它是基于属性的方 法。在进行归纳处理之前,一般要过滤掉不相关和弱相关的属性,常采用的方法 为属性相关性分析。包含属性相关性分析的类特征称为解析特征( a n a l y t i c a l c h a r a c t e r i z a t i o n ) ;包含这种分析的类比较称为解析比较( a n a l y t i c a lc o m p a r i s i o n ) 。 ( 1 ) 面向属性归纳 面向属性的归纳( a t t r i b u t e o r i e n t e di n d u c t i o n ,a o i ) 的基本思想是:首先,在 面向属性归纳之前进行数据聚焦( d a t a f o c u s i n g ) 。这一步说明任务相关数据( 或用 于分析的数据) ,根据数据挖掘查询提供的信息进行数据收集。面向属性归纳的 面向列车客票数据预测分析及特征提取方法的研究 - _ - _ - _ - _ _ _ _ _ _ _ 一。 基本操作是数据概化,它可以用两种方法之一在初始关系上进行:属性删除和属 性概化。属性删除( a t t r i b u t er e m o v l ) 基于如下规则:如果初始工作关系的某个属性 有大量不同的值,但是在此属性上没有概化操作符( 例如,对该属性没有定义概 n o n ) 。或者它的较高层概念用其它属性表示,则该属性应当从工作关系中删 除。n 性概化( a t t r i b u t eg e n e r a l i z a t i o n ) 基于如下规则:如果初始工作关系的某个属 性有大量不同的值,并且该属性上存在概化操作符,则应当选择该概化操作符, 并将它用于该属性。该规则基于如下理由:使用概化操作符概化工作关系中元组 的属性值或规则,将使得规则涵盖更多的原数据元组,从而概化了它所表示的概 念。这对应于概化规则,在示例学习中称为沿概化树攀升或沿概念树攀升。属性 删除和属性概化两个规则都表明,如果某属性有大量的不同值,应当进行进一步 概化。导出概化的表示描述可以用交叉表的形式显示,也可以用图的形式表示, 如条形图、饼图和曲线等形式表示。 ( 2 ) 解析特征与解析比较 属性相关性要根据属性区分一个类与其它类的能力来评估,如果一个属性的 值可能用于区分该类与其它类,则被认为是高度相关的。在挖掘类比较( 或区分) 时,目标类和对比类要在挖掘时给出。在挖掘类特征时,只有一个特征化的类, 即没有对比类。这样,什么对比类应当用于相关分析并非明显的。在这种情况下, 除特征化的数据集外,数据库中可比较的数据集都作为对比类。例如,为特征化 研究生,对比类为不是研究生的学生的集合。属性相关分析的基本思想是计算某 种度量,用于量化属性与给定类或概念的相关性。这种度量包括信息增益、g i n i 系数、不确定性和相关系数。 概念描述的属性相关分析执行步骤如下:首先,通过查询处理,收集目标类 和对比类的数据。对于类比较,目标类和对比类都由用户在数据挖掘查询中提供。 对于类特征,目标类是要特征化的类,而对比类是不在目标类中的可比较数据; 然后,选择某种度量用于这些数据。对于概念描述,具有大量的不同值的属性多 半没有意义,这里进行的a o i 使用的属性分析阈值要合理的大,使得更多的( 但 非所有的) 属性在进一步相关分析中被考虑。这样使用a o i 得到的关系称作挖 掘任务的候选关系;第三,用选定的相关分析度量删除不相关和弱相关属性:得 到初始目标类工作关系和初始对比类工作关系;最后,使用a o i 产生概念描述, 即使用一组不太保守的属性概化阈值进行a o i 。如果类描述任务是类特征,这里 面向列车客票数据预测分析及特征提取方法的研究 只包含初始目标类工作关系;如果类描述任务是类比较,初始目标类工作关系和 初始对比类工作关系都要包含在分析中。 1 1 2 2 概念描述的表示 特征和比较描述( 形成概念描述) 可以在同一个广义关系、交叉表或量化规 则中表示,尽管他们以不同的兴趣度度量显示。这些度量包括t 一权( 元组的典型 性) 和d 权( 元组的可区分性) 。其中 f w e i g h t = c o u n t ( q 。) e 。c o “眦( g 。) n 是广义关系中目标类元组的个数,q 。,q 。广义关系中目标类元组,吼在 耳”,吼中。 d w e i g h t = c o u n t ( q 。c 三l c o u n t ( q 。e c i ) m 是目标类和对比类的个数,q e c , ,c 。) ,而c o u n t ( q 。e c i ) 是类g 中被 q 。覆盖的元组数。 v x 1 0 c a t i o n ( x ) 一”e u r o p e ” ( i t e m ( 五) 一“t i e ”) 【f :2 5 ,d :4 0 】v ( i t e m ( x ) = ”c o m p u t e r ”) 【f :7 5 ,d :3 0 】 该规则表明,如果一个这样的商品在欧洲售出,则该商品是t v 的概率为 2 5 ,而是计算机的概率为7 5 。另一方面,如果想要比较欧洲和北美的销售, 则4 0 的t v 在欧洲销售( 由此,推出6 0 的t v 在北美销售) 。此外,关于计 算机销售,3 0 的销售在欧洲。 1 2 研究背景 随着计算机技术的广泛应用,人们产生和收集数据的能力得到迅速提高,特 别是目前数据库技术已经进入成熟阶段,数据库的应用迅速渗透到了社会数据处 理的各个层面,在商业领域数据库保存了各个公司多年积累的用户信息,交易记 录以及生产数据;在科学研究领域保存了大量的实验数据,观测数据和调查数据, 许多商务和行政事务的计算机化,以及作为全球信息系统的万维网的流行,已经 将我们淹没在数据的汪洋大海中。面对如此丰富的数据,尽管人们知道这其中都 蕴藏了大量的还没有被发现的信息和知识,但是人们却因为缺乏有效的处理手段 而只能够“望洋兴叹”,无法很好地利用其价值。因此,在全球范围内数据库中 存储信息量的急剧增大和现有技术的局限性形成了一对矛盾,形成了现今“数据 监狱”和“数据爆炸但知识匮乏”的尴尬局面。虽然很久以前人们就试图通过采 面向列车客票数据预测分析及特征提取方法的研究 用简单的数据统计技术来解决存在于数据生成和数据理解之间的巨大差距,但是 如1 1 中所述,这种方法在涉及具有广泛智能特征的系统时存在着一定的局限性。 因此在商业领域和科学研究领域都迫切要求发展这样的技术,它能够从如此 海量的数据中抽取出模式,找出数据变化的规律和数据之间的相互依存关系,使 人们能够从宏观的高层次的角度来审视数据,充分发掘数据的潜力,指导人们的 行为,为决策和科学发现提供有力的支持。知识发现( k d d k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 和数据挖掘( d a t a m i n i n g ) 就在这样的需求驱动下应运而生了。 中国铁路客票发售和预订系统建设和联网售票的实现,极大地方便了旅客购 票,有力推动了客运营销的改革,同时也积累了大量客票发售的生产数据。这些 数据规模巨大,蕴涵丰富的决策信息和知识,开发这些宝贵的信息资源,服务于 客运营销决策,为铁路客运管理人员了解现场售票情况,进行席位发售、售票收 入和客流统计分析、预测、以及辅助决策提供了依据。铁路客票营销分析是铁道 部、铁路局、分局业务管理系统的重要组成部分,系统地、科学地利用这些数据, 建立铁路客票营销分析系统,对客运管理部门及时做出正确决策,进行合理的运 输调整具有重要意义;同时也是提高铁路客运经营水平、增强铁路客运市场竞争 能力的有力措施1 1 7 】【1 8 1 1 9 1 。 目前,客票营销分析系统是以客票数据为依据采用常规的统计方法对旅客发 送、到达、运送人数、旅客周转量、旅客平均行程、旅客运输密度、客流流向、 客票发售和预售情况及票款收入等进行汇总分析。上述方法可以满足短期内一定 程度的业务需求,但是,对于每天都有大量客票数据积累的铁路部门,实现具有 广泛智能特征的决策系统仅用常规的统计学方法显然是不合适的【1 9 】【捌【2 1 】【2 2 1 。需 要寻找一种合适的模型对客票数据建模。 决策树学习是以实例为基础的归纳学习方法。它着眼于从一组无次序、无规 则的实例中推出决策树表示形式的分类规则【5 】 矧。它采用自顶向下的递归方式, 在决策树的内部结点进行属性的比较并根据不同属性值判断从该结点向下的分 枝,在决策树的叶结点得到结论。所以从根到叶结点的一条路径就对应着一条合 取规则,整棵决策树就对应着一组析取表达式规则。决策树分类方法是一种数据 分析形式,可用于提取描述重要数据类的模型或预测未来的数据趋势【4 l 鼠它实 现简单,层次结构清晰,能够产生易于理解和分析的规则,因此是目前应用较为 面向列车客票数据预测分析及特征提取方法的研究 广泛的分类方法。 1 3 研究意义 我国幅员辽阔,铁路纵横交错。随着经济的发展,人口流动规模也越来越大。 如何合理有效的组织客运,保证铁路畅通、高效运转是一个值得关注的问题。全 国铁路客票发售和预订系统每日产生的售票记录数以百万计,高峰期时可高达 4 0 0 万条记录左右,分布存储在各级服务器的数据库中,以一定周期传输、汇总、 集中到铁道部,数据经过整理压缩并长期保存1 1 8 】【2 0 l 【2 2 】【纠。这些数据为目前铁路 有关决策部门提供了一定范围内的超大规模数据库查询和相应的统计分析。而这 些相对于铁路客票营销分析的目的来讲,是远远不够的,因为这些传统的数据库 技术所获得是一些平凡的知识,并不能发现隐藏于数据中的非平凡信息,要想获 取非平凡的信息,按照传统的查询和统计报表的做法只能依靠决策者的主观经验 和判断来发现和归纳,这样做会带有明显的人为因素,不容易全面、彻底的发现 决策信息,故要实现具有广泛智能特征的决策系统这种方法显然存在着其应用的 局限性。因此,需要结合更为合理的非平凡的信息提取手段数据挖掘技术, 利用其提供的良好、完整的客票数据,寻找出蕴含于客票数据中的非平凡信息服 务于决策。 数据挖掘的最终目标是从大量的数据中提取或“挖掘”出有用的知识,它适合 了铁路客运营销部门对客票数据分析的需求,在当前铁路客票分析中将有相当广 阔的应用前景。但是目前,在现有的诸多数据挖掘方法中,对于客票数据挖掘并 没有一个具有实际意义的方法指导对客票数据的建模与分析。 本研究基于铁路客票销售系统中的客票数据进行的分析与预测研究,通过对 数据挖掘方法的研究和实际应用需求的分析,针对分类技术中的决策树归纳算法 的仔细分析与评估,选择出适宜于客票营销分析的建模方法,并对票据挖掘存在 的问题以及解决方法给出了具有一定指导意义的方法。 1 4 论文组织框架 本文首先介绍了本研究所基于的数据挖掘技术中的理论基础方法以及本研 究的背景和意义,然后详细的讨论了分类技术中的决策树归纳方法,从第三章到 第五章是面向铁路客票数据集展开的应用性研究,最后是论文总结部分。 面向列车客票数据预测分析及特征提取方法的研究 第一章绪论 介绍了本研究所基于的基本理论基础,以及本课题的研究背景和研 究意义,以及论文的整体组织结构。 第二章决策树归纳 本章是本论文的主要理论基础,正是通过对分类方法中决策树方法 中的i d 3 、s l i q 、s p r i n t 进行详细的讨论,对各种方法的优缺点进 行综合的权衡,才有了第五章中对算法的应用性改进。 第三章铁路客票营销分析 本章主要介绍了铁路客票营销分析特点,客票营销分析的需求及现 状。 第四章客票数据预处理 主要讨论了客票数据集的特点,以及对客票数据集进行挖掘前,目 前的预处理工作和存在的问题。 第五章应用研究 本章是论文的重点,详细的介绍了针对客票数据集展开的应用性研 究,主要涉及到的方法有改进的决策树归纳方法,朴素贝叶斯方法 和一种基于等价关系划分的方法。通过对三种方法的综合分析,提 出了对客票数据进行数据分析时,建立数据分析模型的实用性方法, 并对下一步研究的工作重点进行了展望。 第六章结论 全文总结。 面向列车客票数据预测分析及特征提取方法的研究 2 决策树归纳 分类是数据挖掘的一个重要任务,它是一剥,数据分析形式,可以用于提取描 述重要数据类的模型或预测未来的数据趋势,主要用于对类标号( 或离散值) 的 预测。大部分的分类算法是内存算法,通常假定数据量很小,但目前建立在这些 工作之上,开发了可规模化的分类技术,能够处理大规模的、驻留磁盘的数据, 这些技术通常考虑并行和分布处理。如第一章中所述,分类的基本技术主要包括 判定树归纳、贝叶斯分类和贝叶斯网络、神经网络、k 一最临近分类、基于案例的 推理、遗传算法、粗糙集和模糊逻辑技术等。针对不同的应用领域,可以选用不 同的分类方法,但许多实验和研究结果表明,没有一种分类算法对所有的数据类 型和应用领域都优于其他分类算法。 分类算法中,决策树归纳以思想简单、淳朴,建立的预测分析模型直观,易 于接受;获取的知识以规则描述,清晰、无二义性:较其它分类方法技术更加全 面、成熟,实际开发的系统多,例如,b u s i n e s s o b j e c t s ,d b m i n e r ,s a s , i n t e l l i g e n tm i n e r 等,有利于应用实验分析,便于系统的集成等特点而为广泛 应用,从而使得决策树无疑成为目前最为常用的数据挖掘工具。决策树相对比较 容易使用,结果可以以一种可读性较好的图表表示,它的预测准确度在相当广泛 的、不同类型与结构的数据库上都显示出了非常优越的性能。下面就对决策树归 纳进行详细的讨论。 2 1 决策树归纳综述 决策树归纳是以实例为基础的归纳学习方法,它着眼于从一组无次序、无规 则的事例中推断出决策树表示形式的分类规则。它采用自顶向下的递归方式,在 决策树的内部结点进行属性值得比较并根据不同的属性值判断,从该结点向下生 长分支,在决策树的叶结点得到结论。所以从根到叶结点的一条路径就对应着一 条合取规则,整棵决策树就对应着一组析取表达式规则。基于决策树的学习算法 的一个最大的优点就是在学习过程中不需要使用者了解很多背景知识( 这同时也 是它的最大的缺点) ,只要训练例子能够用属性一结论式的方式表达出来,就能使 用该算法来学习。 一棵决策树的内部结点是属性或属性的集合,叶结点是所要学习划分的类, 内部结点又称为测试属性。当经过一批训练实例集的训练产生一棵决策树,决策 面向列车客票数据预测分析及特征提取方法的研究 树可以根据属性的取值对一个未知实例集进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论