(控制理论与控制工程专业论文)基于数据挖掘的汽车制动性能特征研究.pdf_第1页
(控制理论与控制工程专业论文)基于数据挖掘的汽车制动性能特征研究.pdf_第2页
(控制理论与控制工程专业论文)基于数据挖掘的汽车制动性能特征研究.pdf_第3页
(控制理论与控制工程专业论文)基于数据挖掘的汽车制动性能特征研究.pdf_第4页
(控制理论与控制工程专业论文)基于数据挖掘的汽车制动性能特征研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(控制理论与控制工程专业论文)基于数据挖掘的汽车制动性能特征研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t h er e s e a r c ho ff e a t u r ei nv e h i c l e b r a k ep e r f o r m a n c eb a s e do nd a t a m i n i n g b y d a nj i a b i d i s s e r t a t i o nd i r e c t o r :j i ac h u n f u s u b m i t t e dt ot h ec o l l e g eo fc o n t r o ls c i e n c ea n d e n g i n e e r i n g a p p l y i n gf o rt h ed e g r e eo fm a s t e ro fc o n t r o lt h e o r ya n d c o n t r o le n g i n e e r i n g a t n a n k a iu n i v e r s i t y m a y 2 0 0 8 llei, 南开大学学位论文电子版授权使用协议 ( 请将此协议书装订于论文首页) 论文甚孑蛰刁属握掘裆范弓杀:) 泐谨够舄f 乙= i ;律系本人在 南开大学工作和学习期间创作完成的作品,并已通过论文答辩。 本人系本作品的唯一作者( 第一作者) ,即著作权人。现本人同意将本作品收 录于“南开大学博硕士学位论文全文数据库一。本人承诺:已提交的学位论文电子 版与印刷版论文的内容一致,如因不同而引起学术声誉上的损失由本人自负。 本人完全了解堡直珏太堂图盘鱼羞王堡在:缱眉堂僮i 金塞趁笪堡盘洼。同意 南开大学图书馆在下述范围内免费使用本人作品的电子版: 本作品呈交当年,在校园网上提供论文目录检索、文摘浏览以及论文全文部分 浏览服务( 论文前1 6 页) 。公开级学位论文全文电子版于提交1 年后,在校园网上允 许读者浏览并下载全文。 注:本协议书对于“非公开学位论文 在保密期限过后同样适用。 院系所名称: 蔷岛孑夏哜科滢蠢i 吃 作者签名: 1 忉i 公 学号:2i 加勺弋o3 忱 日期:砷俾f 月矽日 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:1 1 铆艺 如口8 年s 月矽目 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月 日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 彳虮气 弘1 ) 乎年月 7 e t 摘要 摘要 我国汽车检测行业经过二十多年的不懈努力,无论从检测技术、检测设备 还是从检测标准等各方面都已经得到了长足的发展。目前,汽车检测行业的研 究重点还是主要集中在检测技术和检测设备这两个方面,多年以来积累下的检 测数据一直被人们所忽视。另一方面,由于汽车制动性能的重要性,制动性能 检测在汽车安全检测中一直是作为检测的重点。本文就是以汽车制动性能检测 数据为基础,运用数据挖掘的相关方法,对汽车制动性能的特征进行研究。 本文所使用的制动检测数据来自北京某汽车检测站2 0 0 7 年度的部分原始 数据。文中运用回归分析的方法,研究了汽车制动性能评价指标和汽车特征参 数之间的变化关系;同时还使用a p r i o r i 算法对汽车制动性能各评价指标之间, 以及评价指标与特征参数之间的关联性进行了挖掘。通过研究,我们发现了各 评价指标的变化规律以及各指标之间的一些有益的关联特性。例如,整车制动 率与前轴制动率的关系最为密切,而车辆的制动平衡主要与车辆的新旧程度以 及车辆的重量相关。 本文的目的旨在探索出一条对累积的历史检测数据进行有效利用的途径, 为汽车的使用、维修、管理等提供有益的帮助。 关键词:制动性能回归分析关联分析数据挖掘 a b s t r a c t a b s t r a c t t h et e c h n i c a l ,e q u i p m e n ta n dn a t i o n a ls t a n d a r d so ft h ev e h i c l ei n s p e c t i o nh a v e g r o w nr a p i d l yi nt w od e c a d e s n o w a d a y s ,p e o p l ea t t a c hm o r ei m p o r t a n c et ot h e r e s e a r c ho ft h et e c h n i c a la n dt h ee q u i p m e n t ,a n dt h eh u g eo r i g i n a ld a t ao ft h ev e h i c l e i n s p e c t i o na r ei g n o r e d i no t h e rs i d e ,b r a k ei n s p e c t i o ni sa l w a y sr e g a r d e da st h em o s t i m p o r t a n ti t e mi nv e h i c l es a f ei n s p e c t i o nb e c a u s eo fi t se s s e n t i a l i t y w es t u d i e dt h e f e a t u r eo fa u t ob r a k ep e r f o r m a n c eb ys o m ed a t am i n i n gm e t h o d si nt h i sp a p e r t h em e t a d a t ao ft h i sp a p e ri sf r o ms o m ev e h i c l ei n s p e c t i o ns t a t i o ni nb e i j i n g w h i c hh a db e e ng e n e r a t e di n2 0 0 7 f i r s tw es t u d i e dt h er e l a t i o n sb e t w e e nt h e e v a l u a t i n gp a r a m e t e r so ft h eb r a k ep e r f o r m a n c ea n dt h ea t t r i b u t e so ft h ev e h i c l eb y t h er e g r e s s i o na n a l y s i s s e c o n dw ef o u n ds o m ec o n n e c t i o n sb yu s i n gt h et r a d i t i o n a l a p r i o r ia r i t h m e t i ci na s s o c i a t i o nr u l e d u r i n gt h ep r o c e s so fd a t am i n i n g ,w eg o t s o m ei m e r e s t i n gr u l e sa n dc o n n e c t i o n si nt h ep a r a m e t e r sa n da t t r i b u t e s s u c ha s , t h e r ei sas t r o n gr e l a t i o nb e t w e e nt h eb r a k er a t i oo ft h ev e h i c l ea n dt h eb r a k er a t i oo f t h ef r o n ta x l e ,a n dt h eb r a k er a t i oo ft h ev e h i c l eb e a r so nt h ea g eo ft h ev e h i c l e t h ea i mo ft h ep a p e ri st h a tw ec a ng e tau s e f u lm e t h o dw h i c hm a k e su s eo ft h e h u g eo r i g i n a ld a t ai nv e h i c l ei n s p e c t i o n w et h j i l l 【i ti sb e n e f i c i a lt ot h em a i n t e n a n c e a n dt h em a n a g e m e n to ft h ev e h i c l e k e y w o r d s :b r a k ep e r f o r m a n c e ,r e g r e s s i o na n a l y s i s ,a s s o c i a t i o na n a l y s i s ,d a t a m i n i n g 目录 目录 第l 章引言1 第l 节研究背景l 第2 节研究目的2 第3 节研究现状2 1 3 1 国外研究现状2 1 3 2 国内研究现状3 第4 节主要内容和创新点4 第2 章数据挖掘理论基础5 第l 节数据挖掘的起源5 第2 节数据挖掘的功能6 2 2 1 概念描述6 2 2 2 关联分析6 2 2 3 分类和预测。7 2 2 4 聚类分析7 2 2 5 趋势分析7 2 2 6 孤立点分析7 2 2 7 偏差分析。8 第3 节数据挖掘的流程8 2 3 1 确定业务对象8 2 3 2 数据准备8 2 3 3 数据挖掘1 0 2 3 4 结果分析1 0 2 3 5 知识同化1 0 第4 节数据挖掘的常见技术1o 2 4 1 聚类检测方法1 0 2 4 2 决策树方法1 l 2 4 3 人工神经网络方法。1 2 l 目录 2 4 a 遗传算法l3 2 4 5 关联分析方法1 3 2 4 6 基于记忆的推理算法1 4 第3 章汽车制动性能评价15 第l 节汽车制动性能的评价方法15 3 1 1 制动效能1 5 3 1 2 制动抗热衰退性2 0 3 1 3 制动稳定性:2 0 第2 节汽车制动性能的评价指标和评价标准。2 2 3 2 1 常见评价指标2 2 3 2 2 台试检测评价标准。2 2 第4 章汽车制动性能特征研究的关键技术2 4 第l 节回归分析。2 4 。4 1 1 最d - 乘法2 4 4 1 2 回归分析概况2 5 4 1 3 一元线性同归2 6 4 1 4 一元非线性方程2 8 4 1 5 多元线性逐步回归。2 8 4 1 6 多元非线性回归2 9 4 1 7 回归结果检验3 0 第2 节关联分析31 4 2 1 关联规则挖掘分类3l 4 2 2 关联规则问题描述3 2 4 2 - 3a p r i o r i 算法3 2 4 2 4 数量关联规则3 4 第3 节数值属性离散方法研究3 6 4 3 1 属性的离散化。3 7 4 3 2 离散化的方法 4 3 3 关于聚类。 目录 第5 章汽车制动性能检测数据挖掘实例分析一:4 0 第l 节数据获取及预处理4 0 5 1 1 数据清洗。4 0 5 1 2 数据集成。4 l 5 i 3 数据转换4 l 5 i 4 维度消减4 2 第2 节制动性能回归分析4 3 5 2 1 回归模型汇总4 5 5 2 2 回归模型方差分析4 5 5 2 3i 目归方程4 6 5 2 4 分析结论。4 7 第3 节评价指标、特征参数关联分析4 7 5 3 i 评价指标的离散4 8 5 3 2 特征参数的离散5l 5 3 3 关联规则算法应用5 2 5 3 4 规则解释与分析。5 8 第6 章总结与展望5 9 第1 节总结一5 9 第2 节下一步工作方向。5 9 参考文献6l 致谢6 4 i i l 第1 章引言 第1 章引言 第1 节研究背景 汽车问世至今已经有了百余年的历史,它推动了二十世纪快速向前发展, 极大的拓展了人类的活动空间和生存空间,给人类的生产生活带来了极大的便 利。随着我国现代化进程的进一步加深,以及国内汽车产业的飞速发展,汽车 更是步入了寻常百姓家,它不再被视为一种奢侈品,而是作为人们日常生活中 不可或缺的一种工具。但是,汽车同时也给我们带来了诸多困扰。当前,环境 污染和交通安全成为世界各国最为棘手的社会问题。 根据国家统计局的统计,2 0 0 3 年底,中国的民用汽车保有量是2 4 0 0 多万 辆,2 0 0 4 年全国销售了各种车辆5 0 0 多万辆。目前中国的汽车保有量应该在3 0 0 0 万辆左右。2 0 0 4 年全国共发生道路交通事故5 6 万多起,其中肇事车辆安全技 术状况不良是主要原因( 制动性能下降是很主要的交通安全隐患) 。据分析,l o 的安全事故是由路况问题引起,1 5 是由司机驾驶技术引起,7 5 的事故则与 汽车故障有关。 不言而喻,汽车在行驶过程中,各总成部件之间都存在相对运动,随着时 间的推移,各系统的技术状况都会发生变化,造成汽车的各种性能的下降,从 而使其发生故障的几率逐渐增加,埋下了发生交通事故的隐患。因此,为了保 证交通安全,减少事故,就需要对汽车进行定期检测,即是我们通常所说的强 制年检。对机动车进行安全技术检测,是对车辆实行技术监督的一种重要方法, 有利于及时发现问题及时维修,确保汽车经常处于良好技术状态,以实现行车 安全,减少生命财产损失。 国外汽车检测起步较早,7 0 年代末期已有部分单机检测设备问世,到8 0 年代中期大量的检测技术与设备已趋于成熟,特别是到8 0 年代后期,全自动汽 车安全性能检测与控制系统应用已十分普遍。我国的相关研究起步较晚,汽车 检测设备生产企业从八十年代后期才开始在消化吸收国外检测站技术的基础上 推出了自己的成套产品。同时,国内从8 0 年代中后期开始实施车辆安全检测制 度,主要是针对车辆的制动、转向、灯光、排放等项目进行检测。2 0 0 4 年颁布 第1 章引言 实施中华人民共和国道路交通安全法明确规定需要对机动车定期进行安全 技术检验。 目前全国各地已建立各级机动车安全技术检测站2 0 0 0 多个,基本上都属于 计算机集中控制的全自动检测站。该类型检测站可对机动车安全技术性能进行 不解体检测,对各项检测数据进行自动采集、处理、判断、存档。全国的这些 检测站每年都要进行大量的机动车安全检测,积累了相当数量的安全检测资料。 第2 节研究目的 目前,我国的汽车安全检测制度已经比较完善,检测技术与检测设备也得 到了长足的发展。同时,对于汽车检测方面的研究也开始向广度和深度的方向 延伸。制动性能作为汽车安全检测中最为重要的方面,一直是人们研究的重中 之重。制动性能是汽车安全性能最为主要的表现方面,制动性能的好坏直接关 系到驾驶员和乘客的安全。一直以来,对于制动性能的研究都集中在制动装置 的结构、材料、原理,以及制动检测方法等方面f 1 2 】。对于制动性能本身的变化 规律以及趋势的研究非常少。本文就是要以汽车制动性能检测数据为基础,尝 试使用数据挖掘的办法,对积累的汽车检测数据进行挖掘处理,研究汽车制动 性能的变化规律、汽车制动性能评价指标之间的相关性以及不 能,并为汽车检测数据的研究探索一条新的道路。 1 3 1 国外研究现状 第3 节研究现状 从汽车检测技术发展的过程来看,国外的汽车检测技术大 定性检测、单机手控检测、单机自动检测、单机智能检测、全 车诊断检测等六个阶段。 同时,国外对汽车检测技术管理具有职能专业化、检测制 化、行为规范化和信息网络化的显著特点。 由于,国外发达国家汽车检测开展时间比较久远,无论从 第1 章引言 来讲,都已经形成其产业链条,已经融入到其汽车工业之中。同时,由于其汽 车检测行业的智能化、网络化水平比较高,可以实现检测数据的共享,对于检 测数据研究的具有相当的广度和深度。例如,发源于美国的i m ( i n s p e c t i o n m a i n t e n a n c e ) 制度就是基于对大量检测维修数据的基础之上,对在用车实行检 测维修的一种制度”。 1 3 2 国内研究现状 就汽车检测而言,由于我国从8 0 年代后期才开始在机动车年度审验中实行 强制性的车辆检测工作,汽车检测开展的时间还比较短。国内对其的了解和研 究还不是很深at 4 1 。经过2 0 多年的发展,国内汽车检测行业也经历了从刚刚起 步时候的全盘引进、照搬标准、照搬方法,发展到目前的检测标准齐全配套、 设备自主研发的状况。但是,就整体而言,汽车检测行业的发展还是主要集中 于检测设备、检测技术、检测方法等层面上的研究与讨论,研究机构也主要以 设备制造厂商、汽车检测机构等。在检测数据的应用方面,汽车性能检测的结 果一般只是起到一个简单的判定作用,用于判断单台汽车的技术状况如何,对 于多年来积累下来的丰富的数据没有能够得到很好的应用。 另一方面,目前国内对数据挖掘的应用方面研究的十分热门,特别是在金 融、商业、农业等方面。在工程方面实际应用研究主要集中在电力系统负荷分 析、产品概念设计、故障模式诊断分析等。如合肥工业大学的韦伟用模糊c 一 均值、k o h o n e n 神经网络和k 一均值三种方法离散车辆故障诊断中的连续属性 值,分析了粗糙集理论和神经网络技术在车辆故障诊断应用中的优点和缺点, 提出了将粗糙集理论应用于车辆故障诊断的必要性【5 】。西安电子科技大学的于 向军在数据挖掘在机械产品概念设计中的应用研究中,将基于属性的概念 爬升技术应用到设计知识数据库中,以获得不同抽象层次、不同角度描述的设 计参数与设计方案之间的关系规则,用粗糙集理论指导产品设计参数简化【6 】。 武汉大学的周斌通过o l a p 分析负荷曲线特性,采用数据挖掘技术进行电力负 荷预测,研究了数据仓库技术和数据挖掘技术在电力系统中的应用【_ 7 1 。长安大 学的汪涛将数据挖掘应用于隧道交通研究中,使用数据挖掘中的聚类分析方法 及其预测方法对隧道交通流数据进行了尝试挖掘【s 】。 但是,真正将数据挖掘应用到汽车检测中的研究比较罕见。当前较有代表 第1 章引言 性的是,长安大学汽车学院的徐双应等人研究了汽车制动性能检测中4 项指标 之自j 的相关性及其影响因素,对大量检测数据进行了方差分析,研究了汽车制 动性能检测结果向量的联合分布特征与边缘分布特征【9 】。广东工业大学的王文 涛研究了在用车排气检测方法的特性,对在用车排放特性进行了回归统计分析。 应用数据挖掘分析工具,得出了检测方法、车型结构等因数之间的关联规则【。 第4 节主要内容和创新点 本文的内容研究主要包括以下几个方面: ( 1 ) 分析适合于汽车制动性能检测的数据挖掘方法; ( 2 ) 研究汽车制动性能的评价指标和评价标准; ( 3 ) 研究汽车制动性能评价指标的变化规律; ( 4 ) 研究汽车制动性能各评价指标之间以及评价指标与汽车的特征参数 之间的关联性。 本文首次提出了对积累的大量汽车检测数据进行数据挖掘的思想,为汽车 检测数据的研究探索了一条新的道路,拓展了汽车检测的研究领域。同时,本 文针对大量的检测数据,采用相应的挖掘方法,对汽车的制动性能变化规律进 行了研究,分析了制动性能评价指标之间以及特征参数与制动性能评价指标之 间的关联性。 4 第2 章数据挖掘理论基础 第2 章数据挖掘理论基础 第1 节数据挖掘的起源 随着计算机技术和计算机网络技术的发展信息化程度快速增长,人们利用 信息技术生产和搜集数据的能力大幅提高。有人称现在是信息爆炸的时代,人 们面对着“被数据淹没,却饥饿于知识 的挑战。如何才能不被信息的汪洋大 海所淹没,从中及时发现有用的知识、提高信息利用率是人们迫切需要解决的 问题。数据挖掘( d a t am i n i n g , d m ) 技术就是在这样的背景下应运而生和蓬勃 发展,并越来越显示出强大的生命力。数据挖掘技术是一门综合性的技术领域, 主要涉及数据库、人工智能和数理统计3 个技术领域【1 1 1 3 l 。 数据库中的知识发现( 1 d ) 是从存储在数据库,数据仓库或其它信息储 存库中的大量数据中发现感兴趣的知识的过程。而数据挖掘是数据库中知识发 现过程中关键的一步。许多人也将数据挖掘看成是k d d 的同义词。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据库技 术最初用于联机事务处理,即实现对大量数据的统一存储,并提供对数据的查 询、插入、删除等事务性操作。随着大量历史数据的积累,人们不满足只是简 单地查询和修改数据,而是希望能够发现数据之间的潜在关系,因此,对数据 库技术提出了新的要求,随着一些相关学科和研究领域的日渐成熟,以及现实 世界中商业竞争的压力日益加大,企业急切地希望通过快速处理这些数据获得 有利于企业进一步发展盼决策依据,而是否能够最大限度地使用信息资源来管 理和影响企业决策流程,将决定企业是否能拥有最大程度的竞争优势,数据挖 掘技术于是应运而生,并得到快速的应用。 数据挖掘来源于数据库技术中的知识发现( k d d ) ,它主要采用传统的分 析方法和人工智能( a r t i f i c i a li n t e l l i g e n c e ,a i ) 中的机器学习、遗传算法、人工 神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 等方法【1 4 1 。知识发现就是从数据中 发现有用知识的整个过程,一般认为数据挖掘是k d d 过程中的一个特定步骤, 它用专门的算法从数据中提取模式,然后再通过k d d 中的解释和评价模块转 换成最终用户可以理解的知识。数据挖掘这个术语最早是由统计学领域提出的, 第2 章数据挖掘理论基础 而在机器学习和数据库领域大多采用k d d 这个术语,由于r r 界广泛采用了“数 据挖掘这个名词,大多用它来表示k d d 的全过程,它正在逐步扩展到学术 界其他领域。从狭义上来讲数据挖掘是k d d 中从数据中提取模式的特定步骤, 从广义上来看数据挖掘又可以看作是数据准备、模式提取、知识表示等一系列 步骤组成的k d d 的全过程。 数据挖掘可以应用在各个不同的领域。数据挖掘工具能够对将来的趋势和 行为进行预测,从而很好地支持人们的决策,如银行可以使用数据挖掘发现有 价值的客户,保险公司和证券公司可以使用数据挖掘来检测欺诈行为。 2 2 1 概念描述 第2 节数据挖掘的功能 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 具体的描述分为特征性描述和区别性描述。 特征性描述用于描述某类对象的共同特征。区别性描述用于描述不同类对 象之间的区别。描述数据允许数据在多个抽象层概化,便于用户考察数据的一 般行为。例如,对超市的销售数据,销售经理并不想了解每个客房的事务,而 愿意观察到高层的数据,譬如按地区对顾客分组,观察每组顾客购买频率和顾 客的收入等。 2 2 2 关联分析 数据关联是数据中存在的一类重要的可被发现的知识,若两个或多个变量 问存在着某种规律性,就称为关联。关联分析的目的就是找出数据中隐藏的关 联网。 关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起 出现的条件。“啤酒和尿布 【1 5 1 就是从大型超市的购物篮当中分析出的关联规 则。 第2 章数据挖掘理论基础 2 2 3 分类和预测 ( 1 ) 分类 所谓分类,就是依照所分析对象的属性分f - j 另l j 类、加以定义、建立类组。 比如,将信用卡申请人分为低、中、高风险群,或是将顾客分到事先定义好的 族群。分类的关键是确定对数据按照什么标准或什么规则进行分类。因此,分 类时首先根据属性特征,为每一种类别找到一个合理的描述或模型,即确定分 类规则;再根据规则对数据进行分类。 ( 2 ) 预测 所谓预测,就是利用历史数据建立模型,再运用最新数据作为输入值,获 得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。 2 2 4 聚类分析 聚类分析又称为无指导的学习,其目的在于客观地按处理对象的特征分类, 将有相同特征的对象归为一类。 聚类与分类的区别是:分类规则需要预告定义类别和训练样本;而聚类分 析直接面向源数据,没有预告定义好的类别和训练样本存在,所有记录都根据 彼此相似程度来加以归类。聚类分析将数据按本身的相似性聚集在一起,然后 对聚集状况进行分析解释。比如,在市场营销调查前,先将顾客群集化,再来 分析每群顾客最喜欢哪一类促销,而不是对每个顾客都用相同的标准规则来分 析。 2 2 5 趋势分析 趋势分析又称时间序列分析,它是从相当长的时间的发展中发现规律和趋 势。趋势分析是时序数据挖掘最基本的内容。趋势分析和关联分析相似,其目 的也是为了挖掘出数据之间的联系,但趋势分析的侧重点在于分析数据间的前 后因果关系。 2 2 6 孤立点分析 孤立点是指数据库中包含的一些与数据的一般行为或模型不一致的数据。 7 二 第2 章数据挖掘理论基础 大部分的数据挖掘方法将孤立点视为噪声或异常丢弃,而对某些应用,如 欺骗检测,孤立点数据可能更有价值。孤立点数据分析又称孤立点挖掘。 2 2 7 偏差分析 偏差分析又称为比较分析,它是对差异和极端特例的描述,用于提示事物 偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。 偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别。偏差 包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的念头量值随时间的变化等。寻找出偏差的数据并对其进行分析是 很有意义的。 第3 节数据挖掘的流程 数据挖掘是指一个完整的过程,见图2 1 。该过程从大量数据中挖掘先前 未知的、有效的、可使用的信息,并使用这些信息做出决策或丰富知识。 | e 刊匹予哐丑吨三阿三悃i :j 电篷竺参嫂一j :一一一一一一一。一一! 皂! 塑氅聋一一一一一一一一一一一一一j 1 :一一憨娶嫂一j1 盆! i 璺j 曼鬯塑些j 图2 1 数据挖掘的流程 2 3 1 确定业务对象 在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基 础之上提出问题,对目标有明确的定义。认清数据挖掘的目的是数据挖掘的重 要一步,因此必须清晰地定义出业务问题。挖掘的最后结构是不可预测的,但 对要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不 会成功的。 2 3 2 数据准备 数据准备是保证数据挖掘得以成功的先决条件,数据准备在整个数据挖掘 第2 章数据挖掘理论基础 过程中占有大量的工作量,大约是整个数据挖掘工作量的6 0 。数据准备包括 数据选择、数据预处理和数据的转换。 2 3 2 1 数据的选择 数据的选择就是搜索所有与业务对象有关的内部和外部的数据信息,获取 原始的数据;从中选择出适用于数据挖掘应用的数据,建立数据挖掘库。 2 3 2 2 数据的预处理 由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,数据 预处理就要对数据进行初步的整理,清洗不完全的数据,为进一步的分析做准 备,并确定将要进行的挖掘操作的类型。 ( 1 ) 数据清洗 数据清洗( d a t ac l e a n i n g ) 通常包括填补遗漏的数据值、平滑有噪声数据、 识别或除去异常值等。对于制动检测中的遗漏数据,通常可采用手工填补、利 用均值填补、利用最大值填补等方法处理遗漏值。对于有噪声的制动检测数据 可采用分箱分桶方法、聚类方法、回归方法等等。对于不一致数据一般采用与 外部联手加工予以解决。通过这些数据清洗方法以保证所需要数据的正确性、 一致性、完整性和可靠性。 ( 2 ) 数据集成 数据集成处理( d a t ai n t e g r a t i o n ) 就是将来自多个数据源( 如:数据库、 文件等) 数据合并到一起。由于制动检测数据库系统可能不一致,用于描述同 一个概念的属性在不同的数据库中取不同的名称,在进行数据集成时通常会引 起数据的不一致或冗余。同样大量的数据冗余不仅会降低挖掘速度,而且会导 致一些错误的进程。因此除了进行数据清洗之外,在进行数据集成时还需注意 消除数据的冗余。此外在完成数据成之后,有时还需进行数据清洗以便消除可 能存在的数据冗余。 ( 3 ) 数据转换 数据转换( d a t at r a n s f o r m a t i o n ) 主要是对数据进行规格化操作。在正式数 据挖掘之前,尤其是使用基于对象距离的挖掘算法时,如神经网络,k 一最近邻 分类等,必须进行数据规格化。也就是将其压缩至特定的范围之内。 ( 4 ) 数据消减 第2 章数据挖掘理论基础 数据消减( d a t ar e d u c t i o n ) 的目的就是缩小所挖掘的规模,但又不影响( 或 基本不影响) 最终的挖掘结果。现有的数据消减包括:数据聚合( d a t a a g g r e g a t i o n ) 消减维数( d i m e n s i o nr e d u c t i o n ) ;数据块消减( n u m c r o u s i t y r e d u c t i o n ) 。 2 3 2 3 数据的转换 数据的转换是根据数据挖掘的目标和数据的特征,选择合适的模型。这个 模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖 掘成功的关键。 2 3 3 数据挖掘 数据挖掘就是对所得到的经过转换的数据进行挖掘,除了选择合适的挖掘 算法外,其余工作应该能自动地完成。 2 3 4 结果分析 对挖掘结果进行解释并评估。其使用的分析方法一般应根据数据挖掘操作 而定,目前通常会用到可视化技术。 2 3 5 知识同化 知识的同化就是将分析所得到的知识集成到业务信息系统的组织结构中 去。 2 4 1 聚类检测方法 第4 节数据挖掘的常见技术 聚类检测方法是最早的数据挖掘技术之一。在聚类检测技术中,不是搜寻 预先分类的数据,也没有自变量和因变量之分。例如,可以对顾客的年龄和收 入这两个变量,平等地聚类检测。因此,聚类检测也称为无指导的知识发现或 第2 章数据挖掘理论基础 无监督学习。 聚类生成的组叫簇,簇是数据对象的集合。聚类检测的过程就是使同一个 簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高 的相异性。 生成簇后,最主要的是要明确生成的簇能表示出什么? 例如,按照顾客的 年龄和收入生成簇后,能够从簇中得到什么启发? 是否可以了解在你的顾客中 是哪个年龄段的哪个收入层的顾客多,因此可以进一步分析这一类顾客的购物 习惯,可以以这一类顾客为主考虑营销策略。人们把这叫做聚类检测结果的可 解释性和实用性。 用于数据挖掘的聚类检测方法有:划分的方法、层次的方法、基于密度的 方法、基于网络的方法和基于模型的方法等【1 6 ,m 。 2 4 2 决策树方法 决策树主要应用于分类和预测,提供了一种展示类似在什么条件下会等到 什么值这类规则的方法,一个决策树表示一系列的问题,每个问题决定了继续 下去的问题会是什么。决策树的基本组成包含决策节点、分支和叶子,顶部的 节点称为“根”,末梢的节点称为“叶子。 数据挖掘中决策树是一种经常要用到的技术,常用的算法有c h a i d 、 c a r t 、q u e s t 、i d 3 和c 5 0 等。 建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每 次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的 “差异最大。各种决策树算法之间的主要区别就是对这个“差异衡量方式 的区别。 所谓切分可以看成是把一组数据分成几份,份与份之间尽量不同,而同一 份内的数据尽量相同。切分的过程也可称为数据的“纯化”。 决策树方法适合于处理非数值型数据,这是它的优点,但如果生成的决策 树过于“庞大,会对结果的分析带来困难,因此需要在生成决策树后再对决策 树进行剪枝处理,最后将决策树转化为规则,用于对新事例进行分类。 第2 章数据挖掘理论基础 2 4 3 人工神经网络方法 神经网络方法越来越受到人们的关注,因为它为解决大复杂度问题提供了 一种相对来说比较有效的简单方法。神经网络可以很容易地解决具有上百个参 数的问题。 人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。它通过 向一个训练数据集学习和应用所学知识,生成分类和预测的模式。对于数据是 不定性的和没有任何明显模式的情况,应用人工神经网络算法比较有效。由于 人工神经网络具有自我组织和自我学习等特点,能解决许多其他方法难以解决 的问题,因此得到较普遍的应用。 人工神经网络方法仿真生物神经网络,其基本单元模仿人脑的神经元,被 称为节点;同时,利用链接连接节点,类似于人脑中神经元之间的连接。神经 网络的结构分为输入层、输出层和隐含层( 中间层) 。输入层的每个节点对应一 个个的预测变量,输出层的节点对应目标变量,可有多个。隐含层对神经网络 使用者来说不可见,隐含层的层数和每层节点的个数决定了神经网络的复杂度。 除了输入层的节点外,神经网络的每个节点都与它前面的很多节点连接在一起, 每个连接对应一个权重值。 人工神经网络方法主要有:前馈式网络、反馈式网络和自组织网络。 ( 1 ) 前馈式网络 前馈式网络从输入到输出的过程是一个从前向后的传播过程,后一节点的 值通过它前面相连的节点传过来,然后把值按照各个连接权重的大小加权输入 活动函数再得到新的值,进一步传播到下一个节点。 ( 2 ) 反馈式网络 反馈式网络与前馈式网络的过程相反,是从结果向前到输入节点的过程。 主要用于神经网络的学习、训练。当节点的输出值与预期的值不同,也就是发 生错误时,神经网络就要“学习( 从错误中学习) 。把节点间连接的权重看成 后一节点对前一节点的“信任 程度,权重越大的节点越被“信任 。学习的过 程是:如果一个节点输出发生错误,查看错误是受哪些输入节点的影响而造成 的,就降低对这些节点的权重,同时升高那些做出正确建议节点的权重值。这 个过程逐步向前传播,直到输入节点为止。 ( 3 ) 自组织网络 第2 章数据挖掘理论基础 自组织网络是人工神经网络体系中一种比较重要的网络类型,这类网络在 自组织过程中经常采用竞争学习方法。自组织网络是一种无教师的竞争学习型 前馈网络,网络通过自组织方式利用大量的训练样本数据来调整网络权值,最 后网络的输出层特征图反映样本数据的分布情况。因此,根据自组织网络的输 出状况,就能得到整个数据区域的大体分布情况,即可从样本数据中得到数据 颁的大体本质特征。 2 4 4 遗传算法 遗传算法模仿人工选择培育良种的思路,从一个初始规则集合开始,迭代 地通过交换对象成员( 杂交、基因突变) 产生群体( 繁殖) ,评估并择优复制( 物 竞天择、适者生存、不适应者淘汰) ,优胜劣汰逐代积累计算,最终得到最有价 值的知识集。遗传算法包含以下3 个基本算子。 ( 1 ) 繁殖 繁殖是从一个旧种群选择出生命力强的个体产生新种群的过程。 ( 2 ) 交叉 交叉是选择两个不同个体的部分进行交换,形成新个体的过程。 ( 3 ) 变异 变异是对某些个体的某些基因进行变异。 遗传算法能够产生一群优良后代,这些后代力求满足适应性,经过若干代 的遗传,将得到满足要求的后代,即是问题的解。 2 4 5 关联分析方法 世界上的许多事物相互间都存在着“关系,如处方将医生与病人联系在一 起;四通八达的铁路、公路将城市联系在一起;超市中买面包经常与买果酱在 一起等。关联分析方法特别适合于从关系中挖掘知识。关联分析方法包含关联 发现、序列模式发现和类似的时序发现等。 ( 1 ) 关联发现算法 关联就是项与项间的密切关系。关联发现算法能够系统地、有效地得到关 联规则,找出关联组合,在关联组合中,如果出现某一项,则别一项也会出现。 通过支持度因素和自信度因素衡量一个关联发现算法的强度,因为只有两 第2 章数据挖掘理论基础 个衡量因素,所以关联发现算法相对来说比较简单,在数据挖掘中获得广泛应 用。 ( 2 ) 序列模式发现算法 序列模式发现算法主要是发现在时间序列上,一个项目集之后的项目集是 什么,即找到时间上连续的事件。在应用这种算法时,必须有日期和时间等数 据项。例如,对顾客购买数据集进行序列模式发现算法时,会发现大部分购买 了计算机的顾客,其后紧接着会购买刻录机。 ( 3 ) 类似的时序发现算法 类似的时序发现算法是先找到一个事件顺序,再推测出其他类似的事件顺 序。例如,在序列模式发现的例子中,已经知道购买计算机的顾客,紧接着会 购买刻录机;那么也可以推测出,这些顾客还有可能购买打印机等外部设备。 类似的时序发现算法还可以将其找到的事件顺序推广到其他方面。例如, 由此可以推测出,购买数码相机的顾客其后也会购买数码相机的内存卡等。 2 4 6 基于记忆的推理算法 基于记忆的推理算法使用一个模型的己知实例来预测未知的实例。使用基 于忙的推理算法时,要求预先已有一个己知的数据集( 称作基本数据集或训练 数据集) ,并且已知这个数据集中记录的特征。当需要评估一条新记录时,该算 法在已知数据集中找到和新记录相似的记录( 称为“邻居) ,然后使用邻居的 特征对新记录预测和分类。 为了使用基于记忆的推理算法,必须做好以下3 个关键问题: ( 1 ) 选择合适的历史记录形成基本数据集; ( 2 ) 找出构成历史记录的最好方法; ( 3 ) 解决如何找到“最好的 邻居。 所谓“最好的 邻居

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论