(机械设计及理论专业论文)多元统计分析在农机监理系统中的应用.pdf_第1页
(机械设计及理论专业论文)多元统计分析在农机监理系统中的应用.pdf_第2页
(机械设计及理论专业论文)多元统计分析在农机监理系统中的应用.pdf_第3页
(机械设计及理论专业论文)多元统计分析在农机监理系统中的应用.pdf_第4页
(机械设计及理论专业论文)多元统计分析在农机监理系统中的应用.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在迅速发展的信息化社会中,各行各业都感受到“数字化”、“信息化”带来 的冲击和发展机遇。随着我国农业加速实现现代化,各类农机具的数量正逐年增 加。为了适应农机管理现代化的要求,建立基于计算机技术的现代化农机管理体 系和系统,实现农机管理的数字化、网络化已势在必行。目前农机监理信息系统 已在我国十几个省市推广应用,但现有软件系统尚存在许多不足,不能满足农机 监理部门的业务需求。因此,不断研制和开发新的农机监理信息系统具有重要的 现实意义。 本论文针对农机监理系统的总体框架、各子系统的功能、系统的详细设计、 开发平台的选取以及农机驾驶员职业适应性评价体系与评价方法等关键理论和 技术阍题展开研究工作。采用面向对象的程序设计方法,以、酤吼lf o r p l o 为开发 工具,建立了一个农机监理系统原型。所建立的农机监理系统由农机管理、驾驶 员管理、事故档案管理、监理财务管理、监理人员管理、业务文书管理六个予系 统构成。系统还可根据不同级别用户的使用特点,对各功能模块进行用户定制, 方便了用户的使用。同时采用多元统计分析理论及方法,对农机监理系统研制过 程中涉及的农机驾驶员的职业适应性评价问题及方法进行分析研究。依据主成分 分析方法建立了农机驾驶员职业适应性的评价指标体系;运用动态聚类分析方法 对驾驶员职业适应性的优劣进行了分组:使用判别分析方法来确定驾驶员的分类 归属。 关键词;多元统计分析;主成分分析;聚类分析;农机监理系统 a b s 仃a c t f a c m g t l l er 印i dd e v e l 叩m e n to f m ei n f o n l l a t i o nr e v 0 1 u t i o n ,e v e 口o n e c a nb ee 印e r i e n c i n g “d i 西t a l l i f e 1 1 l em 珊b e ro fa 鲥c u n 嗽lm a c l l i n e 哆 i s r a p i d l yi n c r e a s h 培i n c o u r s eo ! f a 舒c u l n l r a l m o d e m i z a t i o n n s i m p o r t a n ta n dn e c e s s a r yt om a :k em em o d e 埘z a t i o no ft 1 1 e a 鲥c u l t u 】阻l m a c h i n e r ys a f e t ys u p e r v i s i o n ( m s s ) t h i sm a k e si tu 瞎e n tf o rm e i n t e r c o m m u n i c a _ t i o na l l d m a n a 星筘m e n t o ft 1 1 ea m s st om a l i 孺 m o d e r n j z a t i o n 锄dn e t w o r k wt l l ea m s sh a sb e e np 叩u l 耐di l l s e v e r a lp r o v i i l c e s 锄dc i t i e so fo l l rc o l l i ,略b mm e r ea r cm o r eo rl e s s i m p e r f e c t i o n 证e x i s t i n gs y s t e ms o 袅w a r e t h e yc a n ts a t i 3 母也e r c q u i r e m e mo f t l l ea m s s s oi th a si m p o n :髓tp r t i c a ls i g n i 最c a 缸o nt o d e s i 印锄dd e v e l 叩n 圮 m s s 1 1 1 廿1 i st l l e s i s ,n l ef o l l o w i i l gp m b l e m sa r es n j d i e d :n l e 如m ew o r kf o r m e 舢s s ,劬c t i o n so fs u b s y g t e l n s ,d e s i 印o f 也es y 咖m ,t l l ee v a l u a t e d s y s t e n lf o r 也ed r i v 吨嘲蝴i l 时o f “v e r si nm e c h a l l i 彻o f 触1 i n g ,曲 a s s o c i 曲掘t l l e o r ya i l dm e t i l o d s a na r c h 啊p eo f m ea m s s i se s t a b l i s h e d b y 璐吨s u a l f 嘲bs o 脚a r e 趾d 也e d e v e l 叩m e t h o d t l l 砒f a c e sm e o b j e c t t h e 蝴s si sc 伽叩o s e db ys i 】( s u b s y s t e m s :坞m 她a g 锄e i l to f m o t o r 删c l e ,m em 趾a g c m e n to f “v 盯,缸l em 锄a g e m 蜘to f c i d 即t a i 丘l e s ,t l l em 蝴g 嘲e n to f6 i i a n c i a ls u r v e i l l 船c e ,t 1 1 em 明a g 锄e mo f 强沁n a l 踟r v e m a n c e 髓d 也em 雏l a 掣骶i e n to f t s a c t i o nw r i t e t h i s s y s t e md e s i 印sd i 蜘如1 c t i r d u l e s ,d i 彘啪t1 e v e l sc h 蹦l c t e r 锄d d i 丘b r e mu s e r sq u a l i 哆f o rl e v e l su s e r i ta l s os u p p l i e ss p e c i f i c i i l f b m l 砒i o nf b rd i 琢 r e r l t1 e v d ss u b s y s t e m i no r d e rt ob ec o n v 铋i e mf o r u m f i e dm 锄a g e m e n to f t l l ei n f 0 衄a t i ,t l l i ss y s t e 芏ne x e c u t e sn l eu n i 丘e d m a n a g 锄e m j r h e 上e c h n i q u e o f m u l t i 谢8 t e l s t 8 主i s t i c a l 明a l y s i si su s e dt o s t u d y 也e 赫v i i l ga d a p t a b i l 匆f o r 越v 融i i lm e c h a l l i s mo f 缸1 吨1 h e 埘n c i p a lc o m l 啪e i i t 姐a l y s i si su s e dt of 0 吼dt l l ee v a l u 曲e di n d e xs v s t e m f o rt l l ed r i v i n ga d a p t a b i l i 蛳1 1 l ec l u s t e ra i l a l y s i si su 3 e dt og m u pd 由e r s “ a c c o r d i n gt 1 1 e i rd r i v i n ga 蛔池b i l i 吼t h ed e t e m i n a n ta 1 1 a l y s i si su s e dt o a s c e r t a i nm e a d s c r i p t i o nf o ran e w 拍v e r t h ee l e m e n t sa r l dt n l s 锣d a t a a r ep r o v i d e df o rm ed r i v e r s 驯l r 、,e i l l a n c es y s t 咖b y u s m g m u l 心旧d a t e 鼬撕s t i c a lm e n l o d s k e yw o r d s :m u l t i v a r i a t es t a t i s t i c a la i l a l y s i s ;m i p a lc 咖叩o n e n t 锄a l y s i s ;c l u s t e ra 1 1 a l y s i s ;s u n ,e i l l 舭c es y s t e mo fa 鲥c u l t i l r a lm a c h i i l e 叫 1 绪论 随着我国经济的快速发展,包括农用运输机械在内的各种机动车在工农业生 产和人民生活中得到了广泛的应用。为了充分发挥各类机械设备的效能,同时避 免各种安全事故的发生,世界各国都建立起了与自身国情相适应的机动车管理系 统。个好的机动车辆管理系统不但可以规范机动车辆的管理,提高管理效率, 还可以及早发现存在于车辆和驾驶人员等方面的安全隐患,最大限度地预防和减 少交通事故的发生。 1 1 引言 自改革开放以来,随着我国综合国力的增强,各种新技术和设备在农业生产 部门得到了大量应用,其中各种农用车辆数量的增加更是迅猛,与农用运输车辆 有关的交通事故的大量出现,农用运输车辆的管理问题成了人们关心、关注的焦 点之一。如何提高农机的管理水平也成为政府管理部门和相关研究机构所面临 的重要课题。 计算机技术的发展,使管理信息系统的开发手段和方法不断得到完善。基于 各种先进平台开发出的新型管理信息系统不但方便了用户的使用,也是管理信息 系统的架构更趋合理,有利于在更大范围内推广应用。 各种数据分析与处理技术的发展也给管理信息信息系统的研发带来了活力, 使各类管理信息系统不但能够存储和管理大量的数据,而且还能对数据进行深入 的挖掘和分析,从中找出各类有用的信息来帮助管理部门进行决策和实旌有效的 管理。目前各种统计分析技术和相应的软件在实际的数据分析和处理中得到了广 泛的应用口 b 9 。1 ”。本文将多元统计分析理论和方法引入农机监理信息系统的开发 研制中,用来解决农机驾驶员的驾驶适应性的评价问题。 1 2 建立基于多元统计数据分析技术的农机监理系统的意义 由于农机数量急尉增加,与农机有关的各类事故发生率也里逐年上升趋势, 农机监理部门的工作越来越繁重旧”。建立一个快速有效的信息收集和处理计算 机系统,对提高各级农机管理部门的管理水平和工作效率,同时预测预防各类事 故的发生有着重要的现实意义。也是农机管理部门实现管理信息化的一个重要的 标志。 首先,在各类与农机有关的事故中,与驾驶员个人因素有关的要占到所有事 故的8 0 以上。而在农机监理系统中建立一个对驾驶员实施驾驶适应性评价的体 系和评价方法,是从根本上解决上述问题的基本途径。影响驾驶员的职业适应性 的因素也有很多,包括生理和心理的因素,比如:反应时间、速度估计、性格特 征、情绪稳定性、动视力、夜间视力、色觉、深视力等,这些因素之间存在着一 定的联系,要想对职业适应性进行评价,就需要对驾驶员建立一套科学的评价体 系。驾驶适应性应该遵循一些基本的原则和测试的实际情况,然后根据这些原则 进行影响驾驶员驾驶的各个因素的确定,再根据这些影响因素进行驾驶员各方面 指标的设置,最后对这些指标用多元统计分析的方法进行划分和无量纲化处理, 最终判定该驾驶员是否适合驾驶。 其次,对于农机监理系统来讲,农机驾驶员驾驶适应性评价只是其中的一个 子系统,作为农机监理系统,它是一个由多因素构成的相互联系、相互作用的大 系统。要想充分认识一个复杂现象的总体情况,就必须从不同的角度,从多个方 面对它进行分析和研究,从而形成了各种指标。一个指标反映总体一个方面的特 征,要想全面反映总体的状况,就要将这些指标综合起来考虑,建立一套科学、 完善的指标体系。对于农机监理系统来说,也是由很多因素决定的,这其中包括 机动车的管理、驾驶员的管理、事故档案的管理、监理财务管理等分系统,这些 分系统也是相互影响相互作用的。 最后,准确地收集存储数据,并对其进行加工、分析、统计、汇总是农机监 理系统管理工作的必然要求;能否及时获取并充分利用农机化管理信息,提高农 机监理的科技含量,也是能否实现安全驾驶及最大限度的减少交通事故的关键所 在。 所以,建立基于多元统计数据分析【l 。3 1 技术的农机监理系统不但可以提高办 公效率和质量,实现管理的规范化、现代化,同时还可以准确快速的判断出机动 车驾驶员的职业适应性,这对实现农机监理的数字化具有重要的理论和现实意 义。 1 3 农机监理系统的基本功能与发展趋势 由于数据分析技术及数据库技术的不断发展和完善,计算机硬件性能的不断 提高和价格的逐年下降,都为基层管理部门建立自己的管理系统提供了越来越好 的外部环境。科技的进步使各行各业都在运用先进的科技手段发展自己,农机监 理也不例外,加速实现计算机现代化管理,是实现农机监理现代化的必由之路。 农机监理的重要任务之一,就是对农业机械及其驾驶员实旌档案管理,最早 的拖拉机上户、转籍、过户、变更等业务发生情况,都是由县站业务人员填写入 档。由于增减变化频繁,致使机具和人员台帐管理难度较大,若使用微机,这些 工作只需一张软盘寄送到市监理所拷贝,在几秒内就可以完成。如果可以实现网 络化,这些工作仅在网上操作即可。用很短的时间就可以把档案的增减和变动内 容修改完毕,另外,当发生农机事故时,需要查找机具和驾驶人员的档案,也只 需要通过网络系统即可查询到本地域和外地域车辆及驾驶员的档案资料。网络系 统不仅可以大幅度提高农机监理的工作效率,节省大量人力物力,而且,联网之 后,市监理所可以及时掌握各机具有关数据和档案资料,省监理站也可以掌握各 市的业务动态,随时可获得准确的信息资料“】。 当前,随着电子计算机的更新换代和网络技术的飞速发展,计算机的应用越 来越广泛,农机安全监理工作与计算机相结合,使得农机监理工作日趋走向科学 化、自动化、现代化的方向迈进。国外的农业机械化早已与计算机技术结合,计 算机技术广泛应用于田间作业、信息分析、安全监理、农机管理等各个方面。 农机监理是农机管理的一个窗口,“窗口行业”的共性和社会对“窗口”的 严格要求,已不容农机监理工作停留在手工操作和传统信息传递的低水平上。农 机监理在农机管理中实现信息管理现代化是社会进步的要求,也是农机监理的工 作性质和地位所决定的。农机监理的工作十分艰苦和复杂,需要经常深入现场服 务,农机牌证管理的数据采集、汇总、归整、登录、处理、登记、统计、入档、 调用、传递,都必须以最快捷、最有效的手段来完成。工作量大,琐碎复杂,必 然对农机信息管理和交流的现代化提出迫切的要求睥3 。”】。 目前,计算机虽然在农机监理领域取得了一定的应用,但应用水平参差不齐。 一般省和地区级的农机监理机关应用水平相对较高,区县一级的农机监理应用水 平相对比较低,受人力、财力等因素制约,很少开发用于监理辅助管理的专业软 件,有的仅局限于利用计算机进行文字处理,虽然能满足大众的基本要求,但它 不是为农机监理系统量身定制,使用中存在很大的局限性,应用效果并不理想。 1 4 本文的主要工作 本文的主要工作是开发一个农机监理系统,用计算机对监理业务进行管理, 实现监理部门管理办公的自动化,避免重复的手工操作。该系统的设计包括以下 几个子系统:机动车管理子系统、驾驶员管理子系统、事故档案管理予系统、监 理财务管理子系统、监理人员管理子系统、业务文书管理子系统。 同时由于在众多影响交通安全的因素中,驾驶员的内在素质是造成交通事故 的主要因素之一。资料表明,在农机事故总量中驾驶员负主要责任的约占8 0 , 而驾驶员发生交通事故的根本原因在于其生理和心理素质上存在个体差异,从而 提出了驾驶员的职业适应性问题。因此,必须全面、定量地研究、设计驾驶适应 性的指标体系,制定出切合实际的评价标准,不让那些具有潜在危险性的入进入 职业驾驶员队伍,并对职业适应性有缺陷的驾驶员进行有针对性的矫正,才能有 效防止交通事故的发生【6 。7 。2 ”。所以,为了使监理部门科学地管理农机和农机驾 驶员,尽可能的减少交通事故的发生,本文还对农机驾驶员管理予系统中驾驶员 的驾驶适应性评价体系,驾驶员驾驶适应性评价方法等问题进行了研究。由于影 响驾驶适应性的原因包括生理和心理两部分,也就是说,它应该是一个随机的多 因素子系统。处理多因素影响的系统,也即多指标系统,对其进行定量的分析, 多元统计分析方法是目前最有效、最实用的方法之一。在实际分析过程,论文首 先采用主成分分析法对影响驾驶员驾驶安全的指标进行分析,以此来确定驾驶员 的职业适应性的评价体系:然后,采用聚类分析方法对驾驶员的职业适应性进行 分类,把驾驶适应性分成不同的级别;最终利用判别分析方法对农机驾驶员的驾 驶适应性进行归类,以确定其驾驶适应性。 4 2多元统计数据分析技术与管理信息系统 为了提高监理部门的工作效率,实现农机管理的现代化,本文的主要任务就 是而建立一个适合基层监理部门使用的农机管理信息系统。同时为了尽可能的预 防和减少交通事故的发生,本文在驾驶员管理子系统中加入了驾驶员职业适应性 评价体系和评价方法。又由于影响驾驶员驾驶适应性的指标应该是多个随机变量 的观测数据,不同的人不同的时间都有可能有很大的变化,但是这些随机变量之 间是相互联系相互影响的,要对这些指标做一个定量的分析,一个实用的解决方 法就是用多元统计分析技术。这样既可以揭示每个变量的变化规律,还可以保证 不丢失它们之间的相互联系的信息。 为了便于理解多元统计数据分析技术和管理信息系统的相关概念,下面介绍 一下多元统计分析技术相应的概念及本文中要用到的几种多元统计分析方法,以 及管理信息技术的使用及发展。 2 1 多元统计数据分析技术概述 在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统 特征和运行状态的数据信息。这类原始数据集合往往由于样本点数量巨大,用于 刻画系统特征的指标变量众多,并且带有动态特性,而形成规模宏大、复杂难辨 的数据海洋。如何分析和认识高维复杂数据集合中的内在规律性,简明扼要地把 握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐没在其中的重 要信息集中提取出来;如何充分发掘数据中的丰富内涵,清晰地展示系统结构, 准确地认识系统元素的内在联系,以及直观地描绘系统的运动历程;这些是科学 决策和决策支持系统建立的基础,是增强决策者知识快捷、有效的实用工具。利 用统计学和数学方法,对多维复杂数据集合进行科学分析的理论和方法,就是多 元统计数据分析研究的基本内容。 多元统计分析是数理统计学3 0 多年来迅速发展起来的一个分支。这种分析方 法是运用数理统计方法来研究解决多指标问题的理论和方法,也就是说多元统计 分析是一种综合分析方法,它能够在多个对象和对个指标互相关联的情况下分析 它们的统计规律。构成多元统计分析模型的数学方法并不新颖,如与多变量有关 的基本概率分布、正态分布源自3 0 年代。然而,当随机变量较多时,多变量分析 的计算工作量极其复杂,没有计算机根本无法完成。因此,直到有了计算机之后, 多变量分析技术才进入实用阶段并迅速发展。近2 0 年来,随着计算机应用技术的 发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水 文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。 多元分析技术在我国的应用和发展起步比较晚,7 0 年代初期多元统计分析技 术才在我国的各个领域受到广泛的关注,2 0 多年来我国在多元统计分析的理论研 究和应用上也取得了显著的成绩。 多元统计分析【1 3 1 广泛的应用于社会发展的各个领域,除了上面列举的几个 领域外,该技术还被用于教育学、体育科学、生态学、考古学、环境保护、军事 科学、文学等等,也就是说该技术的应用已经非常之广泛,而且这种方法在对这 些实际的问题进行分析时,是一种非常有效的方法。 多元统计分析不是单一的一种分析技术,它由不同的对高维数据的分析方法 组成。这其中包括,回归分析、判别分析、聚类分析、主成分分析、对应分析、 因子分析、典型相关分析、偏最小二乘回归分析、时序立体数据表分析、简介定 性资料的统计分析等。对多指标的体系进行分析时,不可能将上面列举的所有分 析方法都用到,也就是说我们研究使用时,很多时候都只是涉及到种或几种分 析方法结合起来使用i “9 。本文只用到主成分分析法、聚类分析法以及判别分析 法,所以只对这三种分析方法做详细介绍。 2 1 1 主成分分析法 主成分概念首先由k a r lp a r s o n 在1 9 0 1 年引进,不过当时只对非随机变量来 讨论。1 9 3 3 年h o t e l l i n g 将这个概念推广到随机变量【“”。 在实际问题中,研究多指标( 变量) 问题是经常遇到的,然而在多数情况下, 不同指标之间是有一定的相关性的。由于指标较多再加上指标之间有一定的相关 性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成 一组互相无关的几个综合指标来代替原来的指标,同时根据实际需要从中可取几 个较少的综合指标尽可能多的反映原来指标的信息。这种将多个指标化为少数互 相无关的综合指标的统计方法叫做主成分分析或称为主分量分析。 主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列 互不相关的新变量,从中选出少数几个新变量并使他们含有尽可能多的原变量带 有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。 当研究的问题确定后,变量中所包含的信息的多少通常用该变量的方差或样本方 差来度量【”。 1 高维数据系统综合简化的思想方法 主成分分析的过程实质上是对原坐标系进行平移和旋转变化,使得新坐标的 原点与数据群点的重心重合,新坐标系的第一轴与数据变异的最大方向对应,新 坐标的第二轴与第轴标准正交,并且对应于数据变异的第二大方向,依次类推。 这些新轴分别被称为第一主轴u 。,第二主轴u 。若经过舍弃少量信息后,主轴 u ,u :,仉( m p ) 能够十分有效地表示原数据的变异情况,则原来的p 维空间 就被降至m 维。生成的空间( u 。,u :,u 。) 被称为m 维主超平面。当m = 2 时,就 称其为主平面。可以用原样本群点在主超平面上的投影来近似地表达原群点。 原样本群点在主超平面的第一轴上的投影,构成数据表的第一变量,y ,r “, 称为第一主成分。一般地,y 。被称为第h 主成分,h = 1 ,2 ,m 。若以e ( y 。) 表 示y h 的均值,v ( y 。) 表示y h 的方差,则主成分分析的结果是 e ( y h ) = o ,v h = 1 ,2 ,m v ( y 。) v ( y :) v ( y i )( 2 1 ) 2 最佳简化的原则 对于主成分分析,可以从以下几个角度进行分析:主成分分析法可以在保证 数据信息损失最小的前提下,经线性变换和舍弃一小部分信息,以少数新的综合 变量取代原始采用的多维变量。 记原变量为x 。x :,x p ,主成分分析后得到的新变量y 。,y 。,y 均是 x ,x 2 ,x 。的线性组合,( m 0 ,所以 y ( 只) 矿( ) y ( l ) 0( 2 1 6 ) = u 丑 ,lj圳l 在解决实际问题的时,一般不是取p 个主成分,而是根据累计贡献率的大小 取前k 个。 l 口m|p 定义:称丑艺丑为第k 个主成分的贡献率,称乃五称为前m 个主成 ,| 王i扣1 ,1 1 1 分f 。,r ,f | 的累积贡献率。因此第一主成分的贡献率就是第一主成分的方 差在全部方差罗a ,中的比值。这个比值越大,表明第一主成分综合原来测量指 面 标信息的能力越强。 累积赁献率表明了前m 个主成分提取了x ,x 2 ,x ,中的总信息量的份额。 在实际应用中,如果前巾个主成分的贡献率达到达到一定的要求,比如说8 5 , 则表明可以用前m 个主成分代替原来的变量而且不至于损失太多的信息,这样既 减少了变量的个数又便于对实际问题进行分析和研究。 在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起个别 变量取值的分散程度差异较大,这时,总体方差受方差较大的变量的控制。若用 求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消 除由于量纲可能带来的影响,在计算之前要先将原始数据标准化。 当协差阵未知时,可用其估计值s ( 样本协差阵) 来代替。 设原始资料阵为: x = 工1 , x 2 , 工莉膏_ ? 。 工肺 则 脚,其中勺= 三喜( 护碳吲 ( 2 1 8 ) 而相关系数阵: 胄= ( 如)其中如= s 口再再 显然当原始变量x 。,x :,x 。标准化后,则 s :r :x x 既样本协方差阵s 作为的估计值,可以获得样本的主成分。 ( 2 1 7 ) ( 2 1 9 ) ( 2 2 0 ) 2 1 2 聚类分析法 聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标进行分 类的一种多元统计分析方法。它们讨论的对象是大量的样品,要求能合理地按各 自地特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识 的情况下进行。 通常情况下,人们可以凭经验和专业知识来实现分类。但是随着生产技术和 科学的发展,人类的认识不断加深,分类越来越细,要求越来越高,有时光凭经 验和专业知识是不能够进行确切分类的,往往需要定性和定量分析结合起来去分 类。聚类分析法作为一种定量的分析方法,将从数据分析的角度,给出一个更准 确、细致的分类。由于需要分类的问题很多,因此聚类分析这个有用的数学工具 越来越受到人们的重视,它在许多领域中都得到了广泛的应用。又由于聚类分桥 的对像是大量样品这个特点,我们可以将其运用到驾驶员的职业适应性中,根据 大量驾驶员的测试数据对其进行分类。 聚类分析的基本思想是,从一批样品的多个指标变量中,定义能度量样品间 或变量间的相似程度( 或亲疏关系) 的统计量,在此基础上求出各样品( 或变量) 之间的相似程度度量值,按相似程度的大小,把样品( 或变量) 逐一分类,关系 密切的类聚集到一个小的分类单位,关系疏远的类聚集到一个大的分类单位,直 到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关 系谱系图,用于直观的显示分类对象( 样品或变量) 的差异和联系。聚类分析法 与其他多元统计分析法结合起来使用效果更好。因此,本文就是将其与主成分分 析、判别分析结合起来使用,使其能更好的发挥效果。 聚类分析的内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、 模糊聚类法、图论聚类法、聚类预报法等。在对驾驶员的职业适应评价体系中我 们主要用到动态聚类分析法,所以仅对动态聚类分析法做较详细的介绍。 1 事物之间的相似性度量 要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的 相似程度。现在用的最多的方法有两个:一种方法是用相似系数,性质越接近的 样品,它们的相似系数的绝对值越接近1 ,而彼此无关的样品,它们的相似系数 的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的 类。另一种方法是将一个样品看作p 维空间的个点,并在空间定义距离,越近 的点归为一类,距离较远的点归为不同的类,即用距离来测度样本点间的相似程 度。由于本文中只用距离来测度样本空间的相似程度,所以下面仅对距离的概念 做详细介绍。 记n 是样本点集合。距离的定义: 下条件: a d ( x ,y ) 0 , b d ( z ,j ,) = 0 , 设d ( y ) 是r + 上的一个函数,它满足以 协,y q 当且仅当x = y c d ( 工,y ) = d ( y ,x )坛,y e q d j ( 工,y ) d ( 工,z ) + d ( z ,y )溉,y ,z q ( 2 2 1 ) 这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。下 面介绍一下常用的几种距离: ( 1 ) 明考夫斯基( m i n k o w s k i ) 距离: r 。,1 名 ( w ) = i 艺k 一儿i q o ( 2 2 2 ) l “j 当q = 1 2 ,m 时,则分别得到 ( 2 ) 绝对值距离 d ( y ) = k y 一 ( 2 2 3 ) ;l ( 3 ) 欧氏( e u c h d ) 距离 厂p v 2 d :( y ) = i ( 一儿) 2 ( 2 2 4 ) l = 1j ( 4 ) 切比雪夫( c h e b y s h e v ) 距离 d 。( 五力2 懋k 一划 ( 2 2 5 ) 需要注意的是:当各变量的测量值相差悬殊时,采用明氏距离并不合理,所 以在使用明氏距离时,一定要采用相同量纲的变量,即需要先对数据表准化处理, 然后用标准化后的数据计算距离。 在明氏距离中,最常用的是欧氏距离。它的主要优点是当坐标轴进行正交旋 转时,欧氏距离是保持不变的。因此,如果对原坐标系进行正交平移和旋转变换, 则变换后样本点间的相似情况( 即它们间的距离) 完全同于变换前的情形。在采 用明氏距离时,还应尽可能地避免变量的多重相关性。显而易见,多重相关性所 造成的信息重叠,会片面强调某些变量的重要性。 ( 5 ) 马氏( m a h a l a n o b i s ) 距离 马氏距离时由印度统计学家马哈拉诺比斯于1 9 3 6 年引入的,故称为马氏距 离。这一距离在多元统计分析中起着非常重要的作用。 设表示指标的协差阵,即 e = ( ) 。 其中旷击喜( 吲( 矿弓) 川_ 1 ,p 1 0 墨= 而 ( 扛l ,2 ,1 0 ) ,= 1 去缸 ( 2 z 。) 如果y 。存在,则两个样品之间的马氏距离为 d ;( m ) = ( x ,一x ,) “( v 一) ( 2 2 7 ) 其中“为总体的均值向量,为协方差阵。 马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影 响。当然,它还有其他优点,将原数据作一线性交换后,马氏距离仍不变等。 2 动态聚类分析法 动态聚类法要解决的实际问题是,如果有n 个样本点,要把它们分成k 类, 使得每一类内的元素都是聚合的,并且类与类之间还能很好地区别开来。动态聚 类法主要适用于大型数据库,这时它的计算速度要比系统聚类法快很多。因为一 个地区驾驶员的信息已经是一个很庞大的数据系统,所以动态聚类法应该是比较 合适的分类方法。 动态聚类法的工作过程,首先要根据需要随机选取n 个点作为聚核,计算所 有点到这n 个聚核的距离,可以得到n 个初始分组。分别计算这n 个类的重心, 然后,将各个类的重心作为新的聚核,对空间点进行重新分类,就得到新的n 类。 重复上述步骤即可得到合理的分类。 2 1 3 判别分析 利用聚类分析法可将驾驶员的职业适应性分成不同的类别,但只有使系统能 判别出新样本驾驶员所属类别才是我们最终的目的,因此,在用聚类分析法对驾 驶员的职业适应性进行分类之后,我们运用判别分析的方法来解决这一问题。 判别分析是用于判别个体所属群体的一种统计方法,它产生于上世纪3 0 年 代。其特点是根据已掌握的数据信息,总结出客观事物分类的规律性,建立判别 公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和 判别准则,就能够判别该样本点所属的类别。判别分析的内容很丰富,方法很多。 判别分析按判别的组数分为:两组判别分析和多组判别分析,因为驾驶适应性不 只是两组,所以文中的判别分析应该是多组判别分析;按区分不同总体的所用数 学模型来分,有线性判别和非线性判别等等。判别分析可以从不同的角度提出问 题,因此有不同的判别准则。不同的判别准则又有不同的判别方法,比如:距离 判别法、f i s h e r 判别法、b a y e s 判别法和逐步判别法。这里着重介绍b a y e s 判别 法。 b a y e s 判别法的基本思想: b 8 y e s 的基本思想是假定对所研究的对象( 总体) 在抽样前已有一定的认识, 常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验认识作修正, 得到所谓后验概率分布,而各种统计推断都基于后验概率分布来进行,将b a y e s 的统计思想用于判别分析,就得到b a y e s 判别法。 设有g 个p 维总体g l ,g 2 ,g 。,分别具有互不相同的p 维概率密度函数。在进 行判别之前,我们往往己对各总体有了一定的了解,实际中往往表现在某些总体 较之其他一些总体出现的可能性会大一些。因此,一个合理的判别准则应该考虑 到每个总体出现的可能性的大小( 即先验概率分布) 。一般说来,一个随机样品 应该首先考虑将其判入有较大可能出现的样本中。设这g 个总体出现的先验概率 分布为g ,吼,显然应有 g g f 呻= l ,2 ,g ) 且g f = 1 ( 2 2 8 ) = 1 除考虑总体出现的先验概率外,还应考虑误判所造成的损失问题。在大多数 实际问题中,若将一类的样品判归为另一类,就会造成定的损失,反之亦然, 但造成的损失有可能不同。所以在制定判别准则的时候应该考虑到误判的损失问 题。而这通常在判别分析前就是可以估计的,用表2 3 1 的损失矩阵描述。 表2 1 损失矩阵 判定为 实际为、 g l ,g 2 t嚷, g , 0c ( 2 f 1 )c ( g f l ) g 2 , c ( 1 1 2 ) o c ( g f2 ) i : q , c ( 1 i g ) c ( 2 i g )0 其中c0l 表示将实际属于的样品判为毋所造成的损失度量。 一个判别准则的实质就是对r p 空间作个不相重叠的划分:玩仍j 皿,若 样品x 落入d i ,则判此样品属于总体g ,因此一个判别准则可简记为d = ( d 。d 。, 仉) 。 以尸( jlt 功表示在判别准则d 之下将事实上来自g ;的样品误判为来自g , 的概率,则 户( jt 刀) 5l 厂( x ) f 出,= l ,2 ,一,g ,f( 2 2 9 ) 由此误判而造成的损失为c ( jij ) ( j = ,1 ,2 ,g 且,f ) 因此,在一个 给定的判别准则d 之下对g ;而言所造成的损失,应该是误判为g l ,“,g 。g 。, g “的所有损失,按照各误判概率加权求和,即在此判别规则下,将来自g 。的样品 错判为其它总体的期望损失为( 注意c ( jij ) = o ) 三壹p ( _ ,l f ,d 弦( ,i f ) :兰p u l f ,d ) c ( 川f ) ( 2 3 0 ) ,- 1 j lj ;l 又由于各总体g t 出现的先验概率为q i ( i = 1 ,2 ,g ) 。故在判别准则d 之下 总期望损失为 三垒窆积:杰羔吼c ( ,l 后) p ( | ,d ) ( 2 3 1 ) f - 1 f = l 户1 可以看到,总期望损失l 与判别准则d 有关,b a y e s 判别既选择d = ( d 。d :, d 。) ,使l 达到最小。下面对多个总体情予以讨论。 多总体的b a y e s 的判别: 设矗g ,g 为g 个不同的p 维总体,概论密度函数分别为俐, 例,( ,各总体的先验概论为q ;,q :,q 。,误判损失为c ( j j ) ( j 2 ,1 ,2 ,g 且,f ) 方便起见,记c ( iij ) = o ( i = 1 ,2 ,g ) 。令 砍( x ) 会g ,z ( x ) c ( 尼li ) ( 2 3 2 ) f ;1 在总期望捉拿失( 2 3 1 ) 达到最小的条件下,可以证明其判别准则为 x q ,若艘掀( x ) = j ( x ) ( 2 3 3 ) 即将样品x 判归为使( x ) ( i = 1 ,2 ,g ) 在到最小的那个总体 纵炉c 静胁h 麒x , 肛) = c j 吼 ( x ) 一g ,工( x ) j l i ,l j ( 2 3 4 ) g 由于g 。 ( x ) 与i 无关,故饥( x ) 最小等价于g 。z ( x ) 最大。从而在等误判 i ;j 6 损失下,多总体的b a y e s 判别准则为8 1 : x q ,若g i 正( x ) g 以( x ) 对一切j :f 成立 ( 2 3 5 ) 上述多元统计分析方法,将用于本文的农机监理系统的研制和开发。 2 2 信息系统技术的使用与发展 管理信息系统的创始人,美国明尼苏达大学c o r d o nb d a v i s 教授曾经说过 1 2 “】:“管理信息系统是一个利用计算机硬件和软件进行分析、计划、控制和决 策,提供信息支持和组织的系统。”我国学者在8 0 年代处对信息管理系统的定义 是:“一个由人和计算机组成的能进行信息收集、传递、存储、加工、维护和使 用的系统称为信息管理系统。”总之,国内外专家一致认为:它是一个人一机系 统。任何地方只要有管理,就要有信息,也就有信息管理系统,管理信息系统是 随着现代管理学、计算机科学、信息科学、系统科学和通讯技术等学科的发展而 产生的门边缘学科。 2 2 1 国内外信息系统的使用概况 1 管理信息系统的发展 管理信息系统的发展经历了从电子的数据处理阶段到管理信息系统阶段的 发展过程。1 9 5 3 一1 9 6 0 年主要是电子数据处理阶段。计算机的出现,提高了数据 处理效率,但是这种系统没有预测和控制功能。1 9 6 0 年信息报告系统问世,它是 管理信息系统的雏形,其特点是只按事先规定要求提供管理报告,但还是不能有 效支持决策。在7 0 年代出现了决策支持系统,它不同于信息报告系统之处是在人 机交互过程中帮助决策者探索可能的方案,生成管理决策所需的信息”2 。1 ”。 目前管理信息系统有两种发展趋势:一是信息系统的概念不再局限于单个企 业内部,而是扩展到全行业、全社区、全社会;二是进一步智能化、集成化。 管理信息系统具有以下特点: ( 1 ) 其有系统的切特征:集合性、事体性、目的性和环境适应性,它把零 散的、不调和的信息变为系统信息。 ( 2 ) 管理信息系统是系统的一种形式,其特点在于为管理服务,为企事业单 位日常管理工作和战术性决策服务的一种系统。 ( 3 ) 管理信息系统是以计算机为基础建立起来的,除了需要计算机的系统软 件和通用应用软件外,企事业单位要根据自己的具体情况研制出些专用的应用 软件。 管理信息系统根据辅助决策程度的不同,可分为三种类型: ( 1 ) 数据处理系统 它是应用在管理方面的一种计算机系统,主要特点是:简单、精确和标准化。 业务范围:业务数据的登录、编辑等。 ( 2 ) 管理信息系统 该系统是以计算机为主体,以信息处理为中心的综合性系统。 ( 3 ) 决策支持系统 它是在管理信息系统的基础上发展起来的,其主要特点是可以使决策者在计 算机终端上试验各种各样的行动方案,最终选择最优方案。 2 管理信息系统在机动车辆监理中的使用 农机化管理信息系统是在管理信息系统与农业机械化相结合的产物。它利用 计算机来处理农机管理数据、分析现状、预测未来、辅助农机管理人员进行决策 的一种数据管理系统。农机管理信息系统的建立促进农机化管理工作逐步走向规 范化、科学化和自动化。 国内外发展状况 计算机技术与农业机械化相结台,是农业机械化发展的必然趋势。国外一些 发达国家在农机计算机应用方面的研究起始于2 0 世纪7 0 年代初期。一些发达国家 政府部门、县农业官员通过因特网,利用计算机进行农机管理,用于资料的收集、 整理、存储、检索、传递,为掌握农机情况,进行预铡、制定政策和措旌等服务。 例如美国,每个县有1 2 名农机官员,他们通过农机化管理信息系统,向政府部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论