(计算机应用技术专业论文)高维数据可视化研究.pdf_第1页
(计算机应用技术专业论文)高维数据可视化研究.pdf_第2页
(计算机应用技术专业论文)高维数据可视化研究.pdf_第3页
(计算机应用技术专业论文)高维数据可视化研究.pdf_第4页
(计算机应用技术专业论文)高维数据可视化研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)高维数据可视化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要在科学研究和闩常生活中我们经常会遇到高维数据,它提供了极其丰富和详细的客观信息。如何直观地表示这些数据,或者从中获取我们感兴趣的信息,一直是学者们孜孜不倦追求的目标。可视化技术能将数据信息转变为直观的、以图形或图像形式表示的、随时间空间变化的物理现象或物理量呈现在研究者面前,使我们看到传统意义上不可见的事物或现象,因此本文使用可视化技术来分析和研究高维数据,实践证明是处理高维数据的一种行之有效的方法。可视化实现方法种类繁多,本文根据课题研究中所涉及到的数据来源,分别提出相应的数据可视化方法。首先针对寿命数据失效率在图形上表现为浴盆曲线的特点,我们提出用分段w e i b u l l 分布来拟合浴盆曲线,使用密度估计实现了失效率的可视化,并给出了分段w e i b u l l 分布的参数估计。为了在低维空间表示高维数据,我们提出用投影寻踪方法对高维数据进行降维处理,将它投影到直观的二维或三维平面上,然后使用聚类分析来判别数据之间的关系。本文还介绍了使用雷达图和脸谱图来表示高维数据,并提供了图形绘制方法,然后结合典型相关分析和主成分分析束发掘高维数据之间的相互关系。根据本文提出的研究方法,我们使用编程语言在计算机上绘制图形。为了快速高效地编写程序,我们使用了t e e c h a r t 控件。该控件通过它提供的强大的图表功能,满足了我们对图形绘制的要求。程序运行结果显示了程序编写的l f确性和研究方法的有效性。随着互联网的快速发展,本文提出基于b s 模式的数据可视化方法,这样大大扩宽了本研究的应用领域。本文最后探讨了数据可视化的应用颁域和我们目前的研究方向,也就是将其应用到经济数据统计分析与电子政务的决策分析中。通过本文的研究,成功实现了高维数据的可视化,它能提供给我们直观的数据信息,同时借助本文提出的分析方法还能发现数据之间的相互关系,为进一步数据信息的获取打下基础。、关键词:商维数据,数据可视化,投影寻踪,雷达图a b s t r a c ti ns c i e n t i f i cr e s e a r c ha n dd a i l yl i f e ,w ea l w a y sf a c ew i t hm u l t i d i m e n s i o nd a t aw h i c hc a r li n d i c a t el o t so fd e t a i l e di n f o r m a t i o n r e s e a r c h e r sp a i du n r e m i t t i n ge f f o r t so nh o wt od e n o t et h e s ed a t ad i r e c t l ya n de x p l o r ei n t e r e s t i n gi n f o r m a t i o nf r o mt h ed a t a b yt r a n s f o r m a t i o nd a t ai n f o r m a t i o ni n t oi n t u i t i o n i s t i c ,g r a p h i c ,v a r i a t i o n a lp h y s i c a lp h e n o m e n aa n dv a r i a b l e ,v i s u a l i z a t i o nt e c h n o l o g ye a r lp r e s e n tu st h i n g sa n dp h e n o m e n aw h i c ha r es i g h t l e s si nt r a d i t i o n a ls e n s e t h e r e f o r e ,t h i sp a p e ru s e dv i s u a l i z a t i o nm e t h o dt os t u d ya n da n a l y z em u l t i d i m e n s i o nd a t a ,w h i c hh a sb e e np r o v e dt ob ea ne f f e c t i v ew a yt od e a l 、i t l lt h ed a t a b e c a u s eo fv a r i o u sm e t h o d su s e di nv i s u a l i z a t i o n ,w eu t i l i z e dc o r r e s p o n d i n gm e t h o do fd a t av i s u a l i z a t i o na c c o r d i n gt ot h ed i f f e r e n td a t as o u r c e sw h i c hw e r ei n v o l v e di no u rs t u d y f i r s t l y , a c c o r d i n gt ot h ef e a t u r eo ft h e o r yo ff a i l u r er a t ew h i c ho b e yt h er u l eo fb a t h t u bc u r v ei ns h a p e ,t h ep a p e re s t a b l i s h e dt h ef a i l u r er a t er e g r e s s i o nm o d e lb a s e do nl i f ed a t a b ym e a n so fu s i n gs e g m e n tw e i b u l ld i s t r i b u t i o nt of i tb a t h t u bc u r v ew ec a na c h i e v et h el i f ed a t av i s u a l i z a t i o nb a s e do nd e n s i t ye s t i m a t e m e a n w h i l e ,w ec a nc a l c u l a t et h ep a r a m e t e re s t i m a t eo fs e g m e n tw e i b u l ld i s t r i b u t i o n i no r d e rt od i s p l a ym u l t i d i m e n s i o nd a t ai nl o wd i m e n s i o ns p a c e ,w eu s e dp r o j e c tp u r s u i tm e t h o dt or e d u c et h ed i m e n s i o n so f t h ed a t a a n dp r o j e c t e dt h e mi n t ot h ev i s i b l e2 do r3 ds p a c e ,t h e na n a l y z e dt h er e l a t i o no fd a t ab yc l u s t e r i n ga n a l y s i s f i n a l l y , w ei n t r o d u c e dr a d a rg r a p ha n df a c eg r a p ht of i g u r em u l t i d i m e n s i o nd a t aa sw e l la sp r o v i d et h em e t h o do fd r a w i n gt h ep i c t u r e a l s ow ei n t e g r a t e dt h ec a n o n i c a lc o r r e l a t i o na n a l y s i sa n dp r i n c i p a lc o m p o n e n ta n a l y s i si n t om i n i n gt h er e l a t i o no f m u l t i d i m e n s i o nd a t a ,u s i n gt h eg i v e ns t u d ym e t h o d s ,w em a yd r a wg r a p h si nc o m p u t e rb yp r o g r a m m e i no r d e rt op r o g r a me f f i c i e n t l yw ec a nu s et e e c h a r tc o m p o n e n t t h ec o m p o n e n tc a r lp r o v i d eu sp o w e r f u lc h a r t sw h i c hc a r lc r e a t ea n dd i s p l a ya l l2 da n d3 dc h a r t sa n dg r a p h si na ni m p r e s s i v eo p e n g le n v i r o n m e n t ;t h e r e f o r e ,i tc a r ls a t i s f yo u rd e s i r e t h er u n n i n gr e s u l t sv e r i f i e dt h ec o r r e c t n e s so fo u rp r o g r a m sa n dv a l i d i t yo fo u rr e s e a r c hm e t h o d s w i t ht h er a p i dd e v e l o p m e n to fi n t e m e tt h ep a p e rp r o v i d e dd a t av i s u a l i z a t i o nm e t h o d sb a s e do nb r o w s e r s e r v e rm o d e ,w h i c hc o u l de x t r e m e l yb r o a d e nt h ea p p l i c a t i o nf i e l d so f o u rr e s e a r c h 1 1i nt h ee n do ft h ep a p e r , w ed i s c u s s e dt h ea p p l i c a t i o no fm u l t i d i m e n s i o nd a t av i s u a l i z a t i o na sw e l la sr e s e a r c hd i r e c t i o n sr e c e n t l yw h i c ha r es t a t i s t i c a la n a l y s i si ne c o n o m i cd a t aa n dd e c i s i o na n a l y s i si ne g o v e r m n e n ts y s t e m w ei m p l e m e n t e dm u l t i d i m e n s i o nd a t av i s u a l i z a t i o ns u c c e s s f u l l yb yo h rr e s e a r c h ,w h i c hp r o v i d e d1 1 sd i r e c td a t ai n f o r m a t i o n b yt h eg i v e na n a l y s i sm e t h o d sw ec a r ld i s c o v e rt h er e l a t i o no fd a t aa sw e l la sf o r mas o l i df o u n d a t i o nf o ra c h i e v i n gd a t ai n f o r m a t i o nd e e p l yk e yw o r d s :m u l t i d i m e n s i o nd a t a ,d a t av i s u a l i z a t i o n ,p r o j e c t i o np u r s u i t ,r a d a rg r a p h1 t 1此页若属实请申请人及导师签名。独创性声明本人声明,所星交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在埝文中作了明确的说明并表示了谢意。研究生签名:童:巨聋过关于论文使用授权的说明e t 期枷坐 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部内容,可以采用影印、缩印或其他复制手段保存论文。( 保密的论文在解密后应遵守此规定j珂r 究乍签名:盔:i 星趣导师签名i 一茎! 兰! 叁同埘注:请将此声明装订在论文的目录前。武汉理i :大学硕士学位论文1 1 研究背景和意义第1 章引言计算机的诞生及其迅速发展推动了科学技术的高速前进,人类产生与获取的数据也呈现出几何增长。面对这些浩如烟海的数据,如何通过数据分析来启发和帮助人们认识更深层次的规律,从而发现新的规律或将其应用到生产实践中,一直是困扰着学者的重大课题。人们需要使用一些新的技术来帮助理解这些巨大数量的数据。数据可视化技术正是在这样的背景下,获得了人们越来越多的重视和高速发展。它凭借着计算机的巨大处理能力和计算机图形图像学的基本算法以及可视化算法把巨大数量的数据转换为静态或动态的图形或图像呈现在人们的面前,并允许通过交互手段控制数据的抽取和画面的显示,使得隐含于数据之中不可见的现象成为可见,为人们分析数据、理解数据和寻找规律提供了强有力的手段。它是一种计算方法,能将符号描述转变为几何描述,使得研究者能观察到所期望的仿真和计算结果。数据可视化涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术,因而成为数据分析的行之有效的方法。本课题的来源是国家科技部技术创新基金项目面向网络与数据库的数据分析计算软件。在这个项目的研究过程中,需要对大量的数据做分析,如何有效地获得相关数据的信息,如何表示高维数据成为一个急需解决的难题。本文的研究目的就是运用可视化技术对高维数据进行分析,生成直观的图形,然后从图形中得到有用的信息。本研究课题的意义在于:用户可以交互式的管理和开发数据;使用一些新技术来分析数据,能从多个角度来观察数据;利用可视化技术得到直观的分析结果;可以在w e b 上实现数据的交互式分析处理与显示。今天可视化技术已经得到了广泛的应用。它不仅应用于数学、物理、力学、化学、生物等基础学科,也应用于气象、地质、建筑、制造等技术部门,还可应用于商业和政府部门的大量统计数据之中。因此数据可视化是- f 3 对圈家科武汉理1 + 人学硕士学位论文技和国民经济发展都具有重要意义的技术,应当受到有关部门的充分重视和大力推广。1 2 研究对象和内容随着科技的快速发展,人们对医学、气象和流体力学等科学的研究也越来越深入。在这些领域的研究中会遇到大量的三维或高维数据。例如天气状况,可以用温度、气压、湿度、风力、降雨量和辐射强度等变量来描述。这些由多个变量描述现象的数据,抽象出来就是高维数据。高维数据提供了有关客观现象的极其丰富、详细的信息,但是数据维数的大幅度提高也给随后的数据处理工作带来了前所未有的困难。本课题的研究对象是高维数据,也就是如何使用可视化技术来表示高维数据并对它们作处理和分析。我们的研究内容包括对失效率的曲线做w e i b u l l 估计的方法来实现寿命数据的可视化;对高维数据做投影寻踪降维并使用聚类分析的方法处理数据的关系:使用脸谱图和雷达图表示高维数据并分析数据之间的联系和发展趋势:以及在i n t e r n e t 快速发展的今天如何发展我们的可视化技术。1 3 国内外研究现状国外从2 0 世纪8 0 年代末提出可视化技术以来,对它的研究已经取得了相当大的进展。可视化的应用范围不断扩大,已经涉及到地球科学、太空探测、气象学、海洋学、生物学、医学、数学、计算流体力学和有限元分析等众多的科学和工程领域。研究者已经建立了可视化实验室、可视化专题讨论、可视化国际会议以及可视化教育来促迸可视化的研究和发展。许多大学、研究机构和国家实验室对可视化工具、环境和应用等方面展开了广泛而深入的研究。目前可视化技术的发展还结合了超级计算机、高速网络、高性能图形工作站和虚拟现实技术,同时在市场上也推出了许多可视化软件系统产品。我国可视化技术的研究开始于2 0 世纪9 0 年代初。过去由于数据可视化常常需要使用巨型计算机和高档图形工作站等硬件设施,因而数据可视化开始都在国家级研究中心、高水平的大学和大公司的研发中心进行研究和应用。近年来,随着p c 性能的提高以及可视化软件的发展,可视化技术已扩展到科学研究、工程、军事、医学、经济等各个领域。比如我国“8 6 3 ”高技术发展研究课题一一数字化虚拟中国人数据集构建与海量数据库系统,它运用人体信息和计算机武汉理t 人学硕十学位论文技术,将真实的人体断层数据进行处理,为不同行业提供后续开发虚拟人体的数据参数。它使用计算机在三维空问来模拟真实人体的所有特征,这就是可视化技术的一个典型应用。虽然国内部分大学和科研机构正在研究可视化算法、移植或开发各种可视化工具,并且在油气勘探、医学、气象、流体力学等领域的应用方面已取得一大批可喜的成果。但从总体上来说,国内不仅在硬件上,同时在应用方面与国外先进水平差距较大,特别是在商业软件方面还是空白。当然这也给我们对该技术的研究提供了广阔的发展空间。1 。4 论文组织结构本文结构安排如下:第l 章为引言部分,主要介绍研究背景和意义,研究对象和内容。第2 章叙述了具体的数据可视化的实现技术。首先介绍了数据可视化的概念以及它与科学计算可视化的区别与联系,然后重点介绍了在本创新基金研究中所涉及到的几种数据源,并针对它们分别提出了相应的可视化技术,它包括使用w e i b u 1 分布来拟合失效率曲线从而实现寿命数据的可视化;使用投影寻踪技术对高维数据进行降维处理并用聚类法来分析数据:使用雷达图和脸谱圈来表示高维数据并分析这些数据之间的相互关系。第3 章给出了上一章提出的几种可视化技术在计算机上的实现,主要是使用c + + 语言编程并结合t e e c h a r t 控件来绘制图形,并将这些技术和w e b 技术相结合,从而实现了基于b s 模式的数据可视化。第4 章介绍了高维数据可视化的应用领域及目前研究范围。第5 章是对全文的总结,并对进一步的工作做了展望。武汉理工大学硕士学位论文2 1 概述第2 章数据可视化的实现方法2 1 1 数据可视化的概念所谓可视化( vjs u a l i z a t i o r l ) ,牛津英语词典解释为“构成头脑情景的能力或过程,或不可直接觉察的某种东西的视觉”。该术语也指将本来不可见的东西生成可见图像的过程。有人指出:可视化是一系列的转换,这种转换将原始模拟数据转换成可显示的图像,这种转换的目的在于将信息转换成可被人类感应系统所领悟的格式。可视化成为一种方法与技术应用于有关科学和工程技术各个领域,开始于利用计算机图形来加强信息的传递和理解。随后,计算机图像处理技术和计算机视觉也成功地用来处理各类医学图像和卫星图片,以帮助人们理解和利用各类图像数据。可视化的前身是计算机图形学,今天它已经发展成为研究用户界面、数据表示、处理算法和显示方式等一系列问题的一个综合性学科。根据侧重面的不同,可视化可以分成三个分支:科学计算可视化( s c i e n t i f i cv i s u a li z a t i o n 或v i s u m i z a t i o ni ns e i e n t i f i cc o m p u t a t i o n v i s c ) 、数据可视化( d a t av i s u a l i z a t i o n ) 和信息可视化( i n f o r m a t i o nv i s u a l i z a t i o n ) 。科学计算可视化是把计算中涉及的和所产生的数字信息转变为直观的、以图像或图形信息表示的、随时间和空间变化的物理现象或物理量呈现在研究者面前,使他们能够观察到模拟和计算,即看到传统意义上不可见的事物或现象;同时还提供与模拟和计算的视觉交互手段。它的实质是运用计算机图形学和图像处理技术,将科学计算过程中产生的数据及计算结果转换为图像,在屏幕上显示出来并进行交互处理,其核心是三维数据场的可视化。科学计算可视化侧重的是科学和工程领域数据的可视化问题。数据可视化比科学计算可视化具有更加广泛的内容,它不仅包含工程领域数据的可视化,还包含其他领域( 如经济、金融、商业等) 中数据的可视化。数据可视化概念首先来自科学计算可视化,科学家们不仅需要通过图形图像来分析由计算机算出的数据,而且需要了解在计算过程中数据的变化。数据可视化可以实现对计算和编程过程的引导和控制,通过交互手段改变过程所依据的4武汉理工大学硕士学位论文条件,并观察其影响。随着计算机技术的发展,数据可视化的概念大为扩展,它不仅包括科学计算数据的可视化,而且包括工程数据和测量数据的可视化。数据可视化技术指的是运用计算机图形学和图像处理技术,将数据转换为图形和图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、多媒体技术和虚拟现实技术、计算机视觉和人机交互等多个领域。近年来,随着网络技术和电子商务的发展,提出了信息可视化的要求。信息可视化是源于数据可视化,我们可以通过数据可视化技术来发现大量金融、通信和商业信息数据中的隐含规律,从而为决策提供依据。在科学计算可视化中,显示的对象涉及标量、矢量和张量等不同类别的空间数据,研究的重点放在如何真实、快速地显示三维数据场:而在信息可视化中,显示的对象主要是多维的标量数据。从上面我们可以看出,数据可视化是一个具有相当广泛含义的概念,它彳i仅包括空间数据场的可视化,还包括非空间数据的可视化。它与科学计算可视化和信息可视化既有区别又有联系。它们都是借助于可视化技术来了解数据之间的相互关系及发展趋势。这是可视化这门学科中的重要内容,值得我们深入的研究和学习。2 1 2 本文的几个具体实现技术在了解了数据可视化的概念以后,我们来介绍一下本章中所使用到的几个具体的数据可视化的实现方法。首先是寿命数据的可视化方法。产品的寿命数据是序列的时间记录,我们从中观察出产品失效率的演变规律,并显示在图像上,这样就可以直观地反映产品在运行环境下的可靠性。根据失效率理论,对寿命数据建立失效率回归模型,注意到一般的失效率遵从浴盆曲线规律,而w e i b u l l 分布由于参数的改变也形成了浴盆曲线,于是采用分段w e i b u l l 分布来拟合浴盆曲线,从而可以实现了基于失效率的寿命数据可视化。然后本论文研究了使用投影寻踪和聚类法来实现高维数据可视化。利用计算机技术,把高维数据通过某种组合,投影到低维子空间上,并通过极小化某个投影指标,寻找出能反映原来高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。用投影寻踪技术探索高维数据的结构或特征时一般采用迭代模式。对数据进行聚类的目的是使用户武汉理上大学硕士学位论文能够更准确地了解数据的结构和相互关系。我们可以利用可视化技术,使数据及其聚类结果在用户面前更加直观、清晰、可信。本章最后研究了雷达图和脸谱图这两种高维数据的表示方法。因为通常的笛卡儿坐标系最多只有三个坐标,要直观形象地表示高维数据比较困难,如果能够在乎面上设计出多个坐标,就可以克服高维数据表示的困难。本文我们就引入了雷达图和脸谱图来表示高维数据。雷达图又称蜘蛛网图,可在平面上表示维数较高的数据。脸谱图则是通过对脸谱各特征部位的形状和大小对应所选变量相对值加以直观描述,来将高维数据表示在设计的脸谱图上。2 2 基于失效率的寿命数据可视化寿命数据是生物学、医学、保险学和工程科学中经常碰到的一类数据,利用寿命数据来估计可靠性在实际中是非常有用的。在没有计算机以前,人们大多使用w e i b u l l 概率纸作图估计。虽然概率纸有着简单、快速和易于掌握等优点,但它是一种图算法,精度相对较差。使用计算机我们不仅可以便捷、高效地绘制图形,而且可以大大提高它的精度。我们发现并实现了利用分段w e i b u l l 分布拟合浴盆曲线;在普通直角坐标系下,利用密度估计技术实现了失效率的图示或可视化;给出了分段w e i b u l1分布的参数估计。2 2 1 失效率与浴盆曲线2 2 1 1 失效率的獗念我们对寿命数据建立失效率模型。将寿命数据记作t ,f :,。比如考察开个电子元器件的使用寿命,n 个机械产品的有效使用时间,行个疫苗的有效作用时间等。记r 为所考虑的变量的寿命, ,屯,r 。是7 1 的,z 个观察值。现假设r 为连续型概率分布,其密度函数为f ( t ) ,分布函数为f ( t ) 。则生存函数为胄( f ) = 1 一f o ) = p ( r f ) ,失效率为:川卜l i m 。掣= 端,川,它是指在时刻r 正在失效的产品数在当时还没有失效的产品总数中所占的百分比。武汉理j :大学硕士学位论文2 2 1 2w e i b u l l 分布的失效率在失效率模型中,w e i b u l l 分布占据重要地位。我们考虑这样一类产品寿命,其失效率属于递增失效类,即产品失效率越来越大,它可以用一个j f 指数幂函数来描述,即,o ) = 2 m r ”1 ,m 1( 2 2 )让我们来计算这种失效率对应的分布函数与密度函数。由于【r b 胁= 【a m s ”l 出= m ”( 2 - 3 )故矗o ) = 1 一,o ) = e 一“”,f ( ,) = 1 一f o ) = e 一“”,厂( f ) = a m t “e “。这一是w e i b w l l 分布的分布函数与密度函数。上述推导对于卅 1 也成立。当晰= 1 时,表示产品失效率自始至终是一常数,o ) = 兄,则r ( ,) = p ,f ( f 1 = 1 一e ,r ( f ) = a e “。这是指数分布也是w e i b u l l 分布的特例。2 2 1 3 浴盆曲线前面推导w e i b u t l 分布时,我们假定失效率要么是递增的,要么是递减的。要么是不变的。然而实际生活中许多系统的寿命数据表明,其失效率函数通常呈现浴盆形( 如图1 所示) 。也就是说系统失效率函数最初递减;在随后的一段时间中,失效率函数维持相对不变;到后期由于老化、磨损等原因失效率函数呈现递增的趋势。比如刚出生的婴儿死亡率较高,以后死亡率递减,进入青少年乃至中青年死亡率平稳,到了中老年乃至晚年,死亡率又递增起来。产品的寿命也是如此。比如机床的使用初期,由于各个部件正处于磨合阶段,故障率较高,磨合以后故障率就平稳了,使用了一定年限后故障率又会升高。这种现象在失效率的坐标系上就是一条浴盆曲线。这类失效率函数非常重要,因而研究这类系统的失效率函数对于实际应用具有特别的意义。,( f )芹图2 - 1 失效率函数曲线图武汉理_ 丁大学硕士学位论文2 2 2 分段w e ib u | | 分布拟合浴盆曲线有了以上这些理论准备,我们可以建立失效率回归模型,估计参数,从而估计出失效率函数,了解寿命数据的分布规律。在没有计算机以前,人们人多使用w e i b u l l 概率纸作图估计,将散点描在纸上,定出斜率截距就可以作出参数估计。虽然概率纸有着简单、快速和易于掌握等优点,但它是一种图算法,精度相对较差。使用计算机我们不仅可以便捷的绘制图形,而且可以大大提高它的精度。失效率函数一般是浴盆状曲线,为了正确地描述这一现象,我们提出一种分段w e i b u l l 分布:对任何一组寿命数据,我们提出一种基于失效率的图标法。首先我们利用对连续经验分布函数的数值微分获得密度估计,然后我们利用公式r ( t ) = f ( t ) ( 1 一f ( ,) ) 在普通直角坐标系上显示出失效率图,最后我们提出分段w e i b u l l 分布参数的最小二乘估计。我们先看怎样用分段w e i b u 1 分布形成浴盆曲线。在失效率图的早期失效期,失效率下降,可认为其按负指数幂函数规律变化。在稳定工作阶段,失效率可认为是一常数。在耗损失效期,失效率急剧上升,可认为按正指数幂函数规律变化。即j t “0 ,兰,?,( ,) = 厶r ? f ,:( 2 4 )i a 2 m 2 产“f ; f这里如, ,优,t o ,i = 1 , 2 都是常数,强 1 。由于,( f ) 连续,故解碍,、j 一妒- ( 去r ,zj ,因此上述浴盆失效率函数有5 个独立参数。相应可靠度函数为月( f ) = e x p f f r m i长0 ,蔓一寸 ,譬( 2 6 )砖 f武汉理工大学硕士学位论文其中= 已1 p 喁f ? ,c 2 = c o e - 砧;也矿2。因为当t o , r s f ;时,r ( ,)e x 一f 0 m l t m , - l d t _ i 九西 ,当r :0 r 时,r ( r ) = r ( ,;) e x p 一l 也m :p 一1 西再由f ( t ) = 1 一r ( t ) ,就得到分段w e i b u 1 分布密度函数:几) r m l - i e 扩c 0 凡p 一。巳五2 胧2 ,“2 1 p 一2 l ”30 f p砰 ,f :( 2 - 7 )( t当t o = 4 - 0 0 ,f 属于递减失效类,当f ? = = o ,f 属于递增失效类,都是普通的w e i b u l l 分布。当t ? = o ,f ;= 4 - 0 0 ,是普通的指数分布。般情况下,既不属于递增失效类,也不属于递减失效类。当0 f ? r ? 0( 2 8 )不难验证厂( f ) 处处连续,积分为l 。下面我们考虑分段w e i b u l1 分布的参数的图估计。老方法是利用w e i b u l1 概率纸,此时f ( t ) 是分段函数f ( t ) =l p 一 一1 - e 一砧1 一c 2 e 一如”0 ,卵f ? f ( 2 9 ),? ,令x ,= i n t ,r = i n i n _ 每,只= 百,点对( 置,r ) ,f = 1 ,2 ,h 在图上基本l 一-玎十l呈三条直线段。从而可以用普通方法大致估计出转折点砰,f ? 和各段的参数五,啊。这种方法的缺点主要是没有显示失效率的变化,无法观察到浴盆曲线;其次当点对在概率纸上呈三条直线段时,传统方法很容易看作三参数的w e i b u l1 分布,用减去一个常数的方法硬性拉成一条直线,从而使问题引向歧路。武汉理上大学硕+ 学位论文2 2 3 密度估计与失效率估计的实现我们引进一种新的图估计,考虑,( ,) = f s 7 0 两,并提出一利l 密度的求导插值估计,其基本思想如下:设从分布为f ( x ) 的母体中抽得样本毛,x :,_ ,用来构造普通经验分市函数巧0 ) 。我们现在只留下巧g ) 的节点而设法用一条连续可微的曲线g ) 通过这些节点,从而构造出所谓连续经验分布函数,容易证明eg ) 也是依概率1 均匀收敛于f g ) ,而且其导数z ( x ) = 巧( x ) 同样地收敛于f ( x ) ,为了消除随机点局部误差,可队对节点局部平滑。为了消除远处振荡,可以使用样条插值函数,如果仅仅需要节点处的导数值,可以使用现成的数值微分公式,利用o ) 关于因变量等距,非常简便地求出d = x 后取倒数就得到( x ) 在节点处的值。对原始寿命数据f 。,t 2 t 。,用五点平滑公式先作平滑:t ,= ( _ 3 t ,2 + 1 2 f h + 1 7 f ,+ 1 2 t 。+ l 一3 t ,+ 2 ) 3 5( 2 - 1 0 )i = 3 ,4 ,力一2 ,两端平滑公式另给。平滑后仍记作f ;,f 2 ,。令f = 一,i :1 ,( 2 1 1 ) + 1将f 看作自变量,它是等距的,用五点一阶导数平滑公式求出要:1 7 - - ( - 2 t ,一2 一l h + f + 2 t ”) 1 0( 2 1 2 )i = 3 ,4 ,”一2 ,两端导数公式另给。,与e 就是密度函数与分布函数估计量在f 处的数值。再令雄) = 尚( 2 - 1 3 )它在节点处的值为一2 告( 2 - 1 4 )在普通直角坐标系上描点( r 。,) 。就能观察到失效率函数究竟是属于普通w e7b u l1 分布、指数分布、还是分段w e i b u l1 分布。如果取对数再在普通直角坐标系上描点( i n t , ,l n r , ) ,浴衙的三边都呈直线武汉理工大学硕士学位论文段,由l n r ( ) =l n ( a l m l ) + ( 啊- 1 ) i n t0 t t ?i n 凡f ? r ,;( 2 1 5 )t n ( 如m 2 ) + ( 1 1 1 2 1 ) i n t,: ,就可以估计出参数 ,f ? ,i = 1 , 2 。计算实例表明,这种图估计形象、简便、可靠。2 2 。4 分段w e i b u l l 分布参数的最小二乘估计为了使分段w e i b u l l 分布参数估计精确,我们提出基于上述,( r ) 估计的最d , - 乘估计。设寿命数据已经分组为l n l ,n i + l h 2 ,慰2 + l h 。对f 立i n t ,l n o 也同样分组,按( 2 1 5 ) 式分段使用一元线性回归:“q 1 。o n _ 一q b l i n t f ) 2 斗m i n( 2 - 1 6 )t = l如q 0 ;( 1 1 1 一a o ) 2斗m i n( 2 一1 7 )= n i “q 2 = ( 1 i l 一口2 6 2 i n t , ) 2 斗m i n ( 2 - 1 8 )f = 吨+ 1估计出n 。,口,b i , i = l ,2 对不同的分点强,n 2 ,分别计算总的残差平方和:g = q 1 + q o + 珐( 2 1 9 )取q 达最小值。然后令九= e “m 。= b ,4 - 1 = 志扩妒= e x p 学)( 2 2 0 )( 2 2 1 )( 2 2 2 )( 2 2 3 )i = 1 ,2 ,就得到分段w e i b u l1 分布( 2 - 7 ) 式的参数估计。但是还有一个问题,如果浴盆边比较接近水平,由于随机数据的影响,按上面4 个式予计算的f ? 往往与r g 吃分组数不相符合,甚至出现r ? f ;,如果不按上式计算f ? ,而强行按,n :划分f ? = t n l , t := f 。:,则,o ) 不连续。因此我们对盆侧边的回归应该是一个有约束的回归,使盆侧边分别通过靛武汉理t 大学硕士学位论文底介于( 1 n ,。,a 0 ) 、0 n ,。,嘞) 的划隙和介于( i n f 叩) 、( i n t n 2 * l , 口。) 的间隙。即对( 2 - 1 6 ) 、( 2 - 1 7 ) 分别附加不等式约束:i n _ 旦学= i n ,? i n t ”l( 2 2 4 )0 1i n t 。,s ! 学= h “;_ i n t 。l( 2 2 5 )u 2约束表示的是碣,b l 平面上两条相交直线所夹的扇形凸域。将约束边界直线方程代入( 2 - 1 6 ) ,求导得解:蠢= 一艺( 只一) ( 一) 兰( _ 。一一) 2 ,a 。= 一e 。将上式的x n ,换成,但和号不换,可得s i ,纠。比较对应的q l ,取最小值对应的毛,岛为,类似地处理( 2 2 5 ) 有6 。:一窆,一如。,一t ) 艺g ,:一t ) 2 ,舀:5 :k 。,;”2 + 】,f = ”2 + 1同样地上面两式中究竟是x 。还是x 咿。有待对q 2 的比较确定。这样得到的连续分段回归直线其交点将与初始分段点啊,啦一致,然后按( 2 1 9 ) 计算q = q ( r h ,, r 2 ) ,改变m ,f 2 ,取q m ,。= q ( n a ,2 ) ,再按( 2 2 0 ) ( 2 - 2 5 )计算,就得到分段w e i b u l l 分布( 2 7 ) 的参数估计。实际计算程序应当是先按普通回归计算,然后代入( 2 - 2 4 ) 、( 2 - 2 5 ) 比较。若不符,再按边界约束回归计算。2 3 基于投影寻踪的高维数据可视化科技的进步使人们对医学、气象和流体力学等科学领域的研究越来越深入。在这些领域中的研究中常常会遇到大量的三维或高维数据,比如天气状况,我们可以用温度,湿度,风力。降雨量和辐射强度等气象指标来描述它,这样对于每一时刻的天气状况,我们就可以用一个由多个变量组成的向量数据来表示。这些由多个变量来描述现象的数据,抽象出来就是高维数据。高维数据提供了有关客观现象极其丰富、详细的信息,但数据维数的大幅提高给随后的数据处理工作带来了前所未有的困难,其主要表现为:( i ) 计算量迅速增大:( 2 ) 存在着高维空间中分布稀疏的维数祸根,非参数法也很难使用;( 3 ) 统计稳健性变差。针对这些问题理论界已经建立了一些新方法,如神经网络方法、非参数回归法、主成分分析法、偏最小二乘回归分析方法等。这些方法在分析高维武汉理工大学硕士学位论文数据时,似乎没有很好地解决上述这些困难。投影寻踪直接从审视数据出发,通过计算机分析模拟数据,进而找到数据间的规律。本文将该方法和聚类分析法引入到高维数据处理中,丌辟了一条新的处理高维数据的途径。2 3 1 投影寻踪技术2 3 1 1 综述投影寻踪( p r o j e c t i o np u r s u i t ,也可简称p p ) 是一种新兴的统计方法,是国际统计界在2 0 世纪7 0 年代中期发展起来的最有价值的商新技术。是现代统计、应用数学、计算机技术的交叉学科,属于前沿领域,与人工智能等被誉为“孵化2 l 世纪文明”的高科技。与人工智能相比,p p 更胜一筹,因为p p 不需要把高维数据人工的整理为知识,构造成数据库进行训练后再推理,而是利用计算机直接对高维数据进行投影降维处理,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构。2 3 1 2 投影寻踪的发展简史2 0 世纪7 0 年代初,k r u s k a l 将高维数据投影到低维空间,通过数值汁算得到最优投影,发现数据的聚类结构和解决化石分类问题。1 9 7 4 年,f r e i d m a n和t u k e y 加以改正( 修改) ,提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标进行聚类分析,j 下式提出了p p 概念。1 9 8 1 年,f r i e d m a n 等人相继提出了p p 回归,p p 分类和p p 密度估计,d o n o h o 则提出了用s h a n n a n 熵作投影指标的方法,并利用p p 的基本思想给出了多元位置和散布的一类仿射同变估计。d i a e o n i s ,f r i e d m a n 和j o n e s 还讨论了p p 的其他有关理论问题。h u b e r在1 9 8 5 年对上述工作和结果做了概括和总结。2 3 1 3 投影寻踪的基本思想利用计算机技术,把高维数据通过某种组合,投影到低维( 1 3 维) 子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。用p p 探索高维数据的结构或特征时一般采用迭代模式。首先根据经验或猜想给定一个初始模型;其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影,这表明在这个投影中含有现有模型中没有反映的结构;然后把一卜述投影中所包含的结构并在现有模型上,得到改进了的新模型。再从这个新模型武汉理工大学硕士学位论文出发,重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。2 3 1 4 投影寻踪技术的应用范围p p 可以渗断多因子贡献大小,各种试验设计结果的疑难诊断及通过p p 模拟试验提供试验寻优预测、工艺或配方的缺陷诊断及寻优、全面质量管理等方面。p p 在水文学和气象学中得到相当的应用;在地震学、环境科学和一些其他领域中也得到了应用。2 3 2 聚类分析2 3 2 。1 聚类的定义和基本思想聚类和通常所说的分类有所不同。当我们对某一对象集进行分类时,事先已有一个分类的标准,而聚类则不同。所谓聚类,就是把给定一对象集合分组成由类似对象组成的多个类的过程,也就是根据对象间的相似程度而归于个类别。两对象是否归于同一类,要看它们的相似度如何,当它们之间的相似度大于某一阈值时,则归于同类,否则,两对象分属不同的类。聚类法的基本思想:将要归类的n 个变量各自看为一类,然后按事先规定的计算方法计算各类之间的相似度,衡量两者之间的密切程度,将关系最密切的两类并成一类,其余的不变,就可得到n l 类;按事先规定的计算方法重新计算各类的相似关系,又将关系密切的两类并为一类,从而得到n 一2 类,如此反复,直到n 个变量都归为一类。聚类前首先要对数据进行缩减,以便挖掘出最能反映个体特征的数据,然后用适当的方法加以描述。2 3 2 2 聚类的数学描述计算类与类之间的距离常用的有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平均和法。计算相似度大小的方法有多种,而相似度的计算方式是和对象如何描述有一定的联系,对于一类数值数据的挖掘方法,目前使用较多的是基于几何距离的计算方法,如欧氏距离,明考斯基距离等。下面介绍常用的聚类分析方法基于距离度量的计算方法。设s = ( s i ,s 2 ,岛) 为某一给定的对象集合,a = ( 口i ,a 2 ,a m ) 为对象的属性集,对于任一s ,i = ( 1 ,2 ,月) ,s t 可表示为矗= ( n ,矿2 ,阮) ,其中“为属性矾的值。4武汉理工大学硕士学位论文对于任意两个对象s ,s ,s s ,5 s ,我们把s ,与,看成是m 维空i a j 的一个点,则它们之间的相似度大小可用它们之间的距离d ( i ,) 来度量。距离越大,相似度越小;反之,则相似度越大。d ( f ,) = ( i ”) 2 十( v a 一 2 ) 2 + + ( m m 一 m ) 2( 2 2 6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论