




已阅读5页,还剩57页未读, 继续免费阅读
(应用数学专业论文)橡胶中炭黑分散度的模式识别及软件设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 作为一种最重要的填料,炭黑在橡胶中分散与分布的均匀程度直接影响橡胶 制品的某些重要物理机械性能、动态性能、加工性能以及成品的使用性能,因此, 准确快速地测定出胶料中炭黑分散度,对于改进工艺、提高产品质量和性能以及 节约能源等具有重要的意义。 本文在对橡胶中炭黑分散度指标进行数据处理和特征提取之后,分别从模式 识别模型的建立、实现与模型分析三个环节讨论了炭黑分散度的数学模型。为了 提取有效的特征,分别进行了主成分分析和独立成分分析,并通过比较说明,两 种方法都可以起到有效的降维提取作用。在模式识别模型方面,分别建立了炭黑 分散度的费希尔多类判别模型与支持向量机多分类模型,模型分析结果表明,两 种模型均能以较高的识别率进行判级,而且实验证明,基于r b f 核函数的s v m 具有更高的j 下确识别率。 通过s v m 模型和增量算法相结合,使系统具有“自学习”的功能,这对于 添加样本重新建立训练模型并形成厂家标准以及增加模型的实际适应能力,具有 重要意义。 在炭黑分散仪的算法设计和实现方面,对视频采集的胶料样本进行了图像处 理,并且根据混炼胶不切样本的分散特征提出了相应的二值化处理方法。所设计 的软件系统具有较为丰富的功能,如图像读取、图像显示、图像保存、图像处理、 自动判级、统计、查询、报表输出、自学习,并且以s q ls e r v e r 2 0 0 0 作为数据库 管理系统,便于系统管理和维护。 本文的研究意义在于提出炭黑分散度识别的新方法,考察了混炼胶不切情况 下的图像处理和识别问题,引入增量学习技术改进了自学习的训练时间,丰富了 系统的操作界面和功能,满足了在线检测和信息化管理的工业要求。 关键词 炭黑分散度;特征提取;模式识别:支持向量机;增量学习 华南理工大学硕士学位论文 a b s t r a c t a st h em o s ti m p o r t a n tf i l l e r , w h e t h e rc a r b o n b l a c kd i s p e r s i n ga n dd i s t r i b u t i n g s u f f i c i e n t l yi n t or u b b e ro rn o td i r e c t l yi n f l u e n c e ss o m ei m p o r t a n tp e r f o r m a n c e ss u c h a sp h y s i c a la n d m e c h a n i c a lp e r f o r m a n c e ,d y n a m i ca n dm a c h i n i n gp e r f o r m a n c e , u s e - l i f eo fp r o d u c t s ,e t c t h e r e f o r e ,h o wt om e a s u r et h ed e g r e eo fc a r b o n b l a c k d i s p e r s i o ne x a c t l ya n dq u i c k l yi si m p o r t a n tf o ri m p r o v i n gt e c h n o l o g ya n de n h a n c i n g q u a l i t y ,e c o n o m i z i n ge n e r g ys o u r c e s t h i s p a p e r d i s c u s s e st h em a t h e m a t i c a lm o d e lo fc a r b o n b l a c kd i s p e r s i o n i n s t r u m e n tf r o mt h r e ea s p e c t s ,w h i c ha r ee s t a b l i s h m e n t ,r e a l i z a t i o na n da n a l y s i so f c a r b o n - b l a c kp a t t e r nr e c o g n i t i o na f t e rd a t ap r o c e s s i n ga n df e a t u r ee x t r a c t i o na b o u t c a r b o n b l a c kd i s p e r s i o ni n d e xi nr u b b e r i no r d e rt oe x t r a c te f f e c t i v ef e a t u r e , p r i n c i p a lc o m p o n e n t sa n a l y s i s ( p c a ) a n di n d e p e n d e n tc o m p o n e n t sa n a l y s i s ( i c a ) a r er e s p e c t i v e l yu s e dt oc o n t r a s te x p e r i m e n t a lr e s u l t i ti ss h o w e dt h a tt w ow a y sb o t h e f f e c t i v e l yr e d u c ed i m e n s i o no fd a t a i np a t t e r nr e c o g n i t i o nm o d e l ,t w om o d e l sa r e e s t a b l i s h e d ,w h i c hi sm u l t i - c l a s sf i s h e rm o d e la n dm u l t i c l a s ss v mm o d e l i ti s a n a l y z e dt h a t t w om o d e l sb o t hh a v eh i g he x a c tc l a s s i f i c a t i o nr a t e a n di ti s d e m o n s t r a t e dt h a tt h el a t t e rh a sb e t t e rc l a s s i f i c a t i o nr a t e c o m b i n i n gs v mm o d e lw i t hi n c r e m e n t a ll e a r n i n gt e c h n i q u em a k e ss e l f - s t u d y p o s s i b l e ,w h i c hi si m p o r t a n tf o rs y s t e mr e b u i l d i n gt r a i n i n gm o d e la n df i n a l l yf o r m i n g m a n u f a c t u r e rs t a n d a r d t h e r e f o r e ,t h i sw i l le n h a n c ea d a p t a b i l i t yo fm o d e l i nm o d e lr e a l i z a t i o n ,i m a g e so fc u tr u b b e rs a m p l e b yv i d e oc a p t u r i n ga r e p r o c e s s e d a c c o r d i n gt od i s p e r s i o nf e a t u r eo fr i o c u tm i xi m a g e ,an e wc o r r e s p o n d i n g w a yt ot w o v a l u e di m a g ei sp u tf o r w a r d t h es o f t w a r es y s t e mi sp r o v i d e dw i t ha m p l e f u n c t i o n s ,s u c ha si m a g er e a d i n g ,i m a g ed i s p l a y ,i m a g es a v i n g ,i m a g ep r o c e s s i n g , a u t o g r a d i n g ,r e p o r tf o r mo u t p u t ,s e l f - s t u d y ,e t c d a t a b a s em a n a g e m e n ts y s t e m s u p p o r t e db ys q l s e r v e r2 0 0 0i sc o n v e n i e n tt om a n a g ea n dm a i n t a i n t h em e a n i n go ft h i sp a p e ri st h a tn e ww a y so fc a r b o n - b l a c kd i s p e r s i o n r e c o g n i t i o na r eb r o u g h tf o r w a r da n di m a g ep r o c e s s i n go fn o - c u tm i xi sc o n s i d e r e d i n c r e m e n t a ll e a r n i n gi m p r o v e st r a i n i n gt i m e i n t e r f a c ea n df u n c t i o n sa r ee n r i c h e d , w h i c hr e a l i z e so n l i n em e a s u r ei n f o r m a t i o nm a n a g e m e n t k e y w o r d s c a r b o n b l a c kd i s p e r s i o n ;f e a t u r ee x t r a c t i o n ;p a t t e r nr e c o g n i t i o n ; s u p p o r tv e c t o rm a c h i n e ;i n c r e m e n t a ll e a r n i n g i i 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名: 讶a j 融趴日期:一种j 年g 月。日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密团。 ( 请在以上相应方框内打“4 ”) 作者签名:7 骑j 良孙 导师签名:节目易石:慈 日期:。2 砷g 年;月,争日 日期:。c f 年月f 日 第1 章绪论 1 1 论文的选题背景 第一章绪论 1 1 1 研究炭黑分散度的意义 炭黑是橡胶胶料中份量最大的填充物,而炭黑颗粒在胶料中的分散度是评价 橡胶制品质量好坏的一个重要指标。炭黑分散度是指炭黑聚集体在胶料中的分散 均匀程度,它包含两个方面:一方面是炭黑聚集体粒子的大小:另一方面,炭黑 聚集体颗粒在胶料中的分布均匀程度。由于胶料的某些重要物理机械性能、动态 性能、加工性能以及成品的重要使用性能,如强力、滞后、耐磨、门尼粘度、口 型膨胀、电阻率、裂口等均与炭黑分散度有关,而炭黑分散程度除了与胶料配方 有关外,还与混炼工艺、混炼时间等有关 2 2 , 2 5 l 。因此,随着橡胶工业的不断发展, 准确快速地测定出胶料炭黑分数度,对追求最佳分散水平、分析物性、改进工艺、 提高产品性能、节约能源等具有重要的研究意义。 1 1 2 国内外研究现状 国内外比较通用的测定橡胶中炭黑分散度的方法是a s t md 2 6 6 3 标准中的a 法和b 法。其中a 法是定性目测法,将显微镜中放大的胶料表面图像与各等级的 标准图片相对比,根据经验分析得出橡胶中炭黑分散度的等级。b 法是定量测量 法,它根据橡胶胶料切片中来分散的炭黑颗粒覆盖部分的百分比来分析得出炭黑 分散度的等级。两种方法实质上都是将橡胶胶料进行人工切片,然后通过显微镜 放大,由于未分散的炭黑颗粒在橡胶胶料表面呈现为突起或者凹陷状,因此,实 际上也就是根据这些未分教的炭黑颗粒的大小和数量,对炭黑分散度进行分析。 我国橡胶行业制订了g b 6 0 3 0 8 5 标准,即硫化橡胶中炭黑分散度的测定一 一显微照相法。国家标准将炭黑分散度分为1 0 个整数等级,5 级以上为较好。 该标准是用显微照相法对橡胶中炭黑分散度进行检测,即用专用切片机切出橡胶 胶料切片,目测经过显微镜放大后大切片表面,并与各个等级的标准图片相对比, 分析得出炭黑分散度的等级。该法目前是国内厂家普遍使用的分散度测定方法。 北京橡胶研究院研制了r c t v l m 橡胶彩色电视显微镜系统,该仪器是依据 g b 6 0 3 0 8 5 标准,结合显微照相法来判定炭黑分散度。但是,该仪器属于人工判 别,判别时间较长且判别过程容易受到主观因素的影响。 华南理工大学硕士学位论文 9 2 年后国内一些大型的橡胶轮胎厂开始使用由瑞上o p t i - g r a d e r 公司制造 的d i s p e r g r a d e r1 0 0 0 型炭黑分散度仪,该仪器采用了图象处理技术和分散度 = 别软件,实现了炭黑分散度等级自动判别。但该仪器进口价格昂贵,一台仪器 约4 0 万人民币。而且存在判级结果不稳定的因素,定级精度还有待提高。现在 已有它的升级产品出现。 到2 0 0 4 年,北京万汇一方科技发展有限公司研制出r c d i i 型橡胶炭黑分散 度测定仪,台湾一家公司也开发出u c a n 型炭黑分散度测定仪。两种产品功能 差不多,均实现了炭黑分散度等级的自动判别,但二者都处于市场试行阶段,判 级稳定性和样本自学习要求上存在不足。 华南理工大学百川i 自控有限公司一直致力于炭黑分散仪的研制工作,早在9 6 年已研制出国内首台橡胶炭黑分散度自动判别仪器一一d a l 0 型橡胶炭黑分散度 仪i2 1 1 。该仪器经过一些橡胶轮胎公司的试用,在炭黑分散度的检测中发挥了重要 作用。但产品在使用过程中存在如下不足:样本制作的效率不足,判级时问偏慢, 5 级到7 级的胶料判级的结果误差大。因此,在公司硬件和软件开发人员共同不 懈地努力下,现在已经开发出新一代产品b t - 3 型炭黑分散度检测仪。相比之下, 精度更高,判级更加可靠稳定,自学习能力较强,用户界面友好,功能强大,而 且有m i c r o s o f ts q ls e r v e r2 0 0 0 数据库管理平台,可以满足在线检测和信息化管 理的要求。 1 1 3 相关的研究工作和存在的问题 有关橡胶中炭黑分散度的研究工作在参考文献 6 ,1 5 ,1 6 ,2 6 ,2 7 】中己经提 到,其中丁跃明的论文“橡胶炭黑分散性统计模式识别及其软件设计”i l6 | 中,从 面积百分比、面积方差、颗粒形状三个方面共提取了9 个特征指标,比较全面而 准确地刻画炭黑分散度,在统计模式识别上,采用主成分分析和判别分析相结合 的方法,由主成分分析使原始9 个指标变量约简为2 个主成分,进一步建立了协 方差不等条件下的f i s h e r 判别模型和贝叶斯判别模型。但是,还有几个关键问题 有待进一步讨论和解决:( 1 ) 如何准备和选择胶料样本? 人工切割样本是否可以改 进? ( 2 ) 对不同的胶料样本如何选择合适的黑白二值化方法进行图像分割? ( 3 ) 如 何选择有效而准确的特征指标来刻画颗粒分散度并找到有效的特征提取方法? ( 4 ) 由于没有选择更好的模式识别方法进行对比,尤其是在标准样本不易获得且数量 有限条件下模型的有效性还有待讨论,并且对判别模型的自学习调整功能也没有 完成。针对这些问题,本文将在样本准备、特征提取、模式识别和自学习等方面 展开深入的工作,所做的工作也已经体现在新产品的开发中。 2 第一章绪论 1 2 本文的主要工作及结构安排 1 2 1 论文的主要内容 ( 1 ) 在特征选择与特征提取上,分别进行了主成分分析和独立成分分析。然 后建立费希尔多分类判别模型,并进行了实验结果的分析和对比。 ( 2 ) 在模式识别建模方面上,根据支持向量机理论和算法,建立了支持向量 机多分类识别模型,与费希尔判别方法相比进一步提高了判级精度。 ( 3 ) 在自学习功能上,克服了以前按照新增一个样本同时随意去掉一个旧样 本的简单做法,将增量学习算法引入支持向量机,从而有选择地淘汰一部分对分 类没有多大贡献的数据,达到有效地压缩训练样本集并降低存储空间占用的效果。 ( 4 ) 在样本准备上,考虑了混炼胶胶料不切情况下如何判级的问题。因为人 工切片往往会留下切痕条纹,不但增加了操作者的操作难度,而且影响到最终判 级的结果。 ( 5 ) 设计和实现了炭黑分散度的自动判级、查询、统计、自学习等主要功能。 1 2 2 论文的结构安排 第一章绪论:对论文的选题背景、目前存在的主要问题以及本文的主要工作 内容进行了概述。 第二章数据处理与特征提取:介绍了炭黑分散度识别模型之前所进行的数据 处理工作,包括样本准备、特征指标选择和对样本数据进行有效的特征提取,分 别采用了主成分分析和独立成分分析,减少了数据冗余信息。 第三章炭黑分散度模式识别模型的建立:分别建立了炭黑分散度的费希尔多 类判别模型与s v m 多分类模型,并进行了结果分析与对比。 第四章炭黑分散仪的软件设计:完成了炭黑分散仪软件系统的设计与实现。 详细论述了胶料图像的采集、显示和图像处理以及图像的特征提取算法,提出了 混炼胶不切样本的图像处理和判级的方法。 1 3 本章小结 本章主要简述了橡胶中炭黑分散度模式识别的选题背景包括研究现状、研究 意义以及该课题已经取得的研究成果,针对存在的主要问题提出了自己的研究方 案、研究方法和预期达到的目标。 3 华南理工大学硕士学位论文 2 1 概述 第二章数据处理与特征提取 2 1 1 数据处理的总体结构 图2 1 数据处理的总体结构 f i g u r e2 - lt h eg e n e r a ls t r u c t u r eo fd a t ap r o c e s s i n g 一般而言,数据处理应包括图像处理、特征提取、分散度识别模型等各个环 节。图像采集和显示模块主要是由硬件组成,包括图像采集设备、显示器和它们 之间的信息传输。为了提取胶料样本中炭黑颗粒的图像特征,需要经过灰度化、 滤波、黑白二值化等图像处理程序,其实现的好坏直接关系到模式识别的效果。 有关图像处理部分将在第四章中进一步讨论。 本章将主要讨论经图像处理后的样本数据,采用什么样的指标体系刻画图像 的特征? 如何进行特征提取和数据处理,才能更好地用于建立我们的识别模型和 判别分析? 4 第二章数据处理与特征提取 2 1 2 样本数据的准备 胶料样本有两个来源:一是已存储的现有图片库;二是实时采集的胶料表面 图像。用于建立模型的样本是由橡胶厂家提供的,首先对胶料切割获得切片、经 过放大镜放大后,再经过图像采集、存储以及图像处理分析后,获得黑白二值化 的图像样本。全部有效切片图像样本共有13 8 个,并请分散度质量评价专家依据 国家标准进行判级,全部样本的分散度等级分布在3 级8 级。为了建立模型和 验证模型,把全部样本分成两组,其中9 0 个样本作为训练样本,用于建立模式识 别模型;剩余4 8 个样本作为检验样本,用于验证模型的准确性。 2 2 特征指标的选择 判别分析要求选取的指标尽可能准确而全面地反映各个等级图像的特征和不 同等级图像的差异,特征指标的选取是否恰当是模式识别效果优劣的关键。人: 判别炭黑分散度等级主要考虑三个方面的因素:炭黑颗粒的大小( 在黑白化图像中 表现为白色区域的像素面积) 、较大的炭黑颗粒的数量、炭黑颗粒在胶料表面分布 的均匀程度。因为炭黑分散度较好的胶料,小颗粒炭黑比较多,很少有大颗粒炭 黑,不同位置分布的差异性比较小,则判别等级应该比较高;反之,随着炭黑分 散度等级的降低,较大颗粒炭黑的数量就有增多的趋势,或者不同位置的炭黑颗 粒分散的差异性比较大。 在丁跃明的硕士论文中比较全面地考虑了上述因素,主要考虑了不同面积大 小的炭黑颗粒的数量与分布均匀性( 采用分布方差来度量) ,又兼顾了与分散度有 关的大颗粒炭黑的形状指标,从而建立的f i s h e r 判别分析结果较为有效。因此, 本文仍沿用该文所选取的指标体系。 特征指标的选择方法如下: ( 1 ) 将炭黑颗粒按面积大小划分为六个区段,用各段的炭黑颗粒的面积总和衡量不 同面积大小的炭黑颗粒的数量,共有6 个指标:疋以。 ( 2 ) 基于分形理论的思想,定义椭圆度4 m ( r c d 2 ) 来衡量较大炭黑颗粒的形状特征, 其中d 代表炭黑颗粒的面积,村代表炭黑颗粒的直径。菸有2 个指标:石,一噩。 ( 3 ) 将图像按上下左右的位置分成面积相等的四个矩形区域,用四个区域炭黑颗粒 面积总和的方差衡量炭黑颗粒的分布均匀性,即指标五。 9 个特征指标具体定义如下: 置:区域面积大于1 0 0 个象素点颗粒面积总和占整个图片白点面积总和的百分比 指标。 5 华南理:大学硕士学位论文 x ,:区域面积小于1 0 0 大于7 5 个象素点颗粒面积总和占整个图片白点面积总和 的百分比指标。 x ,:区域面积小于7 5 大于5 0 个象素点颗粒面积总和占整个图片白点面积总和的 百分比指标。 丘:区域面积小于5 0 大于3 5 个象素点颗粒面积总和占整个图片自点面积总和的 百分比指标。 置:区域面积小于3 5 大于2 0 个象素点颗粒面积总和占整个图片白点面积总和的 百分比指标。 疋:区域面积小于2 0 大于1 0 个象素点颗粒面积总和占整个图片白点面积总和的 百分比指标。 墨:区域面积大于】o o 个象素点颗粒中小于o 8 的颗粒椭圆度之和占所有颗粒椭 圆度总和的百分比指标。 以:区域面积小于1 0 0 大于4 0 个象素点颗粒中小于o 8 的颗粒椭圆度之和占所 有颗粒椭圆度总和的百分比指标。 正:四个区域炭黑颗粒面积总和的方差指标。 实际胶料中,由于l ,2 ,9 ,1 0 等级较少出现,因此,不将它们作为重点进 行判别,在算法实现中可根据最大颗粒面积来判断。另外,在划分面积区段时, 可以把3 8 级图片先分成三组,第一组为7 、8 级,第二组为5 、6 级,第三组为 3 、4 级。划分的依据是各组内部应有很大的相似性,而各组之间又存在明显的差 异。通过分析图像样本的特征发现,7 、8 级图像中很少有大面积颗粒,颗粒面积 相对集中在0 3 5 之间,面积大于1 0 0 的颗粒很少。其中8 级图像中的颗粒面积 集中在0 2 0 之间,7 级图像中面积在2 0 一3 5 之间的颗粒较多。而5 、6 级图像 中面积在3 5 7 5 之间的颗粒数量有增加的趋势,面积大于1 0 0 的颗粒数量虽然较 少,但也有增加的趋势。3 、4 级图像中面积大于l o o 的颗粒的数量有明显的增加, 当然3 级以下的图像中面积大于1 0 0 的颗粒数量所占比例有显著不同。由以上分 析得出,区分各级样本的关键面积分界值为:2 0 ,3 5 ,5 0 ,7 5 ,1 0 0 。 需要说明的是,所有计算出的指标数据都分布在数值0 到1 之间,因此,不 必再进行其它规范化运算。 6 第1 二章数据处理与特征提取 2 3 特征提取 特征提取的基本任务是如何从许多特征中找出那些最有效的特征。可以分为 三类特征:( 1 ) 物理的特征,( 2 ) 结构的特征( 3 ) 数学的特征。这里考虑的是根据 胶料样本的特征指标数据提取数学特征。特征提取是减少特征数目的方法,它通 过映射或变换的方法把高维的特征向量变换为低维的特征向量,映射后的特征也 称为二次特征,它们是原始特征的某种线性组合。本文提出两种特征提取方法以 比较其性能,其中主成分分析是常用的特征提取方法,通过计算原始输入的协方 差的特征向量,将高维输入向量线性转换为低维不相关的向量。另一种被称作独 立成分分析的线性变换方法,它得到的是变换后的独立成分而不是不相关成分。 i c a 最初用于信号盲分离,后来就被推广到特征提取。由于两种方法的算法不同, 提取的特征也不同。 2 3 1 相关性分析 为了检验特征指标选取的有效性,我们采用s p e a r m a n 相关矩阵,因为 s p e a r m a n 相关矩阵与p e a r s o n 相关矩阵相比,虽然两者都能够刻画变量之间线性 联系的密切程度,但前者适于研究具有一般分布的多元总体,且对有异常值的观 测数据具有稳健性。对全部训练样本的9 个特征指标的数据计算s p e a r m a n 相关性 矩阵,如表2 i 所示。 表2 一ls p e a r m a n 相关系数矩阵 t a b l e2 1s p e a r m a nc o r r e l a t i o nc o e m c i e n tm a t r i x 华南理1 大学硕士学位论文 从9 个指标的相关系数大小可以看出,面积指标也,也,之问相关性比 较大,存在较多的冗余信息。下面将使用两种特征提取方法分别进行分析。 2 3 2 主成分分析 在实际问题的研究中,往往会涉及到众多有关的变量,但是,变量太多不但 会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。虽然每个 变量都提供一定的信息,但重要性有所不同,而且在很多情况下,这些变量之间 有一定的相关性,使得它们所提供的信息在一定程度上有所重叠,因而人们希望 找到较少的几个互不相关的综合指标尽可能多地反映原来众多变量的信息。主成 分分析就是解决此类问题的有效方法之一。它的基本作用是( 1 ) 将高维数据化简为 低维数据,( 2 ) 解释变量之间的关系。 所谓主成分是指原来变量的线性组合,它们互不相关,且方差达到最大。若p 个变量的大部分变差能够由它们的k 个( 比p 小得多1 主成分来概括,那么包含在k 个主成分中的信息与原来的p 个变量信息几乎一样多,这样,p 个变量的h 次观 测组成的数据就被简化为k 个主成分的一次观测数据。通过观察主成分的线性组 合系数的大小和协方差阵的特征值,可以得到主成分与原来变量之问的关系。 由全部训练样本数据计算协方差矩阵如下: 5 4 0 7 e - 0 23 9 1 3 e - 0 31 9 4 8 e - 0 4 3 9 1 3 e 0 31 j 4 5 e - 0 31 9 8 8 e - 0 4 l9 4 8 e 讲1 9 8 8 e - 0 43 0 9 0 e - 0 3 1 4 4 5 e - 0 3 4 7 1 7 e - 0 49 5 7 1 e 0 4 - 2 0 0 5 e - 0 41 1 8 l e - 0 41 8 6 0 e - 0 3 5 9 1 5 e - 0 4 5 0 7 7 e - 0 5t 6 1 i e 0 3 3 1 6 4 e _ 0 23 0 6 3 e - 0 3 2 9 1 8 e 0 3 1 6 5 4 e - 0 2i 5 4 8 e 0 3 - 2 0 4 l e - 0 3 1 4 4 5 e - 0 3- 2 0 0 5 e - 0 4 - 5 9 1 5 e - 0 43 1 “e 0 2 4 7 1 7 e 0 41 1 8 l e - 0 45 0 7 7 e - 0 53 0 6 3 e 叩 9 5 7 i e 0 41 8 6 0 e 0 31 6 ll e 0 3- 2 9 1 8 e _ 0 3 1 2 3 8 e 0 31 5 8 5 e - 0 31 0 7 9 e - 0 3- 2 3 1 4 e 埘 1 5 8 5 e - 0 337 7 7 e - 0 32 7 5 1 e - 0 3- 3 4 7 3 e - 0 3 1 0 7 9 e - 0 32 7 5 l e - 0 32 ,9 5 3 e - 0 3- 2 ,8 3 3 e - 0 3 2 3 1 4 e 0 4 - 3 4 7 3 e 揶3 2 8 3 3 e - 0 35 5 2 9 e - 0 2 7 7 6 3 e - 0 4 - 2 9 5 6 e - 0 3 2 4 7 3 e - 0 31 8 0 2 e - 0 2 1 6 5 4 e 0 2 1 5 4 8 e - 0 3 - 2 0 4 l e 0 3 - 7 7 6 3 e - 0 4 2 9 5 6 e - 0 3 2 4 7 3 e 0 3 1 8 0 2 e 0 2 1 6 4 3 e - 0 2 2 8 0 3 e - 0 3 一1 8 6 9 e - 0 4 - 1 5 6 2 e - 0 3- 89 3 8 e - 0 4 - 1 3 0 2 e - 0 3 - i 1 4 9 e - 0 31 5 8 6 e - 0 46 2 8 3 e - 0 4 ,2 8 0 3 e 0 3 1 8 6 9 e 0 4 - 1 5 6 2 e 埘 - 8 - 9 3 3 e 0 4 i 3 0 2 e 0 3 - 1 1 4 9 e - 0 3 l5 8 6 e - 0 4 6 2 8 3 e 0 4 1 0 3 7 e - 0 2 由九个指标的协方差矩阵进行主成分分析,结果如表2 2 所示。 表2 2 前4 个主成分及其贡献率 t a b l e2 - 2f i r s t4p r i n c i p a lc o m p o n e n t sa n dt h e i rc o n t r i b u t i v ep r o p o r t i o n 协方差矩阵的前两个特征值及特征向量为: 互= 0 0 9 4 6 5 5 3 1 , 8 第二蕈数据处理与特征提取 巨= f o 6 6 15 7 7 ,0 0 5 4 9 7 2 ,一o 0 2 7 9 6 4 ,0 0 0 5 1 3 7 ,一o 0 3 8 5 2 9 , - o 0 3 4 8 5 7 ,o 6 8 1 7 7 4 ,0 3 0 l1 2 9 ,- o o l7 0 6 5 ) 。; 名= o 0 2 4 5 9 8 4 1 , ;,= f 0 7 0 2 7 1 8 ,0 0 3 3 9 5 7 ,0 1 4 15 5 8 ,0 0 8 3 2 3 9 ,0 1 5 8 8 7 7 ,0 1 1 9 2 5 2 , o 6 2 4 7 7 8 ,一o 1 0 0 7 3 1 ,一0 1 9 5 2 1 6 ) 7 第一主成分为 y l = e r x = 0 6 6 1 5 7 7 x + o 0 5 4 9 7 2 x 2 0 0 2 7 9 6 4 x 3 + 0 0 0 5 1 3 7 x 4 一o 0 3 8 5 2 9 x 5 一 o 0 3 4 8 5 7 x 6 + o 6 8 1 7 7 4 x 7 + 0 3 0 11 2 9 x s o 0 1 7 0 6 5 x 9 第二主成分为 y 2 = 岛7 x = o 7 0 2 7 1 8 x i + o 0 3 3 9 5 7 x 2 + 0 1 4 1 5 5 8 x 3 + 0 0 8 3 2 3 9 x 4 + o 1 5 8 8 7 7 x 5 + 0 11 9 2 5 2 x 6 0 6 2 4 7 7 8 x 7 - 0 1 0 0 7 3 1 x 1 0 1 9 5 2 1 6 x 9 实际应用中,通常选取前七( 七 五 五 o 为w 1 b 的s m i n ( g 一1 ,) 个非零特征值,毒,e 2 ,蟊为对 应的特征向量,且长度满足e s e = l ,则 y k = q x = 色x ( 4 - 1 0 ) 为第k 个样本判别函数,k 5 。 对总体巧,y = ( k ,k ,【) 有均值向量h ,和协方差矩阵,所以y = y 到的 平方距离为 ( y - z ,r ) ( y h y ) = ( y j 一托) 2 ( 4 一1 1 ) j ;1 费希尔分类法则为:若y 到段,的平方距离小于y 到其它雎,( i ) 的平方距 离,则将y 判到以。 3 1 2 费希尔判别模型的建立 1 基于主成分分析的费希尔判别模型 首先对两个主成分作均值相等性检验,如表3 1 所示: 表3 1 主成分的均值相等性检验 t a b l e3 - lt e s t so fe q u a l i t yo fm e a n s 结果表明,在显著性水平0 0 5 下p 值均为0 ,拒绝均值相等的原假设。因此,两 主成分的均值差异是显著的。 由9 0 个训练样本经主成分提取后,所建立的六个分散度等级的费希尔线性判 别函数系数如表3 2 所示。 第i 类判别函数为: f = e f ( 1 ,i ) + b f ( 2 ,f ) + c o n s t a n ,( i ) ,i = 3 ,4 ,5 ,6 ,7 ,8( 4 1 2 ) f ( 1 ,i ) 和f ( 2 ,i ) 分别为表中对应墨行和昱行的判别系数,i 将各等级对应到表中相 华南理工大学硕士学位论文 应的列。c o n s t a n t ( i ) 是第i 个判别函数的常数项值。 表3 - 2 费希尔线性判别函数 t a b l e3 - 2f i s h e r sl i n e a rd i s c r i m i n a n tf u n c t i o n s c l a s s 345 678 p 1l5 9 4 9 08 9 0 8 86 9 3 6 55 3 8 5 44 0 7 9 41 2 9 0 0 p 21 3 1 18 26 4 3 6 4 4 8 1 8 6 3 3 7 4 61 5 3 4 89 1 4 8 ( c o n s t a n t ) 9 0 2 5 6 - 2 9 5 7 1 一1 8 7 9 0 1 2 4 ll一9 6 6 2- 2 3 7 7 2 基于独立成分分析的费希尔判别模型 对两个独立成分作均值相等性检验,如表3 3 所示 表3 3 独立成分的均值相等性检验 t a b l e3 - 3t e s t so fm e a n se q u a l i t y 结果表明,在显著性水平0 0 5 下p 值都为0 ,拒绝均值相等的原假设。因此,两 独立成分的均值差异是显著的。 由9 0 个训练样本经独立成分提取后,所建立的六个分散度等级的费希尔线性 判别函数系数如表3 - 4 所示。 表3 - 4 费希尔线性判别醋数 t a b l e3 - 4f i s h e r sl i n e a rd i s c r i m i n a n tf u n c t i o n s c l a s s 345678 s 149 7 34 0 0 433 8 331 3 03 7 7 60 6 0 3 s 2 5 26 7 52 87 6 82 22 5 71 7 0 1 01 2 1 3 44 1 5 3 ( c o n s t a n t ) 9 0 2 5 62 9 5 7 11 8 7 9 0 - 1 24 1 1 96 6 223 7 7 第i 类的判别函数为: e = s 1 f ( 1 ,i ) + s 2 f ( 2 ,i ) + c o n s t a n t ( i ) , i = 3 , 4 ,5 ,6 ,7 ,8( 4 - 1 3 ) f ( 1 ,f ) 和f ( 2 ,f ) 分别为表中对应置行和是行的判别系数,i 将各等级对应到表中相应 的列。 3 1 3 判别模型的检验 下面给出样本分类的判别法则: 1 8 第三章炭黑分散度模式识别模型的建立 首先,计算该样本在各等级的判别得分 m = f ( 1 ,f ) 4 - 而f ( 1 ,i ) + c o n s t a n t ( o ( 4 _ 1 4 ) 其中x ,x ,分别代表两个成分变量。然后,按照判别得分值最大确定,即 c l a s s = m a x y ,i - 3 ,4 ,5 ,6 ,7 ,8 ) ,则样本为第i 等级。度量判别法则优劣的分类正 确率与表观失误率( 简记a p e r ,见附录1 ) 有关,即分类正确率= l a p e r 。 1 基于主成分特征提取的判别结果分析 表3 5 基于主成分的判别结果 t a b l e3 - 5c l a s s i f i c a t i o nr e s u l t sb a s e do l lp r i n c i p a lc o m p o n e n t s 预测级别 错判率 345678 31 5o00000 坂4 01 221002 0 始502 1 120o2 6 6 缓 60001 41067 别7 00o21 3013 3 80o00 11 467 分类正确率 8 78 图3 1f i s h e r 分类效果图 f i g u r e3 - 1f i s h e r sd i s c r i m i n a t i o np l o t 1 9 华南理工人学硕士学位论文 2 基r 独立成分特征提取的判别结果分析 表3 6 基于独立成分的判别结果 t a b l e3 6c l a s s i f i c a t i o nr e s u l t sb a s e do ni c 预测级别 错判率 3 4 5678 31 5000000 原4 0 1 22 1 o02 0 始 5021 21002 0 级 60001 4106 7 别 700 0 21 3o 1 33 80o0o11 467 由表3 6 可知,基于独立成分提取的分类结果最终的分类正确率为8 8 9 , 比主成分提取方法的分类结果8 7 8 稍微高一点。 图3 2f i s h e r 分类效果图 f i g u r e3 - 2f i s h e r sd i s c r i m i n a t i o np l o t 由此可见,两种特征提取方法对炭黑分散度的费希尔判别分析结果没有什么 显著的影响,这是由于独立成分分析中最初也采用了主成分方法进行白化处理, 而且两种方法所得成分变量都比较接近于正态分布,对正态分布而言,变量之自j 不相关与统计独立是等价的。 第二章炭黑分散度模式识别模型的建立 3 2 支持向量机多分类模型 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是在统计学习理论基础上提出的 一种机器学习算法1 3 2 , 3 3 】。它根据有限的样本信息在模型的复杂性和学习能力之问 寻求最佳折中,以期获得最好的泛化能力。支持向量机在形式上类似r 多层前向 神经网络,已成功地用于模式识别和非线性回归问题。对于分类问题,单层前向 网络可解决线性分类问题,多层前向网络可解决非线性分类问题,但这些神经网 络仅仅能够解决问题,并不能保证得到的分类器是最优的;而基于统计学习理论 的支持向量机能够从理论上实现对不同类别问的最优分类,具有最好的泛化性能。 本文将先介绍统计学习理论中有关结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n , s r m ) 原则和v c 维的基础知识,然后阐述s v m 的基本原理,并将它用于建立炭 黑分散度的多分类识别模型。 3 2 1 统计学习理论 神经网络技术已经成功地应用到很多领域,但是它是依赖于经验的启发式技 术,神经网络的结构设计、算法及参数选择都缺乏一个统一理论依据的严格设计 程序,也没有一种理论定量说明神经网络的训练过程是否收敛以及收敛速度取决 于什么条件,因而无法控制是否收敛以及收敛速度。为了在学习中解决以上问题, v a p n i k 等人在2 0 世纪7 0 年代末提出并在9 0 年代末逐步完善的一种针对小样本 的机器学习理论,它的核心是结构风险最小化原则,实现最小化风险泛函从而获 得最佳的推广能力。 ( 1 ) v c 维 为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列有 关函数集学习性能的指标,其中最重要的是v c 维。模式识别方法中v c 维的直观 定义是:对一个指示函数集,如果存在h 个样本能够被函数集中的函数按所有可 能的2 “种形式分开,则称函数集能够把h 个样本打教;函数集的v c 维就是它能 打散的最大样本数目h 。若对任意数日的样本都有函数能将它们打散,则函数集 的v c 维是无穷大。有界实函数的v c 维可以通过用一定的阈值将它转化成指示函 数来定义。 v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) 。 但是,目前尚没有通用的关于任意函数集v c 维计算的理论,只对一些特殊的函 数集知道它们的v c 维,比如在r t 维实数空问中线性分类器和线性实函数的v c 维是n + l 。对于一些比较复杂的学习机器( 如神经
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园小班健康课件
- 幼儿园家长课程课件
- 机构设置与档案管理制度
- XX学校平安夜活动方案策划稿
- 监理工程师水利课件下载
- 监狱结核病防治培训课件
- 基于无人机的地面站设计及典型目标检测方法研究
- 陪护人员沟通的安全护理措施
- 中心静脉导管维护的安全流程
- 工程财务教学课件
- 《如何治理小金库》课件
- 小学奥数:计算《分数的巧算》练习题
- 人教版八年级上册物理期末试卷(含答案)
- 组建风险管理咨询公司方案
- 汽车项目管理工作总结
- 丹毒课件护理查房
- 普通混凝土用碎石、卵石检测报告
- 现西第三册课文讲解及答案
- 2023年上海市教师招聘考试《教育心理学》考前模拟题及答案
- ZAPI交流故障表 萨牌代码
- 天津某市政道路排水工程基坑钢板桩支护施工方案
评论
0/150
提交评论