Kohonen网络在烟叶动态分类中的应用.doc_第1页
Kohonen网络在烟叶动态分类中的应用.doc_第2页
Kohonen网络在烟叶动态分类中的应用.doc_第3页
Kohonen网络在烟叶动态分类中的应用.doc_第4页
Kohonen网络在烟叶动态分类中的应用.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Kohonen网络在烟叶动态分类中的应用Kohonen网络在烟叶动态分类中的应用 第34卷第1期 2004年1月 中国海洋大学 JOURNALOFOCEANUNIVERSITYOFCHINA 34(1):121,127 Jan.,2004 Kohonen网络在烟叶动态分类中的应用 贺英,冯天瑾,曹均阔 (中国海洋大学1.电子工程系;2.计算机系,山东青岛266071) 摘要:针对输入为高维化学指标数据的烟叶分类问题,提出1种改进的Kohonen自组织特征映射 神经网络的聚类方法.在数据预处理时,加入了领域专家经验,对输入特征向量中的各个分量分配不 同的分类参与度;用Gauss邻域函数替代了标准Kohonen网络的方形邻域;在2个学习阶段学习率和 邻域宽度采用了不同的递减函数.通过应用证明了改进后的Kohonen网络的收敛效果和聚类精度比 Kmeans聚类方法和标准的Kohonen网络都有较大的提高. 关键词:烟叶分类;Kmeans聚类算法;Kohonen网络;分类参与度;SOFM算法的改进 中图法分类号:TP183文献标识码:A文章编号:16721574(2004)0112107 卷烟产品的基础是叶组.叶组配方是将多种不同香型风格,产地,等级的烟叶进行合理的 组合,使之达到期望的质量要求(包括感官质量和烟气指标)1.在卷烟生产中,常常由于生产 中库存短缺或市场成本等客观原因,需要替换配方中的几种烟叶,同时要维护卷烟的感官质量 和烟气指标的稳定.这就是配方维护的主要任务.烟草行业中,过去是根据经验按照产地,年 份等宏观特征来选取替换烟叶.显然这种方法不够科学.现在主要是根据化学成分,感官质量 相似的烟叶来选取替代烟叶.因此烟叶分类问题是叶组配方维护的关键. 传统的聚类方法有基于距离的Kmeans,最小生成树聚类分析等的系统聚类法;最优分割 法;图论聚类法等经典算法.经典分类学往往是从单因素或有限的几个因素出发,凭经验和专 业知识对事物分类.人工神经网络(ANN:ArtificialNeuralNetwork)是20世纪80年代中期 兴起的一门非线性学科,它模拟人脑功能特性,对外界事物获取知识有自适应性,自组织性,容 错性.因此广泛地应用于模式识别,数据处理,自动化控制,智能控制与决策,经济预测等方面. 继BP网络模型之后,1981年,芬兰学者Kohonen提出了着名的自组织特征映射(SOFM:Self OrganizingFeatureMap)神经网络,也称为Kohonen网络2.它具有很强的统计能力和自 联想功能,可用于特征提取,模式识别,数据分析. 1Kmeans聚类算法 该算法主要原理是对类及其成员之间的总体平方差进行最小化引.设样本总数为P,样本 P为X一x.z,.z.具体算法步骤如下: 1)从样本集中任意选取一组类中心y,Yz,Y;其中y=.,t. 2)根据Euclidean距离最小原则,只要其满足(1)式则将样本属于类y. + 基金项目:国家高科技研究发展计划(863511910141)资助 收稿日期:20030109;修订日期:20030502 作者简介:贺(1973),女,硕士.Email:heywang73163.corn 中国海洋大学 lJXylJ<lJxlJ,?;(1) 3)计算新的总体误差函数值J一(fIxfI.)(2) 4)如果误差值有明显变化,返回步骤(2),否则停止运算. 在烟叶分类问题中,采集了清香型风格的5O种烟叶的数据(如表1).烟叶的化学成分有8 个指标:x总糖();X.:总烟碱(%);x.:还原糖(%);x:总氮(%);xs:蛋白质(%),X6:氯 ();X:施木克值(%);X.:糖碱比(%).由于它们的数量级都不同,直接利用原始数据进行 计算,就可能突出某些数量级特别大的指标对分类的作用,而降低甚至排斥数量级较小的特性 的作用.所以,必须对其原始数据进行预处理,使每一指标值统一于某种共同的数据特性范围. 将数据归一化方法有多种,实验证明采用标准化方法更好: 一厂?一 平均值一1;均方差一?(xpj-)., 归一后输入值 输入模式转换为 ,一;一1,2,N;N-8pj-力J一; Xb一Xt,z?,X!P8, 表1实验采集的5O种烟叶样本的化学成分数据 Table1Chemicalcompositionofthetobaccosamples (3) 实验1类别中心点y只取样本5,18,27,36(40或43),初始类个数k分别等于4,5,6.通 过Kmeans均值聚类后,得到分类结果如表2.Class1表示第1类,其它表示相同. 表2实验1的分类结果 Table2Clusteringresultsofexperiment1 1期贺英,等:Kohonen网络在烟叶动态分类中的应用 实验2当k一5时,取不同类别中心点,分类结果如表3. 表3实验2的分类结果 Table3Clusteringresultsofexperiment2 5,18,27,36,43 10,21,29,34,46 17,475O 113.4750 14-242531,44463236,41-43813,3740 14272531,414432363740 实验结果发现,类别数k和类中心点选取不同会导致结果不同.这些算法聚类结果清晰但总 分类的好坏依赖于最初k值的确定和类中心点的选择,不能很好地把握样本特征间的拓扑结构. 2Kohonen网络基本原理与标准SOFM算法 通过大量的生理学实验研究发现,人的大脑皮层对 外界信息的感知和处理是分区的.生物大脑的神经网络 可视为由大量神经元组成的2维层,既可以接受输入信 号,各神经元间又有侧向反馈连接.Kohonen自组织网 络模拟了这些特性,由输入层和竞争层组成,输入层的 ?个神经元,同二维平面阵列的竞争层:mm个神 经元间实现全互连接4刮.网络如图1. Kohonen网络主要性能为:1)自组织排序性,即拓Fig.1 扑保持能力;2)自组织概率分布特性;3)对输入数 图1Kohonen网络结构 StructureoftheKohonennetwork 据有聚类作用,将高维数据映射到低维空间,用输出节点的权向量代表原输入,具有数据压缩 和特征提取的作用;4)以若干神经元同时反映分类结果,具有容错性;5)具有自联想功能. 自组织特征映射(sOFM)算法是1种无监督学习的聚类方法:在学习过程中,只需向网络 提供一些具有集群状分布的学习样本,而无需提供期望的输出.竞争层上将输入的样本通过 Euclidean距离函数进行相似性判断: 厂一 dl一/2(p,-wij),一1,2.N;i一1.,M(4)VJ=1 i为竞争层神经元,?厂,为神经元与输入X的第.个分量间的连接权值. 距离最小值对应的神经元获胜,然后修改自身及邻域内其它神经元的权值.最终各神经元 的连接权值经自适应调整后具有一定的分布,并把数据之间的相似性组织到代表各类的神经 元上,同类中的神经元具有相近的权值,不同的类的神经元之间权值差别明显. 因此它不同于传统的聚类方法,不用进行复杂的线性正交变换,而且与其它竞争学习神经 网络相比,SOFM算法对输出单元施加了1个邻域约束,可把任意维的输入信号变换到一维或 二维的离散网格上,并保持一定的拓扑有序性,提高了可视化分析能力,更适合解决高维数据 聚类问题. 标准SOFM算法步骤810为: ?初始化权值W,(0),学习率,邻域半径N(0),确定学习次数;. ?对所有输入模式执行步骤?,?; 中国海洋大学 ?按(4)式计算连接权向量与输入模式之间距离,选择最小距离对应的神经元为获胜神经元; ?按(5)式更新获胜神经元及其邻域内所有神经元的连接权,而邻域外的神经元权值不变: Wu(f+1)=,(f)+(f)(z,v(f),i一1,M(5) ?tf+1,按(6)式线递减邻域?(f)和学习率11(f). (f)=.(1-t/7)N(f)一INTN(0)(1-t/T);INT为取整函数(6) ?返回执行步骤?,直至7为止. 标准算法对数据聚类的收敛时间慢,而且聚类效果也不理想.原因是学习率调整只采用线 性递减,导致聚类的收敛时间慢;而且对邻域也只采用正方形或圆形域,造成权值调整时,邻域 内所有神经元都同样激活,最终聚类效果也不理想.因此应改进学习率,邻域等方面来提高网 络的性能. 3SOFM算法的改进 改进点1在实际分类问题中,输入的诸多特征量对分类划分和重要性不同.如烟叶的化学成 分中总糖,总烟碱等对烟叶类别的划分起主要作用,而总氮,氯作用小.如果不考虑这些因素, 由聚类算法学习后,分类往往准确率不高. 定义1分类参与度是指按输入的各分量在分类划分时的重要性的大小,对输入向量各分量分 配不同的权重值. 改进点2SOFM算法中学习率和邻域采取何种递减方式,对学习的收敛速度和聚类精度都 很关键.标准算法中通过多次实验我们发现:学习率和邻域范围以线性递减时,虽然聚类结果 较好,但学习收敛慢;而以指数形式如递减时,聚类结果不理想甚至导致不收敛;幂函数递减, 聚类结果最好,收敛也快.本文采用下式 (f+1)一仉(口1/),a1为常数,一般为0.05(7) 改进点3根据神经生物学观点,侧反馈的强度应与邻域内神经元同获胜神经元c的距离有 关.典型的gauss函数最适合作为邻域函数: ?(f)=exp(,IP一Pl)/2(f)(8) (f)为邻域的有效宽度,采用幂函数递减 (f+1)一(口2/o0)tiT,a1为常数,一般为0.5(9) 其中IP一PI为竞争层神经元间的距离,在二维网络中 J._._.?._.?. lP一户lx/(一c)+(一c)(10) ,i;c,c分别表示神经元间在阵列上的坐标. 改进点4网络的学习分为粗调整和精细调整2个阶段.粗调整阶段是大致确定输入模式在竞 争层的映射位置,因此学习率应递减较快,可采用幂函数形式,邻域从较大值递减为较小值.在 精细调整阶段,网络学习集中对较小范围内的神经元的连接权值进行调整.其学习率递减缓 慢,可采用线性函数形式,邻域值从1-2缓慢减小为0,即只包含获胜神经元. 网络中竞争层神经元的个数根据MelssenS建议的2M.<P确定.为竞争层神经 元数目,为期望的隐含于输入数据中的分类数,P为样本的个数.在烟叶分类问题中,设期 望分类数Me一8,P一50,可采用1010结构.另外,分类结果类别个数是由邻域范围a.控制, a.大于网络竞争层神经元的直径个数时,网络分类粗,忽略样本中细节上的区别;若a.过小,则 1期贺英,等:Kohonen网络在烟叶动态分类中的应用 分类过细.根据经验我们取a.一3m/2. 具体步骤为: ?权值初始化:给各权向量W(0)赋0.4,0.6内的随机数.定义总学习次数丁一丁十丁z. ?粗调整阶段T一100,一0.3,O03m/2.随机选输入模式P按(4)式计算所有神经元的 Euclidean距离,求得raind对应的神经元C为获胜神经元. ?按(8)式和(10)式计算邻域函数值,权值的调整为 W(,+1)一W,(,)+(,)?(,)(z,一训,(,)(11) ?学习率和邻域的宽度按(7)和(9)式递减. ?返回步骤?,直至所有学习样本全部提供1遍. ?tt+1;直至,>T】. ?精细调整T一500阶段,一0.03,d(0)一1,重复上面的?,?,只是邻域宽度和学习率按 下式递减:.rl(,)一(1一,/丁2),a(t+1)一(1一,/丁2). ?tt+1;当,>丁2算法结束. 对50种烟叶化学数据聚类后结果见图2.图2中灰亮处表 示获胜神经元(即中心).依次对应坐标为:9 1-(1,1)2一(5,3)3-(5,4)4-(6,4)8 , 5一(6,5)6一(9,7)7一(10,7)8一(10,8) 9一(2,9)10一(1,10); 网络训练完后,最终聚类在多个获胜神经元构成的二维结构图2 上,可判断映射到神经元排列空间上邻近的则输入空间上必为 特征相似的点.我们可采用计数图和距离图法对该结构图进行 物理意义上的解释以寻求有用的信息.计数图,主要用于分析 神经元的空间拓扑.统计每个神经元被击中的次数,然后描绘 为二维或三维图形,这样波峰的地方即我们所寻求的类.距离 图法是分析获胜神经元和k之间权值距离,计算类之间的差 O12345678910 图2网络竞争层聚类结果 Fig.2Clusteringresults onthecompetitionlayerof theKohonennetwork 厂一 别明显程度;L一?t).若L<.?1,则判定为同类.再采用距离图法计算每个 获胜神经元间的权值距离L(表4). 表4竞争层获胜神经元间的类间距 Table4TheEuclideandistancesbetweentheactiveneuronsonthecompetitionlayer 中国海洋大学 经过计算判断样本中5O种烟叶可分为4类.各类所包括的样本如表5. 表5改进Kohonen网络的分类结果 Table5ClusteringresultsfromtheimprovedKohonennetwork 在确定了类之后,对各自类所对应的权重和量进行反归一化,即可获得该类所代表的具体 的变量取值范围.如代表第k类的获胜神经元为c,其对应样本空间的值为X一(,?), 其中一+训.表示此类第J个输入分量的平均值.由此可计算出上述4类所对应的样本 值. Kohonen网络将聚类知识存储在权值中,不仅具有分类能力,同时还有很强的自联想功 能,可对新样本y=(.y一,YJ),一1,?进行预测其所属类别.对新样本预测的步骤为: ?对预测样本输入数据归一化. 一 .y一),一1,2,?.VJ:1 ?求距离相似性函数一/(?求最小值dmm,对应的类k即为样本y所属的类. 采用1O个检验数据,经上述3种算法比较,预测样本的分类准确率结果如表6. 表63种算法的分类准确率比较 Table6Comparisonofclassificationaccuracyofthreealgorithms 说明应用改进算法,加快了学习收敛的时间,而且分类准确率也有较大提高,可以对复杂 的烟叶按化学指标分类.这对于我们后面用于叶组配方维护有着重要意义. 4结语 本文提出了根据领域专家经验确定输入特征各分量的分类参与度的方法,并在烟叶分类 应用中证明能提高分类准确率.在聚类分析领域中,这种方法是解决实际聚类问题1种新的思 路.经过实验分析,对SOFM算法中的学习率和邻域函数分别采用幂函数,Gauss函数等形式 进行改进,使Kohonen网络的收敛速度和分类精度都有较大提高,并大大改善了分类的直观 性,比传统的Kmeans聚类性能更优.因此是1种对高维数据进行聚类分析的好方法,可用在 贺英,等:Kohonen网络在烟叶动态分类中的应用127 其它聚类问题上应用.通过上述方法得到的烟叶分类结果,为后期研究的计算机叶组配方维护 系统中的烟叶替换提供了科学依据.但算法中网络结构和一些学习参数靠经验确定,今后还要 在这些方面以及如何更好地结合多维可视化方法分析聚类结果,提高分类准确率方面做深入 的研究. 参考文献: 13毛多斌,马宇平,梅业安.卷烟配方和香精香料M. 23KohonenT.Selforganizedformationoftopologically 43:5969. 3 43 53 63 73 8 9 10 北京:化学工业出版社,2001.1320. correctfeaturemapsJ.BiologicalCybernetics,1982, 张智星,孙春在,水谷英二.神经一模糊和软计算M.西安:西安交通大学出版社,2000.218219. KohonenT.EngineeringapplicationsofSOMJ.IEEETransactionsonNeuralNetwork,1996,84:1358 1383. KohonenT.SelfOrganizationandAssociativeMemory(3rdedition)M.Newwork:SpringerVerlag,1988. 傅中谦,王跃铃,曹均阔,等.基于Kohonen和Bp神经网络的文本学习算法J.计算机工程与应用,2001,1: 7778. 章文军,许禄.自组织特征映射网络用于茶叶分类J.计算机与应用化学,2000,17(1):8587. 冯天瑾.神经网络技术M.青岛:青岛海洋大学出版社,1994.110123. 王伟.人工神经网络原理M.北京:北京航空航天大学出版社,1995.158165. SimonHaykin.NeuralNetworks:AComprehensiveFoundation,PrenticeHall,Inc.SecondEditionM. Beijing:PhotocopyPublishedbyTsinghuaUniversityPressinChinawithaNewPreface,2001.449466. ApplicationoftheKohonenNeuralNetworktoTobaccoCIassificatiOn HEYing,FENGTianjin,CAOJunkuo (OceanUniversityofCh

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论