




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文以形态统计学( m o r p h o m e t r i c s ) 中的地标( l a n d m a r k ) 技术为基础,在现有的昆虫标 本以及试验条件下,探索了一种借助显微拍照与m a t l a b 程序半自动测量相结合的昆虫翅面特征 提取方法,这一方法在一定程度上实现了昆虫特征提取的智能化和数字化。同时将模式识别以 及多元统计分析中的一些分类方法成功的应用于昆虫分类领域。在应用传统方法的同时将可拓 学思想与传统方法相结合,改进了已有的可拓聚类算法,以及基于最小化正乘子的线性规划支 持向量机方法。 本文的主要研究_ 作如下: 1 对目前的昆虫分类研究方法,特别是数值分类方法做了简单综述,同时对形态统计学、 聚类分析以及机器学习等文内涉及的数学方法做了简要的综述。 2 实现了瘤蝽翅脉节点l a n d m a r k ( 地标) 数据的半自动获取,实践了基于计算机的昆虫 翅面特征分析,完成了一次从人工主观分析到机器半自动化的尝试。 3 改进并实现了可拓聚类算法,并将其应用到本文的分类问题,取得了比较理想的效果。 4 基于最小化正乘子策略,在已有的线性规划支持向量机基础上,引入了由可拓关联函 数构成的可拓因子,实现了可拓支持向量机。该方法在一定程度上提高了支持向最机 的泛化能力,将其应用到本文数据取得了比较好的分类预测效果。在与同样有监督学 习算法的线性f i s h e r 判别法进行比较中发现,其结果优于f i s h e r 判别。 本文比较成功地将多元统计分析和机器学习理论应用到半翅目昆虫的分类领域,此项二f :作 目前尚未见有报道。 关键词:形态统计学,模式识别,中国螳瘸蝽,l a n d m a r k ,可拓学 a b s t r a c t i nt l i i sp a p e rw ef o u n dai f l s c c tw i n gs u r f a c ef e a t u me x t r a c t i o nm e t h o dw h i c h si nv i r t u eo f p r o g r a m m i n gi nm a t l a ba n dm i c r o g r a p h y o u rr e s e a r c hi sb a s e do nt h el a n d m a r kt e c h n i q u eo ft h e m o r p h o m e t r i c sa n du n d e rt h ee x p e r i m e n tc o n d i t i o na n dt h ei n s e c ts a m p l e sw eh a d t h i sm e t h o d m a k e st h ef e a t o r ee x t r a c t i o no fi n s e c t st ob es e m i - a u t o m a t i c ,i n t e l l i g a n t i z e da n dd i g i t a l a tt h es a m e t i m ew eu s et h ec l a s s i f i c a t i o na l g o r i t h m sw h i c hw e r ed e r i v e df r o mp a t t e r nr e c o g n i t i o na n d m a l t i v a r i a t es t a t i s t i c a la n a l y s i sj ni n s e c td a s s i f i c a t i o n w eu s e dt h et r a d i t i o n a lc l u s t e rm e t h o d sa n d a l c o m b i n e dt h ee x t e n s i o n t h e o r ya n dt r a d i t i o n a lm e t h o d s t h i sp a p e ri m p r o v e dt h ee x t e n s i o n c l u s t e rm e t h o da n dt h el i n e a rp m g r a r ns v mw h i c hi sb a s e do nm i n i m i z e dt h ep e s i t i v ef a c t o r s t 五em a i nr e s e a r c hw o r k so ft h i s p e r : 1 w em a d es o m es u m m a r i z ea b o u tc u r r e n tc l a s s i f i c a t i o nm e t h o d so fi n s e c t ae s p e c i a l l yt h e n u m e r i c a lm e t h o d s a tt h es a m et i m ew es u m m e du pt h em e a n so fm a t hw h i c hw e r ea d p e a ri n t h i sp a p e rs u c ha sm o r p h o m e t r i c s ,c l u s t e ra l g o r i t h m s ,a n dt h em a c h i n el e a r n i n gm e a n s ,e t c 2 t h i sp a p e rc a r r i e do u tt h ee x t r a c t i o no f t h ev e i nc r n n o d el a n d m a r kd a t ao f t h ec n i z o c o r i ss i n e s i s s e m i a u t o m a t i c l y w ep e r f o r m e dt h ea n a l y s i so ft h ei n s e c tw i n gs u r f a c eb a s e do nc o m p u t e r w e s a m p l e dt h ep r o c e s sf o r ma r i i f i c i a l l ys u b j e c t i v ea n a l y s i st om a c h i n es e m i - a u t o m a t i c 3 w em o d i f i e da n dc a r r i e do u tt h ee x t e n s i o nc l u s t e ra l g o r i t h m n em e t h o dw a sa p p l i e dt oo u r p r o b l e mi nt h i sp a p e ra n dg o ti d e a l l yr e s u l ts o m e w h a t 4 w i t ht h ea l r e a d ye x i s t e dl i n e a rp r o g r a ms v mw h i c hi sb a s e do nt h em i n i m i z e dp o s i t i v ef a c t o r s , w ei m p o r t e dt h ee x t e n s i o nf a c t o rt oi t s ow eg a i n e d 也ee x t e n s i o ns v m 啊l en e wm e t h o d i m p r o v e dt h ee x t e n s i v ea b i f i t yo fs v m t h em o d i f i e dm e t h o dg e tg o o de f f e c tw i t ht h ed a t ao ft h i s p a p e r c o m p a r e dw i t ht h el i n e a rf i s h e rd i s c r i m i n a n c et h ei m p r o v e ds v mm e t h o di sb e t t e r i h i sp a p e rs u c e e s s f u l l ya p p l i e dt h em u l t i v a r i a t es t a t i s t i c a la n a l y s i sa n dm a c h i n el e a r n i n gt h e o r yt ot h e i n s e c ti d e n t i f i c a t i o n e s p e c i a l l yt h eh e m i p t e r ai n s e c ti d e n t i f i c a t i o n 1 | ) i ,eh a v en o tf o u n dt h er e p o r t a b o u ti ti no u rc o u n t r yt i l ln o w k e yw o r d s :m o r p h o m e t r i c s ,p a t t e r nr e c o g n i t i o n ,c n 担o c o r i ss i n e s i s , l a n d m a r k , e x t e n s i o nt h e o r y n 独创性声明 y9 3 8 3 5 5 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 研究生签名:j 二杀乙时问:孔v ,年,月2 目 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保 留送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。同意中囤农业大学可以用不同方式在不同媒体上 发表、传播学位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名 导师签名: 王诧z 一时间:加衫年月z 日 时间: 砌年g 月他日 第一章绪论 昆虫是地球上数量堆庞大、种类最丰寓的生物群体,它关系着环境、生态、经济甚至文化等 重要方面。随着研究的深入,以及社会生产水平的提高,对昆虫分类问题无论从数量上,精度上 还是速度上的要求都变得越来越高。本文的研究目的即是为了探索一种借助显微拍照以及计算机 编程技术实现的昆虫特征提取办法( h n d m a r k 特征提取) 。同时研究一些较成熟的数学分类办法 来针对昆虫分类这一具体问题,并对现有算法做适当修改,以适应昆虫分类数据的特殊性。最终 希望能用数学的定量化分析使得昆虫分类更客观,同时协助昆虫分类专家去探索更准确的分类, 并通过算法的程序化、软件化使得昆虫分类变得更智能化、网络化。本章作为开篇,将对文中研 究的相关领域做以概述,同时点明文章的理论依据结构体系等。 1 形态统计学、l a n d m a r k 技术在昆虫分类中的应用情况 1 1 1 形态统计学、l a n d m a r k 技术发展概述 形态统计学( m o r p h o m e t r i c s ) 是- - f l 关于生物学中形态和形态变化的定量描述、分析及解释 的学科,它最早起源丁- 比较解剖学中的精确描述。本世纪6 0 年代以前,少数工作者如d 、a r c y t o m p s o n 和j u l i a nh u x l e y 等开始把定量化引入生物学的形态描述和分析,以更好的理解生物的发 育和演化理论。到6 0 年代,形态统计学的第一个分支多元形态统计学已接近完善。8 0 年代 早期,密执安人学的b o o k s t e i n 等开发出从生物体的地标( 1 a n d m a r k ) 位置中获取所有可能信息 的技术和统计学方法。地标概念的提出是形态统计学的一个重大进展,传统的根据“距离”和“角 度”测量数据进行的多元形态统计分析学分析实际上都属于对地标的分析【1 】。 形态统计学的最新研究进展主要表现在3 个方面;( 1 ) 数据获取( d a t aa c q u i s i t i o n ) ;( 2 ) 数 据分析方法( a n a l y t i cm e t h o d ) ;( 3 ) 同源问题( h o m o l o g y ) 。 数据获取方面,已经开始采用与计算机相连接的各种先进测量设备,从而很方便的获取初始 数据,比如本文试验所得照片就是利用m o t i c 显微拍照系统与计算机联合实现的。 数据分析方面,因所得的原始数据多种多样所以采用的方法也各有不同。概括起来主要有: 多元统计分析方法。其中包括圭成分分析( p c a ) ,判别分析,因子分析等,本文主要对前两者 进行深入研究。 地标分析( l a n d m a r k 技术) l a n d m a r k 是指生物体上一些特殊的点,这些点可以为生物体的 个体发育,生态功能及分类位置等方面提供解释的证据。例如不同组织的分界点,组织结构的边 缘,几何区域特征点等。对l a n d m a r k 数据进行的分析方法主要有:( 1 ) 旋转拟合法( r a t i o n a lf i t m e t h o d s ) ;( 2 ) 基本偏差法( p r i n c i p a lw a r p s ) ;经典的普罗克拉斯提斯方法( c o n v e n t i o n a lp r o c r u s t e s a p p r o a c h e s ) 。l a n d m a r k 技术获取初始形态特征数据,以及对地标信息进行的各种分析是本文的 又一重点研究方向。本文拟采用l a n d m a r k 技术获取瘤蝽翅脉重要节点特征( 以坐标形式给出) , 特征数据经过形态空间的一系列变换处理,形成待分类样本,最终完成分类任务。 关于形态学的研究动态:g o o d a l l 在他1 9 9 1 年的论文里面给出了一系列在形态统计学领域 中国农业大学硕士学位论文第一章绪论 应用的多维空间定义【2 】。在这些空间里,对于生物体本身所在空间称为物理空间。每个研究对象 都处在物理空间内。每个研究对象由p 个k 维的地标表达,对应于多维空间( 口k 维) 的一个点。 通过这一方式实现了物理空间内实物样本的抽象化和数字化。这样形成的原始数字化空间称为特 征空间( f i g u r es p a c e ) 2 ,3 1 。如果经平面或空间平移变换将所研究的n 个样本重心( c e n t r o i d ) 重 合则得到预形成空间( p r e f o r ms p a c e ) 。b o o k s t e i n 在他1 9 9 1 年的论文里面提出了c e n t r o i ds i z e ( 重 心大小) 的概念,即所有地标到研究对象重心的距离平方求和再开方所得的数值。有了该定义于 是得以产生了预形状空间( p r e s h a p es p a c e ) 即将研究对象平移到原点然后经过伸缩变换将对象的 重心大小调整到相同。从而产生预形状空间州。最终将研究对象经中心化到原点,经尺度变换统 一重心大小并且做最优旋转使得对应地理坐标的平方距离和最小,这样每个研究对象都相应一个 k e n d a l l 、s 形状空间( s h a p es p a c e ) 5 1 。 1 1 2 形态统计学在生物形态分析上的应用 形态统计学作为生物形态分析的一种崭新的方法,近两年才逐渐应用到昆虫的形态分析以及 分类问题f 6 1 ,l a n d m a r k 技术作为形态统计学方面一项重要技术越来越受到人们的莺视和关注。 基于l a n d m a r k 技术和计算机视觉技术的形态学分析方法是近些年才发展起来的新兴技术,该方法 同时涉及数学,图像,模式识别,计算机图像处理等多方面技术。由于包含的知识面比较广泛, 因此无论是单纯在昆虫领域还是数学领域国内都很少有研究和应用。 国外,一些昆虫学家用它来分析各种昆虫间器官的形状和大小变化。例如m g u m i e l ,s c a t a l a 等人利用形态统计学l a n d m a r k 技术分析地区问及种间的昆虫翅进行了形态分析,并利用六 个地标点米定义半翅目昆虫翅的膜质部分形态特征。该项研究对t i n f e s t a n s 的多个种群进行了分 析,其中包括最新发现的玻利维亚的d a r km o r p h 作为潜在的外集团,t m l a n o s o m a 也被加入研 究样本行列。研究发现了一个比较一致的地区差异性,但是没有证据表明无论魁哪一性别,哪一 类群,d a r km o r p h 还是t m e l a n o s o m a 都不能从t i n f e s t a n s 种群里面分离。在研究过程中他们将样 本映射到相应的正切空间并对正切空间进行多元判别分析,进而得出了很有价值的结论【6 】。类似 的还有a l i b e r tp m o u r e a ub 等利用l a n d m a r k 技术对两类甲虫进行了形态分析与地理种群区划f 7 1 。 还有一些用形态变量法分析动物器官特征,植物分类特征。例如海藻的地区种问分类问题。p e t e r j r a l p h ,d a b i d a m o r r i s o n 等人利用形态统计变量的方法,对来自2 1 个基地分属四个地区类型 的海藻进行形态变量分析,通过溅量h b a n k s i i 海藻的7 个泡组织的形状特征( 真径,长度,壁 厚,体积,容积,表面积等参数) 成功区分出两类海藻f 8 1 。 国内,田学军曾利用形态学的思想方法进行喜马排蜂和大蜜蜂的比较形态学研究。该项研究 中对同域喜马排蜂和大蜜蜂的3 0 + 形态特征进行分析( 喙长,胫节长,腿长,翅脉内角等) 得出 喜马排蜂和人蜜蜂的差异显著结论,为两种蜜蜂的区分又提出了一种统计学依据。从本质上说那 还不是真正意义上的形态统计学分析,只是形态特征和统计学相结台的分析方法【9 】。蔡呜俊等曾 对鲂属鱼类进行了形态度量学研究。他们对来自中国科学院水生生物研究所淡水鱼类博物馆收藏 的福尔马林浸泡标本,共1 2 1 尾进行研究。利用精度为l m m 的两脚规,进行传统的形态特征与框 架结构像结合的方法进行研究。该方法利用两脚规产生的点线结构以及分析时计算了各种距离。 事实上就是变相的一种地标分析。该文除了对形态参数进行测量同时还进行了主成分分析,描绘 2 中国农业大学硕士学位论文第一章绪论 了第一,第二主成分的散点图。从而直观的解释了分类性质。特别应该指出的是我校的沈佐锐、 于新文、赵汗青等人在从事昆虫形态统计学以及昆虫自动识别方面研究工作。在赵汗青2 0 0 2 的论 文中用虫体面积、周长等1 l 项数学形态特征对4 0 种昆虫实现自动鉴别,得出了各项数学特征的 权重。在昆虫的自动鉴别中,1 1 项特征所起的作用大小为:面积 偏心率 形状参数 周长 纵 轴长) 孔洞数 横轴长、似圆度 叶状性 圆形性 球状性。以面积、周长等数学形态特征为分 类依据,对隶属8 目2 5 科的4 0 种昆虫进行了二叉式分类,并以此为鉴别机理,实现了对昆虫 自动识别软件b u gv i s u x 的升级,使其能够自动鉴别的昆虫种类由3 种增加到4 0 种,准确率达 到9 7 5 【1 0 】。该项研究利综合运用了形态特征和计算机视觉的方法,而且得到了很好的效果, 很有借鉴的价值。但是该文仍然没有采用形态统计学的地标,轮廓等描述方法,而地标方法获取 瘤蝽翅形态特征正是本文所要研究的问题。 综上形态统计学方法对于生物形态分析是一种可靠和有效的方法。同时如果将计算机技术与 之相结合其作用将更加巨大,其效率也将更高。通过前面对国内外研究现状的分析,一方匿了解 了该项技术目前的研究状态,另一方面也使自己的眼界得以开阔,为本文的研究工作提供了很好 的借鉴。形态统计学方法无疑将越来越多的受到学者和专家的关注,逐渐成为一种崭新的形状分 析与统计规范。可以说形态统计学的分析方法是一种比较新的研究思路和问题的分析方法。 1 2 聚类、判别与分类算法 聚类( c l u s t e r i n g ) 是一个将数据集划分为若干组( c l a s s ) 或类( c l u s t e r ) 的过程,并使得同 一组内的数据对象具有较高相似度;而不同组中的数据对象是不相似的。许多领域,包括数据挖 掘、统计学和机器学习都有关于聚类的研究和应用。目前主流的聚类算法有:划分方法、分层法、 基于密度的方法、基于网格的方法、基于模型的方法等。具体来说如k - - m e a n s 算法;k - - m e d o i d s 算法;层次方法如b i r c h 和c u r e ;密度算法如d b s c a n 和o p t i c s 还有一些综合的方法如模糊c 一均值方法( f c m ) 1 1 1 增量式c u r e 算法,此方法能够很好的解决传统聚类算法在伸缩性、数 据定期更新时所面临的问题。其特点是实现了增量式聚类,并且可以产生新类;其算法复杂度为: 0 ( n ) 基于核的k 一均值聚类【1 2 】,该方法将核学习方法的思想应用于k 一均值聚类中,提出了一 种核k 一均值聚类算法,算法的主要思想是:首先将原空间待聚类的样本经过一个非线性映射, 映射到一个高维的核空间中。突出各类之间的特征差异,然后在这个核空间中进行k 一均值聚类。 同时还将一种新的核函数一条件正定核( c p d ) 应用于该算法以提高算法的速度。试验表明核k 一 均值聚类确实比普通k 一均值优越,特别是在高维空间的情况下,核方法使得样本更加线性可分 ( 或者近似线性可分) 。聚类分析由于其应用广泛,因此其研究工作也十分活跃。聚类算法还有 很多,很难一一介绍。聚类分析是一个富有挑战性的研究领域,有关每个应用都会有其自身独特 的要求,针对特定的需求和特定的数据集类型和特点来构造相应的算法是件比较困难的事情, 需要不断的努力和尝试。 判别分析与聚类分析不同。判别分析是在一组研究对象分成若干类型( 或组别) 并已取得各 种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样 品进行判别分类。相对于聚类的无监督,判别分析是有监督的分类。如果说聚类是探索性的去认 3 中国农业大学硕士学位论文第章绪论 识世界,那判别分析就是根据已有经验对世界的再认识。常用的判别分析方法有:距离判别法, f i s h e r 判别法,b a y e s 判别法和逐步判别法。其中本文所关注的是f i s h e r 判别法。该方法趋f is h e r 于1 9 3 6 年提出,又称点则判别法。其基本思想是投影,即将原来在r 维空间的自变量组合投影到 维数较低的d 维空间去。然后在d 维空间进行分类。投影原则:类内离差尽可能小,类间离差尽可 能大。从某种意义上说,f i s h e r 判别法是一种旨在降低特征维数的方法。近几年又有人将机器学 习与核函数的思想融入f i s h e r 判别。m i k a 等人于1 9 9 9 年提出基于核的f i s h e r 判别法 1 s l 。孔锐等 在2 0 0 5 年发表的基了:核f i s h e r 判决分析的高性能多分类算法一文中,利用核f i s h e r 方法结合最近 邻法完成了较好的多分类算法【1 4 】。无论用哪- - n 别方法去判定样品的归属问题都是依概率给出 判别结果,一般都存在误判情况。应用上都是在控制误判较小的情况下来选择较方便使用的判别 法。例如f i s h e r 判别法可以用较少的判别函数进行判别,因此比b a y e s 判别法简单:而且f i s h e r 判别法对总体分布也没有特定的要求。但f i s h e r 判别法不考虑总体出现概率的大小,也给不出预 报的后验概率及错判率的估计以及错判后造成的损失。而这些正是b a y e s 方法的优点所在。 关于分类算法,本文重点考虑的是模式识别与数据挖掘领域中的支持向量机( s u p p o r tv e c t o r m a c h m e s v m ) 方法。该方法由v a p n i k 等人提出,在1 9 9 2 年引入机器学习领域,到2 0 世纪中后期 得到了全面深入的发展。该算法属有监督分类算法,特点是采用了核函数,于是可以很好的解决 非线性问题。本文针对支持向量机算法存在的对噪声以及孤立点敏感问题,提出了一种基于可拓 关联函数值的改进方法。在一定程度上渴望对原有支持向量机的抗噪能力有所提高,井将改进的 方法应用于瘤蜻近似种群区分问题。 聚类、判别与分类是本文用来进行最终近似种鉴别的主要手段和研究方法。如何构造适合已 获取数据的算法是本文的一个重点也是一个难点。目前主流的统计软件如s p s s 、s a s 以及m a t l a b 都可以进行聚类和判别分析处理,同时还可以使用m a t l a b 进行自主的算法编程实现。本文将根据 前人的研究成果从中借鉴一些有效的算法,并针对已有的材料进行必要的分析和改进。 1 3 昆虫分类方法研究概况 分类是认识事物的基础和方法。昆虫分类学( i n s e c tt a x o n o m y ) 是研究昆虫的命名 ( n o m e n c l a t u r e ) 、鉴定( i d e n t i f i c a t i o n ) 、描述( d e s c r i p t i o n ) 、及其系统发育( p h y l o g e n y ) 和 进化( e v o l u t i o n ) 的科学。昆虫分类学是- - f 古老的学科,已有2 0 0 多年历史,它是昆虫学其 他分支学科的基础。近几十年来随着现代科技的飞速发展,电子显微镜、计算机、分子生物生化 技术,甚至雷达,卫星遥感等高尖端技术都已经进入昆虫分类研究领域中,使这门科学无论在理 论或方法上都发生了深刻变化。许多先前提出的分类系统逐渐得到改进完善或更换,这些新技术 的应用,还直接导致了人们认识、鉴别的昆虫总量增加,对昆虫分类学的发展起到巨大作用。 现行的昆虫分类学派主要有四种,即传统分类学派( t r a d i t i o n a r yt a x o n o m y ) 、数值分类学 派( n u m e r i c a lt a x o n o m y ) 、支序分类学派( c l a d i s t i c s y s t e m a t i c s ) 和进化分类学派( e v o l u t i o n a r y t a x o n o m y ) 。本文涉及的领域为数值分类学派。即利用数学的方法来定最的分析类群特征,将大 量的特征数值化,使之可以借助计算机的运算,求得各分类单元之间的相关关系。这种方法标准 一致,具有可重复性,避免了研究者的主观偏见,富有启迪性和预示性,往往止是与常规分类不 4 相合之处,揭示出常规分类未考虑在内的分类关系,而相合之时,恰好给常规分类以有力支持。 1 4 数量分类学在昆虫分类上的应用概况 1 4 1 数量分类学概述 数量分类学( n u m e r i c a lt a x o n o m y ) 有些资料也称之为数值分类学,是把数学方法和电脑技术 应用于生物学来解决分类问题。数量分类学不仅是生物分类学与数学两个学科的交叉学科,而且 也是生物分类学、数学与电子计算机技术相结合、带有高度综合性的新学科。数量分类学可以看 作是- - i 利用电子计算机和数学工具专门研究与分类有关的信息处理工作。数量分类学的一些基 本概念最早出现在生物统计学中。1 9 世纪末、2 0 世纪初,许多生物统计学家如p e a r s o n ( 1 9 2 6 ) , a l p a t o v ( 1 9 2 8 ) ,a n d e r s o n ( 1 9 3 4 ) ,s m i m n v ( 1 9 6 8 ) ,f o r b e s ( 1 9 3 3 ) 等,他们早己开始对 生物分量进行定量分析研究。数量分类学的一些基本概念和计算公式已经出现在他们的著作中。 1 9 2 4 年苏联生物学家s m i r o n v 在他的论文中提出精确系统学( e x a c ts y s t e m a t i c s ) 。这一名词 被看作数量分类学作为独立学科最早的名称。数量分类方法最先被引进到昆虫分类中。r o h l f ( 1 9 6 3 ) 、a t c h l e y 和c h e n e y ( 1 9 7 4 ) 应用数量分类方对非成虫性状进行了研究,对昆虫进行了分 类,并验证了数量分类学的精确细致特性。数最分类方法开辟了非成虫分类,弥补了传统昆虫分 类的不足。 数量分类学用定量方法对某些类群进行总结,以求较准确地衡量物种之间的亲缘远近,全面 地阐明它们的演化关系,并探讨地理发源中心。数量分类学的深入细致还表现在应用许多非形态 性状,补充了单纯依靠形态分类的片面性。例如用毒蛇的毒液化学性质对毒蛇进行分类。利用植 物的花香并借助气相色谱仪分析对植物进行分类。生物现象通过仪器以数值形式进行描述,用定 量分析的方法进行研究已经成为生物发展的必然趋势。数量分类学除了在生物分类中有广泛的应 用,在遗传进化,生态和生物地理方面都有应用1 5 1 。 1 4 2 我国的研究情况 从6 0 年代初开始在我国就有个别刊物提及数量分类学这一学科。徐浩( 1 9 7 4 ) 简介了微生 物的数值分类方法。1 9 7 5 年,首先出现了枯草杆菌和蚜虫的数值分类研究( 徐浩等,1 9 7 5 ;朱弘 复等,1 9 7 5 ) ;1 9 8 0 和1 9 8 2 两年中国植物学会两次组织学习班,主要侧重植物分类。以后在生物、 昆虫、兽类、占脊椎动物和高等植物等方蕊的数值分类论文人量涌现。1 9 9 4 年徐克学编著,科学 出版社出版的数量分类学正式出版。该书在论述数量分类学有关理论的同时,力求高度抽象 的概括,给出明确严谨的描述。书中提出许多新的理论和方法。从书中可以看到,目前的数量分 类学与数学结合得越来越紧密,应用的数学知识也越来越广泛,除经典的微积分学、概率论和数 理统计外,还包括集合论、抽象代数、拓扑学、信息论、图论和模糊数学等【1 6 】。 1 4 3 数量分类学在我国昆虫分类方面的应用 事实上,数量分类学自从二十世纪七十年代介缁到我国之后,最先应用的领域就是昆虫分类。 5 中国农业太学硕士学位论文第一章绪论 朱弘复等的蚜虫的数值分类算是我国昆虫分类工作中最有影响力的开山之作。八十年代初, 刘友樵有两篇关于草蛾( e t h m i a ) 的数值分类研究,该研究的突出之处在于对不同的计算方法进 行了比较。2 0 0 0 年以后数值分类学的区系研究,如桂富荣的云南毛翅目昆虫研究中的应用, 其结果与传统分类结果相符;另一个特点是数值分类和生物化学以及生物学紧密结合,进行昆虫 分类的研究。随着计算机软硬件技术的不断完善,借助计算机完成的数值分类技术也得到了突飞 猛进的发展。计算机视觉技术,模式识别理论,以及数据挖掘理论都已经渗透到昆虫分类领域。 2 0 0 2 年,赵汗青等在文献 1 7 d 0 用虫体面积、周长等1 1 项数学形态特征对4 0 中昆虫实现自动鉴 别得出了数学特征的权重。2 0 0 5 年,王庆林等粗糙集理论在昆虫分类学上的应用研究了昆 虫的数学形态特征在目级昆虫分类阶元上作为分类特征的可行性、可靠性、以及三个目的亲缘关 系远近【1 8 】。 1 5 立论依据、研究目的与研究意义 表征分类学派( p h e n e t i c s ) 也叫数值分类学( n u m e r i c a l t a x o n o m y ) ,由r r s o k a l 和h a p e t e r s n e a t h 于1 9 6 3 年创立。表征分类学是根据生物整体相似性来归类,所以特征不加权,严格进行 数理分析,并最终得出分类结论。本文依据表征分类学归类,选择半翅目猎蝽科的翅作为研究数 据获取对象。经昆虫分类专家多年研究认为对于不同地域生活的猎蝽科昆虫,由于气候环境不同, 采食情况不同以及其他一些更复杂的影响因素,不同地区种群之间在翅的特征方面会有所不同。 这里所说的翅的特征不同主要指形状方面的特性,如翅长,翅宽,翅脉节点空间分布状态等等。 形状不同必然导致翅脉主要节点分布的空间位置不同。因此本文以此为立论依据,拟通过标定主 要翅脉节点特征( l a n d m a r k 标定) 每个节点最终以一个平面二维坐标形式表达。形成特征最终 根据这些节点特征完成分类任务以及近似种的快速鉴别。 本文的目的在于探索新的昆虫特征提取方法,以及根据这些特征进行分类与预测。寻找新的 特征提取方法。对于昆虫标本,第一由于其经过长时间保存,十分干燥而且质地脆弱很难实施 测量,包括用卡尺等测量长度,用天枰测量其重量等,都有可能对珍贵的标本造成损害。第二由 于昆虫个体一般比较小,因此测量起来需要十分精密的仪器,甚至有些测量目前仍没有仪器可以 实现。因此寻找一种廉价,方便,快速的特征提取方法是十分有意义的。为此本文尝试了显微拍 照,然后对照片进行处理,以求间接的达到分析昆虫标本的目的。以中国农业大学昆虫馆既有的 瘤蝽科,中国螳瘤蝽( c n i z o c o r i sc h i n e n s i s ) 近似种昆虫标本为研究对象,算法上寻求较好的,比较 适合翅脉特征数据的聚类和判别方法以及机器学习分类算法。对不同地区的近似种进行数量分类 学研究,从数学角度对近似种进行划分,并最终形成判别方法,以便将来用来对新标本进行鉴定。 本文的另一研究目的在于将所研究的成果程序化,软件化。目前对昆虫的特征提取已经开始采用 各种先进的数字化仪器,例如本文采用的m o t i c 系统即是一套与计算机直接相连的显微照相系 统。因此,如果能够将本文研究的方法软件化,将有望在很大层度上提高昆虫鉴别与分类的数字 化智能化以及网络化。 本文的研究意义主要有以下儿点:一方面本文涉及的瘤蝽科几个常见的地区近似种,从测量 方法上,有效利用了现有试验器材,验证了设想的测量方法。从数学上进行了系统的分析,对这 6 方面的分类工作提供了一个新的研究思路和研究途径。如得出的结论与传统分类学结论相吻合, 则本文的研究成功是传统结果的又一有力佐证,而且因为得到了相互印证所以以后可以采用此方 法进行近似种鉴别,这样将大大提高鉴别速率。节省专家人力资源。如果本文结论与传统结果有 所出入,则应从本文方法和传统方法两方面找原因,这样为更加科学与深入的分类研究提供了 动力和启发。另一方面,本文的方法不仅仅适合瘤蝽这样一类昆虫分类,还可横向移植到其他昆 虫。甚至可以进行植物分类( 叶脉节点分析) 人脸识别( 五官特征点标定) 等等。如果和雷达技 术卫星遥感成像等相结合,有望应用于军事,气象等方面。 1 6 文章的结构和框架体系 本文共分5 章; 第一章:绪论部分;主要是将文中涉及到的一些知识领域计算方法等做一简略概括以及对目前的 研究现状做一个简短综述。 第二章:数据获取与特征形成;主要介绍本文的数据来源,数据的预处理等方面内容,其中涉及 l a n d m a r k 特征点的具体选法以及对数据做的标准化,假设检验等。 第三章:可拓聚类分析;本章写可拓聚类算法的推导以及作者利用可拓聚类算法对文中所涉及的 瘤蝽种群进行区分试验。 第四章:分类与预测;本章将利用判别分析,机器学习算法等对瘤蝽数据进行分类与预测等方面 的研究。 第五章:结论与总结;作为文章的最后,对全文做以系统的总结与概括,对进一步的研究做一个 规划与展望。 7 第二章数据获取与特征形成 2 0 引言 昆虫纲是动物界中最大的类群,无论是个体数,或种类数都大得惊人。对于这样庞大的群体 进行分类等相关研究,单靠人力是远远不够的,随着科技发展各种机器手段,智能手段不断介入 到生物分类领域。昆虫的分类也越来越多的采用高技术手段与智能化手段分类结果也越来越细 致。就数量分类学而言,对分类结果要求的不断提高,势必要求特征测量方法与分类算法手段不 断提高与完善。本文选取半翅目猎蝽科中的中国螳瘤蝽( c n i z o c o r i sc h i n e n s i s ) 的几个地区近似种群 作为研究对象。主要目的是从瘤蝽翅脉节点入手,希望可以找到对种群区分有价值的信息,并探 索比较适合的方法进行分类运算。由于瘤蝽个体较小,至少从方法上目前难以实现实际测量,如 利用矗尺等工具都无法实现测量。而且出于对标本的保护考虑也不太可能采用实际测量的办法来 提取数据。因此考虑显微拍照技术来提取翅面图像,进而通过对图片进行测量以及各种分析研究 来达到间接研究昆虫翅特征的目的以求对分类学有所贡献。本章主要介绍本文研究项目的试验环 节与数据预处理环节,将介绍如何通过显微拍照技术获得样本原始图片,以及对图片的预处理。 晟终借助计算机手段提取相应特征( l a n d m a r k 特征) ,进而为后续的聚类与判别,分类等模式识 别手段研究提供数据准备。在本章的结尾您还将看到对所获的初始特征进行的统计检验( 主要是 对样本数据的r 检验) 以及特征压缩等。 2 1 样本来源及采样试验 本文研究所用标本全部来自中国农业大学昆虫馆。从昆虫馆调出馆藏瘤蝽相关标本直接在昆 虫馆实验室进行全虫显微拍照,提取昆虫图片。所用拍照系统为m o t i c 显微拍照系统以及一台电 脑组成的拍照试验平台。本文所获第一手资料为以b m p 格式保存的瘤蝽背面俯视图片( 侧重拍 摄翅部) 。具体采样试验如下: ( 1 ) 编号造表。本环节目的为将样本进行编号,用一个简单的数字与样本对应,方便后期对图 片文件的处理,以及对应图片样本的具体信息查询。即对标本编号,并建立表格记录相应信息。 其主要步骤为: 1 ) 按拍摄顺序对涉及到的标本进行编号,用事先准备好的编号标签标定各标本。为下一步 的拍照试验做准备。 2 ) 做标本基本情况表,表内对应各标本( 图片) 编号标注样本产地,性别,所拍的是左翅 还是右翅,有无破损残缺等。这样图片可直接采用编号作为文件名称保存,使得图片文件与样本 以及情况表条目三者实现一一对应。方便下面备阶段处理时的图片文件调用。如临时需要查看样 本具体信息可按编号查表,一目了然。 ( 2 ) 拍照试验。本环节目的为将实际昆虫样本数字化为b m p 格式的图片形式。试验仪器为m o t i c 显微拍照系统与一台奔四台式电脑联网组成的显微拍照工作平台( 如图1 ) 。m o t i c 系统为一台显 8 中国农业大学硕士学位论文第二章数据获取与特征形成 微镜与一台5 0 0 万象素摄像头的结合体。摄像头通过u s b 接口与计算机连接。软件系统采用 w i n d o w s 2 0 0 0 操作系统下运行m o t i c 配套软件进行拍照工作。拍照时将昆虫从标本盒取出,插上 编号标签,然后将标本插于木质插虫板,再放于显微镜载物台。适当调整放大倍数,这时可以在 计算机显示器m o t i c 软件系统的拍摄窗口内得到预览图像,经显微镜与软件两方面协同调整至清 晰即可抓取图像,并且自动保存为b m p 格式。 ( 图1 ) ( 3 ) 节点选取与图片预处理。本环节是后期备环节的基础,目的在于选取精确的具有明确代表 性的节点。图片全部采集完成后,在昆虫系崔博士的指导下确定统一的稳定翅脉节点。这里所述 的稳定即对于本文所涉及各个样本,每个样本翅面都出现的,非常有代表性的翅脉节点。经小组 反复讨论研究最终确定为,每个样本取8 个特征点,包括6 个翅脉节点及一个翅基点,一个翅端 点。翅基与翅端两点在某种意义下代表了翅的长度特性。确定特征点大体位置分布后进行精确标 注处理。具体为: 1 ) 每幅图片做2 倍放大处理( 通过g r m d o w s 绘图程序完成) 。 2 ) 放大后的图片上对事先确定的翅脉节点区( 放大后翅脉节点处呈小区域状) 以红色标注 其区域中心。 3 ) 标注后将图像恢复原始大小,待用( 如图2 ) 。 ( 圈2 ) 9 中国农业大学硕士学位论文第二章数据获取与特征形成 曼l l l l i 鼍舅量墨曼皇皇曼曼量曹量置童邕量寞囊邕蔓奠量量量量晕董量墨置曾蔓曹皇量曼i ( 4 ) l a n d m a r k 数据提取。本环节主要目的为;建立平面直角坐标系将前述的翅脉节点转化为 l a n d m a r k 坐标值。这一步骤有如下问题需要解决:计算机内部标架为方向固定标架,原点在图 像窗i = l 左上角,x 轴正向向右,y 轴正向向下( 如图3 黑色标架) 。由于标本不可损坏,这样要求 必须采取全虫带针拍摄,这样由于试验手段的原因无法保证各样本摆放方向一致,即出现翅面 末放置成水平的旋转问题( 因c o s 2 0 。一0 9 4 ,这里近似认为翅面摆放在水平面内) 即空间旋转 干扰不计。因样本在显微镜下进行拍照,考虑到伸缩变换的干扰问题,对样本进行统一放大倍数 处理。关于水平面内旋转干扰,例如对同样本由于摆放位置不同而标架不变,则产生两组不同 的l a n d m a r k 坐标与其相对应,一个样本具有两个完全不同的属性,显然这是不合理的。基于上 述问题,本文所构造的坐标系必须具备抗转动干扰稳定性。而且由于所拍摄的翅可能为左也可能 为右,所以必须考虑能够进行自动的方向一致化处理。即根据翅的对称性将“反向”翅面进行镜 面翻转。综合上诉各种干扰因素本文作者构造了样本内部坐标,其具体方法如下。 坐标构造思路:为抗旋转干扰,将坐标系建立在样本翅面上,即选择两个翅脉节点薯,如, 利用这两个翅脉节点连线确定新的y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国青年公寓行业轻资产模式与重资产运营比较分析
- 2025-2030中国青年公寓行业政策趋势与投资战略制定
- 2025-2030中国青年公寓行业并购重组趋势与投资逻辑分析
- 2025-2030中国青年公寓行业客户流失原因与retention策略报告
- 2025-2030中国青年公寓行业区域市场差异化发展分析
- 2025-2030中国青年公寓智慧管理系统应用与效益分析报告
- 2025-2030中国青年公寓市场长租与短租模式比较研究报告
- 2025-2030中国青年公寓市场存量运营与增量投资分析报告
- 2025-2030中国青年公寓产业竞争格局与未来趋势预测报告
- 第6课 学业高原可突破教学设计-2025-2026学年小学心理健康六年级下册教科版
- 2025年北京市专业技术人员公需科目培训答案
- 2025年通信技术认证考试-应急通信认证历年参考题库含答案解析(5套典型题)
- 自贡市富顺县城乡供水一体化工程环评报告
- 2025年金属热处理原理及工艺习题一(参考答案)
- 中国慢性胃炎诊疗指南2025版
- 2025年法院遴选面试试题及答案
- 2025年福利彩票管理规范考核试卷及答案
- 选择主题班会课件
- 医院信息科笔试、面试题(附答案)
- 城市轨道交通站台门系统技术规范
- 医疗器械法律法规
评论
0/150
提交评论