(控制理论与控制工程专业论文)色谱指纹图谱的智能聚类分析在中医湿证辨别方面的研究.pdf_第1页
(控制理论与控制工程专业论文)色谱指纹图谱的智能聚类分析在中医湿证辨别方面的研究.pdf_第2页
(控制理论与控制工程专业论文)色谱指纹图谱的智能聚类分析在中医湿证辨别方面的研究.pdf_第3页
(控制理论与控制工程专业论文)色谱指纹图谱的智能聚类分析在中医湿证辨别方面的研究.pdf_第4页
(控制理论与控制工程专业论文)色谱指纹图谱的智能聚类分析在中医湿证辨别方面的研究.pdf_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

也谱指纹谱的智能聚类分析在中医湿证辨别方面的研究 中文摘要 用中医来进行是否有病以及是否有湿证的辨别一直是中医学界所研究和探 讨的话题。本文研究健康人、湿证病人和非湿证病人的新鲜尿液的色谱指纹图 谱,对这些图谱进行了一系列的研究工作,并取得了一定的成果。 本文首先对色谱法原理及其特点进行探究,根据分析化学中常用的色谱指 纹图谱来建立数学模型的方法来分析共有峰与重叠率以及1 1 强峰的实际意义。 其次,本文针对聚类分析的各种算法进行了研究和对比分析。现有的聚类 分析算法可划分为:划分方法、层次的方法、基于密度的方法、基于网格的方 法和基于模型的方法。 划分方法:给定一个n 个对象的数据库,一个划分方法构建数据的k 个划 分,每个划分表示一个簇,并且k n ,如k 一平均法,k 中心点算法,它对小数 据库有效,计算复杂度为o ( n 2 ) 。 层次的方法:对给定数据对象集合进行层次分解。根据层次的分解如何形 成,层次的方法又分为凝聚的和分裂的方法,如b i r c h 算法。其计算其复杂度 为o ( n ) 。 基于密度的方法的主要思想是:只要邻近区域的密度( 对象或数据点的数 目) 超过某个闽值,就继续聚类。这种方法可以用来过滤“噪声”孤立点数据, 发现任意形状的簇。如d b s c a n 算法,如果用空问索引,d b s c a n 的计算复杂 度是o ( n l o g n ) ,否则计算复杂度为o ( n 2 ) 。 基于网格的方法:把对象空间量化为有限数目的单元,形成了一个网格结 构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是处理速 度快,其处理时间独立与数据对象的数目,只与量化空间中每一维的单元数目 有关。如s t i n g 算法,产生聚类的时间复杂度为o ( n ) ,但查询处理时间是o ( g ) ,g 是最低层网格单元的数目,通常g 远远小于n 。 色谱指纹普的智能聚类分析在中医涩证辨别方面的硎究 基于模型的方法:为每个簇假定了一个模型,寻找数掘对给定模型的最佳 拟合。如c o b w e b ,计算复杂度会因输入属性的数目和属性值的不同而剧烈变 化。 基于模糊集的聚类分析:如模糊聚类的最大树法。 再次。本次研究利用n 强峰、共有峰的重叠率和囱量夹角正余弦值对样品 色谱指纹图谱分别建立了相似度矩阵、相异性矩阵或相似度表,以这些数据模 型为基础,分别用了k 一平均、模糊聚类的最大树法和改进的c o b w e b 法进行了 聚类研究,得到了不同的效果。其中改进的c o b w e b 法利用共有峰的重叠率作 为类内相似性( p ( a ,= i q ) ) ,把谱峰向量夹角的正弦值作为类间相异性 ( p ( a ,= k ,) ,在处理谱峰数据过程中,减少或剔除了所有样品中共有峰中占总 峰面积的较大面积的谱峰在聚类中的权重,以放大大部分相异成分在分类时的 比重。通过比较c o b w e b 法取得了较好的效果。 最后,通过v c + + 实现聚类算法。同时提出了改善样本采集方法和改进聚 类的方法以进一步提高聚类分析在中医辨别有病无病、湿证与非湿证的应用水 平。 关键词:色谱法、色谱指纹图谱、重叠率、聚类分析、向量夹角、k 平均 法、最大树法、改进的c o b w e b 法 色谱指纹谱的智能彝粪持析在中医湿t h 辨别方曲的1 充 r e a s e a r c ho r0 i u s t e r i n ga n a i y s isb a s e do nf i n g e r p r i n t c h r o m a t o g r a m a p p ii c a t i o ni nd i s c r i m i n a t i o nb e t w e e nd is esae a n dd a m p s y n d r o m ei nt r a d i t i o n a ic h i r e a om a d i c ir i c a b s t r a c t d i s c r i m i n a t i o no nd i s e a s ea n dd a m p - s y n d r m n ei st h et c p i ew h i c hi sr e s e a r c h e d a n dd i s c u s s e da l lt h et i m e si nt h et r a d i t i o n a lc h i n e s e m e d i c i n ef i e l d f i n g e r p r i a t c h r o m a t o g r a m so ff r e s h u r i n ed e r i , ,e df r o mh e a l t h yp e o p l e ,p a t i e n t sw i t h d a m p - s y n d r o m ea n dp a t i e n t sw i t l ln o n d m n p s y n d r o m ea r er e s e a r c h e di nt h i sp a p e r a n das e r i e so fs t u d i e sa r ep e r f o r m e do nt h e s ef i n g e r p r i n tc h r o m a t o g r a m sa n dc e r t a i n a c h i e v e m e n t sh a v eb e e ng a i n e d f i r s t ,t h e o r ya n dc h a r a c t e r i s t i c so fc h r o m a l o g r a p h ya r ee x p l o r e di nt h ep a p e r t h em e t h o db a s e do i lm a t hm o d e l ,w h i c hi se s t a b l i s h e da c c o r d i n gt of i n g e r p r i n t c h r o m a t o g r a m ,i su s e dt oa n a l y z et h ea c t u a ls i g n i f i c a n c eo fc o m l n o up e a k ,o v e r l a p r a t ea n dn - s t r o n gp e a k s s e c o n d l y , s o m em e t h o d so nc l u s t e ra n a l y s i sh a v eb e e ns t u d i e da n da n a l y z e d a n dt h em e t h o d sc a l lb ed i v i d e di n t op o r t i o n i n gm e t h o d ,h i e r a r c h i c a lm e t h o d , d e n s i t y - b a s e dm e t h o d ,西d - b a s e dm e t h o da n dm o d e l - b a s e dm e l h o d p o r t i o n i n gm c t h o d :c o n s t r u c tap a r t i t i o no f ad a t a b a s edo f l 3o b j e c t si n t oas e t o f kc l u s t e r sa n de a c hp o r t i o n i n g m e a n sac l u s t e r w i t h t h e t i m ec o m p l e x i t yo f 0 ( 1 2 2 ) w h e r ek n ,s u c ha sk - m e a 1 sa l g o r i t h m k m e d o i d sa l g o r i t h m h i e r a r c h i c a im e t h o d :c r e a t eah i e r a r c h i c a ld e c o m p o s i t i o no ft h es e to fd a t a o b j e c t s a n dt h i sm e t h o dc a nb ed i v i d e di n t oa g g l o m e r a t i v ea n dd i v i s i v e h i e r a r c h i c a lm e t h o dw i t ht h et i m ec o m p l e x i t yo f0 ( n ) a c c o r d i n gt ot h e d e c o m p o s i t i o np r o c e s s ,e g b i r c ha l g o r i t h m d e n s i t y - b a s e dm e t h o d :i ft h ed e n s i t yo fn e i g h b o r h o o d ,t h a ti st i l en t t m b e ro f d a t ao b i e c t s ,e x c e e d sac e r t a i nv a l u e ,t h e c l u s t e r i n gp r o c e s sw i l lb ec o n t i n u e dt h e m e t h o dc a nb eu s e d t o f i l t r a t e t h eo u t l i e r d a t a a n dd i s c o v e r c l u s t e r so f a r b i t r m ys h a p e a st 0d b s c a na l g o r i t h m i ft h es p a t i a li n d e xi su s e d ,t h et i m ec o m p t e x i t yi s o ( n l o g 曲,o ri ti s0 f n ) g r i d b a s e dm e t h o d :c h a n g et h eo b j c o t si n t ot h ec e l lw i t hl i m i t e dn u m b e ra n d c o n s t d c :tag r i ds t r u c t u r ea l l t h ec l u s t e r i n go p e r a t i o ns h o u l db ed o n ee f tt h eg r i d s t l x i c t u r e t h ea d v a n t a g eo f t h em c t h o di st h a tt h et i m ec o m p l e x i t yi si n d e p e n d e n to f t h en u m b e ro f o b j e c t s a n di sr e l e v a n tw i t ht h en u m b e ro f c e l l so f e a c hd i m e n s i o ni i t h em e a s u r e ds p a c ea st ot h es7 h n ga l g o r i t h m ,t h et i m ec o m p l e x i t yo fc l u s t e r i n gi s 色谱指纹潜的智能聚类分析在中医湿证辨别方面的训究 o ( n ) ,b u tt h et i m ec o m p l e x i t yo fq u e r y i so ( g ) ,w h e r egi st h en u m b e ro fg r i dc e l l sa t t h el o w e s tl e v e la n dgi sf a rs m a l l e rt h a nn m o d e l b a s e dm e t h o d :s u p p o s es o m em a t h e m a t i c a lm o d e l sf u re a c hc l u s t e r , a n d a t t e m p tt oo p t i m i z et h ef i tb e t w e e nt h ed a t aa n ds o m em a t h e m a t i c a lm o d e lt h et i m e c o m p l e x i t yw i l lb ed i f f e r e n ta c c o r d i n gt ot h en u m b e ra n dv a l u eo fi n p u tp r o p e r t i e s , s u c ha sc o b w e ba l g o r i t h m t h i r d l y , s i m i l a r i t ym a t r i x ,d i s s i m i l a r i t y m a t r i xo r s i m i l a r i t y t a b l ea r e e s t a b l i s h e db a s e do nt h en - s t r o n gp e a k s ,t h eo v e r l a pr a t eo fc o m m o np e a k sa n dt h e c o s i n e s i n eo fv e c t o r s a n g l ew h i c ha r ed e r i v e df r o mt h ef i n g e r p r i n tc h r o m a t o g r a m s o fs a m p l e s a n db a s e do nt h e s ed a t am o d e l ,c l u s t e r i n gr e s e a r c hh a sb e e nd o n eb y k - m e a n sa l g o r i t h m ,b i g g e s tt r e ei n f u z z yc l u s t e r i n g a n di m p r o v e dc o b w e b a l g o r i t h m ,w h e r ed i f f e r e n tr e s u l t sh a v eb e e ng a i n e d b yc o m p a r i n g ,c o b w e b a l g o r i t h mi st h eb e s t i nt h ei m p r o v e dc o b w e ba l g o r i t h m t h eo v e r l a pr a t eo f c o m m o np e a k sh a sb e e nr e g a r d e da si n t r a c l a s ss i m i l a r i t y ( p ( 彳,= ic k ) ) w h i l e t h es i n eo fv e c t o r s a n g l eh a sb e e nr e g a r d e da si n t e r - c l a s ss i m i l a r i t y ( j d ( a i = ) ) i n a d d i t i o n ,t h ew e i g h t i n e s so fc o m m o np e a k sw h o s ea r e aa r cq u i t eh i g hi nt h et o t a l a r e ao fa l lp e a k sh a sb e e nr e d u c e do re l i m i n a t e ds ot h a tt h ep r o p o r t i o no fm o s t d i s s i m i l a ri n g r e d i e n t sc a nb em a g n i f i e d f i n a l l y , t h e s ec l u s t e r i n gm e t h o da r ea c h i e v e db yv c + + a n da tt h es a m et i m e t h ew a yt oc o l l e c ts a m p l e sa n dt h em e t h o dt oi m p r o v ec l u s t e r i n gh a v eb e e nb r o u g h t f u r w a r ds ot h a tt h ea p p l i c a t i o nl e v e lo fc l u s t e r i n ga n a l y s i st od i s c r i m i n a t i o no n d i s e a s ea n dd a m p - s y n d r o m ei nt h et r a d i t i o n a lc h i n e s em e d i c i n ec a nb ei m p r o v e d h u l i n ( c o n t r o lt h e o r ya n dc o n t r o le n g i n e e r i n g ) s u p e r v i s e db ys h a oy u e x i a n g k e y w o r d s :c h r o m a t o g r a p h y , f i n g e r p r i n tc h r o m a t o g r a m ,o v e r l a pr a t e ,v e c t o r a n g l e ,c l u s t e r i n ga n a l y s i s ,k - m e a n sa l g o r i t h m ,b i g g e s tt r e ea l g o r i t h m ,i m p r o v e d c o b w e ba l g o r i t h m 附件一: 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的 指导l 、,独立进行研究工作所取得的成果。除文中己明确注明和引用的内容外本论文不包 含任何其他个人或集体已经发表或撰写过的作品及成果的内容a 论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:名a 水 日期: 3 珥碡年月2 日 附件二: 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可 以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书。 本学位论文属于 不保密曲。 学位论文作者签名 日期:2 口? 肛fl , q2 日 指导教师签名:之争 抓c a 日期:4 年工月f o e l 色谱指纹普的智能聚类分析布中医湿证辨别方面的研究 1 中医学相关研究背景 第一章绪论 中医学在人类健康的宝库中,是维系炎黄子孙5 0 0 0 多年健康的一 枝独秀,是中华文化发展的奇葩。中医在长期的医疗实践中逐渐形成 了自己一套独特的理论体系,其卓越的临床疗效众口皆碑,并远传东 南亚乃至全世界。在倡导自然疗法的今天,中医更是得到了世人的瞩 目。中医学的特色是由其自身特殊的认识方法、理论体系和诊疗规律 所决定的。中医将人与自然、社会等紧密地联系起来,探讨健康与疾 病的内在转化规律,由表及里地考察人体的生命现象和生理、病理机 制;它又将人体分为五大生理系统,从“阴阳”对立统一来解决疾病 的进退转归。辨证论治是中医的特色,证实质是反映病患肌体在疾病 当时的反应状况,但是由于种种原因,中医的“证”在定性和定量方 面还存在着相当的模糊性,以至于不少人认为中医的辨证论治灵活无 边,从而造成了某些人对中医的科学性产生怀疑,这或多或少地影响 了中医的发展。因此作为新时代的中医学要不断引进现代科学的研究 成果,不断丰富和更新中医的理论体系,以适应时代的发展和医患的 需要。 2 数据挖掘中聚类分析相关的背景及应用 数据挖掘是2 0 世纪9 0 年代中期兴起的一项新技术,它是知识发现 过程中的关键步骤。数据挖掘是多门学科和多种技术相结合的产物, 也是一个非常年轻而又活跃的研究领域。 将物理或抽象对象的集台分组成为由类似的对象组成的多个类的 过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对 象与同一个簇中的对象彼此相似, 源于许多研究领域,包括数据挖掘 与其他簇中的对象相异。聚类分析 统计学,生物学,以及机器学习。 第i 页共1 0 0 负 色谱指纹潇的智能聚类分析在中医湿证辨别方商的研究 在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。 聚类分析已经广泛地用在许多应用中,包括模式识别,数据分析, 图象处理,以及市场研究。通过聚类,人能够识别密集的和稀疏的区 域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。 “聚类的典型应用是什么? ”在商务上,聚类能帮助市场分析人员 从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客 户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基 因进行分类,获得对种群中固有结构的认识。在地理环境上,聚类在 地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根 据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发 挥作用。聚类也能用于对w e b 上的文档进行分类,以发现信息。作为 一个数据挖掘的功能,聚类分析能作为一个独立的工具来获得数据分 布的情况,观察每个簇的特点,集中对特定的某些簇做进步的分析。 此外,聚类分析可以作为其他算法( 如特征和分类等) 的预处理步骤, 这些算法再在生成的簇上进行处理。 数据聚类正在蓬勃发展,有贡献的研究领域包括数据挖掘,统计 学,机器学习,空间数据库技术,生物学,以及市场营销。由于数据 库中收集了大量的数据,聚类分析已经成为数据挖掘研究领域中个 非常活跃的研究课题。 在中医数字化过程中聚类分析已成为中医标准化、信息化的重要 工具。 3 问题的提出 正是由于中医发展和相关测量工具的高科技化而产生了大量的信 息数据,如何处理这些数据? 本文在中医理论指导下,针对以下问题 丌展研究。 如何通过建立人体代谢产物一尿液数据模型来辨别疾病? 证是 中医学特定病人在疾病发展特定阶段的病理生理状态,研究如何通过 第2 页共l o o 页 色谱指纹谱的智能聚类分析彳f 中医湿证辨别方面的研究 尿液数据模型来辨别证类?如何编制相应的软件实现疾病分辨、证 的辨别? 色渚指纹谱的智能聚类分析在中医湿证辨别方面的川究 第二章人体健康的浓缩液 尿液色谱指纹图谱的数学模型的建立 尿液是人体新陈代谢的产物,它包含人体的健康特征,但它又是 复杂的、有规律可寻的、易受干扰的。如何爿能将尿液中的所包含的 人体健康信息提取出来? 这里需要借助高效毛细管电泳法( h i g h p e r f o r m a n c e c a p i l l a r ye 1 e c t r o p h o r e s i s ,h p c e ) 来建立尿液的色谱指纹 图谱。 1 研究工具一色谱指纹图谱 色谱指纹图谱技术原来是针对中药中成分的复杂性以及用以鉴定 成分所需的化学对照品的缺乏这一症结来鉴定药品的特征,将药品的 内在特征翻译为药品的特征“指纹”。它以中药质量的研究为目的, 将中药的色谱图转化成数字化的指纹谱,并以由此衍生的一系列参数 和特定的计算公式所得到的数据作为判断依据,可用于中药质量的控 制和中药质量标准的建立。而且这一技术还为攀定假冒伪劣产品、寻 找和选择优质品种提供保证。本文将这种技术用来建立尿液的色谱指 纹图谱,并通过数字化来使研究工作顺利进行。下面先研究色谱指纹 图谱的原理。 1 1 色谱法原理及其特点 自1 9 0 3 年茨维特( t s w e t tm ) 创立色谱法( c h t o m a t o g r a p h y ) 以来, 已有1 个世纪的历史。从早期的干吸附剂装柱( 干法装柱) 发展为湿法 装柱,其后又陆续出现了薄层色谱、气相色谱、高效液相色谱、高效 毛细管电泳法等各种色谱技术。近年来,由于色谱理论研究的逐步深 入,加上电子技术和计算机的应用,促进了各种色谱技术的改善和创 新。目前色谱法已发展成为分析化学中富有生命力的分支之一。 色谱法的原理是借物质在两相间不同的分配而导致相互间的分 第4 页共1 0 0 负 色谱指纹谱的智能聚类分析在中医温证辨别方面的训f 究 离,在其近百年的发展过程中诞生了各种各样的色谱技术。若以色谱 分离的原理来分类,则有吸附色谱、分配色谱、离子交换色谱、排阻 色谱、亲和色谱、电色谱等。若按流动相的不同来分类,则有液相色 谱、气相色谱和超临界流体色谱等。这些不同的色谱技术,使色谱法 能充分适应于各种不同样品的分析。色谱技术不仅对样品三态或为气 体、液体或固体,而且对复杂组成的样品都能给出合适的分离以满足 分析的要求。 色谱技术具有极强的分离能力和极大的适应性,它的优点总结如 下。 ( 1 ) 由于它所依据的原理绝大部分为物理方法,因而在分离过程中 能保持物质的原样,不会破坏物质的结构和其特性 ( 2 ) 高灵敏度。样品的处理量可以很小,即使是百万分之一甚至更 少的含量都可用色谱法分离分析。它也可以作制备规模的分离分析, 制备量可达“克”数量级。目前用高效液相色谱法作分离制备时,色 谱柱直径可达10 c m 以上,由此可见其制备量之大,制备纯度之高。 ( 3 ) 分离分析时间短。与其他分析技术相比,在色谱柱中所经历的 分析时间是十分有限的,对一般化合物的分析时间都在l o 一2 0 分钟 内即可完成,对复杂混合物的分离,例如中药提取物或中药的挥发油, 在1 小时左右也可完成分离分析工作。 ( 4 ) 分离容量大。色谱法在一次进样分析中,可使几十个甚至更多 的组分得到分离。如在石油产品的分析中,一次进样可完成含有上百 个组分的样品分析。 ( 5 ) 分辨率高。可以用于各种结构类似物间的分离。 1 2 色谱指纹图谱 色谱法的分离效能十分适合于混合物的分离,可使混合物的内在 特性得到充分的显示,但它无法对每个分得的色谱峰作出鉴定,即无 法定性各个色谱峰分别代表什么化合物。而其他如u v 、i r 、n m r 、 m s 等各种分析技术都适于纯化合物的分析,反映每个化合物的结构 第5 页共i o o 页 色谱指纹谱的智能聚类分析自:中医湿证辨别方血的研觅 特征,但对混合物缺乏分析能力。在这种情况f ,中医的许多研究都 将注意力集中于利用色谱法所得的色谱图,混合物在给定的色谱条件 下,经色谱分析后能得到一张色谱图,该色谱图可反映该混合物的内 在特性,如果分离完全的话,虽然不能证明每个色谱峰属于何种物质, 但至少说明某些成分的存在,由这些色谱峰构成了该混合物的内在质 的因数。有些学者将这种给定色谱条件下所得的色谱图称为该物质的 色谱指纹图谱。本次研究就是利用色谱法的指纹图谱来聚类分析的。 2 色谱指纹图谱的数学模型的建立 其原理是在所有参与比较鉴定样品的色谱图中确定一个在各鉴定 样品中都有的色谱d 喹作为参比标准,然后求取所有色谱峰各自的相列。 保留值,将色谱峰保留值转化为漂移较少、相对稳定的相对保留值, 以此作为色谱峰的定位依据,加上各自的峰面积等参数,构成色谱指 纹图谱。然后将这些由色谱图转换成相对保留值的数字化色谱指纹图 谱为标准,对那些参与比较的样品进行研究。 色谱图转换为相对保留值的指纹谱后,由于相对保留值消除了许 多色谱实验过程中的系统误差,例如流速的波动、进样量的差异、固 定相的流失、柱填充情况的细微变化、流动相的微小改变等操作因素 引起的误差,使保留值的漂移大大降低,保证了色谱峰的正确定位。 由于不再以样品的色谱图外形直接作比较,而用每个色谱峰的相 对保留值及其相对应的面积归一化值作比较,有了这些量化指标后, 在比较时将减少鉴定者的主观误差,增强了鉴定的客观性、科学性和 公正性。 由数字化的色谱指纹图谱衍生了一系列参数,例如重叠率、特征 指纹峰、归一化面积值、n 强峰的比较以及与参照标准的相似率等, 这些参数的引入使色谱指纹图谱技术在混合物比较有更好的应用。数 字化色谱指纹图谱就是针对将色谱图及其数据转译成数字的方法。 数字化色谱指纹图谱的主要内容,即相对保留值和面积归化值 分别将色谱峰的定位和峰面积( 色谱峰的定性和定量指标) 以数字形式 鱼堂塑竺堂堕塑堕鍪茎坌塑堡! 垦堡堡塑型互堕塑塑壅 表达,并由此衍生出一系列色谱峰的比较参数和计算公式,为物质的 鉴别和分类准备数据。由于将每个色谱峰的保留时间转化为相对保留 值,不仅减低了保留时间的波动性,而且成了没有量纲的数字,作为 每个色谱峰的定位标示,实现了样品间的比较,也为不同实验室怕_ | 的 试验结果比较提供了可能。因此,在不同时问、地点和仪器设备的情 况下,只要保证相同的实验条件( 主要是色谱实验的条件恒定不变) , 就可以获得较好的重现性。这是转译成数字的一部分内容。另一个重 要的数字化操作是各色谱峰峰面积的面积归一化值,它是以样品内某 一个色谱峰的面积为基准,其余各色谱峰面积均与之相比,这样得到 一系列数值,它同样也是没有量纲的数字,但它反映了各成分在样品 内的含量比例。图1 是某种成分如果完全分离时产生的色谱图,符合 高斯曲线的所有特点;如果假设峰高为l ,那么当h :0 8 8 2 时,w : o ,当h 2 0 6 0 7 时,w j = 2o ;h = 0 5 0 0 时,w h = 2 35 4o ;h = 0 时,wb = 4o 、 | : 萝 叫 图1 理想色谱曲线图( 高斯曲线) 根据高斯积分公式可以求出峰的面积。 下面就本次研究的新鲜尿液的某两个样本的h p c e 在19 2 n m 波长 下的色谱指纹图谱,进行其数学模型方法的说明及其重要参数的建 立。 色谱指纹潜的智能聚类分析在中医湿证辨别方面的研究 n d 1a s 铲1 船jr e # 一( c 州| 0 f e 啪y e 鲫d a o y e nd ) l 盟j l 出监j l 幽 n d 1 3 i 口= 1 9 2 ir 水瞎y 刚叫t e 孙0 y e 日m 图2 尿液2 3 、2 4 号样品的1 9 2 n m 波长下的h p c e 图谱 表1 尿液样品2 3 号的h p c e 的面积、峰高及时间关系 第8 页共1 0 0 页 删啪功咖瞄叨埘瑚。 色谱指纹谱的智能聚类分析在中医湿证辨别方面的砌f 究 色酷指纹谱的智能聚类分析在中医湿证辨别方面的研究 表2 尿液样品2 4 号的h p c e 的面积、峰高及时间关系 第1 0 页共| 0 0 负 色谱指纹谱的智能聚类分析在中医湿证辨别方面的研究 2 1 共有峰和重叠率 共有峰:在可以比较的样品中,当色谱分离条件固定时,把具有 相同的出峰时间、相同的保留时间的谱峰。如样品23 中在时问 4 8 15 3 7 1 分钟出的谱峰和样品24 中在时间4 7 6 分钟出的谱峰即是共 有峰,显然在出峰时间上有一些差异,但是其大部分在时间上是重叠 的,因此,要设定一个恰当的范围,即在这个时间范围内的可以作为 共有峰,其他应该排除为共有峰。 有时会遇到同时有两个或两个以上的谱峰落到同一时间范围内。 这可能是两种或两种以上的化合物导致的,也可能是色谱分离过程中 某一条件发生变化。前者的情况应该有重复性,而后者无重复性。因 此时间范围的确定是比较重要的。 重叠率:由于共有峰在两样品中对应的色谱峰( 样品中含某物质 的特性) 是相同的,它们的出峰数中所占的比率反映了两者的相似度, 称之为重叠率。 重叠率= 篇x 1 0 。 公式( 1 ) 第1 i 页共 0 0 页 色谱指纹漕的智能聚类分析在中医湿证辨别方面的驯究 2 2n 强峰 由于分析的样品中成分复杂,不可能对其所有成分做分析也没有 必要性。为了突出含量较高的色谱峰的作用,可借鉴其它分析技术中 的强峰概念,具体设定如下:n 值是按实际的出峰情况而定。首先从 众多的色谱峰中,按其面积的大小,选择前n 个色谱峰为强峰,这n 个强峰的总面积和应占整个峰面积的7 0 以上。n 的值取决于两方面, 一是出峰总数多少,一般以总峰数的l 5 l 3 之间;二是根据n 个强 峰的峰面积大小而定。如果小于7 0 ,则应当适当增加,如果超过7 0 较多,则可以适当减少。n 强峰表明样品中的主要成分相对情况。 在样品2 3 、2 4 中总的峰数有1 6 5 、2 5 6 个之多,根据取峰原则,n 强峰分别是4 0 强峰和3 7 强峰。 第1 2 页共1 0 0 页 色谱指纹谱的智能聚类分析在中医湿证辨别方面的研究 第三章智能聚类分析的研究 在数据挖掘领域,研究工作己经集中在为大型数据库的有效和实 际的聚类分析寻找适当的方法。活跃的研究主题集中在聚类方法的可 伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析 技术,以及针对大型数据库中混合数值和分类数据的聚类方法。 聚类是一个富有挑战性的研究领域,它的潜在应用提出了各自特 殊的要求。数据挖掘对聚类的典型要求如下: 可伸缩性: 许多聚类算法在小于2 0 0 个数据对象的小数据集合上工作得很 好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数 据集合样本上进行聚类可能会导致有偏差的结果。需要具有高度可伸 缩性的聚类算法。 处理不同类型属性的能力: 许多算法被设计用来聚类数值类型的数据。但是,应用可能要求 聚类其他类型的数据,如二元类型( b i n a r y ) ,分类标称类型 ( c a t e g o r i c a l n o m i n a l ) ,序数型( o r i n a l ) 数据,或者这些数据类型的混 合。 发现任意形状的聚类: 许多聚类算法基于欧几里得距离或者曼哈坦距离度量来决定聚 类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球 状簇。但是,一个簇可能是任意形状的。提出能发现任意形状簇的算 法是很重要的。 用于决定输入参数的领域知识最小化: 许多聚类算法在聚类分析中要求用户输入定的参数,例如希望 兰生笪篮盟塑垦! 鐾耋笙墨墅王塑查塑坌塾壁! 叁堑塑堂堡垄亟 第1 3 页共1 0 0 页 色谱指纹谱的智能聚类分析在中医湿证辨别方面的研究 定,特别是对于包含高维对象的数据集来说,更是如此。要求用户输 入参数不仅加重了用户的负担,也使得聚类的质量难以控制。 处理噪声数据的能力: 绝大多数现实世界中的数据库都包含了孤立点,空缺,未知数据 或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质 量的聚类结果。 对于输入记录的顺序不敏感: 一些聚类算法对于输入数据的顺序是敏感的。例如,同一个数据 集合,当以不同的顺序提交给同一个算法时,可能生成差别很大的聚 类结果。开发对数据输入顺序不敏感的算法具有重要的意义。 高维性( h i g hd i m e n s i o n a l i t y ) : 一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算 法擅长处理低维的数据,可能只涉及两到三维。人类最多在三维的情 况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常 有挑战性的,特别是考虑到这样的数据可能非常稀疏,而且高度偏斜。 基于约束的聚类: 现实世界的应用可能需要在各种约束条件下进行聚类。假设你的 工作是在一个城市中为给定数目的自动提款机( a t m ) 选择安放位置。 为了作出决定,你可以对住宅区进行聚类,同时考虑如城市的河流和 公路网,每个地区的客户要求等情况。要找到既满足特定的约束,又 具有良好聚类特性的数据分组是一项具有挑战性的任务。 可解释性和可用性: 用户希望聚类结果是可解释的,可理解的,和可用的。也就是说, 聚类可能需要和特定的语义解释和应用相联系。应用目标如何影响聚 类方法的选择也是一个重要的研究课题。 第1 4 页共i o o 负 色谱指纹谱的智能聚类分析在中医湿证辨别方面的研究 了解这些约束,对聚类分析的研究将按如下的步骤进行。首先, 分析不同类型的数据,以及它们对聚类方法的影响。接着,给出一个 聚类方法的一般分类。然后详细地讨论各种聚类方法,包括划分方法, 层次方法,基于密度的方法,基于网格的方法,以及基于模型的方法。 1 聚类分析中的数据类型 在聚类分析中经常出现的数据类型,以及如何对其进行预处理。 假设要聚类的数据集合包含m 个数据对象,这些数据对象可能表示 人、房子、文档、国家等。许多基于内存的聚类算法选择如下两种有 代表性的数据结构: 数据矩阵( d a t am a t r i x ,或称为对象与变量结构) : 它用p 个变量( 也称为度量或属性) 来表现”个对象,例如用产地、 车种、颜色、车型、牌照等属性来表现对象“车”。这种数据结构是 关系表的形式,或者看成n p ( n 个对象p 个变量) 的矩阵。 x , - : x _ : x “ x l f : - x 旷 : _ x q x 1 p : - x 妒 : x n p 相异度矩阵( d i s s i m i l a t ym a t r i x ,或称为对象一对象结构) : 存储n 个对象两两之间的近似性,表现形式是一个h 维的矩 阵。 o d ( 2 ,1 ) 0 d ( 3 ,1 ) d ( 3 ,2 ) 0 d ( n ,1 ) d ( n ,2 ) 0 公式( 3 ) 在这里d ( f ,) 是对象i 和对象j 之间相异性的量化表示,通常 它是一个非负的数值,当对象i 和对象越相似或“接近”,其值越接 堑q ! 堕尘堕塞垫丕旦! 基鱼垫丕! 壁鉴! f i :j ) 三堕血! ) ! 亘旦璺i i :i ) 三! ! 第15 页共1 0 0 页 色谱指纹谱的智能聚类分析在中医湿证辨别方面的驯究 即可以得到形如上的矩阵。与之相反的是相似矩阵,当对象i 和列象 ,越相似或“接近”,其值越接近1 ,即d ( i ,j ) = d ( j ,i ) ,而且d ( i ,i ) 2l , 相似度为1 ;两个对象越不同,其值越小,接近0 ,即d ( i , j ) 接近0 。 数据矩阵经常被称为二模( t w o - - m o d e ) 矩阵,而相异度矩阵被称为 单模f o n e - - m o d e ) 矩阵。这是因为前者的行和列代表不同的实体,而后 者的行和列代表相同的实体。许多聚类算法以相异度矩阵为基础。如 果数据是用数据矩阵的形式表现的,在使用该类算法之前要将其转化 为相异度矩阵。( 也称模糊矩阵,而建立在此基础上的聚类分析被称 为模糊聚类) 。 区间标度变量: 区间标度变量是一个粗略线性标度的连续度量。典型的例子包括 重量和高度,经度和纬度坐标( 如聚类房屋) ,以及大气温度。 选用的度量单位将直接影响聚类分析的结果。例如,将高度的度 量单位由“米”改为“英寸”,或者将重量的单位由“千克”改为“磅”, 可能产生非常不同的聚类结构。一般而言,所用的度量单位越小,变 量可能的值域就越大,这样对聚类结果的影响也越大。为了避免对度 量单位选择的依赖,数据应当标准化。标准化度量值试图给所有的 变量相等的权重。当没有关于数据的先验知识时,这样做是十分有用 的。但是,在一些应用中,用户可能想给某些变量较大的权重。例如, 当对篮球运动员挑选进行聚类时,我们可能愿意给高度变量较大的权 重。为了实现变量度量值的标准化,一种方法是将原来的度量值转换 为无单位的值。给定一个变量f 的度量值,可以进行如下的变换: ( 1 ) 计算平均的绝对偏差( m e a na b s o l u t ed e v i a t i o n ) s i s f = 当忆一m f i + 1 嘞- m 小+ b m 川 公式( 4 ) 这里的x 。,x ,是f 的n 个度量值,m ,是f 的平均值,即 = 去b l ,+ 啊+ ( 2 ) 计算标准化的度量值,或z s c o r e 公式( 5 ) 第1 6 页共1 0 0 负 色谱指纹谱的智能聚类分析在中医湿证辨别方面的研究 ,一塑二竺 一 s , 这个平均的绝对偏差s ,比标准差。对于孤立点具有更好的鲁棒 性。在计算平均绝对偏差时,度量值与平均值的偏差( 即h m 加没有 被平方,因此孤立点的影响在定程度上被减小了。虽然存在更好的 对偏差的度量方法,例如中值绝对偏差( m e d i a n a b s o l u t ed e v i a t i o n ) ,但 采用平均绝对偏差的优点在于孤立点的z s c o r e 的值不会太小,因此孤 立点仍可以被发现。 对象间的相异度( 或相似度) 是基于对象间的距离采计算的。最常用的 距离度量方法是欧几里得距离,它的定义如下: d ( i ,) = 拈一x 川2 + k x ,:+ _ 十k b 1 2 公式( 7 ) 这里的i = ( x 门,x j 2 ,x ,) 和j = ( 。x j 2 。,z ,) 是两p 维的数据对象a 另一个著名的度量方法是曼哈坦距离,其定义如下: d ( i ,) = h x jr i + l x ,:- - x ,:卜+ k - x , , i 公式( 8 ) 上面的两种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论