




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 中医体质分类的规范化和标准化已经成为制约中医体质学说进一步发展的关 键性问题。聚类分析不需要任何先验知识,用数学的方法研究和处理给定对象的 分类,可以得出客观的结论。将聚类分析应用于体质分类研究将人人推进体质研 究的标准化进程。目前已存在一些有关体质聚类分析的实验研究,但由于其数据 量少、聚类算法不够完善等缺陷并未能提出被广泛认可的聚类结论。 本文首先对聚类分析的相关理论进行了系统的研究;针对中医体质聚类中存 在的问题,在聚类之前对调研所得的体质数据进行了具体的分析和处理,并针对 维度效应在聚类中可能产生的影响对数据进行了从高维到低维的投影操作;接着, 本文提出了一种适用于体质数据的相异度度量方法,并分别用两种方法计算得出 了相异度矩阵;最后,本文选取两种层次聚类算法,即分裂聚类算法分裂分 析( d i a n a ) 和聚合分析算法变色龙( c h a m e l e o n ) ,并对c h a m e l e o n 算法进 行了改进,实现了体质数据的聚类,并对聚类质量进行了量化评价。 通过对d i a n a 算法( 结合两种相异度度量方法) 和改进的c h a m e l e o n 算法 这三种途径计算所得的聚类结果的比较和分析,本文得出的体质分类的实验结论, 为体质分类的标准化提供了客观有力的实验结论。另一方面,本文认为该结论在 很大程度上与北京中医药大学王琦教授提出的体质九分的结论相致,证实了其 理论的正确性。 体质可分是中医体质研究的初步阶段,是体病相关、体质可渊等中医体质理 论的基础。本文基本完成了体质可分阶段的工作,这对于中医体质的研究来说是 不够深入的。另外,对于聚类结果的显示,还需要对科学可视化的理论和技术进 行学习和研究,这止电将是本文后续工作的主要方向。 关键词: 体质研究层次聚类分裂分析算法变色龙算法 a b s t r a c t t h es t a n d a r d i z a t i o no ft h ec l a s s i f i c a t i o nh a sb e c o m et h ec r u c i a lp r o b l e mt h a t c u m b e r st h ed e v e l o p m e n to ft h es t u d yo fb o d yc o n s t i t u t i o nt y p e s c l u s t e r i n ga n a l y s i s i st oc l a s st h eg i v e no b j e c t st h r o u g hm a t h e m a t i c a lp r o c e s sa n da n a l y s i s i td o e sn o t n e e da n yr e l a t e de x p e r i e n c e sa n dw i l ld e d u c ea no b j e c t i v ec o n c l u s i o na f t e rt h ea n a l y s i s a p p l i c a t i o no fc l u s t e r i n ga n a l y s i si ni d e n t i f y i n gb o d yc o n s t i t u t i o nt y p e sw i l lp r o m o t e t h es t a n d a r d i z a t i o np r o c e s sg r e a t l y i nt h ep a s ty e a r s ,t h e r eh a v eb e e ns o m er e s e a r c hr e s u l t sa b o u tc l u s t e r i n ga n a l y s i s i nb o d yc o n s t i t u t i o nt y p e s b u tt h em e t h o d sa r en o tr e a s o n a b l ee n o u g ha n dt h ea m o u n t o ft h ed a t ai n v o l v e di nt h ec l u s t e r i n gi st o os m a l lt od e d u c ea na u t h o r i z e dc o n c l u s i o n f i r s t l y , c l u s t e r i n ga n dr e l a t e dc o n c e p t si si n t r o d u c e di nb r i e f t h e nw i t hr e g a r d s t o t h es h o r t c o m i n g so fc u r r e n tc o n s t i t u t i o n a lc l u s t e r i n g ,t h eo r i g i n a ld a t ai sa n a l y z e d c a r e f u l l ya n dp r o c e s s e da c c o r d i n gt ot h es p e c i f i cn e e d s t od e a lw i t hd i m e n s i o n a l i t y e f f e c t ,t h ed a t ai sp r o j e c t e da n dt r a n s f o r m e dt oas m a l l e rd i m e n s i o n a lf o r m a t a n e w m e t h o dt oc o m p u t es i m i l a r i t ym a t r i xi sp r o p o s e da n dt h em a t r i xi sc o m p u t e di nt w o w a y s f i n a l l y , t h ec l u s t e r i n gi si m p l e m e n t e dw i t ht w ok i n d so fa l g o r i t h m ,d i v i s i v e a n a l y s i sa n dc h a m e l e o ni m p r o v e di n t h i sp a p e r t h ef o r m e ro fw h i c hi s b a s e do n d i v i s i o na n dt h el a t t e ri sm e r g e n c e a n dt h er e s u l t sa r ee s t i m a t e di nm a t h e m a t i cw a y a f t e ra ne s t i m a t ef o rt h eq u a l i t yo fc l u s t e r sf r o mt h r e ed i f f e r e n tc l u s t e ra n a l y s i s p r o c e s s e s ,a ne x p e r i m e n t a lc o n s t i t u t i o n a lc l a s s i f i c a t i o nc o n c l u s i o ni sd e d u c e da n di t w i l lb ea no b j e c t i v ee x p e r i m e n t a lc o n c l u s i o nf o rb o d yc o n s t i t u t i o ns t u d y o nt h eo t h e r h a n d ,i ti sh i g h l yi na c c o r d a n c ew i t ht h ec o n c l u s i o nt h a tt h eh u m a n sb o d yc o n s t i t u t i o n s h o u l db ed i v i d e di n t on i n ep a r t i t i o n sb yp r o f e s s o rw a n gq if r o mb e i j i n gt c m u n i v e r s i t y t h ep r o p o s i t i o no fn i n e - p a r t i t i o nb o d yt y p e si sp r o v e dt ob er e a s o n a b l e t h ei d e n t i f y i n go fb o d yc o n s t i t u t i o nt y p e si st h ef i r s tp a r to fb o d yc o n s t i t u t i o n t h e o r yi nt c m i ta l s oi n c l u d e sr e l a t i o n s h i po fb o d yc o n s t i t u t i o na n dd i s e a s e sa n dh o w t oa d a p th u m a nb o d yc o n s t i t u t i o nt y p e si nd i s e a s e st r e a t m e n t t h ec l a s s i f i c a t i o no f b o d yc o n s t i t u t i o ni sc o m p l e t e di nt h ep a p e r ,b u tt h eo t h e rt w op a r t sn e e df u r t h e r r e s e a r c h a n dt h ed e m o n s t r a t i o no ft h er e s u l t sw i l lb eh e l p f u li nt h ea d j u s t m e n td u r i n g t h ec l u s t e r i n g t h e s ew i l lb et h em a i nc o n t e n t sf o r t h ef u r t h e rr e s e a r c ho ft h ep a p e r k e y w o r d s :s t u d y o fb o d yc o n s t i t u t i o nt y p e s ,h i e r a r c h i c a lc l u s t e r i n g , d i v i s i v ea n a l y s i s ,c h a m e l e o n 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所旱交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果:也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:丝塑鬯垦闩期迎墨:f :! ! 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期i 、日j 论文工作的知谚 产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 第一章绪论 体质现象是人类生命活动的一种重要表现形式,它与健康和疾病密切相关。 体质分类就是将人群中的个体体质,根掘其各自不同的表现,按照一定的标准, 采用一定的方法,通过整理、分析、归纳而进行全面系统的分类,分成若干类型。 不同的体质是产生疾病差异的内在根源,因而体质分类研究也是从深层次认识疾 病的酶提1 1 ,引。 中医体质类型的分类方法很多,目前比较被认同的分类方法主要有王琦的九 分法、匡调元的六分法和何裕民的六分法,及其他一些研究者根据其临床经验而 提出的分类方法。 迄今为止,中医体质判定标准仍然存在着一定的模糊性,临床上往往因为医 生经验的不同,辨证也有所差异,科研中也因遵循辨证标准的不同而出现不同的 结果,这在很大程度上阻碍了中医体质研究的发展l 引,因而建立统一、客观的中 医体质判定标准便成为目前中医体质研究工作的重中之重。 1 1研究背景 中医体质研究属于中医基础研究自选项目,含国家自然科学基金及国家重点 基础研究发展计划( 9 7 3 ) 资助项目。 2 0 世纪7 0 年代王琦等一批学者即丌始体质学说的研究并发表了相关论文, 1 9 7 8 年王琦、盛增秀明确提出了“中医体质学说”的概念,并于1 9 8 2 年主编出 版了第一部中医体质学专著中医体质学说。该书的出版,奠定了中医体质 学研究的理论与实践基础,标志着这一学说的正式确立,并受到中医学术界广泛 关注与肯定。2 0 多年来,以王琦、匡调元、何裕民等为代表的中医体质学者,采 用传统与现代科技手段相结合的方法,对中医体质学进行了深入的理论与临床研 究,相继提出并建立中医体质病理学、体质治疗学、体质药物治疗学和体质预防 学等中医体质学的各级分支学科。 体质分型是体质学说临床运用中的重要问题。现代中医对体质的分型研究, 一般是从临床角度根据疾病群体中的体质变化、表现特征及孑疾病的关系等方面 对体质进行分类。较有代表性的分类方法有t 琦的9 分法( 平和质、阴虚质、阳 虚质、痰湿质、湿热质、气虚质、瘀i 缸质、气郁质、特禀质) 和匡调元6 分法( 正 常质、晦涩质、腻滞质、燥热质、迟冷质、倦质) ,另外还有7 分法、1 2 分法等i 4 1 。 另有学者针对不同性别、年龄人群,分别作体质分型。如陈慧珍1 5 j 将妇女体质分 为7 种类型,正常质、阴虚质、刚虚质、肾虚质、气血虚弱质、痰湿质、瘀滞质。 温振廿1 6 1 将小儿体质分为5 种类型,即阴阳平和型、滞热型、脾胃气虚型、脾胃 2革j :止:次聚类的中医体质分类研究 阴虚型、脾胃气阴两虚型。此外,诈常体质也存在不同的类型。胡文俊i 通过对 1 6 岁一2 1 岁岁健康青年人调a 表明,健康青年人的体质并非都属于“正常质”, 而是具备了所有的体质类型,包括协调型占6 1 9 ,功能偏亢型占1 3 4 ,偏弱 型i 与3 8 6 6 ,偏亢及偏弱兼挟型占4 1 7 5 。孙国强1 8 l 调查办发现,健康人群办存 在不同的体质类型,其中正常型占8 1 ,偏阴虚型占3 1 9 ,偏阳虚型占4 3 1 , 偏湿盛型占1 1 1 ,偏气虚型占5 6 。有人还对气虚体质形成因素作了探讨并指 出,形成气虚体质的因素,有先天禀赋和后天环境两个方面,气虚体质是两种因 素相互作用的结果i 引。 如何对人群体质现象做出客观的分类,建立规范化的分类方法与标准,是现 代体质研究中一个突出的问题。在体质分类标准尚未形成前,可以从目前公认的 体质类型着手,展丌群体调研,采用b a y e s 判别分析法、多元线性回归分析、聚 类研究及主成分分析等统计学方法构建不同体质类型的理论模型,建立不同体质 类犁的量表1 1 0 j 。 经过长期的医学调研,医务人员已经收集了大量有关人体体征的数据,并根 据权威医学专家的建议将其量化成数字。另一方面,数据挖掘学科和计算机技术 的发展使海量数据的分析与知识的发现成为可能,人体体质分类的标准化时机已 经成熟。本文正是在对数据挖掘理论进行仔细研究的基础上,根据所得的数据的 特征,选取合理的聚类算法对数据进行分析,从数学角度给出体质分类的结果, 可作为中医体质研究的实验依据。 1 2体质聚类分析的现状 自中医体质学说的创立以来,圈内外很多学者在体质分类研究方面进行了大 量的工作,将聚类分析应用于体质分类已不是首创。 1 9 8 9 年,以王琦为组长的国家自然科学基金资助课题“中医痰湿( 肥胖) 体 质的基础研究”课题组,通过全国范f h 内1 0 3 6 例大样本肥胖人流行病学群体调研, 拟定了痰湿体质的定量诊断标准模式。壬前奔等依据痰湿体质课题组调查的1 0 3 6 例肥胖人有关数据,运用模糊数学中以建立模糊相似关系为基础的系统聚类分析 法,提出了一种新的痰湿体质评定标准,为体质分蚕! 规范化研究提供了新的思路。 聚类分析( c l u s t e r i n g a n a l y s i s ) 属多变最统计分析方法,它是在“物以类聚” 的原则指导下,根据观测样本的检测数据,定量地确定多个指标或多个样本间存 在的亲疏关系或相似性,并拆:此连接这蝗指标或样本,归成大小类群,构成树状 分类图,然后选取适当标准,并结合具体情况,做 j 分析i l 。 宋窒i 普等采用q j 国人体质i 、u j 卷( c h i n e s ec o n s t i t u t i o n a lq u e s t i o n n a i r e ,c c q ) 对4 7 6 例原发性高血压患者的体质进彳r 了聚类分析,并设4 6 9 例肿瘤对照组和4 3 3 第一一章绪论 3 例正常对照组,结果4 7 6 例原发件高血压患者的体质类型主要为精亏质、郁滞质、 紧张质、津亏质、内热质、阳虚质和气虚质等。何裕民等从医案和古文献中筛选 出反映体质特点,但不是具体疾病典型症状的项目3 4 0 多条,组合成体质量表, 再经过删减和调整,最终形成了包含1 3 0 多个项目的c c q ,并根据该c c q ,进 行大样本的体质调研,采用聚类分析方法,得出强壮质、虚弱质、偏寒质、偏热 质、偏湿质、瘀迟质共6 种体质类型。贯剑等采用c c q 对1 6 8 2 例变应性鼻炎患 者的体质进行了调研,采用聚类分析方法对资料进行了分析,结果得到树状的体 质分类图:即基本的体质为协调质、失调质、紧张质和虚弱质;失调质又分为郁 滞质和内热质,虚弱质又分为气虚质、阳虚质、精亏质和津亏质;郁滞质又分为 肝郁质、痰湿质和瘀阻质,气虚质又分为肺气虚、脾气虚和心气虚1 4 】。 聚类分析方法不事先假定体质量表中有关项目的意义和性质,而是根据项目 与项目之间的相关性进行分析,并借助医理和逻辑分析做出判断,既避免了在纯 思辨或个人经验的框架中研讨体质,又将客观事实、逻辑医理和医家经验有机地 融为一体。但现有的聚类分析方法存在以下几个问题。 1 算法有缺陷:现有的体质聚类都采用分割聚类算法,这类算法虽然收敛 速度快,但倾向于识别凸形分布、大小相近、密度相近的聚类,而不能 发现形状比较复杂的聚类,并且初始聚类中心的选择和噪声数据会对聚 类结果产生较大的影响。 2 数据量较小:由于其参与计算的数据量相对较小,针对的人群范围不够 广泛,其结果也就只能代表一部分人群的体质特征,无法为中医体质学 说提供客观全面的实验依据。 3 相异度计算不合理:聚类分析首先要计算相异度矩阵,选取合适的相异 度度量方法是影响聚类结果的重要因素。现有的聚类分析选用的度量方 法没有考虑到中医体质数据的特点,无法很好地体现数据间的相异度。 4 忽略了维度效应:体质数据往往是从上百个方面体现人体的各种体征, 对应上百维的聚类数据。现有的体质聚类分析并没有考虑聚类分析中的 维度效应,这在一定程度上也影响着聚类结果。 1 3本文工作 本文在对前人使用聚类进行体质分类研究的基础上,针对其聚类存在的不足, 充分利用现有的大量数据,选取两种基于层次的聚类算法,先根据具体的要求对 数据进行处理,对算法进行调整,再通过软件编程得m 聚类结果,给出了对实验 结果的分析,得出较为合理的体质分类结论。本文主要工作如下: 1 数据处理:对调研所得的数据进行分析整理,根据其特点进行空值处理; 4 基丁层次聚类的中医体质分类研究 针对高维数据可能出现的维度效应对聚类的影响,在不改变数据所包含 信息的前提下,本文将原始数据从高维投影到低维,为算法输入做准备; 2 相异度度量方法设计:提出了一种符合中医体质数据特点的计算相异度 矩阵的方法,并分别使用传统方法和新设计的方法计算得出了预处理后 的数据矩阵所对应的相异度矩阵,并将其应用于聚类过程中,提高了聚 类质量; 3 抽象算法思想的具体化:通过对数据挖掘理论和聚类分析算法的研究, 选取两种基于层次的聚类算法,即d i a n a ( d i v i s i v ea n a l y s i s ) 和 c h a m e l e o n 算法。而这些算法并未被应用于体质分类,本文根据具体的 应用条件将抽象的算法思想转化为符合软件实现的算法流程,设计了相 应的数据结构; 4 聚类算法改进:在对c h a m e l e o n 算法的理论及其在其他领域中的应用进 行深入分析和研究之后,本文对c h a m e l e o n 算法进行了改进,并将其应 用于体质聚类,实验结果表明改进后的算法提高了聚类质量; 5 聚类分析实现:根据现有的中医体质分类结论选取典型的控制变量,分 别使用d i a n a 算法和改进后的c h a m e l e o n 算法,结合不同的相异度矩 阵进行计算,以结果簇的形式得出了实验结果,并按照聚类结果质量评 价的标准计算实验结果的参数指标,给出了最佳聚类结果; 6 体质聚类结果分析:对最佳聚类结果簇进行分析,从其中的大多数元素 的数据特征对应于人体的体征信息,给出了体质分类结论。 将聚类分析方法应用于中医体质分类,其优势是非常明显的,但为保证其结 果的可用性,必须有足够量的客观数据并选取合理的聚类算法,这些是影响其聚 类结果的关键。 本文采取以下几点措施,保证了结果的客观性: 1 所有数据由北京中医药大学下琦教授领导的课题组调查所得,工作人员 从北京、甘肃、河南、江苏、吉林、江西、青海、福建、安徽等9 个省市对各种职业背景、年龄阶段、生活环境的两万多人通过问卷调查 采集回2 0 7 1 3 条有效记录,有效收率为9 5 0 7 。 2 在对各种聚类算法进行深入了解后,选取了两种算法分别进行计算,并 对其中一种算法选取两种输入进行运算,按照聚类结果质量评价的标准 计算实验结果的参数指标,比较分析j 种实验结果,求同存异,得出客 观的结论。 r ,医体质学研究的总体趋势是客观化、标准化和数量化,其中数量化是i 仁常 重要的环节。聚类分析将是这一环节中歹l :展其它工作的基石,占领这一阵地,将 为中医体质学的发展逐步从传统的以定性描述为主的方式向定鼍研究的方式过渡 第章绪论 5 打好基础,也必将在中医药规范化研究中注入新的生机和活力。 1 4论文的组织结构 在文章组织上,本文遵循由浅入深,逐层递进的规律展开论述。 第一章是整个文章的引子,简要介绍了本文所研究的课题的项目背景,聚类 分析在体质研究方面的应用现状,列出了现有的体质聚类中存在的问题,最后介 绍了本文的主要工作。 第二章中,本文对所研究的问题的理论背景聚类分析进行了简要、系统 的介绍,包括其基础概念、数学模型和各种算法的分类及性能比较。 第三章是本文的主要工作之一,对调研所得的数据进行了针对性的处理,包 括空值处理、高维到低维的投影等,分别使用传统相异度计算方法和本文设计的 相异度计算方法得出两种相异度矩阵。 第四章是聚类的具体实现,选取两种层次聚类算法,并对其中一种算法进行 改进,分别使用两种算法进行计算,以结果簇的形式得出实验结果,并按照聚类 结果质量评价的标准计算实验结果的参数指标,结果证实当聚类参数为9 的时候 两种算法的实验结果都达到了最佳的参数标准,即簇内相异度最小,簇问相异度 最大。 第五章是结束语,总结了本文的工作及成果,并对本文的下一步工作提出展 望。 7 第二章聚类分析 聚类( c l u s t e r i n g ) 就是按照一定的要求和规律对事物进行区分和分类的过程。 在这一过程中没有任何关于类别的先验知识,也没有教师的指导,仅靠事物问的 相似性作为类属划分的准则,因此属于无监督分类的范畴。“人以群分,物以类聚”, 聚类是一种重要的人类行为,人类要认识世界就必须区别不同的事物并且认识事 物问的相似性。聚类分析则是指用数学的方法研究和处理给定对象的分类l l 引。 为了更好地理解和运用聚类分析的手段解决中医体质分类的问题,本章将对 聚类分析中的各种算法和思路进行系统的研究,包括数学模型、相关的数据结构、 聚类分析的应用和各种聚类算法及其优缺点等,为将聚类应用于体质分类研究提 供理论支持。 2 1簇的定义 聚类分析的结果中由相似的数据对象形成的一个分组称为簇( c l u s t e r ) 。由于 不同应用所要分析的具体数据具有不同的特征,因此聚类的目标簇具有不同的形 式和定义。目前,术语“簇”还没有一个精确统一的定义。不过,文献中存在如 下一些常用的定义1 1 3 j 。 1 分离明显的簇 分离明显的簇由这样的一些点构成,簇内任意一点与簇内其它所有点的距离 都小于它与簇外任意一点的距离。如图2 1 所示。有时会使用一个阈值来约束簇 内任何两点之问的距离。 图2 1 由二维数据集组成的二个分离明显的簇 这是一种理想的情况。然而,许多数据集中,簇边缘上的点有可能更接近于 其它簇的一些点,于是,许多算法采f j 以下一些簇的定义。 2 基于中心的簇 基于中心的簇由这样的一些点构成,簇内任意一点与簇“中心点”的距离郜 小于它与其它簇的“中心点”的距离。这种簇的中心点通常是簇的质心簇内 所有点的平均值,或者足簇的形心( m e d o i d ) 簇内“最具代表性”的点。如 8基- l - j ,:次聚类的中医体质分类研究 图2 2 所示。 黪:莲攀 图2 2 由_ 二维数据集组成的四个基于中心的簇 3 连续的簇 连续的簇( 最近邻或传递簇) 由这样的一些点构成,簇内任意一点与簇内其 它一个或多个点的距离小于它与簇外任意一点的距离。如图2 3 所示。 燃篆萎鬻萋攀 图2 4 由二维数据集组成的二个基】。密度的簇 5 基于相似性的簇 基于相似性的簇由“相似 点组成,并且不州簇的点不相似。其中一种变化 是将簇定义为一系列的点,这些点共同建立一个具有同一性质( 例如密度或形状) 的区域。 以上五种簇的定义中,第一至四种定义常用于低维度量空间,而对于高维空 间簇的定义应该使用第五种方法,原因在于高维空i 丑j 中数据间的距离度量不像低 维空i 日j 中那么有效。 2 2数学表示 设x = 缸,z :,x 。】- 是待聚类分析的埘缘的令体( 称为论域) ,x 中的每个对 象( 称为样本) 工。( 1s fs ,1 ) 常用有限个参数值来刻画,每个参数值刻画x ,的某个 第- 二章聚类分析 9 特征。于是对象j j 就伴随着一个向( 矢) 量p ( x j ) = o n ,x ,石蛔) ,其中 ( 1sj sm ) 是t 在第_ 个特征上的赋值,p ( x i ) 称为x ,的特征向量或模式向量。 聚类分析就是分析论域x 中的n 个样本所对应的模式向量间的空间距离及分散情 况,按照各样本问的距离远近关系把而,叠,x n 划分成k 个不相交的模式子集 x 。,工:,x t ,并要求满足下列条件1 1 2 l : x 1ux 2u u x t ;彳, 石jnx 2 刀 ( 1sf ,s 后,i 乒,) ( 2 1 ) 样本石,( 1s _ s 刀) 对子集( 类) x ,( 1 sis k ) 的隶属关系可用隶属函数表示为: ,、f 1 x j ) h ( 卜 t o 。觚) ( 2 - 2 ) 其中隶属函数必须满足条件m ,e m 船。也就是说,要求每一个样本能且只能 隶属于某一类,同时要求每个子集( 类) 是非空的。 m h i 一 i o ,1 , k 善 i 1 ;o 再 。对每个量 化器q ,我们定义失真度d ( q ) 为随机向量x 与码矢q ( x ) 之间的相异度的期望值, 即式( 2 - 8 ) 。 d ( g ) = e d ( x ,q ( x ) ) 】 ( 2 8 ) 其中的相异度距离d ( x ,口( x ) ) 通常定义为方差,即式( 2 - 9 ) 。 d ( x ,g ( x ) ) 2 荟( x 目( x j ) ) 2 ( 2 - 9 ) 1 4基丁层次聚类的中医体质分类研究 不过,也可以考虑使用其它的距离度量,例如欧几罩德距离或。距离( 见第 2 2 节) 。 当x 的分布己知时,d ( q ) 可以计算如式( 2 - 1 0 ) 。 d ( q ) 2 善e 【d ( x ,口r ) l xe s ,】p , xe s j 】 ( 2 - 1 0 ) 许多情况下x 的分布是未知的。这时,可以认为s 是由n 个向量x 1 ,x ”的 有限序列组成,则d ( q ) h l 以近似计算如式( 2 - 1 1 ) 。 ) 。寺善d ( x iq ( ) ) ( 2 - 1 1 ) 给定s 和k ,向量量化的目的是找出集合a 和失真度最小的量化器q 。这对 于s 和k 是目标函数为方差距离函数的最小和问题。根据文献中的论断,i j n 和 s t o r e r 2 7 q i e 明了这个问题是n p 完全问题。 2 3 4 图像处理应用 一个图像处理系统将连续的图像转换为数字数据,然后对数据进行分析以确 定图像的特征。其目的是为改善图像的视觉效果( 例如使卫星照片易读) ,或者自 动分别出图像中的不同对象。 图像处理系统中的一个重要分支是图像分割,它将一个二维图像划分为不同 的区域,使得位于同一区域的像素点在某种程度上比位于不同区域的像素点更为 相似。每个像素被指派一个向量,其成分称为特征。特征的选取取决于具体的应 用,且必须提供与该像素所有相关的信息用来聚类。两个像素点之i 日j 的相似度由 它们对应的向量的函数确定。 如果聚类结果的每个簇必须是坐标平面内相连的集合,则称划分存在空间相 连性的约束。实际的问题比较复杂,因为特征向量的簇不一定在坐标平面内相连。 文献中有不少有关的方法用来找出初始的聚类然后对其进行优化,以观测对象的 空间属性。 文献2 8 1 中讨论了三种图像进行分割的情况,其中每种图像都确定了不同的 特征向鼍。聚类算法的目标是将图像划分为不问的区域,每个区域代表原始图像 的一个表面补片( s u r f a c ep a t c h ) 。 2 4聚类算法的分类 以聚类算法所采用的基本思想为依据将, - - i f 分为h 类,即层次聚类算法、分 割聚类算法、基于约束的聚类算法、机器学习中的聚类算法以及用于二高维数据的 第:章聚类分析 1 5 聚类算法1 2 9 1 ,如图2 5 所示。 聚类 层次聚类算法 分割聚类算法 聚合聚类 分解聚类 基于密度的聚类 基于网格的聚类 基于图论的聚类 基于平方误差的迭代重分配聚类 基于约束的聚类算法 机器学习中的聚类算法 全季冀蓑呈誓磊霉法 用于高维数据的聚类算法 聂喜霎羹类 图2 5 聚类算法分类示意图 2 4 1 层次聚类算法 。 层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚 类,它又可以分为两类,即自底向上的聚合层次聚类和自顶向下的分解层次聚类。 聚合聚类的策略是先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐 层进行聚合,直至满足一定的终止条件;后者则与前者相反,它先将所有的对象 都看成一个聚类,然后将其不断分解直至满足终止条件。 对于聚合聚类算法来讲,根据度量两个子类的相似度时所依据的距离不同, 又可将其分为基于s i n g l e l i n k 、c o m p l e t e l i n k 和a v e r a g e l i n k 的聚合聚类。 s i n g l e l i n k 在这二:者中应用最为广泛,它根据两个聚类中相隔最近的两个点之问 的距离来评价这两个类之问的相似程度,而后两者则分别依据两类中数据点之间 的最远距离和平均距离来进行相似度评价。 本文所选用的就是层次聚类算法,其中d i a n a 是分解层次聚类,c h a m e l e o n 是聚合层次聚类。 2 4 2 分割聚类算法 分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为k 个划分, 然后从这k 个初始划分丌始,通过重复的控制策略使某个准则最优化以达到最终 的结果。这类方法义可分为基于密度的聚类、基于网格的聚类、基于图沦的聚类 和基于平方误差的迭代重分配聚类。 1 6 基丁层次聚类的中医体质分类研究 基于密度的聚类算法从数据对象的分布密度出发,将密度足够大的相邻区域 连接起来,从而可以发现具有任意形状的聚类,并能有效处理异常数据。它丰要 用于对空间数据的聚类。 基于网格的聚类从对数据空间划分的角度出发,利用属性空f a j 的多维网格数 据结构,将空间划分为有限数目的单元以构成一个可以进行聚类分析的嘲格结构。 该方法的主要特点是处理时间与数据对象的数目无关,但与每一维空阳j 所划分的 单元数相关,而且,基于其间接的处理步骤( 数据一网格数据一空间划分一数据 划分) ,该方法还与数据的输入顺序无关。与基于密度的聚类只能处理数值属性的 数据所不同的是,基f 网格的聚类可以处理任意类型的数据,但以降低聚类的质 量和准确性为代价。 基于图论的方法是把聚类转换为一个组合优化问题,并利用图论和相关的启 发式算法来解决该问题。其做法一般是先构造数据集的最小生成树( m i n i m a l s p a n n i n gt r e e ,m s t ) ,然后逐步删除m s t 中具有最大长度的那些边,从而形成 更多的聚类。基于超图的划分和基于光谱的图划分方法是这类算法的两个主要应 用形式。该方法的个优点在于它不需要进行一些相似度的计算,就能把聚类问 题映射为图论中的一个组合优化问题。 基于平方误差的重分配聚类方法的主要思想是逐步对聚类结果进行优化、不 断将目标数据集向各个聚类中心进行重新分配以获得最优解( 判断是否是最优解 的目标函数通常通过平方误差计算法得到) 。此类方法又可进一步分为概率聚类算 法、考虑了最近邻影响的最近邻聚类算法以及k m e d o i d s 算法和k m e a l l s 算法。 2 4 3 其他聚类算法 真实世界中的聚类问题往往是具备多种约束条件的,然而由于在处理过程中 不能准确表达相应的约束条件、不能很好地利用约束知识进行推理以及不能有效 利用动态的约束条件,使得这一方法无法得到广泛的推广和应用。这罩的约束可 以是对个体对象的约束,也可以足对聚类参数的约束,它们均来自相关领域的经 验知识。该方法的一个重要应用在于对存在障碍数据的二维空间数据进行聚类。 c o d ( c l u s t e r i n gw i t ho b s t r u c t e dd i s t a n c e ) 就是处理这类问题的典型算法, 其主要思想是用两点之间的障碍距离取代了一般的欧氏距离来计算其问的最小距 离。 机器学习中的聚类算法是指= j 机器学习相关、采用了某些机器学习理论的聚 类方法,它主要包括人工神经网络方法和基于进化理论的方法。 高维数据聚类是 jf j 订多媒体数据挖掘领域面临的蓖大挑战之一。对高维数据 聚类的困难主要来源f 以下两个洲素:高维属性空间中那些无关属性的出现使 第二章聚类分析 1 7 得数据失去了聚类趋势:高维使数据之问的区分界限变得模糊。除了降维这一 最直接的方法之外,对高维数据的聚类处理还包括子空间聚类以及联合聚类技术 等。 2 4 4 聚类算法小结 从以上的分析u 丁以看出现有的聚类算法在不同的应用领域中表现出了不同的 性能,也就是说,很少有一种算法能同时适用于若干个不同的应用背景。 总体来说,分割聚类算法的应用最为广泛,其收敛速度快,且能够扩展以用 于大规模的数据集;缺点在于它倾向于识别凸形分布、大小相近、密度相近的聚 类,而不能发现形状比较复杂的聚类,并且初始聚类中心的选择和噪声数据会对 聚类结果产生较大的影响。 层次聚类方法不仪适用于任意属性和任意形状的数据集,还可以灵活控制不 同层次的聚类粒度,因此具有较强的聚类能力,但它大大延长了算法的执行时间: 此外,对层次聚类算法中已经形成的聚类结构不能进行回溯处理。 基于约束的聚类通常只用于处理某些特定应用领域中的特定需求。机器学习 中的人工神经网络和模拟退火等方法虽然能利用相应的启发式算法获得较高质量 的聚类结果,但其计算复杂度往往较高,同时其聚类结果的好坏也依赖于对某些 经验参数的选取。 在针对高维数据的子空间聚类和联合聚类等算法中,虽然通过在聚类过程中 选维、逐维聚类和降维从一定程度上减少了高维度带来的影响,但它们均不可避 免地带来了原始数据信息的损失和相应的聚类准确性的降低。 寻求这类算法在聚类质量和算法时间复杂度之间的折衷对得出高质量的聚类 结果也是一个重要的问题。 2 5小结 本章对聚类分析的基本概念、数学模型、应用领域及现有的聚类算法做了系 统的研究。通过对各种聚类算法的比较,本文认为层次聚类相比其他聚类算法具 有较强的聚类能力,参数设置较少,可减少人为因素对聚类结果的影响,且实现 的复杂度不高,比较适合作为本文所研究问题的实现方法。 1 9 第三章人体体征数据处理 数据预处理是数据挖掘( 知识发现) 过程中的一个重要步骤,尤其是在对包 含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处 理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的 目的。 本章首先将对调研的方法及相关量表的设计加以分析,再对调研所得的数据 进行有针对性的处理,包括空值处理、投影等。 对于高维数据集,聚类结果在一定程度上还受到维度效应的影响。在对数据 进行预处理后,本章将对高维数据进行低维投影,以减小维度效应的影响。 对数据进行处理后,还需要选用合理的度量方式计算数据元组之间的相异度。 本章根据体质数据的特点,将提出一种特殊的相异度的度量方法,使数据间的距 离定义更加符合体质数据的特异性。 3 1体质量表的设计 调研所用的量表是项目组聘请多位中医专家,结合现有的体质调查表,根据 对人体体质进行分类时参考的各个体征信息,重新设计的更加完整和全面的体质 量表。 该量表共分为两个表格:表一( 被调查者用表) 、表二( 调查者用表) 。其中 表一以选择题的形式记录被调食者各个方面的情况,包括背景调查的内容和身体 及心理的状况。表二是调查者对表一的内容进行整理后,再观察被调查者其它方 面( 唇色、脉象等) ,将所有的体征信息记录在内,形成了代表被调查者体征的 1 2 8 个量化值。这些值的取值为是或否,表示该被调查者是否符合此种特征。最 后,表二中给出了中医专家根据各个体征值对被调查者的体质类型做出的判断和 评价,可以作为后续工作的参考。 最终所得的数据文件可分为两方面内容,被调查者的背景调查信息和整理后 的体征量化值。前一部分由表一中获得,后一部分由表- 二中获得。下面给出表二 的部分截图,如图3 1 ( a ) $ t l3 1 ( b ) 所示。 3 2体质数据预处理 3 2 1 数据预处理的主要工作 现实世界的数据常常是彳j 噪声、不完全和不一致的。所谓噪声数据是指数据 中存在着错误或异常( 偏离期望值) 的数据;不完整数据是指感兴趣的属性没有 2 0基j :层次聚类的中医体质分类研究 值;而不一致数据则是指数掘内涵出现不一致,如作为关键字的同一部门编码出 现不同值1 3 叭。 症状体 征 ( 1 ) 精力充沛口是口否( 筇) 手足发磙 口是口否 ( 2 ) 胶体倦董口是口否( 2 7 ) 胃纳佳口是 口否 ( 3 ) 易爱劳口是 口否 ( 勰) 喜热饮食 口是口否 c 4 头晕口是口否( 2 9 ) 暮冷饮口是口否 ( 5 ,气短口是口否( s o ) 睡眠良好口是口否 ( 6 ) 亩口是口否s 1 ) 失r口是口否 t ) 烘热基口是口否( s 2 ) 身重不寅口是口否 ( 8 ) 动甄汗出口是口否t 3 3 ) 头重昏浣 口是口否 ( 9 自汗出口是口否( s 4 ) 易啐啮口是口否 ( t o ) 盗汗口是口否( 3 5 ) 常打喷嚏口是口否 c 1 1 ) i 千出稿置口是口否( 3 e ) 常蛊塞口是 口否 ( 1 2 心悸口是口否( 3 7 ) 易赢磊口是 口否 图3 1 ( a ) 体征量化统计表 医生的综合i ;f 价 请惩在认真填写上衰的基础上。结合各体质类型的定义对各体葳类型的顿向性 进行综合评价 每个体蔫类型下有一个捌分为l o 个期度的标尺,请对每十体质类型在奄认嵬适 当的位置以弋号在标尺上作出标记( 请注意每个标尺上只麓捌一个。、”号) 如z 0 1 0 菲平和质 、 平和质 o1 0 非平和质 平和质 【2 ) 气蜃魔 0 1 0 4 1 e r 质 气虚质 图3 1 ( b ) 医生的体质判断信息 数据清理是指消除数据r f l 所存在的噪声以及纠正其不一致的错误,通常包括 填补遗漏数据、消除异常数据、平滑噪声数据,以及纠j 下不一致的数据。对于属 性值有空值的记录,一般i j 丁以选择忽略该条记录、手工填补遗漏值、利用缺省值 填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值和利用最可能的 值填补遗漏值等途径进行处理。平滑噪卢的方法有b i n 方法、聚类方法、人机结 合检查方法、回归方法等。 数据集成是指将来自多个数据源的数据合并到一起构成一个完整的数据集, 需要考虑模式集成、冗余问题和数扼值冲突的检测与消除。模式集成是考虑如何 使来自多个数据源的实体相匾匹配。冗余问题是数据集成中经常遇到的问题,如 第i 幸对人体体征数据的处理2 l 果个属性可以由其他属性推演出来,那这个属性就是冗余属性。 数据转换是指将一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 困难群体动态管理制度
- 关于学校计生管理制度
- 值班岗位安全管理制度
- 厂区防鼠防虫管理制度
- 地面广场物资管理制度
- 公司菜园采摘管理制度
- 光纤车间设备管理制度
- 黔南教育科研课题申报攻略指南(模板)
- 医院电子签章管理制度
- 值班物品发放管理制度
- 2025年山西文旅集团招聘笔试参考题库含答案解析
- 品管圈PDCA获奖案例提高护士对患者身份识别和查对制度的正确率
- 设施设备维护保养检测制度流程
- 盐酸装卸车操作规程(3篇)
- 业主自治组织运作研究-洞察分析
- 零售连锁店标准化运营手册
- 2024年国家电网招聘之电工类考试题库附答案(满分必刷)
- TDT10722022国土调查坡度分级图制作技术规定
- 三年级语文下册 期末复习非连续文本阅读专项训练(五)(含答案)(部编版)
- 多联机投标技术标-空调设备供货及安装工程投标书
- 离婚协议书(直接打印完整版)
评论
0/150
提交评论