



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、论证候研究中变量聚类结果的诠释张连文1,周雪忠2,何丽云2,刘保延2 1香港科技大学计算机科学及工程学系,香港2中国中医科学院,北京,100070Email:, , , 摘要: 近年来有不少学者利用变量聚类方法研究西医病种中中医症状的分布规律,把所得的类诠释为证候,从而得到一些关于证候分布的结论。 本文剖析变量聚类结果的统计学含义,并基于此讨论把变量聚类结果诠释为证候的合理性。.1 引言变量聚类也称指标聚类,其目标是要把相似的变量聚到同一类,不相似的变量聚到不同的类,从而揭示变量之间的关系。就具体算法而言,证候研究中用得最多的是系统聚类,也称归并层次聚类。系统聚类首先计算变量两两之间的相似系数
2、,把每一个变量看成一类,并以变量之间的相似系数作为类之间的相似系数;然后开始逐步将类进行合并,每次将相似系数最大的两个类并成一个新类,并计算新类与其它类之间的相似系数,这样每次减少一个类,直到所有变量都聚成一类为止1。系统聚类的过程可以表述为一张冰柱图。最后在冰柱图的适当位置截取,而得数个变量类。.近年来有不少学者利用系统变量聚类方法对西医病种中中医症状的分布情况进行研究。例如,麻晓慧等2通过对739例胆病病案进行分析,得到9个类,并把它们分别诠释为肝胆湿热证、肝胆郁热证、肝胆蕴热证、肝胆气郁证、血瘀证、脾失健运证、阳虚寒湿证、阴虚内热证和热毒亡阳证。其它被研究的西医病种有子宫肌瘤3、月经过多
3、4、胃癌5、胸痹心痛6、冠心病7等等。.本文剖析系统变量聚类结果的统计学含义,并基于此讨论把它们诠释为证候的合理性。 我们的结论是,变量聚类的结果不能诠释为证候。.2 变量聚类结果的统计学含义在麻晓慧等2分析的胆病数据中,症状变量全部是二值的。 分析所得的变量类之一如下:.类1:发热寒战、右上腹压痛拒按、黄疸、右上腹疼痛、恶心呕吐、大便秘结、小便色黄、苔黄、苔腻、脉滑、脉弦、口苦。.本节以这个类为例,剖析系统变量聚类结果的含义。要准确把握这个类的含义,需要考虑三个因素,即变量与事件这两个概念的区别、变量间相似系数的定义、以及变量类间相似系数的定义。下面逐一讨论这三个因素。.2.1 变量与事件变
4、量是刻画事物某方面特征的指标,它的每一个取值对应一个事件。先拿概率论中常用的抛掷硬币试验为例来解释这两概念。抛掷硬币试验可以从多个方面来看:使用的硬币是否质地均匀、抛掷方式如何、抛掷结果是什么、等等。抛掷结果这个指标刻画试验一个方面的特征,因此它是一个变量。这个变量有两个可能的取值,即正面朝上和反面朝上。于是有两个事件,即抛掷结果正面朝上和抛掷结果反面朝上。.接下来看一个中医的例子。有无口苦是反映病人身体一个方面特征的指标,因此它是一个变量,称为症状变量。它有两个可能的取值,即有和无。于是有两个症状事件, 即(病人)有口苦和(病人)无口苦。如果要考虑不同轻重程度,相应的变量是口苦程度。 一般情
5、况下,程度变量有4个可能的取值,即无、轻、中和重。于是有4个症状事件,即无口苦、有轻度口苦、有中度口苦和有重度口苦。为了统一 二值和多值情况下症状变量的称谓,可以用口苦情况 来替代有无口苦和口苦程度。.有口苦这个词通常被简化为口苦。同时,口苦情况也被简化为口苦。这样,口苦时而指 口苦情况这个变量,时而又指有口苦这个事件。在下一节读者将会看到,这种歧义性造成了对变量聚类结果之含义的误解。 .顾名思义,变量聚类的对象是变量而不是事件,其结果是变量的类而不是事件的类。所以,类1的成员是口苦情况等症状变量,而不是有口苦等症状事件。为了避免误解,我们把类1的定义改写如下:.类1:发热寒战情况、右上腹压痛
6、拒按情况、黄疸情况、右上腹疼痛情况、恶心呕吐情况、大便秘结情况、小便色黄情况、苔黄情况、苔腻情况、脉滑情况、脉弦情况、口苦情况。.2.2 变量类相似系数口苦情况等12个症状变量为什么会被聚成一类呢?它们被聚成一类这件事的含义是什么?一个粗略的回答是,这意味着口苦情况等12个症状变量之间的相似度高。如果要准确回答这个问题,则需要考虑如何基于变量之间的相似系数定义类之间的相似系数。.常用的方法有最大相似系数法、最小相似系数法和平均相似系数法。在计算两个类A和B间的相似系数时,考虑A中变量与B中变量间的相似系数。最大相似系数法取其最大者,最小相似系数法取其最小者,而平均相似系数法取平均数。 1 .如
7、果类1是用最大相似系数法获得的,那么对类中任意一个变量V,类中有另外一个变量U使得V和U间的相似系数不低于某个阈值。如果类1是用最小相似系数法获得的,那么类中任意两个变量间的相似系数不低于某个阈值。如果类1是用平均相似系数法获得的,那么类中变量间的相似系数的平均值不低于某个阈值。 1 .上面提到阈值是怎样决定的呢?在获得类1的过程中,需要合并多对变量类,而每对类之间都有一个相似系数。这些相似系数的最小者就是上面说的阈值。一般说,最大相似系数法的阈值最大,平均相似系数法的阈值次之,最小相似系数法的阈值最小。.2.3 变量相似系数变量间相似系数的高低的直观含义是什么?这个问题的答案依赖所选用的相似
8、系数是什么。相似系数有各种各样的类型 1 。 作为例子,这里只讨论Jaccard相似度和相关系数。.Jaccard相似度只适用于二值变量。下面用一个例子来说明它的定义和直观含义。用d记脉弦和口苦同时出现的样本数,b记脉弦出现而口苦不出现的样本数,c记脉弦不出现而口苦出现的样本数。脉弦情况和口苦情况这两个变量的Jaccard相似度定义为。Jaccard相似度的取值在0-1之间,可以视为是症状出现的同步率。它的值越高,脉弦和口苦出现时的同步率就越高,即脉弦和口苦的出现更接近如下情况:要么两者都不出现,要么两者都出现。.相关系数是统计学中用来度量数字变量间关联程度的一个指标。如果把症状的出现表示为1
9、,不出现表示为0,那么就可以定义脉弦情况和口苦情况间的相关系数。相关系的取值在0-1之间。当两个变量的可能取值相同时,它们之间的相关系数也可视为是一种同步率。脉弦情况和口苦情况间的相关系数越高,脉弦和口苦同时出现或同时不出现的次数也就越多, 反之亦然。.2.4 类1的含义在分析数据时,麻晓慧等2用的是SAS软件。由于他们未提及软件设置,所使用的变量相似系数应该是SAS默认的Jaccard相似度, 而所使用的变量类相似系数应该是SAS默认的平均相似系数。 所以,类1是一个由口苦情况等12个症状变量组成的集合,其含义是这12变量两两之间的Jaccard相似度平均不低于某个阈值, 即口苦等12个症状
10、两两同步出现的频率平均不低于某个阈值。.3 证候的含义证候是一个具争议性的概念。但是,在诠释变量聚类结果时人们所使用的证候其意义基本是统一的、清楚的。例如,在把类1诠释为肝胆湿热证时,肝胆湿热证对应由口苦等12个症状(事件)组成的症状群,其意义如下:.1. 如果这些症状全部(或其大多数)在某病人身上同时出现,那么该病人有肝胆湿热证,2. 如果这些症状中许多不在一病人身上出现,那么该病人无肝胆湿热证。4 变量聚类结果的诠释现在我们以类1为例讨论变量聚类的诠释问题。 在2中,类1被诠释为肝胆湿热证。这是由于类1被认为是由有口苦等12个症状事件组成的集合,进而其意义被理解为口苦等12个症状同时出现。
11、在把类1诠释为肝胆湿热之后,2进一步得出结论:肝胆湿热证是肝胆病中的中医证候之一。这就是说,肝胆湿热证存在于研究涉及的739个样本中,即有一部份样本同时包含口苦等12个症状或其大多数。为方便讨论,我们将这一段文字涉及的几件事按逻辑顺序整理如下:.1. 把类1认为是由有口苦等12个症状事件组成的集合。2. 把类1的意义理解为口苦等12个症状同时出现,从而把它诠释为肝胆湿热证。3. 在2的基础上,得出肝胆病中有肝胆湿热证的结论,即有一部份样本同时包含口苦等12个症状或其大多数。根据第2节的结论,类1是症状变量的集合而不是症状事件的集合。所以,上述第1步是不正确的。再根据第2节的结论,类1的意义不是
12、口苦等12个症状同时出现。实际上,句子“口苦等12个症状同时出现”本身是一个病句。显然,口苦等12症状不可能在每一个样本中都同时出现。那么它们究竟在哪些样本中出现呢?句子没有指明,因此意义不清。所以,第2步也是错误的。最后,第3步从“口苦等12个症状同时出现”这个含义不清的命题推出“有一部份样本同时包含口苦等12个症状或其大多数”。这是不合逻辑的。.上述三步都有问题。那么有没可能不通过它们,而直接从类1的含义出发得出“有一部份样本同时包含口苦等12个症状或其大多数”这个结论呢?回答是否定的。类1的含义只是说口苦等12个症状两两以一定频率在样本中同时出现。这并不意味着所有12个症状同时出现在某些
13、样本中。在逻辑上,从两两双边关系是无法推出多边关系的。打一个比方:青年A 与一对好朋友B和C谈三角恋爱,A和B常常一起出现,A和C常常一起出现,B和C常常一起出现, 但这些并不意味着他们三人会同时出现。.上面的讨论以2为例。但是,所指出的问题是其它用变量聚类研究证候分布工作共有的。问题的根源在于研究目的与研究方法不匹配。 这些工作是要通过分析一组关于西医某病种的样本,揭示该病种中中医证候的分布规律,这其实是揭示该组样本中中医证候的分布情况。简而言之,这就是要揭示样本某方面的特征和性质。变量聚类方法只考虑变量间的关系,完全不分析样本的特征和性质。既然如此,它又怎么能揭示样本中中医证候的分布规律呢
14、?.5 结束语变量聚类所得到的不是症状事件的类,而是症状变量的类,其含义不是一些症状同时出现于一些病人,从而不能诠释为证候。变量聚类不分析样本的特征和性质,从而不可能揭示证候在样本中的分布规律。.致谢本项研究得到香港研究资助局项目622105、北京市科委重大计划项目H1和中国博士后科学基金2005037106的资助。.参考文献1. 张尧庭,方开泰,多元统计引论,科学出版社,北京,1999。2. 麻晓慧,王弘午,何裕民,胆病症状学聚类研究,中国中医基础医学杂志,2000年第6卷第12期,59-61。.3. 李冬华,何裕民,子宫肌瘤患者的证候分布规律研究,上海中医药大学学报,第17卷第2期,30-33,2003。.4. 李秀昌,张红,周吉吉等, 月经过多证候学的系统聚类分析J . 长春中医学院学报,1999 ,15 (3) :33.5. 刘莺,朱文峰,卢芳国等,152 例胃癌患者术前病证聚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国集装箱运输半挂车市场分析及竞争策略研究报告
- 自贡商场保安合同协议
- 视频版权签署合同协议
- 装修施工制式合同协议
- 装修协议物业合同模板
- 营养白酒采购合同协议
- 螃蟹海鲜采购协议书模板
- 见证员服务合同协议
- 苏州广告设计合同协议
- 融资外包服务协议书范本
- 欧洲新能源双向差价合约机制研究
- 2025年中考数学一轮复习:圆的切线问题 练习题汇编(含答案)
- 信息技术咨询服务合同5篇
- 高标准农田跟踪审计、工程中间计量、变更价格调整及竣工结算审核项目 投标方案(技术方案)
- 人教版 七上 数学 第五章 一元一次方程《实际问题与一元一次方程-第4课时 分段计费问题与方案选择问题》课件
- 国家开放大学《财务管理》综合练习参考答案
- 地砖空鼓修复合同(2篇)
- 虚拟商业创新创业实训智慧树知到答案2024年西安工业大学
- 阀门产品质量证明书
- 2024年四川省成都市中考地理+生物试卷真题(含答案解析)
- JB∕T 11845-2014 实型铸造用模样EPS板材
评论
0/150
提交评论