版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、江南大学学报(自然科学版 第3卷第3期Vol. 3No. 32004年6月J un. 2004Journal of Southern Yangtze U niversity(N atural Science Edition文章编号:1671-7147(2004 03-0227-03一种基于决策树的乳腺癌计算机辅助诊断新方法毛利锋, 瞿海斌(浙江大学药物信息学研究所, 摘要:选取500, , 将样本随机分为训练集和测试集, , 经测试集测试. 结果%, 98. 28%和96. 74%.因此, 决策树.关键词:; 乳腺癌; 细针吸取细胞学; 数据挖掘; 诊断中图分类号:TP 391. 77; R
2、737. 9文献标识码:AA N e w Computer 2Aided Method for Diagnosis ofBreast C ancer B ased on Decision T reeMAO Li 2feng , QU Hai 2bin(Pharmaceutical Informatics Institute , Zhe jiang University , Hangzhou 310027,China Abstract :In this research the efficacy and prospect of applying decision tree method in a
3、ssisting fine needle aspiration cytology (FNAC for breast cancer diagnosis is evaluated. Data from 500breast can 2cer patient records comprised of 9FNAC variables in each sample are randomly divided into training set and testing set. The decision tree method is used to construct a classification mod
4、el for the training data. The results show that the model achieves up to 97. 33%of classification accuracy , 98. 28%of sensitivity of and 96. 74%of specificity. Therefore , the decision tree method is a simple and useful tool for computer 2aided diagnosis.K ey w ords :decision tree ; breast cancer ;
5、 fine needle aspiration cytology ; data mining ; diagnosis乳腺癌是女性常见的肿瘤疾病, 由于乳腺癌的发病机理尚未完全清楚, 因此早期诊断对于防治乳腺癌十分重要. 细针吸取细胞学检查(fine needle as 2piration cytology , 简称FNAC 作为是诊断早期乳腺癌的有效手段1, 具有简便、安全、创伤极小的特点, 临床推广应用具有重要意义. 目前FNAC 诊断乳腺癌的准确率约在70%90%之间, 为进一步提收稿日期:2003-11-18; 修订日期:2003-12-20.高FNAC 诊断乳腺癌的准确率, 文中对乳腺
6、癌计算机辅助FNAC 诊断进行研究.数据挖掘是为解决“数据丰富, 知识贫乏”状况而兴起的边缘学科之一2, 主要研究从海量数据中发现知识的技术. 决策树方法是数据挖掘最常用的技术之一, 具有快速学习、可产生简单易懂的分类规则、分类准确率高等优点, 在许多领域(包括医学基金项目:国家自然科学基金项目(30000218 资助课题, 国家中医药管理局科研基金重点项目(20002J 2Z 203 资助课题. 作者简介:毛利锋(1976- , 男, 浙江宁波人, 生物化工专业硕士研究生.瞿海斌(1969- , 男, 浙江温岭人, 工学博士, 副教授, 硕士生导师. 主要从事数据挖掘、中医定量诊断及智能仪器
7、的研究.江南大学学报(自然科学版 第3卷228领域 已得到广泛应用3,4. 文中采用决策树方法对500例乳腺癌病例进行判别分析.实验用Wisconsin Breast Cancer Database(WBCD 数据6来自美国威斯康星州医学院. 500个病例中确诊为乳腺癌恶性(Malignant 的172例, 占34. 4%; 良性(Benign 的328例, 占65. 6%.每一病例由11个数字型属性组成. 属性1(Sample code number 是样本编码, 属性11(class 是诊断结果, 其值2代表恶性,4; 其余9个(2的9个指, ( 、细胞大小Size 、细胞形状均匀性(of
8、 Cell Shape 、边界粘连(Marginal Ad 2hesion 、单个上皮细胞大小(Single Epithelial Cell Size 、裸核(Bare Nuclei 、微受激染色质(Bland Chromatin 、正常核(Normal Nucleoli 、有丝分裂(Mitoses , 所有FNAC 指标的属性值都是110的1决策树原理决策树理论5由J R Quinlan 提出, 其基本原理可用C5. 0算法说明. 该算法的基本步骤如下:1 考虑样本数为s 的训练集S. 假定类标号属性(target attribute 具有m 个不同值, 即有m 个类别, 分别用C i (i
9、 =1, , m 定义. 设s i 是S 中属于类C i 的样本数, 信息熵由下式给出mI =-i 1log 2(ii其中P i C i 的概率, 用s i /s 估计.2 分别计算每一个属性划分所形成的子集的信息熵. 设属性A 具有v 个不同值a 1, a 2, , a v , 那么属性A 可将S 划分为v 个子集S 1, S 2, S v , 其中S j 是在属性A 上取值为a j 的S 的子集. 设s j 是子集S j 的样本数, 由A 划分成子集的信息熵的计算公式为v整数,1代表正常状态,10代表极不正常状态, 值越大表示该患者乳腺癌恶性的可能性就越大7. 这些FNAC 指标数据中有少
10、量属性值缺省, 以“? ”表示,整个数据集的记录格式如下所示:1148873,3,6,6,6,5,10,6,8,3,4846423,10,6,3,6,4,10,7,8,4,4560680,1,1,1,1,2,1,1,1,1,21237674,3,1,2,1,2,1,2,1,1,22. 2特征选择I T (A =j =1I (s j s3 计算各属性划分样本的信息增益. 对于属性A , 信息增益的计算公式为G ain (A =I (T -I T (A 由于样本编码与乳腺癌诊断明显无关, 因此不作为决策树的输入变量. 2. 3数据划分4 具有最高信息增益的属性选为给定样本集合S 的测试属性, 创建
11、决策树的第一个节点(根节点 , 并以该属性标记, 对属性的每一个值创建分枝, 并据此划分样本. 在每个分枝中, 重复建立树的下层节点和分枝, 直至终止条件(即所有样本都属同一类 出现, 停止决策树的构建, 并在分枝的端点创建一个节点, 用该子集样本所属的类别号标记, 称为叶节点. 创建的决策树每一个叶节点都会对应一个特定的类别.决策树产生后, 沿着决策树从上到下遍历的过程中, 在每个节点处都会遇到一个问题(对该节点所代表属性的属性值判断 , 对问题的不同回答(即不同取值 可导致不同的分支, 最终到达一个叶节点. 这个过程是利用决策树进行分类, 利用几个属性(每个属性对应一个问题 来判断所属的类
12、别. 同时, 沿着根节点到每一个叶节点的路径都可产生一条分类规则, 并可转换成If 2Then 规则.将数据随机划分为训练集和测试集. 训练集包含350个样本, 占整个数据集的70%, 用于建立决策树分类模型; 测试集包含150个样本, 占整个数据集的30%, 用于评估所得决策树模型的分类性能. 2. 4决策树分析利用Matlab6. 5编写决策树程序, 对训练集数据进行学习, 得到决策树的分类模型, 并从分类模型中归纳出用于FNAC 诊断乳腺癌的诊断规则, 再将获得的决策树诊断规则应用于训练集和测试集, 做出相应的诊断决策. 2. 5结果评估对训练集和测试集数据进行诊断决策后, 计算相应的准
13、确率(accuracy 、灵敏度(sensitivity 和特异度(specificity , 用于评价利用决策树方法得到的诊断规则的推广(诊断 性能.准确率=(a +b /(c +d ; 灵敏度=a/c ; 特异度=b/d .其中:a 为判断正确的乳腺癌恶性患者样本数; b 为2材料与方法2. 1材料第3期毛利锋等:一种基于决策树的乳腺癌计算机辅助诊断新方法229判断正确的乳腺癌良性患者样本数; c 为乳腺癌恶性患者样本总数; d 为乳腺癌良性患者样本总数.3结果数据随机划分为训练集和测试集两个数据集合. 训练集中有350例患者, 其中诊断为乳腺癌恶性的114例, 良性的236例; 测试集中
14、有150例患者, 其中诊断为乳腺癌恶性的58例, 良性的 92例.决策树对训练集数据进行学习, 得到决策树分类模型(见图1 . 该模型包括一个根节点(裸核 、2个内部节点(和4个叶节点, 性>=2. 5Then 诊断=恶性.应用上述诊断规则对训练集和测试集数据进行诊断预测, 结果见表1. 其中, 训练集数据结果为:114例恶性病例中, 正确判断109例, 错判5例;236例良性病例中, 正确判断227例, 错判9例. 灵敏度、特异度和准确率分别为95. 61%、96. 19%和96. 00%.测试集数据结果为:58, 正57, , 正确判3例33%.表1决策树灵敏度、特异度和准确率T a
15、b. 1Decision tree sensitivity , specif icity and accuracy数据集训练集测试集恶性良性恶性良性实际/例1142365892正确灵敏特异度/%96. 1996. 74准确率/%96. 0097. 33判断/例度/%10995. 61227578998. 284结论图1决策树分类模型Fig. 1Decision tree classif ication model沿着根节点到每一个叶节点的路径都可产生一条分类规则, 将它们转换成If 2Then 规则, 得到四条乳腺癌的诊断规则:1 If 裸核<2. 5and 细胞大小均匀性<3.
16、5Then 诊断=良性;2 If 裸核<2. 5and 细胞大小均匀性>=3. 5Then 诊断=恶性;3 If 裸核>=2. 5and 细胞形状均匀性<2. 54 IfThen 诊断=良性;研究表明, 综合FNAC 检查9项参数进行决策树分析, 对乳腺癌的诊断正确率可达到97. 33%; 决策树方法提取的诊断规则描述简单, 应用方便; 决策树方法在辅助FNAC 诊断乳腺癌的同时, 还可判断各参数对乳腺癌诊断贡献的大小; 从决策树模型中可见, 裸核对乳腺癌诊断起决定性作用, 细胞大小均匀性和细胞形状均匀性则可作为诊断的重要指标, 因此, 决策树方法是一种简便可行的计算机
17、辅助诊断方法, 可从病例自动提取诊断规则, 具有较广泛的实用价值, 可应用于其它疾病的诊断研究.致谢本研究得到了美国威斯康新州立大学医院William HWolberg 的帮助, 在此一并致谢.裸核>=2. 5and 细胞形状均匀参考文献:1贺青卿, 范西红, 刘少兰, 等. 细针针吸细胞学诊断乳腺癌的临床价值J.中华普通外科杂志, 2001,16(9 :568.2姚美村, 袁月梅, 艾路, 等. 数据挖掘及其在中医药现代化研究中的应用J.北京中医药大学学报,2002, 25(5 :20-23. 3CHRISTIN E L TSIEN , ISAAC S KOHAN E , N EIL
18、MCLN TOSH. Multi p le signal integration by decision tree induction to de 2tect artifacts in the neonatal intensive care unit J.Artif icial Intelligence in Medicine , 2000, 19:189-202.4Y OUN G MOON CHAE , SEUN G HEE HO. Data minin g approach to policy analysis in a health insurance domainJ.Interna 2tional Journal of Medical Informatics , 2001, 62:103-111.5J IEWEI HAN , MICHEL IN E K AMBER. 数据挖掘:概念与技术 M .范明译. 北京:机械工业出版社,2001.6WILL IAM H WOLBER G , MANASARIAN O L. Multisurface method of pattern separation for medical diagnosis applied tobreast cytology J.Proceedings of the N ational Aca
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汉诺塔动画解析
- 《GB-T 16895.7-2021低压电气装置 第7-704部分:特殊装置或场所的要求 施工和拆除场所的电气装置》专题研究报告
- 智能灌溉系统运维师岗位招聘考试试卷及答案
- 物业的2025个人年终总结及2026年的年度工作计划
- 春季养肝的饮食方法
- 女性手脚冰凉的营养调理
- 辽宁省2025秋九年级英语全册Unit5Whataretheshirtsmadeof课时2SectionA(3a-3c)课件新版人教新目标版
- 2025年乙型脑炎活疫苗项目发展计划
- 2025年高性能传输线缆项目发展计划
- 干性皮肤的护理产品选择
- 上海财经大学2026年辅导员及其他非教学科研岗位人员招聘备考题库带答案详解
- 2026湖北恩施州建始县教育局所属事业单位专项招聘高中教师28人备考笔试试题及答案解析
- 心肺康复课件
- 2025人民法院出版社社会招聘8人(公共基础知识)测试题附答案解析
- 多元催化体系下羊毛脂转酯化制备胆固醇的工艺解析与效能探究
- 上海市奉贤区2026届高三一模英语试题
- 设施设备综合安全管理制度以及安全设施、设备维护、保养和检修、维修制
- 2025届高考全国二卷第5题说题课件
- 2026福建春季高考语文总复习:名篇名句默写(知识梳理+考点)原卷版
- QSY08002.3-2021健康安全与环境管理体系第3部分审核指南
- 四川省德阳市旌阳区2024-2025学年七年级上学期语文期末检测试卷(含答案)
评论
0/150
提交评论