




已阅读5页,还剩60页未读, 继续免费阅读
(控制理论与控制工程专业论文)数据挖掘在中风病中医诊断标准研究中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京受通人学坝1 学位论文 y 8 7 9 7 9 2 摘要 中风病严重危害着人类健廉死亡率窃,致残率高。据调查,每l o 万人中 风病的年发病率为2 3 0 人,年死亡率1 6 4 人,患病率6 3 4 人。结合东直门医院 关f 新一代中风病中医诊断标准的研究,本文采用了数据挖掘的技术来建立中 风悯中医诊断的模型,以使诊断标准夏加具备规范性、特异性、可计量性、可 重复性、可搽作性,并希望以此与国际标准接轨。 本文介绍了中风病中医诊断研究的研究现状,阐明了在中风病中医诊断标 准研究中引入数据挖掘等信息技术的必要性,并介绍了数据挖掘技术在国内外 的倒 究现状和常用的典型算法。 论文阐述了数据挖掘在中风病中医诊断标准研究中的应用。包括中风病诊 断研究的前期数据准备、风病诊断数据仓库的开发和中风病诊断数据挖掘模q u 的丌发。在数据准备阶段,论文以作者兀发的中风病四渗信息调查分析软件为 基础,在东直门医院的配合下对多个中医院的中风病诊断数据的收集和整理。 j 天了二中风病渗断数据仓库的开发,论文主娄介绍了中风病数据仓库的组成、 中风病诊断数掘仓库的体系结构、中风病诊断数据仓库的开发过程等三个部分。 决策树、神经网络和回归分析是数据挖掘中常用的算法。本文在结合中风 ; 痫珍断的基础 :蕈点阐述了摹于上述三个算法的数据挖掘模型的丌发,并展 永了作者丌发的部分模型及模型运行后的结果,并通过与中医专家经验辩证的 结合,论文形成了初步的中风病中医诊断标准结论。 关键词:数据挖掘数据仓库中风病诊断决策树 北京交通大学硕士学位论丈 a b s t r a c t t h er a p i dd e v e l o p 1 e mi nt h ef i e l do fd i a g o s i sd a t a b a s es y s t e mo fa p o p l e x y ,a n d s e n s o rt e c h n o i o g yi sc o n t i n u a l i yu p g r a d i n gt l ec o n f l 虱建b e t w e e nt h ep o w e rt os u p p l ya l l k i n do fd a t aa i l dt h ea b i l i t yt oa n a l y z et h e m t or e l a xt h i ss i t u a t i o n ,d a t am i n i n g t e c h n o l o g yc a m eo n t ot h es t a g e h o w e v e r ,t h ea p p a r e n t l yu n p r e d i c t a b l ed i s c r e p a n c yb e t 、v e e nt h ee m p i r i c a lr i s k ( o rt h et r a i n i n ge r r o r ) a n dt h et r u er i s k ( o r ,r o u g h j y ,t h et e s te r r o r ) o fad a t ar n j n i n g a l g o r i t h mm a k e si t h a r dt oe s t i m a t et h ec o r r e c t t l e s so rr e i i a b i l i t yo ft h em i n i n gr e s u n , a n dh e n c eo b s t r u c t st h ee x t e n s i v e 印p l i c a t i o no ft st e c h n o l o g y i no r d e rt os t u d ya n d s o l v et h i sp r o b 】e ma n dt oi m p r o v et h eg e n e r a l i z a t i o np e r f o n l l a n c e ( o rt h ep r e d i c t i o n a c c u r a c y ) o fd a t am i n i n ga l g o r i t h i n s ,m ep a p e rm a d ec o n t r i b u t i o n si nt 1 1 r e ea s p e c t s :n r s t 、 u s j n g 碍j a t e dc o n c i u s i o n so fd e c i s i o nt r e et h e o r y ( d t t ) l oa n a i y z e ,m o d i f y a n d d e s i g nc l a s s m c a t i o na 工l dr e g r e s s i o na l g o r i m m s ;t h e n ,i m p l e m e n t i n gas o f t w a r ep l a t f o r m t o h e i pe n h a n c et h eg e n e r a l i z a t i o np e r f b n n a n c eo fd a t am i n i n ga l g o r i “m s ;f i n a i i h e l u 砒i n ga b o v ew o r k si n a c t i c e a tt h eb e g i n n i n g ,t h ep a p e rb r i e f l yi n t r o d u c e st h ed e f i n j t i o n sa n dc o n c l u s i o n so f d a t am j n i n ga n dt h er e s e a r c ho nt h cs t a n d 盯do f t h ed i a g n o s i so ra p o p l e x yb yt c m t h er e a s o n sw h yt h ep a p e ri sd e d i c a t e dt o 血e ma r ea l s oe x p l a i n e d n e x tt h ep a p e r p o j n t e d u u th es e a r c ho f d e c i s j o nt r e e ;n e x t ,t h e p a p e r i n t r o d u c e sl b ed a t a w a r h o u s e ;6 n a l ly t h ep a p e r 、w i t eu pt h ed e t a i l e dp m c e s so fd a t am j n i n go na p o p i e x y t h em o s tr e s e a r c hr e s u i t sa r et h es o r w a r eo f t t l ea p o p l e x ys t u d yi 耐b r m a t i o na n d ag o o dm a n yd a t am i n i n gm o d e lo nd i a g o s i so f a p p o l e x y k e yw o r d s : d a t am i n i n gd a t a h r e h o u s e d i a g o s i so fa p o p l e x y d e c i s i o n t r e e 北京交通大学硕士学位论文 第一章概述 1 1 选题的目的和意义 中j x l 病的概念和诊断是随着历代科学技术的发展和对病因病理认识的不断 深入而逐渐完善的。从9 0 年代初,我国就一直致力于中风病中医渗断标准的研 究,并取得了很好的成绩。 与飞速发展的其他诊断技术比较,中风病的诊断迄今仍无明显突破,国内 外的研究学者已开始将目光对准了我国的传统中医。 中l x l 病的中医渗治面临着走向世界的机遇和挑战,中风病中医诊断标准也 面临着进一步与国际标准接轨的现实。 这就要求我们必须在新代中风病中医诊断标准的研究中,按照国际标准 制订的规范和方法学,引入数据挖掘等现代化技术,加快中风病中医诊断向客 观化、现代化方向的迈进。 1 9 9 5 年,“国家科技部制定了攻关计划“中风病症候学与临床诊断的研究” 并取得了不错的成绩,近年来,随着中风病诊断研究的进一步发展,国家科技 部制定了新的攻关计划,准备进行新一代中风病中医诊断标准的研究。本文便 是在这样的研究背景下产生的。 论文研究的目标是将数据挖掘技术充分引入到中飙痫诊断标准的研究当中, 建立中风病诊断数据仓库,对中风病诊断进行数据挖掘建模,最终挖掘出科学 的中风病诊断规律。 从而将数据挖掘等现代化的信息科学与中国传统的中医药学科结合起来,确 定新一代中风病中医诊断标准的理论基础。 北京交通大学颂士学位论文 1 2 中风病诊断研究概况 中风病又称卒中,内经有”仆击”、”大厥”、”薄厥”、”偏枯”、”偏风”、” 痱风”、”身偏不用”之称。张仲景金匮要略则专立”中风病篇”,对中风病的 病机、脉证论述颇详,且根据i 临床证候及病情的轻重将中风分为中经、中络、 中腑、中脏。诸病源候论更是将”中风候”等中风有关内容列为全书篇首,详 论其病因、证候、治法( 针灸) 及预后。厥后,经过孙思邀、戴思恭、沈金鳌、 刘完素、李东垣、李中梓、叶天士、王清任等许多医家对中风病进行了不断研 究,对中风病病因病机、分类证候、预后方面的认识逐渐深入,治法方药上积 累了丰富的经验【2 j 。 1 。2 1 中风病生存质量的测定方法 关于生存质量的测定方法,万崇华归纳为访谈法、观察法、主观报告法、 症状定式检查法、标准化量表法5 种;国外则将中风患者生存质量的测定方法 分为数量估计法、配对比较法、目测或图表类比分级法、分类评分法( 或称量 表法) 4 种。目前,生存质量的测定有问卷、访谈、信访等形式,而问卷是必不 可少的,问卷中又以量表法最为常用,尤其是标准化量表评定法是目前国内外 广为采用的方法。 1 2 2 量表的应用与研究 量表是研究生存质量的工具和尺度,目前在中风病生存质量研究中常用的 量表有生存质量指数( q l i ) 、e u r o q o l 调查表、疾病影响问卷( s i p ) 、n o t t i n 曲a m 健康问卷( n h p ) 、健康测量量表m o s s f 3 6 、k a m o f s k y 操作量表( k p s s ) 、健 康质量量表( q w b s ) 、n i e m i 的中风生存质量研究量表、f r c n c h a y 活动指数( f a i ) 等l o 余种,其中后二者为中风专用量表。 1 2 3 中风病诊断研究进展情况 对中风病的诊断进行辨证规范化、定量化研究取得了长足的进展。1 9 8 6 年 中罔中医药学会内科学会制订了中风病中医诊断、疗效评定标准,提出了病 6 北尿焚趣大掌坝士掌位论文 名、病类及证类诊断标准,对中风病的规范化研究起到了推动作用,为科研观 察病例创造了条件,也为临床治疗、疗效评定、科研及学术交流、中药新药开 发、临床药理研究指导原则的制订等奠定了一定的基础,表明我国中风病中医 诊断已达到新的水平【”。 近几年,有学者开始把计量学的内容渗透到中风病的量化诊断研究中,如 王氏等引用国际量表学设计的原则,遵循中医学理论,并吸收了部分专家的经 验,将中风病分为风证、火热证、痰湿证、血瘀证、气虚证及阴虚阳亢证六大 证候,选择有特征性的症、舌、脉作为辨证项目,经过临床验证及统计学处理, 制订了中风病辨证诊断标准,并于1 9 9 3 年在全国急症脑病协作组第二次会 议上讨论通过,从而使中风病辨证诊断向客观化、定量化方向又迈进了一步【“。 1 3 数据挖掘技术研究概况 数据挖掘,也可以称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) ,是从大量数据中提取出可信、新颖、有效并能被人理解的模 式的高级处理过程。分类是数据挖掘中的一个重要课题。分类的目的是学会一 个分类函数或分类模型( 也常常称作分类器) ,该模型能把数据库中的数据项映射 到给定类别中的某一个。分类可用于预测。分类的输出是离散的类别值。 数掘仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进 数据挖掘越来越热的原因之。但是,数据仓库并不是数据挖掘的先决条件, 因为有很多数据挖掘可直接从操作数据源中挖掘信息。 数据挖掘的定义可以从以下几个方面进行阐述:技术上的定义及含义、商 业角度的定义、数据挖掘与传统分析方法的区别、数据挖掘和数据仓库、数据 挖掘和在线分析处理( o l a p ) 、数据挖掘和机器学习、软硬件发展对数据挖掘 的影响。 ( 1 ) 技术上的定义及含义 北京变通大学碘士学位论文 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程。 这罩所醴的知识发现,不是要求发现放之四海而皆准的真理,也不是要去 发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上, 所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同 时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。 ( 2 ) 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的 大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决 策的关键性数据。 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进 行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型 化的先进有效的方法。 ( 3 ) 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数 据挖掘是在没有明确假设的前提下去挖掘信息、发现知识数据挖掘所得到的信 息应具有先未知,有效和可实用三个特征 ( 4 ) 数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数 据集市中( 见图1 ) 。从数据仓库中直接得到进行数据挖掘的数据有许多好处。 就如我们后面会讲到的,数据仓库的数据清理和数据挖掘的数据清理差不多, 如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要在 清理一次了,而且所有的数据不一致的问题都已经被你解决了。 北京交通大学硕士学位论文 圈l :数墨挖堀摩从数篓仓摩中褥出 数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物 理上- 单独的数据库。但如果你的数据仓库的计算资源已经很紧张,那你最好还 是建立一个单独的数据挖掘库。 当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。 建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据 冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能 要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或 几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上 面进行数据挖掘。 图2 ,羧撼挖越痒姨事务敷鬃霉中罨出 1 3 1 数据挖掘历史及现状 从数据库中发现知t ( k d d ) 一词首次出现在1 9 8 9 年举行的第十一届国际 联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际 研讨会已经召丌了8 次,规模由原来的专题讨论会发展到国际学术大会( 见表1 ) , 研究重点也逐渐从发现方法转向系统应用注重多种发现策略和技术的集成, 以及多种学科之间的相互渗透。1 9 9 9 年,亚太地区在北京召开的第三届p a k d d 北京交通大学硕士学位论文 会议收到l5 8 篇论文,空前热烈。i e e e 的k r l o w l e d g ea 1 1 dd a 诅e n g 证e e r i n g 会刊 率先在1 9 9 3 年出版了k d d 技术专干q 5 1 。 衰1 历耩胁d 蠲际学术会议一照褒 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家 自然科学基令首次支持我们对该领域的研究项目。目前,国内的许多科研单位 和高等院校竟楣开展知识发现的基础理论及其应用研究,这些单位包括清华大 学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中, 北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北 京大学也在丌展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大 学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开 采算法的优化和改造:南京大学、四川联合大学和上海交通大学等单位探讨、 研究了非结构化数据的知识发现以及w 曲数据挖掘。 1 3 2 数据挖掘的内容 数据挖掘所发现的知识主要包括广义知识、关联知识、分类知识、预测型 知识、偏差型知识;它的主要功能有自动预测趋势和行为、关联分析、聚类、 概念描述、偏差检测等 ( 1 ) 广义知识( g e n e r a l i z a t i o n ) 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征 的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同 性质,是对数据的概括、精炼和抽象。 北京交通大学硕士学位论文 ( 2 ) 关联知识( a s s o c i a t i o n ) 它反映一个事件和其他事件之问依赖或关联的知识。如果两项或多项属性 之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为 著名的关联规则发现方法是r a g r a w a l 提出的a p r i o r i 算法。关联规则的发现 可分为两步。第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率 不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设 定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心, 也是计算量最大的部分。 ( 3 )分类知识( c l a s s i f i c a t i o n c l u s t e r i n g ) 它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知 识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策 树,是。种有指导的学习方法。该方法先根据训练子集( 又称为窗口) 形成决 策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗 口中,重复浚过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是 类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。最为典 型的决策树学习系统是i d 3 ,它采用自顶向下不回溯策略,能保证找到一个简单 的树。算法c 4 5 和c 5 o 都是i d 3 的扩展,它们将分类领域从类别属性扩展到 数值型属性。 ( 4 ) 预测型知识( p r e d i c t i o n ) 它根据时1 日j 序列型数据,由历史的和当前的数据去推测未来的数据,也可 以认为足以时间为关键属性的关联知识。 目前,时帕j 序列预测方法有经典的统计方法、神经网络和机器学习等。1 9 6 8 年b o x 和j e n k i n s 提出了一套比较完善的时间序列建模理论和分析方法,这些 经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、求 和自同归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的 时间序列是非平稳的,其特征参数和数据分布随着时洲的推移而发生变化。因 此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法 l l 北京交通大学硕士学位论文 完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方 法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的 权重参数,建立新的模型。 ( 5 ) 偏差型知识( d e v i a t i o n ) 此外,还可以发现其他类型的知识,如偏差型知识( d e v i a t i o n ) ,它是对差 异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数 据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随 着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的 需要。 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据 挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 ( 1 ) 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分 析的问题如今可以迅速直接由数据本身得出结论。 ( 2 ) 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联分析的目的是找出数据库中隐藏的关联网。 ( 3 ) 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人 们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括 传统的模式识别方法和数学分类学。 ( 4 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类对象之自j 的区别。 北京变通人学硕土学位论义 ( j ) 偏差检测 数据库中的数据常有一些异常记录从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之i 剞有意义的差别。 1 3 3 数据挖掘常用技术 数据挖掘常用的技术主要有人工神经网络、决策树、遗传算法、近邻算法、 规则推导等。数据挖掘的流程主要包括确定业务对象、数据的选择、数据的预 处理、数据的转换、数据挖掘结果分析、知识的同化这几大步骤。 ( 1 ) 人工神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了 一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参 数的问题。神经网络常用于两类问题:分类和回归。 ( 2 ) 决策树 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。 比如,在贷款申请中,要对申请的风险大小做出判断( 本文会在后面对决策树 进行深入研究) 。 ( 3 ) 遗传算法 基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的 优化技术。 ( 4 ) 近邻算法 将数据集合中每一个记录进行分类的方法。 北京交通大学硕士学位论文 ( 5 ) 规则推导 从统计意义上对数据中的“如果一那么”规则进行寻找和推导。 1 4 本文的主要工作 本文的主要工作是将现代信息技术运用到中风病诊断标准研究领域的研究 中,以中j x l 病诊断标准研究为对象,以建立中风病诊断数据挖掘模型为目标, 以达到中医学现代化和国际化的目的。 具体来讲,本文的具体工作体现在: ( 1 ) 广泛学习和研究数据挖掘、统计学、数据仓库、c + + 、数据库等技术, 并在研究过程中与中风病诊断标准的研究相结合。 ( 2 ) 建立中风病诊断数据仓库,编写具体的应用软件 ( 3 ) 结合东直门医院的中风病中医诊断标准研究,对中风病诊断进行完整 的数据挖掘分析和建模。 最后,论文对全文进行了总结,对数据挖掘技术在中风病诊断研究中的应 用前景进行了展望,并对进一步研究需要注意的问题作了说明。 北京交通大学硕土学位论文 第二章中风病诊断数据的采样与整理 当进行中风病诊断数据挖掘时,首先要从中风痫诊断研究机构大量数据中 取出一个与我们要探索问题相关的样板中风病诊断数据子集,而不是动用全部 诊断数据。这就像在对开采出来矿石首先耍进行选矿一样。通过数据样本的精 选,不仅能减少数据处理量,节省系统资源,而且能通过中风病诊断数据的筛 选,使我们想要它反映的规律性更加凸现出来。 2 1本文研究中的数据准备 在本文的研究当中,我们的数据取样过程十分漫长,我们最终选定的数据 包括1 3 9 9 例诊断数据,诊断变量的选择包括:姓名、性别、西医辩证、中医辨证、 发病天数、嗜睡、迷蒙、神昏、昏馈、表情淡漠、反应迟钝、强哭强笑、两目 晦暗、烦躁、易怒、面色萎黄、面色红、面色青、面色白、面色黧黑、口唇淡 向、口唇深红、口唇青紫、颜面浮肿、目赤、瞪目直视、口舌歪斜、口噤、口 张、_ i 唇颤动、齿衄、口唇焦裂、口中生疮、眼睑f 垂、 1 偏不瞬、目珠游动、 瞳孔缩小、瞳孔散大、瞳孔不等、筋惕肉明、搐搦、头摇、项强、步履不稳、 循衣摸床、肢体强直、肢体松懈、两手握固、手撇、手颤、足颤、手足蠕动、 肌肉萎缩、肥胖、消瘦、瘛疯、肢体拘急、手指挛急、手肿胀、足肿胀、呼吸 微弱、潮式呼吸、削停呼吸、不规则呼、抽泣样呼、皮肽粗糙、皮肤光亮、浮 肿、肌肤甲错、紫癍、溃疡、痰难于咯、痰色黄、痰色白、痰量、咳血、吐血、 便血、尿血、小便浑浊、小便黄赤、小便清长、语声低微、语声重浊、语声洪 亮、瞻语、郑声、重言、独语、错语、短气、少气、哮鸣、喉中痰鸣、喘、咳 嗽、干咳、干呕、暖气、呃逆、失音、语言蹇涩、鼻鼾、口臭、恶寒、畏寒、 寒战、壮热、微热、潮热、身热不扬、身热夜甚、五心烦热、寒热往来、自汗、 盗汗、油汗、冷汗、战汗、头汗、胸汗、偏身汗出、手足心汗、痛有定处、头 项强痛、头痛、偏头痛、身痛、胸痛、胁痛、肩痛、关节疼痛、肢体疼痛、足 项强痛、头痛、偏头痛、身痛、胸痛、胁痛、肩痛、关节疼痛、肢体疼痛、足 】5 北京交通大学硕士学位论文 痛、胃痛、腹痛、腰痛、疼痛性质、头皮麻木、头中鸣响、首如裹、头昏、头 晕、头胀、目眩、舌麻、口麻、流涎、耳鸣、耳聋、重听、目涩、视歧、视物 模糊、不闻香臭、胸闷、憋气、胸胁苦满、痞满、心悸、心中懊健、嘈杂、肢 体麻木、肌肤不仁、神疲、乏力、腰酸、腰重、腰冷、口渴、渴喜冷饮、渴喜 热饮、渴不欲饮、饮水呛咳、口苦、吞酸、恶心、呕吐、纳呆、便溏、便初硬 后、水泻、完谷不化、大便不爽、大便失禁、便干、小便频数、小便不畅、小 便失禁、夜尿多、但欲寐、不寐、多梦、手足心热、手背热、肢体发凉、腹部 硬满、淡红舌、淡白舌、红舌、紫舌、绎舌、青舌、胖大舌、齿痕舌、瘦薄舌、 荣、枯、老、嫩、点刺舌、芒刺舌、裂纹舌、镜面舌、舌干、舌生瘀斑、舌生 瘀点、舌疮、舌痿、舌强、舌蹇、舌歪、舌颤、吐舌、舌卷、舌短缩、厚苔、 薄苔、润苔、燥苔、腐苔、糙苔、燥裂苔、滑苔、地图舌、镜面苔、无根苔、 有根苔、白苔、黄苔、灰苔、黑苔、绿苔、霉酱苔、染苔、青紫、曲张、浮脉、 沉脉、迟脉、缓脉、数脉、细脉、涩脉、弦脉、滑脉等。 因为本文研究经常使用的e m e r p r i s em i n e r 系统对于中文的支持不够,所以 论文在实验过程中将上述这些诊断因素全部转换成字符和数字,比如v l 代表姓 名,v 2 代表性别,v 3 代表西医诊断,v 4 代表中医辨证,v 5 代表发病天数,v 6 代表嗜睡,v 7 代表迷蒙,v 8 代表神昏,v 9 代表昏馈,v 1 0 代表表情淡漠,v l l 代表反应迟钝,v 1 2 代表强哭强笑,v 1 3 代表两目晦暗,v 1 4 代表烦躁,v 1 5 代 表易怒,v 1 6 代表面色萎黄,v 1 7 代表面色红,v 1 8 代表面色青,v 1 9 代表面色 白,v 2 0 代表面色黧黑,v 2 l 代表口唇淡白,v 2 2 代表口唇深红,v 2 3 代表口唇 青紫,v 2 4 代表颜面浮肿,v 2 5 代表目赤,v 2 6 代表瞪目直视,v 2 7 代表口舌歪 斜,v 2 8 代表f 1 噤v 2 9 代表口张,v 3 0 代表口唇颤动以此类推。 为了便于分析,我们必须将中医诊断中的各项诊断变量进行量化,这样爿+ 能充分运用数学统计和数据挖掘的技术。 在本文的研究中,我们对所有诊断因素进行了赋值,下面是其中一些的说 明: 北京交通大学硕士学位论文 诊断冈素变量名赋值 中医辨证 v 4v 4 = l 表示风痰火亢证,v 4 = 2 表示风火上扰证,v 4 = 3 表示痰 热腑实证,v 4 q 表示风痰瘀阻证,v 4 = 5 表示痰湿蒙神证, v 4 - 6 表示气虚血瘀证,v 4 = 7 表示阴虚风动证。 嗜睡 迷蒙 v 6 = 1 表示病人有这种症状, v 7 = 1 表示病人有这种症状, v 6 = o 表示病人没有这种症状 v 7 = 0 表示病人没有这种症状 弦脉 v 2 4 9 v 2 4 9 = l 表示病人有这种症状,v 2 4 9 = 0 表示病人没有这种症状 滑脉 v 2 5 0 v 2 5 0 = l 表示病人有这种症状,v 2 5 0 = 0 表示病人没有这种症状 2 1 1 诊断数据的收集和整理 由i 二述中风病四渗信息调查分析软件所得到的诊断数据库表中的记录并不 是每条都是中风病诊断研究决策所需要的,这要按中风病诊断研究决策支持的 需要编制专用的数据筛选程序。再者,联机业务处理系统中的中风病诊断数据 有一个特性:即每一条记录都有产生、反复的变更、修改,直至数据记录不再 变化的过程,称之为“数据到位”。例如:一个中风病病人在一个医院中住院了, 联机业务处理系统中就要添加一条相应的中风病诊断记录;这个病人不断地进 行住院看病,就要在他的记录中记入每次诊断不同的参数:当这个病人最后出 院时,就要再登录这些完整的诊断信息,此后,记录其看病过程的数据就再也 不能修改了。如果要进行病人病情变化周期的分析,就只使用病人出院后的那 止i 数据,而不能使用同一表中的l 下在治疗的病人数据。 由此可见,直接使用联机业务处理系统中的中风病诊断数据进行中风病诊 断研究决策支持数据的分析处理会产生许多麻烦,甚至实现不了。这时候,我 们也许会问为什么系统中有我们需要的中风病诊断数据,而我们却无法运用呢! 这不是说关系数据库不好,而是老产品遇到了新任务。e r 型的数据结构能完美 地执行联机业务处理,但不适应较大规模的中风病诊断研究决策支持数据分析, 尤其不适应大范围的中风病诊断研究决策支持数据分析处理的需要。适应这一 需求,应运而生的就是中风病诊断研究数据仓库技术。 北京交通大学硕士学位论艾 在w h i n m o n 所著“b u i l d i n gt 1 1 ed a t aw a r e h o u s e ”一书中给出了数据仓库的 定义:“数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持 管理决策的一种数据结构形式。”【6 】这一定义指出了数据仓库和事务处理系统之 削的主要差异。中风病诊断研究数据仓库的目标是为了制定管理的中风病诊断 研究决策提供支持信息,这显著的与0 u t 系统的快速响应需要不同。正像中风 病诊断研究机构为了进一步提高中医诊断的水平,而要进行中风病中医诊断标准 的重新制定一样,为了支持中风病诊断研究管理决策需要也要按不同特定的要 求重组o l t p 系统中的中风病诊断数据,并要按不同决策和分析内容分别组织, 使之方便使用【”。 在把中风病诊断数据装载到数据结构重组后的中风病诊断数据仓库之前, 先要进行数据转换,或称“整合”处理。这一处理包括几个必不可少的操作步 骤,做到使诊断数据完整、统一,这就确保了在使用中风病诊断数据仓库时其 中的诊断数据是有质量保证的。简而言之,整合就是保证诊断数据准确、到位、 没有超出应有的数值范围、没有重复等。中风病诊断数据仓库中的数据不像其 他中风病诊断数据库中的诊断数据那样频繁的修改,所以它比较稳定( 不必实 时修改) 。在中风病诊断研究数据分析的执行过程中使用的诊断数据不能有任何 的变化,只有这才能保证两次使用同一组信息进行分丰厅时不会得出不同的答案。 中风病诊断数据仓库一般是按周、月或隔月从中风病研究机构系统周期性的批 次更新数据。由于具有数据的阶段稳定性,对中风病诊断数据仓库来说就可以 减少许多传统r d b m s 必须的资源消耗,如:记录的锁机制、参照完整性的检 查、数据操作的f 1 志、以及检查点回退( r o l lb a c k ) 等。 和o l t p 的“实际事件”相比,中风病诊断数据仓库的数据组织可呈多维时 间段结构( 时变的例如2 0 0 4 年各个月份的诊断数据) ,这一数据结构供进 行某一时问段众多事件的定量分析用,并产生相应的结论。从本质上说,中风 病诊断研究数据仓库的目标是从联机业务处理系统中筛选出某项决策所需的支 持数据,再在分析处理过程中得出进行中风病诊断研究决策时有用的信息。供 分析使用的这种时变数据亦可预先归纳出若干层次的汇总数据以利决策支持使 lr 北京交通大学硕士学位论文 用,这样,在常规决策操作时就不必临时进行基础诊断数据的汇总处理了。 2 1 2 本文研究中的数据取样 经过对所有变量进行了赋值,本文所采用的数据便能完全呈现出来了,下 表是经过赋值后本文所使用的中风病诊断数据中的一部分: 西跃 一f l 畦辨“茇瘸天数嗜睡迷蒙神昏昏馈表情浈渡反心迟钝 磅断 2o o60 020 0o 口o o10 0o o10 010 0 2o o50 口 3 0 0 0 010 010 010 0 10 0 10 0 20 060 040 00 00 00 00 01 口olo o 2o o3 0 0 50 0 10 0 0 0 0 0 1 o o1 o o 10 0 2 o020 060 00 00 01 0 0o o1o o10 0 20 060 0 70 0 1o o0 00 0o o10 01 0 0 2o o6 0 0 8o o 0 0 o o 0 0 1 o o10 0o o 20 07 0 0 9 0 0 0 00 010 00 0 10 00 0 2o o3 0 01 0 0 00 01o o0 0o o 1 0 0 o o 20 03 0 01 1o oo o0 00 01o o0 00 0 2 0 02o o1 2 0 010 00 00 00 00 00 0 20 020 01 30 00 0o o1o o0 00 00 0 2 o o1 o o1 4 o oo o,0 00 01 o o0 0e 0 20 01o o3o o1 0 010 00 01 ,0 00 010 0 20 040 04 0 00 0o o10 00 00 00 0 由上述取样表可以看出,我们已经将一些变量删去,将另外一些变量补充。 从巨大的诊断数据母体中取出哪些诊断数据作为样本数据呢? 这要依我们 所要达到的目标来区分采用不同的办法:如果我们是要进行过程的观察、控制, 这时我们可进行随机取样,然后根据样本数据对其中某个过程的状况做出估计。 各个诊断因素量化后的数据对于数据分析而言将起到一目了然的作用, 糟我们想通过中风病诊断数据挖掘得出某个过程的全面规律性时,必须获 得在足够广泛范围变化的数据,以使其有代表性。我们还应当从实验设计的要 求来考察所取样数据的代表性。唯此,才能通过此后的分析研究得出反映本质 规律性的结果。利用它支持我们进行决策才是真f 有效的。 北京交通大学硕上学位论文 2 1 3 本文数据采样中的部分代码 在用数据挖掘工具( 本文的实验部分主要是用s a s 公司的e n t e r p r i s em i n e r 工具) 进行诊断数据分析时,其部分代码如下所示: d a t aa ; 工n p u tn u mx 1 一x 8y ; c a r d s j 13 22 5 43 为了对所提供的中风病中医四诊信息调查表上的数据进行挖掘,有必要对 它们进行分割。数据分割是最公正的模型评估技术。一般来讲,数据被分割成2 个部分:训练集和校验集( t m i n i n ga i l dv a l i d a t i o n ) t h 怕n k l m i n g 图4 对中风病诊断数据进行过采样 2 2 诊断数据的特征探索、分析和预处理 前面所叙述的中风病渗断数据取样,多少是带着人们对如何达到中风病诊 0 o 1 l 0 1 l 1 3 0 0 o o 0 l 1 1 0 o 1 1 1 0 1 北京交通大学硕士学位论文 断数据挖掘目的的先验的认识进行操作的。当我们拿到了一个中风病诊断样本 数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋 势:有没有出现我们所从未设想过的数据状态;病人症状因素之间有什么相关 性:它们可划分成怎样一些类别这都是要首先探索的内容。 这罩的中风病诊断数据探索,就是我们通常所进行的深入调查的过程。我 们最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。但是, 这种复杂的关系不可能一下子建立起来。一开始,可以先观察众多因素之问的 相关性:再按其相关的程度,以了解它们之问相互作用的情况。 这些探索、分析,并没有一成不变操作规律性:相反,是要有耐心的反复 的试探,仔细的观察。在此过程中,我们原来的专业技术知识是非常有用的, 它会帮助我们进行有效的观察。但是, 束缚了我们对数据特征观察的敏锐性。 存在的关系。 我们也要注意,不要让我们的专业知识 可能实际存在着我们的先验知识认为不 根可能这罩就是发现的新知识! 有了它,也许会导引我们在此后的分析中, 得出比我们原有的认识更加符合实际的规律性知识。假如在我们的操作中出现 了这种情况,应当说,我们的数据挖掘已挖到了有效的矿脉。 在这罩我们要有耐心,做几种分析就发现重大成果是不大可能的。 2 3 问题明确化、诊断数据调整和技术选择 通过上述两个步骤的操作,我们对中风病诊断数据的状态和趋势可能有了 进一步的了解。对我们原来要解决的问题可能会有了进一步的明确;这时要尽 可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题 就向它的解决更前进了一步。 根据中风病中医诊断的临床表现,可以将病人划分成7 个类型:风痰火 亢证:风火上扰证:痰热腑实证;风痰瘀阻证:痰湿蒙神证:气虚 血瘀证:阴虚风动证。 北京交通大学顿士学位论文 本文研究的最终目的就是要找出在2 1 1 中提到的本文研究变量分别与这7 类诊断的关联,从而确立诊断标准。这便是本文试验明确的研究问题。 在这部分,我们借用了s a s 公司的e n t e r d r i s em i n e r 工具对各个诊断变量 ( v 5 、v 6 、v 7 、v 8 ) 与最终中医辨证( v 4 ) 之前的辩证关系,这有利于 我们进行进步的数据调整,处理的结果如下图所示: 图本论文的数据调整依据( 仅以v 1 0 2 、v 1 0 3 为例) 在问题进一步明确化的基础上,我们就可以按照问题的具体要求来审视我 们的中风病珍断数据集了,看它是否适应我们的问题的需要。在中风病珍断数 据挖掘的各个阶段中,我们要使所使用的数据和所将建立模型处于十分易于调 整、修改和变动的状态,这才能保证中风病诊断数据挖掘有效的进行。 针对问题的需要可能要对中风病诊断数据进行增删:也可能按照我们对整 个中风病诊断数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现 对状态的有效的描述。 本文研究中,我们对诊断数据进行了进一步的处理,下表是整理后的部分 诊断数据: 中医辨证性别 北京交通大学硕士学位论文 诊断嗜睡迷蒙神昏 1o 1o 0i 昏馈心悸滑苔嘈杂浮肿 在问题进一步明确:中风病诊断数据结构和内容进一步调整的基础上,下 一步数据挖掘应采用的技术手段就更加清晰、明确了。 2 4 中风病四诊信息及数据调查分析软件 在中风病渗断标准研究项目的前期阶段收集和整理数据阶段因为目前各 个中风病渗断研究机构中各自保留的诊断数据格式不一。很难有效的把它们完 全利用起来,为了有效的建立中风病诊断数据仓库,数据格式的统一是必要的 先决条件。 为此,作者曾开发了专门的中风病四诊信息调查分析软件,来帮助完成项 目最初阶段的数据收集和统一整理工作。 中风病四诊信息调查分析软件专门供东直门医院用于中风病中医诊断标准 的研究。内容涉及国际上关于中风病研究的各类量表,比如美国国立卫生研究 院卒中量表( n i h s s ) 、b a n h e l 量表、简短精神状态量表( m m s e ) 、汉密尔顿抑郁 量表( h a m d ) 、s f 3 6 量表中文版。 同时还包括用于中风病中医诊断的其他部分,比如患者一般情况调查表、 神经系统检查表、理化检查、中医四诊信息调查表。 软件的功能和界面非常多,无法完整介绍,只能简单概述一下几个主要界 面: o o 0 0 , 除如加体加凹 北京交通大学硕十学位论文 图3 本论文前期数据整理分析的软件界面 圈本论文前期数据整理分析的软件界面 北京交通大学硕士学位论文 图本论文前期数据整理分析的软件界面 圈本论文前期数据整理分析的软件界面 2 4 本章小结 北京交通大学硕士学位论文 本章主要介绍了中风病诊断数据挖掘过程中前期的数据采样和整理等准备 工作。渗断数据的采样对于整个论文的工作来讲至关重要,因为诊断数据的准 确性将直接决定最后形成的中风病诊断标准的正确性:而数据采样后的格式是 否统一,是否有利于采用各种数据挖掘算法,则决定了整个挖掘过程的效率。 本章首先介绍了在本文研究中采用的诊断数据,这些诊断数据来源于东宣 门医院等多个中风病诊断研究机构。为了更好的利用这些珍断数据,论文对它 们进行了量化和赋值处理。之后进行诊断数据的特征探索和分析,以及挖掘问 题明确化和进一步的数据调整。 在数据处理过程中的部分代码本章也给出了简单说明。 存本章的最后,作者介绍了自己开发的中医四诊信息和数据调查分析软件。 中风病四渗信息调查分析软件专门供东直门医院用于中风病中医诊断标准的研 究。内容涉及国际上关于中风病研究的各类量表,以及用于中风病中医诊断的 其他部分量表。 在研究过程中,作者认为在数据的采样部分由些问题需要格外注意,那 就足通过中风病诊断数据取样,要把好诊断数据的质量关。在任何时候都不要 忽视珍断数据的质量,即使我们是从一个中风病诊断数据仓库中进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 勤洗手可预防的疾病类型
- 产科出血性疾病诊疗规范与临床管理
- Moxifloxacin-d5-BAY-12-8039-d-sub-5-sub-free-base-生命科学试剂-MCE
- 超神数学-高考数学总复习基础篇(一轮)(练习册)专题09指数和对数(含答案或解析)
- 家谱:历史观的启蒙班
- 成人教育线上学习模式创新:2025年家庭教育与亲子互动研究报告
- 新能源汽车废旧电池梯次利用项目产业链上下游企业竞争力分析报告
- 食品与饮料行业:2025年食品行业食品安全教育与培训市场潜力与机遇
- 绿色建筑认证体系在绿色建筑标准规范中的应用与发展报告
- 智能健身器材运动监测技术在健身房智能管理中的应用报告
- 2022年小学二年级下册数学评价方案
- Q∕SY 1470-2012 员工健康体检规范
- 教师英语口语训练课件(完整版)
- 风生水起博主的投资周记
- XXXXX智能化弱电施工组织计划
- TK校验仪的使用
- 北京市中小学教师岗位考核登记表(表样)
- 血栓性浅静脉炎
- 弃渣场施工及方案
- SolidWorks入门教程(很全面)PPT课件
- 工作联系函-087,088关于铝合金窗门安装滞后影响工期等相关事宜
评论
0/150
提交评论