(计算机系统结构专业论文)基于组合学习的知识获取技术在肺癌预后系统中的研究与实现.pdf_第1页
(计算机系统结构专业论文)基于组合学习的知识获取技术在肺癌预后系统中的研究与实现.pdf_第2页
(计算机系统结构专业论文)基于组合学习的知识获取技术在肺癌预后系统中的研究与实现.pdf_第3页
(计算机系统结构专业论文)基于组合学习的知识获取技术在肺癌预后系统中的研究与实现.pdf_第4页
(计算机系统结构专业论文)基于组合学习的知识获取技术在肺癌预后系统中的研究与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机系统结构专业论文)基于组合学习的知识获取技术在肺癌预后系统中的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 从数据库内自动获取知识是知识获取技术的一个重要的研究课题,利用知识 的自动获取技术,可以解决知识获取上的瓶颈问题。目前,在研究知识的自动 获取技术上已经有了很多成果。因此,我们开发了一个肺癌预后系统,采用了多 种从数据库内自动获取规则知识的方法来建立知识库。 由于知识获取方法多种多样,而且每种方法基于的理论机制都不相同,所以 各种知识获取方法间存在着互补性,所以基于以上原因,我们提出一个组合学习 的方法。组合学习是在多个单独的知识自动获取方法的基础上,利用投票机制来 利用不同算法之间的互补性,以提高整体的准确性。为了选择单学习器采用的知 识获取算法,我们对本系统的知识源进行分析,确定了a q l 5 及c l i p 3 算法来作为 知识自动获取算法。并对这两种方法提出了改进算法,并经过实验证明改进效果 明显。 组合学习方法引入了b a y e s 概率组合,利用样本数据来估计各个单学习器的 先验概率及预测值的类先验概率,以达到给各个单学习器赋权重的目的,单学习 器根据自己的权重对预测值进行投票,票数最多的预测值做为组合学习器的预测 值。本系统在组合时对b a y e s 的投票机制做出了改进以达到预测的最佳效果。实 验结果证明了改进后的组合学习器在准确率上比改进前有所提高。 本文由六个部分组成。首先介绍了肺癌预后系统的功能以及现有的知识获取 技术,并对当前知识获取技术的应用与前景作了大致介绍;接着就系统中采用的 知识表示方式、规则搜索策略以及知识获取算法的确定做出了说明;然后分别介 绍了a q l 5 算法和c l i p 3 算法以及在它们的基础上做出的改进算法;之后介绍了组 合学习算法以及在b a y e s 组合机制上做出的改进的组合算法;最后以实验结果将 改进的组合算法的效果与改进前进行比较,并对系统进行实现。 关键词:知识获取;组合学习;a q l 5 ;c l i p 3 ;b a y e s 组合 华南理工大学工学硕士学位论文 a b s t r a c t k n o w l e d g ea c q u i s i t i o na u t o m a t i c a l l y f r o md a t a b a s ei sa v e r yi m p o r t a n t i n v e s t i g a t i o nt a s k i n k n o w l e d g ea c q u i s i t i o na r e a u s i n gt e c h n o l o g yo fk n o w l e d g e a c q u i s i t i o na u t o m a t i c a l l yc a l lr e s o l v et h e “b o t t l en e c k o ft h ek n o w l e d g ea c q u i s i t i o n p r o c e s s b yn o w , m a n ys u c c e s s f u lp r o d u c t i o n sh a v eh a d i nt e c h n o l o g yo fk n o w l e d g e a c q u i s k i o na u t o m a t i c a l l y s ow ed e v e l o p e d a s y s t e mo fl u n g c a n c e rp r o g n o s i s ,i nt h i s s y s t e m ,w ea d o p t e daf e wo fw a y so fk n o w l e d g ea c q u i s i t i o na u t o m a t i c a l l y f r o m d a t a b a s et 0s e tu pk n o w l e d g e b a s e b e c a u s et h e r ea r e m a n yt e c h n o l o g i e s o f k n o w l e d g ea c q u i s i t i o n ,a n d e a c h t e c h n o l o g yh a si t so w nt h e o r y o n et e c h n o l o g yc a nm a k eu p a n o t h e r sw e a k n e s s s ow e p u tf o r w a r daw a yo f e n s e m b l el e a r n i n gs y s t e m t h ee n s e m b l el e a r n i n gs y s t e mu s i n g v o t et oi m p r o v et h es y s t e m sv e r a c i t y i no r d e rt oc h o o s et e c h n o l o g yo fe a c hl e a r n e r , w ea n a l y z et h es o u r c eo f k n o w l e d g ei nt h i ss y s t e m t h e nw e d e c i d e dt oc h o o s ea q15 a n dc l i p 3a st h et e c h n o l o g yo fe a c hl e a r n e r a n dw e p u tf o r w a r dw a y s t oi m p r o v et h e t w oa r i t h m e t i c w ev a l i d a t e dt h ee f f e c to ft h ei m p r o v e m e n tt h r o u g he x p e r i m e n t e n s e m b l el e a r n i n gu s e db e y e sp r o b a b i l i t y w ee s t i m a t ee a c hl e a r n e r sp r e p r o b a b i l i t y a n dp r e d i c tv a l u e s p r e - p r o b a b i l i t y t h e ne a c hl e a r n e r v o t et o p r e d i c tv a l u eb a s e d p r e p r o b a b i l i t y t h ep r e d i c tv a l u e h a dt h em o s tv o t e si st h e p r e d i c t v a l u eo ft h e e n s e m b l el e a r n i n gs y s t e m w ei m p r o v e dt h ew a yo fe n s e m b l el e a r n i n gt og e tt h eb e s t p r e d i c tv a l u e a f t e re x p e r i m e n tw ec o n s i d e rt h ev e r a e i t yo fe n s e m b l el e a r n i n gh a v e b e e ni m p r o v e d t h i sp a p e rc o m p r i s eo fs i sp a r t s f i r s tw ei n t r o d u c e dt h ef u n c t i o no fs y s t e mo f l u n gc a n c e rp r o g n o s i sa n dt e c h n o l o g i e s o f k n o w l e d g ea c q u i s i t i o nn o w t h e n w em a k e o u tt h ek n o w l e d g ea c q u i s i t i o nt e c h n o l o g i e s ,s t r a t e g yo fr u l e ss e a r c h i n gu s i n gi nt h e s y s t e m i nt h en e x tc h a p t e r sw ei n t r o d u t e da r i t h m e t i co fa q l 5a n dc l i p 3 ,t h e nw e i n t r o d u c e dt h e i m p r o v e m e n td o i n g t ot h ea r i t h m e t i c a f t e rt h a t ,w e i n t r o d u c e d e n s e m b l el e a r n i n ga r i t h m e t i ca n dt h ei m p r o v e m e n td o i n gt oi t a tt h ee n d ,w es h o w t h e r e s u l to f e x p e r i m e n t a n dm a k es o m ec o n t r a s t w es h o w e dt h er e a l i z a t i o no f t h es y s t e m k e yw o r d s :k n o w l e d g ea c q u i s i t i o n ,e n s e m b l el e a r n i n g ,a q 15 ,c l i p 3 b a y e se n s e m b l e i i 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 易巍垂髫移 日期:2 0 0 3 年5 月2 1 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密d 。 ( 请在以上相应方框内打“4 ”) 作者签名:易巍毫锦 日期:2 。3 年5 月2 1 日 导师签名:郑启伦细f 日期:2 0 0 3 年5 月2 1 日 第一章绪论 1 1 肺癌预后系统 1 1 1 肺癌概述【1 】 第一章绪论 肺癌已成为目前人类因癌症死亡的主要原因,有专家称肺癌和艾滋病是本世 纪与不良生活习惯有关的危害人类健康最严重的两种疾病。在2 8 个发达国家中, 肺癌己成为恶性肿瘤中最常见的死亡原因。有资料表明,我国肺癌发病率将在相 当长时期内呈现显著上升趋势。 肺癌的治疗效果在近十年中没有显著的提高,总的治愈率为1 0 左右。其中 主要原因是肺癌生物学特性十分复杂,恶性程度高,8 0 的肺癌患者在确诊时已 属晚期。肺癌的治疗应是手术、放疗、化疗、免疫及中药等多学科综合治疗。 肺癌的病因复杂,迄今尚不能确定某一致癌因子,一般认为可能与下列因素 有关: ( 1 ) 吸烟:肺癌与吸烟、特别与吸纸烟的关系比较密切。约有3 4 的肺癌是吸 烟引起的。吸纸烟者肺癌死亡率比不吸烟者高1 0 倍一1 3 倍; ( 2 ) 物理化学致癌因子:目前比较公认为可致癌的因子有无机砷、石棉铬、镍、 煤体育体焦油、烟炱和煤的其他燃烧物以及二氯甲醚和氯甲甲醚等; ( 3 ) 大气污染; ( 4 ) 肺癌的发生、演变以及恶性程度与某些癌基因的活化及抗癌的基因的丢失 有密切关系; ( 5 ) 慢性肺疾患:肺结核、慢性支气管炎。 针对肺癌的常规治疗主要有以下方法: ( 1 ) 手术治疗由于肺癌手术后五年生存率平均只有3 0 左右,很多患者死者 死于远处转移,肺癌手术前后中医中药的扶正祛邪治疗更是重要的一环; ( 2 ) 放射治疗; ( 3 ) 药物化疗; ( 4 ) 免疫治疗通过调动机体内部防御系统功能,来达到阻止肿瘤生长和扩散 的作用; ( 5 ) 对症治疗。 华南瑾工夫学工学矮士举也论文 。 2 黟癌颓盛概迷“1 肺癌楚严重熊害人们生命毽康的恶牲肿瘤,美国2 0 0 1 年瓣癌殛亡占全郝辨癃 瑟亡孬分数为男:3 1 ,女:2 5 ,皆占首位,。困内l e 衷逶媸为2 8 也占麓擅, 黠痰患者平均存溪期仪为6 8 个月。露使是早期脖瘗投治术爱5 年存活率懋不理 想。在对鬟地3 5 0 0 铡腌燕患者蛇跟踪统计中,l 期病人报治本后5 年存活率为5 5 ,i i 期瘸人为3 6 ,可见即使早期麟癌零后5 年中亦夜1 3 2 3 灼患者死 亡。现在选择术屠治疗方察主要是依据肺癌的缎织学类型,t 腿分期及病人生存状 况等预后因素蕊定,但即使是同秘组织类型、同期病人其治疗效果也有很大不冠。 肺癌患者的存摄时闻主要看在第一次诊断的时候肺癌的类型以及它的扩散范 围。处于非小细胞肺癌的早期阶段的病人大约有三分之只嚣通过外科簪术就能 治愈。这个比率远低于处于小细胞肺癌患者的治愈率一低五个酉分点。在太多数不 可能治愈的病人中,存活时间从几个月到几年不等,这主要取决于肺癌的扩散范 围、病人的全身状况、还有他( 她) 对治疗的反应以及治疗方案豹有效性。 治疗完成之后,任何化合作用都可能发生,病人仍需保持在医护人员的监视 下,因为癌症有可能复发。复诊工作应定期进行,最初两华内每一至三个月一 次。复诊的频率主要敬决于病人的情况以及他的病情。每一次复诊,病人必须进 行垒身检鸯,每几个月必颁进行一次胸部透射,每年进行一次胸部c t 透射和次 骨骼扫插。对复发病的治疗取决于病情复发的骨中期以及程度。许多病人都是用前 面所提副的化学药物疗法进行治疗。放射疗法可能对处理癌症所扩散到的疼痛及 有痰状的部位起到一定作用。如果病人觉得疼痛,有许多治疼痛酌药物可戮减辍 疼痛。 联合多种指标来判断肺癌病入预后,已有了报太谶展,这尤其对早麓癌零翳 病人的迸一步治疗的选择有重要意义。 1 。1 + 3 肺癌预看系统简介 肺癌鬏霜累绕是建立在广东省胂瘩嚣院与孛山医科大学第三辫震医院牧潘鲶 薄薅病天豹瘸锱掰史数据上的鞭看系统。系统缀据历史数据中病人豹病痰售息、 治疗信感及治疗结果、生存时闺,避月妇谈获取技术扶原始数据申获取影响肺癌 治疗后静联看溷素,羰纳或哥挟系绞菠照敢知识,鄄膝癌瘸人所接受的派疗方案 与癍人黪个人熔悬及瘫理情援之阀的联蓉,以及分扳痰人澹疗后鞭屠因素对病人 生存期懿影响。摄据获取豹上述知识,系统可以根据竣入驰当翦膝瘗病人熬个人 信息及病理情况,在生存期尽可能最大鲍情况下,推出参考度较赢约参考治疗方 2 图1 1 肺癌预后系统原理图 1 2 知识获取技术概述 i 2 1 知识获取技术在大规模数据库中的应用 数据是知识的源泉,拥有大量的数据与拥有许多有用的知识完全是两回事。 为了有效地利用大量的公共数据,必须更好地理解这些数据,并从其中快速、准 确地发现知识。这里所说的知识是指大量数据中存在的规律性( r e g u l a r i t y ) 或不 同属性值之间所存在的 i ft h e n 规则,将所获取的知识附加于仅由事实数据( f a c t d a t a ) 构成的传统数据库上既可强化数据库的查询能力,又可给数据库提供推理 能力,并由此可构造基于规则的大规模知识库 2 。 近几年来,为了更有效地利用大规模知识库中的数据,人们越来越重视数据 库的知识获取研究。机器学习领城的创始人d m i c h i e 认为,如何将机器学习领域 己研究开发的工具有效地用于大规模数据的分析,是一个重要而又有意义的研究 课题。实际上,在数据库研究领域这一问题也已被逐步重视。例如,在一个由美 国国家科学基金会( n s f ) 发起的旨在探讨九十年代数据库的研究课题的研讨会上, 从数据中挖掘知识( k n o w l e d g em i n i n g ) 被列为数据库研究的最重要的研究课题之 一。最近的大规模知识库以及其他一些与数据库相关的国际学术会议也设立了相 应的专题。人工智能领域也分别召开了几次以数据库中的知识获取为主题的研讨 会。 华南理工大学工学硕士学使论文 实际上,从大量数据中获取知识霄薅层意思:一是与科学发现楣关。从鼹溅 客观世界的大量实骏数据( 往往是数值) 中发现数握的整体结均特性和数据闯蛉函 数关系,并根据统计特征推断察观世界中数掇间存农的规律性。例如,从关于气 体的大墩实验数据中抽取与压力、体积与温度有关的数据,并由此导出 b o y l e c h a r l e 定律,p 1 a n g l e y 等人开发的8 a c o n 系统就是这类系统中的典型。 二是指,研究如何从商业数据等事实数据所构成的大规模数据摩中,发现其中隐 含的规律性或规则。这是一类将人工智能技术与数据库理论相融合的应用性研究 课题。 数据库中的知识获取研究,其对象主撰是数据库,将数据库中备种各样的数 据进行正确的抽象或泛化,以达到从看来杂乱无章的数搬中发现某种规律性或规 刚的目的。随着数据量城数据复杂程度的增大,人的能力已难以应付,要把人从 这种繁杂的数据分析工作中解脱出来,重骤的解决途径就是有效地利用机器学习 领域现有的研究成果和技术,研制能完成这种功能的计算机系统。当然,将人的 能力完全移植给计算机怒难戳做到裔白,但可实用的知识获取系统目前己得到某种 程度静实现。饲如,在医疗、纯学、c a d e 埘和股票交荔方面,八十年代初就开 始研究如何筑数赭库中获取有用的知识,并开发出了实用性系统,也提出了多种 透过学习簸大量数据中获取黼律或瓶烫| j 韵方法。在这稀形势下,我们试为开发和 应擐实忍翔识发璇系统静对梳已经成熟“3 。 2 。2 知识获取技术的分类 零用予知识获取豹王兵是数据挖握技拳。数撂挖据,也爵戳称势数据瘁串瓣 知识发现k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) ,是扶大量数豢孛提取出酊 信、瑟踬、毒效势能被人理勰静模式鳇蹇缀处理过程。数据挖掘运爰选定黪妇识 发现算法,从数攥中提取出煺户所懿要她知识,这些知识霹以月一种特定黪方式 表苯或使用一些零用的表示方式, 知识获取技术可粗分为:机器学习方法、统计方法、姊缝网龌方法和数据库 方法。机器学习中,可细分为:归纳学习方法( 扶策挝、飒则归皴等) 、基予范例学 习、遗传算法等。统计方法中,霹绷分为:嘲归分捞( 多元照归、皂回归等) 、判别 分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分树( 系统粱类、动态聚类 等) 、搽索性分析( 主元分析法、相关分析法等) 等。神经网络方法中,可细分为: 前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映射、竞争学习等) 等。 数据库方法主要是多维数据分析或0 l a p 方法,另外还有面向属性的归纳方法。1 。 ( 1 ) 多层次数据汇总归纳 数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合 4 第一章绪论 归纳成高概念层次信息的数据挖掘技术被称为数据汇总( d a t ag e n e r a l i z a t i o n ) 。 概念汇总将数据库中的相关数据由低概念层抽象到高概念层,主要有数据立方体 和面向属性两种方法。 ( 2 ) 决策树方法 利用信息论中的互信息( 信息增益) 寻找数据库中具有最大信息量的字段,建 立决策树的一个结点,再根据字段的不同取值建立树的分支:在每个分支子集中, 重复建立树的下层结点和分支的过程,即可建立决策树。国际上最有影响和最早 的决策树方法是由q u i n l a n 研制的i d 3 方法,后人又发展了各种决策树方法,如 i b l e 方法使识别率提高了1 0 。 ( 3 ) 神经网络方法 神经网络是一种模仿人脑的系统模型,人脑由致以百万计的通过突触相互联 系的神经元组成,n n 也是由大量的模拟神经元组成的,它们通过类似于人脑神经 元的方法相互联系。像人脑一样神经元相互关联的强度可能会改变( 或被学习算 法改变) ,以响应某个已出现的刺激或某个已获得的输出,这就使得网络能够“学 习”。模拟人脑神经元方法,以b p 模型和h e b b 学习规则为基础,建立了三大类多 种神经网络模型:前馈式网络、反馈式网络、自组织网络。 ( 4 ) 覆盖正例排斥反例方法 利用覆盖所有正例,排斥所有反例的思想来寻找规则,比较典型的有 m i c h a l s k i 的a q l l 方法、洪家荣改进的a q l 5 方法和a e 5 方法。 ( 5 ) 粗糙集( r o u g hs e t ) 方法 粗糙集可以较看成是一个有三级成员函数 是,否可能 的模糊集。像模糊 集那样,粗糙集是处理数据不确定性的一种数学摄念。与模糊集类似,粗糙集很 少单独使用,而通常是与规则推导、分类、聚类等其它方法一起组合使用。 ( 6 ) 遗传算法 模拟生物进化过程的算法,由繁殖( 选择) 、交叉( 重组) 、变异( 突变) 三个基 本算子组成。在一个相互竞争的潜在问题解法集中,最佳解法被选出来并与其它 解法相互结合。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。 ( 7 ) 公式发现 在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数 学公式。b a c o n 发现系统完成了对物理学的大量定律的重新发现。 ( 8 ) 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性关 系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析可 采用回归分析、相关分析、主成分分析等方法。 ( 9 ) 模糊论方法 5 华南理工大学工学硕士学位论文 一种表达和处理不确定性的重要方法。当精确输入不可能或太昂贵时模糊 系统就是一种强有力的模型方法。利用模糊集合理论,对实际问题进行模糊判断、 模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低, 模糊性就越强。 ( 1 0 ) 可视化技术 拓宽了传统的图表功能,使用户对数据的剖析更清楚。 ( 1 1 ) b a y e s i a n 网络 贝叶斯信念网络是概率分布的图形化表示。b b n 是有向无环图,其结点表示属 性变量,边表示属性变量问的概率依赖性与各结点相关的是描述相应结点与其 父结点之间关系的条件概率分布。 另外还有归纳逻辑程序( i n d u c t i v el o g i cp r o g r a m m i n g ) 4 1 。 1 2 。3 知识获取技术的应用 以数据挖掘技术为基础的知识获取系统已成功地用于大规模数据库的知识挖 掘。 ( 1 ) g u e s t 是a g r a w a l 为i b m 开发的数据挖掘系统,用于发现v l d b 中的关 联规则、序列模式、分类规则、模式匹配分析等。q u e s t 是i b m 公司a l m a d e n 研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用 开发提供高教的数据开采基本构件。系统具有如下特点: 提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式 发现、时间序列聚类、决策树分类、递增式主动开采等。 各种开采算法具有近似线性的计算复杂度可适用于任意大小的数据库。 算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。 为各种发现功能设计了相应的并行算法。 ( 2 ) d b m i n e 是h a n e t a l 开发的关系数据挖掘系统,它能用于多抽象层的多类 规则挖掘,包括特征规则、关联规则、分类规则等。南京大学开发的k n i g h t 系统 是一个通用的数据挖掘系统,对涉及的数据无既定的领域要求,可以用来处理不 同领域的采掘任务。另外,k n i g h t 系统在数据采掘算法中引入遗传算法和信息论 思想,提高了知识发现的效率和质量。 ( 3 ) 在市场金融方面。i n t e g r a ls o l u t i o n 为b b c 开发的采用神经网络和归纳规 则方法预测收视率的发现系统;零售业数据采掘主要应用于销售预铡、库存需求、 零售点选择和价格分析,例如用自然语言和商用图表分析超市销售数据的 s p o t l i g h t 系统,及扩展到其它市场领域的o p p o n u n i 可e x p l o r e r 系统。 ( 4 ) 在医疗保健方面,由g t e 开发的k e f i r 数据采掘系统用于分析健康数据, 6 第一章绪论 确定偏差,并通过w e b 浏览器以超文本形式输出结果;在科学研究方面,s k i c a t 系统能对宇宙图像数据进行分类,q u a k f i n d e r 利用卫星采集的数据监测地壳活动, h m m s 和s a m 用于发现和构造生物模型:在司法方面,可用数据采掘技术进行案 件调查、诈骗监测、洗钱认证、犯罪组织分析,如美国财政部开发的f a i s 系统; 在制造业上,可利用数据采掘技术进行零部件的故障诊断、资源优化、生产过程 分析等。 ( 5 ) 特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计 算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可 以开发特定的数据挖掘工具。例如,i b m 公司的a d v a n c e d s c o u t 系统针对n b a 的 数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作 开发的s k i c a t 系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算 机科学系开发的t a s a ,帮助预测网络通信中的警报。 在统计和机器学习领域中还有许多数据采掘系统。另外将数据仓库、0 l t p 、 o l a p 和数据采掘技术结合是近期数据库发展的一个趋势。数据仓库和数据采掘都 可以完成对决策技术的支持,相互问有一定的内在联系,两者集成,可以有效地 提高系统的决策支持能力。例如瑞典保险系统由0 l t p 系统、数据仓库、数据挖掘 环境三部分构成。它建立在o r a c l e 数据库基础上的m a s y 数据仓库从多个0 l t p 信 息源收集相关数据。由多种数据挖掘工具( r d t 、c 4 5 等) 构成的数据挖掘环境提 供动态数据分析,使用户尽可能不依赖数据采掘专家执行多种类型的数据采掘任 务。 数据采掘在数据库之外的其它领域也有丰硕的成果,例如统计学中已发展了 许多用于数据采掘的技术,演绎逻辑编程作为逻辑编程的一个迅速发展的分支, 与数据采掘有密切联系”3 。 1 3 知识获取技术在医疗领域的应用 1 3 1 医疗领域中的最新应用 随着知识获取技术的发展,它在越来越多的领域中得以应用。就医疗领域来 说,其应用大多数集中在疾病诊断的应用上。但是我们在研究中发现医生对病人 诊断往往是通过多年的临床经验来进行的。而个人的临床经验又是很有限的。虽 然医院的病案室中保存了大量的病案,这些病案中又包含了极为宝贵的经验知识, 但是如何从这些原始病案数据中提取出这些知识是个问题。这些原始病案动辄数 十页,包括了病人的上百种属性。即便是极具临床经验的医生也很难从这样复杂 7 华南理工大学工学硕士学位论文 甚至混乱的数据中分析出什么知识出来,于是我们就利用知识获取技术来对这些 数据分析,试图为医生提供极具价值的知识,从而对传统的医疗方案进行优化。 处理大量混乱而又复杂的经验数据的一个很好的方法是分类。在分类技术发 展过程中,施行的几个技术是贝叶斯分类、神经网络、遗传算法和决策树等。与 神经网络和贝叶期分类比较,决策树更容易被人理解。而且,训练一个神经网络 将花费大量的时间和进行上千次的迭代,生成一个决策树则要有效得多,因此适 用予大的训练集。另外,决策树生成算法除了包含在训练数据中的信息外不要求 其他的信息( 例如领域知识或数据类的概率分布的预知信息) 。最后,与其他技术 相比,决策树还表现出很好的分类准确度。因此我们选用决策树作为分析医疗数 据的手段r 6 1 。 在研究先天畸形的区域发生模式时,需对地区进行聚类,但所聚成的类必须 在地理上是相毗邻的。这是因为先天畸形的发生除与遗传因素有关外。还与地理 环境、气候、经济文化水平等诸多因素有关。这就使得需要使用条件聚类技术“。 聚类分析也用在医药科学领域的成份数据的分析上,在分析临床治疗后的治 愈、好转、无效等的比例及其变化上发挥了重要的作用0 1 。 神经网络在肺癌的早期预诊中也发挥了很大作用,学者们首先利用数字图像 技术对肺癌穿刺样本进行处理,提取出形态和色度特征,然后通过一种二级集成 结构和特殊的投票方式,用神经网络集成对细胞图像进行分析。实验表明方法的 总误诊率和肺癌患者漏诊率均低于单一神经网络方法和常用的神经网络集成方法 【7 a 国内也有研究将神经网络算法应用到冠心病的诊疗当中。结合被确诊为冠心 病的患者的临床治疗,以人工神经网路方法计算,其结果经过临床验证,准确率 达到9 0 以上。对初次就诊者可以做出正确的判断,预测出正确的结果,将帮助 医生对不同年龄、性别、病史的患者进行临床判断,确定进一步需要处理的方案, 使患者得以及时的治疗,降低冠心病患者的病死率”1 。 在国外,组合的神经网络已经运用到糖尿病、肝炎、肺癌的诊断中,专家们 根据从美国国家糖尿病与消化系统与肾病研究所获取的数据,进行规则归纳,利 用获取的规则对糖尿病、肝炎、肺癌进行诊断,取得了较好的实验效果u ”。 知识获取技术在中医药研究领域也得到越来越多的应用。在中医药学理论的 体质研究中就运用模糊聚类方法将体质进行分类;中医文献研究是医学科研的重 要的基础性工作,传统的文献研究晟大的弱点在于研究者没有通过定量方法来综 合数据,往往主观加以选择、摒弃,令人无所适从,聚类分析能较好地避免了数 据处理时掺杂的主观因素,客观准确地反映研究对象,并在大量的文献资料中可 能发现其内在的客观规律;中药的鉴别、质量评价、代用品的筛选等过程中引入 聚类分析法无疑更显得简明、更具客观性和量化可比性,也为传统中药向电脑量 第一章绪论 化分析迈出了可喜的步“。 1 3 2 肺癌预后系统中运用知识获取技术的可行性 ( 1 ) 预后系统中的原始数据是存放与关系数据库中的记录数据,这些记录实例是 由“属性一值”对构成的,不但非常利于运用目前流行的归纳学获取技术的输入 实例方式,而且也利于使用如决策树、统计、粗糙集等知识获取技术。 ( 2 ) 原始数据都是若干年医院肺癌专家对肺癌病患者做出的治疗方案及对病患 者接受治疗后的临床数据,可以说是肺癌专家们多年的临床经验所积累形成的知 识。当前所要做的就是对这些积累的专家临床经验进行知识的提取。 ( 3 ) 在一定领域那专家可能在某些方面没有最新的知识;同样,与其他人一样, 专家也有偏好;也不能排除有专家在做出治疗判断时受到其它因素的干扰,所以 不能排除原始数据中的某些临床记录对知识的提取具备一定的干扰作用,所以, 有必要利用知识获取技术中的降噪来增大提取知识的准确性。 ( 4 ) 经过临床病例的分析,从临床病例的数据中进行归结,提取知识,组成知识 库,就能最大限度的利用信息量,对肺癌病患者的预后做出科学的估计,指导其 采取各种干预措施,对提高肺癌的生存率有着积极意义。 国内曾有学者试图研究过肺癌的诊断专家系统,但仅仅单纯应用了专家知识, 缺少大量的临床资料做基础。国外研究肺癌的诊断专家系统,文献仅见于美国l ha c e d a r ss i n a i 医学中心a 1 b e r t om m a r c h e v s k y 的报道,其研究主要是依据大量 的医学情报信息,建立的肺癌预后和治疗方面的专家系统“”。 1 4 本章小结 肺癌是当前危害人类健康的最严重的疾病之一,当前对肺癌还没有一个最有 效的治疗方法。在计算机技术应用越来越广泛的今天,将计算机技术应用到肺癌 的诊治中是必要的也是可行的。而医院中积累的临床诊治记录是医院医生对疾病 诊治的经验与成果,因此,对临床诊治记录进行学习以提取隐藏在诊治记录中的 知识,就能最大限度的利用临床记录这笔珍贵财富。根据肺癌病患者的病症及个 人体质等多方面因素,从以往的临床记录中提取的诊治知识将提出具有参考作用 的指导性干扰措施,对肺癌病患者的预后做出科学的估计,对提高肺癌的生存率 有着积极意义。 知识获取技术的广泛应用,使消耗大量财力和物力所收集与整理的宝贵资源 一数据得以利用。知识获取利用数据挖掘技术,按指定方式和阈值抽取有价值的 9 兰童耋兰查璧三耋堡点兰釜篓耋 知识,包括数据挖搠前对数据的预处理、抽样及转换和数据挖掘后对知识的评价 解释过稔等。发展到今天,知识获取技术已经形成了以粱类、分类、神经网络、 糊糙集等多种算法,这魑方法从不同的角度对数据进行知识提取。 在知识获取的应用领域中,医疗领域雁是其中一个重要并且意义深远的领域。 将知识获取戚用剐历史数据库中的原始病例,将能发现医生在诊断疾病以及对疾 病迸行治疗时所使用的如识,这些知识对其他医生在诊治其他病人时具有很大价 值的参考作用。 1 0 第二章知识获取与组合学习 第二章知识获取与组合学习 2 1 肺癌预后系统中应用的知识获取技术 当前研究课题的原始数据源是医疗领域的关系数据库,目的是从已有的医疗 关系数据库中发现知识,来预测未知数据。已有的数据为记录表,我们按照知识 获取方法将每条记录数据划分为两个部分,第一个部分是条件属性集,是由一些 医院收治的病患者记录的个人信息与病症信息组成;第二个部分是决策属性集, 是由医生根据自己的知识和经验对病患者所做出的诊断、采取的治疗措施,以及 生存期等一系列属性构成,这部分属性是由第一部分属性所决定的。数据库的知 识获取的目标就是获取第一部分数据与第二部分数据之间潜在的关系,并用一定 的知识表示方式表示出来。 根据以上所述,我们可以确定课题的研究内容可以分为几个部分: ( 1 ) 知识的表示方式; ( 2 ) 规则的搜索机制; ( 3 ) 采用的知识获取方法或算法; 以下就根据上述几点分别加以讨论。 2 1 1 采用的知识表示方法 知识表示是利用计算机能够接受并进行处理的符号和方式来表示人类在改造 客观世界中所获得的知识。不同的知识结构都有其针对性和局限性,而且有时同 一领域知识可采用不同的知识表示。选定知识表示结构时,应依据具体情况来选 定。在实际应用中所采用的知识表示方式同知识的组织、知识的结构和知识的使 用方式密切相关。选择知识表示模式时应考虑以下几点: ( 1 )充分表达领域知识; ( 2 )有利于运用知识进行推理; ( 3 )便于知识的维护和管理; ( 4 )便于理解和实现u ”。 根据原有数据库的特性,关系数据库中数据的存放是以数据表的形式进行存 储,数据表又是由属性集构成,并且在医疗领域内的知识,多是经验性的,没有 精确、统一的理论,所以我们用产生式规则来表示知识,这样知识就可以由表示 华南理工大学工学硕士学位论文 蕴含关系的规则表达,产生式规则形式如下: i fxt h e ny 或x ;y 含义为“如果x 成立则有y 结论”。规则中x 称为强项,是一系列条件的组合, 也可以称为前提或条件属性集;y 称为后项,表示结论,或者决策。 采用产生式规则表示知识,不但可以将病人的信息表示成规则的前提条件, 医生针对病人做出的治疗方案表示成规则的决策或结论,而且便于理解。医生用 户很容易将产生式规则理解为“在病人什么样的情况下,采取什么样的治疗方案”。 这样表示知识以后,知识库就容易在关系数据库中建立,我们可以把知识库 表示成数据表的形式,属性可以分为三类,第一个属性是规则序号,用来作为规 则的唯一标示符;第二类属性是前提条件属性集;第三类属性是结论属性集。这 样不但解决了规则知识的存放问题,还可以利用数据库管理工具对知识库进行管 理,对知识进行增加、删除、修改、查询等操作。 采用了产生式规则用来表示当前研究领域的知识后,在利用规则进行推理时, 就可以采用“匹配”的方法,只要输入的数据与规则库内的前提条件“匹配”,我 们就认为找到可用的规则。 2 1 2 规则的搜索策略 2 1 2 1 搜索策略 搜索策略主要包括以下两部分: ( 1 ) 可用规则的选择策略。a i 问题的非确定性使得可能同时存在多条规则与当 前的新数据匹配成功,这些可用规则的选取顺序直接影响到整个问题求解的效率。 ( 2 ) 搜索过程的表达和存储方式,不同的搜索结构对应不周的时空开销。 搜索可用规则有多神方法可供选择,最简单的一种方法如下: ( 1 ) 根据当前输入的数据对所有的规则的条件作比较,以得到一组可用的规则; ( 2 ) 如果没有可用的规则就以失败而告终,否则随机地选择一条可用的规则执 行其动作部分; ( 3 ) 如果目标实现了,就以成功而告终,否则返回( 1 ) 。 这种方法对可用规则的鉴别仅依赖于当前输入数据,所以属于“数据驱动” 的求解方法。 另一种方法是系统从目标开始,然后形成各个子目标,以显示出怎样从初始 状态达到目标状态的求解过程,这种方法称为目标驱动,因为它只考虑与问题有 关的规则,故能提高搜索效率【l 引。 1 2 第二章知识获取与组合学习 在本系统中,输入数据后在规则库中寻找对应的规则,以寻找到的规则的结 论作为系统的目标状态。所以我们采用的问题求解方法是数据驱动的求解方法。 数据驱动方法也称为“自底向上”、“正向推理”方法。采用这种方法后,仅 当系统输入的新数据满足规则库中某条规则的条件部分时,该规则才是可用的。 前向推理的示意图如下: 图2 - 1 前向推理示意图 其中g 为目标状态,可能是结论,也可能是无解标志;s 、s 1 、s n 是规 则库中的规则状态1 6 1 。 因为本系统中的规则库中的规则都是一条规则推导出最终结论,不存在一条 规则的结论是另一条规则的条件这样的情况,所以上图在本系统中变为: 图2 - 2 本系统的前向推理示意图 数据驱动方法的优点是简单明了并能求出所有的解,但它的缺点是执行效率 低,同时驱动了一些与问题无关的规则,因而具有盲目性。但是在本系统来说, 由于规则库的规模不大,执行效率低的缺点在这里并不明显,根据本系统的任务, 是根据用户输入的新数据,从规则表中找到匹配的规则,将匹配的规则的决策值 反映给用户,而且由于本系统中的规则都是一步结论性规则,即所有规则的结论 都是属于最终问题解集,所以我们在本系统中的控制策略采用数据驱动方法即前 向推理是合适的。 规则搜索策略的基本算法如下: 华藏理工大学工学疆圭学链论文 = 0 = = ! _ 2 = _ l _ - _ = _ _ 目= _ e = 墨e j j i # = e ,自t = j - = j _ _ = j _ _ ! ,_ # = 一i i i , 1 - _ _ _ - e ! _ e 自= _ e 目= 鼍 s t e p l :d a t a 卜输入新数据 s t e p 2 :u n t ii 舰则库被搜索完毕d o r s ( - - a p p l i c a t i o n ( 规则库,d a m ) ; r ( - - s e l e c t ( r s ,c o n t r o l ) : ) 其中,函数a p p l i c a t i o n ( 瓶刚摩,d a t a ) 的输出是规则库中与d a t a 匹配的 规刚集;函数s e l e c t ( r s ,c o n t r o l ) 按搜索策略从r s 中选择条规则输出1 引。 2 1 2 , 2 蔑剐戤配策酪 本系统静栽剐援索策珞的核心就怒如何瓤蕊羽瘁中拽蓟合适的匹配规粥对用 户输入韵新信息进行推导决策。 髯孽撬籍摩蠹搴搜索方式决定予三个瑟掰: ( 1 ) 完备性。是簧淹器裔解,群当前静新数据在麓赁| j 瘁孛存在对应的霸翔,在 搜索策略下裁一定莪找翔这个( 些) 簿。 另外还有归纳逻辑编程、贝叶斯网络 等方法f 4 】。 2 1 3 2 本系统采用的知识获取技术 根据研究对象的原始数据表示以及知识表示形式为产生式规则形式,我们可 以采用覆盖正例排斥反例方法,因为原始数据中属性值都为离散形数值,而且每 个属性的可能取值的个数都不多,方便我们把训练例分成正例和反例;并且覆盖 正例排斥反例方法是属于归纳学习的一种,归纳学习是学者们研究得最多的一种 学习方法,其原因芷是在于归纳学习的方式正好符合人类大脑获取知识的方式, 华南理工大学工学硕士学位论文 是从特殊推出一般,正好符合从特殊实例推出般性规则这个目的。并且覆盖正 例排斥反例算法便于理解,使用该算法正好符合非计算机领域的专家的思路,便 于他们对获得规则结果的理解。 知识获取技术之所以发展到现在,已经分成这么多大类,每一个太类下面又 发展出不尽相同的算法,其原因就在于到现在为止还没有一个通用的算法,能对 所有的知识源发生作用,并能获得理想的结果知识,每一类、每一种算法都是因 为一定的特殊需要才发展起来的,由于它们都是为了满足一定的特殊需要,所以 注定它们不可能具有通用性。而且现实的情况也决定了在现阶段还不可能出现一 种通用的知识获取算法。每种算法都是基于不同角度出发,基于不同的原理或 机制,所以不同的算法所具有的特点也不同,既有一定的优点和先进性,也不可 避免的具有或多或少的缺点。但是,我们可以看到,一种算法的缺点往往可以用 另外一种算法来弥补,这就是算法之间的互补性。 基于以上讨论的互补性,我们可以预见到,不管我们采用的覆盖正例排斥反 例的算法是否在多方面有新的改进,但是它必然会因为它所基于的机制的缺陷而 在知识获取上有所不足,比如说对噪音数据的容忍度等等。这样的情况下,我们 就想到可以采用性能与它互补的算法获取知识,不同算法产生的知识我们再采取 一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论