(系统工程专业论文)数据挖掘在内分泌激素数据分析中的应用.pdf_第1页
(系统工程专业论文)数据挖掘在内分泌激素数据分析中的应用.pdf_第2页
(系统工程专业论文)数据挖掘在内分泌激素数据分析中的应用.pdf_第3页
(系统工程专业论文)数据挖掘在内分泌激素数据分析中的应用.pdf_第4页
(系统工程专业论文)数据挖掘在内分泌激素数据分析中的应用.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(系统工程专业论文)数据挖掘在内分泌激素数据分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着科技的进步,越来越多的检测手段被用来辅助医生进行疾病诊断,这同 时也产生了大量的医疗数据。而如何从这些数据中找出某些因素与疾病问的相关 性已成为了目前的研究热点之。论文充分研究了内分泌激素系统和数据挖掘的 相关概念,之后分别运用统计和数据挖掘的方法对数据进行分析。其中在数据挖 掘方面,本文根据实际数据的特点,在熟悉关联规则基本理论和实现方法的基础 上,对如何获取有效的关联规则进行研究,取得了一定的成果。 论文茸先介绍了内分泌激素系统的一些基本知识,同时阐述了目前数据挖掘 在医疗领域的应用情况。在第三章首先运用l o g i s t i c 回归分析对数据进行分析, 为进一步的数据分析提供指导和依据。之后第四章在对传统关联规则挖掘算法进 行研究的基础上,提出并实现了一个改进的项目约束关联规则挖掘算法,实验表 明与传统的a p r i 耐算法相比,新算法在挖掘性能上有较大的提高。同时在对新 增数据的处理上,采用改进的增量更新算法进行处理,以避免有新增数据情况下 为获取新规则而必须对所有数据进行重新挖掘的情况,提高了挖掘效率。第五章 在考察了实际应用中激素数据特点的基础上,对获取关联规则的几个关键部分进 行了研究,这也是本文的研究重点之一。首先在对数据预处理上,本文采用数据 离散化、忽略空缺值和属性转换等方法使原始数据库变为适合挖掘的事务数据 库;其次使用第四章提出的改进的项目约束关联规则挖掘算法对事务表进行挖掘 来获取相应的关联规则;然后从主客观两个方面对所有规则进行评价以得到较有 效的关联规则;最后将数据挖掘的结果同第三章统计分析的结果进行比较。另外, 设计并实现了一个激素信息系统以使辅助诊断可视化和便捷化。 该论文受到厦门市社会发展计划项目“垂体性激素的建模分析及i 每床应用” ( 编号:3 5 0 2 2 2 0 0 4 4 0 0 3 ) 的资助。 关键词:内分泌激素:关联规则;统计分析 a b s t r a c t w t l lt h ep r o g r e s so fs c i e n c ea n dt e c h n o l o g y , m o r ea n dm o r ed e t e c t i n gm e t h o d sa r e u s e df o ra i d e dd i a g n o s i s ,m e a n w h i l e ,ag r e a td e a lo fm e d i c a ld a t ai sa v a i l a b l e a n d h o wt of i n do u tt h er e l a t i o nb e t w e e nf a c t o r sa n dd i s e a s e sf r o mt h ed a t ah a sb e c o m e o n eo ft h er e s e a r c hh o t s p o t s i nt h i sp a p e r , t h ee n d o c r i n eh o r m o n es y s t e ma n dd a t a m i n i n ga r ef u l l yi n v e s t i g a t e d ,a n ds t a t i s t i c a lm e t h o di su s e dt oa n a l y z et h ed a t af i r s t a n dt h e n , t h ec h a r a c t e ro fm e d i c a ld a t ai sa n a l y s e d ,b a s e do nt h eb a s i ct h e o r i e sa n d r e a l i z a t i o nm e t h o d so fa s s o c i a t i o nr u l e s ,a c q u i s i t i o no fv a l i da s s o c i a t i o nr u l e si s s t u d i e d i nt h i sp a p e r ,f i r s t l ys o m eb a s i ck n o w l e d g eo ft h ee n d o c r i n eh o r m o n es y s t e ma n d m e d i c a la p p l i c a t i o no fd a t am i n i n ga r ei n t r o d u c e d ,i nt h et h i r dc h a p t e r ,t h r o u g h l o g i s t i cr e g r e s s i o na n a l y s i so nd a t a , s o m er e s u l t sa r ea c q u i r e df i r s t a n dt h e ni nt h e f o r t hc h a p t e r , a tt h eb a s i so fr e s e a r c ho nt r a d i t i o n a lm i n i n ga l g o r i t h mf o ra s s o c i a t i o n r u l e ,a ni m p r o v e da l g o r i t h mf o ra s s o c i a t i o nr u l e sw i t hi t e mc o n s t r a i n t si sp r o p o s e d t h e e x p e r i m e n tr e s u l ts h o w st h a tt h em i n i n gp e r f o r m a n c eo ft h ei m p r o v e da l g o r i t h m i sb e t t e rt h a nt h et r a d i t i o n a la p o r ia l g o r i t h m m e a n w h i l e , f o rt h ed i s p o s a lo f i n c r e m e n t a ld a t a , a ni m p r o v e di n c r e m e n t a lu p d a t i n ga l g o r i t h mw a su s e dt oa v o i dt h e r e m i n i n go fa l ld a t a i nt h ef i f t hc h a p t e r ,b a s e do nr e v i e wo fc h a r a c t e ro fa c t u a l e n d o c r i n eh o r m o n ed a t a , s o m ek e yc o m p o n e n t so fa s s o c i a t i o nr u l e sa c q u i s i t i o na r e s t u d i e d ,t h i sp a r ti s o n eo ft h em o s ti m p o r t a n tp a r t si nt h i sp a p e r f i r s t l y ,d a t a d i s c r e t i z a t i o n ,n e g l e c to fv a c a n tv a l u ea n da t t r i b u t et r a n s f o r m a t i o na r eu s e di nt h e p r e p r o c e s s i n go fd a t at ot r a n s f o r mt h eo r i g i n a ld a t a b a s ei n t ot r a n s a c t i o nd a t a b a s e w h i c hi sf i tf o rm i n i n g a n dt h e n , t h ei m p r o v e da l g o r i t h mf o ra s s o c i a t i o nr u l e sw i t h i t e mc o n s t r a i n t sp r o p o s e di nt h ef o r t hc h a p t e rw a su s e dt oa c q u i r et h ea s s o c i a t i o nr u l e f r o mt h et r a n s a c t i o nd a t a b a s e a n dt h e na l lr u l e sw e r ee v a l u a t e df r o mt h es u b j e c t i v e a n do b j e c t i v ea s p e c t st oa c q u i r et h ef i n a lv a l i dr u l e s ,f i n a l l yt h er e s u l t sa r ec o m p a r e d 惭mt h er e s u l t so fl o g i s t i cr e g r e s s i o na n a l y s i si nt h i r dc h a p t e r a tl a s tw ed e s i g na n d r e a l i z ea ni n f o r m a t i o ns y s t e mf o ra i d e dd i a g n o s i s t h i sa r t i c l ei s s u p p o a e db yt h es o c i e t yd e v e l o p m e n tp l a np r o j e c t o fx i a m e n “m o d e l i n ga n a l y s i s a n dc l i n i c a p p l i c a t i o n o fp i t u i t a r ys e xh o r m o n e ( n o 3 5 0 2 2 2 0 0 4 4 0 0 3 1 k e yw o r d s :e n d o c r i n eh o r m o n e ;a s s o c i a t i o nr u l e ;s t a t i s t i c a la n a l y s i s 摘要 随着科技的进步,越来越多的检测手段被用来辅助医生进行疾病诊断,这同 时也产生了大量的医疗数据。而如何从这些数据中找出某些因素与疾病问的相关 性已成为了目前的研究热点之。论文充分研究了内分泌激素系统和数据挖掘的 相关概念,之后分别运用统计和数据挖掘的方法对数据进行分析。其中在数据挖 掘方面,本文根据实际数据的特点,在熟悉关联规则基本理论和实现方法的基础 上,对如何获取有效的关联规则进行研究,取得了一定的成果。 论文茸先介绍了内分泌激素系统的一些基本知识,同时阐述了目前数据挖掘 在医疗领域的应用情况。在第三章首先运用l o g i s t i c 回归分析对数据进行分析, 为进一步的数据分析提供指导和依据。之后第四章在对传统关联规则挖掘算法进 行研究的基础上,提出并实现了一个改进的项目约束关联规则挖掘算法,实验表 明与传统的a p r i 耐算法相比,新算法在挖掘性能上有较大的提高。同时在对新 增数据的处理上,采用改进的增量更新算法进行处理,以避免有新增数据情况下 为获取新规则而必须对所有数据进行重新挖掘的情况,提高了挖掘效率。第五章 在考察了实际应用中激素数据特点的基础上,对获取关联规则的几个关键部分进 行了研究,这也是本文的研究重点之一。首先在对数据预处理上,本文采用数据 离散化、忽略空缺值和属性转换等方法使原始数据库变为适合挖掘的事务数据 库;其次使用第四章提出的改进的项目约束关联规则挖掘算法对事务表进行挖掘 来获取相应的关联规则;然后从主客观两个方面对所有规则进行评价以得到较有 效的关联规则;最后将数据挖掘的结果同第三章统计分析的结果进行比较。另外, 设计并实现了一个激素信息系统以使辅助诊断可视化和便捷化。 该论文受到厦门市社会发展计划项目“垂体性激素的建模分析及i 每床应用” ( 编号:3 5 0 2 2 2 0 0 4 4 0 0 3 ) 的资助。 关键词:内分泌激素:关联规则;统计分析 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( 签名) :掷阑 z 一6 年月l 日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其他指定机构送交论文的纸质版和 电子版,有权将学位论文用于非营利目的的少量复制并允许论文进入 学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检 索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密 后适应本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密) 作者签名: 导师签名: 却阑 勃泐 日期:扣“年 日期:训年 月z ;日 f 月j 日 第一章绪论 1 1 概述 第一章绪论 随着计算机和自动化数据采集工具的广泛应用,在各种应用领域里的数据库 中存储了大量的数据,这使得人们对这些数据进行分析并转化为有用知识的需求 变得越来越迫切。于是知识发现与数据挖掘( k n o w l e d g ed i s c o v e r ya n dd a t a m i n i n g ,k d d ) 自然成为近年来人们从大型数据库中获取信息的一个重要的研究 领域。一般地,数据挖掘就是指从数据库或数据仓库中发现隐藏的、预先未知的、 有趣的信息的过程,该过程可以看作是知识发现过程中的一个核心的步骤。具体 说来就是从大型数据集( 可能是不完全的、有噪声的、不确定的、各种存储形式 的) 中提取出人们感兴趣的知识,这些知识是隐含的、先前未知的、对决策有潜 在价值的,提取的知识表示为概念、规则、规律和模式等形式。数据挖掘的主要 功能包括:聚类( c l u s t e r i n g ) 、分类( c l a s s i f i c a t i o n ) 、预测( p r e d i c t i o n ) 、关联分析 ( a s s o c i a t i o na n a l y s i s ) 、时间序列分析( t i m es e r i e sa n a l y s i s ) 等。 目前在l 临床医学的研究中,人们通过对病人的症状、体征、各种化验指标、 治疗方法及其病后情况资料的收集,产生了大量的临床资料数据,而这些数据存 在着某些问题导致利用传统的统计学方法有时可能无法对其进行有效的处理,导 致所获的信息相对较小( 例如数据集含有的观察数目较大,变量多,而且变量之 间的关系复杂,很难满足正态性和独立性等1 。所以研究如何将数据挖掘技术应 用到大样本临床资料的处理中成为了一种新的研究方向。 目前数据挖掘技术在临床上的应用主要体现为辅助诊断。传统医疗诊断专家 系统是将专家的诊断经验转化为规则并以此为基础建立的,用户只要向系统中输 入患者的症状,就能迅速的得到诊断结果。这样可以减少医生主观判断的失误。 但是当前大部分的专家系统的诊断标准是根据一个或几个专家的经验来制订的, 缺乏客观性和普遍性;此外,专家系统的推理规则和结论都是预先设计好的,有 些患者的临床表现可能不在此范围内,因此有一定的局限性。而采用数据挖掘技 术可以通过对患者资料数据库中大量历史数据的处理,挖掘出有价值的诊断规 律,这样根据患者的年龄、性别、辅助检查结果和生理生化指标等就可以做出辅 助诊断的结论,从而排除了人为因素的干扰,客观性强,此外由于处理的数据量 数据挖掘在内分泌激素数据分析中的应用 很大,因此所得到的规律有着较好的应用普遍性。 目前国外已有不少这方面的成功案例,如采用贝叶斯学习分类方法对男女患 者的c t 图像进行自动诊断,用推导机器学习方法对重症监护患者呼吸的压力一 体积曲线进行分析,利用关联规则找出头部创伤患者傲c t 检查的适应症。1 , 将数据挖掘用于肝癌遗传综合症的自动检测和铀矿工人中非恶性呼吸系统疾病 流行的种族差异的研究,都取得了理想的效果“。5 1 ,显示出数据挖掘技术用于疾 病辅助诊断的广阔应用前景。 1 2 关联规则的特点以及在医学中的研究现状 关联规则挖掘( a s s o c i a t i o nr u l em i n i n g ) 是数据挖掘研究的一个重要分支,关 联规则是数据挖掘的众多知识类型中最为典型的一种。该问题于1 9 9 3 年由 a g r a w a l 等人在对市场购物篮问题( m a r k e tb a s k e ta n a l y s i s ) 进行分析时首次提出 ”1 ,用以发现商品销售中的顾客购买模式。关联规则挖掘可以发现存在于数据库 中的项目( i t e m s ) 或属性( a t t r i b u t e s ) 间的有趣关系,这些关系是预先未知的和被隐 藏的,也就是说不能通过数据库的逻辑操作( 如:表的联接) 或统计的方法得出。 这说明它们不是基于数据自身的固有属性,例如函数依赖关系( f u n c t i o n a l d e p e n d e n c yr e l a g o n s h i p ) ,而是基于数据项目的同时出现特征( c h a r a c t e r i s t i c so f c o o c c u r r e n c eo f d a t ai t e m s ) 。 而与传统的统计学方法相比,关联规则分析具有以下优点“: ( 1 ) 不需要考虑变量间的复杂性,其分析结果不会因为资料中加入或者去掉 一个变量而影响已经存在的结果。 ( 2 ) 资料中的变量既是自变量又是目标变量,研究者不需要事先确定哪个是 目标变量,易获得某些意料之外的、有效的模式。 ( 3 ) 关联规则分析只考虑某个变量值,而不是对整个变量,这使得分析结果 与不同方法分析的结果在某些值上有较大的差异,但从易理解性方面考虑,获得 的规律本身无疑对疾病的预测提供了重要的参考价值。 ( 4 ) 对于处理稀疏和弱相关的数据,该方法的效率较高“0 1 。 内分泌激素系统是最复杂和最重要的生命系统之一,很早就引起了生理学家 和临床医生们的广泛兴趣。由于内分泌系统的高度复杂性,特别是内分泌激素各 第一章绪论 轴系以及轴系之间相互影响和内分泌激素疾病的发生成因和发展有着及其密切 的关系,人们对它的研究仍处于初期探索和实验阶段。虽然医学教科书上的定性 的理论研究已经被确认,但是定量的研究内分泌激素系统的作用机理并推广到临 床医学普遍应用,还有很大的困难。 目前,关联规则已经在商务决策、金融保险等研究领域得到广泛应用,在医 学领域的研究尚处于开始阶段。国外有人将关联规则用在生物信息领域o ”“和医 院管理系统“4 1 ,在临床病人数据库中应用也有文献报道“”1 ,如s f i m v a s 使用 关联规则挖掘含有1 2 5 万临床病例记录的数据库,发现检查程序与诊断代码之间 的关联规则,从而为临床医生提供关于疾病诊断相关的信息;s u s a np 从头外伤 病人数据中寻找关于病人基本情况与作c t 扫描结果的关联,可以用于确定头外 伤病人是否需要c t 扫描;d r a g a n 利用关联规则挖掘建立所谓的确认规则 ( c o n f i r m a t i o nr u l e s ) ,该规则可用于冠状动脉疾病诊断中。此外,也有人将关联 规则应用于智能诊断、失眠病人的脑电图分析中等1 ”“3 。国内研究有。2 。2 ”姚美村 等应用关联规则分析文献中记录的消渴病的1 0 6 个处方,探索复方组成药味之间 的关联模式;叶晨洲等应用关联规则技术从大脑胶质瘤病例中获取诊断知识;武 建虎等应用关联规则分析1 4 5 7 例肝癌病人的临床资料研究肝癌复发的影响因 素;皇甫罡等利用数据挖掘技术处理食管癌和贲门癌的普查数据而得到频繁出现 的病理特征。另外,美国计算机学会组织的知识发现和数据挖掘国际竞赛k d d c u p 2 0 0 1 年的主题就是利用数据挖掘技术对生物信息及医药中的相关信息进行 挖掘分析。 1 3 论文提出的背景与意义 1 3 1 论文的研究背景 本文以厦门市社会发展计划项目“垂体性激素的建模分析及临床应用”( 编 号:3 5 0 2 2 2 0 0 4 4 0 0 3 ) 为背景,将数据挖掘的方法应用到内分泌激素数据分析中。 本文的研究旨在提出一种从医学资料中获取信息的手段,为数据挖掘方法在医学 中的推广应用进行初步的探索:同时本研究挖掘内分泌激素数据与疾病之间潜在 的有价值的信息和规律,为进一步数据研究工作提供参考,为诊断提供辅助决策 依据。 数据挖掘在内分泌激素数据分析中的应用 本文的数据挖掘基于的内分泌激素数据资料来源于厦门市第一医院肿瘤科 1 9 9 7 年6 月至2 0 0 2 年6 月的内分泌临床测量数据。原始数据在与课题组医院 专家的讨论下,经过课题组成员整理和规范化。数据包括1 1 种内分泌激素值以 及部分内分泌系统疾病信息。本论文分别从统计学和关联规则分析的角度对数据 进行分析。其中,在关联规则研究方面,在分析数据的特点和期望规律的基础之 上,对关联规则的算法进行改进,并应用得到了有价值的辅助诊断规律。最后将 数据挖掘与统计方法产生的结果进行比较。 1 3 2 研究意义 内分泌系统由人体各内分泌腺和分布于全身各组织的内分泌细胞组成,它通 过分泌高效能的化学物质激素来实现其对机体生理功能和内环境稳态的调 控作用。内分泌激素不仅能够调节机体的新陈代谢、生长发育和生殖等行为,而 且也是维持基本生命活动必不可少的物质之一。身体内的内分泌腺分散地位于身 体各处,但它们的工作并不是独立的,而是同机体其他器官一样,受控于大脑皮 层,协同地运作。大脑与内分泌腺之间的联系密切,一种方式是通过脑发出神经 直接支配内分泌腺;另一种是通过下丘脑内分泌细胞分泌激素刺激脑垂体,再由 脑垂体释放的激素作用到其他靶腺,相对应地,其他内分泌腺又通过反馈机制影 响腺垂体或下丘脑的功能。这就保证了内分泌腺可根据机体实际需要合成释放激 素,维持血中激素的动态平衡,从而保持了机体内环境的稳定。 内分泌激素具有重要功能。一旦某个内分泌腺发生疾病,将会引起一些病症。 例如巨人症、侏儒症、肢端肥大症、尿崩症、呆小病,糖尿病、骨质疏松及佝偻 病等等,因而研究人体庞大的内分泌激素系统的调节和控制机理具有重要意义。 综上所述,内分泌系统是一个重要而又复杂的系统。因此,临床测量的内分 泌激素量化数据与疾病问关系的研究有一定的价值。但是由于收集的内分泌数据 的复杂性,用传统的数据库技术来对这些数据进行分析难以获得有价值的知识。 因为按照传统的查询和统计做法只能依靠研究人员的主观经验来判断和归纳,不 可避免地带有人为因素,不容易全面、彻底地发现对疾病防治和研究有价值的信 息。因此,本文首先利用统计学方法分析数据,而后尝试结合更为合理有效的数 据分析技术数据挖掘技术,寻找出蕴含于内分泌数据中的非平凡信息( 即找 d 第一章绪论 出各激素与疾病之间的隐含关系) ,并对两种方法产生的结果进行比较,来为内 分泌疾病的辅助珍断和研究提供服务。 1 4 论文主要内容与结构 本论文首先采用统计学的l o 百s t i c 回归分析对数据进行量化分析。而后在内 分泌激素数据基础之上,分析该数据的结构和特点,以寻找适合该数据的数据挖 掘方法。并以该数据特点为依据,兼顾算法效率和系统运行开支,进行数据挖掘 算法的改进和应用。本文的具体内容安排如下: 第一章绪论部分在介绍了关联规则在医学领域应用研究现状的基础上对本 课题的研究意义和研究背景,以及论文的整体结构安排做了详细的说明。 第二章分别介绍了内分泌激素系统的基本知识以及数据挖掘技术在医疗领 域的应用。在对内分泌系统的描述中,首先对内分泌激素的产生、分类和作用做 了说明,并分析了本文讨论的几种激素和疾病以及它们之间的关系,然后讨论了 医学数据的特点。接下来我们对数据挖掘技术的发展历史和主要挖掘步骤作了说 明,并对医学领域数据挖掘的关键技术进行了讨论,最后介绍了辅助诊断中常见 的数据挖掘方法。 第三章使用l o g i s t i c 回归分析,建立数学模型探索内分泌激素与乳腺疾病的 关系。通过对数据进行量化分析,作出预测得到不同情况下激素的分布范围和对 应疾病情况,即激素与乳腺疾病的关系预测。对下一步的研究工作提供比较依据。 第四章在阐述了关联的基本概念和常见的关联规则挖掘算法的基础上,针对 传统关联挖掘算法a p r i o r i 算法的两个不足之处,以及考虑加入约束的需要, 对a p r i o f i 算法加以改进产生了一种含有项目约束的关联规则挖掘算法。并通过 实验测试结果表明算法的优化性。同时采用改进的增量更新算法对新增数据进行 处理,以避免新增数据情况下为获取新规则而必须对所有数据进行重新挖掘的情 况,以提高挖掘效率。 第五章为主要应用部分也是本文的重点。首先分析了内分泌激素原始数据的 特点,之后设计并实现了一个内分泌系统规则获取的整体方案。在这里我们首先 依据原始数据特征进行了预处理,通过属性转换,空缺值处理和数据变换等几个 步骤将原始的关系数据库转换为了事务数据库。然后利用改进的关联规则挖掘算 数据挖掘在内分泌激素数据分析中的癌用 法从事务表中获取了激素与疾病规则。接着使用主观评价和评价对初次获取的规 则进行衡量,提取出其中较有效的激素与疾病规则来进行辅助诊断,并将这些结 果与第三章使用统计分析产生的结果进行比较。最后在该规则的基础上设计并实 现了一个激素信息系统以辅助诊断。 第六章为论文的总结与展望部分。通过对论文进行总结和分析论文的不足之 处,对下一步的研究工作提出展望。 第二章内分泌激素基础与数据挖掘技术 第二章内分泌激素基础与数据挖掘技术 2 1 内分泌激素系统简述 人体的大量功能都由激素控制,例如全身的代谢控制,血糖水平的控制,血 浆钙浓度的控制,以及生长发育和生殖等。各种各样的激素在不同的部位,包括 丘脑、垂体、肾上腺、甲状腺、胰腺等产生和释放,作用在其产生区域内的靶细 胞上( 见图2 1 ) 。激素是由内分泌腺分泌的有效化学物质,种类较多,作用各异, 不同激素之间也常产生相互作用。一般来说,激素由循环的血液输运到机体的不 同部位,所以可能引起遍布全身的效应,也可能引起机体局部的效应。 ( 图2 1 神经一内分泌系统示意图) 匪匠 i l 丘脑下部 垂体前叶l 垂体后叶 生 作 用 丁 骨 等 田 状 腺 激 素 i l 玎 蓬麓 :羹 激素 i 薹囊 甲ll 肾上 肾上 状jl 腺皮l 腺髓 腺1l 质l 质 卵 巢 促 雌性 激腺 素激 着; 皇 丸 胃 肾上 肾查 雌睾睾 鉴蝗鏖圭! 濑丸 丸 璺质堂壁肾 暴丽酮 激素素上i 2 1 1 激素的发现、分类及作用 : i 皇 : 作用作用 = i 二肾于子 小管宫平 并使滑肌 血管收等 平滑 肌收 缩 激素这一名词出现于上个世纪初。1 9 0 2 年由b a y l i s s 和s t a r l i n g 发现,肠道 数据挖掘在内分泌激素数据分析中的应用 提取液中有刺激胰液分泌的物质存在,当时被成为胰泌素。随后( 1 9 0 5 年) ,s t a r l i n g 建议把像胰泌素这样通过血液运输到其他地方刺激其他脏器的物质称为激素。以 后人们把以调节、控制机体作为唯一目的而合成,通过血液运输,所用于远处脏 器的有机化合物称为激素”“。 下丘脑是从结构和功能上联结神经和内分泌的主要场所( 如图2 2 所示) ,它 是比较原始的脑的一小部分,位于在颅底骨腔里的垂体的上方。 下丘脑能够从较高级的脑那里接受神经冲动,而且从结构上说它虽是神经组 织,然而却能制造神经激素。 下丘脑的神经素调节着垂体激素的分泌。下丘腩靠一根罩面有神经纤维和特 殊血管索的短蒂与垂体相连。 垂体只有一颗未成熟的樱桃大小。它的前叶包含着能产生多种激素的细胞集 团。 ( 图2 2 激素分泌器官) 大麴瘦漂 下鼬 爨律 f 正常生理状况下,r h 凶仪到出;盥吕挺僦州t 呵1 强fl 副1 言号后输出下丘脑神经 素,而下丘脑神经素调控垂体激素的输出。结构图如2 3 所示: ( 图2 3 神经素调控垂体激素分泌) 根据激素的化学结构可以分为三类“: ( 1 ) 肽类激素 由下丘脑、垂体、肠道及胰腺分泌的激素。大多数激素为肽类激素。肽类激 素又有单纯蛋白激素及糖蛋白激素之分。 霸吞 第二章内分泌激素基础与数据挖掘技术 ( 2 ) 类固醇激素 有肾上腺皮质激素、性激素、活性维生素d 3 等。 ( 3 ) 单胺类、氨基酸类激素 有肾上腺髓质分泌的儿茶酚胺、甲状腺激素等。 目前认为激素的作用可以归纳为5 个方面: ( 1 ) 为机体生理活动提供能量 通过对蛋白质、糖、脂肪、水、盐等物质代谢的作用,释放能量,维持各种 内外环境的平衡。 ( 2 ) 确保机体各部的正常发育、成熟与生长 激素可催化细胞的分裂与分化,促进各组织各器官生长发育的形态正常化。 ( 3 ) 影响中枢及植物神经系统的发育和活动 激素可通过中枢神经及植物神经系统影响其发育和活动,与学习、记忆以及 行为有关。 ( 4 ) 促进生殖器官的成熟 在性激素的作用下保证生殖器与第二性征的发育与成熟。通过对受精、受精 卵运行、着床、怀孕、泌乳等调节,维持机体的生殖过程。 ( 5 ) 与神经系统协调适应环境的变化 激素在神经系统的调节下,保持内环境的稳定。 以上作用相辅相成,其中不论是哪一种都只能对机体生理过程其加速或抑制 调节作用。例如:a c t h 促进肾上腺皮质激素的分泌,过多的甲状腺素又会抑制 垂体分泌t s h 等。 本文涉及的主要激素分类信息如表2 1 所示: 数据挖掘在内分泌激素数据分析中的应用 ( 表2 1 激素的种类) l 化学 中文名英文名 缩写主要来源 l 性质 i 促肾上腺皮质激素释放 c o r t i e o t r o p h i n - r e l e a s i n g c r h 激素 h o r m o n e g r o w t hl l o r m o n e - r e l e a s i n g 生长素释放激素 g r h h o r m o n e 下丘脑 促性腺激素释放激素g o n a d o t r o p i n r e l e a s i n gh o r m o n e g n r h 肽类 促甲状腺激素释放激素t h y r o t r o p mr e l e a s i n gh o r m o n e t r h 激素 生长抑索 s o m a t o s t a t i ns s 生比激素 g r o w t hh o r m o n eg h 促甲状腺激素t h y r o i d s i m u l a t i o nh o r m o n e t s h 促肾上艨皮质激素t a d r e n o c o r t i c o t r o p i ch o r m o n e a c t h垂体前剐 促黄体激素 l u t e i n i z i n gh o r m o n e l h 催乳素p r o l a c t i n p r l 类l 剞 皮质醇 c o r t i s o l肾上腺皮质 醇激 睾酮 t e s t o s t e r o n e 睾丸、卵巢 雌激素 e s t r o g e n 素 孕激素 p r o g e s t e r o n e 卵巢 2 1 2 本文讨论的主要妇科疾病 1 乳腺增生” 乳腺增生病是组织形态复杂的一组乳腺实质增生性病变的总称。1 9 6 5 年张 天泽将此类病称为乳腺增生病,因为囊性病变只是本病的一个组成部分,非本质 病变,认为不应以“囊性”命名。然而,在美国最常用的名称是纤维囊性乳腺 病,可能足美国乳腺增生患者常伴有囊肿的缘故。1 9 9 0 年p a g e 学者承认了乳腺 增生病这一概念。但如何分类以及它们与瘟的关系如何尚有争议,似乎以张继增 对本病分类较为合理,他以纤维组织增生为指标将乳腺增生病分位小叶增生,纤 维腺病和纤维硬化三个组织类型,每型又有单存性或复合性病变,后者含导管上 皮组织不典型增生等。 乳腺增生病是育龄妇女的常见乳腺疾病,本病易发于2 5 5 0 岁的妇女,以 3 5 4 5 岁为发病高峰,基本病因被认为是女性体内内分泌激素平衡失调。随着生 活和饮食习惯的逐渐西化,我国城市妇女乳腺癌的发病率已越来越高,且部分乳 腺囊性增生发展为不典型增生,文献报道乳腺囊性增生病的癌变率为2 一4 故被临床医师关注。由于引起女性内分泌激素特别是性激素水平紊乱的病因复 杂,目前尚未完全明了,临床上至今还没有特别有效的治疗方法。因此,加强对 第二章内分泌激素挂础与数据挖掘技术 乳腺增生病的实验和临床研究非常必要。 2 乳腺癌1 乳腺癌是乳腺导管上皮细胞在各种内外致癌因素的作用下,细胞失去正常特 性而异常增生,以致超过自我修复的限度而发生癌变的疾病。临床以乳腺肿块为 主要表现。 乳腺癌在乳腺增生的基础上发生,是妇女最常见的恶性肿瘤之一,多见于中 老年妇女,乳腺是一个激素反应器官,内分泌系统与乳腺的发育和疾病的发生有 密切的关系,至少有三类激素和这个过程有关: ( 1 ) 包括雌激素、孕激素、催乳素和催产素等,它们在乳腺的生长分化及功 能行使方面起着重要作用; ( 2 ) 为乳腺新陈代谢相关激素,主要负责调节营养物的摄取与吸收,常对乳 腺发育有直接的影响,这类激素中较重要的有生长激素、皮质甾体类激素、甲状 腺素及胰岛素; ( 3 ) 即最近才被人们所认识的乳腺激素,主要有生长激素、催乳素、甲状旁 腺素相关及勒帕茄碱等。 这些激素的作用既相互区别又紧密联系,它们调节的紊乱与乳腺癌的发生有 直接的关系。 2 1 3 本文讨论的主要激素与相关疾病的关系 激素的分泌和作用机理非常复杂,其中反馈机制起重要作用。根据生理学、 生物化学、内分泌学,一般将庞大的内分泌系统分为三大轴系:下丘脑+ 垂体一肾 上腺轴系、下丘脑一垂体一性腺轴系和下丘脑一垂体甲状腺轴系,课题组成员根据 医生的多年临床经验,提出内分泌激素相互影响关系i n ( i n2 4 ) 。从图2 4 中可以 看出,轴系与轴系之间也存在错综复杂的关系。 数据挖掘在内分泌激素数据分析中的应用 ( 图2 4 内分泌激素相互影响图表) 而大部分的疾病都与一项或者多项的激素分泌数量有关,而如何找到这些激 素与疾病之问隐含的关系就成了目前的研究热点之一。下面我们列举了本文所涉 及到的主要激素与对应疾病之间的一些关系。 1 雌孕激素与乳腺肿瘤 雌孕激素是乳腺组织正常生长发育所必需的类固醇类激素。以前大多试验证 据倾向如下结论:雌激素促进乳腺肿瘤细胞增值,而孕激素则抑制乳腺细胞增值。 但近期诸多研究报告发现,孕激素明显抑制乳腺肿瘤细胞凋亡。目前流行病学和 临床资料也对孕激素和乳腺肿瘤发生的关系说法不一,孕激素或促进,或抑制乳 腺肿瘤细胞增值,这可能和孕激素与多种生长因子间存在相互作用有极大关系。 2 促乳素与乳腺癌。” 催乳素是一种作用广泛的内分泌激素,可以促进乳腺的发育和乳汁的分泌, 并具有重要的免疫调节作用。它既是一种循环激素,还可由多种垂体外组织产生, 通过自分泌或旁分泌作用行使细胞因子调节细胞生长与增殖的功能。肿瘤患者血 清催乳素浓度普遍升高,大量的研究表明,它与癌细胞的增殖与分化关系密切。 乳腺组织中存在催乳素及其受体,催乳素能影响乳腺细胞的生长与分化,是 第二章内分泌激素基础与数据挖掘技术 泌乳所必需的激素。目前,对催乳素在人类乳腺癌发生发展的作用,无论是在细 胞水平、基因水平还是流行病学水平都受到了很大的重视。 在垂体内分泌或自分泌和旁分泌的催乳素作用下,人类乳腺癌细胞的增殖和 活力都受到了明显的刺激。给大鼠注射催乳素后发现肿瘤的潜伏期明显缩短,相 反,催乳素抗血清可以延长乳腺肿瘤的潜伏期,使肿瘤生长停滞或消退,但是再 次给予催乳素时肿瘤的生长又恢复,提示催乳素对乳腺癌的发生有促进作用。有 学者发现,许多乳腺癌患者尤其是绝经期妇女,其血清催乳素水平显著升高,而 促甲状腺激素、黄体生成素、卵泡刺激素和孕激素等未见异常。由此推测,催乳 素或催乳素与雌激素的共同作用,增加了乳腺组织对致癌因素的敏感性。另一方 面,研究表明在正常乳腺细胞、良性增生细胞和恶性乳腺癌细胞中,催乳素受体 的数量有逐渐增加的倾向,所以有催乳素受体本身的变异导致乳腺癌的可能。但 国外也有研究表明,绝经后催乳素的水平与乳腺癌的发生没有明显关系。 3 雄激素与乳腺癌 雄激素对乳腺癌的危险性作用,一方面雄激素能直接或与雌激素协同刺激乳 腺癌细胞的生长和增生;另一方面可通过间接地转化为雌激素的途径而发挥作 用。此外,雄激素能提高循环胰岛素样生长因子( i g f i ) 的水平,从而促进细胞的 生跃和增值。有研究表明,睾酮有增加绝经后乳腺癌危险性的作用,但在控制 b m i 、w h r 等因素后,其危险度有所降低,提示睾酮对绝经后乳腺癌的作用主 要是作为雌激素的前提物质,通过问接转化为雌激素而发挥作用。 4 f s h 、l h 与乳腺癌 f s h 、l h 刺激卵巢产生类固醇激素e 2 、p 、t ,而这几种类固醇激素又会反 馈回垂体控制f s h 、l h 的分泌,因此,对于乳腺疾病的发生,f s h 、l h 与e 2 、 p 、t 通常会有协同或者拮抗作用。目前对f s h 、l h 和乳腺癌的研究成果较少, f s h 、l h 对乳腺癌的作用尚无确切的结论。 2 1 4 本文涉及的数据特点 挖掘医学数据库跟挖掘其它类型的数掘库相比,具有其自身的独特性。医学 数据首先是以治愈患者为目的而搜集的,其次才是用于医学研究的资源。医学数 据具有如下特点。3 。3 “。 数据挖掘在内分泌激素数据分析中的应用 ( 1 ) 隐私性( p r i v a c y ) 医学数据不可避免地涉及到患者的一些隐私信息,当这 些隐私信息使患者在日常生活中遭遇到不可预料的侵扰时,就产生了隐私性问 题。隐私性不同于安全- | ! t ( s e e u r i t y ) 和机密性( c o n f i d e n t i a l i t y ) ,当未被授权的个人 或机构设法取得这些隐私信息时,就产生了安全性问题:当拥有隐私信息的研究 人员与未经授权的个人或机构共享这些患者信息时,就暴露出了机密性问题。医 学数据挖掘者有义务和职责在保护患者隐私的基础上进行科学研究,并且确保这 些医学数据的安全性和机密性。 ( 2 ) 多样性由于医学数据是从医学影像、实验数据以及医生与病人的交流中 获得的,所以原始的医学数据具有多种形式。医学数据包括影像( 如s p e c t ) 、信 号( 如e c g ) 、纯数据( 如体征参数、化验结果) 、文字( 如病人的身份记录、症状 描述、检测和渗断结果的文字表述) 等。医学数据的多样性是它区别于其它领域 数据的最显著特征。 ( 3 ) 医学数据的不完整性医学数据的搜集和处理过程经常相互脱节,搜集是 以治愈患者为直接目的,而处理是以寻找某种疾病的一般规律为目的,因此搜集 的信息可能无法涌盖研究需要的所有信息。此外,人为因素也可能导致数据记录 的偏差和残缺,许多医学数据的表达、记录本身也具有不确定和模糊性。病例和 病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映。 ( 4 ) 医学数据的冗余性医学数据库是一个庞大的数据资源,每天都会有大量 的记录存储到数据库中,其中可能会包含重复的、无关紧要的、甚至是相互矛盾 的记录。例如,对同一疾病,病人所表现的症状、化验结果和治疗措施都可能相 同。此外,医学数据还具有时间性特征,医学检测的信号如e c g 、影像s p e c t 都是时间函数,具有较强的时效性。 2 2 数据挖掘技术及其在医学中的应用 2 2 1 数据挖掘的历史 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的 数据量急剧增大。在大量的数据背后隐藏着许多重要信息,而这些重要信息可以 很好地支持人们的决策。目前数据库系统所能做到的只是对数据库中已有的数据 进行存取,人们通过这些数据所获得的信息量仅仅是整个数据库所包含的信息量 第二章内分泌激素摹础与数据挖掘技术 的一部分,隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描 述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值。 因此人们对数据处理技术的要求也不断提高,需要能够对数据进行更深层次的处 理,以得到关于数据的总体特征以及对发展趋势的预测。 数据挖掘比较公认的定义是由u m f a w a d 等人提出的:数据挖掘就是从大 型数据集( 可能是不完全的、有噪声的、不确定的、各种存储形式的) 中提取出人 们感兴趣的知识,这些知识是隐含的、先前未知的、对决策有潜在价值的,提取 的知识表示为概念、规则、规律和模式等形式。 例如:超市的经营者希望将经常被同时购买的商品放在起,以增加销售量; 保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的 成千上万份病例中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供 一些帮助。对于上述问题,传统的数据库管理系统来说是无法做到的,并且目前 用于对这些数据进行分析处理的工具也很少。 数据量的爆炸性增长使得现在的用户很难再像从前那样依靠经验、大量的计 算和人脑的指挥来人工找出关于数据较为全而的知识,许多知识仍然隐含在数据 中而不能被发现和利用,造成数据资源的浪费。正如j o h nn a i s b e t t 所说,“我们 已被信息所淹没,但是却正在忍受缺乏知识的煎熬。二十一世纪八十年代,数据 仓库和数据挖掘( d a t am i n i n g ,d m ) 等信息处理技术正是为解决这一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论