已阅读5页,还剩66页未读, 继续免费阅读
(计算机科学与技术专业论文)基于HMM的中医临床疗效评价分析研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 临床疗效评价是关系到中医学发展的重大科学问题,纵向数据是中医临床疗 效的基本载体本文针对中医临床中的纵向数据,应用隐马尔可夫模型进行了综 合疗效评价该方法能够整合多种定性和定量指标进行纵向综合疗效评价分析, 基于肺癌数据进行的实验研究表明该方法是有效的纵向综合分析方法 本文不同于一般临床医生的现成的统计软件的分析,而是系统的建立了隐马 尔可夫模型在中医临床疗效评价纵向分析方面的具体应用本文借鉴医学数据挖 掘的方法,将临床肿痛数据进行规范化处理,探索发现隐马尔可夫模型应用的数 据要素和数据前提,分析模型的表达方式在开源软件包j a h m m 上应用隐马尔可 夫模型的经典及改进算法,对数据进行迭代学习,得出模型参数,比较了中医治 疗和中西医结合治疗两种肺癌治疗手段的差异性分析后发现,纯中医治疗组和 中西医结合治疗组在不同情况下各有优势通过各时间点状态人数百分比的统计, 分析发现两种治疗肺癌方法的各自疗效特点通过比较模型中两组人群观察概率 函数中的均值,说明分组治疗的群体情况由观察概率分布矩阵,分析得出任意 观察出现的概率和任意观察集合对应的隐状态临床医生可以根据训练得到的模 型参数,由病人当前状态预测未来病情的发展,进而选择最有利的治疗方案 关键词:隐马尔可夫模型;纵向分析;疗效评价; 分类号:t p 3 9 北京交通大学硕十学位论文 a bs t r a c t c l i n i c a le v a l u a t i o no fc u r a t i o ni s i m p o r t a n tt o t h ed e v e l o p m e n to fc h i n e s e m e d i c i n e ,a n dl o n g i t u d i n a ld a t ai st h eb a s e m e n to fc h i n e s em e d i c i n ec l i n i c a le v a l u a t i o n o fc u r a t i o n t h er e s e a r c ho nl u n gc a n c e rc l i n i c a ld a t ad e m o n s t r a t ei ti sae f f e c t i v e i n t e g r a t e da n a l y s i sm e t h o d ,a n di tc o u l de v a l u a t et h ec u r a t i v ee f f e c tb o t hi nq u a l i t ya n d q u a n t i t y d i f f e r e n tf r o mo r d i n a r ya v a i l a b l es t a t i s t i c a ls o f t w a r et h a tc l i n i c i a n su s e d ,i ti sa c o n c r e t ea n ds y s t e m a t i ca p p l i c a t i o ni nt r a d i t i o n a lc h i n e s ec l i n i c a le v a l u a t i o no fc u r a t i v e e f f e c t a c c o r d i n gt ot h es t e p so fm e d i c a ld a t am i n i n g ,f i r s t l y , d a t ao f c l i n i c a ll u n gc a n c e l a l es t a n d a r d i z e dp r o c e s s e d s e a r c hf o rd a t ap r e r e q u i s i t ew h e nu s i n gh m mo nt h ed a t a a n da n a l y z et h ee x p r e s s i o nw a yo fm o d e l s e c o n d l y , a p p l yt h eh m m si m p r o v e d a l g o r i t h mo no p e ns o u r c ej a h m m ,l e a r ni t e r a t e l yo nd a t aa n dg e tt h ep a r a m e t e ro f m o d e l t h i r d l y , f i n dt h ed i f f e r e n c e sb e t w e e nc h i n e s em e d i c i n et r e a t m e n ta n dt h e c o o p e r a t i o no fc h i n e s ea n dw e s t e r nm e d i c i n e ,a n dg e tac o n c l u s i o nt h a tb o t hc h i n e s e m e d i c i n et r e a t m e n ta n dt h ec o o p e r a t i o no fc h i n e s ea n dw e s t e r nm e d i c i n eh a v e a d v a n t a g e si nd i f f e r e n tp o s i t i o n m o r e o v e r , t h ed i s t i n g u i s h i n gf e a t u r eo fl u n gc a n c e r c u r a t i o ni sd i s c o v e r e da c c o r d i n gt ot h es t a t i s t i c so np o p u l a t i o np e r c e n t a g ea ts o m et i m e p o i n t s e x p l a i nt h es t a t eo fc u r a t i o nb e t w e e nt w og r o u p sa c c o r d i n gt oo b s e r v a t i o n p r o b a b i l i t yd i s t r i b u t i o nf u n c t i o n sa v e r a g es c o r eb e t w e e nt w og r o u p s t h ep r o b a b i l i t yo f a n yo b s e r v a t i o n sa n dt h eh i d d e ns t a t eo fa n y o b s e r v a t i o ns e t sa r ea n a l y z e da c c o r d i n gt o o b s e r v a t i o np r o b a b i l i t yd i s t r i b u t i o nf u n c t i o nm a t r i x c l i n i c i a n sc o u l df o r e c a s tt h e p a t i e n t s c o n d i t i o no ff u t u r eo nc u r r e n ts t a t ea c c o r d i n gt ot h ep a r a m e t e r so fm o d e lt h a t h a v el e a r n t ,a n da d v i s et h eb e s ts u i t a b l et h e r a p yp l a nt op a t i e n t s k e y w o r d s :h i d d e nm a r k o vm o d e l ;l o n g i t u d i n a ld a t aa n a l y s i s ;r e s p o n s e e v a l u a t i o n c l a s s n 0 :t p 3 9 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 1 5 l 舍 签字同期:跏9 年6 月哆日 导师签名: 辩日7 乡丁 l 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他入已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作翡同志对本研究所做的任何贡献均已在论文中律 了明确的说明并表示了谢意 学位论文作者签名: 畚瓦签字日期:弘旧,年参月f ,日 6 7 致谢 本论文的工作是在我的导师黄厚宽教授的悉心指导下完成的,黄厚宽教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响在此衷心感谢两年来 黄厚宽教授对我的关心和指导 周雪忠老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,禚此向瘸耄忠老师表示衷心的谢意 黄厚宽教授和周雪忠老师对于我的科研工作和论文都提出了许多的宝贵意 见,在此表示衷心的感谢 感谢项目的合作者中国中医研究院的刘杰博士,张润顺博士,刘保延老师, 在他们的指导下,我深化了中医的理论和原理。 感谢项目的评价者刘杰博士,她从临床的角度对本文所产生的结果做了客观 专业的分析, 在实验室工作及撰写论文赣闻,冯奇,张小平等师兄师姐和赵君霞、范岩、 秦建、庄力等同学对我论文中的j a h m m 软件包研究工作给予了热情帮助,在此向 他们表达我的感激之情 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业 i 引言 1 引言 由于中医临床疗效评价的不完善,临床医生和统计学工作者提出了很多统计 模型,本文根据中医临床纵向珍疗数据的特点,应用隐马尔可夫模型对临床诊疗 数据做纵向分析,较瀚人改善了中医临床疗效评价的方法 1 1 隐马尔可夫模型的背景及现状 隐马尔露夫模型( h i d d e nm a r k o vm o d e l ) 是一种概率论模型,也是一类智 能化算法,具有牢固的统计学基础和有效的训练算法,因此广泛应用于描述序列 数据或过程隐马尔科夫模型( h i d d e nm a r k o vm o d e l ) 最初是在2 0 世纪6 0 年 代后半期l e o n a r db a u m 和其他一些作者在一系列的统计学论文中描述的h m m 最初的应用之一是开始于2 0 世纪7 0 年代中期的语音识别【i 】,f r e dj e l i n e k ( 费里 尼克) 和卡内基梅隆大学的j i ma n dj a n e tb a k e r ( 贝克夫妇) 分别独立地提出 用隐含马尔可夫模型来识别语音,语音识别的错误率相比人工智能和模式匹配等 方法降低了三倍( 从3 0 下降到l o ) 八十年代李- 开复懈士坚持采用隐马尔可 夫模型的框架,成功地开发了世界上第一个大词汇量语音识别系统s p h i n x 在 2 0 世纪8 0 年代后半期,h m m 开始应用到生物序列尤其是d n a 镌分析中。麸 那时开始,在生物信息学领域,他们已经变得无处不在【l 】h m m 方法已经成功 应用于多个领域,如机器翻译、光学字符识别等。h m m 在生物信息学和基因组 学领域中也有着重要的应用,如基因组序列中蛋囱质编码区域的预测、对于相互 关联的d n a 或蛋白质族的建模、从基本结构中预测第二结构元素等目前h m m 已经广泛应用于文本信息抽取以及用户兴趣漂移研究中 1 2 中医| 瞧床疗效评价的发展现状 悔床疗效评价是中医学存在和发展的核心润题之一近来只益受到各方面研 究人员的关注和重视,其核心研究内容被认为是指标体系和方法学的问题如何 在保持中医临床个体化诊疗特色的前提下,体现中医药学的本质规律,进行实际 可操作的临床疗效评价研究是该研究课题的主要难点我们认为中医临床疗效评 价的根本问题在于对实际临床诊疗环境下形成的存在缺失、噪音的多种定性或半 定量的“弱指标的纵向综合评价问题这些“弱 指标虽然不能明显体现疗效, 但多个“弱 指标的非线性综合能够反映疗效的实质性内容;同时e l j 于现代理化 北京交通人学硕士学1 _ 奇= 论文 硬指标的补充,如何综合这些“弱”指标和理化硬指标进行疗效分析也是当前中 医临床疗效评价方法需要解决的问题同时,一般的中医临床诊疗过程都包含多 个时间点的诊疗行为,如门诊一般存在初诊、复诊等多次诊疗;住院则存在多次 查房诊疗等这种多次诊疗行为是中医临床辩证论治和疗效体现的关键因此, 基于观察或试验设计的纵向数据分析是传统中医临床研究数据分析的重点本文 以肺癌为例进行中医辨证论治疗效评价方法的初步探索 肺癌病程长、炎症反复发作,加之目前尚无特效治疗药物需长期用药的现状, 短期的临床疗效观察往往不能了解整个疾病的转归特点而且肺癌在疾病发展过 程中呈现多状态、多阶段进程的特点,一些影响因素随着时间和疾病状态的改变 而改变,即具有时依( t i m e d e p e n d e n t ) 特点,而在分析这些慢性病不同发展阶段的 影响因素时,经典c o x 回归常规生存方法办无能为力因此,本文选择了临床 决策分析中的隐马尔可夫模型的模拟分析方法,它可以模拟疾病随时间出现的各 种状态,评价在每一单位时间里这些不同状态间的风险性,并通过赋予相应的效 用值,以一个事先定义好的结束事件为终点,模拟疾病的演进过程,从而对所研 究的问题进行评价适用于临床事件的危险性或发生概率随着时间的变化而关 联,多用于临床干预措施的评价、疾病治疗结局的预测、疾病预后因素的分析、 纵向生命质量的分析、特殊疗法应用价值的评价、临床试验的外推和药物经济学 的评价、新疗法远期效果的评价、疾病筛检措施的评价等方面,尤其适用于对慢 性疾病或临床干预的远期效果的预测【1 9 】【2 0 】 1 3 纵向分析发展现状 纵向研究是基本的研究方法之一,它也叫追踪研究,是指在一段相对长的时 间内对同一个或者同一批被试进行重复的研究它具有横向研究不可替代的优 点和横断研究相比,纵向研究的最大优点就是可以描述事物的连续性变化,以 及合理地推论变量之间的因果关系在医学、生物学、环境科学、心理学等许多 领域中,纵向研究都有很广泛的应用在很长的一段时期,由于比较花费时间、 经费和人力;时效性比较差,有时候需要等待很久才能得到研究结果,有时候研 究课题的意义随着时间的推移而逐渐减弱,或研究手段逐渐变得落后;由于纵向 研究耗时较长,可能发生被试流失的情况,这就会影响被试的研究结果的概括性; 由于纵向研究需要对同一批被试重复进行研究,有时可能出现练习效应或者疲劳 效应,等原因而制约了纵向研究的广泛应用现在,随着研究设计方法更加灵活, 以及纵向数据统计分析方法的更新,纵向研究的应用越来越广泛 过去的2 0 年,国外纵向研究的数量增长非常迅速,有关纵向数据的现代分 2 1 引言 柝方法如个体成长模型、间隔时间分辨、连续时瓣分析等在蓬外已经发展成熟且 应用逐渐增多而在国内,纵向研究比横向研究的应用却少得多,数据的分析方 法多运用的是传统的方法,如黼对t 检验,重复测量方差分析,逐步回归分析, 有的甚至是单纯的描述性统计;其关注的焦点也是总体的平均趋势,几乎没有关 注个体发展的差异;现代纵向分析方法被引进的时间还很短 传统的纵向数据分析方法主要用来描述总体的平均发展趋势,而不关注个体 之间变化的趋势,主要缺点是不能对个体之间存在差异的原因进行分析和解释; 数据中的缺失值得不到精确的惦计;在数据缺失量较大时,分柝所瘸数据信息损 失较大;另外它也不能处理时间问隔不等或者测量次数不等的数据而现代纵向 分孝厅方法能有效的避免上述缺点,因此有必要把些重要的现代纵囱数据方法从 国外引进【2 】 纵向分析方法的研究是医学统计学的研究热点,广义估计方程、多层线性模 型和马尔可夫转换模型等是纵向数据分析中的主要方法由于数据缺失、不等时 间间隔是纵向数据研究中不可避免的问题因此,能够一定程度处理数据缺失和 不等时间闻隔阂题的方法也是纵向分析方法研究的重点之一另外,针对多反应 变量的情况,则主要通过扩展应用单反应变量方法进行分析具备纵向分析能力 的统计软件已经相当广泛,如s a s 、s t a t a 、s p s s 、h l m 和l i s r e l 等,同时一 些研究人员也专门书写文章或教程对如何利用基本的模块功能编写实现相对复 杂的多层分柝提供指导,因此,很大程度的提高了纵向分析的应用水平。然而, 就总体而言,虽然纵向分析的方法研究已有二三十年的历史,但面对复杂的应用 需求,其方法和应用水平仍处于初期阶段特别在定性多( 几十个) 反应变量的 分析方面,方法与应用需求之闻仍存在较大差距,对混合值( 同时具备定性和定 量值) 多反映变量的直接处理更未见研究报道中医临床诊疗的症状指标多以定 性( 布尔僮或分度值 失主,且针对某特定的病癍的症状指标众多,若结合理纯 指标,则还需解决混合值的综合处理同时,由于观察数据中的反应变量存在自 然或人为缺失的问题,因此,利用现有的统计分耩软件进行很合多变量纵向分析 存在很大困难,目前还没有成熟的处理混合多变量的纵向分析方法针对中医临 床疗效评价的纵向分析方法问题,本文提出了基予隐马尔可夫模型的具备混合值 多反应变量处理能力的纵向分析方法唑 1 4 本文的研究内容及意义 针对中医纵向l 隧昧数据的综合疗效分析需求,初步研究了进行综合疗效评价 的隐马尔可夫模型方法该方法能够整合多种定性和定量指标进行纵向综合疗效 北京交通人学硕士学位论文 评价分析,并基于肺癌数据进行了实验研究,表明该方法是有效的纵向综合分析 方法具体研究内容如下: 1 数据准备及预处理 数据准备和数据预处理是进行h i d d e nm a r k o vm o d e l 处理的重要环节,主要 花费了5 0 以上的工作量,在处理过程结合分析目标进行了有序的数据处理,避 免由数据噪音造成的数据失真和对模型分析效果的可能影响在中医临床数据仓 库及e t l 软件的基础上,进行数据准备和预处理进行以下几个步骤: 1 ) 数据清理 完成垃圾数据的删除、对每一个数据采集点获得的数据库备份都进行数据清 理,只保留有效的病历数据记录 2 ) 数据汇总 对清理后的数据利用e t l 软件的相关功能进行数据汇总,实现多个数据采 集点备份数据的单数据库文件存储 3 ) 数据整合 把汇总后的数据整合到中医临床数据仓库中,实现相应的数据核查和数据转 换,保证分析数据的转换处理和集中存储 4 1 数据规范整理 对结构化病历中的症状体征( 如主诉、现病史、既往史中等信息) 进行整理, 整理的过程为临床人员进行规则编辑、导入数据整理规则、根据相应的规则、数 据整理和数据审核四个主要步骤,并需要反复以上四个步骤进行多次数据整理 5 1 数据表示形式的转换与代码化处理 筛选相应的数据集和数据变量,对此进行相应的数据代码化处理,并根据隐 马尔可夫模型分析要求,对数据仓库中的预处理后数据进行相应的数据转换处 理 2 隐马尔可夫模型建模过程 本研究可根据肺癌疾病发展的分期情况,模拟分析肺癌患者在今后几年内的 疾病进展情况,进行疗效评价和预后情况预测 1 l 模型参数的学习 通过隐马尔可夫模型的众多经典算法,调用或改进相关算法,利用医学数据 挖掘的步骤,学习改进后的模型参数,并进行疾病发展趋势的预测 2 1 疗效指标的筛选和确定 选取临床具有意义的疗效评价指标,并分析建立与状态之问的相互关系 3 模型分析及预测结果的临床解释 在反复进行微调样本和特征的基础上,对以上h i d d e nm a r k o vm o d e l 建模分 4 1 引言 析过程进行多次测试和试验,获得较优的分析结果与临床人员共同根据分析获 得的结果进行解释,并得到临床相关的分析结论 4 多种纵向疗效分析方法比较研究 本文综合多种纵向分析方法,进行更加深入的阐释和结论分析同时比较随 枧效应模型,广义多层线性和m a r k o v 模型等在肺癌疗效评价应用中的优缺点。 5 本文创新点 1 ) 系统地建立基于h i d d e nm a r k o vm o d e l 进行中医临床疗效评价纵龟分辑 的方法 2 、 结合具体的肺癌病人数据,预测病情发展,应用基于h i d d e nm a r k o v m o d e l 的疗效评价方法 我国肺癌的发病率在近1 6 年中以每年1 1 9 递增,已成为临床最常见的恶 性粒瘤之一吲近年来,中医药在防治肺癌方面的特长和优势已为世人瞩誉,尤 其在改善症状、提高生存质量、延长生存期方面颇具特色【5 】通过临床医生的文 献学习和l 瞄证实践,我们体会到中医药在治疗肺瘸中有较好的临床实践,故提出 本文的肺癌的临床疗效评价的方法来帮助肺癌的研究,实验证明这种方法可以取 得较好的疗效评价指标 1 5 本文的组织结构 在第一章引言部分着重介绍了隐马尔可夫模型、临床疗效和纵向分析的背景 及发震现状。 第二章主要介绍了四种应用于疗效评价分析的统计模型,为了克服它们的缺 点,引出了隐马尔可夫模型。 第三章介绍了隐马尔可夫模型的数学原理,从概念定义到三个经典的算法, 第六节介绍了开源软件包j a h m m ,即隐马尔可夫模型的j a v a 实现第七节简要 介绍了临床数据的建模过程 第四章主要介绍隐马尔可夫模型在中医临床的应用研究,从医学数据的挖掘 入手,讲述本文的应用所实现的流程,以及结果的对比分析,体现了疗效评价的 差异 第五章是就第噬章提出的瘦雳研究的实现结采,麸多个方面进行分辑,结合 中医临床的知识,指出实验结果的价值 最后一章对全文进行了总结著提出了缺点不足和待改进的地方,以及对未来 研究方向的展望 北京交通人学硕士学位论文 2 疗效评价分析的若干统计模型 临床疗效评价的目的是寻找针对某种疾病、某类人群的有效治疗方案、方法、 手段、药方其关键一是针对性,即通过评价寻找到适应人群;二是有效性,即 通过评价确认实际治疗的效果在临床治疗的实际中,通过实验设计,可以选定 一些人群,采用随机分组可以控制一些影响因素,但预期结果实现的影响因素并 不仅仅是研究因素,也就是所采用的治疗方案、方法、手段和药方等,往往还有 混杂因素由于这些因素的存在,无法采用在同一时间点进行统计检验的方法做 出疗效评价,而需要将这些因素作为修饰因素,即作为解释变量或称自变量、协 变量,运用一些统计模型对疗效做出评价 中医治疗的特点是辨证论治、方证结合、病证结合,其临床治疗效果的反映 常常是患者的变化,有理化指标的变化,更有生存质量、症状的变化,因而反映 治疗有效性的指标类型不单单是可测量的连续变量值,还有离散的变量值,由可 分为分类的、有序的等等有效性指标类型不同,采用的方法不刚6 j 【7 j 2 1l o g i s t i c 模型 l o g i s t i c 模型属于广义线性模型,主要包含两类:一是针对二维响应变量的 l o g i s t i c 模型,另一是针对多维响应变量的l o g i s t i c 模型,又可以分为多分类无序 和多分类有序两种形式【3 2 】【3 3 】;7 3 2 1 1 模型形式 1 ) 二维响应变量的l o g i s t i c 模型 有效性指标为二分类的,如病情是否好转、症状是否改善等,可以采用该模 型实际数据建立的l o g i s t i c 模型形式一般为: l o g ( ) 2 成+ 屈木五- + + 屏 ( 2 1 ) 一 j 假定y 服从取值为0 ,1 的二项分布,即y b ( 1 ,z r ) 对不同观测中的咒,有 尸( 咒2 1 ) 2 乃,p ( 乃2 0 ) = l - 乃所以只得期望和方差形式为: e ( 咒) = “= 乃v a r ( y i ) = 盯2 ( h ) = 盯2 ( 乃) = 乃+ ( 1 一乃) 研和“之间的联系函数及相应函数为: 6 2 疗效评价分析的若干统计模型 绣= l o g ( p f ( 1 一“) ) 以= e x p ( r ( 1 + e x p ( r i ) ) ) 联系函数或者响应函数一般根据研究的需要以及计算静简便束选取定义 l o g i t 函数为: l o g i t ( x ) = l o g ( x ( 1 一菇) ) f 2 2 ) 2 ) 多维无序响应变量的l o g i s t i c 模型 有效性指标为对分类的,如中医瘗候( 虚、实、寒、热) 的变化,可以考虑 运用该模型多维无序是指响应变量y 的多个响应水平间地位平等,无法按大小、 高低、重要程度等排序在= 维响应变量的情形下,选用一个联系函数束刻画因 变量的期望与自变量间的关系在k 维响应变量的情形下,一般需选用k 。1 个联系 函数来描述因变量期望与自变量的关系最常用的做法是选择一个参照水平,将 其他水平与参照水平相眈较来构造联系函数。这就是基准类l o 蛋t s 模型 ( b a s e l i n e c a t e g o r yl o g i t s ) 以第k 个水平为参照水平,其联系函数形式为: b 囊孙f t * x , + - - - + 岛淄,2 ,扣l 。3 因此,该模型含有k - 1 个l o g i t 方程,每个方程含有不同的参数,这表明对不 同的响应水平,自变量的影响效果是不同的由( 4 3 ) 式,可以得到响应概率的 表达式: 弼=芝三:琶妻三萋二耋乏鬻,:。,2,后一, c 2 4 , 2 1 2 模型的参数估计及检验 1 参数估计 l o g i s t i c 模型的参数通常采用最大似然估计得到由y 的特定的指数族分布形 式( 二项分蠢) 得到似然估计,通过最大化似然函数来得到参数熊锄= l ,2 一,罗) 的 估计这里并不具体叙述估计的过程 2 。检验 模型的检验主要有两类:一是模型显著性检验:二是模型的拟合优度检验 1 ) 模型显著性检验 模型显著性检验可以从两个角度进行一是检验参数整体是否显著不为0 ,即 响应变量和自变量之间的线性关系在整体上是否成立;二是检验单个参数是否显 著不为0 ,即该参数对应的自变量与响应变量之间的线梭关系是否显著一个好的 模型应该是整体显著的,其包含的每个参数也应该是显著的 7 北京交通人学硕士学位论文 模型整体显著性检验通过对所有系数是否同时为0 进行检验得到结论;每个 参数的显著性检验通过对每一个参数是否为零进行检验得到结论 2 ) 模型拟合优度检验 模型的拟合优度检验用来判断模型的估计值与原始数据的拟合情况,是判定 模型适用性的重要标准有时,模型通过了显著性检验,但无法通过拟合优度检 验,说明其对原始数据的拟合程度差,模型仍然是不可取的 模型的拟合优度检验通常构造服从z 分布的p e a r s o n 统计量和d e v i a n c e 统计 量进行 2 2 纵向分析模型 纵向数据是指对任意个体的统一特性在一段时间或某几个时间点做重复性观 测得到的数据重复观测的有效性指标可以是连续性测量值,如各种客观检测的 理化指标值、利用量表测量得到的指标值等;可以是离散性测量值,如将糖尿病 患者测量的空腹血糖值按大小分为重症和非重症等纵向数据研究的主要目的是 描述响应变量随时间的变化规律,以及这些变化是如何相关于感兴趣的协变量在 数据分析上,纵向数据有两点区别于其它数据的主要特征:首先,由于在不同时 间点上对同一个体进行了多次测量,因此研究者可以直接的研究该个体随时间的 进展情况但要注意同一个体的不同时间点测量值通常是高度相关的,这些相关 性应该纳入分析之中此外,对于同一个个体而言,在时间上相近的观测之间会 比相距较远的观测表现出更紧密的联系,因此纵向数据的时间先后顺序对于分析 推断有着重要的意义纵向数据分析可以研究两种治疗方法下疗效随时间变化的 模式是否有显著差别,从而动态地判断出治疗效剁2 7 】【2 8 】【2 9 】 纵向数据分析常用的模型有:边际模型、转移模型、线性混合模型 边际模型在纵向数据,特别是多水平离散纵向数据的分析方法中占有重要的 地位所谓边际模型,指的是直接考察响应变量的边际分布与协变量关系的模 型“边际 两个字暗示了子集的边际期望值仅依赖于协变量,而非之前时间点的 结果或其他随机因素边际模型是在广义线性模型的基础之上构建起来的,它直 接沿用了广义线性模型中通过连接函数将因变量与回归方程相连的形式;边际模 型也是广义线性方程的推广,体现为在模型中加入了同一个体观测值之问的相关 性假设,从而解决了广义线性模型无法将纵向数据重复测量值关系有效表达的问 题边际模型主要研究在给定协变量x 后,响应变量y 随时间的变化情况,其侧 重于总体平均变化水平的研刭m j 转移模型即条件模型,是一个条件回归模型每个个体第i 期的响应变量不仅 2 疗效评价分析的若干统计模型 取决于其自身的协变量,而且与之前的第i 1 期、第i 2 期的响应变量有关, 主要探讨膨列问的魏框关关系。转移模型中讨论的缀向数据重复观测之阆的时闻 间隔是等距的 线性混合模型认为,不| 弼个体之间的协变量对响应变量的影响是有差异的, 将其分为固定效应模型和随机效应模型两部分,固定效应模型是所有个体所共有 的,而每个个体都有自己特定的随机效应同一个体的数据之间的强相关关系的 本质就是其自身的随机效应随机效鹿模型可以更好的体现纵向数据同一个体数 据i 日j 的相关关系和不同个体之间的差异,能够对每个个体随时问的变化情况进行 更准确描述和预测,磊且便于不同个体之间的比较f 醴【羽 2 3 多层线性模型 有效性指标具有分层或嵌套结构,如不同类型患者,如不同医院患者,根据 影响临床研究方案有效性的多种因素将模型分为不同层次,在模型中考虑多因素 对方案有效性的干扰多层线性模型【】可以包含固定效应和随机效应两部分固定 效应衡量患者因其餐身特征不同所弓| 起的治疗翦后有效性指标的差异,主要由两 部分组成,一是个体特征差异,例如患者的病程、体重、性别等;二是治疗方案 的差异,例如患者可糍会采爝孛西医结合治疗法或纯中医法进行治疗;随机效应 则衡量个体特征因其所属的组别( 层) 的不同而对响应变量产生的影响【3 4 】 模型的形式通常有零模型、完整模型、随机效应模型9 】1 7 】 1 ) 零模型( t h en u l lm o d e l ) 零模型没有任何解释变量主要目的在于把总体变异分解为由个体差异造成 的部分和层差异造成的部分。 第一层:巧= p o j + 气,g n ( 0 ,盯2 ) 第二层:p o ;= y o o + b o l ,务n ( 0 ,东) ,s ,b 相互独立 综合:巧= y o o + f + 勺 方差:v a r ( v , j ) 一v a r ( b o f + 嘞) = v a r ( b o f ) + v a ) = 乇巧2 其中,匕的下标,代表第一层的单位;下标i 代表第一层的个体所隶属的第二 层的单位;y o o 是属;的均值,是其固定部分;b o ,是反,的随机部分,代表第二层单 位之间的差异 2 ) 完整模型( t h ef u l lm o d e l ) 完整模型是在每一层都包含协变量的模型这样可以解释y 的总体变异是怎掸 受到第一层和第二层因素的影响的,综合模型包含了交互效应 第一层:专= 凤+ 磊;毛岛,一n ( 0 , o - 2 ) 9 北京交通人学硕十学何论文 第二层:屁j = + 。+ ,( 复) ( 兰 ( 毳 且s ,6 相互独立 届,= 乃o + 乃1 + 6 l 综合,巧= o + i + 6 0 ,+ 乃。叉0 + 门。爿0 + 岛,爿0 + 勺 方差为: v a r ( 巧) = v a r ( b o f + 岛f + ) = v a r ( b o f ) + 2 爿0c o v ( b o f ,岛,) + 爿苫v a t ( b , f ) + v a r ( e 口) = 乇+ 2 局。+ 霸f j + 仃2( 2 5 ) 3 ) 随机效应模型( r a n d o me f f e c tm o d e l ) 随机效应模型在第二层模型中没有协变量其主要着眼点为第二层的变异在 找不到合适的第二层协变量时,可以采用这种模型 第一层巧= , e o f + 届f 五+ 白,占n ( o ,仃2 ) 第二层属,= + ,( ) ( 三) ( 凳) ,6 相互独立 届,= 乃o + 岛, 综合 巧= 。+ 乃。玛+ 6 0 ,+ 6 i ,西+ 勺 方差 v a r ( 巧) = v a r ( b o ,+ 2 j i f x o + 白) = v a r ( b o f ) + 2 x uc o v ( b o f ,6 l f ) + 霸v a r ( b , f ) + v a r ( 勺) = 吒+ 2 玛+ 霸吒+ 仃2 2 4c o x 比率危险率模型 ( 2 6 ) c o x 比率危险率模型【。0 】( c o xp r o p o r t i o n a lh a z a r d sr e g r e s s i o nm o d e l ) 可以用于 有效性指标为生存时间、改善( 好转) 时间、延缓时间、缓解( 复发) 时间等的 疗效评价它是一种检验各种因素( 协变量) 以及它们的交叉项是否对因变量( 有 效性指标) 有显著影响的方法 实际应用中,可以根据研究的需要以及数据的情况选择合适的模型然而临 床疗效评价通常都强调随机性,主要是为避免造成试验组与对照组的人群偏移, 保证结果分析的一般性即科学性但即使随机,也很难避免一些非研究因素的影 响,运用统计模型,将这些因素作为协变量同时纳入分析,可以更明确对有效性 指标影响的主要因素,使分析评价的结果更科学和可靠 肺癌患者的治疗过程病程长、炎症反复发作,加之目前尚无特效治疗药物需 长期用药的现状,短期的临床疗效观察往往不能了解整个疾病的转归特点而且 1 0 2 疗效评价分析的若干统计模犁 肺瘸在疾病的发展过程中呈现多状态、多阶段性的特点,一些影响因素随着时间 和疾病状态的改变聪发生变化,即具有时依( t i m e d e p e n d e n t ) 的特点,砸在分析 这些慢性瘸不同发展阶段的影响因素时,经典c o x 圈归常规生存方法亦无能为 力因此,本文选择了临床分析中的隐马尔可夫模型的模拟分析方法,克服了以 下缺陷,更加客观地分析中医临床的肺癌数据,得出临床疗效评价,” 1 ) 随访时间有限,不能包含疾病自然史的全过程; 2 经济花销大; 3 ) 对病人入选标准有严格限制,可能排除或只能代表某些类型的病人( 如志 愿者) ; 4 ) 样本含量太小不能够监测到稀有事件 北京交通大学硕十学位论文 3 隐马尔可夫模型及相关软件实现 本章具体介绍了隐马尔可夫模型的数学原理,包括其概念定义和三个经典的 算法,向前向后算法、韦特比算法和b a u m w e l c h 算秽接着介绍了用j a v a 实现的 隐马尔可夫模型的软件包,最后详细介绍了临床数据建模的过程 3 1 隐马尔可夫过程 关于隐马尔可夫模型,l r a b i n e r 曾经给出一个经典的例子【i 】:在一个房间中, 假定有n 个坛子,每个坛子中都装有各种颜色的小球,并且假定总共有m 种不同 颜色的小球一个精灵再房间中首先随即地选择一个坛子,再从这个坛子中随机 选择一个小球,并把小球的颜色报告给房间外面的人员记录下来作为观察值该 精灵然后再把该球放回目前选择的坛子,以目前的坛子为条件再随机选择一个坛 子,从中随机选择一个小球,并报告小球的颜色,然后放回小球,如此继续,随 着时间的推移,房i a j # l , 的人会得到由这个过程产生的一个小球颜色的序列【1 2 】【3 l 】 在这个过程中,如果把每一个坛子对应于一个状态,可以用状态转移概率矩 阵来描述坛子的选择过程并且每个状态可能按照特定的概率分布输出不同颜色 的小球与天气变化的马尔可夫过程不同,观察人员仅仅根据看到的小球颜色的 序列,并不能确定坛子的选择过程,也就是说,根据观察序列,人们不能确定观 察转移序列,状态转移过程被隐藏起来了所以这种随机过程一般称为隐马尔可 夫过程【2 1 】【2 2 1 一个完整的隐马尔可夫过程包含下面五个要素: 1 一组状态的集合s = 1 ,2 ,3 ,:,m 尽管观察人员不能直接观察到状态之间的转 换,但在隐马尔可夫过程的实际应用中,状态往往有确定的含义,在坛子和小 球的试验中,状态和坛子之间有一种对应关系,状态n 对应坛子n 2 一组输出( 或观察符号) 的集合v = v 。,v 2 ,v 3 ,) 观察符号对应着模型的 物理输出,在坛子和小球的试验中,观察符号对应的是小球的颜色,如果共有 3 种不同颜色的小球,则观察符号集中含有3 个元素,即v - 红,白,蓝) 3 状态转移概率矩阵a = iq ,1 是一个n 行n 列的矩阵,含义和一阶马尔可夫 过程中的状态转移概率矩阵相同,其中 a ,= p ( q ,+ l = j i g ,= f ) ,1 f ,n 4 观察符号的概率分布b = p ,( 尼) ) 6 ,( 尼) 表示在状态j 时输出观察符号屹的概 1 2 3 隐马尔可夫模型及相关软件实现 率则有: 参,( 露) = 尸( 喙l 歹) ,1 k m ,1 j n 5 初始状态概率分布7 = 或) 表示时刻l 选择某个状态的概率则有: 曩= p ( q l = i ) 因此,隐马尔可夫模型可以表示为一个五元组如果用五来表示隐马尔可夫模 型,则 五= ( s ,矿,a ,b ,万) 一般也简写为 盖= ( 么,b ,万) 可以把隐马尔可夫模型看为一个观察值的生成装置,按照一定的步骤,隐马 尔可夫模型可以生成下面的观察序列: 0 = ( 0 1 0 2 0 3 o r ) 其中谚表示时刻i 的观察值。 1 按照初始状态概率分布万选择一个初始状态( 即时刻l 时模型所处的状态) q l = i 2 。令t = 1 3 按照状态i 观察符号的概率分布包( 尼) 选择一个观察值o f = 4 按照状态转移概率分布嘞选择一个后继状态q ,+ = j 5 ,若t t ,令t = t + l ,并且转移到算法第三步继续执行,否则结束。 在上述模型的定义中,实际上假定了状态转移仅仅依赖于前一个状态的选择, 这样的隐马尔可夫过程称为一阶隐马尔可夫过程,同马尔可夫过程类似,状态选 择可能不仅仅依赖于前一个状态的选择,面依赖于前k 个状态的选择,这样的隐 马尔可夫过程称为k 阶隐马尔可夫过程 可见,隐马尔霹夫过程楚一个双重随枫过程,其中一重随机过程不麓直接观 察到,通过状态转移概率矩阵描述另一重随机过程输出可以观察的观察符号, 这由输出概率来定义, 当把隐马尔可夫模型用于实际问题时,有三个问题需要解决: 1 ) 给定隐马尔可夫模型冀= ( 4 b ,7 r ) 和d 。( 邓) :0 3 o r ) ,如何有效地计算出 观察序列的概率,即以0 | 五) ? 这是一个计算问题 2 ) 给定隐马尔可夫模型见= ( 彳,b ,刀) 和一个观察序列d = ( q 口z 0 3 吩) ,如何 寻找一个状态转移序列譬2 ( q z q 2 q 3 q r ) ,该状态转移序列最有可能产生上 述观察序列( 或在某种意义下,最好地解释了上述观察序列) ? 这是一个 1 3 北京交通人学硕士学位论文 估计问题 3 ) 在模型参数未知或不准确的情况下,如何根据观察序列d = ( 0 1 0 2 0 3 ) 求 得模型参数或调整模型参数,即如何确定一组模型参数,使得p ( d1 名) 最 大,这是一个训练问题 更形象的说,h m m 可分为两部分:一部分是马尔可夫连,由万,a 描述,产生 的输出为状态序列;另一部分是一个随机过程,由b 描述,产生的输出为观察值 序列【1 1 】【羽 3 2 向前算法和向后算法 对隐马尔可夫模型而言,状态转移序列是隐藏的,一个观察序列可能由任何 一种状态转换序列产生因此要计算一个状态序列的概率值,就必须考虑所有可 能的状态转换序列,图2 2 表示了产生观察序列0 - - ( o 。0 :0 3 0 7 ) 的所有可能的状态 转换序列1 1 图3 1 观察序列0 = ( d 。0 :0 3 0 7 ) 的所有可能的状态转换序列 f i g u r e3 1a l ll i k e l ys t a t et r a n s i t i o ns e q u e n c e so fe v e r yo b s e r v a t i o ns e q u e n c e 对于某一个状态转换序列q = ( 吼q :q ,q r ) 产生观察序列0 = ( d 1 0 2 0 3 o r ) 的概 率可以通过下面的公式计算: p ( o i g ,a ) = 乞。( d 。) 乞:( d :) ,( d 3 ) b ,( d r ) 而状态转换序列q = ( g 。q :q q r ) 的概率可以通过下面的公式计算: p ( qa ) 2 a q m a 伽3 a q r 1 秆 则0 和q 的联合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 24758-2:2025 EN Fine bubble technology - Evaluation method for determining the reactive oxygen species in ultrafine bubble dispersions - Part 2: APF 3-(p-aminophenyl)
- 2026年中国口含烟行业发展展望及投资策略报告
- 110kV盘阳送变电工程环境影响报告表
- 四川省德阳市2025-2026学年高二上学期11月期中考试生物试卷
- 河南省幼师考试及答案
- 跨境电商客服考试题及答案
- 2025年背诵量大的职业考试题及答案
- 2025年产科进修试题模板及答案
- 重要场所火灾应急预案(3篇)
- 中心吸引应急预案记录(3篇)
- 2025天津滨海传媒发展有限公司招聘13人笔试考试参考题库及答案解析
- 2025年变电设备检修工(中级)技能鉴定理论考试题库(含答案)
- 2025年电磁学试题及答案解析
- 2025年中广核新能源校招面试题及答案
- 2026年黑龙江建筑职业技术学院单招职业倾向性测试必刷测试卷必考题
- d-d二聚体课件教学课件
- 跌倒坠床风险评估报告制度
- 【语文】重庆市沙坪坝区树人小学小学一年级上册期末试卷
- 2025年法院司法辅助人员测试卷附答案
- 2025年安检心理学测试题及答案
- 压力管理策略课件
评论
0/150
提交评论