04 回归分析.ppt_第1页
04 回归分析.ppt_第2页
04 回归分析.ppt_第3页
04 回归分析.ppt_第4页
04 回归分析.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上海交通大学基础医学学院生物医学工程系生物医学数据挖掘,2011,综述,第2章数据采集与准备,数据预处理,目的,数据分布,数据清洗,数据转换,样本数据选择,第3章回归分析,功能与目的,方法模型,线性回归,定量关系残差最小准则回归系数,回归方程中的数据转换,回归方程中如何使用线性,非线性,分类变量?勤务兵。价值的大小有意义吗?数字增量间距?虚拟变量(1/0)虚拟变量,讨论和分析胃癌患者原发肿瘤的位置和大小与预后(五年生存率)之间的关系,第3章回归分析1 .功能目的2 .方法模型1。线性回归2。逻辑回归,逻辑回归示例,示例:预期目标是确定采用新通信服务与教育、生活稳定性和收入之间的关系表中的数据来

2、自美国ATT领导的抽样调查。(注:表中数据分母中实际抽样的总人数,以及分子选择“采纳”的人数)、如果Y=1(选择“采纳”)和Y=0(选择“不采纳”),逻辑回归模型的表达式为:其中01、k是未知常数,类似于多元线性回归模型X1-。X11:大专以上学历X2-住宅稳定,X20:在过去的五年里没有改变,X21:在过去的五年里改变了X3-收入,X30:有低收入,X3=1:有高收入,数据转换,具体组合的条件在(X1,X2,X3)如果i0,因素的存在会增加被采纳的概率。如果i0,因素的存在会降低采用的概率。X1、X2、X3、测试样本的测试结果:准确度:95.15%、灵敏度:86.55%、特异性:97.29%

3、、AUC: 0.9192、逻辑回归、逻辑回归是一个经过变换的非线性表达式,它可以通过线性回归算法实现,适用于:因变量的值,即p的二元计算(事件不发生)、讨论,例如:三个自变量,3360血脂、血糖和血压,都定义为二元分类因变量:心血管终点事件(1发生,0未发生)。收集的数据。如何表达三个独立变量对反应变量的影响?(2)如何解释上述回归模型?的概率,Y=1,血压(X2)的影响最大,回归方程:的优点是表达式清晰,计算方便。问题: (1)假设每个因素都没有影响并且是独立的。(2)它不能反映因素之间的相互作用。第三章回归分析1。功能目的2。方法模型1。线性回归2。逻辑回归3。人工神经网络,人工神经网络,

4、生物神经网络,生物神经网络,六个基本特征:1)神经元及其连接;2)神经元之间的连接强度决定了信号传输的强度;3)神经元之间的连接强度可以随着训练而改变;4)信号可以是刺激的或抑制的;5)神经元接收的信号的累积效应决定了神经元的状态;6)每个神经元都有一个“阈值”。人工神经网络是对人脑系统特征的描述。辛普森(1987):人工神经网络是一个非线性有向图,它包含加权边,可以通过改变权重来存储模型,并可以从不完整或未知的输入训练中获得模型。人工神经网络力求从四个方面模拟人脑的智能行为、物理结构、计算、模拟、存储和操作训练,即人工神经网络,(1)大量的节点,(2)网格,(3)信息传输,(4)信息整合,(

5、5)人工神经网络的基本结构,人工神经网络训练获得神经网络中的每一个权值,(6)输入层,隐藏层,中间层,输出层,人工神经网络,(1)人工神经网络划分,(2)有多少个神经元?(3)神经元如何传递信息?(4)如何整合信息?人工神经网络的优点:(1)能反映输入因素(自变量)之间的内在关系;(2)对原始数据有很强的抗噪能力;(3)能解决复杂的非线性问题(用小误差变换不能实现非线性关系);(1)训练过程复杂,模型创建慢(检测速度快);(2)解释能力差,人工神经网络的模型设计需要(2)如何选择集成方法?人工神经网络的注意事项:输入和输出值应控制在0.1。问题1:如何处理不同的数据类型?问题2:如何处理分类价

6、值?目的:影响癌症患者预后的几个因素。考虑两个因素:1)阳性淋巴结数X1,数值型(0-90) 2)原发肿瘤的大小和X2,简化为二元型(1穿透浆膜,0不穿透)。共收集病例:1514例,其中死亡112例,X1(7),X2(0),存活23例,死亡432例,设计了人工神经网络来表达各因素之间的关系,并认为:(1)水平(投入产出中间);(2)输入:2个神经元,分别对应X1、X2 X1(数字型):0-90,需要转换为0。1 X2(二元分类):可以直接输出:2个神经元,对应于:2或3个神经元中间(1个存活,0个死亡)。(3)如何整合信号。(4)如何理解各因素相互作用的权重。结果分析,问题:如何确定以上哪种模

7、型更适合本研究?如何理解讨论中的中间层?人工神经网络中的神经元越多越好吗?人工神经网络中有多少神经元是最好的?如果有一个模型,中间层神经元的性能比较如图所示,如何解释呢?如何在经验公式和实验验证之间进行选择?为探讨人工神经网络在宫颈细胞图像识别中的应用,提取了宫颈细胞和细胞核的15个形态学特征参数和12个色度特征参数,并根据正常、低度鳞状上皮内病变(LSIL)、高度鳞状上皮内病变(HSIL)和宫颈癌对700个宫颈细胞进行分类。700个样本被随机分成500个训练集和200个测试集。摘自径向基函数人工神经网络在宫颈细胞图像识别中的应用,中国医科大学学报,2006,35(1),结论:人工神经网络能很

8、好地对宫颈细胞,尤其是HSL细胞进行分类和识别。该模型对细胞核参数特别是细胞核的染色单体参数敏感,与变异细胞细胞核增大、深染等病理特征一致。人工神经网络模型,反向传播神经网络,径向基函数,小波神经网络,模糊神经网络(FNN),模糊神经网络模拟退火神经网络,第三章回归分析1。功能目的2。方法模型1。线性回归2。逻辑回归3。人工神经网络4。回归树决策树、胸痛、胸痛、心率、恶心、心梗、心梗、决策树、决策树反映了人类思维中的归纳和推理过程,反映了人类在决策过程中的推理表达形式更容易理解,且该形式类似于生物医学的逻辑思维模式。在回归的决策过程中,树使用树状图来表示推理,这可以称为分类回归树。它可以被称为

9、分类树、决策树,例如:决策树、树结构、根节点根、叶节点叶、中间节点内部节点、分支、决策树。决策树的树结构在其内部节点上选择用于分割的属性,并且每个分支都是分割的一部分。叶节点表示分布式决策树生成算法分为两个步骤。树生成开始,数据在根节点被递归地修剪,以移除一些可能有噪声或异常的数据。决策树使用:根据决策树中采用的分割属性逐层分割未知数据,直到其中一个叶节点。数据预处理,在构成学习样本集的数据中,每个样本由一系列具有精确值的特征属性组成,并具有已知的分类结果;属性的数据类型可以是:(1)二进制:两个分支;(2)多变量:多分支,选择变量子集;(3)连续数值:寻找数据分区点,变量的数据类型转换,连续

10、=分类。当小的区别不合适时,避免过度的不相称。例如,年龄:20,30,40,50,60,70 90分类=连续。当分类按一定的顺序排列时,它就是一个自然的子集。例如,吸烟:从不=0,戒烟5年=1,戒烟1-5年=2,戒烟3,目前吸烟=4,例如:决策树的创建,要考虑的问题,(1)如何确定决策树的节点数?(2)如何判断决策树?(3)决策树的分支是如何形成的?(4)如何确定决策树的分枝数?(5)根节点选择哪个特征属性?示例:决策树的建立示例3.3根据受试者的测试结果,确定受试者是否可以佩戴隐形眼镜以及是否适合佩戴硬性或软性隐形眼镜。P35,表3.1。根节点是根据分支中的样本属于不同的类别并且需要再次分叉

11、的事实来选择的。特征属性不能被重用,并且它们有可能在最后不能被分离。回归树的结果形式是产生式规则,如果“泪液流量”=“减少”则“不推荐”否则如果“散光”=“无”则“推荐软镜片”否则如果“视力”=“近视”则“推荐硬镜片”否则如果“老花眼”=“非老花眼”则“如何选择合适的特征属性作为分类基础”分支原则:以同类样本的最高比例作为分支基础。有太多的层次和太多的叶子。这是一个不令人满意的结果。属性选择的统计测量信息增益(ID3/C4.5)所有属性假设都是类别字段修改后可以应用到数值字段。基尼指数可以应用于范畴和数字领域。大多数决策树并不完美。变量不能完全预测结果。数据不容易整理。不完整的数据(不涵盖所有

12、情况)决定了最佳决策树。没有不恰当或不恰当的数据。适当地停止分支的产生,并切断不适当的分支。与LOGISTIC回归相比,决策树:自动选择分类,假设子群的独立性,自动处理相互关系,处理缺失值分类之间的线性关系,LOGISTIC回归:手动选择概率,假设在所有情况下行为相同,需要变量之间的相互关系,需要完整的数据处理,线性关系对不均匀值敏感。结合医学应用实例,基于决策树和人工神经网络技术,建立了孤立肺结节良恶性诊断模型。收集58例经病理证实的孤立性肺结节患者的资料,提取12项临床指标和22项影像学指标作为区分孤立性肺结节良恶性的输入指标。模型比较由影像学医生、CART和人工神经网络检测的ROC曲线完

13、成。结果:(1)CART对脊髓型颈椎病的诊断准确率高于人工神经网络。(2)经皮冠状动脉造影术对自发性气胸的诊断指标是年龄,其次是结节毛刺和咯血。节录自基于数据挖掘技术的孤立肺结节诊断模型,中国医学影像技术,2008,24(3),第3章回归分析一.功能目的二。方法模型1。线性回归2。逻辑回归3。人工神经网络4。回归树决策树3。应用实例回归分析,应用:宫颈癌患者生存率,P36应用II :乳腺癌患者预后分析,P40,应用实例:乳腺癌患者预后分析。本研究的目的是通过数据挖掘的方法,基于现有的历史数据(包括被认为具有可能影响预后的各种因素的乳腺癌患者的病例记录),构建一个预测乳腺癌患者生存率的模型。数据

14、收集:取自SEER数据库中的癌症发病率数据库CIPUD,包括1973年至2000年的433,272个病例,每个病例包括72个特征属性。数据预处理一:根据以往的研究结果,删除与乳腺癌预后明显无关的特征属性,最终保留17个特征属性。其中之一是因变量,即五年生存状态和分类数据(0表示少于五年,1表示多于五年)。在16个自变量中,有11项是分类数据:种族、婚姻状况、肿瘤形态、组织学形态、肿瘤病变程度、肿瘤手术类型、放射治疗类型和临床分期;五个数字数据:年龄、原发肿瘤数、肿瘤大小、淋巴结数和阳性淋巴结数、数据预处理2:删除缺失或缺失特征属性值的记录,删除极端特征属性的记录(如肿瘤大小超过200毫米)。预

15、处理后,可用记录数为202,932。其中,存活时间不到5年:109,659例(占总数的54%)超过5年;93,273例(占总数的46%)数据组织:10倍交叉验证法。模型的性能是一个。决策树模型的敏感性、特异性和预测精度在三种模型中最高,其性能优于其他两种模型。人工神经网络模型的敏感性和预测精度优于logistic回归模型,但特异性稍低,因此其预测性能居第二位。逻辑回归模型的性能相对较差。三个模型各指标的标准差不大,说明各模型的稳定性较好。性能比较2,哪些因素对结果有较大影响?什么因素对结果影响不大?敏感性分析,敏感性分析,假设:N样本,三个特征属性F1/F2/F3 (1)分别计算每个特征属性的均值/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论