生物医学数据挖掘:04-回归分析_第1页
生物医学数据挖掘:04-回归分析_第2页
生物医学数据挖掘:04-回归分析_第3页
生物医学数据挖掘:04-回归分析_第4页
生物医学数据挖掘:04-回归分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第二章数据采集与准备一.数据的采集和组织二.数据管理三.数据预处理1.目的2.数据的分布状态3.数据清洗4.数据整合5.数据变换6.数据精简回顾2第三章回归分析一.功能目的二.方法/模型

1.线性回归

2.Logistic回归

3.ANN,人工神经网络

4.回归树/决策树三.回归分析应用实例3一.功能目的揭示响应变量随一个或几个自变量的变化而发生响应的规律多种形式:线性/非线性、ANN、决策树结果:模型作用:预测型第三章回归分析4一般过程5第三章回归分析一.功能目的二.方法/模型

1.线性回归

2.Logistic回归

3.ANN,人工神经网络

4.回归树/决策树三.回归分析应用实例6一元线性回归二.方法/模型线性回归(用公式表示规律)样本->变量间的定量关系性能:残差最小变量系数:影响的显著性简单明了、容易计算yxy=x+1X1Y1Y1’7一元线性回归P36误差8910几种模型(1)线性函数形式(2)二次函数形式(3)高次方程形式(4)指数函数形式111213理解回归输出14X(剂量)Y(降压幅度)5101013.51515.520172518非线性回归转换为线性原始数据:转换后:X’=lnXY(降压幅度)1.609102.30313.52.70815.52.996173.2091815分类型变量在回归方程中如何使用?哑变量分类型变量(二值、排序型除外)转变为数值型(增加变量)例:属性”分布形式”有5个取值16第三章回归分析一.功能目的二.方法/模型

1.线性回归

2.Logistic回归

3.ANN,人工神经网络

4.回归树/决策树三.回归分析应用实例17Logistic回归多元线性回归

y=β0+β1X1+β2X2+…+βpXpy为数值变量若y为分类变量:发生/未发生,阳性/阴性等,则以上模型不适用用发生的概率P来代替yp=β0+β1X1+β2X2+…+βpXp18Logistic回归Logistic回归是一种非线性的模型适用于:应变量为二值(1和0)如:发生/未发生、阳性/阴性、有效/无效计算P(事件发生/不发生的概率)19Logistic回归Logistic回归模型为:概率模型

ln[P/(1-P)]=β0+β1X1+…+βpXp或:

exp(β0+β1X1+…+βpXp)P=─────────────1+exp(β0+β1X1+…+βpXp)

其中:P为发生的概率

X1,X2,…,Xp为影响疾病发生的因素20Logistic回归等式左边

变化范围P

发生的概率0≤P≤11-P

不发生概率0≤P≤1p/1-p比值(oddsratio)0≤p/1-p<+∞ln(p/1-p)对数比(ratio)-∞<ln(p/1-p)<+∞21Logistic回归实例1:冠心病coronaryarterydisease(y/n):与年龄、体重、性别、吸烟史、血压等因素的关系22Logistic回归例实例2:糖尿病人数据血脂、血压、血糖1异常0正常心血管终点事件(endpoint)1发生0未发生有何影响?如何影响?23讨论(1)采集数据:10524条记录

15.47%1628例发生终点事件

84.53%8896例未…

原始数据24数据整理数据整理建立线性logistic回归模型:

P39式3.725(2)Logistic回归模型P39式3.7

得到式3.8Y=1的概率26讨论(3)测试样本的测试结果:(4)如何解释上述回归模型?血脂0.161,权重最小血压0.992,…

最大血糖0.44427回归方程优点:表达清晰,计算方便。问题:(1)假定各因素间无相互作用,是独立的。

(2)不能反映因素间的相互作用(协同或拮抗)。28第三章回归分析一.功能目的二.方法/模型

1.线性回归

2.Logistic回归

3.ANN,人工神经网络

4.回归树/决策树三.回归分析应用实例29生物神经元30人工神经网络ArtificialNeuralNetworks,ANN描述非线性依赖关系ANN的结构输入神经元:自变量输出神经元:应变量中间神经元:由设计者决定性能激励函数训练的结果:偶合系数或权重(weight)31人工神经网络32人工神经网络ANN的输入通常输入值限制在[0,1]数值型:数据归一化(最小-最大归一法P32,适合ANN)分类型:转换为亚变量结果形式确定结构的偶合系数或权重(weight)33三层ANN输入层:一个神经元对应一个自变量输出层:与应变量对应中间层:神经元个数34ANN的优点(1)能够反映自变量间的相互作用(2)抗噪能力较强(3)适合反映非线性关系ANN的缺点(1)训练过程复杂(2)不可解释性35讨论若干因素对癌症患者预后的影响自变量,2个1)阳性淋巴结个数X1:无,少量,大量2)原发肿瘤部位X2:1穿透浆膜,0未穿透应变量:预后(如5年生存或死亡)采集数据:学习样本1514例,测试样本787例设计模型,表达因素间关系36讨论如何选择模型?数据预处理?性能评价?37ANN结果分析问题:哪个模型更适合本项研究?AB101038第三章回归分析一.功能目的二.方法/模型

1.线性回归

2.Logistic回归

3.ANN,人工神经网络

4.回归树/决策树三.回归分析应用实例39回归树回归树用逻辑推理的方式完成预测输出分类型的回归预测值数值型=>分类型表达形式易理解当回归预测值为分类型时,回归和分类相似40回归树结构树形结构根:包含全体数据,归纳推理的起点内部节点:选用一个属性进行分割叶子节点:表示一个终点事件分叉:分割的一个部分分叉原则:使各个分枝中分类的一致性最高终止原则:误差符合预定要求41回归树结构根节点root叶子节点leaf中间节点Intralnode分支branceChestpain胸部疼痛HR 心率Nausea反胃MI心梗42回归树性能正确性训练误差测试误差简洁性:层次、分支结果的形式产生式规则:IFTHEN43例:回归树44IF天气=晴朗THEN

IF湿度<=75THEN比赛

IF湿度>75THEN不比赛IF天气=多云THEN比赛IF天气=下雨THENIF刮风=是THEN不比赛

IF刮风=不是THEN比赛45回归树的生成树的生成根节点分支树的修剪去掉一些可能是噪声或者异常的数据关键:分支节点的选择46例:回归树创建问题:起始点如何选取?47例:回归树创建根结点的选择:正确、简洁是否有发烧腺体肿大48例:回归树的建立(定量)例3.3根据受检者的检验结果,确定该受检者是否可以戴隐形眼镜,适合戴硬性的还是软性的隐形眼镜。P43,表3.149例:回归树的建立(定量)例3.3P43,表3.1根结点的选择依据:同类占样本最多者分支中的样本归属不是同一个类别,需要再分叉?不推荐:5硬性:8软性:850?特征属性不能重复使用有可能出现分到最后仍不能分的情况?51分支原则:以占同类样本数的比例最高项作为分支依据层次、叶子不宜过多52最终形成的结果(产生式规则)IF泪流量=减少THEN不推荐ELSEIF散光=无THEN推荐软性镜片(误差12.50%)ELSEIF视力=近视THEN推荐硬性镜片(误差14.29%)ELSEIF老视=未老视THEN推荐硬性镜片(误差0)ELSE不推荐(误差0)53回归树使用:对未知数据进行预测回归树的特点可解释性好符合逻辑推理过程,易接受对学习样本过于敏感54第三章回归分析一.功能目的二.方法/模型

1.线性回归

2.Logistic回归

3.ANN,人工神经网络

4.回归树/决策树三.回归分析应用实例55应用一:子宫颈癌患者生存率,P44应用二:乳腺癌患者预后分析,P48数据内在特征及研究目的的需要56数据挖掘-建立模型logistic回归人工神经网络决策树57模型的性能比较一决策树模型性能优于其他两种模型。人工神经网络模型的灵敏度和预测正确率均比logistic回归模型好,其预测性能次之。logistic回归模型的性能相对较差三种模型各指标的标准差均不大,说明各模型的稳定性较好58性能比较二

哪些因素对结果影响较大?

哪些因素对结果影响不大?59灵敏度(sensitivity)分析假设:N个样本,3个特征属性F1/F2/F3(1)分别计算各个特征属性的均值/标准差(2)将(m1,m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论