




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
代谢综合征风险、趋势预测和干预模型注:因数据问题,未能得到最终结果,只给出模型及思路摘要有关代谢综合征(MS)风险、趋势预测和人工干预是通过数据库中的生物分子相互作用和基因通路信息,构建生命量化动态模型 。分析影响代谢综合征(MS)关键通路的因素以及预测代谢综合征(MS)的患病风险与主要因素。本文旨在通过基因的表达评价、各类小分子的含量评价和临床检测数据评价等方面深入分析。建立数学模型,在对人类各因素进行定量分析,确定对每个人的个性化风险预测与关键因素分析,探讨构建一个早期的代谢综合征趋势预测模型的可行性。针对问题一,我们首先从NCBI, EBI, DDBJ等公开数据库中提取了大量生物分子相互作用和基因通路信息数据,通过建立Logistic回归模型和非线性拟合对各因子与通路之间的关系进行探讨,直观有效的表明了生命量化公示的含义。构建了如下所示的生命量化模型:Z=i=110j=19aijmijnj针对问题二,我们基于所提供的数据,通过二分类Logistic回归模型的构建以及因子分析的方法,根据各通路评分分析得出部分因素(数据特征或相互作用网络)是代谢综合征的关键通路;并验证了我们所建立的模型的可靠性与准确性。针对问题三,我们建立了Cox回归风险预测模型,将所搜集到的样本数据代入模型进行验证。结果表明其准确性达到97.5%。关键词:代谢综合征(MS),logistic静态回归模型,多元因子分析模型,回归风险预测模型,相关性分析,spss,BP神经网络算法一、问题重述与分析如何对人类生命进行量化分析和代谢综合征的患病风险预测是人类生物医学数据分析的重要方面,代谢综合征风险、趋势预测和干预就是通过分析人类相关生物医学数据,确定人类患病风险和各数据含量对风险的影响。在本文中,我们主要对以下问题进行讨论:问题一:请参考NCBI, EBI, DDBJ等公开数据库中的生物分子相互作用和基因通路信息,构建人类生命量化的动态模型。分析:根据NCBI等数据库中的信息,分别研究不同基因对代谢综合征的病态的独立影响程度,并且构建logistic静态回归模型,运用spss对已有数据进行回归分析,得到不同基因对代谢综合征的影响的权重,再运用道路拓补的分析方法对生物分子相互作用和基因通路进行分析,通过spss绘制基因通路网络图。问题二:结合临床检测数据,哪些因素(数据特征或相互作用网络)是代谢综合征(一种临床诊断结论)的关键通路。分析:我们建立了因子分析模型。确定代谢综合征发展的关键通络可以视为确定人类生命量化动态模型输入端个因素对代谢综合征发展所占的权重。这一点利用多元分析中的因子分析可以做到。因子分析通过研究变量之间的内部依赖关系,并用少数几个假想变量来表示其基本的数据结构,反映原资料的大部分信息的统计学方法。这几个假想变量能够反映原来众多的变量的主要信息。问题三:若给定一个新的人类群体数据集(10人),包含了每个个体的基因组、表观基因组、转录组、蛋白质组和(或)代谢组的部分测量,请问这些人有多大的代谢综合征风险?造成他们的代谢综合征风险的主要因素分别是什么? 分析:我们建立了Cox回归风险预测模型。由于问题需要对患者更清楚地了解发病的风险,认识自己疾病的危险等级,提高对疾病危险因素防治的认识,并建立“综合危险干预”的防治理念。Cox回归风险预测模型符合问题的要求,可以研究生命科学中疾病发生、一种治疗的反应、病情的复发或死亡。生存时间可以是无病生存时间,从一种治疗到开始有反应的时间,缓解时间或出现死亡时间。能够建立针对个人的代谢综合征风险预测评估机制,可以分析造成罹患代谢综合征风险的主要因素,完成对每个人个性化的干预。二、模型假设1、假设赛题中100人规模的人类群体生物医学数据中患病与健康的比例为1:1。2、假设赛题中100人规模的人类群体生物医学数据与我们通过资料查阅到的理解无偏差。3、假设罹患代谢综合征的患者短期内都不会死亡。4、假设研究对象的人类群体年龄分布均匀。5、假设研究对象的人类群体基因不发生突变。6、不考虑研究对象的人类群体的基因会受到外界因素的影响。、三、符号说明符号基因X1隐形纯合子X2T_X3T_X4TtX5TtX6TtX7TtX8T_X9T_四、模型的建立及求解4.1问题一4.1.1Logistic回归模型介绍:Logistic属于概率型非线性回归,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。在流行病学研究中,经常需要分析疾病与各危险因素之间的定量关系,为了正确说明这种关系,需要排除一些混杂因素的影响。其原理如下:考虑具有n个独立变量的向量x = (x1,x2, , xn),设条件慨率P(y=1|x) = p为根据观测量相对于某事件x发生的概率。那么Logistic回归模型可以表示为Py=1x=x=11+e-gx,这里fx=11+e-x称为Logistic函数。其中g(x)=w0+w1x1+w2x2+wnxn。 w0,w1,wn是一组权值,那么Py=0x=1-Py=1x=1-11+e-gx=11+egx, 所以事件发生与不发生的概率之比为P(y=1|x)P(y=0|x)=P1-P=eg(x),这个比值称为事件的发生比(the oddsof experiencing an event),简记为odds。 对odds取对数得到ln(p1-p)=gx=w0+w1x1+w2x2+w nxn,g(x)即为logistic回归,logistic(P)=ln(p1-p)。4.1.2Logistic静态影响模型的构建:通过查阅资料可知,代谢综合征的主要危险因子有高血压、血脂、糖尿病、肥胖症等,根据NCBI等公开数据库生物分子相互作用等信息,得到某些代谢综合征的致病基因,并根据已有的数据构建logistic静态影响模型。运用spss软件进行数据分析,得到回归方程,由此可以解得各个基因对代谢综合征的影响程度。(一)、高血压致病基因的分析使用spss中的Logistic回归分析法,求得ACE、AGT和NOS3基因对患高血压影响力的大小,即权重的大小,处理结果如下:(1) ACE(2) AGT(3) NOS3(二)糖尿病致病基因的分析使用spss中的Logistic回归分析法,求得PAX4、ABCC8和ZFP57基因对患糖尿病影响力的大小,即权重的大小,处理结果如下:(1) PAX4(2) ABCC8(3) ZFP57(三)肥胖症致病基因分析使用spss中的Logistic回归分析法,求得NPC1和MAF基因对患肥胖症影响力的大小,即权重的大小,处理结果如下:(1) NPC1(2) MAF(四)血脂致病基因的分析使用spss中的Logistic回归分析法,求得APOB基因对患血脂影响力的大小,即权重的大小,处理结果如下:(五)高尿酸血症致病基因:SLC17A1使用spss中的Logistic回归分析法,求得SLC17A1基因对患高尿酸血症影响力的大小,即权重的大小,处理结果如下:我们已经得到了影响各类疾病的9种主要基因,及其对引发病症影响力的大小即权重,我们将数据进行归一化处理,将数据映射到01范围内,使用归一化的公式如下:xi*=xi-xminxmax-xmin处理表格如下:病型高血压糖尿病肥胖症血脂高尿酸血症致病基因ACEAGTNOS3PAX4ABCC8ZFP57NPC1MAFAPOBSLC17A1处理前处理后4.1.3根据人体年龄变化构建量化的动态模型代谢综合症在人群中的发病率随着年龄的变化也在不断地变化,通过对临床检测数据的统计分析,建立了以年龄为变化的动态模型,并且利用spss对已有数据进行非线性拟合。先将数据成图,可以看出分布呈抛物线型,所以假设拟合函数是一个二次多项式函数。数据如下:(一) 糖尿病(二) 高血压(三) 肥胖症(四) 高血脂4.1.4人体生命量化的动态模型将之前建立的logistic静态影响模型与以年龄为变量的动态影响模型结合起来构建最终的人体生命量化模型。生命量化模型如下:Z=i=110j=19aijmijnj其中i代表基因种类,j代表病症。aij=1,基因I是病j的致病基因0,基因I不是病j的致病基因,mij:基因i对病症j的影响力方程,nj:年龄对病症j的影响力方程。4.2问题二4.2.1关键通路的因子分析在问题中要求在临床数据中找出代谢综合征关键通路的影响因素,其实就是在数据中分析出影响代谢综合征主要基因,这时需计算每个因子所占影响权重的比,找到第i个变量与第j个公共因子的相关系数的绝对值。其绝对值越大,相关密切度越高。因此建立因子分析模型。4.2.2因子分析模型将100个人的生物医学数据中每个数据表的第一列因素设为P个变量Xi(i=1,2,p)可以表示为x1x2xp=12p+11121m21222mp1p2pmF1F2Fp+12p称F1,F2,Fp为公共因子,是不可观测变量,他们的系数称为第i个变量与第j个公共因子的相关系数,反映了第i个变量与第j个公共因子的相关重要性绝对值越大相关的密切程度越高。因子载荷矩阵中各列元素的平方和Sj=i=1pij2称为Fj(j=1,2,,m)对所有变量的方差贡献和,用于衡量因子的相对重要性。4.2.3模型求解根据因子分析结果,将各种影响代谢综合症关键通路的因素会进行排序,得到个因素对代谢综合征的贡献率,即权重由,此得到其关键通路。4.3问题三4.3.1Cox回归风险预测模型4.3.2模型建立在人体生物医学方面,单一的基因不能对疾病发病的概率进行描述。如对于一个发病率接近于0的疾病来说即使致病基因为nmax,高危人群的发病率实际上仍然非常小。而对于一个发病率较高的常见病而言,致病基因即使只有nmin,这个危险因素仍然很重要。因此,对于罹患代谢综合征的风险评估需要一种能够反映人群在未来一段时间内发生绝对危险概率的评价方法,所以我们建立Cox回归风险预测模型。4.3.3模型求解一个完整的预测模型的建立需要建模及验证两个步骤,因此,预测模型的建立需要两个队列人群。一个用于建立模型称为来源队列或建模队列,一个用来对建立的模型进行验证为验证队列。常用于建模的统计学模型主要有两种Cox比例风险函数和Weibull回归函数这两种回归都适用于生存分析。不同的是Cox回归是非参数检验对数据的分布情况没有要求,而Weibull回归是参数检验需要数据服从Weibull分布,所以若一个数据符合Weibull分布,那么采用Weibull回归能最大限度地利用数据资源。但是我们在得到的临床检测数据是很难满足Weibull分布的,所以建立Cox回归风险预测模型。方程如下:p=1-s0(t)exp(i=1piXi-i=1piXi)Cox预测模型中各字母代表的含义分别是i为Cox回归模型中第i个危险因Cox预测模型中各字母代表的含义分别是: i为Cox回归模型中第i个危险因素的回归系数, Xi则为个体第i个危险因素的具体值, Xi是队列人群第i个危险因素的均值,而函数s0(t)则为t时点队列人群的生存率。考虑到代谢综合征是慢性病在短期内不会造成个体的死亡根据生存率的定义可得此时生存率为1,即s0t=1。根据第一问中的Logistic模型,基于10人大小的新的人类每个个体的基因组、表观数据组、转录组、蛋白质组的部分测量运算,将得到的数据进行权重比率分析,得到最终方案。五、模型优缺点及评价优点:1、建立了Logistic静态模型之后又建立了以年龄为变量的动态模型,最终形成人体生命量化动态模型实现了从静态到动态的过程。2、Logistic模型对影响代谢综合征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纺织工程师考试整体规划试题及答案
- 设计师在科技进步中的适应能力与创新探索试题及答案
- 纺织品市场调查与反馈方法试题及答案
- 事业单位合同制协议书
- 租赁合同更名协议书
- 拳击合同协议书
- 单独装修合同协议书
- 合同退火协议书
- 邮快合作合同框架协议书
- 承包水渠合同协议书
- T-CEC 153-2018并网型微电网的负荷管理技术导则
- 人工劳务合同协议书
- 古建供货合同范本
- 向人民检察院的控告书范文
- SL+223-2008水利水电建设工程验收规程
- 系统集成方案
- 比亚迪催账制度
- 数学建模与系统仿真智慧树知到期末考试答案章节答案2024年南京理工大学
- 电力建设安全工作规程 第2部分:电力线路
- 导航栏式毕业开题答辩有内容模板
- 初中生涯规划班会课教案
评论
0/150
提交评论