基于新药药效的预测模型.doc

上传人：a*** IP属地：河南上传时间：2020-01-27 格式：DOC 页数：24 大小：875.50KB 积分：20 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数学建模竞赛承诺书我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们参赛选择的题号是（从A/B中选择一项填写）：我们的队号为：参赛队员：1. 2. 3. 指导教师或指导教师组负责人：数模组日期： 2009 年 8 月 14 日评阅编号（由评阅老师评阅前进行编号）：22数学建模竞赛编号专用页评阅编号：评阅记录：评阅人评分备注基于新药药效的预测模型摘要本文主要讨论了新药临床实验的数据分析问题，根据公司在新药上的实验数据表，建立了统计回归模型和神经网络模型，并对题目给出的四个人服了这种药剂后疼痛减轻时间进行了预测。我们建立了统计回归模型，在回归方程的确定过程中，从多元的线性回归模型推导至可化为线性的非线性回归模型，然后运用EView5.0分别对两个线性回归方程进行了检验，模型在置信概率为95%的条件下通过检验，并画出相应模型的的残差图，以便于模型的最优化选择。同时我们还构造两个可线性化非线性模型，用matlab7.0对这两个回归方程进行了检验，同样在置信概率为95%的条件下通过检验。然后进行逐步回归分析，计算出各项的系数。最后通过分析及剔除变量法，并运用Excel2003对可化为线性的非线性回归方程的显著性检验，结合两个线性回归方程，最终得到一个比较合理的非线性回归模型。运用该模型得到的预测结果分别为11.3631，15.6312，28.3152，39.9367分钟。 BP神经网络模型通过建立BP神经网络，让其依照试验结果记录中疼痛减轻时间，用药剂量，性别与血压的数据进行自我训练，得到一个误差小的关系式，最后利用这个关系式来对另外四个人服用止痛药后疼痛减轻时间进行预测。并得到以下结果：四个服用止痛药的人疼痛明显减轻的时间为11.2875，16.1335，29.3262，41.0284分钟。最后，我们对上述模型进行分析评价，提出了一些可能的改进方向。关键字：统计回归线性方程非线性方程神经网络残差检验一、问题的重述与分析1.1 问题的重述1、某公司研制了一种止痛的新药，通过临床试验来确定它的疗效。在临床试验过程中，用4种剂量来试验，剂量分别是2g，5g，7g，10g，分别记录每个病人用药后病痛明显减轻所需的时间（以分钟计）。为了了解新药的疗效与病人性别和血压之间的关系，试验过程中研究人员把病人按性别及血压的高（0.8）、中（0.55）、低（0.3）三档来进行测试。试验结束后，公司的记录结果见附件（性别1表示女，0表示男）。附件中给出了相关的数据，需要建立合适的数学模型来分析病痛减轻的时间与用药剂量、性别和血压的关系。2、通过问题一对病痛减轻的时间与用药剂量、性别和血压的关系的分析，进一步对于下面不同人服药的数据，预测出病痛明显减轻的时间。用药剂量（g）性别血压1010.8700.4400.25310.61.2 问题的分析问题一：为了了解新药的疗效与用药剂量、病人性别和血压之间的关系，我们用病痛减轻的时间长短来评估药效，即我们可以这样认为：疼痛减轻时间长则表示药效相对不好，而疼痛减轻时间短则表示药效相对较好。而病痛减轻时间与用药剂量、病人性别和血压的关系是无法事先确定的，需要通过对样本数据的拟合，建立回归模型后加以分析。问题二：为了预测出不同性别，有不同血压的病人用不同剂量的止痛药，病痛明显减轻的时间的多少，需要研究病痛减轻的时间与用药剂量、性别和血压的关系。借助于MATLAB软件，构建一个输入用药剂量，性别与血压组别，输出疼痛减轻时间的神经网络可以达到目的。二、模型的基本假设假设1：疼痛减轻的时间长短可以代表用药效果。即疼痛减轻时间长则表示药效相对不好，而疼痛减轻时间短则表示药效相对较好。假设2：疼痛减轻时间只与题目所给的用药剂量、性别、血压有关，其他外在条件对其不存在影响。假设3：假设男性以0来计算，女性以1来计算，以便于问题研究。三、符号说明学习周期动量系数第个样本预测值与真实值间的误差，总误差期望值BP神经网络权值、正整数神经元的等效误差疼痛减轻的时间用药剂量性别血压用药剂量数据的124矩阵性别数据的124矩阵血压数据的124矩阵疼痛减轻时间数据的124矩阵所有输入数据的324矩阵所有用于预测的输入数据的34矩阵预测结果回归系数，显著水平四、模型的建立与求解4.1 模型一：统计回归模型我们记药效减轻的时间为，病人的用药剂量记为，性别记为，血压记为。基于以上分析并结合题目给出的24组数据，我们建立预测模型统计回归模型。4.1.1 （建立多元线性回归模型）（1）建立包含用药剂量、性别、血压的三元线性回归模型：我们运用EView5.0软件进行求解：在命令窗口依次键入以下命令即可：CREATE U 24DATA Y X1 X2 X3输入数据后键入命令：LS Y C X1 X2 X3即得如下结果（图表一）：图表一新药药效的估计结果因此病痛减轻的时间与用药剂量、性别和血压的关系函数为： t=(8.4807) (-7.6460) (1.7960) (-0.1940) （模型1）模型的求解结果表明，用药剂量对疼痛减轻时间的边际效益为（-4.1373），由于性别只存在0和1的取值，所以男性和女性的不同对因变量的影响值为5.6667，血压对疼痛减轻时间的边际效益为（-1.5000）。，说明模型的拟合度不错。模型1的显著性检验：1、 F检验：对于多元线性回归模型：假设：若假设成立，则意味着：表明的变化主要由模型之外的变量来决定，模型的线性关系不显著，所设定的模型没有意义。在原假设成立的情况下，可以证明：所以，对于给定的显著水平，可由F分布表查得临界值，如果根据样本数据计算得出：则拒绝原假设，即回归系数中至少有一个显著地不为0；此时可以认为模型的线性关系式显著的。反之，则接受，认为模型的线性关系不显著。结合该模型数据（图表一），在置信概率为95%的条件下，由F分布表查得临界值，而实际模型中的F=20.575，即说明F检验也是高度显著的，说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。2、解释变量的显著性检验（t检验）：如果模型通过了F检验，则表明模型中所有解释变量的“总影响是显著的，但这并不同时意味着模型中的每一个解释变量对y都有重要的影响，或者说并不是每个解释变量的单独影响都是显著的。因此，有必要对模型中每个解释变量（影响）的显著性进行检验，检验过程仍然采用假设检验方法。对于多元线性回归模型：假设：即假设对y没有显著影响。对于t统计量我们有：因此，对于给定的显著水平，可以由t分布表查得临界，若，则表明原假设是一个错误假设，应该拒绝，即认为系数显著的不等于0，对y有显著的影响：反之，则认为影响不显著，应该考虑从模型中剔除而重新建立模型。结合该模型数据（图表一），在置信概率95%的条件下，由t分布表查得临界值，而实际模型中解释变量的t统计值都要小于，所以不能通过检验。因此，需要对以上三元线性回归模型做适当的调整，按照统计检验程序，一般应先剔除统计量最小的变量（即血压变量）而重新建立模型。（2）建立剔除血压变量的二元线性回归模型：我们运用EView5.0软件进行求解：在命令窗口依次键入以下命令即可：CREATE U 24DATA Y X1 X2 输入数据后键入命令：LS Y C X1 X2即得如下结果(图表二) 图表二剔除时间变量后的估计结果因此病痛减轻的时间与用药剂量和性别的关系函数为： t=(12.558) (-7.827) (1.839) （模型2）模型的求解结果表明，用药剂量的对疼痛减轻时间的边际效益为（-4.1373），由于性别只存在0和1的取值，所以男性和女性的不同对因变量的影响值为5.6667，表明在这种情况下性别对疼痛时间的影响较为明显。模型2的显著性检验：1、 F检验：用模型显著性检验的方法，结合图表二的数据，我们可以得到这样的结论：在置信概率为95%的条件下，由F分布表查得临界值，而实际模型中的F=32.325，即说明F检验也是高度显著的，说明用药剂量和性别对疼痛减轻时间的总影响是显著的。2、解释变量的显著性检验（t检验）：用模型显著性检验的方法，结合图表二的数据，我们可以得到这样的结论：在置信概率90%的条件下，由t分布表查得临界值，而实际模型中解释变量的t统计值都要大于，所以能通过检验。模型2的拟合度相较模型1并没有多大变化，F检验也是高度显著的。这里，解释变量、常数项的t检验值都相对比较大，都可以在置信概率90%以上通过检验，因此模型2较模型1更为合理。4.1.2 (建立多元非线性回归模型)模型的准备：由附件中给出的数据，我们可以看出，同列相同值但是对应的疼痛时间值是不同的，这说明疼痛时间y的确定与用药剂量、性别和血压这三个因变量有关的。于是我们用matlab7.0软件来分析Y与这三个变量之间的关系，分别求出不同的变量对应的合适值，以用药剂量与病痛减轻时间的关系为例（程序见附录一），用药剂量为时，病痛减轻的时间为。然后我们通过MATLAB7.0软件分别画出对应图像（图表三）：图表三疼痛减轻时间分别与三个变量之间的关系图其中红色曲线代表与用药剂量之间的关系，绿色曲线代表与性别之间的关系，蓝色曲线代表与血压之间的关系。从上面的图，我们发现：因变量y与三个自变量、之间存在着复杂的非线性关系，于是对模型1中的线性回归模型进行修改，并逐步加以分析。（三）建立可线性化的三元非线性回归模型：我们估计疼痛减轻时间y与之间是一个非常复杂的关系，这是一个多元的关系，于是我们建立了如下多元非线性统计模型：这是一个可线性化模型。令即得：又令我们用MATLAB7.0软件进行统计量的检验（程序见附录2），运行结果如下(图表四)：图表四统计量的检验结果这个检验结果显示，指因变量（病痛减轻时间）的92.12%可由模型确定，在置信概率95%的条件下，由F分布表查得临界值，而本模型的超过临界值，并且小于0.05，可以通过显著性检验。根据检验与F检验的关系，即（1）其中n为样本数据量，k为模型中的自变量。用F的临界值代入该方程即可求出在较高拟合度下的最小值。结合本模型求解结果可得：而本模型中0.8223,即说明该模型的线性显著性的概率达到了95%（）。然后我们再次运用MATLAB7.0软件进行了逐步分析（程序代码见附录3），运行后得到系数矩阵：于是我们得到疼痛减轻时间和用药剂量、性别、血压的关系函数为： t= (1.1640) (-0.3038) (-1,5868) (0.0870) (0.2722) (0.9025) (7-4752) （模型3）因此这个模型从整体来看是可用的，回归系数的符号和数值是较为合理的。，说明模型有很高的拟合优度，F检验也是显著的，说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。但是部分解释变量不能通过t检验，故应舍弃该模型。（四）建立改进的可线性化的三元非线性回归模型：继续分析题中情况，根据常识，用药剂量在一定范围内应该是跟疼痛时间成反比，因为用药剂量多一些，治疗效果也会快一些。另外血压高的话，疼痛时间应该越大。于是我们建立如下三元非线性回归模型：这也是一个可线性化模型。令即得：我们用MATLAB7.0软件进行统计量的检验（程序见附录4），运行结果如下(图表五)：图表五改进模型的统计量结果这个检验结果显示，指因变量（病痛减轻时间）的94.32%可由模型确定，查F分布表表得临界值，而本模型的超过临界值，小于0.05。由方程（1）可以求出在较高拟合度下的最小小于94.32%。在置信概率95%的条件下，可以通过显著性检验。我们运用MATLAB7.0软件进行了逐步分析（程序代码见附录5），运行后得到相应的系数矩阵如下：于是我们得到疼痛减轻时间和用药剂量、性别、血压的关系函数为： t=(11.468) (-4.393) (4.650) （4.908）（-5.53623）（2.793）（-0.844）（模型4）从求解结果可以看出，模型的回归系数的符号和数值是较为合理的。，说明模型有很高的拟合优度，F检验也是显著的，说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。然而解释变量的t统计值为（-0.844），不能通过检验，因此需要对以上模型做适当的调整，按照统计检验程序，一般先剔除t统计量最小的变量（即）而重新建立模型。（五）建立剔除变量后的可线性化的三元非线性回归模型：我们用Excel软件进行求解，求解结果如下图表六所示：图表六剔除变量后的估计结果于是我们得到疼痛减轻时间和用药剂量、性别、血压的关系函数为： t=(11.563) (-4.354) （4.687） (4.895) (-5.601) (3.894) （模型5）用模型显著性检验的方法，结合图表六的数据，我们可以得到这样的结论：在置信概率90%的条件下，由t分布表查得临界值，而实际模型中解释变量的t统计值都要大于，所以能通过检验。从上述求解过程中看出：回归系数的符号和数值也是合理的。模型5的拟合优度较模型4并无多大变化，F检验也是高度显著的。这里，解释变量、常数项的检验值都比较大，显著性概率都小于0.05，因此模型5较模型4更为合理。4.1.3 （回归模型的比较分析）由于在用回归模型拟合样本数据时，通过比较模型的优劣，选择相对较好的回归模型，我们在估计中必须检验一下内容以便选出最佳模型：回归系数的符号及数值是否合理；模型的更改是否提高了拟合优度；模型中各个解释变量是否显著；残差分布情况而以上比较模型的、步在模型分析中已有阐述，现分析上述中4个不同模型的残差分布情况：运用EViews5.0软件可以得到各个模型的残差分析图：图表七模型1的残差分布图模型1的各期残差中大多数都落在的虚线框内，且残差分别不存在明显的规律性。但是，由对模型显著性分析中的可知，模型1中除了解释变量之外，其余变量均为通过变量显著性检验，并且模型的拟合度也是相对不是很好，因此，该模型也应舍弃。图表九模型3的残差分布图这个模型从整体来看是可用的，回归系数的符号和数值是较为合理的。，说明模型有很高的拟合优度，F检验也是显著的，说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。但是部分解释变量不能通过t检验，故应舍弃该模型。图表十模型4的残差分布图该模型的各期残差中大多数都落在的虚线框内，且残差分别不存在明显的规律性。而且从求解结果可以看出，模型的回归系数的符号和数值是较为合理的。，说明模型有很高的拟合优度，F检验也是显著的，说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。然而解释变量的t统计值为（-0.844），不能通过检验，从而应该舍弃该模型。图表八模型2的残差分布图图表十一模型五的残差分布图对于模型二和模型五的各期残差中大多数都落在的虚线框内，且残差分别不存在明显的规律性。而且从求解结果可以看出，模型的回归系数的符号和数值是较为合理的。两个模型都具有较合理的现实意义，并且都通过了F检验和t检验，说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的，并且对样本数据的拟合度也不错，理论上讲都可以描述疼痛减轻时间与用药剂量、性别、血压的关系。但是通过图表八和图表十一的比较，明显可以看出模型五的拟合度要高于模型二，所以我们选择模型五来描述疼痛减轻时间与用药剂量、性别、血压的关系较为合理。运用模型五得到的回归曲线，可以得到问题二中相应的结果：用药剂量（g）性别血压疼痛减轻时间（分钟）1010.811.3631700.415.6312400.2528.3152310.639.93674.2 模型二：BP神经网络模型4.2.1 BP算法图解：用药剂量疼痛减轻的时间人工神经网络性别血压组别输出项保存多个药效数据图表十二 BP算法图解4.2.2 改进BP神经网络算法原理改进的BP算法，应用带动量的批处理梯度下降的思想，即每一个输入样本对网络并不立即产生作用，而是等到全部输入样本到齐，将全部误差求和累加，再集中修改权值一次，即根据总误差修正权值，以提高收敛速度，在调整权值时加入动量项，降低网络对于误差曲面局部细节的敏感性，有效抑制网络限于局部极小，此时，为动量系数，加入的动量项相当于阻尼项，以减少学习过程的振荡趋势，从而改善收敛性。下面为其算法：（1）初始化权值和阈值；（2）给定输入和目标输出；（3）计算实际输出：（4）修正权值，比传统的算法增加了动量项，加权调节公式为：若为输出节点，则若为隐节点，则（5）若达到误差精度或循环次数要求，则输出结果，否则返回到（2）。用MATLAB7.0软件的神经网络工具箱进行设计与分析求解:(1)网络构建和初始化在MATLAB中改进的BP 算法进行测试、仿真，第一步是建立网络对象。函数建立一个可训练的前馈网络，这需

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于新药药效的预测模型.doc

文档简介

温馨提示

最新文档

评论

基于新药药效的预测模型.doc

文档简介

温馨提示

最新文档

评论

相关文档