计算药物分析.doc_第1页
计算药物分析.doc_第2页
计算药物分析.doc_第3页
计算药物分析.doc_第4页
计算药物分析.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算药物分析一 模式识别的基本概念1模式 原值供模仿用的完美无缺的样本,也指供模仿用的已知类别的样本。模式与类(集合)的概念相联系,认识了一个类(集合)中有限数量的个体,就可以识别这个类(集合)中的任意多个体。2模式识别(Pattern Recognition)识别出某个样本与哪一类供模仿用的样本相同或相似。即对表征事物或现象的各种形式的信息(数值的,文字的,逻辑关系的)进行处理与分析,以对其进行描述、辨认、分类和解释,是信息科学和人工智能的重要组成部分。是信息处理发展到智能阶段的产物,借助数学的方法和计算机技术揭示事物或现象的隐含性质和内部规律。基本功能是对样本分类或辨别。3模式识别的分类 统计方法(数学方法)模式识别从数学处理手段分 句法结构(语言或结构学方法)模式识别 有监督(有导师学习)的模式识别从学习(训练)手段分 无监督(无导师学习)的模式识别(1)统计方法(数学方法)模式识别:以数学决策理论为基础,建立统计学识别模式,主要是基于对模式的大量统计分析和规律性认识。其大量工作在于如何提取模式的特征,以确定统计参数,即所谓的参数点,也可绕过概率的估计,直接借助于模式本身的数学或集合分布(图形),获得判决标准,进行识别,即肺参数决策法。(2)句法结构(语言或结构学方法)模式识别:该方法基于对模式结构的分析,以形式语言对模式特征进行描述,如对图像,染色体,指纹,脸谱等的描述,因其很艰难用统计学方法进行表征。(3)有监督(有导师学习)的模式识别:利用训练集,通过训练(或学习)来获得识别准则(或判别函数),利用识别准则来判断未知模式的归属。(4)无监督(无导师学习)的模式识别:不依赖训练集,而是直接在特征空间中寻找点群分布特征或其他可用以判别的数据结构。4名词概念训练集(trainging set)指一组已知类别的数据(点集)有监督模式识别中,利用训练集,通过训练(或学习)获得识别准则(或判别准则),再以这些识别准则对未知模式进行归属。检验集(预示集)(testing set/prediction set)指未包括在训练集中的已知类别的样本(点集)通常利用由训练集获得的识别标准对预示集中的模式进行识别,以检验其识别的可靠性。特征:描述样本性质的变量(X i),由特征描述的样本也称为模式。特征失:由描述样本性质的变量构成的矢量称为特征失。特征空间:对于某个模式,加入用n个特征X1, X2,Xn来描述,则可用特征失X=X1, X2,XnT来表示,模式就是这n维空间的矢量或点,称此空间为模式的特征空间。增广特征空间:将矢量X扩充为n+1维向量X=X1, X2,Xn+1T,此时称这n+1维空间为增广特征空间。5模式识别的应用模式识别目前已在社会科学和自然科学的诸多领域,如经济学,天文学,生物学,物理学,生物学,医学,药学,心理学,工程学等得到了广泛应用。在药学领域中,模式识别主要用于归属和预示研究对象的性质,目前,其在药物分离分析,生产工艺优化,药物活性预测,中药材分类,中药质量评价,代谢组学研究等方面应用越来越广,并显示了在复杂数据处理方面的巨大优势。二 线性代数的基本知识1 矩阵与向量模的各排称为矩阵的行,纵的各列称为矩阵的列;ai j称为矩阵A的第i行,第j 列上的“元素”(或简称“元”);A有时简记为A=ai j;当m=n时,A为n 阶矩阵,或称n 阶“方阵”;各元素都为零的矩阵称为零矩阵;n个有次序的数a1,a2,an组成的数组称为n维向量;在n X m 矩阵A中,某行的m和元素组成的m维向量称为“行向量”;某列的n个元素组成的n维向量称为“列向量”;一般行向量横写为:列向量竖写为2 矩阵的加法两个(n X m)矩阵A,B相加,就是将其全部对应元素相加3 矩阵与数的乘法数K与矩阵A的积kA就是用k遍乘A的全部元素,即:4 矩阵的乘法设A是一(n X m)矩阵A=ai k ,N是一(m X p)矩阵B=bk j,它们的乘积是一(n X p)矩阵C,其个元素为:只有当第一个矩阵的列数等于第二个矩阵的行数时,这两个矩阵才能相乘。例子反面自己抄5矩阵计算规律矩阵的加法适合交换律和结合律:A+B=B+A (A+B)+C=A+(B+C)矩阵与数的乘法适合分配率及结合律:k(A+B)=KA + Kb (k+h)A=kA+Ha k(hA)=(kh)A k(AB)=(kA)B=A(kB)矩阵的相乘适合集合率和对加法的分配率:(AB) C=A(BC) ( A+B)C=AC+BC A(B+C)=AB+AC 一般情况下,矩阵的乘法不适合交换律,即一般AB BA但对于单位矩阵有IA=AI=A6 矩阵的转置将矩阵A的行列互换所得的矩阵,称为A的转置矩阵若矩阵A满足AT,这样的矩阵称为对称矩阵7 范数用于衡量矩阵或向量大小的量8 向量的线性相关练习在反面手写三 聚类分析聚类分析源于分类学,过去主要依靠经验和专业知识来实现分类。随着科学和技术的发展,人类的认识不断加深,分类越来越细,要求越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支,聚类分析也称为集群分析、 等。1 聚类分析(Cluster Analysis)是研究“物以类聚”的一种统计方法,是数据挖掘、信息分析中的一个活跃研究领域。聚类分析的目的在于辨别在某些特性上相似的事物,并按这些特性将样本划分成若干类(群)。同一类内的事物具有高度的同质性,而不同类的事物则有高度的异质性。聚类分析可归属为无监督的模式识别方法。聚类分析的一般概念:将样品或变量,按照它们在性质上亲疏远近的程度进行分类。2 聚类分析的分类聚类分析有许多种,如系统聚类法、动态聚类法、图论聚类法、模糊聚类法、有序聚类法等;聚类分析又可分为:Q型聚类分析:对样本进行的聚类分析 R型聚类分析:对变量(指标)进行的聚类分析3聚类统计量描述样本或变量之间的亲疏远近程度,通常有两种途径:(1) 用某种相似系数来描述样品之间的关系,如:相关系数,性质越接近的样本其相似系数越接近于1,而彼此无关的样本则接近于0,将相同或相似的样品归为一类,相似程度不高的样本归属于不同的一类。(2) 用样品间的某种距离来描述它们之间的关系:先将每一个样本(n维特征空间中的点)各自看作一类,并在特征空间定义某种距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数和距离是最常见的两类统计量。不同类型的指标(变量)在定义距离和相似系数时有较大差异,通常将其按照测量时的尺度划分为下列3中类型:(1) 间隔尺度:指标用连续量表示,如重量、流速、长度、压力等;(2) 有序尺度:指标度量时没有明确的数量表示,只有次序关系,如好中差,上中下等。(3) 名义尺度:指标度量时既没有数量表示也没有次序关系,如催化剂的有无,医疗诊断中的“阳性”和“阴性”等。用得较多的是间隔尺度,多数聚类统计量基于其计算。4距离如果把样本看成m维空间中的点,则两个样本间的相似程度可用m维空间中的这两点间的距离来度量。令dij表示样品Xi与Xj的距离。计算任意两样本Xi与Xj之间的距离dij,其值越小表示两样本相似程度越大,其值越大表示两个样本间相似程度越小。常用的距离有:绝对值距离 欧氏距离切比雪夫距离明考斯基距离明式距离,特别是其中的欧式距离是人民较为熟悉,使用最多的距离,但明式距离也存在明显的不足,主要表现在两个方面:第一,与各指标的量纲有关;第二,没有考虑指标之间的相关性。5 数据变换消除量纲的影响中心化交换:对数交换:标准差标准化:正规化交换:6相似系数样本间的相似程度,除了用距离表示外,还可用相似系数表征,常用的相似系数有:夹角余弦:受相似形启发而来,下图中AB和CD尽管长度不同,但形状相似。当长度不是主要矛盾时,要定义一中统计量,能够表征AB和CD之间比较相似的关系,则夹角余弦可满足这个要求。相关系数:实际上是数据标准化后的夹角余弦,相关系数一般记为rij :7 系统聚类法(Hierachical clustering)基本思想:先将n个样本各自看成一类,然后规定样本之间的距离和类与类之间的距离,开始各样本自成一类,这时类之间的距离与样本之间的距离相同,然后选择距离最小的两类合并成新类,并计算该新类与其他类之间的距离,接着再将距离最近的两类合并,重复此过程,直至所有的样本都聚成一类为止。正如样本之间的而距离可以有不同的定义方法一样,类与类之间的距离也有多种的定义方法,不同的定义方法就产生了不同的系统聚类方法;如最短距离法、最长距离法、中间距离法、重心类、平均法、利差平方和法、可变类平均法、可交法等;系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法。8最短距离法定义两类所有样本间距离中的最短距离为该两类之间距离的聚类分析方法。用dij表示样本i和样本j的距离,以G1,G2,表示类;用Dpq表示Gp和Gq的距离;最短距离法聚类步骤:1、 规定样本之间的距离,计算两两样本之间距离的对称阵,这种阵称为距离矩阵,开始每个样本自成一类,这时显然Dpq=dpq,其距离矩阵记作D(0) ;2、 选择D(0)中非对角最小元素,设为Dpq,将Gp和Gq合并成一新类,记为Gr,Gr=Gp,Gq;3、 计算新类和其他类(假定为K类)的距离,从中将距离最短的合并,得到新矩阵D(1);4、 对D(1)重复步骤3,得D(2),如此下去直到所有类合并为一类,如果某一步D(m)中最小元素不止一个,则这些最小元素对应的类可同时合并。四 主成分分析(principle component analysis PCA)传统的多元统计分析技术,percon于1901年首次引入主成分分析的概念,hotelling在30年代对主成分分析进行了发展。计算机出现之前,其应用较少,随着计算机技术的发展与普及,主成分分析得以广泛应用,目前大多数商品化多元统计分析软件中,几乎都用到。1 PCA:通过数学交换处理,从原始测量数据中抽提出能够反映其内在数据结构和规律的新的综合变量,用以简化数据复杂性,描述样本,建立简化数学模型,以便对原始数据的进一步分析。2 PC:用较少的非观测变量表达原多个观测变量所包含的大部分信息,这些非观测变量没有明确的物理意义且互不相关。亦称综合变量,新因子,新变量,潜变量。3 例1:在变量X1和X2确定的(空间)平面上,20个样本的分散情况如下:20个样本点无论沿着X1轴方向或X2轴方向都具有较大的离散性;其离散程度可以有方差变量表示: 如果只考虑X1或X2中的一个,那么包括在数据中的信息就会有较大的损失;如果将X1和X2轴按逆时针旋转44,可得到新的坐标轴F1,F2,他们代表两个新的变量。根据坐标转换公式:由于sin44=0.07和cos44=0.72,则有下列关系:对于变量F1 F2,虽然不是可直接观测变量,但可根据前述坐标交换公式计算得到,称F1,F2为原始变量X1,X2的新变量,F1,F2的方差分别为:上述计算结果表明20个样本点的波动大部分可以归结为F1轴上的波动,而F2轴上的波动是较小的,换句话说,变量F1代表了原数据集中的绝大部分信息,即使不考虑变量F2,也无损大局。在某些情况下,F2的变动范围也许会小于测量误差,或者不超过允许误差,这时它就失去存在的意义了其中e1,e2可以分别看成变量X1,X2用F1表示时的误差项或剩余相,这样两个变量X1,X2就被一个新变量F1近似的取代,由于F2的方差较小,取代后的信息的损失也是很小的。 非观测变量F1即被称为主成分或者主因子。4 主成分分析的一般数学模型假定有N个样本,每个样本测得n个变量的值,以X ij 表示第j个样本的第i个变量(i=1,2,n;j=1,2,N)数据矩阵可表示为:为消除变量之间的量纲(数量级)上不同可能带来的影响,先将原始测量数据进行标准差标准化变换:其中 和 分别为第i个变量的平均值和标准差,标准差标准化变换后各变量的均值为0,方差为1.变换后的数据矩阵可表示为:假定n个标准化后的变量Z1,Z2,Zn可以由m(m小于n)个新的标准化变量F1,F2,Fm(主成分或者主因子)线性表示如下:a ij (i=1,2,n;j=1,2,m)称为因子载荷,是变量Zi在因子Fi前面的系数,它有两个下标,前者指变量序号,后者指因子序号。线性方程组(1)成主成分分析的一般数学模型。主成分分析假定因子F1,F2,Fm,具有下列性质:1 第一个因子F1是原始变量所有可能的线性组合中方差最大者,第二个为次大者,以此类推。2 各因子间互不相关由此可以推得下列具有统计学意义的性质:(1) 因子载荷a ij 表示了变量与因子之间的相关性。(2) 任一行所有因子载荷的平方和=1,即 (3)任一列因子载荷的平方和是同一因子Fj对于不同的变量Z1,Z2,Zn所提供的方差总和,称为Fj 的方差贡献,将n行所有因子载荷的平方和相加:这意味着,m个因子F1,F2,Fm的方差总和贡献恰好等于n个变量Z1,Z2,Zn的总方差n,这时m个因子包含了n个变量的全部信息。(4) 假定在主成分分析的一般数学模型中,m个因子是按照他们的方差贡献由大到小排列(这个假定并不失一般性,如果不是这样,只要把他们重新排列即可)。任一行因子载荷的平方和:表示k个因子对同一变量Zi所提供的总方差,称为公因子方差,在变量Zi中,除这部分方差,剩余方差由剩余项ei提供。Hi2的大小反应了用k个因子表达变量Zi的近似程度,为使k个因子足够精确的表达n个变量,每一个hi2都不应过小,应接近1.一般真正有意义的只是前面k个方差贡献较大的因子,这时主成分分析的数学模型可写成:其中,e1,e2,en 是变量Z1,Z2,Zn用因子F1,F2,Fk表达时的误差项或者剩余相。5 特征提取:描述样本的特征(变量),可以使计算出来的(当样本是波形或者数字图像等时),也可以使测量出来的(当样本是实物或者某种过程等时),这样得到的特征(变量)称为原始特征。原始特征的数量可能很大,即样本处于一个高维空间中,表达映射或变换等(降维)方法可以将其变换至低维空间中表达,这个过程成为特征提取。降维后的特征称为二次特征,它是原始特征的某种组合。特征提取(变量)与特征提取(潜变量)的相同点:都包含了较多信息的较少变量不同点:特征提取(变量)是可观测变量(原始特征),物理意义不变。特征提取(潜变量)是非观测变量,是对变量的综合,变换,无明确的物理意义。五 SIMCA法六 映射技术1 映射(mapping):是将高维空间中的点集在最优的意义下变换成为低维空间中点集的一种数学方法,即将较多数变量(高维)变换为少数几个变量(低维),而这些较少的新变量能够最大限度地表征原多个变量的信息。2非线性映射(nonlinear mapping,NLM)将高维空间中的点集映射到低维空间中,且在映射后仍然保持者原数据的固有结构。所谓结构,是指高维空间中数据向量子集合之间的几何关系,即低维空间中各样本点间距离与高维空间中相应的点间距离相近。3 赛孟(sammon)非线性映射技术设有样本集(供有N个样本,每个样本由n个变量描述),则在n维空间中:在d维空间(d=2或3)中定义映射误差函数B:E反应了映射前后数据结构的变化程度,即d维空间中N个点构形相对于原n维空间中N个点构形之拟合程度。显然,为保证实现最优意义下的变换,应使误差函数E最小。使E最小化的方法:最速下降法,共轭梯度法和逐点松弛法等4 逐点松弛法:5 非线性映射法的特点:(1) 无监督的模式识别方法(2) 映射得到的二维或三维三点分布图更适合于直观分析(3) 如何分类并无先验信息,完全依赖与对数据结构的分析(4) 对于未知样本的归属,需将其加入原N个样本中,构成新的数据集,重新计算。七 人工神经网络1 人工神经网络(Artificial Neural Networks,ANN):一种模仿生物神经系统(BNN)信息处理方式的技术。研究表明,人脑中存在着由巨量神经细胞(10111012)结合而成的神经网络,它构成了大脑信息处理的物质基础。生物神经系统信息处理的特点:高度并行性;信息的处理和存储合二为一 并行处理:多进程同时处理(以空间复杂性降低时间复杂性) 串行处理:单进程顺序处理随着解剖生理学和神经生理学的发展,科学家们从BNN信息处理的特征中得到启发,构建了各种ANN模型来模拟BNN的部分功能。1943年,法国心理学家McCulloch和数学家Pitts建立了著名的阈值加权和模型,即M-P模型,开创了人工神经网络研究的先河;1949年,心理学家Hebb提出了神经元之间突触联系是可变的假说,给出了人工神经网络的学习方式,称为Hebb型学习;1957年,Rosenblatt提出并构建了感知机模型;1969年,Minsky和Papert出版了Perceptrons一书;1982年,美国生物物理学家Hopfiled提出并构建了循环网络,建立了ANN稳定性的判别依据,取得了突破性的进展;1986年,Rumelhart等提出了多层网络误差修正算法-BP算法,对ANN的研究与应用起到了重大的推动作用。由此,人工神经网络技术在理论和实践中不断有新的发展,在自然科学和社会科学的诸多领域都得到了实际应用,受到普遍关注。2 M-P模型:一个简单的人工神经网络模型:3神经元模型的数学描述记net为某一神经元的净输入,则有:为方便起见,常常将并入W中,即令wn-1=-,在X中相应的加入一常值分量xn+1=1,这是则有:净输入net经过传递函数f(net)(作用函数)作用后可产生神经元的输出相应,即:传递函数:是神经元的输入与输出相应之间的函数关系某作用是将可能的无限域变换到一指定的有限范围内输出,这类似于生物神经元具有的非线性传递特性,故其一般为非线性函数。常用的传递函数类型:(1) 线性型: (2)阶跃型 (3)S型函数 4神经网络的拓扑结构根据连接方式的不同,神经网络可分为以下几种类型:(1) 不含反馈的前向网络 (2)从输出层到输入层有反馈的前向网络 (3) 层内有相互连接的前向网络 (4)相互连接型网络5神经网络的学习能力ANN的重要特点是其学习能力,学习过程就是对它的训练过程。所谓训练,就是将训练集数据输入到网络中,然后按照一定的方式调整神经元之间的连接权,使网络给出期望的输出。权值的动态修改是学习的基本过程,训练好的网络重要信息贮存于调整过的权值之中。6神经网络的学习类型有导师学习:需要训练集数据,包括输入数据和期望输出,即用一组输入数据与相应的目标输出构成一个“训练对”,对网络进行训练;无导师学习:训练集数据没有目标输出,即网络须根据一定的判断标准自行调整权值,不依靠外部影响调整权值,网络在输入信号中寻找规律或趋势进行自我适应调节。八 感知机网络1 感知机(perceptron):是最早被设计并实现的人工神经网络;典型的感知机是一由两层神经元构成的网络模型;通过有导师的学习训练后对未知模式进行分类。训练采用已知样本集进行,将这些样本重复送入输入层,通过调整连接权值使感知机的实际输出达到期望输出。实际输出bj与期望输出bjk之间的误差为:连接权调整:2 感知机算法1、 给定初始值(即t=0):赋于wij(0)在-1,1区间内的随机值;2、 输入训练集中一样本对Ak、Bk ,如果样本A属于G1 ,则b=1,如果A属于G2 ,则b=-1;3、 计算网络实际输出:4、 连接权值的修正:5、 重复步骤2-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论