




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因表达数据的聚类分析,基因表达数据主要来自于两个方面: 一是基因芯片,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获取基因转录结果mRNA的数据。 表达系列分析SAGE和差异显示、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。,聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。 从机器学习的角度来看,有两种基本的聚类分析: 有监督聚类 无监督聚类,基因表达数据聚类分析一般包括以下几个步骤: ()确定基因表达的数据 ()计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似 ()选择算法进行聚类分析 ()显示分析结果。,对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。 通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。 在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。,几种常用的聚类方法,1简单聚类 2层次式聚类 3K平均聚类 4自组织映射神经网络 5. 模糊聚类分析方法 6、聚类分析结果的树图表示,1、简单聚类 假设有n个基因 表达数据向量分别为X1, X2, XN 令任意一个基因的表达向量为第一个聚类的中心 依次处理其它基因 在处理第i个基因时,首先计算该基因的表达数据向量与现有各类中心的距离 假设与第j类的距离Dij最小,并且DijT,则将基因i分配到第j类;否则生成一个新类,该类的中心为第i个基因的表达向量。,2、层次式聚类,3、K平均聚类 任意选取K个基因表达向量作为初始聚类中心 Z1, Z2, Zk 反复迭代计算 如果|X-Zj(l)| |X-Zi(l)|(i=1,2,K,ij),则将X所代表的基因归于第j类。按照上述办法处理所有的基因; 经过上述处理,聚类可能发生变化,因此需要重新计算K个新聚类中心: 对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,K),则迭代结束,得到最后的聚类结果;否则继续进行迭代计算。,4、自组织映射神经网络,5、模糊聚类分析方法 主要过程: (1)建立模糊相似矩阵 (2)生成模糊等价矩阵 (3)构建动态聚类图,6、聚类结果显示,分类分析方法 有监督学习 疾病诊断、细胞类型识别 样本分类:(例) 急性淋巴细胞白血病(ALL) 急性髓性白血病(AML),例:两类划分,问题: 基因的选择? 分类的方法? 贝叶斯分类法 支持向量机(SVM) k最近邻法 神经网络方法 决策树方法 投票分类法(多分类器),7、主成分分析PCA,图9.13 主元素对应特征值图示,基因调控网络分析,一个基因网络由一组生物分子(如基因、蛋白质)以及它们之间的相互作用构成,这些生物分子共同完成一些特定的细胞功能任务。 在实际分析过程中,往往以图这种数据结构表示基因网络,图中的节点代表基因或者蛋白质,而节点之间的连线代表基因、蛋白质之间的相互作用。基因网络描述了特定细胞或组织中的功能路径,如代谢、基因调控,信号传导等。,基因表达在化学催化中的作用,代谢路径示例:脯氨酸的生物合成,基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。 一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。 当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞的生化状态不断地变化。,一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了复杂的基因表达调控网络。 基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,构建基因调控网络。,几种基因调控网络模型,1、布尔网络模型,A B C A B C,系统运行轨迹 循环 A B C 1 1 1 0 2 1 1 1 3 0 1 1 4 0 0 1 5 0 0 0 6 0 0 0,前一个状态 后一个状态 ,作用规则 (1) A激活B (2) B激活A和C (3) C抑制A,2、线性组合模型,线性组合模型是一种连续网络模型,在这种模型中,一个基因的表达值是若干个其它基因表达值的加权和。基本表示形式为:,3、加权矩阵模型,加权矩阵模型与线性组合模型相似,在该模型中,一个基因的表达值是其它基因表达值的函数。,4、互信息关联网络,可以用距离或相关系数作为基因表达模式之间的相似性度量,还可以用另外一种度量形式,即用熵和互信息描述基因与基因的关联。 一个基因表达模式的熵是该模式所含信息量的度量。设X是一个基因表达模式,用下式计算熵:,5、基因调控网络实例,真核生物生理过程的调控网络GeneNet GeneNet展示了协调方式下基因的整体功能,良好的调控功能和对外界刺激的反应。该基因网具有以下基本功能: (a) 描述执行特定生物功能时所涉及到的整体基因交互作用 (b) 描述基因的蛋白质编码 (c) 描述基因对外界刺激的传感途径 (d) 通过一组反馈自动地稳定网络参数或者使网络转换到新的功能状态 (e) 利用外部信号、激素和代谢产物作为生理学参数激发基因网纠正其作用,该基因网描述了四类实体: (a) 细胞(组织,器官)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年儿童安全常识题及答案打印
- 草坪园艺技术常见问题解答参考
- 2025年民航安检技术员考试试题及答案解析
- 2025年金融风险管理师职业资格考试题及答案解析
- 2025年初级UT无损检测员面试题库集
- 2025年学校宿舍安全培训题及答案
- 2025年中学生防欺凌试题及答案
- 2025年安全员考试案例分析题库
- 机电电气知识培训课件
- 2025年英语中级口译模拟题集及答案
- 银行大堂经理聘用合同样本
- 精神科冲动行为干预治疗
- 2024年无人机租赁合同
- 个人信息保护专员任命协议(2024年)3篇
- 部编人教版五年级上册语文阅读理解专项试卷及答案
- 中等职业学校英语教学大纲附件五:词汇表
- 《新编剑桥商务英语(初级)》课程教学大纲
- 高职计算机专业《Python程序设计》说课课件
- 宣传片拍摄保密协议(2024版)
- 医疗设备采购招标投标文件格式
- 离婚协议书与离婚协议书
评论
0/150
提交评论