




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 利用“融合 取肿瘤信息基因 云南大学 摘要: 本文 基于 2010 年 9 月全国研究生数学建模竞赛 A 题附带的 关于“ 22 个正常人和 40 个结肠癌患者在 2000 个基因片段上的基因表达数据 ” , 紧扣“肿瘤信息基因提取”这一主题,提出了一种“融合 , 从数目庞大的基因中 提炼出 3 个最显著的“信息基因 ”用于肿瘤的识别,并从统计假设检验和对真实样本数据的样本类别判定的角度, 证明了 该方法的有效性和科学性。 具体说来, 该方法 从三个角度切入问题,逐层筛选 ,目标直指“搜索 在正常人和 结肠癌 患者中表达水平差异较大的信息基因 ” 。 首先, 从基因与样本类别的相关性角度出发, 采用单因子多变量方差分析法 进行基因的重要性分析,剔除了那些对样本类别的决定没有贡献的基因。 其次, 从相似性角度出发,首次引入模糊数学中的算术平均贴近度,来衡量某个基因在正常人和 结肠癌 患者中 表达水平的接近程度,在上一步的基础上剔除了接近程度很高的基因。 值得注意的是, 在这一部分的方法细节上, 一方面创造性地构造出适合于本文研究问题的隶属度函数,并论证了该函数的合理性;另一方面通过“训练集轮换”的模拟研究方法证明了用算术平均贴近度提取重要基因的稳定性,即 从经验上证明了该方法对 于样本的替换并不敏感。再次, 从因果关系的角度出发, 又在上一步的基础上采用 归分类模型提炼出与肿瘤识别有关的最显著的“信息基因”。鉴于该方法具有综合性和多样性,并层层推进,本文命名这一提取“信息基因”的过程为“融合 最后,本文采用 归方程分类预测 法 和 性 判别准则来评价所提取的 3 个“信息基因”对于肿瘤的识别效果,两种方法均具有较高的正确识别率且识别结果大致相同,一方面说明所提取的 3 个“信息基因”对于不同性质的样本分类方法具有相当的稳定性和普适性;另一方面 ,两种方法在进行样本分类时两相校正,所得结论也较为可靠。 关键字: 肿瘤信息基因提取 融合 单因子多变量方法差分析 算术平均贴近度归 性 判别准则 2 目 录 1. 问题的提出 . 1 究背景 .究现状 .文的研究思路 . 数据描述 . 3 据来源 .据整理 .模数据的说明 . 模型的假设 . 5 4. 基因的重要性分析模型 . 5 量重要性分析的一般方法 .因的重要性分析模型 .因的重要性分析结果 . 算术平均贴近度筛选模型 . 6 算术平均贴近度简介 . 模糊子集与隶属度函数 . 算术平均贴近度 .文自定义的隶属度函数 . 基因特性的分类 . 自定义的隶属度函数 .术平均贴近度的计算 .用算术平均贴近度计算值剔除无关基因 . 归分类模型 . 13 归模型的建立 . 归模型的估计及检验 . 归模型提练的“信息基因”的重要程度分析 .归模型的分类效果 . “信息基因”的平均差异性的假设检验 . 17 8. 别准则的识别效果 . 19 别准则分类效果 . “ 融合 的评价 . 21 融合 优点 .融合 缺点 .考文献 . 22 附录 . 23 附录一 序 .第 1 页 1. 问题的提出 究背景 随着大规模基因表达谱技术 (譬如 的发展,人体一些 组织 的 基因表达 的正常 范围 已经 被获悉 , 这就使得 与之相应的 某些 疾病 ( 主要是 肿瘤 ) 的 基因表达分布图 有了参考的 依据 。如果 可以 利用基因表达分布图 准确地 进行 肿瘤 的识别, 将 对诊断和治疗 肿瘤 都具有深远意义。 由于 每一种肿瘤都有其基因的特征表达谱, 从 出决定样本类别 (即属于正常人还是 结肠癌 患者) 的一组基因 “ 标签 ” ,可称为 “ 信息基因 ” ( 是正 确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也 能 为 抗癌药物的研制提供 捷径。 通常 情况下, 在基因表达谱中 ,一些基因的表达水平在所有样本中都非常接近。例如,不少基因在急性白血病亚型( 个类别中的分布无论其均值还是方差均无明显差别 ,可以认为这些基因与样本类别无关 ,没有对样本类型的判别提供有用信息 ,反而增加 “ 信息基因 ” 搜索的 难度 。因此 ,要挑选一组能决定样本来别的“信息基因”,首先 必须对 “无关基因”进行剔除 , 进而 缩小搜索 肿瘤 基因 的 范围。 究现状 1999 年 表了 噪比” (to 标作为衡量基因对样本分类贡献大小的量度 ,采用加权投票 法 进行亚型的识别 ,仅根据 72个样本就从 7 129个基因中选出了 50 个可能与 肿瘤 亚型分类相关的信息基因。 工作大大缩小了决定急性白血病亚型差异的基因范围,给出了亚型识别的基因依据,富有创造性。 但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结 果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息。 之 后 , 提出了递归基因消减 ( 算法 , 采用 支持向量机 分类器 再从中选出了 8个可能的信息基因。 而 以遗传算法( 支持向量机结合的混合模型对经典的白血病和大肠癌数据进行了分类处理,筛选特征基因集。 事实上,可以将现有的文献中所提到的 基因芯片数据分析方法 分为 三大类:差异基因表达分析 法 、聚类分析 法以及 判别分析 法 。不同的方法各有 其 优缺点,如差异基因表 第 2 页 达分析中的倍数分析法,其优点是需要的芯片少,节约研究成本,但是结论过于简单,而且对于变化小的基因的可靠性就值得怀疑;聚类分析中如 合于大规模的数据计算,但它对初始凝聚点比较敏感。 文的研究思路 显然,以上论述成为了本文研究的动机。接下来, 本文欲 主要 从以下 三个 角度对肿瘤信息基因的提取方法进行研究 ,以期能改善前人研究结果的同时,给出一些类似问题的研究方法。 1、 如何选取恰当的标准和方法剔除“无关基因”? 据前所述,信噪比 或者某些文献中提到的基 因 非 绝对 标准 ,且其优缺点无从评价。本文将在文章的第 4部分针对这一问题给出研究方法,该研究方法的本质是:基于带有样本类别的基因表达数据进 行 单因子多变量方差分析,给出各个变量的 重要性排序, 从而 排除 “ 无关基因 ” 。 2、 如何选取恰当的标准和方法从可能与肿瘤类别相关的基因中提取决定样本类别的“信息基因”? 本文 将 在文章 第 5部分 和第 6部分给出 提取“信息基因”的过程 。 该过程 采用 逐步筛选的思路, 第 5部分从相似性角度出发,首 次将模糊 数学中两个模糊集的贴近度计算方法应用到基因表达数据中, 并将算术平均贴近度 作为进一步剔除 那些可能由于基因之间的相关性而被掩盖的无关基因的标准 ;第 6部分则从因果关系的角度出发,在第 6部分 处理的基础上,采用 终的 “信息基因” 。 在后续的第 7部分和第 8部分中将对所提取的“信息基因” 进行两个方面的检验:所提取的“信息基因”的表达水平是否真的在正常人和 结肠癌 患者中有显著差别?采用的方法为单因子多变量方差分析法。所提取的“信息基因”的识别肿瘤患者的效果如何? 本文 结合 出利用所提取到 的“信息基因”进行肿瘤识别的 误判率,来评价本文所提出的方法的合理性、可靠性以及有效性。 本文 的 研究思路可由下面的流程图来概括: 第 3 页 2. 数据描述 据 来源 本 文数据来自于 2010 年全国研究生数学建模竞赛 A 题附带的数据。 该数据文件提供了 22 个正常人和 40 个结肠癌患者在 2000 个基因 片段 上的基因表达数据 ,所给的资料提示 提供者对基因表达数据进行了2即 采用“2l o g ( )基 因 表 达 强 度”代表基因的表达 水平, 详见 “ 附件 1 原始数据 ” 。 注意到,在 62 个 样本 单元(人)中,某些 样本 单元包含重复观测数据;在 2000 个基因中,也包含重复基因。 也就是说 , 有的样本单元在同一个基因上有多个观测值(资料提示用不同的 针探测得到), 建立模型 之前需要对其进行妥善处理。 据 整理 在建立模型之前,本文对重复数据进行了整理, 方法为取重复观测数据的均值作为相应的样本单元在相应基因上的表达水平。经整理后,基因数目缩减为 1901 个,详见“ 附件 2 删除重复观测后的数据 2 3 4 5 归分类模型 “信息基因”的平均差异性检验 识别效果分析( 归 别) 1 基因的重要性分析模型 的速度 算术平均贴近度筛选模型 利用单因子多变量方 差分析法剔除对样本类别决定没有贡献的基因 的速度 在上一步保留的基因中寻找差异较大的重要基因 的速度 消除共线性并提取最显著基因 的速度 单因子多变量方差分析验证“信息基因”是否在正常人和结肠癌人中有差异 的速度 计算误判率来评价提取信息基因方法的有效性和可靠性 的速度 第 4 页 注意到,模型的建立要求 对 整理后的 数据进行转置 ,转置后的 样本 组织 形式 可用如下矩阵形式表示 : ( 0 ) ( 0 ) ( 0 )1 ,1 1 , 2 1 ,1 9 0 1( 0 ) ( 0 ) ( 0 )2 ,1 2 , 2 2 ,1 9 0 1( 0 ) ( 0 ) ( 0 )2 2 ,1 2 2 , 2 2 2 ,1 9 0 1( 1 ) ( 1 ) ( 1 )2 3 ,1 2 3 , 2 2 3 ,1 9 0 1( 1 ) ( 1 ) ( 1 )6 2 ,1 6 2 , 2 6 2 ,1 9 0 1x x xx x xX x x xx x xx x x 这里: 0 表示正常人; 1 表示 结肠癌 患者; ( 0 ), , 1, . . . . . . , 2 2 ; 1, . . . . . . 1 9 0 1i j; 表示第 i 个正常人在第 j 个基因上的表达水 平;( 1 ), , 2 3 , . . . . . . , 6 2 ; 1, . . . . . . 1 9 0 1i j;表 示第 i 个 结肠癌 患者在第 j 个基因上的表达水 平。 模数据 的说明 为了 评价所提取 到 的“信息基因”的可靠性和有效性, 采用基于事先选定的随机种子进行运算进而产生随机数的方法, 将整个样本数据集随机 地剖分 为 两部分:训练集和测试集 。 其中, 训练集占全部样本数据的 60%, 用于推断肿瘤识别的 “信息基因 ”;而 测试集 占 40%, 用于计算 利用 提取的 “信息基因” 识别肿瘤的准确率(或者误判率)。也就是说, “信息基因” 的提取过程完全基于训练集,而测试集仅仅用在模型检验的过程中。 本文训练集和测试集的剖分如下: 训练集 测试集 正常人( 13) 结肠癌 患者( 24) 详细剖分结果见“附件 3 训练集数据”和“附件 4 测试集数据”。 需说明, 第 4 部分“基因的重要性分析”所采用的是全部样本数据,因为在本文中这一步作为探索性数据分析,应尽可能利用样本的信息。训练集则应用于第 4 部分和第5 部分来寻找“信息基因”。 正常人( 9) 结肠癌患者( 16) 第 5 页 3. 模型的假设 假设 1:假设所给数据真实可靠,并且资料说明中提到的数据含义即2 )强 度确实能反映基因 的表达水平; 假设 2: 假设所给的 2000 个基因中确实包含导致 结肠癌 的基因; 假设 3:假设数据中所指的正常人是绝对的正常,而 癌症 患者指的仅仅是 结肠癌 患者 。 4. 基因 的重要性 分析 模型 众所周知,基因数目通常很大,基因表达数据的分析与建模往往面临海量的数据,因此, 浓缩和提炼 数据就显得尤为必要 。在分类预测问题中, 浓缩和提炼 数据的过程实际上是对变量的 重要性 进行分析的过程 , 其 目的是为了找出 对输出变量( 样本类别 )的分类 预测有重要贡献的 变量 , 保留它们 同时剔除 那些 对输出变量没有意义的 变量 。 量重要性分析的一般方法 变 量的重要性 分析 可以从两个方面 联合考察:第一,从变量本身考虑,用方差度量变量携带信息的多少;第二,从输入变量与输出变量的相关角度考察 ,通常用 关系数检验、方差分析、似然比 验等来判定输入变量与输出变量的相关性是否显著 ,并给出各个输入变量的重要性排序。 用于衡量变量重要性的 指标 为:各种假设检验的 1 ,该值越大,说明假设检验越显著,即说明输入变量与输出变量的相关性越强,对应的变量也就越重要。 因的重要性分析模型 本文着 重 从 基因与样本类别的相关角度考察基因的重要性。 那么, 重要性分析模型的输入变量 为 1901 个基因 , 输出变量 为 二元 分类 变量 y ( 0 代表正常人, 1 代表 结肠癌患者) , 可以 利用 单因子多变量方差分析 的方法,系统性地 分析 各个 基因 表达水平 的均值 在 不同样本类别中 是否存在显著性差异 。 因的重要性分析结果 这一部分采用 据挖掘软件进行基因的重要性分析, 自动计算 F 统计量的值以及与之相应的 1 。 考虑到基因表达数据的复杂性以及内部系统误差,这一步仅仅是一个探索性的数据 第 6 页 分析。为 慎重起见,选取 1)为临界值, 即保留 1在 上的基因,相当于将 针对 某些基因 的 方差分析的 显著性水平设定为 这样一来,这一步共保留了866 个基因,其软件输出 的相关结果见 “ 附件 5 重要性排序 5. 算术平均贴近度 筛选 模型 针对上一步“基因的重要性分析”所保留下来的可能与肿瘤有关的 866 个基因,需提出更精细的指标,作为进一步剔除那些可能由于基因之间的相关性 或者系统性误差 而被掩盖的 “ 无关基因 ” 的标准,从而减少用于样本分类的“信息基因”数量,进一步提高分类模型的实用性。 本文采用模糊数 学中的算术平均贴近度来衡量同一个基因上,正常人基因表达水平的模糊集与 结肠癌 患者的基因表达水平的模糊集的接近程度,越接近,则说明在该基因上正 常人的基因表达水平和 结肠癌 患者的基因表达水平的差异性越不显著,那么,该基因 也 可视为 “ 无关基因 ” 被剔除。 事实上, 基因的重要性分析是从输入变量与输出变量的相关性角度剔除“无关基因”,可视为一种探索性数据分析方法,而算术平均 贴近度则是从相似性的角度剔除 “ 无关基因 ” ,具体说来是抓住了“无关基因”在正常人和 结肠癌 患者中的表达水平相近 这一特性来 剔除“无关基因” 。 算术平均 贴近度简介 模糊数学中,贴近度常用来反映两个模糊集合的相近程度,贴近度越接近于 1,则表明两模糊集越接近,否则,两模糊集越远。因此,利用模糊数学中的贴近度指标可以在一定程度上反映同一个基因上正常人和 结肠癌 患者基因表达水平的相近程度。 模糊子集与 隶属度函数 对于某一集合 A,元素 u 要么属于 A,要么不属于 A,二者必居其一,且 仅居其一。这是经典集合的特征。对于这一特征,经典集合 u 与集合 可以用特征函数来刻画。集合 示为 : 1()0 然而 , 在实际 生活中,我们常 遇到 不属于 “ 非此即彼 ” 的情况,而是介于 “ 是 ” 与“ 不是 ” 之间,表现出 “ 亦此亦彼 ” 的特征。比如,对于某种商品的质量,有人认为很 第 7 页 好,有 人认为一般,也有人认为较差。因此,我们很难用好或不好来形容该商品的质量。 为了解决实际生活 中的这类问题,我们必须把元素属于集合的概念模糊化,变经典集合的 “ 非此即彼 ” 关系为 “ 亦此亦彼 ” 关系,即 承认论域上存在 并非完全属于该集合的元素,使经典结合的绝对属于变为相对属于的概念。 定义 1: 给定论域 U ,所谓 U 上的 一个模糊子集 A 指: 对于任意的 ,都能确定0,1A , 用这个数 来 表示 x 属于 A 的程度, 同时 称 映射 : 0 , 1 A U 为 A 隶属度函数 。 隶属度 函数 ()A x表示 x 属于 A 的程度, ()A x越接近于 0,表示 x 隶属于 A 的程度越小; ()A x越接近于 1,表示 x 隶属于 A 的程度越大;若 ()A x越接近于 表示 )A x的程度越模糊。此外,结合经典集合的定义可知,隶属度函数( ) 1A x ,表示 x 完全属于 A ;隶属度函数 ( ) 0A x ,表示 x 完全不属于 A 。 事实上, u 隶属于模糊集合 A 的程度可视为 u 隶属于 A 的概率。 算术平均贴近度 贴近度的 计算公式很多,本文采用 算术平均贴近度 来衡量两个模糊集 的 接近程度,其 计算公式为: 11, ( 5 . 1 )12nB i A i A 其中: 表示 取小运算符。 从上述公式可以直观地看到 : 若 的隶属度 的隶属度 别不大, 一方面 可以说明 A、 一方面使得 贴近度 ,N A 从而使得 ,N A B 倾向于接近 1,也验证了 A、 B 两个集合很接近。这就证明了贴近度 用于度量两个集合接近程度 的合理性。 第 8 页 文自定义的隶属度函数 因特性的分类 考虑到 致癌基因的表达水平 可能 高于或低于正常人 相应基因的表达水平 , 因此,借鉴试验设计中指标特性分类的方法, 将基因分为两 类: 望小 型基因和望 大 型基因。也就是说望大特性和望小特性是针对致癌基因的表现特点来划分的。 为解释分类标准 ,引入如下记号: (0) 训练样本中,第 i 个基因上正常人基因表达水平的均值估计; (1) 训练样本中,第 i 个基因上 结肠癌 患者基因表达水平的均值估计; 那么, 分类标准 如下: ( 1)若 ( 0 ) (1 ) 0,则第 i 个 基因 是望小型基因。对于望小 型基因 ,其 表达水平 值越小,属于 结肠癌 的可能性越大。 ( 2) 若 ( 0 ) (1 ) 0,则第 i 个 基因 是 望大型 型基因。 对于望大型基因,其表达水平值越大 , 属于 结肠癌 的可能性越大。 根据 望小型基因和 望大型基因的定义,经计算, 866 个基因中,共有 663 个望大型基因, 203 个望小型基因,具体 分类情况 可参看 “附件 6 望大( 663)望小( 203)基因分类结果”。 定义的隶属度函数 根据 定义,模糊集隶属度函的数值域为 0,1,类比于随机变量的分布函数,也称其为模糊集的分布函数。常用的模糊集分布函数有正态型分布、半梯形分布、梯形分布、K 次抛 物线分布、 布以及 S 型分布等, 具体 内容 可 查看参考文献 5、 6、 7。 为了定义 符合 本文 研究问题 的隶属度函数,先引入如下记号: 1, ., 6 6 3,1, ., 6 6 3,第 i 个 望 大 型 基 因 上 正 常 人 基 因 表 达 水 平 的 模 糊 集第 i 个 望 大 型 基 因 上 癌 症 患 者 基 因 表 达 水 平 的 模 糊 集 1, ., 2 0 3,1, ., 2 0 3,第 i 个 望 小 型 基 因 上 正 常 人 基 因 表 达 水 平 的 模 糊 集第 i 个 望 小 型 基 因 上 癌 症 患 者 基 因 表 达 水 平 的 模 糊 集考虑到 现有的 确定 隶属度函数的方法,比如模糊统计法和二元 对比排序法,更适用于离散化数据,因此,在本文中,结合本文研究问题和相关数据的实际情况以及相关的统计思想,并参照常用的模糊集分布函数,定义本文的隶属度函数 图像应具有 如下 特征 : 第 9 页 图像说明: 1、 a)和 b), s 和 n 分别表示相应基因上的正常人样本或 结肠癌 样本的最大值、最小值、均值、标准差和样本容量。 2、 图中 分段函数各段定义域的构造方法借鉴了一些统计思想: 一 个 随机变量会以很大的概率取 以 x 为中心的自身 1 倍标准差 ( s ) 之间的数值,那么,随机变量 在 以 x 为中心的 x 的 1 倍 标准差 ( /之间取值的概率将更大,这是为了符合模糊集隶属度函数的定义所做的调整; 一般认为,一个随机变量 在以 x 为中心的自身 3 倍标准差 ( 3s )之外取值的概率微 乎其微,同样是为了符合模糊集隶属度函数的定义。用 上限和下限处作调整 3、 为方便说明,先解释图中水平线的含义: 对应于正常人构成的样本和 结肠癌 患者构成的样本 (隶属度函数形式不变,只是 s 和 n 在变) , 水平线 分别表示落入区间 / , / m e a n s n m e a n s n的观测值 以 1 的隶属度 隶属于正常人 和 结肠癌 患者 。 4、 在 a)中 : 针对望小型基因, 考虑隶属于 A=正常人 的程度: 不论是来自正常人的样本还是来自 结肠癌 患者的样本, 偏大的观测值(水平线右端) 比起偏小的观 测值(水平线左端)对于 A=正常人 有较大的隶属度,因此水平线右端采用开口向下的二次抛物线, 第 10 页 水平线左端采用开口向上的二次抛物线。 针对望大型基因, 考虑隶属于 B=结肠癌 患者 的程度 ,不论是来自正常人的样本还是来自 结肠癌 患者的样本, 偏大 的观测值(水平线 右 端)比起 偏大 的观测值(水平线左 端)对于 B=结肠癌 患者 有较大的隶属度,因此水平线右端采用开口向下的二次抛物线,水平线左端采用开口向上的二次抛物线。 5、 在 b)中 : 针对望大型基因,考虑隶属于 A=正常人 的程度:不论是来自正常人的样本还是来自 结肠癌 患者的样本,偏小的观测值(水平线左端)比起偏大的观测值(水平线右端)对于 A=正常人 有较大的隶属度,因此水平线左端采用开口向下的二次抛物线,水平线右端采用开口向上的二次抛物线。 针对望小型基因,考虑隶属于 B=结肠癌 患者 的程度,不论是来自正常人的样本还是来自 结肠癌 患者的样本,偏小的观测值(水平线左端)比起偏大的观测值(水平线右端)对于 B=结肠癌 患者 有较大的隶属度,因此水平线左端采用开口向下的二次抛物线,水平线右端采用开口向上的二次抛物线。 因此,如上述分析,不论是望大型基因上的观测值还是望小型基因 上的观测值,其对于 A=正常人 或 B=结肠癌 患者 的隶属度函数均可以归结为以上两类 ,具体表达式如下表所示: 望大 型 基因 上的观测值 对于 A 或 B 的隶属度 函数表达式 定义域 隶属度 函数 m i n 3 13ss x x 1 3 1 3x x m a x 313sx x s 其他 ()A x 21311m i n 313 1 2m a x 31m a x 313 0 定义域 隶属度 函数 m i n 3 24ss x x 2 4 2 4x x m a x 324sx x s 其他 ()B x 2m i n 31m i n 324 1 22411m a x 324 0 第 11 页 望小 型 基因 上的观测值对于 A 或 B 的隶属度函数表达式 定义域 隶属度函数 m i n 3 13ss x x 1 3 1 3x x m a x 313sx x s 其他 ( )=A x 2m i n 31m i n 313 1 21311m a x 313 0 定义域 隶属度函数 m i n 3 24ss x x 2 4 2 4x x m a x 324sx x s 其他 ( )=B x 22411m i n 324 1 2m a x 31m a x 324 0 注意到 , 区间 / , / m e a n s n m e a n s n的端点取法:当 n 时, /0,意味着 当样本容量很大时,只有均值 本身 对于 A=正常人 或 B=结肠癌 患者 具有 1 的隶属度,也就是说完全 隶 属于 A=正常人 或 B=结肠癌 患者 的集合为单点集, 与现实情况不符;而当 n 很小时, / , / m e a n s n m e a n s n的区间长度偏大,意味着有一定数量的 观测 值对于A=正常人 或 B=结肠癌 患者 具有 1 的隶属度,易产生较大偏差。本文对此进行了模拟研究 ( 方法:产生 类 似 于该问题的数据, 调整 /取不同的 k 值 ,计算隶属度,评价 所得 隶属度的合 理性 ),发现 当 15,50n 之间 时,取 /4s 所得结果较为相似, 因此 ,当样本容量很小或很大时,推荐使用 /4s 取代 /属度能获得合理的取值。需说明,模拟研究只不过是一种经验做法,所获得的也只是一种经验结果,关于本文自定义的隶属度函数的自变量取值范围的划分还有待进一步理论研究。 至此,本文完成了 对自定义 隶属度函数 的 函数形式以及自变量取值范围划分 的合理性的 论述, 以期为类似问题的研究提供参考。然而,该函数的性质以及理论推导的严密性还有待进一步研究。 第 12 页 术平均贴近度的计算 本文采用 程实现算术平均贴近度的计算 , 程序见 “ 附录 序” 。 现将算术平均贴近度的计算过程归纳如下 1、 计算隶属度 如前所述,训练集具有如下的数据组织形式 如下 :区分望大型基因和望小型基因, 恰当选取自定义的两类隶属度函数, 分别计算每一个基因上,每一个观测值 对于 A=正常人 或 B=结肠癌 患者 的隶属度 ,可用如下流程图反映这一过程 ( 例如:最上方的水平方向箭头表示用 A x计算来自于正常人的样本观测单元属于 A=正常人 的程度 ): 结肠癌 正常 正常 结肠癌 结肠癌结肠癌 正常正常 正常人 样本 隶属于结肠癌患者的隶属度函数 B x隶属于正常人的隶属度 函数 A x结肠癌患者样本 ( 0 ) ( 0 ) ( 0 ) ( 0 ) ( 0 )1 ,1 1 , 2 1 , 6 6 3 1 , 6 6 4 1 , 8 6 6( 0 ) ( 0 ) ( 0 ) ( 0 ) ( 0 )2 ,1 2 , 2 2 , 6 6 3 2 , 6 6 4 2 , 8 6 6( 0 ) ( 0 ) ( 0 ) ( 0 ) ( 0 )1 3 ,1 1 3 , 2 1 3 , 6 6 3 1 3 , 6 6 4 1 3 , 8 6 6( 1 ) ( 1 ) ( 1 ) ( 1 ) ( 11 4 ,1 1 4 , 2 1 4 , 6 6 3 1 4 , 6 6 4 1 4 , 8 6 6x x x x xx x x x xX x x x x xx x x x x)( 1 ) ( 1 ) ( 1 ) ( 1 ) ( 1 )3 7 ,1 3 7 , 2 3 7 , 6 6 3 3 7 , 6 6 4 3 7 , 8 6 66 6 3 2 0 3x x x x x望 大 型 基 因 ( ) 望 小 型 基 因 ( ) 第 13 页 2、 计算 算术平均贴近度 按照 公式 ( 计算每一个基因上, A=正常人 与 B=结肠癌 患者 的算术平均贴近度,所得结果见 “附件 7 望大望小基因及贴近度”。 用 算术平均贴近度 计算值剔除无关基因 从 算术平均贴近度的计算值 不难看出: 在 663 个望大型基因上,正常人 与结肠癌 患者 的算术平均贴近度均在 上,选取 临界值 ( 本文欲选 而,有相当一部分贴近度 数值 落入区间 ,不能认为这部 分 贴近度数值与 注意到与 为接近的数据有 个,故选取 为临界值 ) ,即认为 大于 算术平均 贴近度 值 所对应的 基因 在 结肠癌 患者和正常人两个类别中的分布 非常接近,可作为无关基因剔除。同理,在 203 个望小型基因中,正常人 与结肠癌 患者 的算术平均贴近度均在 选取 临界值 。 应用上述标准剔除无关基因后,保留望大型基因 132 个 、望小型基因 8 个 ,共计保留基因 140 个,详细结果见“ 附件 8 保留的基因 32+望小 8”。 事实上,虽然关于 “ 贴近度应该取什么值 能够认为两个模糊集比较接近 ” 没有统一的标准,虽然本文提到的临界值也具有一定的主观性,但从贴近度数值的分布情况看来,本文临界值的选取具有相当的保守性。 值得一提的是,为评估该方法的稳定性,我们又从 62 个样本单元中重新抽取了 37个样本单元作为新的测试集,在该测试集上执行上述过程,发现最终保留下来的基因的种类和数目与上述结果几乎没有差别,这至
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建省三元县2025届数学七下期末调研试题含解析
- 重视市场反馈优化产品改进计划
- 汽车维修行业安全保障总结计划
- 加强班级安全教育的措施计划
- 打造班级特色活动品牌计划
- 高危活动的安保方案设计计划
- 班级互动小游戏的设计与意义计划
- 2024年四川省国防科工办下属事业单位真题
- 脚本语言与编译语言的比较试题及答案
- 2024年内江市东兴区城镇公益性岗位招聘真题
- 22G101系列图集常用点全解读
- 北师大版六年级数学下册专项二 图形与几何含答案
- MIDASM32调音台培训教程归纳
- DB63-T 2152-2023公路建设项目代建管理规范
- 风力摆系统设计
- 建筑地基处理技术规范jgj79-2012
- 普通地质学教材
- 05G414-5预应力混凝土工字形屋面梁(18m、双坡)
- 《脑出血的外科治疗》
- 科达监控设备安装与设置说明nvr摄像头配置
- 《特殊的平行四边形》优质课件
评论
0/150
提交评论