版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于模糊聚类方法的基因模型【摘要】本文为了找出癌症与正常样本在基因表达水平上的区别,根据给出的114个基因(观测指标),前40个人的基因表达水平的样本数据(包括20个癌症患者样本的基因表达和后20个正常样本的基因表达),建立了合理的数学模型,确定了识别方法。为了更直观,将原始数据的编号进行修改,将0-59号改为1-60号,其中1-20号表示癌症样本,21-40表示健康样本,41-60表示待测样本。先将原始数据进行预处理,得到标准化数据,然后建立模糊聚类模型,先求出样本之间的欧式距离,再通过类平均法进行聚类分析,通过matlab编程对模型进行求解,得到结果为:第一类:1,3,4,5,6,7,8,
2、9,10,11,12,14,15,16,18,19,28,33,38,40第二类:2,13,17,20,21,22,23,24,25,26,27,29,30,31,32,34,35,36,37,39。这个与已知1-20为癌症患者,21-40为正常样本的拟合率为80%。由于样本共有114个观测指标,若计算这114个指标的相似程度,则计算量过大且不够精准,故先对已有数据进行处理,结合散点图和统计量剔除影响不大的指标,从而将观测指标的数量减少到48个,方便了模型的建立跟计算。再根据这48个指标,利用相同的方法进行聚类,得到结果为:第一类:1,2,3,4,5,6,7,8,9,10,11,12,14,1
3、5,16,18,19,33,38,40第二类:13,17,20,21,22,23,24,25,26,27,28,29,30,31,32,34,35,36,37,39这与已知120为癌症患者,21-40为正常样本的拟合度为85%,比原始数据直接聚类的结果提高了五个百分点。并且通过SPSS软件对数据进行聚类处理,验证了模型的正确性。再通过该模型对20个待检测样本进行检测,得到结果为:正常样本为:41,42,57,59癌症样本为:43,44,45,46,47,48,49,50,51,52,53,54,55,56,58,60最后设计了可视化方法,对模型进行分析,清楚地表现了癌症与正常样本在基因表达水平
4、上的区别,并且通过聚类分析,发现癌症样本中有子类存在,且样本13,17,20一定属于同一个子类。关键词:模糊聚类分析欧式距离类平均法SPSS可视化方法1.问题重述一个114个基因,60个人的基因表达水平的样本。其中前20个是癌症病人的基因表达水平的样本(其中还可能有子类),其后的是20个正常人的基因表达信息样本,其余的20个是待检测的样本(未知他们是否正常)。(1).试设法找出描述癌症与正常样本在基因表达水平上的区别,建立数学模型及识别方法,去预测待检测样本是癌症还是正常样本。(2).设计图示(可视化)方法,使得在你的数学模型下,尽量清楚地表现癌症与正常样本在基因表达水平上的区别,以及癌症样本
5、中是否有子类。2问题的概要分析该问题中,有20个癌症样本和20个正常样本的基因表达,问题需要找出癌症样本与正常样本的表达区别,即找出癌症样本的共性,使其与正常样本区分开来,并通过这种方法来检测待检测样本属于癌症样本还是正常样本。为了表述的严格和方便,用数学语言来重述这个问题:已知字母序列S,S,12S3S60和字母序列集合A、B,S广s订,s?,s/.si4;当ie1,20时,S.eA(A为癌症样本);当ie21,40时,SeB(B为正常样本)。要求在表达序i列上找出区别A与B的方法,并通过这种方法求出当41i60时,字母序列S与i集合A及集合B的关系。聚类分析方法是根据一批样品的许多观测指标
6、,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。本文所需解决的问题,基本符合聚类分析方法的思想,但是在这个问题中,样本S有114个观测指标,若计算这114个指标的相似程度,则计算量过大且不i够精准,故可以先对已有数据进行处理,剔除影响不大的指标,从而减少了观测指标的数量,方便模型的建立跟计算。数据处理之后,建立模糊聚类分析模型并求解,如果聚类结果与当ie1,20时,SeA(A为癌症样本);当ie21,i40时,SeB(B为正常样本)一致的话,说明聚类方法有效,可以继续用来检i测待检测的样本;若聚类结果与实际结果有偏差,则应该改
7、进数据处理的方法和聚类方法,直到聚类结果与实际结果一致为止。3模型假设与符号说明模型假设1假设数据真实有效,能反映人身体健康与癌症关系的真实状况;2假设假设病人之间,健康人之间,病人和健康人相互独立;假设每个基因的表达程度与癌症的关联度有区别,即癌症对每个基因的影响不一样;假设同一种癌症对不同人的同一种基因表达水平的促进与否相同。3.2符号说明S所有样本的集合Si第i个样本,1i20时表示癌症样本,21i40时表示正常样本,41ivn-bKHW丈Imnvn-nvn-rw-rTtr-rwl-rrtr-l?T-健健健健856562308980948374-.2人计人X人总人X人;3人人:X可视化结
8、果为:2.533.544.555.566.577.5标准化距离(类平均法)这与已知120为癌症患者,21-40为正常样本的拟合度为80%,仍然需要改进,提高精度。指标的精简和结果精度的提高由于样本S有114个观测指标,若计算这114个指标的相似程度,则计算量i过大且不够精准,故可以先对已有数据进行处理,剔除影响不大的指标,从而减少了观测指标的数量,方便模型的建立跟计算。数据处理方法每个样本有114个指标,在每个指标内,作出S至S的散点图,并分别求140出S到S,S到S在每个指标内的均值和标准差,比较在同一个指标内,两1202140组均值与标准差的大小,并结合散点图判断,该指标是否为影响因素,若
9、两组均值与标准差相差均很小,则认为该指标不影响样本的检测,剔除该指标;若两组均值或者标准差相差很大,则保留该指标。综合图形和求出的均值及方差,根据癌症患者和正常人的该种基因表达水平差异很大来找出与癌症密切相关的相关基因指标。我们认为当基因表达的水平相差一倍左右或更大时,该指标与癌症关系比较密切,故首先通过求出的均值,找出那些病人和正常人表达水平相差很大的指标。同时在平均值相差不大的指标中再找出那些癌症患者表达水平的方差远大于正常人表达水平的方差的指标。再从散点图中找出那些病人与正常人基因表达水平分布有明显差异的指标。最后,综合均值、方差、散点图,找出那些病人与正常人基因表达水平均值或方差相差很
10、大时基因表达水平分布又有明显差异的指标并保留。剔除无影响的指标后,最后只剩下48组指标,分别为第C、D、E、F、I、J、M、P、W、AC、AF、AH、AI、AP、AQ、AU、AV、BA、BC、BD、BE、BH、BK、BM、BO、BR、BX、BY、BZ、CA、CB、CD、CH、CI、CJ、CK、CL、CO、CQ、CS、CT、CV、CX、CY、DA、DE、DJ、DK组。例如:指标CA的基因表达水平中:标准化数据后,病人表达水平为:0.164559,正常人表达水平为:0.388729;而且其所对应的散点图如下图所示o表示癌症患者的基因表达,*表示正常人的基因表达):1000800600400可见,癌
11、症患者和正常人这种八癌症有着密切联系,是判断一个人是否是癌症患者的重要因素。故保留这个指标的相关数据泸他数据均根数据处理后结果!O因的表达水平有很大异,也就是说这个指标和4.3.2数疋否据这种方法来处理。cc0。oQO0由上述方法剔除一定数据,最后剩下48个指标,根据这48个指标,:计算样本之间的欧式距离,再根据类平均法进2行聚类,得到动态聚类图如下:333322213332312322222人人人人人人人人人人人人人人人人人人人人m二mT-FrM二mt?m二nrl.二二IW.二memi二二m二ml.二rwi愎13健偲lall健lii僧僧1僧健可视化结果为:即分类的最终结果为:第一类:1,2,
12、3,4,5,6,7,8,9,10,11,12,14,15,16,18,19,33,38,40第二类:13,17,20,21,22,23,24,25,26,27,28,29,30,31,32,34,35,36,37,39这与已知120为癌症患者,21-40为正常样本的拟合度为85%,比原始数据直接聚类的结果提高了五个百分点。用spss软件验证结果输入数据,如下:BUntitled-SPSSDataEditor目直I匡BUntitled-SPSSDataEditor目直I匡FileEditViewDataTransformAnalyzeGraphsUtilitiesWindow旦elp色y|a|暉
13、|岡創it圍圍圜型fg謝鱼|V1V2V3V4V5V61Patient2Patientl108.60111.84693.141119.66533.383Patient?109.08244.622282346863206.934Patients87.9374.36887.701223.09659555Patient4149.1672.79312.48647.41572.966Patients93.11107.74346.694&6.631446.771PatientG246.7142.76227.41332.06883.878Patient/152.7184.68827261068.09892.1
14、79Patients98.58113.9266S.71&37.78699.8610Patient975.4147.20345.991264.30614.5711Patientl083.7983.81366.571030.621464.0312PatientH164.0876.82187.59687.5S736.3313Patient1247.57&3.21284.861524891051.28pnv彳PatientVariableViewSPSSProcessorisready选择变量:QVariabl已材:TJHierarchicaldusterAnalysisStatistics.IV2V
15、3V4V5Method.I选择聚类类数为两类:HierarchicalClusterAnalysis:StatisticsvAgglomerationschedule厂ProximomatrixOusterMemberahip厂None*SinglesolutionNumberofdustera:RangeofsolutionsMinimumnumberofclusters:Maximumnumberofclusters:显示结果选项:IbES-IHierarchicalClusterAnalysis:MethodContinueQusterMefthod:-MeasureInterval:C
16、ounts:CBinary:|BetVEEngnoijpsli门肋庐Absent:|5Present:pCancelHelp-TransformValuesSt日仃dandize:|None(*ByvariableCBycase-TransformMeasures厂Absolutevalues厂Changesign厂Rescaleto0-1range结果:病人11病人22病人31病人41病人51病人61病人71病人81病人91病人101病人111病人1病人132病人141病人151病人161病人172病人181病人1病人202健康人212健康人222健康人232健康人242健康人252健康人2
17、62健康人272健康人282健康人292健康人302健康人312健康人322健康人331健康人342健康人352健康人362健康人37健康人381健康人39健康人401比较4.3中剔除数据中得到的聚类结果与用spss软件得到的聚类结果,可发现仅有S2聚类结果不一致,其他各样本聚类结果完全相同,而spss软件处理结2果与实际结果拟合度为82.5%,检验完成,结果为模型可用且精准性较高,可以用来对样本进行预测。预测样本数据通过所建立的模糊聚类模型,以及抽取的48个基因表达指标,对20个样本数据进行预测,预测结果为:正常样本为:41,42,57,59癌症样本为:43,44,45,46,47,48,4
18、9,50,51,52,53,54,55,56,58,605.可视化分析5.1可视化分析在问题一的完成基础上,分析第二问的题目,我们提出基因表达程度偏离比的概念来衡量病人病变基因表达程度,即基因表达偏离程度偏离比(8)s.(病人)-means(正常人)means(正常人)用excel得到数据结果如下:ABCDEFGHI1病人特征基因1特征基因:特征基因E特征基因C特征基因E特征基因E特征基因丫特征基因E2病人1-0.33604-0.69709-0.31017-0.05160-0.57252-0.239420.62365-0.577053病人20.4=49000-0.90026-0.71127-0
19、.63307-0.91497-0.4=7705-0.31694-0.7674=34病人3-0.55908-0.61206-0.246450.172640.5627730.3618831.820321-0.528215病人4-0.56039-0.06344-0.601130.010600-0.640400.5340211.142735-0.004996病人5-0.36115-0.04097-0.713121.570491-0.135651.1523110.714910-0.602347病人6-0.74=645-0.90062-0.7954=20.571467-0.55460.739562.032
20、74=6-0.861038病人丫-0.49789-0.63847-0.34810.586224-0.410080.1680450.009267-0.461129病人8-0.32451-0.71301-0.422230.244300-0.151430.1332711.431749-0.5121410病人9-0.72013-0.84=00-0.221060.092660-0.67000.1291270.32376-0.733611病人10-0.50305-0.8390-0.365031.602956-0.43050.7670072.64=5836-0.022012病人11-0.55042-0.91
21、802-0.576390.30915-0.87238-0.291310.229146-0.8243413病人12-0.62519-0.07551-0.06050.069112-0.669920.0651721.970604-0.0512114病人130.4=106350.4907330.64=50620.001015-0.03750-0.16243-0.791300.70001915病人140.029425-0.75065-0.574=90.376676-0.526010.3007010.007225-0.7064=716病人15-0.65203-0.79059-0.4=05081.25764
22、=5-0.199450.5160941.24=5103-0.70217病人16-0.70269-0.84156-0.445450.867192-0.397411.3537474.074174-0.7784418病人1丁-0.0071-0.080330.4=4309-0.14=370-0.69357-0.174=03-0.910560.034=72019病人18-0.66344-0.71201-0.544941.415099-0.091571.7157701.029791-0.7229020病人19-0.32066-0.69389-0.735250.545590-0.519610.321344-
23、0.39239-0.7013221病人200.3077570.5613420.1659830.4753160.7478241-0.020151,0.4257520.73276222对病人的基因表达偏离程度偏离比取平均值,使用excel中的可视化功能,首先我们可以得到癌症病人总体特征基因48个指标的偏离程度。同时我们可以得到各个病人的各特征基因的偏离程度,抽出其中4个,如下:457B910111213标准化距离(类平均法)3251016,8.43-13.52-2病人12.5病人10.50.51.55.2子类分析使用第一问的观点,我们进一步进行子类划分。划分结果如下:病人仃病人20病人13病人5病
24、人12病人18病人苗病人15病人10病人4病人1病人9病人&病人了病人19病人14300250200150100从子类划分结果(两类)中我们可以清楚的看到,病人13、病人17和病人20是非常特殊的,他们和其他的病人在很多基因表达水平上都有显著差别。而从下面的图中也可以直观地看到病人13、病人17和病人20在一些基因上的表达水平与其他病人基因表达水平的区别(o第13、17、20分别表示病人13、17、20的基因表达水平)*来米来来来O米O*米来3000来来o米*来*2000*o来来*来oOOO*OOOOOO米*O*来米O来O曲米来来*米汀Oo600050002000迖10008004000300
25、060040040001000而这也正好解释了在问题一求解过程中遇到的问题:即病人13、病人17和病人20的各特征基因表达程度和正常人的各特征基因表达程度相似,而与其它病人的各特征基因表达程度不一致,从而被误判定为正常人。在这里问题一得到了再次印证。因此认为这种方法是可行的,在癌症病人的样本中存在子类。同时,我们可以对子类划分的数目进行修改,如下:子类划分结果三类)三类中,我们同样看到病人13、病人17和病人20被保留在第三类中,而前述第一类被进一步划分为两类。因此从以上结果可知,癌症样本中存在子类,且样本13,17,20一定属于同一个子类。6短文:人类基因组计划人类基因组计划(humange
26、nomeproject,HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法兰西共和国、德意志联邦共和国、日本国和我国科学家共同参与了这一价值达30亿美元的人类基因组计划。这一计划旨在为30多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息。与曼哈顿原子弹计划和阿波罗登月计划并称为三大科学计划。2000年6月26日,参加人类基因组工程项目的美国、英国、法兰西共和国、德意志联邦共和国、日本国国和中国的6国科学家共同宣布,人类基因组草图的绘制工作已经完成。最终完成图要求测序所用的克隆能忠实地代表常染色体的基因组结构,序列错误率低于万分之一。95%常染色质区域被测序,每个Gap小于150kb。完成图将于2003年完成,比预计提前2年。美国和英国科学家2006年5月18日在英国自然杂志网络版上发表了人类最后一个染色体1号染色体的基因测序。在人体全部22对常染色体中,1号染色体包含基因数量最多,达3141个,是平均水平的两倍,共有超过2.23亿个碱基对,破译难度也最大。一个由150名英国和美国科学家
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年益阳市中心医院益阳市第一人民医院医护人员招聘笔试参考题库及答案详解
- 2026年郑州大学第一附属医院医护人员招聘笔试参考试题及答案详解
- 2026年黑龙江中医药大学附属第二医院医护人员招聘笔试备考试题及答案详解
- 2026年宁波大学附属人民医院医护人员招聘考试参考题库及答案详解
- 2026年长春市儿童医院医护人员招聘笔试备考题库及答案详解
- 2026年四川大学华西口腔医院医护人员招聘考试备考试题及答案详解
- 2026年沈阳医学院附属第三医院医护人员招聘考试参考试题及答案详解
- 2026年新桥医院医护人员招聘考试备考试题及答案详解
- 2026年娄底市中心医院医护人员招聘考试参考试题及答案详解
- (2026版)电梯安全管理制度新
- 2026年济南商标审查协作中心招聘(10名)考试参考试题及答案解析
- ERCP诊疗指南课件
- 2026天津市河北区产业发展集团有限公司社会招聘工作人员3人考试备考题库及答案解析
- 2026天坛生物通江血浆站招聘备考题库及答案详解(各地真题)
- 2026中国兵器审计中心(西安中心)招聘(5人)笔试参考题库及答案解析
- 2026云南省有色地质局楚雄勘查院下属企业招聘工作人员11人笔试参考题库及答案解析
- 2026年广东教师公需课《人工智能赋能制造业高质量发展》习题及答案
- 2026年国企改革应知应会知识通关练习题库含答案详解(能力提升)
- 2026年国开电大JavaScript程序设计形考练习试题【满分必刷】附答案详解
- 3.4 我们来造“环形山”课件(内嵌视频) 2025-2026学年教科版科学三年级下册
- 2026江苏南通中远海运川崎船舶工程有限公司招聘劳务派遣人员15人笔试备考试题及答案解析
评论
0/150
提交评论