主成分和因子分析应用_第1页
主成分和因子分析应用_第2页
主成分和因子分析应用_第3页
主成分和因子分析应用_第4页
主成分和因子分析应用_第5页
已阅读5页,还剩40页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析和因子分析应用

ApplicationofPCAandFA

inMedicalScienceMultivariateStatistics多元统计学第七讲南京医科大学公共卫生学院赵杨

主要内容主成分分析在遗传统计学中的应用主成分分析在图像处理中的应用因子分析在问卷调查中的应用染色体人有23对染色体全基因组关联性研究

基于的假设(一般要求MAF>0.05):CommonDiseaseCommonVariation(CDCV)PublishedGenome-WideAssociationsthrough07/2012PublishedGWAatp≤5X10-8for18traitcategoriesNHGRIGWACatalog

人类疾病遗传易感性的关联性分析往往采用病例-对照(case-control)设计。

6AAAaaa合计病例r0r1r2r对照s0s1s2s合计n0n1n2n不同遗传模型对应的检验方法共显性模型:Pearsonχ2检验,自由度为2显性模型:合并(AA和Aa),Pearsonχ2检验,自由度为1隐性模型:合并(aa和Aa),Pearsonχ2检验,自由度为1AAAaaa合计病例r0r1r2r对照s0s1s2s合计n0n1n2n不同遗传模型对应的检验方法相加模型:方法1:计算allele的频率方法2:Cochran-ArmitageTest(TrendTest)Aa合计病例2r0+r1r1+2r22r对照2s0+s1s1+2s22s合计2n02n12n回归模型病例-对照设计中基因的关联性可采用logistic回归完成。

9曼哈顿图ManhattanPlot多重比较带来的问题由于芯片上有数十万个位点,对多重比较进行校正会严重影响效能!例如,500000个位点,检验水准为0.05/500000。

11连锁不平衡(linkagedisequilibrium)如果两个位点上某两个等位基因不是独立出现,称为连锁不平衡(LD),否则称为连锁平衡(LE)。假设有两个位点,Allele分别为A/a和B/b,则在满足HW平衡时:D=x11-p1p2单倍型观察到的频率LELDABX11p1p2p1p2+DAbX12p1q2p1q2-DaBX21p2q1p2q1-DabX22p2q2p2q2+DLD的度量D’ 1或-1代表没有重组;若AF接近,高D’说明一个位点可以作为另外一个位点的好的替代;小样本时不稳定;若MAF很小会膨胀。r2

1代表两个位点信息完全相同;一般建议采用。CLPTM1L±20kbChr5:

1,371,007 1,398,002基于位点集的检验采用多位点分析方法,只需要对基因的个数进行校正。在检出有统计学意义的基因后,再对每个基因中的位点进行单位点分析,或进行精细作图(finemapping)。不难看出,由于此时比较的次数远远小于直接进行单位点分析时的比较次数,检验效能将得到较大的提高。

15主成分分析与位点集的分析若样本由n个个体组成,Zn×p为由p个位点组成的SNP集,其方差阵记为Vp×p。记Ep×p=(e1,e2,…,ep)和Lp=(λ1,λ2,…,λp)T分别为Vp×p的特征向量和特征根,λ1>λ2>….>λp。则主成分的定义为

16主成分分析与位点集的分析

17

18以5号染色体长臂上的CLPTM1L基因为例,比较单位点分析和位点集分析的结果。该基因中,rs465498已经被报道与高加索人的NSCLC存在着关联性。这里我们分别利用单位点分析、主成分分析法对CLPTM1L基因的数据进行分析,调整的协变量包括年龄、性别、吸烟情况。分析结果表明,该基因中所有的位点中,rs465498的单位点检验P值最小(1.30×10-7)。若严格按照全基因组水平利用Bonferroni法进行校正后(按500000个位点计算),P值为0.065。

19若采用基于位点集的方法,结果又将如何呢?

在主成分分析中,该基因具有关联性的位点之信息主要被第一、二主成分所体现,故若模型中包括前两个主成分时(解释了80%的变异),P值达到最小,为3.10×10-6。假定基因组上包括了20000个基因,则利用Bonferroni法进行全基因组水平的校正后,主成分法的P值=0.062,小于单位点分析的P值,说明基于位点集的分析方法将使得这些位点所在的区域有更高的可能性进入下一轮的验证研究。

20人群分层(PopulationStratification)人群间患病率不同;某些位点在人群间存在系统差异;这些位点本身与疾病不存在关联性;人群分层的检测GenomicControl(λGC)所有SNP的检验统计量的中位卡方比上零假设时的理论中位数。λGC=1无分层λGC>1分层或者混杂(一般1.05以上)PP图人群分层的检验和校正利用λGC基于主成分分析(principalcomponentanalysis)利用PCA提取出能代表人群的变量;利用logistic回归模型进行调整;EIGENSTRAT采用家庭为单位的设计EIGENSTRAT分析的目的样本中是不是存在人群分层的现象,尤其是病例和对照组中人群结构是否存在差异;检查当前样本与所来自的种群是否存在差异;此外,也可以检查样本中是否混入了祖先与目标人群不同的个体而导致的群体离群值(populationoutlier)。

24EIGENSTRAT(1)

25EIGENSTRAT(2)

26EIGENSTRAT示例

27EIGENSTRAT用于人群结构识别

28EIGENSTRAT用于人群来源的识别在一项基于墨西哥人种的GWAS研究中,研究者对780名当地居民利用Illumina公司的芯片进行了基因分型。为了考察该样本中是否存在人群分层现象,并考察是否存在群体离群值,研究者首先从HapMap网站上下载了汉族、高加索人、非洲人、墨西哥人及日本人的单体型数据,并和样本数据整合,再进行了EIGENSTRAT分析,将第一和第二个特征向量绘制散点图。

29

30EIGENSTRAT用于群体异常值的识别

31EIGENSTRAT用于调整人群分层高加索人中,LCT基因与身高存在虚假的关联性rs3754686和rs2322660与身高相关当回归模型中引入主成分后,虚假相关性消失。

32主成分分析与图像处理MissKorea

33对齐后的美女

34EIGENFaces对图像数据进行预处理。对数据求解EIGENFaces和特征向量

35陡坡图

36前6个主成分

37每个人在各PC上的投影

38用第1、2主成分作图

39最特别的3位

40最像的变化和最不像的变化

41因子分析与问卷的效度分析

42

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论