




已阅读5页,还剩81页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实习三芯片的基本数据处理和分析,冯 晔 楼小燕 牟晓洲 孔建明 阮 陟,课程内容,基因组学,转录物组学,蛋白质组学,系统生物学,实习内容:,TIGR TM4 软件的介绍和使用GenMAPP软件的介绍和使用GEO数据库的介绍,芯片数据分析的一般流程:,芯片杂交实验 ,芯片数据采集(读取扫描图)数据基本处理数据提交公共数据库数据生物信息学分析,A package of Open Source software programs for Microarray analysis,芯片数据采集(读取扫描图),数据基本处理,存储整理芯片数据(数据库),芯片数据分析结果的图形显示,(/software/microarray.shtml),TIGR TM4:,RT,RT,cDNAarray,样本 mRNA,对照 mRNA,TIF 扫描图,常见的双通道(dual channel)实验流程:,MEV文件:MEV格式的芯片数据,UID:Unique identifier for this spot.IA:Integrated intensity for channel 1 (Cy3).IB:Integrated intensity for channel 2 (Cy5).R:Row (slide_row).C:Column (slide column).MR:Meta-row (block row).MC:Meta-column (block column).SR:Sub-row (row in block).SC: Sub-column (column in block).FlagA:TIGR SpotFinder flag value for channel 1.FlagB:TIGR SpotFinder flag value for channel 2.BkgA:Background intensity for channel 1.BkgB:Background intensity for channel 2.SAA:Spot area for channel 1.SAB:Spot area for channel 2.MedA:Median Intensity for channel 1 (Cy3).MedB:Median Intensity for channel 2 (Cy5).,位置,信号值,什么是区块(block)?,非饱和区域,饱和区域,信号杂交的一些概念,背景,探针区域,Flags in Mev file:,A 0 non-saturated pixels in the spotB 0-50 non-saturated pixels in the spotC 50 or more non-saturated pixels in the spotX spot is rejected, due to spot shape and intensity relative to backgroundY background is higher than spot intensityZ spot not detected by Spotfinder.,good,MEV注释文件(后缀名为.ann),GenePix格式(.gpr),Agilent 格式 (.txt):,Express Converter: 芯片数据的格式转换,下载地址:/scgi-bin/getprogram.cgi?program=expcnvt;下载后,解压安装即可。 “开始” “所有程序”处打开。需要先安装Java,Java下载地址:;,ExpressConverter的界面:,ExpressConverter使用方法:,指定输入和输出的文件格式。 在“FileSelect input files”选定一个或多个需要转换的文件。选择“FileStart converting”,格式就开始转化。,界面左下方显示“Converting is successful”后, 格式转换完成。此时在原genepix存放的文件夹中会出现文件名相同但后缀名不同的.mev和.ann的文件。,input,output,课堂练习,使用ExpressConverter将testdata.gpr转换成testdata.mev和testdata.ann。用记事本查看testdata.gpr,testdata.mev和testdata.ann。,ExpressConverter: “开始” “所有程序”Testdata.gpr: C:Program FilesExpressConverterexample,MIDAS: 数据基本处理,下载地址是:/midas.html。此程序不用安装下载后解压就可以使用。(需要先安装Java)进入文件夹,双击打开Midas.dat文件,会出现后台运行窗口和图形界面窗口。,低质量数据过滤,根据flag过滤根据信号和背景值过滤,标准化(normalizaton),MAplot。Y轴为Mlog(ratio);X轴为信号强度A=1/2log2(RG)。,区块间均一化处理,MIDAS程序界面,MIDAS 可选的数据处理方法,标准化处理方法,Total Intensity normalization,低质量数据过滤方法,Invalid-intensity checking,LOWESS (Locfit) normalization,Iterative linear regression normalization,Iterative log mean centering normalization,Ratio Statistics normalization,Low intensity filter,Standard deviation regularization,Slice analysis (non-statistical),In-slide replicates analysis,Flip-dye consistency checking,Ratio Statistics confidence interval checking,Signal/Noise checking,Cross-file-trim,Spot QC flag checking,MA-ANOVA,Cross-slide replicates t-test (statistical),Cross-slide one-class SAM (statistical),差异表达基因识别方法,用MIDAS处理单张双色芯片的基本流程:,芯片数据的读入;低质量数据的过滤;标准化(包括区块间的均一化);结果文件的输出。,Step 1:芯片数据的读入,Step 2:低质量数据的过滤,Step 3:标准化(包括区块间的均一化);,Step 4:结果文件的输出,结果文件(夹):,*_MDS.mevRawLow_intensity_filterLowessSd_reg,MIDAS统计作图(MIDAS Investigation窗口查看),R-I plot (.prc),Box plot (.box),FlipDye Diagnostic plot (.rrc),Intensity plot (.ity, .lty),Z-score Distribution plot (.his),SAM plot (.sam),课堂练习,使用MIDAS处理testdata.mev,并查看结果文件;MIDAS程序位置:C:zcnishiyan3MIDAS2_19;双击Midas.bat打开程序;输入文件testdata.mev由ExpressConverter产生,在C:Program FilesExpressConverterexample;,多样本芯片实验,实验适用范围:例如,分型,不同发育阶段的表达,不同剂量药物下的表达,等等;使用共同的对照:采用标准对照,或将所有样品混合作为共同对照;,多样本实验的两种常用分析,聚类差异表达基因的筛选,下载地址是:/mev.html 。此程序不用安装下载后解压就可以使用。(需要先安装Java)进入文件夹,双击打开TMEV.dat文件,会出现后台运行窗口和图形界面窗口。,MEV程序运行界面,工具栏,导航栏,结果页面,MEV可以读取的文件格式:,MIDAS MEV, TAV 格式;表格格式;GEO格式;Affymetrix格式;GPR格式;Agilent格式;等等;,从“File-Load Data”导入数据:,选择格式,以表格文件为例:“select-Tab Delimited, Multiple Sample Files (TDMS) (*.*)”,数据起始位置,不同颜色表示相对表达量,样本名,基因名,用等级聚类法(Hierarchical Clustering)对基因和样本聚类,聚类结果:,使用sam查找差异表达基因,不同实验类型,样本分组,Sam结果:Expression images,Sam结果:Centroid graphs,Sam结果:Expression graphs,Sam结果:Table views,课堂练习,使用MEV处理TDMS_format_sample.txt ,并查看结果文件;MEV程序位置:C:zcnishiyan3MEV_4_0;双击TMEV.bat打开程序;输入文件TDMS_format_sample.txt在C:zcnishiyan3MEV_4_0data中;,GenMAPP:一款将芯片数据和代谢途径结合起来的图形化显示工具,下载地址: /download.asp ;双击安装文件安装GenMAPP;打开GenMAPP程序,从菜单“DataDownload Data from GenMAPP.org”下载自己感兴趣物种的MAPP文件和Gene Database。,GenMAPP安装和更新,GenMAPP基本概念的介绍,MAPP:描述了模式生物的代谢途径图; 目前MAPP数据库中包含了人 (H.sapiens)、小鼠 (M.musculus)、 大鼠 (R.norvegicus)、 酵母 (S.cerevisiae)、 线虫 (C.elegans)、 狗 (C.familiaris)、 鸡 (G.gallus)、 牛 (B.taurus)、 果蝇 (D.melanogaster)和斑马鱼 (D.rerio)等模式生物。 Gene database:包含了上述物种所含基因的注释及其基因标识号(ID)。 对于每个基因,Gene Database会建立它在各个gene ID system中的对应关系。比如,Trp53基因在MGI(小鼠基因组数据库)中的标识号为MGI:98834,而在UniGene数据库中标识号为Mm.222,在Ensembl数据库中标识号为ENSMUSG00000059552。,Step 1:从“开始”打开“GenMAPP 2”程序。然后下拉菜单“DataChoose Gene Database”按照实验物种选择合适的基因库。,Step 2:从菜单“FileOpen”打开自己感兴趣的MAPP文件。,Step 3:从菜单“FileData Choose Expression Dataset”打开表达数据文件(.gex)和颜色集,Step 4: 点击感兴趣的基因查看注释,如何制作.gex表达量文件?,将芯片数据用EXCEL中按一定格式整理,2: 将EXCEL另存为文本文件(txt后缀名或csv后缀名),可在Data菜单“Expression DatasetsNew dataset”导入该文本文件。这时程序会向用户提问文件中的数据是数值型还是文本型,对文本文件要在图示框中选勾,点击OK即可,一般Control Average、Treated Average、Fold Change和p-value为数值型,其他为文本型。,如何制作颜色集(color set)?,在菜单“Data Expression Dataset Manager ”界面下从菜单“Color sets new”新定义一个颜色集。,课堂练习,在“开始” “所有程序”处打开GenMAPP 2程序;Gene Database文件位置:C:GenMAPP 2 DataGene Databases;MAPP文件位置:C:GenMAPP 2 DataMAPPs;芯片表达量文件位置:C:GenMAPP 2 DataExpression Datasets;,芯片数据的检索和提交,MIAME(Minimum Information About a Microarray Experiment )/Workgroups/MIAME/miame.html,原始探针杂交数据经标准化处理后的数据样本mRNA来源及其实验步骤芯片实验设计,包括实验中各张芯片间的关系芯片每个探针的详细信息芯片杂交和数据处理的步骤,常用的芯片数据库,NCBI GEO: /geo/EBI ArrayExpress: http:/www.ebi.ac.uk/microarray-as/aer/?#ae-main0 Stanford Microarray Database: /UCSC Microarray Database: /research/research_microarraydata.shtml,GEO (Gene Expression Omnibus) 主页,也可这样检索:NCBI主页Search “GEO Datasets”,以检索人类癌症相关的芯片实验为例,输入“human AND cancer”:,每条记录包含的信息:,Platform:芯片信息Sample: 样本信息Series:综合信息,Platform信息 (SOFT格式):,Platform_title:芯片名称;Platform_technology:点制芯片探针的方法,例如ORF或cDNA的PCR产物(spotted DNA/cDNA)、原位杂交的寡核苷酸( in situ oligonucleotide)和直接点样的寡核苷酸(spotted oligonucleotide)等;Platform_distribution:注明是否属于商品芯片(non-commercial, commercial, custom-commercial);Platform_organism:芯片适用的物种;Platform_manufacturer:芯片制作单位;Platform_manufacture_protocol:芯片制作的实验过程,例如探针合成方式和点样方式等;platform_table:芯片中每一个点的探针的内容。,Sample信息(SOFT格式):,Sample_title:样本名称;Sample_supplementary_file:样本附件的名称。附件指的是芯片杂交后扫描的TIFF格式的图像等文件。Sample_source_name_ch1:channel 1样本DNA/RNA材料的来源(来源于哪个组织,细胞等等);Sample_organism_ch1:channel 1样本DNA/RNA材料来源于哪个物种;Sample_characteristics_ch1:channel 1样本DNA/RNA材料的特点;Sample_molecule_ch1:channel 1样本分子的特性(total RNA, polyA RNA, cytoplasmic RNA, nuclear RNA, genomic DNA, 等等);Sample_extract_protocol_ch1:channel 1样本提取的步骤;Sample_label_ch1:channel 1样本标记的染料(Cy3 or Cy5);Sample_label_protocol_ch1:channel 1样本标记染料的步骤;,Sample_source_name_ch2,Sample_organism_ch2,Sample_characteristics_ch2,Sample_growth_protocol_ch2,Sample_molecule_ch2,Sample_extract_protocol_ch2,Sample_label_ch2和Sample_label_protocol_ch2是channel 2 样本的信息,同channel
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年互联网金融行业数字货币应用前景报告
- 2025年汽车行业新能源汽车市场前景预测报告
- 2025年金融行业智能投顾服务发展前景研究报告
- 2025年通信行业物联网应用前景研究报告
- 2025年医疗器械行业全球市场前景展望报告
- 2025年医疗器械行业智能医疗器械发展前景报告
- 2025年汽车行业电动汽车市场发展前景分析报告
- 大连市2025辽宁大连工业大学赴北京体育大学东北师范大学北京师范大学招聘事业笔试历年参考题库附带答案详解
- 北京市2025北京市卫生健康委员会直属事业单位招聘20人笔试历年参考题库附带答案详解
- 佛山市2025广东佛山市三水区财政投资评审中心事业单位人员招聘3人笔试历年参考题库附带答案详解
- 现场5S管理问题及改善
- 临床试验监查员工作总结
- 《目录学概论》课件
- 《保密意识培训》课件
- 2025年“物业管理及公共服务”等知识考试题库附完整答案【历年真题】
- 新时代大学生劳动教育 课件 第1章 劳动和劳动形态
- 生鲜店加盟合同模板
- 电影刮痧课件教学课件
- 游戏厅转让合同范本样本
- DB34∕T 4253-2022 公路水运工程质量监督规程
- 人教版数学四年级上册第二单元习题
评论
0/150
提交评论