




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学第一章生物序列资源哈尔滨医科大学王宏、张云鹏生物信息学第一节引言Section1Introduction一、生物数据库大致分为5类
基因组数据库核酸序列数据库蛋白质序列数据库生物大分子(主要是蛋白质)三维空间结构数据库对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,具有特殊生物学意义和专门用途的二次数据库二、从功能和数据类型进行细化DNA序列(DNAsequence)RNA序列(RNAsequence)微阵列数据和基因表达(microarraydataandgeneexpression)蛋白质序列(proteinsequence)分子结构(structure)蛋白质组学与蛋白质互作(proteomicsandinteraction)代谢与信号通路(metabolicandsignalingpathways)等第二节
NCBI数据库与数据资源Section2NCBIDataSources一、NCBI序列数据库概述1988年11月美国国家健康研究所(NIH)、国家医学图书馆(NLM)发起成立。1992年,NCBI建立GenBank核酸序列数据库,将美国专利商标局存储的专利序列并入GenBank管理,并与EMBL、DDBJ(与GenBank并称世界三大生物序列信息数据库)实现数据资源的交换和共享。NCBI采用著名的Entrez搜索和信息检索系统构建FTP数据资源下载平台
(/guide/all/#downloads)向用户提供BLAST序列相似性比对、ORFFinder开放读码框搜索等软件工具NCBI主页各功能区域分布二、NCBI中的重要子库介绍(一)GenBank与RefSeqGenBank是NIH遗传序列数据库,集成所有公开可获得的已注释DNA序列;核酸序列数据根据不同的研究属性,分属于Nucleotide、GSS和EST三个子库;Nculeotide收录绝大多数常规的核酸序列;GSS收录测序起始阶段用来进行序列或基因示踪、重复序列或基因数量预判等的各种短读长序列;EST收录cDNA及cDNA特征序列信息。RefSeq数据库NCBI在GenBank数据基础上针对每个基因不同的数据类型提取一个可靠的注释条目作为参考条目。RefSeq数据标识如NM_000572.2"NM"代表特异的数据类型".2"表示更新版本(二)
Gene基因数据库收录全部已测序物种的基因注释信息。包括基因的命称、染色体定位、基因序列和编码产物(mRNA、蛋白质)情况、基因功能和相关文献信息等。与GenBank、OMIM、遗传多态数据库(如dbSNP、dbVar)等NCBI子库,及KEGG、GeneOntology等外源性数据库进行交叉引用。Gene数据标识符即EntrezgeneID。依据基因的发现顺序由一到多位数字组成。如IL10的基因标识符为3586。Gene数据库中的主要注释内容(三)GenomeNCBI收录已经完成测序的生物体全部基因组序列和定位数据及正在测序的物种阶段性发布的基因组信息。收录生物体的种类已超过1000种。Genome数据库中的人类X染色体可视化注释(四)遗传多态数据库dbSNPdbVardbGaPClinVar
dbSNP收录了所有物种中发现的短序列多态和突变信息;dbVar主要收录较大规模的基因组变异;dbGaP数据库收录大量以遗传多态为分子标记物的基因型和表型(疾病)关联性研究数据;ClinVar收录临床中发现或报导的有证据支持的与人类疾病或健康状态有关的变异位点。dbSNP基因多态及其功能信息显示(五)GEO(GeneExpressionOmnibus)数据库接收和管理基因芯片或测序技术获得的表达数据。GEO的数据类型GPL(Platform):特定的芯片或测序平台类型。GSM(Sample):参与基因表达测序的样本或个体信息。GSE(Series):一组相关样本实验测定的基因表达谱数据。(六)蛋白质数据库NCBIProtein数据库收录来源于GenPept、RefSeq、Swiss-Prot、PIR、PRF及PDB等蛋白质数据资源的蛋白质序列和注释数据。ProteinCluster数据库提供存在一定联系的蛋白质集合信息,并与蛋白质注释、结构、结构域、家族相关数据库之间交互访问。Structure数据库提供蛋白质三维结构信息及相关的可视化和结构比对工具。(七)EpigenomicsNCBIEpigenomics是一个表观基因组数据查询和浏览相结合的数据库。(八)Unigene数据库分别将不同来源的基因序列、蛋白质相似性(与模式生物比较)、基因表达(不同组织或发育状态)、染色体定位、cDNA序列、mRNA序列(选择性剪接)、EST序列等进行罗列和比较。(九)与生物医学相关的重要数据库OMIM数据库以疾病和基因为中心,阐述遗传变异介导的疾病(表型)相关基因情况。dbMHC收录人类主要组织相容性复合体数据及其相关的分子标记物信息。HIV-1与人类蛋白质互作数据库收录HIV-1蛋白与人类宿主蛋白相互作用信息。(十)NCBI提供的重要支持工具Primer-BLAST/tools/primer-blast/可用于多方面生物医学研究过程的核酸引物设计。其他软件工具:开放阅读框搜索(ORFFinder)、电子PCR和序列提交工具Sequin和BankIt等。使用Primer-BLAST设计引物
第三节
UCSC基因组浏览器与数据资源Section3UCSCGenomeBrowserandDataSource一、UCSC概述UCSC数据库主页面工具栏中的基因组查询和注释工具Browser可以以缩放和滚动的方式查看染色体的注释。Blat可以快速将用户输入的序列以图像的方式在基因组中显示。Tables提供便捷的入口链接到基础数据库。GeneSorter展示表达、同源性和以多种方式关联的其他基因组信息。VisiGene可以让用户浏览大量的检测小鼠和青蛙表达模式的原位图像。GenomeGraphs允许用户上传或显示基因组范围的数据集。二、UCSC基因组浏览器二、UCSC基因组浏览器的检索与可视化操作Configure按钮可以调整显示方式和显示维度等,从7方面进行设置:①Displaychromosomeideogramabovemaingraphic是显示染色体模式图;②Showlightblueverticalguidelines是显示蓝色垂直引导线;③Displaylabelstotheleftofitemsintracks是显示窗口左侧的元件标签;④Displaydescriptionaboveeachtrack是在图像上方显示通道名称;⑤Showtrackcontrolsundermaingraphic是显示浏览器下方的控制栏列表;⑥Next/previousexon(item)navigation是显示基因通道状态下的从一个外显子或比对区段到下一个外显子或比对区段的控制按钮(序列上的双箭头);⑦Enablehighlightwithdrag-and-select是指高亮显示拖拽中或已选取的通道图像。UCSC浏览器辅助工具栏A:显示和移动比例工具栏;B:浏览器窗口配置工具栏;C:窗口移动和调节工具栏三、UCSC中的数据资源和常用工具(一)UCSC中的数据资源UCSC收录了包括人类基因组在内的48种哺乳动物(mammal)、19种其他脊椎动物(vertebrate)、3种后口动物(deuterostome)、20种昆虫(insect)、线虫(nematode)等众多动物,及病毒(virus)、酵母等微生物全基因组数据。包括基因和基因结构、开放读码框、mRNA、EST、转录本、非编码基因、基因表达、基因调控、基因变异(SNPs、微缺失、微插入等),及重复序列等信息。(二)view中的图像输出和DNA序列检索功能基因组浏览器图像输出UCSC基因组浏览器支持生成适于文献出版和打印的高质量图像。DNA序列检索导航栏view按钮中的DNA选项能够实现浏览器中显示的染色体区段的DNA序列提取和下载。(三)TableBrowser下载数据TableBrowser检索界面与输出结果示意使用表格浏览器可以①获取DNA序列、全基因组、指定的坐标区段或一组注册号的隐含注释通道数据;②应用过滤器设置约束条件,确定输出结果类型和格式;③生成在基因组浏览器中图形显示的查询通道;实现数据结构和任意格式SQL检索;④整合多表格或查询通道交叉或统一检索,以及生成单一的数据输出集。⑤显示指定数据集碱基统计计算结果;⑥显示表格概要并且查看数据库中所有与查询表格相关的其他表格清单;⑦将输出数据整理成几种不同的格式用于电子表格、数据库或查询通道等不同用途。(四)BLAT序列比对工具支持目标序列与参考基因组进行DNA或蛋白序列比对。DNA比对快速寻找95%或更高的匹配度的40碱基以上相似序列,可能会丢失低匹配度的短片段序列。蛋白序列比对快速搜索比对长度在20氨基酸以上、相似性超过80%的序列。BLAT适用于①在指定的基因组参考数据中寻找与目标序列相匹配的mRNA或蛋白;②确定基因的外显子定位;③显示完整长度基因的编码区域;④分离EST;⑤查询基因家族数量;⑥寻找人的同源性序列。BLAT比对配置与结果显示第四节EMBL-EBL数据库与数据资源Section4EMBL-EBIDataSourcesandTools一、EMBL-EBI数据库概况EMBL实验室1980年于德国海德堡成立,是世界上第一家核酸序列数据管理机构。1992年EMBL理事会投票决定于英国威康信托基因组科学园建立欧洲生物信息学研究所,并于1995年完成迁移工作。当时EBI拥有两个数据库,一个为EMBL核酸序列数据库(EMBL-Bank)和一个蛋白质序列数据库(UniProt)。生物分子数据资源EMBL-Bank(DNA和RNA序列)Ensembl(基因组)ArrayExpress(微阵列基因表达)UniProt(蛋白质序列和注释)interPro(蛋白质家族、结构域和基序)Reactome(细胞通路)ChEBI(小分子)等二、EMBL基因组和核酸序列资源Ensembl数据库提供高质量、综合注释的脊椎动物基因组数据。EnsemblGenomes数据库提供非脊椎动物全基因组数据。Ensemble数据库资源网址:/在主页中提供ENCODE数据访问、基因表达的组织差异性分析、基因序列提取、变异位点效应预测、基因多态性定位、跨物种基因比较、用户数据分析、疾病与表型分析8个功能研究模块。Ensembl功能界面及基因组和基因检索信息EMBLENA核酸测序数据资源ENA:欧洲核酸数据库
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 档口入股合同协议书
- 装修合同变更协议书范本
- 转让档口合同协议书
- 房屋拆除货币合同协议书
- 安全旅行课件
- 自建旧房拆除合同协议书
- 货车运营合作合同协议书
- 软件购买合同协议书范本
- 中国塑料防盗瓶盖项目创业计划书
- 保洁解除合同协议书
- DB65-T 4863-2024 超设计使用年限压力容器安全评估规则
- 2025陕西建工控股集团限公司招聘12人易考易错模拟试题(共500题)试卷后附参考答案
- 光储充一体化低碳发展项目可行性研究报告写作模板-备案审批
- 智慧工会管理系统需求方案
- 临床三基培训
- 配电室巡检培训
- 2024草原承包合同书
- 钢结构阁楼合同范例
- 2022年首都师范大学计算机科学与技术专业《数据结构与算法》科目期末试卷A(有答案)
- 福建省福州教育学院附属中学2025届高考数学四模试卷含解析
- 全国扶贫开发信息系统业务管理子系统用户操作手册20171110(升级版)
评论
0/150
提交评论