南京工业大学《生物信息学》期末复习.pdf_第1页
南京工业大学《生物信息学》期末复习.pdf_第2页
南京工业大学《生物信息学》期末复习.pdf_第3页
南京工业大学《生物信息学》期末复习.pdf_第4页
南京工业大学《生物信息学》期末复习.pdf_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生工生工 12021202 生物信息学考试参考资料生物信息学考试参考资料 1 1、生物信息学的主要应用有哪些?、生物信息学的主要应用有哪些? 生物信息学数据库:数据库建立、数据库整合和数据挖掘 序列分析:序列比对、基因序列注释 其他:比较基因组学、基因和蛋白质的表达分析、生物芯片大规模功能表达谱的分 析、蛋白质结构的预测、蛋白质与蛋白质的相互作用、生物系统模拟、代谢网络建模分析、 计算机进化生物学、生物多样性研究、合成生物学 2 2、生物学数据库有哪些特点?、生物学数据库有哪些特点? 数据库的更新速度不断加快、数据量呈指数增长 数据库使用频率增长更快 数据库的复杂程度不断增加 数据库网络化 面向应用 先进的软硬件配置 3 3、一级数据库和二级数据库的区别是什么?有哪些一级数据库和二级数据、一级数据库和二级数据库的区别是什么?有哪些一级数据库和二级数据 库?库? 一级数据库属于档案数据库, 库中的主要内容是来源于实验室操作所得到的原始数据结 果; 二级数据库则是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注 释而构成的 一级数据库:核酸序列数据库 GenBank、EMBL、DDBL 及蛋白质数据库 PDB 二级数据库:NCBI 的 RefSeq 数据库 4 4、数据库的、数据库的 FastaFasta、FlatFlat filefile 和和 XMLXML 格式各有何特点?格式各有何特点? (1)FASTA 序列格式包括三个部分: (书上没有 PPT 第二章第 19-20 页) 1.在注释行的第一列用字符“”标识,后面是序列的名字和来源; 2.标准的单字符标记的序列; 3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序 正确读取序列所必须的。 提供了从一个窗口到另一个窗口非常方便的拷贝途径,序列中没有数字或其他非字符。 从第二行开始是序列本身, 标准核苷酸符号 (大小写均可) 或氨基酸单字母符号 (大写) 。 (2)平面文件格式Flat File 纯文本文件、通用性好、检索复杂,冗余字段较多,大容量数据库难以处理 (3)XML 格式(PPT 第二章第 29、32 页) 一个 XML 文件代表一个嵌套的信息树。 树中的每一个节点能包含像一串子节点或者一些 属性这样的数据,并且一个 XML 文件始于根节点。一个 XML 文件有一个文本,在文本中每一 个节点的内容及其子节点被一对相互封闭的标签划定。形式上类似 html。 5 5、GenBankGenBank 数据库中的数据库中的 GenBankGenBank 条目包含哪些内容?请结合条目包含哪些内容?请结合 GenBankGenBank 中的中的 具体的序列信息加以说明。具体的序列信息加以说明。 GenBank 数据库(包括 NCBI 核酸和蛋白质序列数据库)中条目格式如下:给出描述每一 个序列的信息,包括文献参考、序列的功能信息、mRNA 和编码区域的位置,以及重要突变 的位置。 例: 这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。 在某些条目中,标识符可能缩写成两个字母(例如 RF 代表 reference),某些字段可能 还有次级字段。 计算机程序中的序列条目位于标识符“ORIGIN”和“/”之间。这些字段提供的信息可 以参见网页 /Sitemap/samplerecord.html 序列每行前面标有数字, 以显示片断位置。 序列计数或序列校检求和的值可被计算机程。 用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。 GenBank 序列格式通常需要改变以适应序列分析软件。 6、蛋白质序列数据库有哪些?蛋白质序列数据库有哪些? SWISS-PROT、PIR 7 7、序列比对在什么情况下选择核苷酸序列?在什么情况下选择蛋白质序、序列比对在什么情况下选择核苷酸序列?在什么情况下选择蛋白质序 列?列? 核苷酸序列: 在确认给定 DNA 序列和 DNA 数据库中的序列的一致性时在搜索多态性时 在分析所克隆的 cDNA 片段的一致性时 蛋白质序列:由于蛋白质序列比 DNA 所含信息多,所以除以上情况外用蛋白质序列 8 8、请比较同源性、同一性和相似性三个概念。、请比较同源性、同一性和相似性三个概念。 同源性: 是指从某个共同祖先经趋异进化而形成的不同序列, 也就是从一些数据中推断出的 两个基因在进化上具有共同祖先的结论,是质的判断 同一性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例 相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的度量 9 9、举例说明何为直系同源,何为旁系同源?、举例说明何为直系同源,何为旁系同源? LOCUSname of locus, length and type of sequence, classification of organism, data of entry DEFINITIONdesicription of entry ACCESSIONaccession number of original source KEYWORDSkey words for cross referencing this entry SOURCEsource organism of DNA ORGANISMdescription of organism 1010、总结、总结 BLASTBLAST 比对程序家族的主要程序,如何选择?比对程序家族的主要程序,如何选择? 11、解读解读 BLASTBLAST 程序的比对结果所代表的含义程序的比对结果所代表的含义。 (1)该搜索的详细情况,包括 BLAST 搜索的类型、所搜索的数据库的描述、查询内容和分 类连接(taxonomy reporter) (2)显示的是数据库中与查询序列相匹配的项的简明图形。每一条彩色带表示数据库中与 查询序列相匹配的蛋白质或核酸序列,不同颜色表示不同高低的得分。 (3)与查询序列相匹配的数据库中的序列列表。每一条序列包括其 Score(bits)、E value 及该序列在相应数据库中的链接。 (4)查询序列与目标序列之间的双序列比对情况。Score 为位记分分数;Expect 为期望值; Positives 为相似性分值;Identities 为同一性分值;Gaps 为空位。 1212、如何寻找远缘相关的蛋白质?、如何寻找远缘相关的蛋白质? PSI-BLAST 是位点特异性迭代 BLAST,用来寻找远缘相关的蛋白质序列,对于蛋白质的相似 序列的寻找比常规 blastp 更敏感。 PSI-BLAST 工具的比对步骤为: (1)用 blastp 在目标数据库中进行比对搜索; (2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性矩阵 PSSM; (3)用第二步获得的 PSSM 矩阵再一次搜索目标数据库; (4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执行 24 步,一般要重复 5 次,而当新的结果不再出现或者程序明确指出不会再有新的结果出现时, 可以停止比对循环。 1313、如何利用、如何利用 BLASTBLAST 来发现新基因?来发现新基因? (1)用一个已知序列蛋白质开始 TBLAST 比对,搜索一个 DNA 数据库; (2)检查结果:寻找与已知蛋白质,相关蛋白质的 DNA 序列匹配,非显著序列的匹配; (3)进行 BLASTX NR 或 BLASTP NR 比对 (4)用你新发现的 DNA 或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个新的基因 或蛋白质。 1414、提供了蛋白质结构的检索和查询服务的数据库主要有哪些?、提供了蛋白质结构的检索和查询服务的数据库主要有哪些? PDB 数据库 、DSSP 数据库、 HSSP 数据库SCOPCATH 1515、简要说明四个层次的蛋白质结构。、简要说明四个层次的蛋白质结构。 (一)一级结构 蛋白质的一级结构(primary structure)是指多肽链的氨基酸残基的排列顺序。 (二)二级结构 蛋白质二级结构(secondary structure)是指多肽链主链原子借助于氢键沿一维方向排列 成具有周期性的结构构象,是多肽链局部的空间结构(构象)主要有螺旋、折叠、转 角、无规卷曲等形式 (三)超二级结构、结构域 超二级结构(supersecondary structure)是指相邻的二级结构单元组合在一起,彼此相互 作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体,同时充当三级结构的构 件,基本形式有 、 、 等。 (四)三级结构 三级结构(tertiary structure)是指整条多肽链的三维结构,包括骨架和侧链在内的所有 原子的空间排列。 (五)四级结构 e 四级结构(quat rnary structure)指在亚基和亚基之间通过疏水作用等次级键结合成为有 序排列的特定的空间结构。 1616、PDBPDB 数据库中蛋白质结构信息的存储格式和数据库中蛋白质结构信息的存储格式和 PDBPDB 数据库的检索方法。数据库的检索方法。 PDB 数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。PDB 数据库允许用 户用各种方式以及布尔逻辑组合(AND、OR 和 NOT)进行检索,可检索的字段包括功能类别、 PDB 代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源 等项。 1717、PDBPDB 收录了哪些实验类型的结构数据?收录了哪些实验类型的结构数据? X 射线晶图谱法,核磁共振法,电子显微镜二维晶体三维结构 1818、了解蛋白质的结构有何重要意义。、了解蛋白质的结构有何重要意义。 有助于了解打不着如何行使其生物功能, 认识蛋白质之间相互作用, 对未知通过结构分 析进行功能注释,确认功能单位,结构域,可以为遗传操作提供目标为设计新的蛋白质 或改造已有蛋白质提供可靠依据,同时为新的药物分子设计提供合理靶分子及结构 1919、蛋白质结构家族分类数据库主要有哪些?、蛋白质结构家族分类数据库主要有哪些? SCOP,CATH,FFSP 2020、目前蛋白质结构可视化工具主要有哪些?、目前蛋白质结构可视化工具主要有哪些? Weblab viewlite,Swiss-PDBviewer,INSiGHTII,RASMOL,CHIME.Cn3D 2121、蛋白质结构分析主要包含哪些方面?、蛋白质结构分析主要包含哪些方面? 组织层次、结构测定及预测,蛋白质折叠 2222、如何进行蛋白质结构比对?有哪些常用的结构比对工具?、如何进行蛋白质结构比对?有哪些常用的结构比对工具? 首先对两个蛋白质结构定义结构相似部分(或称共同子结构) ;然后通过多次迭代策略 来调整共同子结构, 直到找出优化的结构比对, 即找到两个蛋白质空间上最大的重叠部 分。DALI 方法、CE 方法、STRUCTURAL 方法、SSM 方法、TM-align 方法 2323、蛋白质结构预测方法有哪些?、蛋白质结构预测方法有哪些? 蛋白质三级结构的预测方法: 同源模建 、 折叠识别 、 从头计算法 蛋白质二级结构的预测方法:Chou-Fasman 方法(简单的统计方法) 、GOR(复杂的统 计方法) 、PHD 和 PSIPRED(先进的机器学习方法) 2424、同源建模方法预测蛋白质结构的基本步骤有哪些?、同源建模方法预测蛋白质结构的基本步骤有哪些? 1、模板的选择 2、待测序列与模板序列的比对 3、同源模型的建立 4、同源模型精修和评估 2525、为什么要进行基因组结构注释?、为什么要进行基因组结构注释? 开展依赖基因组信息的研究工作, 在基因组中鉴定各类功能元件, 如编码蛋白质的基因、 RNA 基因、重复序列和假基因,并确定这些元件的生物学功能。包括: (1)确定蛋白质编码基因及其外显子-内含子结构,并推断其生物学功能。 (2)进行 RNA 基因的预测,并推断其功能和相互作用靶标分子。 (3)确定基因组中重复序列的含量和分类。 (4)进行假基因的识别和分类。 2626、真核生物蛋白质编码基因中包含哪些功能位点信号和调控元件?、真核生物蛋白质编码基因中包含哪些功能位点信号和调控元件? 功能位点信号:核糖体结合位点、内含子供体和受体剪接位点、内含子分支点、起始和 终止密码子、CpG 岛。 调控元件:顺式作用元件:其中包括启动子、上游启动元件、增强子、沉默子、Poly(A) 尾巴、内在终止子等。 2727、常用的编码蛋白质基因的注释方法有哪些?、常用的编码蛋白质基因的注释方法有哪些? 基于证据的注释,从头开始的基因预测,重新基因测定,整合信息,编码基因的功能注 释 2828、什么是、什么是 ESTEST 序列?如何利用序列?如何利用 ESTEST 序列预测基因?序列预测基因? EST:完整 mRNA 转录物的片段。 把来自不同克隆的 EST 拼接起来形成完整的 cDNA 弥补其数量缺少的情况 利用 PASA 程序软件将聚类的转录物片段(全长 cDNA 和 EST)拼接成最大对比片段 得到完整地或者部分的基因结构,并获得更多的可变剪切的信息 2929、如何识别假基因?、如何识别假基因? 假基因是基因组中与真基因序列相似但缺乏功能的 DNA 序列 鉴定: 获得去除重复序列的基因组序列和蛋白质序列, 利用 BLAST 在基因组中授与蛋白 质相似的序列,去除与已知基因高度重复序列,去除冗余和重复的 BLAST 匹配片段,合 并相邻的序列, 确定假基因对剩余的序列利用 FASTA 与基因测序比对, 与以前的假基因 合并,根据两种假基因特征对假基因进行筛选分类 30、简述基因组注释的基本流程。简述基因组注释的基本流程。 (1)首先进行蛋白质编码基因的注释(2)再进行 RNA 基因注释(3)其次进行重复序 列的注释(4)最后进行假基因注释 3131、简述系统生物学定义及基本工作框架。、简述系统生物学定义及基本工作框架。 定义:系统生物学是研究一个生物系统中所有组成成分(gene、mRNA、protein 等)的 构成,以及特定条件下这些组分间的相互关系的学科。 基本工作框架:1)系统结构鉴定 2)系统行为分析 3)系统控制 4)系统设计 3232、差异表达基因分析主要有什么用途?、差异表达基因分析主要有什么用途? 基于差异表达(DBRF)的调控识别从基因表达水平的差异推测可能的基因网络 3333、举例说明如何构建信号转导模型。、举例说明如何构建信号转导模型。 细菌的化学趋向:一个鲁棒的信号转导模型 通过机理分析和动力学参数分析建立 NF-KB 信号转导网络状态空间模型 针对 NF-KB 信号转导网络利用直接微分法分析动力参数小范围变化对输出的影响, 根 据局部灵敏度参数矩阵分析模型参数相关性可辨识性 细胞信号转导网络结构的复杂性和参数不确定性影响系统动态特性 为了有效估计模型参数以 Fisherie 信息矩阵 FIM()和估计参数的协方差矩阵为基 础研究 NF-KB 信号转导网络输入信号 系统模型简化 3434、 KEGKEGG G数据库中的通路有哪些类别?简数据库中的通路有哪些类别?简述述KEGKEGG G数据库的通路组织和检索方法数据库的通路组织和检索方法。 (1)Map 通路(2)ko 通路中的点只表示基因(3)ec 通路中的点只表示相关的酶 (4)Reaction 通路中的点只表示改点参与的某个反应、反应物对及反应类型(5)org 通路 (2)通路组织:KEGG PATHWAY 数据库是一个手工画的代谢通路的集合,包含以下几方 面的分子间相互作用和反应网络: 1.新陈代谢 2.遗传信息加工 3.环境信息加工 4.细胞过程 5.生物体系统 6.人类疾病 7.药物开发 (3)检索方法 1.首先打开 KEGG 搜索界面 2.Search against 输入“hsa“, PrimaryID 类型选择 “NCBI-GeneID” , 在 “Enter objects one per line followed by bgcolor, fgcolor”下方文本框中输入要查询的基因名 “GPX1” 。 3.在“Examples”下方选择“人”的通路。 4.点击“Exec” ,弹出查询到的通路。 5.点击其中任何一个通路,弹出通路图界面。 6.其中的红色块即为该基因或该基因相关的基因。 点击红色块, 弹出界面可以查看详细 的信息。 3535、预测蛋白质、预测蛋白质- -蛋白质相互作用的生物信息学方法有哪些?蛋白质相互作用的生物信息学方法有哪些? (1)基于基因组信息的方法(2)基于进化关系的方法(3)基于蛋白质序列的从同预测的 方法(4)基于蛋白质三维结构信息的方法 3636、蛋白质、蛋白质- -蛋白质相互作用数据库主要有哪些?蛋白质相互作用数据库主要有哪些? STRING、DIP 、BIND、InAct、MINT、MIPS 3737、如何用网络模体概念推测蛋白质功能。、如何用网络模体概念推测蛋白质功能。 网络模体是网络中不同位置重复出现的节点组合的特殊拓扑结构。 网络模体的概念可以拓展 到由多种相互作用组成的整合网络, 这种模体表征局部网络近邻中不同生物学相互作用的关 系。同一类模体组成的更加复杂的结构称为网络主题,网络主题与特定的生物学功能相关。 如果把网络主题约化为一个节点而形成的简约图就是主题图。 3838、简述合成生物学的定义与研究内容。、简述合成生物学的定义与研究内容。 定义:合成生物学是指按照一定的规律和已有的知识,设计和建造新的生物零件、装置和系 统;重新设计已有的天然生物系统为人类的特殊目的服务。 研究内容: (一)生物分子的合成与模块化 1、蛋白质的人工合成与模块化 2、核酸分子的人工合成 (二)生物底盘的简化与模块化 (三)基因线路的设计与构建 (四)合成代谢网络 (五)多细胞系统研究 (六)数学模拟和功能预测 3939、举例说明如何设计与构建基因线路。、举例说明如何设计与构建基因线路。 在大肠杆菌中构建双稳态开

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论