




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
RNA Seq 名词解释名词解释 1 index 测序的标签 用于测定混合样本 通过每个样本添加的不同标签进行数据区分 鉴别测序样品 2 碱基质量值碱基质量值 Quality Score 或 Q score 是碱基识别 Base Calling 出错的概率的整数映射 碱基质量值越 高表明碱基识别越可靠 碱基测错的可能性越小 3 Q30 碱基质量值为 Q30 代表碱基的精确度在 99 9 4 FPKM Fragments Per Kilobase of transcript per Million fragments mapped 每 1 百万个 map 上的 reads 中 map 到外显子的每 1K 个碱基上的 fragment 个数 计算公式为 公式中 cDNA Fragments 表示比对到某一转录本上的片段数目 即 双端 Reads 数目 Mapped Reads Millions 表示 Mapped Reads 总数 以 10 为单位 Transcript Length kb 转录本长度 以 kb 个碱基为单 位 5 FC Fold Change 即差异表达倍数 6 FDR False Discovery Rate 即错误发现率 定义为在多重假设检验过程中 错误拒绝 拒绝真的原 零 假设 的个数占所有被拒绝 的原假设个数的比例的期望值 通过控制 FDR 来决定 P 值的阈值 7 P 值 值 P value 即概率 反映某一事件发生的可能性大小 统计学根据显著性检验方法所得到的 P 值 一般以 P 0 05 为显著 P 0 01 为非常显著 其含义是样本间的差异由抽样误差所致的概率小于 0 05 或 0 01 8 可变剪接 可变剪接 Alternative splicing 有些基因的一个 mRNA 前体通过不同的剪接方式 选择不同的剪接位点 产生不同的 mRNA 剪接 异构体 这一过程称为可变剪接 或选择性剪接 alternative splicing 可变剪接是调节基因表达和产生蛋 白质组多样性的重要机制 是导致真核生物基因和蛋白质数量较大差异的重要原因 在生物体内 主要存 在 7 种可变剪接类型 A Exon skipping B Intron retention C Alternative 5 splice site D Alternative 3 splice site E Alternative first exon F Alternativelast exon G Mutually exclusive exon 9 外显子跳跃 外显子跳跃 Exon skipping 外显子在前体 mRNA 剪接形成成熟 mRNA 过程中被跳过 最终没有出现在某些成熟 mRNA 上 这 种剪接机制被称为外显子跳跃 10 内含子保留 内含子保留 Intron retention 前体 mRNA 在剪接形成成熟 mRNA 的过程中 部分内含子被保留下来 这种剪接机制被称为内含 子保留 11 5 或或 3 端可变剪接端可变剪接 前体 mRNA 在剪接形成成熟 mRNA 的过程中 5 端或 3 端边界发生不同方式的剪接 这种剪接机 制被称为 5 或 3 端可变剪接 12 基因结构优化基因结构优化 由于使用的软件或数据本身的局限性 导致所选参考基因组的注释往往不够精确 需要对原有注释 的基因结构进行修正 这一过程称为基因结构优化 13 基因间区基因间区 intergenic 指基因与基因之间的间隔序列 不属于基因结构 不直接决定氨基酸 可能通过转录后调控影响性 状的区域 14 UTR UntranslateRegions 非翻译区域 是信使 RNA mRNA 分子两端的非编码片段 5 UTR 从 mRNA 起点的甲基化鸟嘌 呤核苷酸帽延伸至 AUG 起始密码子 3 UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴 Poly A 的前端 15 ORF open reading frame 开放阅读框或开放读码框 是结构基因的正常核苷酸序列 从起始密码子到终止密码子的阅读框可 编码完整的多肽链 其间不存在使翻译中断的终止密码子 16 CDS Coding sequence 是编码一段蛋白产物的序列 是结构基因组学术语 DNA 转录成 mRNA mRNA 经剪接等加工后 翻译出蛋白质 所谓 CDS 就是与蛋白质序列一一对应的 DNA 序列 且该序列中间不含其它非该蛋白质 对应的序列 不考虑 mRNA 加工等过程中的序列变化 总之 就是与蛋白质的密码子完全对应 17 插入片段大小 插入片段大小 insert size 通过检测双端序列在基因组上的起止位置 可以得到插入片段的实际长度 决定了测序的长度 是 信息分析的重要参数 18 分子标记分子标记 是遗传标记的一种 直接在 DNA 分子上检测遗传变异 分子标记能对不同发育时期的个体 组织 器官甚至细胞作检测 数量极多 遍及整个基因组 多态性高 遗传稳定 不受环境及基因表达与否的影 响 目前常见分子标记主要有 SNP InDel SSR 等 19 SNP Single Nucleotide Polymorphism 即单核苷酸多态性 主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性 SNP 所表现的多态性只涉及到单个碱基的变异 这种变异可由单个碱基的转换 transition 或颠换 transversion 所引起 也可由碱基的插入或缺失所致 但通常所说的 SNP 并不包括后两种情况 20 SSR Simple Sequence Repeat SSR 即简单重复序列 又叫微卫星序列 指的是基因组中由 1 6 个核苷酸组成的基本单位重复多次构成 的一段 DNA 广泛分布于基因组的不同位置 长度一般在 200bp 以下 21 转换转换 transition 同类型 嘌呤和嘌呤 或嘧啶和嘧啶 碱基之间的相互替换称为转换 22 颠换颠换 transversion 不同类型 嘌呤和嘧啶 碱基之间的相互替换称为颠换 23 RNA 编辑 编辑 RNA editing 是指在 mRNA 水平上改变遗传信息的过程 具体来说 指基因转录产生的 mRNA 分子中 由于核 苷酸的缺失 插入或置换 基因转录物的序列不与编码序列互补 使翻译生成的蛋白质的氨基酸组成 不 同于基因序列中的编码信息现象 24 差异表达转录本 差异表达转录本 DifferentiallyExpressed Transcript DET 指表达水平存在显著差异的转录本 25 差异表达基因 差异表达基因 Differentially Expressed Gene DEG 指在两个不同条件 如对照与处理 野生型和突变型 不同时间点 不同组织等 下 表达水平存 在显著差异的基因 称之为差异表达基因 26 生物学重复 生物学重复 Biological Replicates 可以定义为使用来自不同抽提的 RNA 样本进行杂交 例如 同一来源独立制备的样本 或者不同 来源的样本 不同组织或者一个细胞系的不同培养物 27 技术重复技术重复 使用同一个抽提的 RNA 进行实验称为技术重复 与生物学重复相比 技术重复不是完全独立的 取平均值不能去除共有的系统偏差 28 皮尔逊相关系数皮尔逊相关系数 r Pearson s Correlation Coefficient 用于度量两个变量 X 和 Y 之间的相关 线性相关 其值介于 1 与 1 之间 其中 1 表示变量完全 正相关 0 表示无关 1 表示完全负相关 在高通量测序中 将皮尔逊相关系数作为生物学重复相关性的 评估指标 越接近 1 说明两个重复样品相关性越强 29 Unigene Unique Gene 的英文缩写 意为广泛通用的基因数据库 通过电脑对相同基因座 Locus 的收集 整理集合形成一个非冗余的基因数据库 30 Contig 高通量测序中利用软件将具有一定长度 overlap 的 reads 连成更长的片段 这些通过 reads overlap 关系得到的不含 N 的组装片段称之为 Contig 31 Scaffold 高通量测序中 reads 经过拼接获得 Contigs Contig 经过确定先后顺序用 N 连接起来组成 Scaffold 32 Contig N50 Reads 拼接后会得到长度不同的 Contigs 将所有 Contigs 的长度相加后获得一个 Contig 的总长度 之后将所有 Contig 按照序列长度由短到长进行排序 如获得 Contig1 Contig2 Contig3 将 Contig 按照这个顺序一次相加 当相加的长度达到 Contig 总长度的一半时 最后一个加上的 Contig 长度 即为 Contig N50 33 component TRINITY 软件拼接过程中 由于 contig 的构造方法 使得各个 contig 之间不可能共享 k 个以上序 列 因此这些 inchwormcontigs 不能很好的表征各种可变剪切形式和同源基因等情况 软件中 chrysalis 这一步骤将那些有重叠的 contigs 聚类 构成 components component 就成为一组可变剪切 isoform 或 同源基因可能的表征的集合 34 de Bruijn graph 使用 TRINITY 软件拼接时 在 chrysalis 步骤中会将 component 通过 overlap 关系构建成 de Bruijn 图 便于获取可变剪切的序列 35 数字基因表达谱 数字基因表达谱 DigitalGene Expression Profile DGE 利用新一代高通量测序技术和高性能的计算分析技术 能够全面 经济 快速地检测某一物种特定 组织在特定状态下的基因表达情况 36 small RNA 对长度在 18 40bp 的短 RNA 进行序列 结构 表达 功能上的分析 主要进行 miRNA siRNA piRNA 几种类型 sRNA 的分析 可与 mRNA 关联分析 37 ncRNA non coding RNA 非编码 RNA 指不编码蛋白质的 RNA 其中包括 rRNA tRNA snRNA snoRNA 和 microRNA 等多种已知功能的 RNA 及未知功能的 RNA 其共同特点是都能从基因组上转录而来 不需要翻译成 蛋白即可在 RNA 水平上行使各自的生物学功能 38 降解组测序 降解组测序 Degradome Sequencing 利用高通量测序平台 针对 miRNA 介导的剪切降解片段进行深度测序 从中筛选 miRNA 作用的靶 基因 并结合生物信息学分析确定降解片段与 miRNA 的精确配对信息 该技术能从细胞或组织中准确高 效的筛选出 miRNA 的靶基因 为研究 miRNA 与其对应的靶基因的相互关系提供准确 高效的筛选手段 39 lncRNA long noncoding RNA 长链非编码 RNA 在长度 200 100000nt 之间 不具有编码蛋白功能的转录本 40 正链正链 负链 负链 plus strand minus strand 对于一个基因来说 DNA 的两条链中有一条链作为 RNA 合成时的模板 这条链叫负链 另一条叫 正链 41 反义链反义链 有义链 有义链 antisense strand sense strand 在双链 DNA 中 用来转录 mRNA 的 DNA 链称为模板链 template strand 不用于转录的链则称为 非模板链 nontemplate strand 根据碱基互补配对原则 转录出的 mRNA 链的碱基序列与非模板链的 碱基序列一致 惟一不同的是 非模板链中的 T mRNA 链中全部置换成了 U 正是由于非模板链的碱基 序列实际上代表了 mRNA 的碱基序列 只不过在 mRNA 中 T 换成了 U 因此非模板链又被称为编码 链 coding strand 有义链 sense strand 和克里克链 crick strand 而用来转录 mRNA 的 DNA 链 被称为非编码链 anticoding strand 或反义链 antisense strand 或沃森链 watson strand 42 链特异性 链特异性 strand specific 链特异性建库 可以确定转录本来自正链还是负链 以便更加准确的获得基因的结构以及基因表达 信息 并且可以更好的发现新的基因 研究表明 很多基因组区域具有正负链的转录本 反义转录是真 核基因的一个特征 是一种重要的调控方式 对于原核以及低等真核生物的基因组 常常具有重叠基因 43 GO Gene Ontology 基因本体联合会 Gene Ontology Consortium 所建立的数据库 旨在建立一个适用于各种物种的 堆积因何蛋白质功能进行限定和描述的 并能随着研究不断深入而更新的语言词汇标准 GO 是多种生物 本体语言中的一种 提供了三层结构 分子功能 生物学途径 细胞组件 的系统定义方式 用于描述基 因产物的功能 网址 http www geneontology org 44 BSR Bulked Segregant RNA sequencing 将转录组测序与集群分离分析相结合 在转录组范围内开发 SNPs 筛选与性状紧密连锁的 SNPs 进行功能基因的定位 同时进行基因差异表达分析等转录组常规分析的技术 45 eQTL 以一个分离群体中不同个体 基因型 或者是其它有遗传结构的群体作为样本 运用 QTL 分析方法 分析特定基因转录丰度差异而得到的一些遗传区域 转录丰度用于作为个体中基因表达水平的衡量方式 并且作为一个性状来分析 e Trait 46 COG KOG COG 是 Clusters of Orthologous Groups of proteins 的简称 KOG 为 euKaryotic Ortholog Groups 这两个注释系统都是 NCBI 中基于基因直系同源关系的数据库 其中 COG 针对原核生物 KOG 针对真核生物 COG KOG 结合进化关系将来自不同物种的同源基因分为不同的 Ortholog 簇 目前 COG 有 4873 个分类 KOG 有 4852 个分类 来自同一 ortholog 的基因具有相同的功能 这样就可以将 功能注释直接继承给同一 COG KOG 簇的其他成员
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租赁合同担保法律风险规避与合规审查要点
- 大宗固废循环利用技术开发方案
- 数字化在线营销方案策划
- 2025年风电行业市场前瞻:技术创新引领风电运维服务升级报告
- 石嘴山快速门施工方案
- 项目咨询策划方案范文
- DB65T 4332-2020 羊鼻蝇蛆病防治技术规程
- 冻货应急预案(3篇)
- DB65T 4504-2022 马血液梨形虫检测技术规程
- 生物质能源在分布式能源系统中的2025年应用技术创新与市场前景分析报告
- 亚麻籽油在营养保健领域的应用考核试卷
- 《雷军的管理哲学》课件
- 尿液标本临床微生物实验室检验操作指南
- 2024铁路营业线作业人员北斗安全预警防护系统技术条件
- 羊水异常课件
- 煤矿“冬季四防”专项安全风险辨识评估报告
- 小儿链球菌感染护理查房
- 电影《白日梦想家》课件
- 竞聘医疗组长
- 路易斯·康获奖课件
- 正常人体结构课程标准
评论
0/150
提交评论