1-序列数据的编辑与比对

上传人：9*** IP属地：天津上传时间：2022-05-08 格式：DOCX 页数：6 大小：27.88KB 积分：18 举报 版权申诉

免费预览已结束，剩余1页可下载查看

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、DANbarcoding引物序列COBU：5'-TYTCAACAAAYCAYAARgATATTg-3'COBL：5'-TAAACTTCWggRTgWCCAAARAATCA-3'（COBL反向互补序列：5'-TGATTYTTTGGWCAYCCWGAAGTTTA-3'）* 该引物序列对应的片段长度为658bp* 注意：保存分子系统学分析数据的所有文件夹都要用英文命名，因为许多分析软件都无法识别汉字。测序峰图的浏览安装staden-windows-l-7-O.msi后左键双击“*.abl”测序文件可直接查看测序峰图，初步判断测序效果。序列数据的编辑：1

2、.从GenBank中下载的序列的编辑从GenBank中下载的序列通常包含有许多说明序列特征的信息，而这些信息在序列比对及分析时不仅毫无用处而且还会影响软件对序列的识别，所以必须对这些序列进行编辑，删除多余信息，仅保留序列号及序列（的来源物种）名称、序列及其前面的>（”是FASTA文件的标志符号）；若序列名称用来源物种的学名表示，则属名和种名之间不能留空格，要用下划线”_”连接，若种名之后还要加其他符号以便区分同一物种的不同克隆或不同个体来源的序列，也不能留空格，可直接将标志符号加在种名之后或用下划线”_”连接。若序列为从核基因组中扩增出来的线粒体功能基因的假基因，应在序列标示符中用

3、9;Ps”或其他标识符号标明。例如：>gil20749966lgblAY042337.1lAlpinacriscrassicaudaAC28cytochromeoxidasesubunitI（COI）gene,partialcds;mitochondrialgeneformitochondrialproductTACCAGGATTTGGTATTATTTCACATATTGTATGTCAAGAAAGTGGAAAAATTGAATCATTTGGAACATTAGGAATAATTTATGCTATATTACAATTGGACTAATAGGATTTTATGTATGAGCACATCATATATTTACAGT

4、AGGAATGGATGTTGATACACGAGCATATTTTACATCAGCAACATAAATTATTGCTGTACCAACAGGAATTAAGGTTTTCAGATGACTAGCAACATTATATGGAACAAAATTCAAGTTTAACCCCCCATTATTATGAGCTCTTGGTTTTATTTTNTTATTNACAATTGGGGGATTAACTGGATTAGTATTAGCAAACTCTACNCTTGATATTGANCTTCATGANACTTACTATGTTGTTGCCCACTTCCATTATGTATTATCTATAGGAGCGGTTATGCAATTATAGGAGGNATTATTCAA

5、TGATACCCNTTATTTACCGGNTTAACTATAAACAATCCNTGATTAAAAATTCAATTCNCAATTATTATTATTGGAGTAAACTTAACTTTCTTNCCCC编辑之后的形式为：>AY042337_Alpinacris_crassicauda1TACCAGGATTTGGTATTATTTCACATATTGTATGTCAAGAAAGTGGAAAAATTGAATCATTTGGAACATTAGGAATAATTTATGCTATATTACAATTGGACTAATAGGATTTTATGTATGAGCACATCATATATTTACAGTAGGAATGGATGTTGATA

6、CACGAGCATATTTTACATCAGCAACAATAATTATTGCTGTACCAACAGGAATTAAGGTTTTCAGATGACTAGCAACATTATATGGAACAAAATTCAAGTTTAACCCCCCATTATTATGAGCTCTTGGTTTTATTTTNTTATTNACAATTGGGGGATTAACTGGATTAGTATTAGCAAACTCTACNCTTGATATTGANCTTCATGANACTTACTATGTTGTTGCCCACTTCCATTATGTATTATCTATAGGAGCGGTTATGCAATTATAGGAGGNATTATTCATAGATACCCNTTATTTAC

7、CGGNTTAACTATAAACAATCCNTGTATAAAAATTCAATTCNCAATTATTATTATTGGAGTAAACTTAACTTTCTTNCCCC*假基因序列编辑后的形式为：增加“Ps”标识以便选择使用序列时正确识别区分，假基因序列一般不可用于系统发育分析，但可用于学生练习判别假基因的方法。>EU589072_Ps_Locusta_migratoriaATGAATAAACAATATAAGATTTTGACTGTTACCACCATCAGTAACATACCTACTACTGTCCTCCATAGTAGATAATGGAACTGGTACAGGATGAACAGTATCTCCCCCACTAG

8、CTAGAGTCATTGCACACAGAGGAGCTTCTGTAGATTTAGCAATTTTCTCATTACATCTAGCAGGTGTTTCTTCCATTTCAGGAGCAATTAATTTCATTATAACAGCAATTAATATACGATCAAATAATATCTCTTGATCAAACACCATTATTTGTTTGATCAGTAGCAATTACAGCTTTATTACTACAATTGTCATTACCAGTATTAGCTGGAGCAATTACTATATTATTAACTGATCGAAACCTTAATACGTCATTCTTCGACCCGGCAGGAGGAGGTGACCCAATTTTATATCAACAC

9、TTATTTTGATTCTTTGGTCACCCA2. 自测序列的编辑自己测序的序列在用于分析时也要先作同样的编辑，然后才能输入Clustalx软件，否则不能被识别，无法输入序列。序列拼接*为了保证测序结果的准确性，单基因短片段（700pd左右）测序一般应采用双向测序，然后将双向测序的结果拼接在一起，从而获得一致性序列。线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的，最后也需要将测出的短片段拼接成一条完整的序列。序列拼接可以在不同的软件中进行。一、使用“组装批处理文件byLHM.pg4”进行拼接1. 在预定的位置建立一个文件夹“gap”，将需要使用的3个软件“组装批处理文件byLH

10、M.pg4”、“Vector_primer4pMD18-T.vec_pr”'、“pMD18-T_Vector.seq拷贝到该文件夹下，再将需要拼接的测序文件拷贝到该文件夹下。2. 双击运行“组装批处理文件byLHM.pg4”程序。3. 在程序运行后出现的界面右侧点击“Addfiles”按钮，打开要拼接的序列文件。为了保证拼接后输出的是正向序列，最好先添加上游引物序列，然后添加下游引物序列，因为在一般情况下软件将添加的第一条序列默认为正向参照序列；有时由于测序效果等因素的影响，有时即使首先添加的是上游引物序列，但拼接后仍然会以测序效果明显更好的下游引物序列为正向参照序列，此时需要按照后面

11、介绍的方法将上游引物序列转换为正向参照序列再输出一致性序列。4. 点击界面上方第二行的“ConfigureModules”，在弹出的窗口左边的任务栏中点击“xSequencingvectorClip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“Vector_primer4pMD18-T.vec_pr”'程序；点击左边任务栏中的“CloningVectorClip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“pMD18-T_Vector.seq程序；点击左下角的“Run”按钮，即开始数据处理，处理结果将自动保存到“gap”文件夹中。5. 在“gap”文件夹中双击“

12、AssMit_tmp.o.aux”文件，将鼠标移到弹出的'ContigSelector”窗口中的直线上，点击右键，选择“EditContig”，即弹出“ContigEditor”窗口，点击最右边的“setting”按钮，在下拉菜单中选择“Bybackgroundcolour”，即可显示比对结果的有差异碱基；双击某一序列，即可显示该序列的测序峰图，以检查核对该位点碱基的测序情况。*注：执行此操作时一定要检查正向序列是否为上游引物序列；如果不是，则需要将上游引物序列转换成正向序列后再执行下面的“输出及保存序列”操作；具体的操作步骤是:点击“GAPv4.10AssMit_tmp.o”窗口中的

13、“Edit”菜单，在下拉菜单中选择“Complementacontig”命令，在弹出来的“Complementcontig”小窗口中检查确认“Contigidentifier”框中的序列为上游引物序列，然后点击“0K”即将完成序列转换。6. 点击“GAPv4.10AssMit_tmp.o”窗口中的“File”菜单，在下拉菜单中选择“Saveconsensus”可保存一致序列，文件名要用“*.txt”形式，以便保存的文件成为文本文件，若忘记在文件名后加“txt”，则保存完毕后可将文件的扩展名改成“.txt”；只有拼接好的一致序列才可用于后面的序列分析。* 注：若在后面的序列比对和手工校正过程中发

14、现某一条序列为反向互补序列，可用两种方法进行转换：（1）重新拼接序列，用上面介绍的方法将上游引物序列转换成正向参照序列后再输出一致性序列；（2）在DNAStar软件的EditSeq中直接转换，具体操作步骤是：运行DNASar中的EditSeq，将需要转换的序列复制粘贴到EditSeq中,按Ctrl+A命令全选序列或点击“Edit-SelectAllCtrl+A”，点击GoodiesReverseComplement即可转换成反向互补序列，将获得的反向互补序列全选并复制粘贴到一个独立的文件中保存，也可以直接另存，用获得的反向互补序列重新进行比对。单基因研究时用第一种方法比较方便，而线粒体基因组注

15、释时用第二种方法比较合适。* 上述3个软件只能识别英文路径，因此存放并运行这3个软件的文件夹及所有上级文件夹名称都要使用英文名称。*若仅用一个引物（一般是上游引物）对某一基因片断进行了测序，将测序峰图“abl”文件转化为“.txt”文件的方法与双向测序时序列拼接步骤相同。有些人的做法是：先双击打开测序峰图文件，然后点击“File”菜单，在下拉菜单的“SaveAs”命令中选择“plaintext”，将峰图文件另存为“.txt”文件即可。但用这种方法输出的是测序峰图中的全部碱基序列，不会对测序效果进行判断，不能删除序列前端和后端测序效果差的碱基，给后面的序列比对带来麻烦，因此最好不要使用这种方法。

16、二、使用DNAstar软件进行拼接DNA序列数据的比对及校正（一）Clustalx1.83操作步骤：*Clustalx1.83为免安装软件，可拷贝到任意文件夹下直接运行。1. 输入已经编辑好的待分析比对的序列：（1）双击鼠标运行程序；（2）点击主菜单中的“File”命令，在下拉菜单（dropdownmenu）中点击“LoadSequence”命令，然后根据弹出的对话框选择需要输入分析的序列数据文件，即可输入需要分析比对的序列。2. 选择分析参数（1）点击主菜单中的“Alignment”命令，在下拉菜单中点击“OutputFormatOptions”命令，即会弹出一个对话框。（2）在对话框的“O

17、utputFiles”复选项中选择需要输出的文件格式，可选择输出“CLASTALformat（*.aln格式文件）”、“PHYLIPformat”、“NEXUSformat”和“FASTAforma”等不同格式。但通常情况下只要选择默认的“CLASTALformat（*.aln格式文件）”即可，因为其它格式的文件在需要时均可由这种格式或“*.fasta”的文件转换而成。*特别值得注意的是：若选择了“FASTAforma”输出格式时，比对后插入的空格会以“-”符号插入到原FASTA文件的序列中（即直接覆盖原来导入的同名文件，没有任何警告性提示）即通过插入空格符号“-”来固定序列之间的同源性位点，

18、使所有序列的同源性位点位于相同的位置；为了便于手工校正时确定校正位点的准确位置，因校正需要而进行的比对一定不要选择此项。“GDEoutputcase”选“Lower或Upper”均可（比对后输出的FASTA文件中，碱基均以大写书写）；“CLUSTALWsequencenumbe”选择“ON”则可显示序列顺序号，选择“OFF”则不显示；将下面的“OutputOrder”选项设置为“INPUT”，一般情况下使用“INPUT”设置，按输入顺序输出比对好的序列，某些情况下需选择“ALIGNED”设置，即输出文件中的序列按比对后的相似性顺序排列；“Parameteroutput”一般选“OFF”，若要看

19、修改参数后的效果差异，则选'ON”，即可在输出的比对序列文件中包含各种比对参数。3. 比对：点击主菜单中的“Alignment”命令f点击下拉菜单中的'DoCompleteAlignment”命令，在弹出来的“CompleteAlignment”选项窗口中选择指导树和比对结果输出文件的输出路径，点击“ALIGN”按钮即开始比对。比对结束后会生成选定格式的文件自动保存在指定的文件夹下（默认路径为输入的序列文件所在的文件夹）。4. 输出比对结果：在因系统发育分析需要而进行的比对中，必须另外输出比对结果，以便切除引物序列或其它多余位点。具体操作是：点击“File”f“SaveSequ

20、encesas”，根据比对结果及分析需要在弹出的“SAVESEQUENCES”窗口中选择文件格式（Format）、需要输出的序列的起始和终止位点（Saverangefromto口）及保存文件的路径（SAVESEQUENCESAS）,然后点击“OK”按钮。（二）原始序列的比对及校正* 原始序列的手工校正：为了保证测序结果准确，单基因研究最好采用双向测序；由于测序系统误差及拼接软件识别误差，序列前后50个碱基不完全可信，需要将同一样品多次重复测序（或同一物种不同个体或近缘物种的同一基因测序）获得的序列进行比对，然后根据比对结果进行必要的手工校正。校正的内容包括删除多读的碱基、插入漏读的碱基和修改错

21、读的碱基。* 引物序列的去除：由于扩增目的片段时使用的引物相同，所以在完成序列的手工校正后进行系统发育分析前要根据比对结果将序列前、后两端的引物序列去除；上游引物序列通过比对直接删除即可，下游引物序列需要转换成反向互补序列后进行比对，然后删除。* 蛋白质编码基因序列的翻译：为了检验扩增及测序过程中可能产生的突变，需要将蛋白质编码基因序列翻译成蛋白质序列。若序列全长能被翻译，证明没有产生框内终止密码子（in-framestopcodon）；若翻译不通，则需对出现框内终止密码子的位点进行校正（若无法校正，则需对该片段重新扩增和测序）。具体的操作步骤见“蛋白质编码基因序列的翻译”。（三）NCBI中D

22、NA序列资源的选择与使用*在进行系统发育分析时，除了使用自己测定的序列数据外，往往还可使用GenBank（NationalCenterforBiotechnologyInformation；NCBI；/）中的相关序列。序列检索方法可参考“大量序列数据的快速检索方法”，但最好使用“Taxonomybrowser”按分类单元逐一查找，以免遗漏。*从NCBI中下载的单一基因序列经过编辑和检测后即可使用；检测的方法一般是在“Spin”和“Clustal”软件中进行比对，以确定下载的序列与自己测定的序列是否处于基因组中相同的位点范围。由于不同的研究人员

23、使用的引物和研究目的不尽相同，往往只是根据需要选择扩增某些基因的部分序列片段进行分析，因此必须确定从NCBI中下载的序列是否与自己测定的序列处于相同的位点范围；检测的方法是：将某物种的一条该基因全长序列作为参照序列，在Spin中进行比对，根据“SpinSequenceComparisonPlot”（序列比对图）确定自测序列和下载序列分别在全长序列中的位点范围（具体操作见“蛋白质编码基因序列的翻译”）；该方法可大致确定一条序列在全长序列中的位点范围，与自测序列是否存在重叠区，但无法准确定位，无法确定下载序列与自测序列重叠的具体碱基数目，因此还要在Clustal软件中比对，以确定下载序列可用的具体

24、碱基数目。由于Clustal软件进行全局比对时总是会通过插入空格的方式完成序列的比对，不论比对序列的来源如何，所以当比对的序列来源于基因组中不同位点范围（即不是同源序列）时，比对结果将会很不理想，此时就要考虑序列是否同源，即用Spin比对甚至到NCBI中用“Blast”功能进行比对。* 除了单一基因序列外，基因组序列中的相应片段也可提取出来使用；具体的方法是：根据基因组注释信息确定该基因在基因组中的起始和终止位点f启动DNAstar中的Editseq软件，将基因组全序列拷贝到编辑框中f点击“SearchfGoToPosition.Ctrl+G”f在弹出的“Position”对话框中输入该基因的

25、起始和终止位点，输入格式为“*.*”（即起始位点.终止位点）,点击“0K”，选择的基因序列即呈黑色显示一将黑色显示的序列拷贝到另一个“*.text”文件中保存即可使用。有些提交到NCBI中的序列包含有多个基因，可用同样的方法提取相应的片段；对于起始的基因片段（是一个基因序列的3'端序列）要注意根据注释信息（即其长度）确定其是否与自测片段存在重叠及大概长度，若重叠长度太短则不可用。（四）系统发育分析前的序列比对当用于系统发育分析的所有序列都准备好了以后，需要将这些序列进行统一比对，以确定同源性位点和去处引物序列或其它多余位点，具体操作见“Clustalx1.83操作步骤”。（五）大量序列

26、的比对由于受计算机内存的限制，当需要分析的序列数量很多（300条以上）时，用“MultipleAlignmentMode”比对模式同时进行比对往往无法完成。在这种情况下可采用分批比对，先用“MultipleAlignmentMode”模式按分类单元（如科、亚科或属，根据实际情况确定）进行序列比对，比对结果最好切除引物序列后另存，每一组比对好的分类单元的序列即构成一个“Profile（？集）”。需要分析的所有分类单元的序列比对完成之后，再用“ProfileAlignmentMode”比对模式将已经比对好的“Profile”组合到一起，每次可在一个Profile中添加上另外一个Profile，直到

27、将所有的Profile组合成一个总的Profile，这个总的Profile即可直接用于后面的系统发育分析。蛋白质编码基因序列的翻译* 蛋白质编码基因序列除了可用于直接分析外，还可翻译成蛋白质序列进行分析；另外，为了检验测序误差（包括假基因的判断），即使不进行蛋白质序列分析，也需要通过翻译蛋白质编码基因序列来检测是否存在框内终止密码子（in-framestopcodon）。一、用StandenPackageSpin软件翻译：* 该软件需要用已注释好的其它近缘种的同一蛋白质编码基因序列（或包含该序列的更长序列）作为参照，可以分别从序列的第1、2、3个核苷酸开始翻译，并统计出能翻译的序列片断的起始位

28、置；遇终止密码子翻译中断时，将继续从终止密码子之后开始对剩余序列进行翻译。1. 运行“StandenPackageSpin”，具体操作步骤是：点击“开始”菜单一所有程序（P）-StandenPackageSpin。另一种运行“StandenPackageSpin”的方法是：用鼠标选中需要打开的文件，单击右键，在弹出的菜单中点击“打开方式”一"Spin”；用这种方法启动“Spin”时，选中的文件将自动导入"Spin”，再导入其它文件时可省去（或简化）选择文件路径的麻烦，因为从“开始”菜单启动'Spin”时，其默认路径是“C：Documentsandsettings&#

29、39;Administrator”，导入序列文件时必须重新选择路径。2. 导入序列。点击“File一Loadsequence一Simple”，在弹出的“Loadsequence”对话框中点击“Browse”按钮，打开需要导入的序列文件“.seq”或“.txt”文件，一个文件中只能包含一条序列，因为蛋白质编码基因的翻译只能两两比对），点击“OK”按钮；用同样的方法导入飞蝗Locustamigrataria的同一蛋白质编码基因序列或线粒体基因组全序列（或其它近缘种的同一蛋白质编码基因序列）作为参照序列；也可同时选中这两个文件一起导入。3. 设置序列坐标。点击“FileSequencemanager

30、”，在弹出的“Sequencemanager”对话框中设置水平（Horizontal）和垂直（Vertical）序列（软件将后面导入的一条序列默认设置为水平序列）。在理论上将任何一条序列设置为水平序列而另一条设置为垂直序列都可以；但在一般情况下最好将飞蝗的序列（或其它参照序列）设置为垂直序列，将需翻译的序列设置为水平序列，因为在执行后面的序列翻译命令时，水平序列是“Seqidentifier”栏中默认的被翻译序列，这样可以省去选择需要翻译的序列的麻烦（因此导入序列时可考虑先导入参考序列）；具体操作是：将鼠标移至该序列上，点击右键，在弹出的菜单中选择“Vertical”或“Horizontal”

31、即可，再点击“OK”按钮。4. 序列比对。点击“Comparison一alignsequences”，在弹出的“alignsequences”对话框中点击“OK”，即会出现一个“SPINSequenceComparisonPlot”界面窗口，显示比对结果，关闭窗口。注：序列比对的主要目的是检验待翻译序列与参照序列的大致相似性(或同源性？)若比对图(plot)为一条直线，说明比对序列与参照序列比对结果很好，相似性(或同源性？)较高，反之则相似性低。单纯从操作上来说，不进行序列比对而直接设置遗传密码和翻译序列也可以，但建议最好不要省略这一步。5. 设置遗传密码。点击“TranslationSetg

32、eneticcode”，在弹出的“Setgeneticcode”对话框中选择“Invertebratemitochondrial”，点击“OK”。当在同一窗口先后翻译多条基因序列时，后面序列的翻译可不必再设置遗传密码。6. 序列翻译。点击“TranslationFindopenreadingframeswriteproteinasfastafile”，在弹出的“FindORF:write”对话框中的“Seqidentifier”栏点击“”按钮，选择需要翻译的序列；在“fastafilename”栏中输入翻译后所得的蛋白质序列文件的名称，再点击“OK”按钮确定。翻译结果会自动显示在“Spin”窗口的末尾，同时自动生成一个文件保存在原始序列文件所在的文件夹下(该文件无后缀名，但可以用写字板或记事本打开，也可增加后缀名“.txt”将其重新命名为文本文件)。7. 将窗口最末尾的翻译所得的蛋白质序列复制并集中保存到另外一个“.txt”文件中备用，也可从自动生成的文件中。*注：当一条序列翻译完成而需要翻译另一条序列时，可以先关闭“Spin”，然后重新启动“Spin”导入序列，此时“Spin”系统中将不包含任何其它序列；也可以不关闭“Spin”而在原来的“Spin”窗口中直接导入新的序列，

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

1-序列数据的编辑与比对

文档简介

温馨提示

最新文档

评论

1-序列数据的编辑与比对

文档简介

温馨提示

最新文档

评论

相关文档