版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、16(BLAST)-15. The BLAST Sequence Analysis Tool Summary同異生物蛋白遺伝子配列比較事分子生物学大変重要。配列相同性事、科学者新配列遺伝子機能推測、遺伝子属予言、関係探求出来。調今、配列相同性調事、DNA蛋白、翻訳調整領域位置、機能推定。Basic Local Alignment Search Tool (BLAST)遺伝子配列相同性計算使。BLAST目的、対、検索。BLAST使方含、BLAST【】参照。章BLAST使方BLAST情報、情報改善焦点説明。 Introduction 大抵人BLAST使用方法公対蛋白入力。通送信、NCBI上検索、結
2、果個人表示。、多生物工学会社、遺伝子学者、生物情報科学関連人自分自身対BLAST個別思、自分合何方法改善考。BLAST個別化方法。command line【】使方法、Standalone WWW BLAST Server 【】使方法。BLAST Web個人。比較BLAST、DNA対DNA、蛋白対蛋白、蛋白対個reading frame翻訳DNA様比較16-2PSI-BLAST(部位特異的使用反復蛋白質配列類似検索)RPS-BLAST( 蛋白質検索)他BLAST応用、配列比較可能。章、BLAST構造NCBI機能説明、BLAST説明。最知、BLAST表示。BLAST結果得、XML、ASN1出力形式
3、受。出力形式適正選択決。章最後部分、独立BLAST解説、化可能性説明。利用、効率的強力応用BLAST接点数多存在。BLAST働:基礎BLAST自学、検索迅速賢明次第意味。BLAST“整列行。多蛋白自然状態規則的、機能同一蛋白内異種生物異蛋白繰返事多。BLAST、短断片配列類似性発見設定。整列、集積分析必要mRNADNA整列可能意味。BLAST2配列全長整列(整列知)試後、関、少類似対検索行。BLAST送信、配列検索選択、単語大、期待値入力情報BLAST入力。BLAST単語(蛋白文字短配列)検索作成、例配列類似単語近隣単語検索行。、配列検索行。一致認、単語不一致伸長不一致伸長開始。BLASTGe
4、nBank原()直接検索。BLAST配列入力。入力分、2作成、一方情報、一方配列情報。使用。BLAST独立使用場合、個人NCBI BLAST2組合。16-3BLAST Scores and Statictics BLAST質問同様配列見、配列良、可能生物学的関係表現、観測類似性単独見込何見解役立。BLAST、配列(質問調)、少生産、値(予測値)予測統計理論使用。少配列良指標与。、高高、配列良。一般、配列並導入同様、類似同残配列考慮入公式計算。計算主要要素代替。代替、考残基並割当。BLOSUM62、blastnMegaBLAST例外、BLAST(比較実行、質特有使用)。少基準、異使用、異配列少比
5、較意味。予測値、与対配列統計的意味指標与、使用示。予測値低低、重要。0.05予測値持配列、類似性、100回中5回(20回中1回)起意味。統計学者、重要考、生物学的重要結果表、配列(以下見)分析生物学的意味決定必要。16-4BLAST出力:1.従来報告書 BLAST、従来BLAST報告書精通。報告書3主成。(1) (質問(探索(図2)関情報含)。、式概略図(図3)。(2) 質問一致各1-記述。(図4)対迅速概略供給。(3) 各一致(図5)(一致1以上)。16-5図2: BLAST報告書。記述。後、BLAST記述研究、QBLAST出ID、質問定義要約探索引用。Taxonomy報告書Taxonomy
6、(4 章 )中情報BLAST結果表示。16-6図3: BLAST結果式概観。質問、図一番上番号付赤表。赤下、質問対応示。適合、最類似質問最近示。場合、質問適合高率適合3。次12本、質問残基3602205002部分適合、低適合表。斜線部分、類似性2部分同蛋白質上、介在部分一致示。残低適合配列示。重、定義上表示。16-7図: 線領域構成。;(a)gi数、指定、取得数、一致染色体座名垂直線区切。;(b)簡単原文説明、定義。、出生物情報、型(mRNADNA)、機能表現型情報含。区切線表示簡潔一線説明切。;(c)配列。高一致率先頭。;(d)E値、統計的顕著見積示。最初一致、gi数116365、指定sp(
7、)、取得数P26374、座名RAE2_HUMAN、区切線Rab蛋白、1216、E値0.0。注目、最初17非常E値低(1低)RAB蛋白GAP解離阻害。他E値高、0.5以上、偶然一致可能性高。16-8図: BLAST一対配列。配列酸識別名、完全強調線、一致長先。次、(出挿入。)後E来。続線配列同一残基数情報、保存的代用数、適用、配列GAPS数含。最後実際配列示、query最初、一致Subjct、下。左右数酸配列位置参照。内一以上棒線()挿入削除示唆。Query酸残基複雑遮蔽、X示(例番目最後段参考)。二間線間近似示。QuerySbjct同酸持場合、残基示。保存的代用代用判断示。伝統的本当人間判読、
8、説明対照的。例、一線翻訳人検索結果概観迅速手入有用、限完全翻訳。、便宜上、分情報一線翻訳配列。(例、E値、翻訳);検索方戻、間力出。Page16-9新機能次検索結果表示方法追加。例、出力形式変塩基配列検索結果LocusLink record(第19章)。BLAST出力付加利用人易、分析実験簡単動出来BLAST表示利用初期設定最大500塩基合致表示出来。BLAST結果多組成分析通表示、違場所同情報説明文章、合致塩基配列Entrez塩基配列結果。記録PubMed関連研究要約含塩基配列関詳情報提供。BLAST出力:. 今報告形式一遺伝子蛋白特徴調上理想的、科学者専門化目的大数BLAST動望今BLAS
9、T報告形式含情報一部必要。更BLAST結果処理場合、今報告形式関連解析頼無場合。今報告形式正式様式規則単出力表示形式、基本的HTML変更含改良行。形式簡単形式(図6)提供。図:形式BLAST出力。複製病原性大腸菌使、新Expressed Sequence Tags(ESTs)配列決定今報告形式出力使良例。場合、厳、高E-value、大腸菌O157塩基配列人間塩基配列区別使用。試験E.coli塩基配列非常良似人間ESTs取捨選択。 (事例科学者試験必要。)目的、出力今報告形式役立; 正式構造必要情報含。 出力、塩基配列定義含、各塩基配列一致識別、塩基配列類似、最初最後部位塩基配列類似性、合致率、
10、E-vale表示。16-10BLAST Output:3. Structured OutputBLAST結果単純検索結果表解析欠点。非常多数配列選別時切捨別理由起間違結果対自動的入仕方。(例、起。)、間違解析導新機能付加対、出力構文厳密。構築出力解析変化対自動的厳密通過。XMLASN.1両方正完全解析構造対内蔵持構築出力実施例。(例XML場合、DTD対必要性保証。)文章報告詳細書、(不完全)説明後書。ASN.1 Is Used by the BLAST ServerHTML示検索結果表従来報告同様、BLAST結果分XMLASN.1書式合出来、与BLAST結果書式検索再度実行換出来。Figure
11、7: ASN.1作異出力書式。HTML両方事出来示。XML出力構築、XML作事、対等情報。再検索BLAST換可能、科学者NCBIBLAST見時、作成HTMLASN.1作。済結果要求、配列情報BLAST一致配列ASN.1持。、BLASTBLAST報告結果一緒持。BLAST検索自体結果切離、同検索異出力。ASN.1厳密内部検証出力信頼作成保証。ASN.1 Is Used by the BLAST ServerHTML示一般的報告同様、BLAST結果、XMLASN.1(図7)化上、所定BLAST結果検索再実行変化。検索再実行BLAST変化、NCBI(ASN.1(図7)HTML)、BLAST結果見可能
12、。化結果要求、配列関情報ASN.1取。、BLAST(図1)配列対応。BLAST上、BLAST結果。BLAST検索、結果化方法一緒。故、同検索異出力許。ASN.1厳内部確証、出力確実常保証。16-11Information about the Alignment Is Contained within a SeqAlign配列関情報、SeqAlign中含、SeqAlign自体、BLAST検索関配列情報含ASN.1。SeqAlign、検索適合過程見、配列始点終点隙間情報(、値、配列識別子DNA基本情報同様)含実際配列含。上記、必要、実際配列BLAST取。、検索者配列独自確認意味。、検索配列自体限、
13、検索配列上配列同識別因子持。独立型BLAST使用場合、配列formatdb(FASTABLAST変換)用独自確認可能。、識別因子付。同様、(独立型)blastall、blastpgp、megablastrpsblastniaruJ、検索異既特定使用保証。使場合、BLAST独自識別因子(実行)全配列割当、知識保護。gi番号含NCBIBLASTFASTA、特徴基準満。作場合、独自識別因子問題、対注意通常識別因子割当際。FASTA入力識別因子、定義線上第1象徴(第1文字意味)。最単純例単独自象徴(例1、2、他)使。、例、作、複雑識別因子作成可能。確実解析FASTA識別子、特異的構文(付録1参照)従事
14、必要。BLASTSeqAlign関詳細情報、html見、NCBI Toolkit Software Developer()同様、PowerPoint提示()。XMLXMLASN.1、両方構造言語、同情報表。従、XMLSeqAlign作成、可能。実際配列情報含、一部情報便利SeqAlign見。、配列BLAST取、124。16-12XML、通常、BLAST深、何同様欲、形式、確分析。 BLAST 生産XML停止質問系列、系列定義系列、始、整列(1)、E値、満。 XML出力 公共DTD。BLASTBLASTNCBI Toolkit一部。(NCBI Toolkit独立者多低機能持); ToolkitU
15、NIX、NT、MacOS多下。 Toolkit 使用、開発者機能書。(、Toolkit。 BLAST含(例関Appendix2見)。BLAST、。 例、BLAST 検索Application Programming Interface(API)独立。独立; 、一度結 果計算、多異見可能。Readdb APIBLAST情報容易抜粋readdb API使用。 利用可能中、作出日付、手紙数、系列数、最長系列。 、利用 可能、系列記述。 、BLAST 最新版taxid含(NCBI分類学木何節指定整数; 第4章 参照)。 関連読readdb API使用強奨励、変化被。 他方、API最新、旧式試。 rea
16、ddb API使用 示簡単(db2fasta.c)例関Appendix2見。C Function CallsBLAST検索実行、BLAST検索実行必要。 付録3 Demonstration Program doblast.c抜粋示。SeqAlignMySeqAlignPrint(Appendix3例)、SeqAlign視点簡単機能。16-13付記FASTA鑑別子(identifiers)NCBIBLAST使用FASTA定義行(definition line)記名方法配列由来基(第1章GenBank参照)。表1配列由来鑑別方法示。表FASTA定義行鑑別子名鑑別子記名法agnl以外同鑑別為記法用事
17、。追跡型(trace databases)配列使。例)gnl|ti|53185177. 2番目3番目組合個別。例、BLAST配列鑑別子gb|M73307|AGMA13GT場合、gb配列GenBank由来示、M73307GenBank受付番号(Accessionnumber)、AGMA13GTGenBank座位(locus)示。縦棒()異区別使。詳述含、場合一空欄時。鑑別子過去構文解析(parser)為以前方式空欄追加縦棒(|)表記。鑑別子giNCBI個配列割当。配列NCBI由来、gi番号鑑別子最初示。例gi|16760827|ref|NP456444.1.(BLAST単独BLAST実行場合、g
18、i番号表示_|使用)gi番号理由、統一安定命名規約提供為。核酸蛋白配列変更場合(例、配列情報提出者編集場合)新gi番号付与受付番号変。gi拡張子検索用配列特定。異Entrez間相互作成有用。(15章)16-14Appendix 2. Readdb API.A simple program (db2fasta.c) that demonstrates the use of the readdb API.Int2 Main (void)BioseqPtr bsp;Boolean is_prot;ReadDBFILEPtr rdfp;FILE *fp;Int4 index;if (! GetArgs
19、 ("db2fasta", NUMARG, myargs)return (1);if (value)is_prot = TRUE;elseis_prot = FALSE;fp = FileOpen("stdout", "w");rdfp = readdb_new(myargs0.strvalue, is_prot);index = readdb_acc2fasta(rdfp, myargs2.strvalue);bsp = readdb_get_bioseq(rdfp, index);BioseqRawToFas
20、ta(bsp, fp, !is_prot);bsp = BioseqFree(bsp);rdfp = readdb_destruct(rdfp);return 0;Note that:1. Readdb_new allocates an object for reading the database.2. Readdb_acc2fasta fetches the ordinal number (zero offset) of the record given a FASTAidentifier (e.g., gb|AAH06776.1|AAH0676).3. Readdb_get_bioseq
21、 fetches the BioseqPtr (which contains the sequence, description, andidentifiers) for this record.4. BioseqRawToFasta dumps the sequence as FASTA.Note also that Main is called, rather than “main”, and a call to GetArgs is used to get the16-15Appendix 3. Excerpt from a demonstration program doblast.c
22、./* Get default options. */options = BLASTOptionNew(blast_program, TRUE);if (options = NULL)return 5;options->expect_value = (Nlm_FloatHi) myargs 3.floatvalue;/* Perform the actual search. */seqalign = BioseqBlastEngine(query_bsp, blast_program, blast_database, options,NULL, NULL, NULL);/* Do som
23、ething with the SeqAlign. */MySeqAlignPrint(seqalign, outfp);/* clean up. */seqalign = SeqAlignSetFree(seqalign);options = BLASTOptionDelete(options);sep = SeqEntryFree(sep);FileClose(infp);FileClose(outfp);The main steps here are:1. BLASTOptionNew allocates a BLASTOptionBlk with default values for
24、the specified program(e.g., blastp); the Boolean argument specifies a gapped search.2. The expect_value member of the BLASTOptionBlk is changed to a non-default value specifiedon the command-line.3. BioseqBlastEngine performs the search of the BioseqPtr (query_bsp). The BioseqPtr couldhave been obta
25、ined from the BLAST databases, Entrez, or from FASTA using the functioncall FastaToSeqEntry.The BLASTOptionBlk structure contains a large number of members. The most useful onesand a brief description for each are listed in Table 2.Tom Madden The BLAST Sequence Analysis Tool16-16Table 2. The most fr
26、equently used BLAST options in the BLASTOptionBlk structure.Typea Element DescriptionNlm_FloatHi expect_valueExpect value cutoffInt2 wordsize Number of letters used in making words for lookup tableInt2 penaltyMismatch penalty (only blastn and MegaBLAST)Int2 reward Match reward (only blastn and MegaB
27、LAST)CharPtr matrix Matrix used for comparison (not blastn or MegaBLAST)Int4 gap_open Cost for gap existenceInt4gap_extend Cost to extend a gap one more letter (including first)CharPtr filter_string Filtering options (e.g., L, mL)Int4 hitlist_sizeNumber of database sequences to save hits forInt2 num
28、ber_of_cpus Number of CPUs to usea The types are given in terms of those in the NCBI Toolkit. Nlm_FloatHi is a double, Int2/Int4 are 2- or 4-byte integers, and CharPtr is just char*.Appendix 4. A function to print a view of a SeqAlign: MySeqAlignPrint. #define BUFFER_LEN 50/*Print a report on hits w
29、ith start/stop. Zero-offset is used.*/static void MySeqAlignPrint(SeqAlignPtr seqalign, FILE *outfp)Char query_id_bufBUFFER_LEN+1, target_id_bufBUFFER_LEN+1;SeqIdPtr query_id, target_id;while (seqalign)query_id = SeqAlignId(seqalign, 0);SeqIdWrite(query_id, query_id_buf, PRINTID_FASTA_LONG, BUFFER_LEN);target_id = SeqAlignId(seqalign, 1);SeqIdWrite(target_id, target_id_buf, PRINTID_FASTA_LONG, BUFFER_LEN);fprintf(outfp, "%s:%ld-%ldt%s:%ld-%ldn",query_id_buf, (long) SeqAlignStart(seqalig
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论