应用UCSC查找启动子等_第1页
应用UCSC查找启动子等_第2页
应用UCSC查找启动子等_第3页
应用UCSC查找启动子等_第4页
应用UCSC查找启动子等_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用UCSC/Ensembl查找基因启动子(promoter)、内含子、外显子序列promoter,基因,序列,Ensembl,UCSC本帖引用网址:/thread-47691-1-1.html启动子的甲基化,转录因子与启动子的结合调控基因的表达等研究领域一直较为热门。本文图文形式讲解了启动子的概念,利用UCSC如何查找一个基因的启动子序列,以及外显子和内含子序列的显示。有很多关于此方面的文章由于写作在早期,近年来查询数据库网站的改版使得这些文章有些落伍,使用起来也不方便。本文是最新的关于查询启动子方法的文章,创作于2009/10/14,大家可以完全按此操作。在讲述某个基因的启动子查询之间,我们有必要对基础知识进行一下复习和总结。先看一下中心法则:ReplicatwnCBTranscriptionTranslationDNA,RNA,Protein^R启动子是在DNA转录为RNA这一步过程中发挥作用的,在此要与DNA自身复制起始点(称作复制子)和由mRNA翻译为蛋白质时的翻译起始点(以起始密码子ATG为标志)区别开来。DNAsequence-specifictranscriptionfactorsTBP(TATA-bindingprotein)定义:启动子是参与特定基因转录及其调控的DNA序列。包含核心启动子区域和调控区域。核心启动子区域产生基础水平的转录,调控区域能够对不同的环境条件作出应答,对基因的表达水平做出相应的调节。启动子是RNA聚合酶特异性识别和结合的部位。启动子方向性,位于转录起始点上游,本身并不被转录。DNA链上与RNA链的第一个核苷酸对应的碱基标记为+1(如下图),由此碱基向上游(5’端)数的碱基顺序数为负(-1,-2,......),向下游(3’端)数的碱基为正(+2,+3,......)一35-10*15'-TAGTCTArn^C-KTCATAGAAGCACTCIAJjSKO'CAATAGGTCCAC(;-3V-A-TCACXTA/LCrGTACTATCnTCGTGAGATGAIATAACACIT^TCCAGCTCC-3*I球RFM5J-AGGUCCACG..…….-一扈劫子的部位及其与赫兼鞭黛此典知土BM5区域:启动子的范围非常大,可以包含转录起始位点上游2000bp,有些特定基因的转录区内部也存在着转录因子的结合位点,因此也属于启动子范围。总结起来,也就是说启动子约在与mRNA所对应的DNA序列之前约2000个左右的碱基。明白了启动子的含义之后,我们以大鼠(rattusnorvegicus)的结缔组织生长因子(CTGF)为例,应用UCSC基因组浏览器开始查找该基因的启动子序列。网址为/。eno-meBrornformAtksQtfxMiHd.BM"TiS'■小■bWWPCjR1VlwOMaFM)Ht进入UCSC的主页后,在其左侧(如上图)点击第一项GenomeBrowser,进入基因组浏览器入口,如下图

lh><lluiawAlLi略细Hj助RHiahh氏lh><lluiawAlLi略细Hj助RHiahh氏■可ww^gfSLmJk2M£kn»iriavoKV-tttfncraSTCBG"dmpve^krLXEkeLjn.■wnYl^acaaCramE"EecfKacsf--enKrtua^ktnfJ<ipOihlbaiie|nrrlc-i-Ghmm&rm«rUmwt[MlFK■MI'M'MHiW-Ki^MHr在Organism的下拉菜单中选择Rat,在assembly的下拉菜单中选择最新日期Nov.2004,在position框中键入CTGF,imagewidth选择默认即可,如下图所示:cUd^Eewomeas土Kub”po^itjonor&古ar出termimagewWhMamnnatwRatw:Nov理国寸cigfBOD|:‘茹茹'花C&.khw〉tQ「巳吕户£奴成0甘写乾userinterfacesettingsto也出wddsiMqitiinaoks|[唁Qnliqu阳bmck.middisplaygtehsiJ:;0111・侦门然后点击Submit,返回的页面如下:Known.frUII/UE*」审m匚LUimxmmiF.coLEecuveCiasiieaiau:csfazccE匚Ff£K£2£5flm§sSftIkLll3£2msLL13£15£■-c1昱!aatm旺el日日皿nswthsice*:psts-jss^.BhaiM口眠jM旦网割占坏巳*小^4平””平上"-£>4期-SMIi-auUM-bl®*、中二旦上1星军3W"p±-se*^kdRelS^qGenesc51M4312S£^Ee^HtE':ivet.13jii#a?«vtzlhiaeiefpth^litjctNoii-RatKeffieqGenesEMM^ElC-LS-541;comie^xive-”y_i吧caowrEhfaac-ar•zieEm.ZitI翌M踌J■奶T巽Ml"uxf•匚叶j.*w号■】EMM^ElC-LS-541;comie^xive-”y_i吧caowrEhfaac-aruxf•匚叶j.*w号■】土、2・十»3.Gafw<*i,=耕善”mz吊冲i&-iTE・M5akUMHT把"村那眼”-C&at■二皿侦1N上1,,D3:7&.CTW-云.■:血止21>杰须£虫"叫方右-(SEiC31&LE342^25Sie-E'L"vstE2_3m■:喧tEaswuir㈣maTix〔滞■JiE-fcO-C"|VSiWRliE;Vtmumcwe!caamtETlt■&azv-feDandPT193QEt±J»Bg*玮gar-ew^^gzavE^igi-3MC?1t*«*SXGWpFEeXETEtGTDff4ETQErra-SELFzSEEUE"J.F•「-(KH0ClC^e22EF=va『心m;;"样汩土-[潘亍心畤户口只:1”配血71;33日2■辨号顾BwawiiCTCT■耳EaiflB9:L:»%:Er&-TJ;@】ll・i|W-网二皿翼4。:1|1|1ccrsezxi^e*L33J*efiEse^Tivtiiss-jst参WdUH口I"li«t-«Cort;fl=t-tB”,BTETLJa'JV:iJJEMiFtfeq=CWEfe序5:*导W印m?iawthC&2*n-rgasco-rEfFrac^grfa<s^-arHalAlignedntUNzkSearchResultsBO&TJIDJ-AfettuBurra<T±njiumwesmClsbubijtwtbf1・g>o外MAStLMcDltAclobeN£C:^LI>?|ir«ovl«ee<UB~Aa^ehin--Di-vtg-i.ETjjpaKi-i-iilfzAMA,fcrc^iidectlte^xj:b^eijiwrlif-accax.Non-RAtAlightedhlU\ASe^kthK/mjI性结果显示该基因的已知序列和相关mRNA序列,点击KnownGene中的第一个序列,出现包含这序列的图解概要。为了获得这个区域更清晰的图像,可以点击紧靠zoomout的1.5X按钮,如下图:TiMiQ^iuiSdrurKHDWAC^HWEEnu«*FWfPB1TSC<^,iittniii,Broifl.^eranfcal?im.2M4土倔心舛口如日)■ew4^*^r』山11亩天iiwnEtM1顽站i讨晅S^CS*]AfkillBI■h-L-nirns-dBiiathiw.lKmhjjwtkii^m

对于KnownGenes(已知基因)和预测的基因路径来说,一般的惯例是以一个高的垂直线或块状表示每个编码外显子,以短的垂直线或块状表示5,端和3■h-L-nirns-dBiiathiw.lKmhjjwtkii^mg*mH>Ag*mH>AinriESTTnrksOH41土"ASgn/AFi。T的UltffosrtioDChsTOISLOSOEibeBifid%tark_mA*SEfclyftACtDSdMMVhid*V-*hiip**hwte*■PkmotyieaadDk£M£«^s-ad^itwu1337*9面日皿牯怡17仲伸珂向1姓■三ccllapsgallUs^ct^p-dQ^Tibclgmdpr炒rffiMiR11FtCraclcicfepkjiedTr如ki4代由旧右函il虹心viS・U9国顽c司lybe曲供*:用盗afs-ecott^acinu>df&Iexpand日11IKtjDQTL本例的搜寻目的来说,默认设置不是理想的设置。按照视图利用页面底部的TrackControls按钮,将一些路径设置为hide模式(即不显示),其他设置为dense模式(所有资料密集在一条直线上);另一些路径设置为full模式(每个特征有一个分开的线条,最多达300)。在考虑这些路径内究竟存在那些资料之前,对这些路径的内容和表现做一个简要的讨论是必要的,许多这些讨论是由外界提供给UCSC的。EnsemblGenePredictions路径由Ensembl提供。Ensembl基因通过许多方法来预测,包括与已知mRNA和蛋白质进行同源性比较。若查询启动子区域,我们需要将EnsemblGenes选择为dense或full模式,点击Refresh,即刷新,出现下图:

Rw+'Eaq图中多出了EnsemblGenes的预测路径,我们在红框中圈出。点击用于表达该序列的任何方块出现以下页面:Rw+'Eaq,!*iE,!*nEas-34<M-DC6725M.AFlSe2?SLiMiE0C4*tro«__Hutwt珥sfitH4tShFs点击红框中的条形深色方块(不是EnsemblGenes文字),

HomaGen皿此GenomeBrowserElatTablesGeneSorterPCREnsecnblGfdcPreditti-ons(E>*SRNOT0G0^0fl20S28-LnseoililEns«mblG^Link:EKSRNQGOOQOOOLhg&Eu瞒mblTrjimE时ENMRNOT00QS02C皿En^mblProkin:£XSWOPOO^gjO^'lsPosifioit:血1立口”口河寸心知215Bftkd.!]pl2GenanikSize:j]1"Sfrind:-AlterneNani«ENS3O-'CG000(H)C150j6CDSStir!:smpWeCDSEnd:completerLink$tosequeii<?fr:■P「cdkMd?K?t&♦P「侦utedniR\Afromgrnomicse<jutflce\Set或广\Set或广sthcn】。www.七Mwlnb乩com.cu

.・Geto~Ewww.七Mwlnb乩com.cu

.・Dmsi[而iupdM迎;200?-0"-lJ在此,我们选择并点击Linktosequence中的GenomicSequence,即显示基因组序列,出现以下窗口:Home&inainiv^8vn(Mii«BrowntrB4alTabl«>iGamvSaiXtrFCRAHicnFAQhitIpGeDQiiilcS^HrnccGeneGefGenomicSeqiienteNearGen^Newifwew顼曲pfirfetb@ptDXAfisifiareikaefreifeafiae村Obaitadeujuim,vylbeTah-MBgs心ytfatmiflgueoewSfquiiuct1Rclri^atfty^ionOpliansiECDS&giUpwEaniIn-HMOhas石bwECDS&gi©OtoePASTAm^nSprrg-ns?OOneFASTArecordptfrrrpdo(fEWLirtrofl,Kc)ZhQEraIwes-w^tarana(门sadD«frs<fci*"DS&em{31□5p6tCTRisviCDSpart-fagfsocwaNq呷=瞅FASTArwardsNifat#cki*cAk^r^izisngemd忒acti-izinpwEDCqiadlup^tKim^bqilc^meLbcyiruyWCn£pr就主』nordc^S>*querKWEonrk^nlBgOpfi£>n^^'.uLJRCAOUpfKTCdfi-TOAlSgcmeCXfaikEep<a£i(*>uo-fc'efHcaseOffisNww,h'.uLJRCAOUpfKTCdfi-TOAlSgcmeCXfaikEep<a£i(*>uo-fc'efHcaseOffisNww,h、syhibs,coillcik同时另外一个非常重要的就是序列显示方式了,这里我们在SequenceFormattingOptions选项里进行选择。我们选择上图红框里的内容,即外显子大写,其余的小写,也就是说mRNA的外显子大写,其余上下游非编码区以及内含子均为小写。选择完后提交,返回如下序列页面:>=n4_en3Gene_ENSRNOTO0000020626range=czhtl:21327099-213322131'EttcccjtgtggcttcGca.cats.gtttggacjtttE.tt=t=tc!=tc!aaggacagcaaaagcgtgaggccaagttgcct£taEtaca.catgt=.gc.cttctctttgaggBBBtgtttggaaagsacst;tg~aaXbacbatgxtggaaatccttcctgcact;ccagsgactgcztcacacttczcbgczcacztcgcaczcgttsectgttg岂亡吕tgtgaetgcaetg-tm亡吕gcetg-tggetgg己11amu吕aggtaatcgtgtgcagatg^atgcggt;izmgetact;tgmmgtgg匚tagctcccttcccccaccgcccctccg11aa11g^tccatggatggactgaa.aaegttgtaasmuuggucaatttasatggacccttttcatgttataagt=ctgcagtatgcttcccccbbbctagtc11cg'cagatatactcacctttaacXCbCbcteagBageaecBBetatgagaggaagecBetettgggtgtaa.eeagBBgtmmmtgatg^tagtattag-gggsagesmtgggatggcsctagmmtetctctacctaceatgggsett;gg刊cacacBcacacacacacacacacaca.cacacacacacBcacargggggggg-ggegggag^agegagajagagagagagagagag己gbgagsgmgbgsgaefag~mgmgaat:m=mm~tmgtmczagg~ttctmmatgaatgcatagtacatgmmmugmgtuut;七mummgizmm匕g_*ttmmgmmmgagagaesagstta^gtaesetg'tttaeBttt&a.eateBB&g'geBcegaetaegcctg^ttctttccttgacttaaccaccctccactagcctgcsagccatttgBgtagcaBgaggg-cttcatcacttgtBgacacttggag-aagtcBgtaaeaa^gc:ttsgetvatagetgggttacagetagmcacaaccgtttaeegetttgetg-tcetaaa.aaatmmcmgmmummmutuummcbgeetegttagattatgggttttagga七mmgtmmmmmmmmmagcctgmacctctgtacagccatg-tLPmmmmtst;ctcaactgaacccccactggcctccttccttctget;tetttettctcccaccctmtgttccctga.cacttacctmuugamumGsgctat11ggtstgmmuuum匚aa^cttatsetaaaaactcaatg'izccag'tcattgtccttcczctctct^ja.ccttg'Bag-acaagtccttaczataabgagg^etg-aaBaatetcc:cfca^gaa.cat:gcHtcztt±atagteetggettteatstettttagee&eeaaBBBBcg,gttatetseagtgaeeaaaaatcsaaacgcctgtmttteagatmcagmmtt;tgcacataggcatttt:gggcgggg■己gggggtattteaset^actatBBgcacctttctcctctcagtsgascat;ccesgagac^t:a.esgtczc:ca.~tgabaesbbatctsasscagtgaaaaagabg"tbt:t:11tgaatttutm—.uuugtgg'tatctgcctcttCEgetaettgagtettgagaaatttttatateagtsgec&g'aBetggtammgcgatt;tttaagaag-ggmmgattcgmgmmat:satccttgttcatgtat:ttetaagttBtatttcatcaggaag-ggtgcgaag-aggatacegagaaagttttactto:ttggtgttg^tgetggaa=acacaacguuttctt:cct=ggccagctabbgtgtgccaget1111cbgacggaggsbtgtg-gbgtgtcaaggggtcaggatcBBtccgg'tgtgagttgBtgag-gcBggBag-gtggggaggastgegaggastgteectgttt^tgtaggseteeattesgttetctggegagccggeegcccggacrcgtataaaagccagegeea第一个人写字母以后就是mRNA序列,之前的小写字母序列即为启动子区域了。人家在做后序的甲基化分析、转录因子结合位点分析等便可以复制下来了。刚才我们提到第一个人写字母以后就是mRNA序列,但该序列包含

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论