2026国家生物信息中心和国家基因组科学数据中心数据体系介绍_第1页
2026国家生物信息中心和国家基因组科学数据中心数据体系介绍_第2页
2026国家生物信息中心和国家基因组科学数据中心数据体系介绍_第3页
2026国家生物信息中心和国家基因组科学数据中心数据体系介绍_第4页
2026国家生物信息中心和国家基因组科学数据中心数据体系介绍_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Towardanewparadigmofgenomicsresearch(2023)

中国科学院北京基因

所临时所址(大气物理所

1PB5858

Source

NGDCGSA,(asofDec.4,

在人口健康领 在合成生物学领 在农业领 ResearchNester到9800亿美元,复合年增长约15%

PLOSBIOLOGY,《中国合成生物产业白皮书2024》

GenomicsGenomicsProteomics&Bioinformatics2022. UnitedTop10countriesbydatabaseUnited

Top10databasesbycitationUCSCGenome Top10institutionsbycitation Top10countriesbycitationUnitedEuropeanBioinformaticsInstituteNationalCancerUnitedKyotoUniversityMemorialSloanKetteringCancerUniversityof

*来源Web*来源WebofNatureGenetics,IBMAspera大数据治理技 IBMAspera局部序列比对 局部序列比对 多序列比对 短序列比对 10亿人基因组变异压缩后仅需1T

2019年6月5日国家基因组科学数据中心2019年11月13日,中央编办关于中国科学院北京基因组研究所加挂牌子的批复安全管理与开放共享,以及前沿交叉研究和转化应用等工作2021年,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(简称“十四五”规划),规划构建国国家发展改革委会同国家卫健委等部门明确国家生物数据中心体系按照“核心节点(1+N)”模式组织,并明确国家生物信息我国同国际主流生物数据中心开展交流我国同国际主流生物数据中心开展交流面向国家重大需求的生物大数据前沿研究与转维护和保障我国生物数据主权安全的国家级战面向国家重大需求的生物大数据前沿研究与转维护和保障我国生物数据主权安全的国家级战国家生物数据标准化、国家生物数据标准化、体系化和高效化的存管数据资源 生物数据资源的语料基信息安全 信息安全监测预

计算生物学 生物信息理论及技工具开发 算法、工应用发展 生信服务 生物信息专业化公共服运维保障 基础设施及信息系统安全稳定运

44,

30,145,1010十三五年 2021 2022 2023专利申请数(件)专利授权数(件)转让经费(万元)

十三五年 SCI文章数总影响因子平均影响因子2021年6我院上报《国家生物信息中心项目建议书》(科发

2022年8我院上报《国家生物信息中心项目可行性研究报告》

2023年8我院批复国家生物信息中心项目初步设计方案(科

2024年5国家生物信息中心项目开工2022年1国家发展改革委批复《国家生物信息中心项目建议书》(发改高

2023年1

2024年2信息中心项目初步设计概算 投资规模:总投资为105059万元(不含土地费用 用系 应用系 生物计算环境系

物理独立的内部服务环境 建设地点:河北省张家口万全区孔家

12345675月24日,国家生物信息中心项目正式奠基启动建设,标志着项目从申支撑我国生命科学研究可持续发展完成国家生物信息中心建设任务

NationalGenomicsData基因组科学大数据汇交存储、安全管理、开放共享与整合挖掘研究体系Translatingbigdataintobig

到所经费留所经费

2024 院外-院外-

其他人才项目经费院内科研经费院外-国自然院外-科技

总人数职工学生

初级5,中级26,

正高级

>457,>457,<=308,31-4534, 中心人员发展趋势

6,6,

NationalGenomicsData目录目录CONTENTS 北京园区机房及辅助设施面积超过600平21,760个CPU核,具备721TFlopsCPU120PB在线存储总容量,30PB磁带库备网络带宽:4分级管 离线备分级管 离线备 系统隔 权限控

PI PI 展

范求件他

范求范范展范范范展类识据展

标估换贮理集与范准展工范范义BIGData

ScienceBIGDataGeneExpression NucleicAcidsResearch:2017,2018,2019,2020,2021,2022,2023,2024,非编码

9100+100+58PB+645209

1200+19,000+1867834900+25,000+

10PB,778,988个35,121,307,1,990,807条339,622条783GB,3,955,371条GSAGSA

INSD

获得SpringerNature

GSA

GSA

GSA

SpringerNature认可

GSAFamily已形成涵盖生物多样性、人类遗传资源等领域的组学原始数据及相关数据的数据15,516个),数据覆盖12大类,数据量总超58.9PB,支撑发表文章4267篇RawsequencingClinicalinformationNeurobiologicalDataFlowcytometrySpectraDataNumberNumberofFileFilesize

iScience2022(IF:4.6),CriticalCare2022iScience2022(IF:4.6),CriticalCare2022FrontiersinImmunology2022(IF:5.7),IntensiveCareMed2023NatureCommunications2024(IF:14.7),ScientificData2024344例:HRA002335OMIX004967(Non-coding144例:HRA006522OMIX004969(Non-coding236例:HRA001947OMIX004968(Non-codingOlink新冠感染Olink胸部CTGenomeWarehouse 1,542 1,542 4,840 45,744 85,0801,700 国际数据本地一体化整 国际数据本地一体化整 77411073587214GWH协助GWH协助中国人群泛基因组联盟进行中国36个族群的114个高质量单倍型基因组数据的汇交和归档,快速完成数据上传、2023年6月在Nature 成果于2024年8月在NatureGenetics发表。NGDC协助中国科学院分子植物科学卓越创新中心巫永睿团队进行大NGDC协助中国科学院分子植物科学卓越创新中心巫永睿团队进行大库归档编号,保障了文章顺利送审和发表。研究成果于2022年11月在NGDC协助中国科学院古脊椎与古人类研究所付巧妹团队完成我国新疆不同区域考古遗址中NGDC协助中国科学院古脊椎与古人类研究所付巧妹团队完成我国新疆不同区域考古遗址中201数据库归档编号,保障了文章顺利送审和发表。研究成果于2022年3因组,如细胞器、病毒、质粒、噬菌体等)核酸序列及其注释数据。同时,整合来自NumberNumberofnucleotidesequences(×

Nucleotide(released)Protein(released)NumberofproteinNucleotide(released)Protein(released)Numberofproteinsequences(× 90,486 921,317 AugOctDecFebAprJunAugOctDecFebAprJunAugOctDecFebAprJunAugOctDec序列更新模板文 序列历史版本比NGDCNGDC协助复旦大学公共卫生学院、上海市重大传染病和生物安全研究院的粟硕团队进行GSA和GenBase团队协助中国疾病预防控制中心进行华南海鲜市场环境样本☑基因组测序数据的归档和共享,快速完成数据上传、校验审核、归档和释放,保障文章顺利送审和发表,研究成果于2023年4月在在NatureGenetics发表 NucleicAcidsRes(2018,

NucleicAcidsRes

NucleicAcidsRes(2020,GWAS

2017201820192020202120222023

Jan-20Jan-21Jun-22Dec-23基于图像数据的智能分析模型基于图像数据的智能分析模型NucleicAcidsRes105,25586functional

Bioinformatics2019Codingpotentialpredictiontool

NucleicAcidsRes20222,512functional

NucleicAcidsRes140,356268,848

NucleicAcidsRes101,293331,244

NucleicAcidsRes95,243323,950

Cancer Cell Analysis Analysis ZengJetal.NucleicAcidsResearch.2022and

ShangYetal.ScienceBulletin.26263,552150,957,81047,852,086高甲基化CpG119,855,649

278152,905604

GSASRAENA1,70912cancer

3,661,886Hypo-

•IDMP差异启动子区域鉴AgePredictorDMRToolkit

TranscriptionfactorsSilencersEnhancersActiveenhancersCancerenhancersDiseaseenhancersSuperenhancers

Multiplevisualizationsofcancer-relatedDMRsandassociatedgenes EWASOpenEWASData159,9441,325种组织/788EWAS

1,125837752,935976817,49497682731EWAS5125121014BarturenG.etal.,NatureCommunications,

XiaoyaDuanetal.,Oncogenesis,Samueletal.NatureAgingSamueletal.NatureAging.Martínez-Enguita.BriefBioinformatics.Zouetal.FrontiersinGenetics.Songetal.Biomolecules.Martin-Almeidaetal.Biomedicines.Lorenzoetal.EnvironmentInternational.Charleset.alGenomeMedicine.目录目录CONTENTS服务210国家/地区的184万余名用户,CellCellPress

YiChuan2020;ZoologicalResearchGenomicsProteomicsBioinformatics2020,

多条新冠病毒基因组序列信息,为全球182个据下载近249亿条次,国外访客占比高达Yichuan(2020);GenomicsProteomics&Bioinformatics

(自动化

(人工

5KeyFunctional50Functional17MData Data,Information,Knowledge,&GenomicsProteomicsBioinformatics

MetadataGenomesequence

Collectiondate:yyyy-mm-ddSubmissiondate:yyyy-mm-ddLocation:Country/Province/City

HomoVerocellcultureMeta GenomeDe-

VirusCollection

Removing

Accession

Unifyingletter

Related

HighqualityLow4、4、ofvariantsS<=ExpS>Exp2、ofdegeneratebases(X)X>5、Densityofvariantswithin20bpD<3、ofG>1、of~48%complete&highMostofthelow-qualitysequences(29,281,99.7%)containdifferentnumbersofunknownbases(Ns).Amongthesesequences,60%have16–500Ns(median258),and40%havemorethan500Ns(Figure1B).FurtherinvestigationofthegenomiclocationsrevealsthatsomegenomicregionswithhighfrequencyofGenomicsProteomics&Bioinformatics

变异数量分 变异注释统次GenomicsProteomics&Bioinformaticsresource,particularlythegenomevariation —RodneyBrister,NCBITheBHBD2019nCoVResourceisveryimpactfulachievementsinsuchashortperiod.—TakashiGojobori,KAUST 2020/1/22

2020/6/72020/4/6 GenomeAssemblyandDenovo-LineageandPhylogeneticPangoLineageAssigner&PhylogeneticPhylogeneticZoologicalResearchZoologicalResearchHaplotype

5,1714,

LineageLineage

ZoologicalResearch研发大规模单体型网络快速构建算法BriefingsinBioinformaticsHiRisk-高精 具有鲁棒AdvancedScience, AdvancedAdvancedScience,高风险变体预警模 源代码已公开发布至

小范围扩 大范围传 院办公厅给研究所发来感谢信:“院办公厅给研究所发来感谢信:“2022年1月11日,北京基因组所新冠肺炎抗疫科研工作入选中国科学院 TheInnovation目录目录CONTENTS实现备份和事先报告信息实时互通,以及出境数据的实时监控和预警- 602119560211953841338413对标NCBIBLAST——参考库列表建立面向我国重要物种的349个参考库列表BIGNCBIEBINCBIEBI 访问

访问数用户数IP数

UnitedRepublicofRussianRussianUnited

Korea,RepublicSri

年度下载次数

Top10BMCGenomicsGenomics,Proteomics&FrontiersinPlant

FrontiersinScientificDataBMCPlant

InternationalJournalofMolecular 20162017201820192020202120222023NucleicAcidsResearch2024,52:D1- NucleicAcidsRes2018-目录目录CONTENTS北京大学 共建单

首都医科大学:中科院动物所:天津大学:华中科技大学:华中农业大学:四川大学华西医院:哈尔滨医科大学:中山大学:浙江大学:医学科学院病原生物学研究所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论