数据共享要素_第1页
数据共享要素_第2页
数据共享要素_第3页
数据共享要素_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据共享要素GPB近日在线发表了中国科学院北京基因组研究所(国家生物信息中心)题为The Elements of Data Sharing的前景展望文章。我们的“要文译荐”栏目现发布本文的中文全文,供大家参考!数据及其特定属性具有久远传承的特点,其价值远超于研究人员从其分析得到的结果和结论。除了通过设计实验而获取新数据,研究人员常常需要整合现有数据,尤其是那些已被证实的高质量数据。我们日常生活的各个方面及其可衡量的活动,都作为数据而被记录和收集,这被称为大数据,如今大数据已经受到了前所未有的关注。数据共享是构建人类命运共同体的关键为实现数据共享,首先要在全球范围内建立一个自发性的专门组织。一方

2、面,当出现突发公共卫生事件时,如新发传染病引起的流行病,特别是两种冠状病毒:SARS-CoV(严重急性呼吸综合征冠状病毒)和SARS-CoV-2 1,亟需全球数据共享以实现大数据驱动转化的健康应急措施和方案。另一方面,我们现在深陷在大数据时代,伴随着高通量测序技术和高性能计算平台的快速发展,数据的产生正以指数级速度爆发式增长,且大多数据是由国家科研基金项目支持 2,3。因此,数据共享对于应对公共卫生突发事件至关重要,可帮助我们全面了解突发情况、推动数据驱动的科学研究和知识发现,并为政府决策提供重要支撑。然而,现有的数据共享模式缓慢低效,数据的回报投入比过低,缺乏明确的要素理念以实现数据共享。因

3、此,为应对全球面临的前所未有的公共卫生事件(截至2020年4月18日,SARS-CoV-2已在200多个国家/地区传播,感染病例达2,213,653例,死亡154,462例),需要我们秉承人类命运共同体的理念,明确数据共享要素,并以此建立形成快捷、开放、高效的数据共享范式。数据共享急需数据生态系统数据共享贯穿于数据全生命周期,涉及数据开放和发布(特别是由政府资助的研究数据),数据标准体系以及数据库中的数据管理和访问等多个方面。数据共享由数据提供者发起,由数据库实施管理,并为公众提供数据访问权限,所有这些相关活动共同构成了数据共享生态系统。因此,数据共享的基本要素应该涵盖两个主要方面:一个是数据

4、提供者(不仅包括原始数据的生产者,还包括提供数据注释和数据关联的数据库4),另一个是数据管理者。数据提供者三要素:及时性、开放性和可用性对于数据提供者来说,及时性、开放性和可用性(promptness, openness, and usefulness,POU),是数据共享的基础准则,特别是在公共紧急情况下,这三个要素起到至关重要的作用(图1)。在疫情爆发期间,数据共享的及时性至关重要,因为“速度决定一切”5!与1996年国际人类基因组测序联盟提出的百慕大原则一致,主张在数据产生后24小时内迅速公开发布基因组序列数据且不受使用限制。在突发情况下,及时共享数据对世界范围内的研究人员和全球人类社会

5、意义重大。当然,在这种特殊情况下,如何保护数据提供者的权益也很重要。为实现多赢,快速共享数据的政策,应作为共同规则和紧急程序被业界广泛认可和采纳,与此同时,知识产权保护、出版优先权以及数据提供方的利益等诸多问题都需经过专业且公开的讨论商定 6。图1 数据共享的要素对于数据提供者来说,数据共享要秉承及时、开放、可用三个要素;对于数据管理者来说,数据共享要遵循存储、整合、转化三个要素。整个科学界应制定并认可相关的政策、数据库和标准规范,以全力支持数据共享活动。数据开放性强调数据本身和相应的元数据都应该在数据库中公开发布和完全共享。“众人拾柴火焰高”,数据库的建设需要广大同行的共同努力。数据库不仅负

6、责数据的存储和处理,还提供对所有数字信息的免费获取和访问。目前,在生命科学领域,有一些大型的全球信息中心致力于分子数据(如DNA/蛋白质序列和结构)的收集和管理 7,包括美国国家生物技术信息中心(NCBI)8,欧洲生物信息学研究所(EBI)9,中国国家生物信息中心/国家基因组科学数据中心(CNCB/NGDC)10。这些公共资金支持的数据中心接收全球数据递交,并在全球范围内提供数据开放共享服务。必须强调的是,这些数据库应获得长期、稳定的经费支持,以保障数据的永久访问和长期使用。数据的可用性强调数据质量和完整的重要性 11。数据共享本身不是目的,使数据得到广泛使用才是数据共享的目的。所以,被共享的

7、数据必须保证其可靠性及完整性,低质量的数据将带来偏差或错误。另外,共享的数据需全链条覆盖,不仅包括数据,还包括但不局限于:元数据、未处理的数据、衍生数据集、分析结果、源代码、协议、流程图等。因此,用户和数据提供者需要制定一套数据共享标准,这样会事半功倍,吸引更多人参与,数据共享成效更好。数据管理者三要素:存储、整合和转化数据共享贯穿于数据全生命周期。为了促进数据共享,数据库必须提供一套将数字数据存储,整合并转化(deposition, integration, and translation, DIT)的网络服务以便访问和使用共享数据(图1)。为了保证共享数据的质量和可用性,数据都会经过审编处

8、理。因此,数据审编必须涵盖数据标准化注释、数据质量控制和整合受控词表等一系列的过程。只有经过审编的高质量数据才能被用于信息挖掘和进一步的加工。数据与数据管理要素相结合,才能实现将大数据转化为知识的目标。总而言之,数据库包含了数据管理的存储、整合和转化三要素,并为数据管理提供了核心工具和数据共享生态系统(图1)。数据共享的POU-DIT要素是相互关联的,可以任意组合使用,并随着数据生态系统的完善而发展。POU-DIT要素适用于广泛的研究领域,包括POU中数据共享的及时性、开放性和可用性,以及数据、信息和知识的存储、整合与转化。此外,POU-DIT要素不仅是对FAIR原则 12(数据可查找、可访问

9、、可交互操作和可重复利用)的补充,也是数据共享的共同准则和数据管理的指导标准。POU-DIT要素和FAIR原则旨在共同促进科学界的数据开放性和可重复利用性。尽管目前POU-DIT要素与数据所有权、数据安全、数据隐私和数据保护法 2 (如欧盟的数据保护条例、美国健康保险和责任法案等)存在分歧,但所有复杂问题都需经过专业且公开的讨论商定 13。合作促进数据共享如上所述,数据共享还面临诸多挑战。例如,不同学科领域在数据处理和共享文化的差异性,比如生物医学当基因组学遇到流行病学时,往往会给数据共享带来多重障碍。理想情况下,资助机构、学术期刊、政府组织以及研究人员必须相互配合,为数据共享活动制定规范化方

10、案。目前,全球微生物标识计划(https:/www.Global MicrobialI),旨在建立一个全球微生物基因组流行病学数据库,以便发现新出现的病原体。与此同时,针对当前的SARS-CoV-2新冠疫情,GISAID 14、NCBI的GenBank 15,和CNCB/NGDC的2019年新型冠状病毒信息库(2019nCoVR; 16作出了重要贡献。其中,2019nCoVR信息库通过数据整合和审编质控,为全球科研人员提供了高质量基因组序列和数据存储、挖掘和转化等数据服务(图2)。然而,各数据库间的数据交换、信息互联和协调沟通,以及全球各实验室乃至各国的数据标准化等工

11、作,都已迫在眉睫。为共同应对全球爆发的COVID-19,亟需建立跨国、跨学科以及跨数据库间(如2019nCoVR、GISAID和GenBank)的协同合作。图2 突发公共事件中的数据共享方案数字星球,数据共享综上所述,将数据转化为知识的关键因素是数据共享,尤其是当今全球面临共同危机时。为使全人类最大程度地享用共享数据,必须建立以POU-DIT要素为核心的数据共享标准化管理,为包括但不限于研究人员、政府决策者、资助机构和期刊出版商在内的所有用户提供指导,以开展数据共享活动。在数据共享中所得的数据和建立的相关基础设施,不仅便于立即使用,还可以作为纪念抗疫英雄和受害者的历史性材料。所以,无论在常规或

12、突发情况,我们都要积极倡导数据共享文化 17。为构建人类命运共同体,我们呼吁广大同行携手并进、精诚合作,将共享数据与POU-DIT理念结合,共同打造一个更加美好的数字星球。致谢感谢我们的同事和学生为2019nCoVR(利益竞争作者声明, 不存在利益竞争。参考文献1 Yang X, Yu Y, Xu J, Shu H, Xia J, Liu H, et al. Clinical course and outcomes of critically ill patients with SARS-CoV-2 pneumonia in Wuhan, China: a single-centered, r

13、etrospective, observational study. Lancet Respir Med 2020.2 Phillips M, Molnar-Gabor F, Korbel JO, Thorogood A, Joly Y, Chalmers D, et al. Genomics: data sharing needs an international code of conduct. Nature 2020;578:31-3.3 The importance and challenges of data sharing. Nat Nanotechnol 2020;15:83.4

14、 Gaudet P, Bairoch A, Field D, Sansone SA, Taylor C, Attwood TK, et al. Towards BioDBcore: a community-defined information specification for biological databases. Nucleic Acids Res 2011;39:D7-10.5 Yozwiak NL, Schaffner SF, Sabeti PC. Data sharing: Make outbreak research open access. Nature 2015;518:

15、477-9.6 Wu C-I, Poo M-M. Very fast evolution, not-so-fast publication A proposed solution. National Science Review 2020;7:2378.7 Rigden DJ, Fernandez XM. The 27th annual Nucleic Acids Research database issue and molecular biology database collection. Nucleic Acids Res 2020;48:D1-D8.8 Sayers EW, Beck

16、 J, Brister JR, Bolton EE, Canese K, Comeau DC, et al. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res 2020;48:D9-D16.9 Cook CE, Stroe O, Cochrane G, Birney E, Apweiler R. The European Bioinformatics Institute in 2020: building a global infrastructure of in

17、terconnected data resources for the life sciences. Nucleic Acids Res 2020;48:D17-D23.10 National Genomics Data Center Members and Partners. Database Resources of the National Genomics Data Center in 2020. Nucleic Acids Res 2020;48:D24-D33.11 Li Y, Sperrin M, Martin GP, Ashcroft DM, van Staa TP. Exam

18、ining the impact of data quality and completeness of electronic health records on predictions of patients risks of cardiovascular disease. Int J Med Inform 2020;133:104033.12 Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 2016;3:160018.13 Drazen JM, Morrissey S, Malina D, Hamel MB, Campion EW. The Importance - and the Complexities - of Data Sharing. N Engl J Med 2016;375:1182-3.14 Shu Y, McCauley J. GISAID: Global initiative on sharing all in

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论