




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
...v.网络数据科学与工程—一门新兴的穿插学科?
——香山科学会议第424学术讨论会综述
大数据是指无法在一定时间内用常规软件工具对其内容进展抓取、管理和处理的数据集合。数据本钱的下降助推了数据量的增长,新的数据源和数据采集技术的出现大大增加了数据的类型,数据间复杂的相互联系使大数据的处理变得异常困难。全球信息总量每两年就增长一倍左右,2011年全球被创立和被复制的数据总量有1.8ZB(1021),到2020年全球所管理的数据将到达35ZB,比现在多出50倍。数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,也改变了科研范式。今年3月美国政府6个部门宣布启动2亿美元的“大数据研究与开展方案〞,使大数据研究上升为国家意志。欧盟也有类似的举措,今年1月截止的预算为5千万欧元的FP7Call8专门征集针对大数据的研究工程,并以根底设施为先导。大数据研究已成为科研的热点。2012年5月22~24日,主题为“网络数据科学与工程─一门新兴的穿插学科?〞的香山科学会议第424次学术讨论会在召开。会议聘请中国科学院计算技术研究所李国杰研究员、**中文大学华云生教授、清华大学姚期智教授以及中国科学院计算技术研究所程学旗研究员担任执行主席。来自国内外信息、经济、生物、社会等领域及企业共43位专家学者应邀出席本次会议。李国杰院士和华云生教授作了会议主题评述报告。会议围绕大数据应用挑战、网络大数据科学的共性理论根底和网络大数据工程的良性生态环境三个中心议题进展了深入探讨,共组织了3个中心议题评述报告和13个专题报告。一、大数据科学与工程面临的挑战性问题与学科根底李国杰研究员作了题为“网络大数据应用提出的挑战性问题〞主题评述报告,指出目前大数据的工程技术研究已走在科学研究的前面,科研人员首先要虚心与各应用领域的科研人员合作,努力解决各领域大数据处理提出的技术挑战问题。这些挑战包括:高效处理非构造化和半构造化数据;适宜的数据表示方法;寻找高扩展性的数据分析技术;数据的去冗余和高效率低本钱的数据存储;大幅度降低数据处理、存储和通信的能耗;构建融合人、机、物三元世界的大数据系统等。现有计算机系统不能满足大数据的需求,需要对整个IT架构进展革命性的重构。在讨论网络数据科学能不能成为一门新的穿插学科之前,首先要搞清楚“网络数据科学〞研究的对象终究是什么。许多学者认为数据科学要把数据当成自然体〔DataNature〕来研究,试图把计算机科学划归为自然科学。脱离各个领域“物理世界〞,作为客观事物间接存在形式的“数据界〞终究有什么共性问题目前还不清楚。本次香山会议的重点不是讨论自然科学中的海量信息处理,而是讨论网络空间〔Cyberspace〕中的大数据挑战问题。网络空间中的数据背后是数据关系网络,数据网络背后是人。研究数据网络实际上是研究人组成的社会网络。网络数据科学应发现网络数据〔信息〕产生与传播的规律、网络信息涌现的内在机制以及与其相关的社会学、心理学、经济学和信息科学的机理,利用这些机理研究互联网对政治、经济、文化等各方面的影响。传统计算机科学是研究算法的科学,而网络数据科学不能局限于此。网络数据科学应不同于传统的人工智能和统计学,面对PB级以上的海量数据,需要更简单有效的问题求解方法。大数据的分析不能停留在获得概率分布结果,也不能满足于对细节问题的数据挖掘,而是要争取从大数据中获得新知识。应优先选择“预言性数据挖掘问题〞做研究,即数据规模大到一定程度,就可以解决以前解决不了的问题,实现社会科学的“变革式〞进步。他最后指出,大数据研究被国外一些学者称之为科研“第四范式〞,强调不需要事先给出假设和模型,可以直接从数据的相互关系中求解问题,甚至认为大数据研究方法是“理论的终结〞。数据量的增加是否会引起科研模式本质性的改变,相互关系是否比因果关系更能反映事物的本质,还需要更多的科研实践来验证。但可以断言,20世纪是量子力学的世纪,到了21世纪,数据网络理论将成为量子力学可尊敬的后继。华云生教授作了题为“大数据科学与工程的学科根底探讨:计算思维的角度〞的主题评述报告,论述了与大数据相关的一些学科领域,包括数据科学、数据工程、数据挖掘、信息科学、信息论、信息工程、知识工程以及知识发现等,这些学科的研究范围与重点各不一样。大数据往往以复杂关联的数据网络这样一种独特的形式存在,因此要理解大数据就要对大数据后面的网络进展深入分析。从大数据上获得知识需要工程方法,譬如:抽象、分割、学习与泛化等,数据分析的根本方法就是由粗到精、逐层抽象。另外,还要放松对目标的约束,从而使问题变得可解。总体而言,大数据是科学还是工程,依赖于具体的应用。大数据科学致力于从大数据中发现新知识,而大数据工程那么是应用大数据知识来构建新的事物。大数据这个术语在国际上已很热,目前与大数据有关的国际学术会议很多,但大多数还是用处理“smalldata〞的方法来处理大数据。每个领域的大数据一般不能用于别的领域,需要积累不同领域的大数据才能找到大数据的共性。与会专家就主题评书报告展开了热烈地讨论。二、社会、经济与IT等领域中网络大数据应用的挑战性问题与会专家在题为“面向大数据管理与计算的现实挑战〞中心议题评述报告中,提出用“数据化学〔DataChemistry〕〞的概念来描述大数据研究,如同各种元素通过化学反响能生成不同的化合物一样;采用统计分析与人工智能相结合的方法,通过自适应地构建模型来发现大数据的某种动态组合中的大价值。他还指出,大不一定好,最近开场流行的纳米出版〔Nanopublishing〕就是尽量用较少的文字发表论文的关键信息。与会专家还作了“大数据、数据科学与经济开展〞、“金融证劵行业中的大数据处理〞、“大数据管理与处理平台的挑战〞、“大数据应用的需求分析〞和“生物大数据的挑战〞专题报告。与会专家就上述报告和大数据应用挑战问题展开了讨论。三、网络数据科学的共性理论根底与会专家在题为“网络数据科学的共性理论根底〞的中心议题评述报告中,指出网络数据科学的共性理论根底来自多个不同的学科领域,包括理论计算机科学、统计学、数据库理论、人工智能、机器学习以及社会科学等;理论计算机科学为解决大数据研究中的障碍提供了丰富的分析工具,但在改进和扩展这些工具以解决新的应用方面还存在有不少的挑战。与会专家还作了“面向网络大数据的机器学习模型与算法〞、“基于用户行为的移动网络病毒传播及分布式抑制〞、“社会计算:开展理论、促进应用〞和“海量数据的计算与量质融合管理〞专题报告。与会专家就上述报告和网络数据科学理论问题展开了讨论。四、网络大数据的良性生态环境构建与会专家在题为“网络大数据的良性生态环境构建〞中心议题评述报告中指出:网络大数据无论是采集、清洗、索引与存储,还是检索、挖掘、传输与可视化等方面均面临挑战;在大数据环境下需要重新思考“数据、信息、知识〞的本质,需要关注大数据的计算、计算复杂性以及大规模稠密与大规模稀疏之间的关联与区别;管理政策、隐私保护、人才培养等一系列涉及大数据生态环境的问题无一不是大挑战;解决这些困难与挑战必须依靠学术界、工业界与政府部门共同努力,为网络大数据构建起跨行业、跨领域的良性生态环境,为数据生产加工、传播、消费建立起和谐的大数据生态系统。与会专家还作了“互联网数据的价值评估与影响力度量〞、“互联网深度数据效劳的工程问题与解决思路〞、“开源软件、操作系统与开源硬件〞和“海量网络数据产业生态系统趋势及挑战〞专题报告。五、会议总结与专家建议经过与会专家充分讨论,会议形成了以下根本共识:1.大数据时代已经降临,大数据已是许多不同行业共同面对的大问题。尽管大数据意味着大机遇,但同时也意味着工程技术、管理政策、人才培养等方面的大挑战。只有解决了这些挑战问题,才能充分利用这个大机遇,从而能够充分挖掘得到大数据的大价值。2.在不远的未来,可能形成网络数据存储与效劳、数据材料、数据制药等战略性新兴产业,一个国家所拥有的大数据的规模与活性及运用大数据的能力,将是国家竞争力的重要组成局部。我国亟需在国家层面对大数据给予高度重视,特别需要从政策制定、资源投入、人才培养等方面给予强有力的支持。3.大数据背后必然有着支持其研究与应用的数据科学。但无论是美国还是欧盟的大数据研究方案,以及国内外大公司的大数据研发,目前最重视的都是大数据分析算法和大数据系统效率。因此,当前应把主要精力放在应对大数据的工程技术挑战上。工程上无法解决的问题就很自然地会成了为数据科学的研究内容,大数据处理技术的进步将促进数据科学的诞生和开展。4.大数据科学的共性理论根底来自多个不同的学科领域,包括计算机科学、统计学、人工智能、社会科学等。大数据中往往存在着复杂的关联关系。数据科学的重点是研究联系大数据的关系网络,因此对大数据所形成的复杂数据网络的特性与功能进展研究的复杂网络分析将是数据科学的重要基石。5.大数据涉及物理、生物、脑科学、医疗、环保、经济、文化、平安等众多领域。网络空间中的数据是大数据的重要组成局部,这类大数据与人的活动密切相关,因此也与社会科学密切相关。网络数据科学和工程是信息科学技术与社会科学穿插的研究领域,对国家的稳定与开展有独特的作用,应予以高度重视。6.为了有效应对大数据挑战,抓住大数据机遇,建立良性的大数据生态环境是唯一出路。需要学术界、工业界以及政府部门在国家政策的引导下共同努力,通过消除壁垒、成立联盟、建立专业组织等途径,建立和谐的大数据生态系统。与会专家还针对上述共识,给出了具体的行动建议:1.大数据应用大数据涉及的行业和领域有很多,专家们建议,当前大数据的研究应以关乎国计民生的科学决策、应急管理〔如疾病防治、灾害预测与控制、食品平安与群体事件〕、环境管理、社会计算以及知识经济为主要的应用领域。2.大数据科学的共性理论与方向研究网络空间大数据的内在机理,主要包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制,以及大数据的构造与效能的规律性〔如社会效应、经济效应等〕;在大数据计算方面,研究大数据的表示以及大数据的计算模型及其复杂性;在大数据应用根底理论方面,研究大数据与知识发现〔学习方法、语义解释〕,大数据环境下的实验与验证方法,以及大数据的平安与隐私。3.大数据工程的研究内容与目标大数据工程的总体目标是在有限时间、有限资源情况下解决挑战性问题。具体包含四个方面:〔1〕大数据的感知与获取,以及表达和预处理;〔2〕大数据的存储与管理;〔3〕大数据分析,具体包括典型行业的需求分析,分析方法与工具以及大数据的可视化;〔4〕大数据系统体系架构,包括体系架构与平台以及研发环境。4.大数据研究的组织方式专家们一致建议:〔1〕国家成立类似2011协作中心这样的组织机构,以更好地推动大数据的协同创新研究与战略性应用;〔2〕成立国家级的行业大数据共享联盟,使工业界、学术界以及政府部门都能够参与进来,一方面为学术研究提供根本的数据资源,另一方面为大数据的应用提供理论与技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建省二建建设集团有限公司招聘19人考前自测高频考点模拟试题及1套完整答案详解
- 项目工程调度与资源管理方案
- 土壤修复环保工程方案
- 会计法规考试试题及答案
- 林下中药材种植基地项目施工方案
- 生产线再生水利用工程建设工程方案
- 绿电综合开发利用项目建筑工程方案
- 城市区域环境保护方案
- 建设项目资金管理方案
- 2025年上半年九江市事业单位“才汇九江”高层次人才公开招聘【373人】考前自测高频考点模拟试题及答案详解(各地真题)
- 湘潭钢铁集团有限公司2026届校园操作类招聘备考考试题库附答案解析
- 合肥市社会化工会工作者招聘考试真题2024
- 恐龙妈妈藏蛋课件
- 演讲与朗诵教学课件
- 《中国急性肾损伤临床实践指南(2023版)-》解读
- 弗洛伊德课件
- 《CSCO乳腺癌诊疗指南2025》更新要点解读
- 2025年教师师德师风考试题(附答案)
- 贵妃生态农业有限公司企业策划书
- 学堂在线 战场侦察监视技术与装备 章节测试答案
- 智慧产业园区AI大模型数字化平台建设方案
评论
0/150
提交评论