大数据对科学哲学的新挑战_第1页
大数据对科学哲学的新挑战_第2页
大数据对科学哲学的新挑战_第3页
大数据对科学哲学的新挑战_第4页
大数据对科学哲学的新挑战_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据对科学哲学的新挑战浏览2016-05-11 09:33336336333044作者:7论文网中小型 :8评论:0件术语“大数据”实际上是指数量巨大的数据集,使用专用数据挖掘技术是非常困难的。因此,大数据的最基本组成是数据,其本质问题仍然是数据的问题。所谓数据是在狭义上有根据的数字,即表示测量的数字和为数字提供的上下文。在大数据时代,所说的数据是范围广泛的数据,包含计算机可以处理的所有二进制编码信息。大数据是对业务、生活、学习、思维方式等多个方面产生总体影响的新数据技术革命1。正如历史上每一次重大技术革命都给科学研究范式带来了重大变化,带来了科学革命,大数据技术革命也能给未来的科学研究带来革命性的技术手段,给传统科学哲学的许多基本问题带来新的挑战2。第一,大数据和科学研究的新对象大数据给科学研究带来的最大变化是直接从自然世界或精神世界向间接资料世界转变的科学研究对象的变化。在全科学时代,人们主要在劳动和生活实践中直接观察了星空、土地和自然界的一切,因此其对象是直接的自然现象。古代科学和现代科学已经有了科学观察和实验工具,但是亚里士多德开发了演绎法和培根,发展了归纳法两种科学研究的方法,可以实现从现象到理论经验、从旧理论到新理论的逻辑抽象。但是从科学对象来看,无论是古代科学还是现代科学,其研究对象都面临着自然现象。从对自然现象的直接观察到实验室的受控实验,科学观测的手段发展了,人与自然对象的距离发生了变化,但科学研究的对象没有改变,都直接面对自然现象,停留在波普说的世界一号。我们的人文社会科学对人类及其社会现象进行了观察、分析,以波普所说的世界二人精神世界3为对象。20世纪中后期,随着计算机科学技术的发展,科学对象发生了巨大的变化,即虚拟世界的出现。传统的科学倾向于从结构角度将复杂的对象简化并还原为简单的元素,但在此过程中,信息容易扭曲,因此很难反映对象的真实性和客观性。因此,我们利用计算机的强大功能,通过功能模拟的路径,使用模拟模型来模拟实际的研究对象。由此,我们在现实世界之上人工构建了虚拟世界。通过虚拟世界的模拟,模拟,实现认识真实世界的目的。虚拟世界的出现是科学研究对象首次从直接面到间接模拟。随着大数据的出现,科学研究对象再次发生了变化,从现实世界转移到了数据世界。天文学家开普勒是个幸运儿.他基本上没有直接观测星星,而是继承了前辈迪谷布拉赫几十年来大量的天文观测资料,发掘了这些资料,发现了天体运行规律开普勒三大定律。后来,开普勒不再有好运,科学家亲自观察、实验,亲自收集和使用自己的资料,成为研讨会模式的一部分。智能技术、网络技术和云技术的迅速普及带来了一场数据革命。第一,数据收集方法发生了质的变化。现有数据是人类使用测量手段手动收集的,例如土地测量数据、科学实验数据、取样调查数据等,而当前的大数据是利用先进的智能技术自动生成的,因此数据量急剧增加,带来了数据爆炸。第二,数据写入到纸、竹、纸等可视介质中,数据量增加,存储和保留困难,而大规模数据时代发生了存储技术革命,特别是云存储技术,使存储大量数据的存储更加方便,存储成本特别低。第三,数据传输方式发生了质的变化。过去的数据传输很不方便,通过纸张介质在其他地方传输最快。因此,很多资料一旦使用,就会沉淀,成为“死”数值。随着网络技术(尤其是移动网络技术)的发展,数据传输基本上以光速传递,完全即时和在线进行。第四,数据处理方法发生了质的变化。过去计算数字的最快方法只有中国的算盘。对于非数字信息,只能手动阅读和阅览。随着计算机技术的发展,尤其是数据挖掘技术(如最新的云计算)的出现,无论是结构化数据还是非结构化数据,都可以通过云计算等技术快速处理,因此可以轻松地从大量数据中挖掘有价值的信息4。数据在科学研究中一直起着重要的作用,但是小数据时代和大数据时代的数据本质上有很大的差异。以前,数据收集前有多种计划和安排,数据收集有理论预设。根据观测渗透理论,人工观测或控制实验获得的数据不仅数量小,而且缺乏客观性,主体和对象之间所需的观测距离不足,这是最重要的。在大数据时代,人工不再参与,因此智能系统自动生成的数据不受理论前提的影响。也就是说,这些数据最初没有使用,而是作为“数据垃圾”或“数据灰尘”保存,以后随着以某种方式在数据垃圾中发现新的用途,数据垃圾将作为宝藏销毁。因此,大数据时代的数据与主体的观测距离变远,客观性更大。各种资料汇集而成的大数据构成了客观世界,这个世界是客观物质世界和主观精神世界以外的数据世界。根据波普尔的“三个世界”划分标准,这个客观数据世界应该属于世界33。世界3的数据世界是将物质世界和精神世界统一为客观数据世界,全面反映事物或精神本质属性的物质自我映射世界。大数据时代的数据是自动生成的数据世界,科研人员不再直接涉及自然或社会研究对象,而是通过数据挖掘直接进行科研活动。例如,高能物理研究人员不必亲自做粒子实验工作,通过挖掘对撞机生成的大数据,可以进行高能物理研究工作,现有的高能物理研究已经转变为数据挖掘工作。天文学家也发生了类似的变化。射电望远镜智能化后,利用自动收集和生成数据的功能,天文学家发现天文现象、找出天文规律,天文学研究已不再是对付天空的艰巨任务了。“人们不是用望远镜看东西,而是通过把数据传送到数据中心的大规模、复杂的仪器看,然后才开始研究他们电脑上的信息5。社会学家不一定要从事现场调查和社会观察,还可以从已经存在的社会大数据中挖掘人类的行为规律。心理学研究者不一定要亲自进行心理实验,已经有社会资料的挖掘可以掌握人类的心理活动规律。经济、经营学不再需要通过Taobao、jingdong、Amazon等在线商务的交易数据挖掘来进行经济、经营研究。在大数据时代,所有自然科学、社会科学、甚至人文学科的研究工作都摆脱了对自然、社会等直接对象的依赖,打开了人与自然、人与社会之间的距离,间接挖掘了自动生成的相关大数据,从数据中发现了规律,预测了未来。由此我们可以看出,科学研究的对象首先是自然、社会、精神等,在自由世界中,然后增加了虚拟世界,而随着大数据时代的到来,数据成为科学研究的新来源,从而又增加了新的对象数据世界。大数据成为科学研究的新对象,大数据技术对现代科学哲学的最根本影响。第二,大数据和科学边界的新标准科学边界问题是科学哲学的核心问题,科学哲学的各派参与并应对这个问题。科学界限是绘制科学和其他领域类别(特别是科学、形而上学等非科学)之间的界限,将科学与非科学区分开来,通过界限强调科学的形象和特点6。20世纪初,逻辑实证主义首次明确提出了科学边界问题,用意义和实证区分了科学和伪科学、非科学。波普说,他继承了逻辑实证主义的科学边界问题,但必须衡量边界标准是否能被伪造。接着,拉卡托斯使用了科学研究计划,库恩使用科学范式来分享科学和非科学。费耶阿本德完全放弃了边界问题,但大多数科学哲学家仍然认为科学的边界具有重要意义。虽然历史上的科学哲学家大部分都承认科学与非科学之间的明确区分,但为什么经过很多努力,仍然找不到适当的科学界限标准呢?这可能主要是找不到边界线和边界标准。随着大数据的出现,数据越来越受到关注。我认为大数据时代仍然存在科学边界问题,但我猜想数据能否用作科学和非科学的边界。先看看科学史的例子。古埃及人和巴比伦人在测量土地和记录财产的过程中,创造了数字这个抽象的符号。当塔勒斯、阿纳克西曼等古希腊哲学家声称世界的源流是诸如水、气体、火、土壤等特定物质时,毕达哥拉斯提出了一个更抽象、更本质的命题,即“数字是万物的本源”。将所有万物的本质抽象为“数”,将“数”作为万物的特性,与其叙述对象联系起来,认识和分析“数”,了解抽象的事物,将哲学展开为形而上学。因此,数学成为最古老的科学领域。由于开普勒的数据处理,加上迪谷布拉赫使用望远镜观测天体所获得的庞大天文数据,天文学成为最早的科学领域之一。通过在伽利略、牛顿等大师的努力下观察和实验事物,获得移动的各种关键资料,力学成为物理学中最早进入科学大门的学科。通过观察和实验,物理学的光学、热力学、电磁学和声学都获得了核心数据,通过数据分析找出了变量之间的因果关系,获得了科学入场券。之后,以化学、生物学、地质学、医学等自然为对象的学科以牛顿力学为榜样,通过资料化、公式化成为科学大家庭的重要成员。20世纪以来,随着测量技术和实验设备的发展,自然科学的所有领域都加快了数据化的速度,科学的大家庭成员越来越多。特别要强调,过去的数据化主要是针对自然界的。因为自然界和人类打开了主体和对象之间的观察距离,主体人利用技术手段观察自然,获取相关数据,通过资料可以发现规律。虽然观察渗透到理论中没有纯粹客观的观察或资料,但作为观察对象的对象最终具有被动性和客观性。但是在观察、研究人类和社会的时候,人既是主体,又是对象,因为正常人都有主观能动性,思想和行动随时都可能改变,所以一般来说,社会科学不能等同于自然科学。但是社会学、心理学、经济学、管理学在通过自然科学的方法数据化的道路上也取得了不俗的成果,社会科学的很多领域也相继获得了科学大家庭的入场券。人文学科主要研究人类自身的思想、感情、意志和行为,主观性更强,一般的科学方法不再适用。使用传统的技术手段,我们也无法获得人类的知识、更正、意义的资料,所以人文学科都停留在质的研究阶段,资料化和科学化很困难。当然被排除在科学的门槛之外。可以看出,这样的科学过程与资料化的速度基本一致,资料化的过程,即科学化的过程,是相同的。自然可以彻底数据化,科学化也是最高水平,基本上进行了定量研究。人类社会也以自然科学的手段取得了很大的进步。但是,由于一些领域尚未数据化,科学化的程度必须进一步降低,因此其研究方法主要是定性的定量相结合的方法。人文学基本上没有数据化,所以科学化水平最低,基本上只使用定性研究方法。通过对自然科学、社会科学、人文学科的资料化程度的分析,可以看出,用资料化来衡量学科的科学化程度是适当的。我们可以使用数据化来划分科学和非科学。也就是说,可以将数据化作为科学界限的新标准。可以用数据表示的学科有资格进入科学的殿堂,相反,不能用数据表示的学科没有资格进入科学的殿堂。能否数据化是科学和非科学的分水岭。事实上,以数学方式描述科学特性的哲学家,例如伽利略,相信自然界的这本大书是用数学语言写的。马克思也相信,只有一门课能数学化,才能说是科学。虽然他们说的是数学化,但是数据化与数学化有很强的关联,数学化是基于数据化的规律性概要和提高。随着智能技术、网络技术(尤其是移动互联网)、物联网、云计算等技术的发展,数据收集逐渐自动化,数据量迅速增长,因此大型数据时代迅速到来。大数据认为世界上的一切都可以被数据化,世界最终可以被数据化的世界表达出来。通过观察和实验获得的数据是非常有限的小数据,大数据时代完美地刻画了通过智能技术自动收集生成的庞大数据在世界范围内的数字特性。在小数据时代,我们只能对自然界进行比较全面的资料化。在大数据时代,人类精神世界和人类社会都可以被数据化,因此数据化的范围不断推进到过去没有数据化的领域。如果以能否资料化为例教授科学的界限,随着资料化的步伐继续前进,科学领域也将扩大,原本被排除在科学之门外的人文社会科学,甚至形而上学,也有资格进入科学的殿堂。随着资料化速度的加快,全世界可能被数据化,从而使全世界也成为科学化的世界,在此之前,任何学科都可能被纳入科学体系,科学之门外几乎没有发现滞留者。也许,完全数据化的世界是科学的大同世界,不需要区分科学和非科学,科学的界限也可能成为虚假的命题。第三,大数据和科学研究的新范式科学发现的模式问题一直是科学哲学研究的核心问题。自古以来,科学取得了很大进展,从没有大量科学文科开始,逐步形成了系统化的科学知识体系。但是,这些科学知识是从哪里来的呢?科学家是如何发现这些规律并获得这些知识的呢?科学哲学必须对此做出回答。人们拥有的每个技术工具,历史阶段的科学发现模式或科学研究范式都不同。计算机图林奖获奖者、美国学者吉姆格雷将从古至今把科学研究范式归纳为四个类别:经验科学范式、理论科学范式、计算科学范式、数据科学范式5。第一种范式经验范式,是我们不陌生的现代西方哲学的经验论和现代科学哲学的逻辑实证主义对其范式进行了详细的哲学论证。皮尤观察渗透理论,认为没有纯粹客观的科学观察,强调理论在科学发现中的重要性,提出了“科学从问题开始”的科学发现观。这就是科学研究的第二个范式理论科学范式的哲学论证。第三种科学研究范式计算科学范式,目前哲学对它的论据较少,但复杂性科学和哲学正在进行对模拟、计算的充分讨论和论证,发展为计算主义学派。科学从计算开始,即通过计算机的模拟找到新知识,找到新规律的计算.由于数据收集、存储和处理的智能化和自动化,各种数据急剧爆炸,人们使用数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论