对大数据视域下相关关系与因果关系的进一步探寻_第1页
对大数据视域下相关关系与因果关系的进一步探寻_第2页
对大数据视域下相关关系与因果关系的进一步探寻_第3页
对大数据视域下相关关系与因果关系的进一步探寻_第4页
对大数据视域下相关关系与因果关系的进一步探寻_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对大数据视域下相关关系与因果关系的进一步探寻摘要:大数据的发展将如何看待相关关系与因果关系的问题摆上迫 切位置,国内外多位学者对此进行深入思考,相互争鸣。大数据视域下 的相关关系与因果关系更应被视为同级概念,统计概率因果关系为二者 建立了一道桥梁。大数据研究不应止步于相关关系,对因果关系的追问 应该不断延续下去,成为实现效益最大化的工具和科学进步的不竭动力。关键词:大数据;相关关系;因果关系;统计概率因果近年来大数据方法论研究领域中,相关关系与因果关系的关系与地 位是一个讨论热点。其中,华南理工大学齐磊磊博士和江西财经大学黄 欣荣教授的观点之争尤为引人注目。两位学者对于“大数据时代是否需 要追

2、问因果关系”等问题的思想交锋使得其后的研究者大受裨益,也引 发了更多思考。此文尝试在此基础上对大数据视域下的相关关系与因果 关系做进一步探讨。一、两位学者的论述中关于相关关系与因果关系的部分2015年,齐磊磊发表大数据经验主义一一如何看待理论、因果与 规律一文,,概括出大数据经验主义的 3个特点,其中包括“大数据时 代,因果性不存在了,由相关性来代替”,并进行了反驳。此后,黄欣荣于2016年撰文大数据主义者如何看待理论、因果与 规律一一兼与齐磊磊博士商榷:认为大数据主义并不否定事物之间的 因果性,只是不再一味坚持对因果性的追求。他列举牛津大学的访谈结 果,表示对商业应用来说相关性就够了,但社科

3、理论研究则仍需找到因 果性。齐磊磊又于2017年发表文章由大数据引起的对因果与相关的讨论",,将相关细分为决定性因果、统计概率因果和非因果相关3种类型,认为统计概率因果是因果与相关之间的纽带,可以使传统科学哲学的方 法论与大数据方法论相协调起来。2018年,齐磊磊再次发表文章大数据主义与大数据经验主义一一 兼答黄欣荣教授,其中提到“不以寻找因果关系为目的的大数据研究是 不彻底的。” iv二、如何理解我们通常所讨论的“相关关系”内涵?齐认为相关关系可分为6种:“(1)事件A直接引起事件B; (2) 事件B直接引起事件A; (3)事件A引起事件B随后事件B引起事件A;(4)事件A引起事件

4、C,而C又引起了事件B; (5)事件A以一定概率 引起事件B和事件C; (6)非因果相关,例如数据收集。”其中,情况(1)至情况(4)反映的是决定论的因果关系,情况(5)是统计概率性 因果。由此推出相关关系囊括了因果关系与非因果关系,只有在使用(5)(6)的概念时,对因果关系与相关关系的争论才是有意义的。其中(5)统计概率性因果的概念尤为重要,它属于因果关系,又不再纠结于拉普 拉斯式的决定论因果。此时传统哲学与大数据主义者的争论便达成了统虽然将因果关系划入相关关系范畴内可以避免争论,但采取这种分 类方法意义不大。大数据热兴起后,学者们之所以开始重新审视因果关 系,是因为在实践过程中发现很多时候

5、只使用相关关系便可产生一些结 论和效益,尤其在商业领域,因此宣称可以放弃探寻因果关系。从这一“取相关而舍因果”的背景可知,此时的相关关系指的应该是非因果相 关(或至少未发现因果关系,可暂时视其为非因果相关),因果关系与相 关关系是并列概念而非包含与被包含关系,否则就如同“白马非马”v一样流于诡辩论了。因此在大数据领域如何看待因果关系与相关关系这一 命题中,相关关系指的并非广义上任何具有相互联系的对象或有序对, 而是特指非因果相关关系。三、统计概率因果与非因果相关如何界定?齐认为统计概率因果有两种解释:“一种解释是它有多少概率成为 原因,另一个是概率本身是一个结果或者原因”。它不属于拉普拉斯所说

6、的决定论因果,而是作为交集介于相关关系与因果关系之间。笔者赞 同这种提法,但对这些范畴之间的关系进行进一步澄清(图1)。9因果统计概率因果相关 Lb1图1突出统计概率因果的因果与相关关系图从图中可以看出如果一个变量有很大可能性是导致另一个变量的原 因(即齐所说的前一种概率因。1),那么把它视为因果关系的一种;如 果二者仅仅是在概率上相关,只具有统计学意义而无引起与被引起关系 (即后一种概率因。2),那么可视为相关关系。二者合起来被认识为统 计概率因果。进行这种切分是因为关于“作用力”的一个本质区别。考虑到对于 因果关系与相关关系的争议主要集中于是否需要探究引起变量的原因, 本文将两个变量间是否

7、为“引起”与“被引起”关系作为划分标准。上 个世纪中后期,罗素等人将因果关系视为作用力或守恒量的传递与转移。 因为受到了来自传递者的作用力或守恒量(即原因),被传递者发生变化 (即结果)。在统计因果相关中,前一种(。1)蕴含着“引起”与“被 引起”的关系,因此可以被划入因果关系范畴;后一种(。2)其实是统计学上的共同出现机会,因此应划入相关关系范畴。当对的概念进一步分析时,根据齐文“有多少概率成为原因”, 有两种理解:a.该原因不一定导致该结果;b,导致该结果的不一定是该 原因。a.既然不一定会带来真实的因果效应,当现实中因果效应未发生, 是否还要将其划入因果关系范畴?答案是肯定的。从内部机理

8、来说,其 中的传递者(原因)确实蕴含着能导致被传递者发生变化的原理,但由 于现实中受其它因素影响而未发生变化,是多种因素相互抵消的结果, 并不代表单一因素未发生作用(图 2)。以力学为例:假如在平面上向某 方向推一个物体,如受到平面摩擦力或反向推力的影响,该物体可能不会位移甚至反向位 能否定该推力从本 能导致物体向该方 因。移,但并不 质上来讲是 向位移的原图2多重作用力影响结果图决定论的纯粹因果关系只是理想状态,现实中大部分事物都是由多 种复杂因素相互纠缠、共同决定着的,从结果看未必符合某单一因素的 作用原理,则因果效应的发生就成为一种概率性的结果。赖欣巴哈认为, 不存在绝对因果律,一切逻辑

9、真值均介于 0和1之间,所有知识都带有 概率性质。"由于“概率” 一词看上去随机性较强,似乎无因可溯,容易 造成概念上的迷惑,可以使用“条件因”来指代第一种“概率因”。即 该因果关系的发生不是随机的,而是取决于外部条件。如果条件不造成 抵消影响,则该因果关系一定会发生。当设辂一个控制其它因素的对照 组,该因素一定能够导致结果上的变化。b.如果一个人患有高血压,原因可能是饮食重油盐、缺乏运动,也 可能是性格暴躁,缺乏任一因素都未必影响此人患病的结果。这时,每 个因素只是在一定概率上会成为患病原因。但就事物发展内部机理来说, 单个因素仍存在致病的生物学依据及统计上的显著性。“统计学对因果

10、 关系表述为:在相等条件下,如果 A发生,则B发生的概率提高,或者 X变化导致Y平均值的变化。因果关系的必然性不表述为个体事件,而 表述为群体概率或平均值和随机组试验的可重复性。”vii因此,这种关系也应划入因果关系范畴。四、因果性与相关性孰轻孰重?黄欣荣认为大数据时代要强调相关性,弱化因果性。理由如下:1.因果性属于相关性的一种。2.大数据不否定因果,只是不强调而已。3.海量数据使得寻找因果关系难度巨大。4.日常生活和商业领域中相关关系已足够。笔者对以上几点均持反对意见。1 .概念问题。前文已有论述。2 .因果关系的重要性问题。黄列举休谟和康德等人并未证明因果性 存在的例子,以证明因果性是飘

11、忽不定、不可捉摸的。但在大数据研究 领域,人们对于相关性和因果性的探寻归根结底是为了指导实践,而并 非仅限于哲学层面的论道。举例来说,假如以罗蒂 “"的”绝对真理是不 存在的”为理论依据来劝导各个领域在实践中不要探寻一些确定性、方 向性的结论,将导致整个社会陷入一种悲观的虚无主义论调。3 .海量数据导致探寻难度问题。黄认为在海量数据中想要找到与某 数据具有因果关系的另一个数据,难度之大令人咂舌,因此只能挖掘数 据之间的宏观行为或相关关系。但这是将因果关系放到微观层面、相关 关系放到宏观层面进行比较。因果关系所要研究的同样是基于对海量数 据进行数据挖掘的结果,是宏观层面的分析推论;是要

12、在相关关系的基 础上进行进一步追问,那些跟踪收集数据的工作应该是在分析阶段之前 完成的。因此这一点不具说服力。4 .日常和商业领域的关系研究问题。黄举例:每到大学开学季银行卡销量都会大增,于是有些商家提前将卡寄给新生,由此可看出商家只 需把握好相关关系即可,因果关系要留给学者去探讨。笔者认为,商家 能抢占竞争先机恰是因为发现了新生入学与用卡需求间不可辂疑的因果 关系。这种关系如此外显以至于不需思考便可确定其真实性。但假如是 不具备这样外显因果内涵的相关关系呢?比如某个开学季空调销量增加, 销售方案里应该更多考虑开学季还是当年气温因素?在找出因果链条之 前恐怕很少有商家贸然将相关关系作为后期销售

13、指南。“追求相关性必须是非常审慎的,因为统计学意义上的相关有很多种,比如伪相关或虚假相关、偶然相关等。” “其实这也恰恰证明了因 果性存在的价值以及研究因果关系的必要性。”"单纯的相关关系研究难 以被广泛应用,更不具有科学说明意义。相关性统计得到的结论是否可 靠、是否能够推广还需进行因果分析来论证。在追求利益最大化的商业 领域尚且如此,对事关全人类福祉的科学领域来说更莫不如是。关于 为什么”的好奇和探寻是接近事物本质、获得最大利益的根本方法,是 支撑过去数千年来人类科学文明发展进步的不竭动力,有理由相信它在 未来也依然不会泯灭。i齐磊磊.大数据经验主义一一如何看待理论、因果与规律J.哲学动态,2015(7):89-95."黄欣荣,大数据主义者如何看待理论、因果与规律一一与齐磊磊博士商榷J.理论探索 ,2016(6):33-39.iii齐磊磊,由大数据引起的对因果与相关的讨论J.自然辩证法研究,2017(5):92-96.iv-磊磊,大数据主义与大数据经验主义一一兼答黄欣荣教授J.山东科技大学学报(社会科学版),2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论