机器学习与科学发现的逻辑刍议

上传人：文*** IP属地：四川上传时间：2022-08-26 格式：DOCX 页数：5 大小：107.19KB 积分：12 举报 版权申诉

全文预览已结束

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、机器学习与科学发现的逻辑刍议摘要：是否存在科学发现的逻辑一直存在争议，人工智能（AI）发展早期通过基于规则的和大规模数据挖掘的方法探索自动科学发现存在局限，包括需要先验知识或者只能发现特定领域的经验规律。通过近期两个案例分析介绍基于机器学习的研究可以不需要先验知识就能发现科学概念甚至是简单的理论，但仍然存在训练数据的来源、观察和实验的选择、科学理论的构建以及因果建模等问题，需要结合科学哲学和哲学史做跨学科的研究。关键词：机器学习；自动科学发现；科学发现的逻辑；智能驱动；科学概念A Preliminary Study of Machine Learning andLogic of Sc

2、ientific DiscoveryAbstract: Whether there is the logic of scientific discovery has always been controversial. In the early development of artificial intelligence ( AI) , there were limitations in the research of automatic scientific discovery through rule-based and data mining methods, including the

3、 need for prior knowledge or only the discovery of empirical laws in specific fields. Through two case studies, it was shown that the recent research based on machine learning can find the concept of science and even a simple theory without prior knowledge. But there are still some problems such as

4、the source of training data, the choice of observation and experiment, the construction of scientific theory and the causal modeling which need interdisciplinary research combination with philosophy of science and history of philosophy. Keywords： machine learning; auto-discovery; logic of scientific

5、 discovery; AI-driven; scientific concept一、前言科学发现的过程中有没有“逻辑”可循，能否通过一系列能行方式自动获得科学发现？过去半个世纪这个问题在哲学家和科学家之间一直存在争论。早期的逻辑实证主义区分了发现的逻辑和辩护的逻辑,其后很多科学哲学家（如亨普尔、劳丹等）认为不存在一个特定的科学发现的逻辑;或者即使承认根据已有的数据做一些经验规律的发现是可能的，但仍然认为不过就是“曲线拟合”，而真正有意义的科学发现是更加深一层次的背后的规律（如科学范式的转变），是“曲线拟合”不能达到的人工智能（AI）先驱赫伯特西蒙（Herbert Simo

6、n）认为，科学发现是一种特殊类型的问题求解，可以用计算机程序实现。他通过启发式搜索和基于规则的推理等方法，与纽维尔构建了逻辑理论学家,证明了一些数学定理;与兰利等构造了 6代BACON系统,重新发现了物理和化学中的一些定律。但因为西蒙做的是科学的再发现，没有发现新的科学理论,被认为在探索科学发现逻辑上并不成功。另外,AI学科自20世纪50年代诞生之后就一直被运用于自动（计算的）科学发现，早期在自动科学发现中主要是针对特定领域的大规模系统搜索和数据挖掘（后来一部分被称之为“专家系统”），在不同领域都发现了新的科学知识，但因为其基于数据发现的都是 “经验规律”，也被认为仅仅

7、是“曲线拟合”，是对数据低层次的概括。随着近十余年AI伴随大数据的第三次崛起，机器学习日益成为科学研究的重要工具，在一些数据密集型科学研究中甚至扮演关键的角色，也自然被用于研究自动科学发现和科学发现的逻辑。文章在介绍两个基于机器学习的自动科学发现研究案例基础上，分析机器学习（主要是其中的多层神经网络方法）对科学发现逻辑研究的补充及其不足，并尝试结合科学哲学、哲学史和机器学习做进一步研究。二、基于机器学习的科学自动发现科学自动发现（计算的科学发现）一直是计算机科学家和科学哲学家研究的对象，在20世纪 8090年代主要通过启发式搜索和贝叶斯网络方法进行研究，其逻辑是基于规则的推

8、理，局限在于需要预先输入先验知识和科学概念、预先确定好问题域，目的主要是研究科学发现的逻辑。而近期机器学习的发展让在没有先验知识情况下基于原始数据直接获得科学发现成为可能，让自动科学发现进入实用阶段。机器学习作为AI的一个分支在20世纪 80年代就已奠定理论基础，并一直作为一种“自动归纳”的方法被运用在科学研究当中（如在高能物理中发现新粒子、天文学中对太阳黑子的研究等），但局限于数据和算力一直没有成为自动科学发现研究的主流。随着科学研究信息化和自动化带来的数据和计算力的不断增长以及深度学习的发展，对科学数据的计算处理开始显现其作用一从数据中挖掘规律和“模式”。可以看到，

9、几乎在各个学科领域机器学习都在快速普及，尤其在分子生物学、天文学、气象学等数据密集型领域，机器学习逐步成为科学发现的一个“工具”。随之而来的是用机器学习方法研究科学发现的逻辑，看看除了发现数据中的模式之外，能否构造AI科学家，能否仅仅通过数据让机器自动产生“科学概念”和“科学理论”（而不是仅仅通过降维的方法来解决一些局部的问题）。下文将先介绍和分析近期比较有代表性的两个研究。（一）科学概念的自动发现苏黎世联邦理工学院（ETH）理论物理研究所的科学家构建了一个基于表征学习（Representation Learning）的神经网络结构，用阻尼摆、角动量守恒、日心体系和量子比

10、特的表征这四个简单系统作为研究案例，尝试不需要更多的先验知识也可以仅仅从原始数据中直接获得物理学的概念和公式。他们把构建的神经网络称为“科学网”（SciNet），用来模仿人类科学家的建模和科学发现过程一从观察和实验数据中总结出理论（表征）并用于做出预测。例如,物理学家面对在时空中运动的物体，会用该物体的空间位置和瞬时速度来刻画物体的运动，当求得两者的变化规律以后就可以预测物体后续运动状态。如果神经网络可以成功地把观察和实验数据压缩成几个简单且互不关联的表征，并可以用这些简单的表征去对所要研究的物理系统做预测，就认为神经网络“学习”到了相应的物理“概念”，如图1囱所示。

11、图1“科学网结构“科学网”采用表征计算结构中的自动编码方法（Autoencoder）来实现上述把数据压缩到少量表征的功能，把神经网络结构分为编码（Encoder E）和解码（Decoder F）两个部分。编码部分把输入端高维输入数据通过多层递减的神经网络映射到中间表征层的低维的输出，再用解码部分通过多层神经网络映射到高维的输出，具体如图1所示。自编码神经网络一般用编码端输入的训练数据作为解码端输出的目标数据，解码端输出与目标数据的差作为总体损失(Lost)，通过多次迭代训练后中间层就可以看作是对于输入数据的压缩表征。而具体到“科学网”，则是用物理对象的观测(Observa

12、tion)和实验数据作为输入，通过编码部分压缩到中间的表征层 (m)，并在解码部分的第一层输入需要预测的信息 (Question，如系统在其后某时间点的数据)，通过解码部分的输出(Answer)与需要预测信息的正确答案之间的损失(Lost)来训练。最后当训练到能够精确地预测物理对象系统的行为后，通过看表征层的神经元是否与研究对象的某些特征有协变关系，来决定是否学习到了物理学中的“概念”。研究人员用“科学网”及其变种(RNN变种)研究了四个简单的系统，第一个是预测一维阻尼摆并尝试找到弹性系数和阻尼系数这两个“概念”，输入神经网络的数据为沿着一维轴摆动的阻尼摆在等时序的坐标位置

13、(50个时间单位位置构成的向量)，把阻尼系数和弹性系数作为不同的训练数据的变量。在没有给出其他先验物理概念的情况下，神经网络经过训练后发现其表征层两个神经元的激活值(Activations)分别与阻尼系数和弹性系数正相关，这说明通过训练神经网络获得了阻尼系数与弹性系数这个两个科学概念。其余三个案例包括构建一个旋转物体与另一个物体的碰撞并发现角动量守恒;从不带有假设的地球为坐标原点而观察到的天文数据中构建出日心说系统而不是地心说;构建对量子态的表征。上述研究除了涉及物理概念的自动发现这个方法论问题,还涉及认识论的问题一人类构建的包括量子力学在内的理论，是从已知的数据中能得

14、到的最简单和准确的理论么，其中是否包含人类的某些偏见和预设，通过机器学习得到的结论和历史上人类得到的结论是否一致，人类关于量子力学的理论是否是最优的等，清华大学高研院和加州大学圣迭戈分校物理学家和计算机科学家尝试继续回答这个问题，他们构建RNN神经网络来学习基本粒子的势能与概率密度这两个数据序列之间的关系，并最终发现能够学习到薛定谔方程，他们认为人类构建的薛定谔方程就是从已知的数据中能够得到的最好的模型，而不存在人类的偏见。(二)科学理论的自动建构科学概念和经验规律的发现只是科学发现过程中的一环，真实的科学发现过程还包括在不同的领域发现不同的规律并最终整合为更加普世的科

15、学理论。麻省理工大学物理系的吴泰林(Wu Tailin)与泰格马克(Tegmark)提出一个通过无监督学习构建 AI物理学家的方法*，其目的不仅仅是构建AI物理学家，还在于通过向历史上真实的科学发现过程学习从而改善无监督学习算法来克服机器学习的一些不足。机器学习与物理学家一样，都力图用最简洁的模型去预测和分析世界，物理学家在历史上多次成功地做到了这一点(如牛顿成功地对开普勒和伽利略的理论做了综合)，而当前的机器学习却很难做到，如机器学习难以用一个统一的模型去刻画不同领域的数据，同时其内部也缺乏可解释性。所以，吴泰林与泰格马克借鉴历史上一些物理学家成熟的科学发现方法，构造

16、了一个AI物理学家的学习框架，主要包含四个部分:分治算法(Divide-and- conquer)、奥卡姆剃刀(Occam , s Razor)、统一理论 (Unification)、终生学习(Lifelong Learning)，如图2所示。图2 AI物理学家的学习架构rsi吴泰林与泰格马克把“理论，定义为一个二元组(m 为用来做预测的方程组,其中每个方程都有其适用的定义域，当输入的观察数据落在某个/的定义域中J才能正常工作，而二元组中的C 为子分类器，用来判定输入值在方程组/中哪个方程/的定义域中。对于要讨论的物理学问题，如在不同物理规律下运动的物体,可以把物体在N时刻之前

17、一段时间长度范围的空间坐标序列免作为输入而把物体在N时刻的状态作为输出为，由此对于一个在时空中运动的物体，无监督学习就可以转化为有监督学习。AI物理学家框架中的“分治算法”模仿历史上科学家在面对纷杂世界时候的方式一每次只关注世界的一个面向而忽略其他因素，用多个局部理论去刻画不同领域并得到在各自领域最精确的理论。吴泰林与泰格马克通过构建一个新的损失函数来实现“分治算法”，新定义的损失函数（式1）可以同时训练多个不同的相互竞争的理论：= ） 5 ）顷免），?n叮（#）式中:5为相互竞争理论的数目; 为单个理论的损失函数。该损失函数式（1）可以做到当同时随机初始化多个预测方程

18、f.时，取参数！适当的值,最小化损失/的结果就是能够让每个选取的理论/都能够最好地刻画输入的数据。当! 0时，对于那些拟合的比较好的理论有更大的梯度，所以最小化Ly 的结果就是鼓励在细分理论的基础上去寻找局部数据上拟合较好的理论。这样不仅可以让模型去刻画多样的世界，同时可以找到能够最精确刻画对象的那个理论。在“分治算法”找到多个子理论之后,AI物理学家的“奥卡姆剃刀”运用最小描述复杂性方法去筛选理论,AI物理学家的最终的目标是发现一个能够最小化式（2）的理论：DL（ T，D） = DL（ D） + ） DL（+）（ 2）式中:DL为描述复杂性;T为理论;+n为各理论T描述数

19、据的误差。通过第一步分治算法求得的理论再通过“奥卡姆剃刀”的筛选，就可以得到相对比较简洁的符号化的理论。“统一理论”用于把简单的理论综合成为一个更通用的理论（类似于开普勒定律可以综合到牛顿理论定律中），即寻找符号化的理论之间的相似性构造统一的理论“终身学习”部分把前面三个步骤得到的理论放到一个称为“Theory Hub”的库中，在遇到新问题时首先用库中的理论应对，如果不够理想则再根据一定的规则随机生成新理论重新训练，并把训练得到的较好的理论放入库中，从而获得一个可以“终身学习”的理论库。简单地说“分治算法”用来找到多个精确的子理论“奥卡姆剃刀” 用来筛选理论并符号化，“统

20、一理论”用来找到更一般性的理论，而“终生学习”用来做可累积的进步。相比于第一个案例，吴泰林与泰格马克的研究更进一步，首先定义了 “理论”一有不同参数的神经网络及其分类器，再通过对理论的符号化操作来筛选理论。吴泰林与泰格马克用两个复杂环境作为测试案例一个是在两个临近的电磁场中的带电双摆，另一个是在四个不同环境区域（包括重力环境、电磁环境等）穿梭运动的物体。后一个环境的测试结果表明模型可以很好地区分不同的环境区域，并对物体运动做出很好的预测，同时通过对训练后的神经网络参数进行分析，发现模型可以找到这些环境中的某些物理规律，如可以发现“引力”，以及简谐运动规律。三、当前机器学

21、习用于自动科学发现的局限上述两个研究从数值模拟上都能得到很好的结果，达到了不给更多先验知识（只有物体的时空坐标数据）就能够从数据中自动发现科学概念和部分简单科学理论的效果，这对于早期基于规则的自动科学发现是一种很好的补充，但这是否预示着机器学习能够在真实的科学研究中学习到科学概念和科学理论？从科学方法论角度看，至少还有四个问题需要厘清和进一步解决:训练数据的来源问题、观察和实验的选择问题、科学理论的构建问题以及因果建模的问题。第一个是训练数据的来源问题,对科学发现逻辑的研究最终需要基于真实的观察和实验数据。当前关于科学理论再发现研究的训练数据主要是通过计算模拟出来的（包

22、括文章第二节涉及的两个研究），即在已知科学理论的情况下反推（Simulate）出 “观察数据”。例如，文章第二节第一个研究中关于阻尼摆的观察数据就是已知阻尼摆的微分方程后，模拟多种不同阻尼系数和弹性系数阻尼摆而得到的数据。虽然模拟的数据会加入随机噪音（一般是高斯分布），但理论上机器学习算法大概率能从数据中学习到产生这些数据的理论。而科学理论之所以难以发现，一个主要的原因就在于事先不知道哪些数据是可能相关的，需要在先验知识和理论的指导下通过可控实验去试错。苏黎世联邦理工学院团队的研究中对于日心说的模拟使用了哥白尼生活时代地球、太阳和火星三者之间的位置数据，但也是根据已有的

23、理论和当代的观测数据倒推到哥白尼时代而得到的，并没有用哥白尼当时已有的观测数据（尽管当时的数据目前无法全部获得），也没有考虑到当时的观测条件。吴泰林与泰格马克的研究用的也是模拟的数据，所以AI物理学家其实称为AI数据挖掘家更为合适,真正的AI物理学家需要在面对历史上真实数据和那个时代已知的科学理论的情况下得出有意义的发现。第二个是观察和实验的选择问题。实际的科学实践过程中数据获得过程是复杂的，研究者面对的一般是由多个变量构成的系统，哪些变量是需要纳入考虑而哪些是可以忽略的？这部分由已有的理论决定，也会掺杂各种社会和个人因素,有时候也有巧合和运气的成分。科研资源相对来说是

24、短缺的，即使是在大数据时代也不可能得到所有的“相关”数据，不可能去遍历所有可能的实验。所以基于已有的理论和数据，下一步应该做什么样的观测和实验，应该去获得什么样的数据，这个决策过程对于科学实践非常重要，而目前的AI自动科学发现研究并没有体现出这个决策过程。吴泰林与泰格马克的AI 物理学家做了一个有益的尝试，让模型去区分四种不同的环境，但其局限在于只能区分在时间上顺序排列的不同环境，其模型的输入是物体在四个不同世界之间穿梭运动的时空坐标数据，而不是处于这四个环境叠加的状态数据。模拟的物体运动在某一个时间段只有一个固定的规则，而真实的科学发现（如吴泰林与泰格马克所举伽利略的

25、例子）中科学家面对复杂的世界是同时出现的，如研究带电物体在磁场中运动的时候重力场也是需要考虑进去的。把研究对象从环境中剥离开来是真实科学发现重要环节,可控实验是主要方法，这个过程本身能否被形式化是一个需要继续探讨的问题。第三个是科学理论的构建问题。早期对科学发现的计算研究主要通过启发式搜索方法构建问题解决空间来实现，需要预先有科学知识的预设,而机器学习可以部分地弥补这个先验知识的问题，即通过对原始数据的模式发现来找到最初的“概念”，但如何连接机器学习与其他基于规则的方法来进一步推动AI科学发现需要继续探索。吴泰林与泰格马克的工作也部分地推进了这个工作一不仅仅局限于从数

26、据中提取概念，而是更进一步通过“奥卡姆剃刀”和“统一理论”方法等通用的约束条件来选择 “概念”和局域性理论，并组成更一般性的理论，另外一些用遗传算法自动构建理论的方法则是更进一步。这些研究对于自动概念发现的操作、选择以及构建理论都是一种“可累积进步”的操作，即自动科学发现的“科学理论”是建基在最初通过机器学习自下而上从初始数据中得到的科学“概念”的基础上的。从历史上看科学理论并不仅仅是累积进步的,而是经历了至少两次科学革命和范式转换，科学革命前后对一些概念（如时间和空间的概念）的理解、测量和操作是不同的。目前的自动科学发现研究部分模拟了库恩所说的“常规科学阶段”的科学发现,这个部分相对来说容易模拟,因为毕竟是在一定的背景下的“解题”活动。而对于科学革命和科学概念演化的模拟相对更重要，毕竟自动科学发现不仅仅是解题和搜索答案的工具,更希望这种方法能够给人们提供概念变化的启示。而一些科学哲学家之所以认为人工智能没法用于研究科学发现的逻辑，也是基于其目前

人人文库> 全部分类> 教育资料 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习与科学发现的逻辑刍议

文档简介

温馨提示

最新文档

评论

机器学习与科学发现的逻辑刍议

文档简介

温馨提示

最新文档

评论

相关文档