付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、机器学习与科学发现的逻辑刍议摘 要:是否存在科学发现的逻辑一直存在争议,人工智能(AI)发展早期通过基于规则的和大规模数据挖掘 的方法探索自动科学发现存在局限,包括需要先验知识或者只能发现特定领域的经验规律。通过近期两个案 例分析介绍基于机器学习的研究可以不需要先验知识就能发现科学概念甚至是简单的理论,但仍然存在训 练数据的来源、观察和实验的选择、科学理论的构建以及因果建模等问题,需要结合科学哲学和哲学史做跨学 科的研究。关键词:机器学习;自动科学发现;科学发现的逻辑;智能驱动;科学概念A Preliminary Study of Machine Learning andLogic of Sc
2、ientific DiscoveryAbstract: Whether there is the logic of scientific discovery has always been controversial. In the early development of artificial intelligence ( AI) , there were limitations in the research of automatic scientific discovery through rule-based and data mining methods, including the
3、 need for prior knowledge or only the discovery of empirical laws in specific fields. Through two case studies, it was shown that the recent research based on machine learning can find the concept of science and even a simple theory without prior knowledge. But there are still some problems such as
4、the source of training data, the choice of observation and experiment, the construction of scientific theory and the causal modeling which need interdisciplinary research combination with philosophy of science and history of philosophy. Keywords: machine learning; auto-discovery; logic of scientific
5、 discovery; AI-driven; scientific concept一、前言科学发现的过程中有没有“逻辑”可循,能否通 过一系列能行方式自动获得科学发现?过去半个世 纪这个问题在哲学家和科学家之间一直存在争论。 早期的逻辑实证主义区分了发现的逻辑和辩护的逻 辑,其后很多科学哲学家(如亨普尔、劳丹等)认为 不存在一个特定的科学发现的逻辑;或者即使承认 根据已有的数据做一些经验规律的发现是可能的, 但仍然认为不过就是“曲线拟合”,而真正有意义的 科学发现是更加深一层次的背后的规律(如科学范 式的转变),是“曲线拟合”不能达到的人工智 能(AI)先驱赫伯特西蒙(Herbert Simo
6、n)认为,科 学发现是一种特殊类型的问题求解,可以用计算机 程序实现。他通过启发式搜索和基于规则的推理等 方法,与纽维尔构建了逻辑理论学家,证明了一些数 学定理;与兰利等构造了 6代BACON系统,重新发 现了物理和化学中的一些定律。但因为西蒙做 的是科学的再发现,没有发现新的科学理论,被认为 在探索科学发现逻辑上并不成功。另外,AI学科 自20世纪50年代诞生之后就一直被运用于自动 (计算的)科学发现,早期在自动科学发现中主要是 针对特定领域的大规模系统搜索和数据挖掘(后 来一部分被称之为“专家系统”),在不同领域都发 现了新的科学知识,但因为其基于数据发现的都是 “经验规律”,也被认为仅仅
7、是“曲线拟合”,是对 数据低层次的概括。随着近十余年AI伴随大数据的第三次崛起,机 器学习日益成为科学研究的重要工具,在一些数据 密集型科学研究中甚至扮演关键的角色,也自然被 用于研究自动科学发现和科学发现的逻辑。文章在 介绍两个基于机器学习的自动科学发现研究案例基 础上,分析机器学习(主要是其中的多层神经网络 方法)对科学发现逻辑研究的补充及其不足,并尝 试结合科学哲学、哲学史和机器学习做进一步研究。二、基于机器学习的科学自动发现科学自动发现(计算的科学发现)一直是计算 机科学家和科学哲学家研究的对象,在20世纪 8090年代主要通过启发式搜索和贝叶斯网络方 法进行研究,其逻辑是基于规则的推
8、理,局限在于需 要预先输入先验知识和科学概念、预先确定好问题 域,目的主要是研究科学发现的逻辑。而近期机器 学习的发展让在没有先验知识情况下基于原始数据 直接获得科学发现成为可能,让自动科学发现进入 实用阶段。机器学习作为AI的一个分支在20世纪 80年代就已奠定理论基础,并一直作为一种“自动 归纳”的方法被运用在科学研究当中(如在高能物 理中发现新粒子、天文学中对太阳黑子的研究 等),但局限于数据和算力一直没有成为自动科 学发现研究的主流。随着科学研究信息化和自动化 带来的数据和计算力的不断增长以及深度学习的发 展,对科学数据的计算处理开始显现其作用一从 数据中挖掘规律和“模式”。可以看到,
9、几乎在各个 学科领域机器学习都在快速普及,尤其在分子生物 学、天文学、气象学等数据密集型领域,机器学习逐 步成为科学发现的一个“工具”。随之而来的是用 机器学习方法研究科学发现的逻辑,看看除了发现 数据中的模式之外,能否构造AI科学家,能否仅仅 通过数据让机器自动产生“科学概念”和“科学理 论”(而不是仅仅通过降维的方法来解决一些局部 的问题)。下文将先介绍和分析近期比较有代表性 的两个研究。(一)科学概念的自动发现苏黎世联邦理工学院(ETH)理论物理研究所 的科学家构建了一个基于表征学习(Representation Learning)的神经网络结构,用阻尼摆、角动量守恒、 日心体系和量子比
10、特的表征这四个简单系统作为研 究案例,尝试不需要更多的先验知识也可以仅仅从 原始数据中直接获得物理学的概念和公式。他 们把构建的神经网络称为“科学网”(SciNet),用来 模仿人类科学家的建模和科学发现过程一从观察 和实验数据中总结出理论(表征)并用于做出预测。 例如,物理学家面对在时空中运动的物体,会用该物 体的空间位置和瞬时速度来刻画物体的运动,当求 得两者的变化规律以后就可以预测物体后续运动状 态。如果神经网络可以成功地把观察和实验数据压 缩成几个简单且互不关联的表征,并可以用这些简 单的表征去对所要研究的物理系统做预测,就认为 神经网络“学习”到了相应的物理“概念”,如图1囱 所示。
11、图1“科学网结构“科学网”采用表征计算结构中的自动编码方 法(Autoencoder)来实现上述把数据压缩到少量表 征的功能,把神经网络结构分为编码(Encoder E)和 解码(Decoder F)两个部分。编码部分把输入端高 维输入数据通过多层递减的神经网络映射到中间表 征层的低维的输出,再用解码部分通过多层神经网 络映射到高维的输出,具体如图1所示。自编码 神经网络一般用编码端输入的训练数据作为解码端 输出的目标数据,解码端输出与目标数据的差作为 总体损失(Lost),通过多次迭代训练后中间层就可 以看作是对于输入数据的压缩表征。而具体到“科 学网”,则是用物理对象的观测(Observa
12、tion)和实验 数据作为输入,通过编码部分压缩到中间的表征层 (m),并在解码部分的第一层输入需要预测的信息 (Question,如系统在其后某时间点的数据),通过 解码部分的输出(Answer)与需要预测信息的正确 答案之间的损失(Lost)来训练。最后当训练到能 够精确地预测物理对象系统的行为后,通过看表 征层的神经元是否与研究对象的某些特征有协变 关系,来决定是否学习到了物理学中的“概念”。研究人员用“科学网”及其变种(RNN变种)研 究了四个简单的系统,第一个是预测一维阻尼摆并 尝试找到弹性系数和阻尼系数这两个“概念”,输入 神经网络的数据为沿着一维轴摆动的阻尼摆在 等时序的坐标位置
13、(50个时间单位位置构成的向 量),把阻尼系数和弹性系数作为不同的训练数据 的变量。在没有给出其他先验物理概念的情况下, 神经网络经过训练后发现其表征层两个神经元的激 活值(Activations)分别与阻尼系数和弹性系数正相 关,这说明通过训练神经网络获得了阻尼系数与弹 性系数这个两个科学概念。其余三个案例包括构建 一个旋转物体与另一个物体的碰撞并发现角动量守 恒;从不带有假设的地球为坐标原点而观察到的天 文数据中构建出日心说系统而不是地心说;构建对 量子态的表征。上述研究除了涉及物理概念的自动发现这个方 法论问题,还涉及认识论的问题一人类构建的包 括量子力学在内的理论,是从已知的数据中能得
14、到 的最简单和准确的理论么,其中是否包含人类的某 些偏见和预设,通过机器学习得到的结论和历史上 人类得到的结论是否一致,人类关于量子力学的理 论是否是最优的等,清华大学高研院和加州大学圣 迭戈分校物理学家和计算机科学家尝试继续回答这 个问题,他们构建RNN神经网络来学习基本粒子的 势能与概率密度这两个数据序列之间的关系,并最 终发现能够学习到薛定谔方程,他们认为人类构建 的薛定谔方程就是从已知的数据中能够得到的最好 的模型,而不存在人类的偏见。(二)科学理论的自动建构科学概念和经验规律的发现只是科学发现过程 中的一环,真实的科学发现过程还包括在不同的领 域发现不同的规律并最终整合为更加普世的科
15、学理 论。麻省理工大学物理系的吴泰林(Wu Tailin)与 泰格马克(Tegmark)提出一个通过无监督学习构建 AI物理学家的方法*,其目的不仅仅是构建AI物 理学家,还在于通过向历史上真实的科学发现过程 学习从而改善无监督学习算法来克服机器学习的 一些不足。机器学习与物理学家一样,都力图用最 简洁的模型去预测和分析世界,物理学家在历史上 多次成功地做到了这一点(如牛顿成功地对开普勒 和伽利略的理论做了综合),而当前的机器学习却 很难做到,如机器学习难以用一个统一的模型去刻 画不同领域的数据,同时其内部也缺乏可解释性。 所以,吴泰林与泰格马克借鉴历史上一些物理学家 成熟的科学发现方法,构造
16、了一个AI物理学家的学 习框架,主要包含四个部分:分治算法(Divide-and- conquer)、奥卡姆剃刀(Occam , s Razor)、统一理论 (Unification)、终生学习(Lifelong Learning),如 图2所示。图2 AI物理学家的学习架构rsi吴泰林与泰格马克把“理论,定义为一个二元 组(m 为用来做预测的方程组,其中每个方程 都有其适用的定义域,当输入的观察数据落在某 个/的定义域中J才能正常工作,而二元组中的C 为子分类器,用来判定输入值在方程组/中哪个 方程/的定义域中。对于要讨论的物理学问题,如 在不同物理规律下运动的物体,可以把物体在N时 刻之前
17、一段时间长度范围的空间坐标序列免作为输 入而把物体在N时刻的状态作为输出为,由此对于 一个在时空中运动的物体,无监督学习就可以转化 为有监督学习。AI物理学家框架中的“分治算法”模仿历史上 科学家在面对纷杂世界时候的方式一每次只关注 世界的一个面向而忽略其他因素,用多个局部理论 去刻画不同领域并得到在各自领域最精确的理论。 吴泰林与泰格马克通过构建一个新的损失函数来实 现“分治算法”,新定义的损失函数(式1)可以同时 训练多个不同的相互竞争的理论:= ) 5 ) 顷免),?n叮(#)式中:5为相互竞争理论的数目; 为单个理论的损 失函数。该损失函数式(1)可以做到当同时随机初 始化多个预测方程
18、f.时,取参数!适当的值,最小化 损失/的结果就是能够让每个选取的理论/都能够 最好地刻画输入的数据。当! 0时,对于那些 拟合的比较好的理论有更大的梯度,所以最小化Ly 的结果就是鼓励在细分理论的基础上去寻找局部数 据上拟合较好的理论。这样不仅可以让模型去刻画 多样的世界,同时可以找到能够最精确刻画对象的 那个理论。在“分治算法”找到多个子理论之后,AI物理学 家的“奥卡姆剃刀”运用最小描述复杂性方法去筛 选理论,AI物理学家的最终的目标是发现一个能够 最小化式(2)的理论:DL( T,D) = DL( D) + ) DL(+)( 2)式中:DL为描述复杂性;T为理论;+n为各理论T描 述数
19、据的误差。通过第一步分治算法求得的理论再 通过“奥卡姆剃刀”的筛选,就可以得到相对比较简 洁的符号化的理论。“统一理论”用于把简单的理论综合成为一个 更通用的理论(类似于开普勒定律可以综合到牛顿 理论定律中),即寻找符号化的理论之间的相似性 构造统一的理论“终身学习”部分把前面三个步骤 得到的理论放到一个称为“Theory Hub”的库中,在 遇到新问题时首先用库中的理论应对,如果不够理 想则再根据一定的规则随机生成新理论重新训练, 并把训练得到的较好的理论放入库中,从而获得 一个可以“终身学习”的理论库。简单地说“分治 算法”用来找到多个精确的子理论“奥卡姆剃刀” 用来筛选理论并符号化,“统
20、一理论”用来找到更一 般性的理论,而“终生学习”用来做可累积的进步。相比于第一个案例,吴泰林与泰格马克的研究 更进一步,首先定义了 “理论”一有不同参数的神 经网络及其分类器,再通过对理论的符号化操作来 筛选理论。吴泰林与泰格马克用两个复杂环境作为 测试案例一个是在两个临近的电磁场中的带电 双摆,另一个是在四个不同环境区域(包括重力环 境、电磁环境等)穿梭运动的物体。后一个环境的 测试结果表明模型可以很好地区分不同的环境区 域,并对物体运动做出很好的预测,同时通过对训练 后的神经网络参数进行分析,发现模型可以找到这 些环境中的某些物理规律,如可以发现“引力”,以 及简谐运动规律。三、当前机器学
21、习用于自动科学发现的局限上述两个研究从数值模拟上都能得到很好的结 果,达到了不给更多先验知识(只有物体的时空坐 标数据)就能够从数据中自动发现科学概念和部分 简单科学理论的效果,这对于早期基于规则的自动 科学发现是一种很好的补充,但这是否预示着机器 学习能够在真实的科学研究中学习到科学概念和科 学理论?从科学方法论角度看,至少还有四个问题 需要厘清和进一步解决:训练数据的来源问题、观察 和实验的选择问题、科学理论的构建问题以及因 果建模的问题。第一个是训练数据的来源问题,对科学发现逻 辑的研究最终需要基于真实的观察和实验数据。当 前关于科学理论再发现研究的训练数据主要是通过 计算模拟出来的(包
22、括文章第二节涉及的两个研 究),即在已知科学理论的情况下反推(Simulate)出 “观察数据”。例如,文章第二节第一个研究中关于 阻尼摆的观察数据就是已知阻尼摆的微分方程后, 模拟多种不同阻尼系数和弹性系数阻尼摆而得到的 数据。虽然模拟的数据会加入随机噪音(一般是高 斯分布),但理论上机器学习算法大概率能从数据 中学习到产生这些数据的理论。而科学理论之所以 难以发现,一个主要的原因就在于事先不知道哪些 数据是可能相关的,需要在先验知识和理论的指导 下通过可控实验去试错。苏黎世联邦理工学院团队 的研究中对于日心说的模拟使用了哥白尼生活时代 地球、太阳和火星三者之间的位置数据,但也是根据 已有的
23、理论和当代的观测数据倒推到哥白尼时代而 得到的,并没有用哥白尼当时已有的观测数据(尽 管当时的数据目前无法全部获得),也没有考虑到 当时的观测条件。吴泰林与泰格马克的研究用的也 是模拟的数据,所以AI物理学家其实称为AI数据 挖掘家更为合适,真正的AI物理学家需要在面对历 史上真实数据和那个时代已知的科学理论的情况下 得出有意义的发现。第二个是观察和实验的选择问题。实际的科学 实践过程中数据获得过程是复杂的,研究者面对的 一般是由多个变量构成的系统,哪些变量是需要纳 入考虑而哪些是可以忽略的?这部分由已有的理论 决定,也会掺杂各种社会和个人因素,有时候也有巧 合和运气的成分。科研资源相对来说是
24、短缺的,即 使是在大数据时代也不可能得到所有的“相关”数 据,不可能去遍历所有可能的实验。所以基于已有 的理论和数据,下一步应该做什么样的观测和实验, 应该去获得什么样的数据,这个决策过程对于科学 实践非常重要,而目前的AI自动科学发现研究并没 有体现出这个决策过程。吴泰林与泰格马克的AI 物理学家做了一个有益的尝试,让模型去区分四种 不同的环境,但其局限在于只能区分在时间上顺序 排列的不同环境,其模型的输入是物体在四个不同 世界之间穿梭运动的时空坐标数据,而不是处于这 四个环境叠加的状态数据。模拟的物体运动在某一 个时间段只有一个固定的规则,而真实的科学发现 (如吴泰林与泰格马克所举伽利略的
25、例子)中科学 家面对复杂的世界是同时出现的,如研究带电物体 在磁场中运动的时候重力场也是需要考虑进去的。 把研究对象从环境中剥离开来是真实科学发现重要 环节,可控实验是主要方法,这个过程本身能否被形 式化是一个需要继续探讨的问题。第三个是科学理论的构建问题。早期对科学发 现的计算研究主要通过启发式搜索方法构建问题解 决空间来实现,需要预先有科学知识的预设,而机器 学习可以部分地弥补这个先验知识的问题,即通过 对原始数据的模式发现来找到最初的“概念”,但如 何连接机器学习与其他基于规则的方法来进一步推 动AI科学发现需要继续探索。吴泰林与泰格马克 的工作也部分地推进了这个工作一不仅仅局限于 从数
26、据中提取概念,而是更进一步通过“奥卡姆剃 刀”和“统一理论”方法等通用的约束条件来选择 “概念”和局域性理论,并组成更一般性的理论,另 外一些用遗传算法自动构建理论的方法则是更进一 步。这些研究对于自动概念发现的操作、选择以及 构建理论都是一种“可累积进步”的操作,即自动科 学发现的“科学理论”是建基在最初通过机器学习 自下而上从初始数据中得到的科学“概念”的基础 上的。从历史上看科学理论并不仅仅是累积进步 的,而是经历了至少两次科学革命和范式转换,科学 革命前后对一些概念(如时间和空间的概念)的理 解、测量和操作是不同的。目前的自动科学发现研 究部分模拟了库恩所说的“常规科学阶段”的科学 发现,这个部分相对来说容易模拟,因为毕竟是在一 定的背景下的“解题”活动。而对于科学革命和科 学概念演化的模拟相对更重要,毕竟自动科学发现 不仅仅是解题和搜索答案的工具,更希望这种方法 能够给人们提供概念变化的启示。而一些科学哲学 家之所以认为人工智能没法用于研究科学发现的逻 辑,也是基于其目前
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 星之路幼儿园教师培训管理及外出学习制度
- 铅山县新滩乡招聘社区网格员备考题库附答案详解
- 溆浦县小横垅乡招聘社区网格员真题附答案详解
- 海安县雅周镇招聘社区网格员考试试题附答案详解
- 2026年运城幼儿师范高等专科学校单招综合素质考试题库及答案详解一套
- 资兴市龙溪乡招聘社区网格员备考题库附答案详解
- 2026年旅游服务人员培训测试
- 乡村兽医培训结业考试试题及答案
- 防水工安全风险强化考核试卷含答案
- 重金属回转窑焙烧工安全教育模拟考核试卷含答案
- 2026重庆联合产权交易所集团股份有限公司招聘13人考试备考试题及答案解析
- 2026中国文创产品市场消费趋势与商业模式创新研究报告
- 2026中考语文试题分类汇编《作文》练习题
- 2026年辽宁省二级建造师继续教育复习真题AB卷附答案详解
- 高中作文纸800字模板
- 药物医疗器械临床试验质量管理规范试题及答案
- YC/T 88.2-2006烟草机械喂料机第2部分:技术条件
- GB/T 10855-2016齿形链和链轮
- GA 1334-2016管制刀具分类与安全要求
- 2023年广州铁路职业技术学院单招职业适应性测试笔试模拟试题及答案解析
- DB44 2208-2019农村生活污水处理排放标准-(高清现行)
评论
0/150
提交评论