版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人类,又称智人,即有智慧的人,这是因为智能对于人类来说尤其重要。几千年来,人们一直在试图理解人类是如何思考和行动的,也就是不断地了解人类的大脑是如何凭借它那小部分的物质去感知、理解、预测并操纵一个远比其自身更大更复杂的世界。随着科技的飞速发展,数据成为新生产要素,算力成为新基础能源,人工智能(AI)成为新生产工具。第1章人工智能基础人工智能是计算机科学的一个重要的分支,它专注于创建“智能系统”,是一个围绕着设计、理论、开发和应用能够展现出类似人类认知功能的机器而展开的多元化领域,这个领域涉及理解和构建智能实体,并确保这些机器在各种情况下都能有效和安全地行动。具有人工智能的机器努力模仿人类的思维和行为,它对世界的影响“将超过迄今为止人类历史上的任何事物”,它包含大量不同的子领域,从学习、推理、感知等通用领域到下棋、证明数学定理、写诗、驾车或诊断疾病等。人工智能可以与任何智能任务产生联系。第1章人工智能基础01什么是人工智能02人工智能实现途径03人工智能基础知识04人工的智能行为目录/CONTENTS05人工智能发展中的“中国风”PART01什么是人工智能作为计算机科学的一个分支,人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是一门自然科学、社会科学和技术科学交叉的边缘学科,它涉及的学科内容包括哲学和认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论、不定性论、仿生学、社会结构学与科学发展观等。1.1什么是人工智能“智能”涉及到诸如意识、自我、思维(包括无意识的思维)等问题。事实上,人应该了解的是人类本身的智能,但我们对自身智能的理解,对构成人的智能的必要元素也了解有限,很难准确定义出什么是“人工”制造的“智能”。因此,人工智能的研究往往涉及对人的智能本身的研究,其他关于动物或人造系统的智能也普遍被认为是与人工智能相关的研究课题。1.1.1“智能”的概念1906年,法国心理学家阿尔弗雷德·比奈这样定义智能:“……判断,又或称为判断力强,实践感强,首创精神,适应环境的能力。良好决策、充分理解、正确推论……但记忆与判断不同且独立于判断。”《牛津英语词典》对智能的定义是“获取和应用知识与技能的能力”,这显然取决于记忆。也许人工智能领域已经影响了人们对智力的一般性认识,人们会根据对实际情况的指导作用来判断知识的重要程度。人工智能的一个重要领域就是储存知识以供计算机使用。1.1.1“智能”的概念棋局是程序员研究的早期问题之一。他们认为,就象棋而言,只有人类才能获胜。1997年,IBM机器深蓝击败了象棋大师加里·卡斯帕罗夫,但深蓝并没有显示出任何人类特质,仅仅只是对这一任务进行快速有效的编程而已。图1-2卡斯帕罗夫与深蓝对弈当中1.1.1“智能”的概念“人工智能”一词的首次使用可以归因于1956年在新罕布什尔州汉诺威达特茅斯学院担任助理数学教授的约翰·麦卡锡,他与其他三位资深研究人员(哈佛大学的马文·明斯基、IBM的内森·罗切斯特和贝尔电话实验室的克劳德·香农)一起,提议在达特茅斯举办一次关于这个主题的夏季会议,会上,与会专家们共同提出了“人工智能”这个名词。1.1.2人工智能的历史在达特茅斯会议之后,对该领域的兴趣(以及某些领域对它的反对)迅速增长。研究人员开始着手各种任务,从证明定理到设计游戏等,些早期的突破性工作包括阿瑟·塞缪尔于1959年开发的跳棋程序。当时的许多演示系统都专注于“玩具问题”,将其适用性限制在某些简化或自包含的世界中,如游戏或逻辑。这种简化在一定程度上受当时有限的计算能力所驱使,另一方面也因为这并不涉及收集大量相关数据,而当时电子形式的数据很少。1.1.2人工智能的历史电子计算机的诞生使信息存储和处理的各个方面都发生了革命,计算机理论的发展产生了计算机科学并最终促使了人工智能的出现。计算机这个用电子方式处理数据的发明,为人工智能的可能实现提供了一种媒介。虽然计算机为人工智能提供了必要的技术基础,但人们直到上个世纪50年代早期才注意到人类智能与机器之间的联系,人工智能70余年的发展历程颇具周折。总结人工智能历史里程碑的快速方法之一是列举相关的图灵奖得主。1.1.2人工智能的历史获得图灵奖的人工智能大神是:马文·明斯基(1969年)和约翰·麦卡锡(1971年),定义了基于表示和推理的领域基础;艾伦·纽厄尔和赫伯特·西蒙(1975年),提出了关于问题求解和人类认知的符号模型;爱德华·费根鲍姆和劳伊·雷迪(1994年),开发了通过对人类知识编码来解决真实世界问题的专家系统;莱斯利·瓦伦特(2010年),对众多计算理论(包括PAC学习、枚举复杂性、代数计算和并行与分布式计算)做出了变革性的贡献;朱迪亚·珀尔(2011年)提出了通过原则性的方式处理不确定性的概率因果推理技术;约书亚·本吉奥、杰弗里·辛顿和杨立昆(2018年),他们将“深度学习”(多层神经网络)作为现代计算的关键部分。1.1.2人工智能的历史回顾图灵奖50余年的历史可以发现,人工智能一直是图灵奖不断鼓励、不断发现的重要话题。图灵的思考是计算机的起点,至今炙手可热的人工智能仍能从他的思考里找到启迪。“AlphaGo之父”哈萨比斯表示:“我提醒诸位,必须正确地使用人工智能。正确的两个原则是:人工智能必须用来造福全人类,而不能用于非法用途;人工智能技术不能仅为少数公司和少数人所使用,必须共享。”1.1.2人工智能的历史人工智能研究领域的一个较早流行的定义,是由约翰·麦卡锡在1956年的达特茅斯会议上提出的,即:人工智能就是要让机器的行为看起来像是人类所表现出的智能行为一样。另一个定义指出:人工智能是人造机器所表现出来的智能性。总体来讲,对人工智能的定义大多可划分为四类,即机器“像人一样思考”“像人一样行动”“理性地思考”和“理性地行动”。这里“行动”应广义地理解为采取行动,或制定行动的决策,而不是肢体动作。1.1.3人工智能定义尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软/硬件来模拟人类某些智能行为的基本理论、方法和技术。1.1.3人工智能定义可以把人工智能定义为一种工具,用来帮助或者替代人类思维。它是一项计算机程序,可以独立存在于数据中心、个人计算机,也可以通过诸如机器人之类的设备体现出来。它具备智能的外在特征,有能力在特定环境中有目的地获取和应用知识与技能。人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考,甚至也可能超过人的智能。1.1.3人工智能定义20世纪七十年代以来,人工智能被称为世界三大尖端技术之一(空间技术、能源技术、人工智能),也被认为是21世纪三大尖端技术(基因工程、纳米科学、人工智能)之一,这是因为近几十年来人工智能获得了迅速的发展,在很多学科领域都获得了广泛应用,取得了丰硕成果。1.1.3人工智能定义艾伦·图灵(1912.6.23—1954.6.7),出生于英国伦敦帕丁顿,毕业于普林斯顿大学,是英国数学家、逻辑学家,被誉为“计算机科学之父”“人工智能之父”,他是计算机逻辑的奠基者。1950年,图灵在其论文《计算机器与智能》中提出了著名的“图灵机”和“图灵测试”等重要概念,首次提出了机器具备思维的可能性。他还预言,到20世纪末一定会出现可以通过图灵测试的计算机。1.1.4人工智能大师图灵思想为现代计算机的逻辑工作方式奠定了基础。为了纪念图灵对计算机科学的巨大贡献,1966年,由美国计算机协会(ACM)设立一年一度的“图灵奖”,这被喻为“计算机界的诺贝尔奖”,以表彰在计算机科学事业中做出重要贡献的人。1.1.4人工智能大师约翰·冯·诺依曼(1903.12.28—1957.2.8),出生于匈牙利,毕业于苏黎世联邦工业大学,是数学家,现代计算机、博弈论、核武器和生化武器等领域内的科学全才,被后人称为“现代计算机之父”和“博弈论之父”。他在泛函分析、遍历理论、几何学、拓扑学和数值分析等众多数学领域及计算机学、量子力学和经济学中都有重大成就,也为第一颗原子弹和第一台电子计算机的研制做出了巨大贡献。1.1.4人工智能大师PART02人工智能实现途径对于人的思维模拟的研究可以从两个方向进行,一是结构模拟,仿照人脑的结构机制,制造出“类人脑”的机器;二是功能模拟,从人脑的功能过程进行模拟。现代电子计算机的产生便是对人脑思维功能的模拟,是对人脑思维的信息过程的模拟。1.2人工智能实现途径实现人工智能有三种途径,即强人工智能、弱人工智能和实用型人工智能。强人工智能又称多元智能。这里所说的多元智能理论是由哈佛大学心理学家霍华德·加德纳提出的。该理论指出:人类智能不仅仅局限于传统的语言和数理逻辑能力,而是包含了至少八种不同类型的智能:语言智能、数理逻辑智能、空间智能、音乐智能、身体运动智能、人际交往智能、自我认知智能以及自然观察者智能。每种智能代表了不同的思维方式和解决问题的能力,人们在这几种智能上的表现各有差异,此理论强调教育应考虑个体的智能多样性,促进全面发展。1.2人工智能实现途径研究人员希望人工智能最终能成为多元智能并且超越大部分人类的能力。有些人认为要达成以上目标,可能需要拟人化的特性,如人工意识或人工大脑,这被认为是人工智能的完整性:为了解决其中一个问题,你必须解决全部的问题。即使一个简单和特定的任务,如机器翻译,要求机器按照作者的论点(推理),知道什么是被人谈论(知识),忠实地再现作者的意图(情感计算)。因此,机器翻译被认为是具有人工智能完整性。1.2人工智能实现途径强人工智能的观点认为有可能制造出真正能推理和解决问题的智能机器,并且这样的机器将被认为是有知觉的,有自我意识的。强人工智能可以有两类:(1)类人的人工智能,即机器的思考和推理就像人的思维一样;(2)非类人的人工智能,即机器产生了和人完全不一样的知觉和意识,使用和人完全不一样的推理方式。强人工智能即便可以实现也很难被证实。为了创建具备强人工智能的计算机程序,我们首先必须清楚了解人类思维的工作原理,而想要实现这样的目标,还有很长的路要走。1.2人工智能实现途径弱人工智能认为不可能制造出能真正地推理和解决问题的智能机器,这些机器只不过看起来像是智能的,但是并不真正拥有智能,也不会有自主意识。它只要求机器能够拥有智能行为,具体的实施细节并不重要。深蓝就是在这样的理念下产生的,它没有试图模仿国际象棋大师的思维,仅仅遵循既定的操作步骤。计算机每秒验算的可能走位就高达2亿个,就算思维惊人的象棋大师也不太可能达到这样的速度。1.2人工智能实现途径人类拥有高度发达的战略意识,这种意识将需要考虑的走位限制在几步或是几十步以内,而计算机的考虑数以百万计。就弱人工智能而言,这种差异无关紧要,能证明计算机比人类更会下象棋就足够了。如今,主流的研究活动都集中在弱人工智能上,并且一般认为这一研究领域已经取得可观的成就。1.2人工智能实现途径第三种途径称为实用型人工智能。研究者们将目标放低,不再试图创造出像人类一般智慧的机器。眼下我们已经知道如何创造出能模拟昆虫行为的机器人。机械家蝇看起来似乎并没有什么用,但即使是这样的机器人,在完成某些特定任务时也是大有裨益的。比如,一群如狗大小,具备蚂蚁智商的机器人在清理碎石和在灾区找寻幸存者时就能够发挥很大的作用。
图1-5华盛顿大学研制的靠激光束驱动的RoboFly昆虫机器人1.2人工智能实现途径随着模型变得越来越精细,机器能够模仿的生物越来越高等,最终,我们可能必须接受这样的事实:机器似乎变得像人类一样智慧了。也许实用型人工智能与强人工智能殊途同归,但考虑到一切的复杂性,我们不会相信机器人会有自我意识。1.2人工智能实现途径PART03人工智能基础知识可以把人工智能定义为一种工具,用来帮助或者替代人类思维。它是一项计算机程序,可以独立存在于数据中心、个人计算机,也可以通过诸如机器人之类的设备体现出来。它具备智能的外在特征,有能力在特定环境中有目的地获取和应用知识与技能。人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考,甚至也可能超过人的智能。1.3人工智能知识基础从早期开始,研究人员就认识到学习能力是人类智能的重要组成部分。问题在于人们是如何学习的?能否以与人类相同的方式,或至少与人类一样有效地编写程序使计算机学会学习?1.3.1机器学习机器学习是人工智能的一个关键子集,是一种能够根据输入数据训练模型的系统。它的主要目标是让计算机系统能够通过对模型进行训练,使其能够从新的或以前未见过的数据中得出有用的预测。换句话说,机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机学会如何开发一个算法来完成任务。1.3.1机器学习在机器学习中,说某物被学习了,意味着它不仅仅被捕捉并存储在数据库中,它还必须以某种方式表示出来,以便可以加以利用。一般来说,学习的计算机程序会从数据中提取模式。在机器学习中,我们不是直接编程告诉计算机如何完成任务,而是提供大量的数据,让机器通过数据找出隐藏的模式或规律,然后用这些规律来预测新的、未知的数据。机器学习可以根据所处理的数据自主地学习和适应,大大减少了对显式编程的需求。1.3.1机器学习通常将人工智能看作是自主机器智能的广泛目标,而机器学习则是实现这一目标的具体方法。这里,所谓自主机器智能也就是指机器或系统能够通过内置的算法和传感器感知环境、学习新知识、做出决策并执行任务,而无需人类持续直接干预的技术。比如,如果我们通过代码告诉电脑,图片里红色是玫瑰,有说明的是向日葵,那么程序对花种类的判断就是通过人类直接编写逻辑达成的,不属于机器学习,机器什么也没学。但是如果我们给计算机大量玫瑰和向日葵的图片,让电脑自行识别模式、总结规律,从而能对后来新输入的图片进行预测和判断,这就是机器学习。1.3.1机器学习机器学习有3种主要类型,即监督学习、无监督学习和强化学习。其中,监督学习就像一个有答案的教科书,模型可以从标记的数据中学习,也就是说,它有答案可以参考学习;而无监督学习则更像一个无答案的谜题,模型需要自己在数据中找出结构和关系,介于两者之间的方法称为强化学习,其模型通过经验学习执行动作。
图1-6机器学习的三种主要类型1.3.2监督与无监督学习(1)监督学习,是指输入数据中有导师信号,以概率函数、代数函数或神经网络为基函数模型,采用迭代计算方法,学习结果为函数。在监督学习里,机器学习算法接受有标签的训练数据(标记数据),标签就是期望的输出值。所以每一个训练数据点都既包括输入特征,也包括期望的输出值。计算机使用特定的模式来识别每种标记类型的新样本,即在机器学习过程中提供对错指示,一般是在数据组中包含最终结果(0,1)。通过算法让机器自我减少误差。1.3.2监督与无监督学习监督学习从给定的训练数据集中学习出一个函数,当接收到一个新数据时,可以根据这个函数预测结果。算法的目标是学习输入和输出之间的映射关系,从而在给定新输入特征后,能够准确预测出相应的输出值。监督学习的主要类型是分类和回归。在分类中,机器被训练成将一个组划分为特定的类,一个简单例子就是电子邮件中的垃圾邮件过滤器。过滤器分析你以前标记为垃圾邮件的电子邮件,并将它们与新邮件进行比较,如果它们有一定的百分比匹配,这些新邮件将被标记为垃圾邮件并发送到适当的文件夹中。1.3.2监督与无监督学习在回归中,机器使用先前的(标记的)数据来预测未来,天气应用是回归的好例子。使用气象事件的历史数据(即平均气温、湿度和降水量),手机天气预报APP可以查看当前天气,并对未来时间的天气进行预测。例如,拿一堆猫狗的照片和照片对应的“猫”“狗”标签进行训练,然后让模型根据没见过的照片预测是猫还是狗,这就属于分类。拿一些房子特征的数据,比如面积、卧室数量、是否带阳台等和相应的房价作为标签进行训练,然后让模型根据没见过的房子的特征预测房价——这就属于回归。1.3.2监督与无监督学习(2)无监督学习,又称归纳性学习。其中的数据是没有标签的,即输入数据中无导师信号。采用聚类方法,学习结果为类别,所以算法的任务是自主发现数据里的模式或规律。无监督学习通过循环和递减运算来减小误差,达到分类的目的。在无监督学习中,数据是无标签的。由于大多数真实世界的数据都没有标签,这样的算法就特别有用。比如,拿一堆新闻文章,让模型根据主题或内容的特征自动把相似文章进行组织。1.3.2监督与无监督学习无监督学习分为聚类和降维。聚类用于根据属性和行为对象进行分组。这与分类不同,因为这些组不是你提供的。聚类的一个例子是将一个组划分成不同的子组(例如,基于年龄和婚姻状况),然后应用到有针对性的营销方案中。降维通过找到共同点来减少数据集的变量。大多数大数据可视化使用降维来识别趋势和规则。1.3.2监督与无监督学习(3)强化学习,是让模型在环境里采取行动,获得结果反馈。从反馈里学习,从而能在给定情况下采取最佳行动来最大化奖励或是最小化损失。例如,刚开始时小狗会随心所欲做出很多动作,但随着和驯犬师的互动,小狗会发现某些动作能够获得零食,某些动作没有零食,某些动作甚至会遭受惩罚。通过观察动作和奖惩之间的联系,小狗的行为会逐渐接近训犬师的期望。在很多任务上,比如说让模型下围棋,获得不同行动导致的奖励或损失反馈,从而在一局局游戏里优化策略,学习如何采取行动达到高分。1.3.2监督与无监督学习人工神经网络(ANN,简称“神经网络”)是受到真实神经网络的某些假定组织原则启发的而设计的计算机程序。由于人类对自己大脑的实际功能了解甚少,因此,神经网络与真实神经网络之间的关系大多还是“猜想”的。神经网络的工作原理是:将要分类的图片设置为输入(底层)神经元的值。然后,对于上一级的每个神经元,通过计算下一级神经元与较低级神经元之间连接的权重乘积来计算其激活值。不断继续这个过程,从每一级向上一级传送。当到达顶部时,如果一切都按预期完成,则顶层的某个神经元将被选择性地高度激活,这样就得到了答案。1.3.3人工神经网络深度学习是机器学习的一个子集,其核心在于使用神经网络模仿人脑处理信息的方式,通过层次化的方法提取和表示数据的特征。
图1-7深度学习示意1.3.4深度学习虽然单层神经网络就可以做出近似预测,但是添加更多的隐藏层可以优化预测的精度和准确性。神经网络由许多基本计算和储存单元组成,这些单元被称为神经元。神经元通过层层连接来处理数据,并且深度学习模型通常有很多层,能够学习和表示大量复杂的模式,这使它们在诸如图像识别、语音识别和自然语言处理等任务中非常有效。1.3.4深度学习计算机科学家常常会谈及建立某个过程或物体的模型,这并不是说要拿卡纸和软木来制作一个实际的复制品。这里的“模型”是一个数学术语,意思是写出事件运作的所有方程式并进行计算,这样就可以在没有真实模型的情况下完成实验测试。由于计算机运行十分迅速,因此,与真正的实验操作相比,计算机建模能够更快得出答案。在某些情况下进行实验可能是不实际的,气候变化就是一个典型例子。根本没有第二个地球或是时间可供人们开展实验。计算机模型可以非常简单也可以非常复杂,完全取决于人们想要探索的信息是什么。1.3.5计算机建模假设我们想要对橡皮球运动进行物理学建模。在理想环境中,掉落的橡皮球总是会反弹到其掉落高度的一定高度。如果从1米处掉落,那它可能会反弹至0.5米,下一次反弹的高度可能只有0.25米,再下一次0.125米,依此类推。反弹所需的时间是从掉落物体的物理运动中得出的,这就是两个简单方程式及两个数字,提供给我们每次反弹的高度及所需时间。理想小球在停止运动前会进行无限次弹跳,但由于每次弹跳时间递减,所以小球会在有限时间内结束有限次数的弹跳。不过,理想的小球并不存在。1.3.5计算机建模在计算上建立这样的模型十分容易,但并不精确。因为小球弹跳的数量不仅取决于球本身,还与反弹触及的表面有关。此外,小球在每次弹跳的过程中还会因反弹摩擦力和空气阻力丢失能量。将所有这些因素都囊括进模型当中,需要大量研究和物理学背景作为支撑,但这并不是不可完成的任务。现在假设要计算球拍击球后网球在球场上弹跳的路径,我们需要考虑球可能以不同角度接触不同平面,以及球本身的旋转。此外,每次弹跳都会对球内空气进行加热并改变其特性,要建立起这样的模型就更加困难。1.3.5计算机建模最后,假设我们要设计某种武器,能够将橡皮球以极快的速度朝定点射出,速度太快以致球会在冲击力的作用下破碎。我们需要对小球的构成材料进行建模,并且追踪每一块四散飞开的小球碎片。在建立起足够精确的模型之前,我们甚至需要模拟橡皮球的每一个原子。在现有的计算机上,这样的模型的运行速度一定会十分缓慢,但也是有可能建立起来的,因为我们了解物理和化学的基本原理。人工智能最根本也最宏伟的目标之一就是建立人脑般的计算机模型。完美模型固然最好,但精确性稍逊的模型也同样十分有效。1.3.5计算机建模PART04人工的智能行为显然,人工智能是人造的智能,它是科学和工程的产物。人们也会进一步考虑什么是人力所能及的,或者人自身的智能程度有没有达到可以创造人工智能的地步,等等。与生物学的研究不同,所有人工智能的研究都围绕着计算机展开,其全部技术也都是在计算机中执行的。历史上,人们研究过不同版本的人工智能。有些是复制人类行为来定义智能,而另一些用“理性”来抽象定义智能。智能主题的本身也各不相同:一些人将智能视为内部思维过程和推理的属性,而另一些人则关注智能的外部特征,也就是智能行为。1.4人工的智能行为从人与理性以及思想与行为这两个维度来看,有4种可能的组合,即类人行为、类人思考、理性思考和理性行为。追求类人智能(前两者)必须在某种程度上是与心理学相关的经验科学,包括对真实人类行为和思维过程的观察和假设;而理性主义方法(后两者)涉及数学和工程的结合,并与统计学、控制理论和经济学相联系。1.4人工的智能行为1950年,图灵提出了一套检测机器智能的思维实验测试,也就是后来广为人知的图灵测试,用以回避“机器能思考吗”这个哲学上模糊的问题。在实验中,人类测试者分别用书面语言与被测试计算机和被测试人类各交谈五分钟,随后判断哪个是计算机,哪个是人类。如果测试者无法分辨回答是来自人类还是来自计算机,那么这个计算机就算通过了测试。
图1-8图灵测试1.4.1类人行为:图灵测试从1991年起至今,每一年,所有参加测试的程序中最接近人类的那一个会被授予勒布纳人工智能奖,它们的表现确实越来越好了,但还没有出现任何程序能够如图灵预测的那样出色。目前,为计算机编程使其能够通过严格测试尚有大量工作要做。1.4.1类人行为:图灵测试计算机需要具备下列能力:(1)自然语言处理,以使用人类语言成功地交流;(2)知识表示,以存储它所知道或听到的内容;(3)自动推理,以回答问题并得出新的结论;(4)机器学习,以适应新的环境、检测和推断模式。图灵测试认为没有必要进行物理模拟来证明智能,而其他研究者提出的完全图灵测试则需要与真实世界中的对象进行交互。1.4.1类人行为:图灵测试为了通过完全图灵测试,机器人还需要具备下列能力:(5)计算机视觉和语音识别功能,以感知世界;(6)机器人学,以操纵对象并行动。上面6个方面构成了人工智能的大部分内容。1.4.1类人行为:图灵测试不过,人工智能研究人员很少把精力用在通过图灵测试上,他们认为研究智能的基本原理更重要。例如,当工程师和发明家停止模仿鸟类,转而使用风洞并学习空气动力学时,对“人工飞行”的探索取得了成功。航空工程学著作并未将其领域的目标定义为制造“能像鸽子一样飞行,甚至可以骗过其他真鸽子的机器”。1.4.1类人行为:图灵测试我们必须知道人类是如何思考的,才能评价程序是否像人类一样思考。可以通过3种方式来了解人类的思维:(1)内省——在进行思维活动时捕获思维;(2)心理实验——观察一个人的行为;(3)大脑成像——观察大脑的活动。一旦我们有了足够精确的心智理论,就有可能把这个理论表达为计算机程序。如果程序的输入/输出行为与相应的人类行为相匹配,那就表明程序的某些机制也可能在人类中存在。1.4.2类人思考:认知建模例如,开发通用问题求解器的艾伦·纽厄尔和赫伯特·西蒙并不仅仅满足于让他们的程序正确地求解问题,他们更关心的是将推理步骤的顺序和时机与求解相同问题的人类测试者进行比较。认知科学本身是一个引人入胜的跨学科领域,其中汇集了人工智能的计算机模型和心理学的实验技术,用以构建精确且可测试的人类心智理论。1.4.2类人思考:认知建模在人工智能发展早期,人们经常会混淆人工智能技术和人类认知之间的异同,但真正的认知科学必须建立在对人类或动物实验研究的基础上。计算机视觉领域将神经生理学证据整合到计算模型中,神经影像学方法与分析数据的机器学习技术相结合,开启了“读心”能力(即查明人类内心思想的语义内容)的研究。这种能力反过来可以进一步揭示人类认知的运作方式。1.4.2类人思考:认知建模亚里士多德是最早试图法则化“正确思维”的人之一,他将其定义为无可辩驳的推理过程。他的三段论为论证结构提供了模式,当给出正确的前提时,总能得出正确的结论。例如,当给出前提苏格拉底是人和所有人都是凡人时,可以得出结论苏格拉底是凡人。这些思维法则被认为支配着思想的运作,他们的研究开创了一个称为逻辑的领域。1.4.3理性思考:“思维法则”19世纪的逻辑学家建立了一套精确的符号系统,用于描述世界上物体及其之间的关系。这与普通算术表示系统形成对比,后者只提供关于数的描述。到1965年,任何用逻辑符号描述的可解问题在原则上都可以用程序求解。人工智能的逻辑主义就希望在此类程序的基础上创建智能系统。1.4.3理性思考:“思维法则”按照常规理解,逻辑要求关于世界的认知是确定的,而实际上这很难实现。例如,我们对政治或战争规则的了解远不如了解国际象棋或算术的规则。概率论填补了这一鸿沟,允许我们在掌握不确定信息的情况下进行严格的推理。原则上,它允许我们构建全面的理性思维模型,从原始的感知到对世界运作方式的理解,再到对未来的预测。但它无法形成智能行为。为此,我们还需要关于理性行为的理论,仅靠理性思考是不够的。1.4.3理性思考:“思维法则”智能体(Agent)就是某种能够采取行动的东西。当然,所有计算机程序都可以完成一些任务,但人们期望计算机智能体能够完成更多的任务:自主运行、感知环境、持续存在、适应变化以及制定和实现目标。理性智能体需要为取得最佳结果或在存在不确定性时取得最佳期望结果而采取行动。1.4.4理性行为:理性智能体基于人工智能的“思维法则”方法做出正确的推断,有时是理性智能体的一部分。因为采取理性行为的一种方式是推断出某个给定的行为是最优的,然后根据这个结论采取行动。但是,理性行为并不一定与推断有关。例如,从火炉前退缩是一种反射作用,这通常比经过深思熟虑后采取的较慢的动作更为成功。1.4.4理性行为:理性智能体通过图灵测试所需的所有技能也使智能体得以采取理性行为。知识表示和推理能让智能体做出较好的决策,生成易于理解的自然语言句子的能力也使其能在复杂的社会中生存。就像人们需要学习不仅是为了显示博学多才,更是为了提升产生高效行为的能力。通过图灵测试所需的所有技能也使智能体得以采取理性行为。知识表示和推理能让智能体做出较好的决策。我们需要具备生成易于理解的自然语言句子的能力,以便在复杂的社会中生存。我们需要学习不仅是为了博学多才,更是为了提升产生高效行为的能力。1.4.4理性行为:理性智能体与其他方法相比,基于人工智能的理性智能体方法有两个优点。首先,它比“思维法则”方法更普适,因为正确推断只是实现理性的可能机制之一。其次,它更适合科学发展。理性的标准在数学上是明确定义且完全普适的。我们经常可以从这个标准规范中得出可以被证明能够实现的智能体设计,而把模仿人类行为或思维过程作为目标的设计在很大程度上还做不到。1.4.4理性行为:理性智能体由于上述原因,在人工智能发展的大部分历史中,基于理性智能体的方法都占据了上风。最初,理性智能体建立在逻辑的基础上,为了实现特定目标制定了明确的规划。后来,基于概率论和机器学习的方法使智能体可以在不确定性下做出决策,以获得最佳期望结果。1.4.4理性行为:理性智能体简而言之,人工智能专注于研究和构建做正确事情的智能体,其中正确的事情是我们提供给智能体的目标定义。这种通用范式非常普遍,称之为标准模型。它不仅适用于人工智能,也适用于其他领域。控制理论中,控制器使代价函数最小化;运筹学中,策略使奖励的总和最大化;统计学中,决策规则使损失函数最小;经济学中,决策者追求效用或某种意义的社会福利最大化。然而在复杂环境中,完美理性(总是采取精确的最优动作)是不可行的,它的计算代价太高,因此需要对标准模型做一些重要的改进,但完美理性仍然是理论分析的良好出发点。1.4.4理性行为:理性智能体PART05人工智能发展中的“中国风”近年来,中国在人工智能领域取得显著进展,成为全球人工智能研究和应用的重要力量。中国政府高度重视人工智能的发展,2017年7月20日,国务院发布了《新一代人工智能发展规划》,设定到2030年成为世界主要人工智能创新中心的努力目标。此后,中国的研究者在全球顶级会议和期刊上发表了大量的人工智能相关论文,被引用次数也名列前茅,在人工智能专利申请数量方面,中国占据了世界领先地位。1.5人工智能发展中的“中国风”根据2025年初的统计数据,中国的人工智能核心产业规模已经达到5000亿元人民币,拥有超过4300家人工智能企业,涵盖了从基础硬件到应用场景的全产业链。人工智能技术在中国的应用场景非常广泛,包括智能制造、智慧城市、自动驾驶、医疗健康、金融科技等各个领域。凭借着庞大的国内市场,中国企业能够快速迭代产品和服务,推动技术创新。作为世界上人口最多的国家之一,中国拥有海量的数据资源,为人工智能模型训练提供了丰富的素材。中国积极推动人工智能与其他行业的深度融合,人工智能+的战略加速了产业升级和转型。1.5.1世界AI发展的排头兵中国还积极参与国际人工智能标准制定和技术交流,在国际市场上展示了强大的竞争力。例如中国企业DeepSeek(深度求索)在算法优化、深度学习等方面做出重要贡献,打破了某些技术瓶颈。随着人工智能教育的普及和相关专业课程的增加,中国正在培养出一批又一批的专业人才,为全球人工智能行业输送新鲜血液。通过持续投入和创新,中国有望在未来几年内进一步巩固其在人工智能领域的领导地位。1.5.1世界AI发展的排头兵2024年年末,多家中国AI公司顶着“东方神秘力量”的光环,被密集置于国内外的聚光灯下。再国外网友热议的背景下,有国内网友敏锐地发现,这些“东方神秘力量”的AI企业都身处杭州,一时间,“杭州x小龙”的说法在江湖上不胫而走。1.5.2
AI领域的“东方神秘力量”梳理这些“小龙”们的发展历程,人们会发现被称为“人工智能元年”的2018年是关键节点。那一年,群核科技(杭州)和英国帝国理工大学、美国南加州大学、浙江大学等高校联手推出InteriorNet数据集,为室内环境理解、3D重构、机器人交互等研究提供数据基础。那年年初,宇树科技熬过了发展的至暗时刻。几乎同一时间,《黑神话:悟空》立项,半年后“游戏科学”公司的精锐团队搬到了杭州。1.5.2
AI领域的“东方神秘力量”也是那一年的年底,强脑科技落户杭州AI小镇,他们收获了一位特殊的员工——手部有残疾的倪敏成,后来他佩戴假肢用意念控制写毛笔字,完成了强脑科技在国内的首秀。这家比马斯克的Neuralink成立还早一年的脑机接口公司驶上了快车道,越来越多身患残疾、热爱生活的人戴着他们的假肢弹起钢琴、举起火炬。
图1-9强脑科技的首秀:戴假肢用意念控制写毛笔字1.5.2
AI领域的“东方神秘力量”2018年,杭州也叩开了通向未来的大门,正式提出并动员“中国数字经济第一城”的建设,为如今高水平重塑全国数字经济第一城,数字经济和人工智能的双向奔赴埋下伏笔。也是在2018年,谷歌基于Transformer推出了Bert模型,世界知名的人工智能初创公司OpenAI推出了一个GPT系列模型,让机器看得懂也说得顺。不过,那一年,即使AI算力方面的业务大幅增长,英伟达还是被资本抛弃,到年底股价只剩3美元,差不多是2024年最高价的五十分之一,不过他们还是坚持给出了关于未来的一系列预演。1.5.2
AI领域的“东方神秘力量”这些在当时看上去像魔法的技术,最终影响了包括杭州x小龙在内,所有与AI、计算、数据相关的科技公司日后的发展轨迹。2018年10月10日,华为发布了两款AI芯片。一个月多后,美国商务部工业安全局出台了一份针对关键技术和相关产品的出口管制框架,将对人工智能、芯片、机器人、量子计算、脑机接口以及生物技术等前沿科技实施出口管制。一场中美之间的科技对决徐徐拉开大幕。1.5.2
AI领域的“东方神秘力量”据说,对于2018年,中国股民的回忆并不好,上证指数大跌25%。但当时方兴未艾的量化江湖出现了一支名为“幻方”的新锐,全年取得了正收益。所谓量化,通常指的是量化交易或量化投资,它是利用数学模型和计算机技术来进行交易或投资决策的过程,而不是依赖个人的主观判断。而“幻方”二字源于中国传统算术,常见的“九宫格”就是幻方的一种。1.5.3基于量化“幻方”的“深度求索”如果光看幻方量化的团队构成,很难想象他们是一家金融公司。公司CEO徐进是浙江大学信息学院信号与信息处理专业博士,研究的方向是机器人自主导航、立体视觉等,公司实际控制人梁文锋是个80后,毕业于浙大软件工程专业,主修软件工程,人工智能方向,2008年开始研究量化交易。1.5.3基于量化“幻方”的“深度求索”2016年,幻方在交易系统里融入AI,两年后“把AI确定为公司的主要发展方向”。2019年,幻方管理规模超过100亿,成为国内量化私募“四巨头”之一。同一年,他们开始研究怎么构建大规模GPU集群。从那年开始,幻方每年会购买大批GPU,到2021年,幻方量化对超算集群系统的投入增加到10亿元,并且搭载了超10000张英伟达A100显卡。江湖盛传:“中国持有高性能GPU最多的机构不是人工智能公司,而是幻方。”1.5.3基于量化“幻方”的“深度求索”2023年7月,梁文锋在杭州创立DeepSeek(深度求索),专注于AI大模型的研究和开发。很快,来自中国的大模型创业公司DeepSeek上线并同步开源DeepSeek-V3模型,公布了长达53页的训练和技术细节——他们用不到同行十分之一的成本训练出的大模型,在多项指标上领先全球包括OpenAI的GPT-4o在内的其他大模型。全球的AI圈子炸锅了。1.5.3基于量化“幻方”的“深度求索”宇树机器人(杭州宇树科技有限公司)专注于四足机器人的研发,提供高机动性、低成本的解决方案。这是一家创立于2016年的公司,但已经拿下全球四足机器人市场的大半壁江山,出货量占比超过六成,客户里还包含亚马逊、谷歌、英伟达、Meta等。在宇树科技发布的B2机器狗进阶版B2-W的炫技视频里,四足变四轮的它轻松展示了托马斯全旋、侧空翻、360°跳跃转体等丝滑连招,还能从2.8米高处飞跃而下。这条视频甚至很快得到了马斯克的转发和评论。1.5.4宇树科技与它的四足机器人宇树科技的创始人王兴兴生于1990年,他10岁的时候看到了MIT(麻省理工)实验室做出的机器人。主导这一项目的马克·雷伯特后来成了波士顿动力的创始人,波士顿把机器狗带入了世界大众的视野。1.5.4宇树科技与它的四足机器人大学毕业后王兴兴入职大疆(无人机),10年后宇树被媒体描述成为“地面大疆”。从小和各种机械部件打交道,王兴兴对每个构件的设计和成本都了然于胸,所以,宇树的机器狗性能卓越,价格反倒大幅低于同行,他既有工程师的才华,又有商人精明的头脑,他在电机驱动机器狗领域有绝对的自信。XDog横空出世那会儿,MIT的博士都问他要了毕业论文——2019年,MIT开源了Cheetah四足机器狗的软硬件方案,在重要的电机部分,和三年前的XDog一模一样。1.5.4宇树科技与它的四足机器人说到自信,两年前就写好TGA年度最佳游戏获奖感言的冯骥不遑多让。TGA是由加拿大籍游戏媒体人杰夫·吉斯利主办,得到索尼、微软、任天堂等知名企业支持的电子游戏奖项。冯骥说,赢的时候才自信只是对结果的复读,他和游戏科学企业一直在“做具体的事,做困难的事,做相信的事……在做这些,当然应该自信”。1.5.5游戏科技与《黑神话:悟空》20年前,冯骥写下6000字的雄文《谁谋杀了我们的游戏?》,带着改变国产网游糟糕现状的满腔热血进入游戏行业。10年前,他成立游戏科学,决心要用扎实的技术去解决具体问题,用实事求是的态度做一款高品质的游戏。2018年,他和团队终于“重走西游”,弥补10年前在《斗战神》上留下的遗憾,《黑神话:悟空》正式踏上取经路,让唢呐声第一次在被誉为游戏奥斯卡的TGA上响起,即便遗憾错失年度最佳游戏,也留下了“功成何须袈裟证”的江湖美誉。1.5.5游戏科技与《黑神话:悟空》本科就读浙大竺可桢学院的黄晓煌博士研究方向是GPU高性能计算,回国后与两位室友创立了群核科技,名字来源于他们搭建的GPU架构多核心处理器。最初他们的想法是把GPU放到云端,支持渲染等需要高性能计算的应用,家居设计成了最佳落地场景。很长一段时间,旗下“酷家乐”这个SaaS产品要比群核更有名。得益于前期在家装领域,中期在工业4.0领域的长期沉淀,群核积累了大量物理世界的数据。在AI逐步从数字世界走入物理世界的过程中,坐在了“金矿”上——他们合成的数据不仅质量高,还遵循了物理规律。1.5.6全球最大可交互三维能力的群核科技2024年11月20日,他们首次对外公开了其两大技术引擎:群核启真(渲染)引擎和群核矩阵(CAD)引擎。一个对应的是拥有超级算力支撑的万卡集群,一个对应的是由海量数据组成的“物理世界模拟器”。后者比OpenAI对Sora“世界模拟器”的定义多了两个字,更强调“真实”。1.5.6全球最大可交互三维能力的群核科技当人们谈到DeepSeek时,许多业内人士会自然提到另一款来自杭州的开源模型,阿里云旗下的Qwen;提到机器狗、宇树科技之外,还有家名字很有诗意的公司“云深处”,其创始人朱秋国也来自浙大,他们的轮足机器人“山猫”比宇树的B2-W发布更早,同样引发了轰动;在全新的AR/AI眼镜赛道,也挤满了浙大精英创业者,而光电本身就是浙大的传统优势专业。1.5.7中国AI企业应有的自信除了Rokid,这份名单里的杭州面孔包括被字节跳动投资的李未可,凭借技术切入泳镜细分赛道的光粒科技,从脑机接口跨界来的Looktech,等等。他们遍地开花地分布在余杭、滨江、西湖等杭州各个区。在AI开启的新一轮技术浪潮下,这座城市的创业江湖更要热闹得多。1.5.7中国AI企业应有的自信面对国外科技巨头的竞争,DeepSeek的梁文锋说:中国的企业应该要自信,要学会引领技术创新,学会组织和培养自己的高密度人才。宇树科技的王兴兴说:高学历并不代表一切,“没有人特别天才,大家其实都差不多。”游戏科技的冯骥希望大家都能继续怀着自信与雄心,保持勇敢、诚实和善良,踏实做好每一件具体的小事,坦然接受结果,一直在取经的路上,直至生命最后一刻。这些关于自信、勇敢的叙事对冲着现实的困难,在甲辰龙年岁末,“杭州小龙”们让许多人再次听到了新力量破土而出的声音。1.5.7中国AI企业应有的自信以2022年11月ChatGPT的发布为起点,大模型进入突破性发展阶段。利用大模型,ChatGPT通过一个简单对话框就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量小模型定制开发才能分别实现的能力。它在开放领域问答、各类自然语言生成式任务及对话上下文理解上所展现出来的能力远超大多数人的想象。2023年3月GPT-4发布,它又有了非常明显的进步,具备多模态理解能力,展现了近乎“通用人工智能”的能力。此后,各大公司和研究机构相继发布了此类系统。【实验与思考】了解典型的开源大模型01什么是人工智能02人工智能实现途径03人工智能知识基础04人工的智能行为目录/CONTENTS05人工智能发展中的“中国风”2023年被称为生成式人工智能(GenerativeAI,GenAI)元年,以ChatGPT为代表的GenAI技术的涌现获得了全社会前所未有的关注。大型科技公司、各类创业公司迅速入场,投入海量资源,推动了大语言模型(LargeLanguageModel,LLM或大模型)能力和应用的快速演进。作为人工智能领域的重要组成部分,大模型正引领科技发展的新方向。第2章什么是大语言模型01什么是生成式AI02生成式AI原理03LLM如何工作04大模型的定义目录/CONTENTS05大模型的闭源和开源PART01什么是生成式人工智能过去几年来,机器学习领域取得的迅猛进步,创造了人工智能的一个新的子领域:生成式人工智能。GenAI模型是人工智能模型的一个子集,它通过分析大量的数字化材料,生成与现有数据类似或遵循现有数据模式的新数据,进而产生新的文本、图像、音乐和软件。GenAI模型不同于其他专注于分类、预测或强化学习的人工智能模型。2.1什么是生成式人工智能最早的GenAI主要致力于自然语言对话,这些被称为“大语言模型”的系统在各种任务上展现出超凡的能力,同时也显示了一些虚假、不合逻辑的倾向,它们用通俗的语言与用户交流,并轻松解决各种复杂问题,而这还只是GenAI的开始。由于支撑GenAI的技术相当通用,它们能够学习任何可以收集和准备进行处理的数据集,这在现代数字世界是一个相对简单的任务。2.1什么是生成式人工智能在实际应用中,GenAI系统是多才多艺的“合成大脑”,但这并不意味着它们具有人类意义上的“思想”。它们没有独立的目标和欲望、偏见和愿望、情感和感觉:这些是人类所具有的独特特征。但是,如果人们用正确的数据对它们进行训练并指导它们追求适当的目标,这些程序可以表现得好像具有这些特征一样。GenAI可以被指示执行(或至少描述如何执行)你几乎能想到的任何任务,它们是大多数领域的专家。2.1什么是生成式人工智能PART02生成式人工智能原理GenAI主要基于深度神经网络,通过训练大规模数据集,从中学习抽象出数据的本质规律和概率分布,并利用模型生成新的数据。2.2生成式人工智能原理GenAI模型的一些关键特征如下。(1)数据生成:GenAI模型能够创建模仿训练数据中观察到的模式或风格的新内容,该内容可以采用文本、图像、音乐等多种形式。(2)无监督学习:许多生成模型采用无监督学习技术,模型在没有明确标签或目标的情况下学习数据中的模式和结构,这使它们能够生成数据,而不需要相应的具体示例。(3)可变性:GenAI模型通常可以产生不同的输出征。例如,它们可以生成不同风格的艺术,以不同方式重新表述相同的文本段落,或者图像的多个版本。2.2.1关键特征和类型一些常见类型的GenAI模型如下。·生成对抗网络(GAN):它由两个处于竞争关系的神经网络(生成器和判别器)组成。生成器创建数据,而判别器评估该数据的真实性。这种对抗性过程导致生成器提高了创建真实数据的能力。GAN已广泛用于图像生成、风格迁移和内容创建。·变分自动编码器(VAE):这是基于概率建模原理的生成模型,其目标是了解数据的潜在概率分布。VAE通常用于图像生成、数据压缩和图像重建。2.2.1关键特征和类型·循环神经网络(RNN):是一种专门为序列数据(例如文本和时间序列数据)设计的神经网络架构,用于文本生成、机器翻译和语音识别。传统的RNN在捕获长期依赖性方面存在局限性。·长短期记忆网络(LSTM):这是一种特殊类型的RNN,可以捕获顺序数据中的长程依赖性。事实证明,它们在自然语言处理任务中非常有效,包括语言建模、文本生成和情感分析。2.2.1关键特征和类型·生成式预训练Transformer(GPT):GPT模型是GenAI领域的最新突破。这些模型利用Transformer架构和对文本数据的大规模预训练来生成连贯且上下文相关的文本。它们擅长各种自然语言理解和生成任务,包括聊天机器人、内容生成、翻译等。GenAI与大模型是两个相关的概念,但它们在侧重点、能力和应用方面存在明显差异。大模型是一种GenAI系统,用于以纯文本形式生成对问题或提示的回应。这些系统使用专门的多层次和多方面的神经网络,在非常大的自然语言文本集合上进行训练,通常从互联网和其他合适来源收集而来。2.2.1关键特征和类型在语言模型中,“tokens”是指单词、单词部分(称为子词)或字符转换成的数字列表。每个单词或单词部分都被映射到一个特定的称为词元(token)的数字表示,实现这种映射关系的过程叫做标记。这种映射关系通常是通过预定义的规则或算法完成的,不同的语言模型可能使用不同的标记化方案,但重要的是要保证在相同的语境下,相同的单词或单词部分始终被映射到相同的词元。
图2-1相同单词始终被映射到相同词元2.2.2词元及其标记化大多数语言模型倾向于使用子词标记化,因为这种方法高效灵活。子词标记化能够处理单词的变形、错字等情况,从而更好地识别单词之间的关系。2.2.2词元及其标记化训练一个大模型可能非常耗时和昂贵——如今,最常见的商业系统是在数千台强大处理器上同时训练数周,耗资达数百万美元。这些程序通常被称为“基础模型”,具有广泛的适用性和长期使用寿命。它们可以用作为许多不同类型专业大模型的基础,尽管直接与它们交互也是完全可能的(而且很有用和有趣)。
图2-2训练基础模型2.2.3基础模型大模型在完成了对大型文本语料库的“基础训练”后,就要进入调整阶段。这包括向它提供一系列示例,说明它应该如何礼貌地和合作地回答问题(响应“提示”),以及最重要的是,它不允许说什么(当然,这反映了其开发者的态度和偏见的价值判断)。初始训练步骤大多是自动化过程,这个社交化步骤是通过所谓的人类反馈强化学习(RLHF)来完成的。人类审查大模型对一系列可能引起不当行为的提示的反应,然后帮助大模型做出改进。2.2.3基础模型完成训练后,大模型接受使用者的提示或问题作为输入,对其进行转换并生成一个回应。与训练步骤相比,这个过程快速而简单,但它是如何将输入转换为回应的呢?模型将这种“猜测下一个词”的技术扩展到更长的序列上。重要的是,要理解分析和猜测实际上不是在词本身进行的,而是在所谓的标记上进行的——它们代表词的一部分,并且这些标记进一步以“嵌入”形式表达,旨在捕捉它们的含义。2.2.3基础模型所谓幻觉,是指大模型在回答问题或提示时,实际上并不会查阅其训练时接触到的所有词序列,这就意味着它们通常只能访问那些信息的统计摘要——大模型可能“知道”很多词,但它们无法重现创建它们的确切序列。于是,大模型就出现了幻觉,简而言之就是“胡说八道”,即模型生成的内容与现实世界事实或用户输入不一致的现象。通常大模型很难区分现实和想象。至少目前来说,它们没有很好的方法来验证它们认为或相信可能是真实的事物的准确性。即使它们能够咨询互联网等其他来源,也不能保证它们会找到可靠的信息。2.2.4大模型的幻觉1.幻觉的分类研究人员将大模型的幻觉分为事实性幻觉和忠实性幻觉。(1)事实性幻觉,是指模型生成的内容与可验证的现实世界事实不一致。比如问模型“第一个在月球上行走的人是谁?”,模型回复“查尔斯·林德伯格在1951年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是尼尔·阿姆斯特朗。事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。2.2.4大模型的幻觉(2)忠实性幻觉,是指模型生成的内容与用户的指令或上下文不一致。比如让模型总结今年10月的新闻,结果模型却在说2006年10月的事。忠实性幻觉也可以细分为指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致(推理步骤以及与最终答案之间的不一致)3类。2.2.4大模型的幻觉2.产生幻觉的原因大模型采用的数据是致使它产生幻觉的一大原因,其中包括数据缺陷、数据中捕获的事实知识的利用率较低等因素。具体来说,数据缺陷分为错误信息和偏见(重复偏见、社会偏见),此外,大模型也有知识边界,所以存在领域知识缺陷和过时的事实知识。2.2.4大模型的幻觉实际上,即便大模型应用了大量的数据,也会在利用时出现问题。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。比如说,如果训练数据中频繁共现“加拿大”和“多伦多”,那么大模型可能会错误地将多伦多识别为加拿大的首都。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。2.2.4大模型的幻觉这里,所谓长尾知识是指:不能过于迷信依靠人工智能模型自身能力解决问题。顶流人工智能模型的水平虽然高,但主要体现在语言与思维能力。它们掌握的世界知识,其实仅仅是人类文明史里极少数意义重大的知识。浩如烟海的长尾知识散落在数字世界的各个角落。这些知识既难以规整成数据集,人工智能也无法跟上它指数级增长的生产速度。
图2-3长尾效应2.2.4大模型的幻觉除了数据,训练过程也会使大模型产生幻觉。主要是预训练阶段(大模型学习通用表示并获取世界知识)、对齐阶段(微调大模型使其更好地与人类偏好一致)两个阶段产生问题。2.2.4大模型的幻觉预训练阶段可能会存在:·架构缺陷。基于前一个词元预测下一个词元,这种单向建模阻碍了模型捕获复杂的上下文关系的能力;自注意力模块存在缺陷,随着词元长度增加,不同位置的注意力被稀释。·暴露偏差。训练策略也有缺陷,模型推理时依赖于自己生成的词元进行后续预测,模型生成的错误词元会在整个后续词元中产生级联错误。2.2.4大模型的幻觉对齐阶段可能会存在:·能力错位。大模型内在能力与标注数据中描述的功能之间可能存在错位。当对齐数据需求超出这些预定义的能力边界时,大模型会被训练来生成超出其自身知识边界的内容,从而放大幻觉的风险。·信念错位。基于人类反馈强化学习等的微调,使大模型的输出更符合人类偏好,但有时模型会倾向于迎合人类偏好,从而牺牲信息真实性。2.2.4大模型的幻觉大模型产生幻觉的第三个关键因素是推理,存在两个问题:·固有的抽样随机性:在生成内容时根据概率随机生成。·不完美的解码表示:上下文关注不足(过度关注相邻文本而忽视了源上下文)和softmax瓶颈(输出概率分布的表达能力受限)。2.2.4大模型的幻觉3.检测大模型病症研究人员给出了一份模型幻觉检测基准。(1)针对事实性幻觉,有检索外部事实和不确定性估计两种方法。检索外部事实是将模型生成的内容与可靠的知识来源进行比较。基于不确定性估计的幻觉检测方法可以分为两类:基于内部状态的方法和基于行为的方法。基于内部状态的方法主要依赖于访问大模型的内部状态。例如,通过考虑关键概念的最小标记概率来确定模型的不确定性。基于行为的方法则主要依赖于观察大模型的行为,不需要访问其内部状态。例如,通过采样多个响应并评估事实陈述的一致性来检测幻觉。2.2.4大模型的幻觉(2)检测忠实性幻觉,有5种不同的方法:①基于事实的度量,测量生成内容和源内容之间事实的重叠程度来评估忠实性。②分类器度量:使用训练过的分类器来区分模型生成忠实内容和幻觉内容。③问答度量:使用问答系统来验证源内容和生成内容之间的信息一致性。④不确定度估计:测量模型对其生成输出的置信度来评估忠实性。⑤提示度量:让大模型作为评估者,通过特定的提示策略来评估生成内容的忠实性。2.2.4大模型的幻觉4.减轻幻觉研究人员根据致幻原因,总结了现有减轻幻觉现象的方法。(1)数据相关的幻觉。减少错误信息和偏见,最直观的方法是收集高质量的事实数据,并进行数据清理以消除偏见。对于知识边界的问题,有两种流行方法。一种是知识编辑,直接编辑模型参数弥合知识差距。另一种通过检索增强生成利用非参数知识源。2.2.4大模型的幻觉检索增强具体分为3种类型:一次性检索、迭代检索和事后检索。其中,一次性检索是将从单次检索中获得的外部知识直接预置到大模型的提示中;迭代检索允许在整个生成过程中不断收集知识;事后检索是基于检索的修订来完善大模型输出。
图2-4检索增强的3种类型2.2.4大模型的幻觉(2)训练相关的幻觉。根据致幻原因,可以完善有缺陷的模型架构。在模型预训练阶段,最新研究试图通过完善预训练策略、确保更丰富的上下文理解和规避偏见来应对这一问题。比如针对模型对文档式的非结构化事实知识理解碎片化、不关联,有研究将文档的每个句子转换为独立的事实,从而增强模型对事实关联的理解。此外,还可以通过改进人类偏好判断、激活引导,减轻对齐错位问题。2.2.4大模型的幻觉(3)推理相关的幻觉。不完美的解码通常会导致模型输出偏离原始上下文。研究人员探讨了两种策略,一种是事实增强解码,另一种是译后编辑解码。此外,忠实度增强解码优先考虑与用户说明或提供的上下文保持一致,强调增强生成内容的一致性。其工作可以总结为两类,包括上下文一致性和逻辑一致性。有关上下文一致性的研究之一是上下文感知解码,通过减少对先验知识的依赖来修改输出分布,从而促进模型对上下文信息的关注。有关逻辑一致性的研究包括知识蒸馏框架,用来增强思维链提示中固有的自洽性。2.2.4大模型的幻觉人工神经网络一直是哲学讨论的焦点,讨论主要集中在它们作为建模人类认知的适用性上。具体而言,争论焦点在于,相比于经典的、符号的、基于规则的对应物模型,它们是否构成了更好的人类认知模型。人类和动物能够通过观察,简单交互以及无监督方式学习世界知识,可以假设这里面蕴含的潜在能力构成了常识的基础,这种常识能够让人类在陌生的环境下完成任务。例如一位年轻司机从来没有在雪地里开过车,但是他却知道在雪地里如果车开的太猛,轮胎会打滑。2.2.5世界模型问题早在几十年前,就有学者研究人类、动物甚至智能系统如何“借力”世界模型,自我学习。因此,当前人工智能也面临着重新设计学习范式和架构,使机器能够以自我监督的方式学习世界模型,然后使用这些模型进行预测、推理和规划。在机器学习中,世界模型通常指的是模拟外部世界某些方面的内部表征,使系统能够以反映现实世界动态的方式理解、解释和预测现象,包括因果关系和直观的物理现象。于是,一个核心问题是,设计用于预测下一个词元的大模型是否能构建出一个“世界模型”。2.2.5世界模型问题大模型的学习方式与通过和环境互动并接收反馈来学习的强化学习代理不同,它能否构建出世界模型,实际上是在探讨它们是否能够内部构建出对世界的理解,并生成与现实世界知识和动态相一致的语言。这种能力对于反驳大模型仅仅是“Blockheads(傻瓜)”的观点至关重要。2.2.5世界模型问题评估大模型是否具有世界模型并没有统一的方法,部分原因在于这个概念通常定义模糊,部分原因在于难以设计实验来区分大模型是依赖浅层启发式回答问题,还是使用了环境核心动态的内部表征这一假设。尽管如此,我们还是可以向大模型提出一些不能依据记忆来完成的任务,来提供新的证据以解决这一问题。2.2.5世界模型问题有的研究认为,大模型可能学会了模拟世界的一部分,而不仅仅是进行序列概率估计。更具体地说,互联网规模的训练数据集由大量单独的文档组成,对这些文本的最有效压缩可能涉及对生成它们的隐藏变量值进行编码:即文本的人类作者的句法知识、语义信念和交际意图。世界模型需要融合不同学科的观点,包括认知科学、系统神经科学、最优控制、强化学习以及“传统”人工智能。必须将它们与机器学习的新概念相结合,如自监督学习和联合嵌入架构。2.2.5世界模型问题除了世界模型,另一个有趣的问题是,大模型是否可能参与文化习得并在知识传递中发挥作用。一些研究者提出,人类智能的一个关键特征在于其独特的文化学习能力。尽管其他灵长类动物也有类似的能力,但人类在这方面显得更为突出。人类能够相互合作,将知识从上一代传到下一代,人类能够从上一代结束的地方继续,并在语言学、科学和社会学知识方面取得新的进展。这种方式使人类的知识积累和发现保持稳步发展,与黑猩猩等其他动物相对停滞的文化演变形成鲜明对比。2.2.6知识传递和语言支持鉴于深度学习系统已经在多个任务领域超过了人类表现。那么,大模型是否能够模拟文化学习的许多组成部分,将它们的发现传递给人类,而现在,主要是人类通过解释模型来得到可传播的知识。大模型是否能够以理论介导的方式向人类解释它们的策略,从而参与和增强人类文化学习呢?有证据表明,基于Transformer的模型可能在某些训练—测试分布转变下实现组合泛化。从现有证据来看,大模型似乎能够在已知任务范围内处理新数据,实现局部任务泛化,实现解决真正新颖任务的能力。2.2.6知识传递和语言支持此外,文化的累积进步不仅涉及创新,还包括稳定的文化传播。大模型是否能够像人类一样,不仅能够生成新颖的解决方案,还能够通过认识和表达它们如何超越先前的解决方案,从而“锁定”这些创新?这种能力不仅涉及生成新颖的响应,还需要对解决方案的新颖性及其影响有深刻理解,类似于人类科学家不仅发现新事物,还能理论化、情境化和传达他们的发现。2.2.6知识传递和语言支持因此,对大模型的挑战不仅仅在于生成问题的新颖解决方案,还在于培养一种能够反思和传达其创新性质的能力,从而促进文化学习的累积过程。这种能力可能需要更先进的交际意图理解和世界模型构建。虽然大模型在各种形式的任务泛化方面表现出有希望的迹象,但它们参与文化学习的程度似乎取决于这些领域的进一步发展,这可能超出了当前体系结构的能力范围。2.2.6知识传递和语言支持PART03大语言模型如何工作在任何现有或想象中的未来计算机系统中,存储数千个单词的所有可能序列都是不现实的:与之相比,这些序列的数量使得宇宙中的原子数量看起来微不足道。因此,研究人员重新利用神经网络的试验和真实方法,将这些巨大的集合减少为更易管理的形式。神经网络最初被应用于解决分类问题——决定某物是什么,例如输入一张图片,网络将确定它是狗还是猫的图像。神经网络必须以一种使相关的输入产生相似结果的方式来压缩数据。2.3大语言模型如何工作1981年,内德·布洛克构建了一个“Blockhead(傻瓜)”假说——假定科学家们通过编程,在Blockhead内预先设定好了近乎所有问题的答案,那么,当它回答问题的时候,人们也许就根本无法区分是Blockhead还是人类在回答问题。显然,这里的Blockhead并不被认为是智能的,因为它回答问题的方式仅仅是从其庞大的记忆知识库中检索并复述答案,并非通过理解问题之后给出答案。哲学家们一致认为,这样的系统不符合智能的标准。2.3.1Blockhead思维实验对于多年来一直在思考人工智能的哲学家来说,GPT-4就像是一个已经实现了的思维实验。实际上,GPT-4的许多成就就是通过类似的内存检索操作产生的。GPT-4的训练集中包括了数亿个人类个体生成的对话和数以千计的学术出版物,涵盖了潜在的问答对。研究发现,深度神经网络多层结构的设计使其能够有效地从训练数据中检索到正确答案。这表明,GPT-4的回答其实是通过近似甚至是精确复制训练集中的样本生成的。2.3.1Blockhead思维实验如果GPT-4真的是以这种方式运行,那么它就只是Blockhead的现实版本。由此,人们在评估大语言模型时存在一个关键问题:它的训练集中可能包含了评估时使用的测试问题,这被称为“数据污染”,这些是应该在评估前予以排除的问题。研究者指出,大模型不仅可以简单地复述其提示的或训练集的大部分内容,它们还能够灵活地融合来自训练集的内容,产生新的输出。而许多经验主义哲学家提出,能够灵活复制先前经验中的抽象模式,可能不仅是智能的基础,还是创造力和理性决策的基础。2.3.1Blockhead思维实验大模型的起源可以追溯到人工智能研究的开始。早期的自然语言处理主要有两大流派:符号派和随机学派。诺姆·乔姆斯基的转换生成语法对符号派影响重大。该理论认为自然语言的结构可以被一组形式化规则概括,利用这些规则可以产生形式正确的句子。与此同时,受香农信息论的影响,数学家沃伦·韦弗首创了随机学派。1949年,韦弗提出使用统计技术在计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 伊春职业学院《临床医学导论》2025-2026学年期末试卷
- 闽江师范高等专科学校《经济学基础》2025-2026学年期末试卷
- 长春师范高等专科学校《道路勘测设计》2025-2026学年期末试卷
- 2026年苏教版小学六年级语文上册小升初基础培优卷含答案
- 2026年人教版小学五年级语文下册话题作文立意深度卷含答案
- 深度解析(2026)《GBT 4169.23-2006塑料注射模零件 第23部分矩形拉模扣》
- 2026年人教版小学六年级数学下册负数比较大小卷含答案
- 深度解析(2026)《GBT 3855-2005碳纤维增强塑料树脂含量试验方法》
- 深度解析(2026)《GBT 3736-2008卡套式锥螺纹长管接头》
- 深度解析(2026)《GBT 3048.4-2007电线电缆电性能试验方法 第4部分:导体直流电阻试验》
- 2026河北省国控商贸集团有限公司招聘备考题库及一套答案详解
- (甘肃二模)甘肃省2026年高三年级第二次模拟考试生物试卷(含答案)
- 2024年广东省深圳市中考语文试题(原卷版)
- 2026届江苏省南京市、盐城市高三一模英语卷(含答案)
- 2026年数据资产合规性评估报告范本
- 社会团体内部规章制度
- 湖南省湘西州2025-2026学年七年级上学期期末考试历史试卷(解析版)
- 2026年南阳农业职业学院单招职业适应性考试题库及答案详解(真题汇编)
- 2026年教科版三年级科学下册 3.6一天中影子的变化(课件)
- 餐饮安全专题培训班课件
- 新华三杯考试题库及答案
评论
0/150
提交评论