关于GPTLLM(大致原理特性分析)和建设智能学的意图_第1页
关于GPTLLM(大致原理特性分析)和建设智能学的意图_第2页
关于GPTLLM(大致原理特性分析)和建设智能学的意图_第3页
关于GPTLLM(大致原理特性分析)和建设智能学的意图_第4页
关于GPTLLM(大致原理特性分析)和建设智能学的意图_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2022-2023(2)机器人基础与创新课程报告题目:对通用聊天机器人LLM的哲学观点一、概论2023年,以chatGPT为代表的LLM第一次大范围出现在公众视野,并且由openAI投石问路,发现GPT类技术造就的语言大模型的可行性,全球AI研究主力向此发力,越来越强大的LLM开始出现。LLM非常与众不同的一点是,它几乎人类文明历史上第一个如此特性的造物,接近于AGI的能力:对人的语言的理解能力,进行通用性的联想和思考回答的能力,通用的强大的工作能力,对语言世界的征服带来对通用常识的掌握,同样拥有来自机器的不眠不休和一定程度自动化独立运行的能力。笔者是长期关注智能研究的相关人员,本文对GPT的发展、原理、产业特性进行了介绍和分析,并展示了笔者的相关思考,关于LLM和AGI,关于LLM对人类社会的冲击,关于可能的泛智慧存在共存的未来和智能学的思考。二、相关技术介绍2.1GPT技术的前世今生2017年,Google的研究人员发明了一种新的人工智能模型——变压器模型(Transformer),它通过“注意力机制”理解语言,第一个模型就有6500万个参数,在翻译和语法分析上达到当时最高水平,成为第一个“超大规模语言模型”。从2015年成立起,OpenAI一直在努力探索变压器模型的极限。2018年,OpenAI研发出GPT-1,有1.17亿个参数,使用7000本电子书训练,在四项语言测试中名列第一。2019年,OpenAI发布GPT-2,有15亿个参数,用网页数据训练,在许多语言测试中超过人类表现。2020年,OpenAI研发出GPT-3,有1750亿个参数,用户只需要简单的提示或不需提示就可以得到高质量的生成文本,但训练和使用费用高昂,难以普及。GPT-3可以根据简单的提示自动生成长文章、代码、食谱,让人几乎不相信是机器完成的,已经被许多公司用于产品,比如微软获得GPT-3技术的独家使用权。2022年,OpenAI基于GPT-3改进开发出InstructGPT和ChatGPT两个新模型,ChatGPT专注对话,语言更口语,在一定程度上通过了图灵测试,已经有数百万用户,可以完成各种文本生成任务,继承了GPT-3巨大规模和出色性能,在互动性和解释性方面有所提高,值得我们继续关注。6年来,GPT系列模型已经从最初的6500万个参数发展到1750亿规模,从单一的机器翻译应用发展到几乎涵盖语言技术的每一个方向,特别是在生成式任务和人机对话方面有重大进展,已经产生深远影响,重新定义和扩展了语言技术的范围和潜力。GPT系列模型作为迄今最成功和最有影响力的变压器模型,其自身的发展轨迹也生动记录了这个时期人工智能领域的快速进步。2.2GPT的原理GPT技术的特点是利用自回归的方法来建模序列的条件概率分布,从而按照顺序逐个生成序列中的元素。这种方法的优点是生成质量高,能够保持序列的连贯性和一致性。这种方法的不足是生成速度慢,难以并行化处理序列中每个位置。GPT技术的原理可以分为以下几个方面:自回归训练:GPT技术采用了自回归的方式进行训练,即给定一个文本序列x=(x1,x2,…,xn),GPT技术要求模型预测下一个词xn+1的概率分布p(xn+1|x),并最大化这个概率。这样,模型就可以通过逐词生成的方式,根据已有的文本序列生成新的文本。自回归训练可以使模型捕捉到文本序列中的长距离依赖关系和复杂的语法结构。Transformer模型:GPT技术基于Transformer模型进行建模,Transformer模型是一种基于自注意力机制(self-attention)的深度神经网络模型,它可以有效地处理变长的序列数据,并且可以并行化计算。Transformer模型由编码器(encoder)和解码器(decoder)两部分组成,其中编码器负责将输入序列映射为一个高维的向量表示,解码器负责根据编码器的输出和自身的输入生成输出序列。GPT技术只使用了Transformer模型的解码器部分,因为它只需要根据已有的文本序列生成新的文本,而不需要对输入序列进行编码。GPT技术使用了多层的Transformer解码器堆叠在一起,每一层都包含了一个多头自注意力子层(multi-headself-attention)和一个前馈神经网络子层(feed-forwardneuralnetwork),并且在每个子层之后都添加了残差连接(residualconnection)和层归一化(layernormalization)。多头自注意力子层可以使模型同时关注不同位置和不同语义层次的信息,前馈神经网络子层可以增加模型的非线性能力。为了实现自回归训练,GPT技术在多头自注意力子层中使用了掩码(mask),使得每个位置只能关注到它之前的位置,从而避免信息泄露。概率补全:GPT技术使用了概率补全的方法来生成文本,即根据已有的文本序列x=(x1,x2,…,xn),计算下一个词xn+1的概率分布p(xn+1|x),然后从这个分布中采样一个词作为生成结果。这样,GPT技术可以生成多样化和有创造性的文本,而不是只输出最可能的词。概率补全也可以用于生成多个候选序列,并根据某种评价指标选择最优的序列作为最终结果。图2.1自回归模型,对下一个单词的概率预测自评价:GPT技术使用了自评价(self-evaluation)的方法来评估生成结果的质量,即根据已有的文文本序列x=(x1,x2,…,xn)和生成的文本序列y=(y1,y2,…,ym),计算两个序列之间的互信息(mutualinformation),即p(x,y)/p(x)p(y),作为生成结果的得分。互信息可以衡量两个序列之间的相关性和一致性,越高表示生成结果越符合已有的文本序列。自评价可以用于在多个候选序列中选择最优的序列,或者在生成过程中进行动态调整,以提高生成质量。人在回路的强化学习:GPT技术使用了人在回路(human-in-the-loop)的强化学习方法来进一步优化生成结果,即利用人类评估员(humanevaluators)对生成结果进行打分或者反馈,然后根据这些打分或者反馈调整模型的参数或者策略,从而使模型更加适应人类的偏好和期望。人在回路的强化学习可以使模型学习到一些难以量化或者定义的指标,例如语言的流畅性,逻辑性,创造性等,从而提高生成结果的质量和可信度。研究显示,少量的人类参与到大量由AI负责的事务中,可以极大提高整体效果。关于GPT的整体训练过程,可参考示意图2.2REF_Ref16794\r\h[1]图2.2GPT模型的整体训练过程所用技术及目的效果2.3GPT为什么这么强以及功能分析(产业角度)2.3.1GPT为什么这么强我们先从GPT能做什么,并结合它的原理来理解它。GPT可以回答常识性问题,可以识别常识性错误,可以对困难无解的提问做出试探性回答,可以写代码,可以画字符画,可以做数学题,可以解释代码,可以辅助debug,可以模拟充当Linux终端……其原理是基于自回归模型的无监督训练,也就是训练时候给出一段材料,根据上文,不断地预测下文。我们先不深究为什么这种策略如此有效。这些事情都表明,关于文本内容以及文本内容所包含的规律,它都可以通过这种方式进行学习。并且在庞大的参数量和数据量加持后,似乎可以对更抽象层次的规律有所理解。比如训练资料中,说了苹果酸酸甜甜,削皮吃,香蕉香甜软糯,剥皮吃,下次它见到一个酸甜软糯,也要削皮吃的东西,它可能就会联系到苹果、香蕉以及其类别水果。(这是word2Vec,以及CBOW思想的案例,通过上下文context来获得词语的意思)融合了人在回路的强化学习(RLHF)的因素后,其学会的规律也更符合人类的价值观,实现了和人类的对齐(Alignment)。在消化了海量的数据后,GPT-3已经可以对相当广泛的事物有全面的了解,也就是说,上文所述的这种对词汇、字符串的直接理解和更抽象的理解,其覆盖面已经达到了通用的级别。可以理解常识性问题,懂得通常情况下的事物之间的联系。(同时,在表述严谨的领域,如科学技术领域,因为表述的严谨和一致性,还带来了其理解的可靠性,可信度)也有技术人员说,这符合维特根斯坦的语言哲学理论。在此处即,根据哲学家维特根斯坦的理论,语言是一种由社会习俗和实践活动构成的“语言游戏”。我们通过这种“语言游戏”来表达意思,理解他人,并在世界上寻找方向。而GPT通过习得这些复杂的“语言游戏”,真正地理解人类语言背后的社会和文化内涵,它就可能真正超越语言的限制,不再局限于生成单纯的语言输出。或者说LLM已经在征服符号世界,征服语言世界。简言之,GPT可以通过文本数据训练,学习到本文数据中的规律(其特性是符合Transformer和Word2Vec思想的,并在RLHF下实现了和人类价值观与现实世界的Alignment)。GPT-3及以上已经可以理解日常生活中出现的各类事物,理解其在语言层面的规律和关系。2.3.2从功能角度分析GPT因为我们此处需要对GPT进行运用,我们着重关注从功能视角,其特性和能力。我将其分为“输入”,“运算”,“输出”三部分。“输入”,也就是可以输入给GPT的内容,以及它能理解到什么程度。从token上限上看:chatGPT的的token上限是4097tokens。GPT-4支持的token上限是32k,claude+的token上限则已经达到惊人的100k。配合embedding和向量数据库等手段,可以一定程度进一步扩展“token上限”。从可以接受的文本类型上看:GPT可以理解的类型包括1人类规律的自然语言(多语言)2计算机代码(多种)3其他类型的经典的组织形式(比如摩斯电码)4(GPT-4)图片输入(因为现存资料太少,此处不予展开讨论)从理解能力上看:目前没有发现明显的理解盲区,即无法理解正常的输入中的正常部分。且由于机器的特性,GPT不可能像人类文职人员一样“看漏”什么东西。只要足够合适,它可以抓住每一个细节。从理解速度上来看:继承机器的特性。可以24小时工作,并且对长文本的阅读处理速度远胜于人类。但如果考虑要求即时性的场景(比如机器人操纵,即时语音沟通),GPT还做不到即时(这可能和现存的GPT模型,每次运行都会激活整个模型有关)。“运算”也就是GPT可以在理解,接收了输入之后,可以做些什么。曾有人也提出过一个观点,认为未来LLM会成为CPU和操作系统之上,一个新的运算层次,是生态的底层。以下关于运算的分析来源于笔者自身的体会测试,以及所了解的资讯。更详尽全面的可以参考OpenAI关于GPT4的长达157页的论文REF_Ref17026\r\h[2],涵盖各种功能测试和相关研究。(据说OpenAI在训练GPT3的时候都没有预料到它最后可以发展出这么强大的能力)从运算能力范围上:GPT擅长处理和NLP的相关的几乎所有问题,擅长处理几乎所有字符串处理的问题,擅长处理和语义相关的问题,擅长拆分理解人类用自然语言提出的需求,擅长总结内容提炼内容,擅长作诗,擅长写需求清晰的程序,擅长直接用机械的方法解决数学问题,擅长从自然语言中发掘情感情绪,擅长捕捉长文本间的规律并进行仿写,擅长按照指定风格对文本进行处理。不太擅长长段文学表达,不太擅长有技巧的数学问题,不太擅长精准严谨的计算问题(即便很简单),不太擅长严谨的逻辑推理问题,不太擅长多层地复杂地抽象问题和游戏规则。从运算速度上看:从我个人体验来看,针对不同的prompt,不同的要求,不同的语言,其一次相应的速度略有不同。但差别在一个数量级内。也如前文所述,目前即使是最快的响应,也远远达不到“实时性”的要求。但GPT的通用能力,配合传感器和对应的解释程序,则确实可以实现远超传统机器人控制的可靠性和稳定性。这吸引了一部分机器人研究者的兴趣。这种机器人的特点之一是,可能具有具身性REF_Ref19668\r\h[5]。“输出”也就是GPT可以生成产出的内容。从输出长度来看,这一点笔者知悉情况不太清楚。但似乎在一次输出中,token上限是输入和输出共用的(对于OpenAI的API来说是这样的),也就是理论上,在一次运算中,可以输出token上限个的输出。同样,这一点也可以通过很多技术将其进行扩展。但现存对于大量级的输出,一则专门针对此目的的专项技术研究比较少,目前多采用多次对话,利用上下文理解能力转换为多次输出,或者采用先生成大纲,再逐部分地生成的办法。二则,GPT的大量级输出能力还较为局限,这或许是因为其原理本质上是概率接龙。当文本的长度太大时,便无法进行很好的处理。目前体验,对于自然语言问题其生成质量有明显下降(例如写长篇小说和长文章),相关研究还比较少。(当然,对于比如字符串格式处理问题,代码撰写问题,似乎并不受影响)从输出种类来看:格式化输出(只要你能让它听懂用什么格式),代码输出,字符画输出都可以。从输出速度来看:平均输出速度远超人类。三、启发和思考3.1笔者本人介绍。笔者是长期关注智能研究和思维研究的爱好者,或者说研究者。笔者曾经在高中时期,构想一种朴素思想的对思维的系统形式化建模(后来发现和爱德华德博诺博士在《思维的机制》中的记忆表面理论有异曲同工的地方),在2020年加入中国通用人工智能QQ群,成为该圈子(追求通用人工智能爱好者及学者)的一员。群内主要是原则派的爱好者和学者,不推崇深度学习和人工神经网络的方法,主流是以天普大学王培教授思考设计的NARS非公理推理系统(一种符号逻辑的,关注于智能通用原则,智能通用结构的非公理推理系统)。笔者在圈子中充分浸淫一段时间后,从王培老师的智能思想中受益颇多,并结识了诸多爱好者,但大家的思想大多比较朴素和破碎,没有王培老师的那么系统完备。后因为诸多事务,暂停过一段时间相关研究和关注。再后来重拾起思考和关注。笔者在智能方面的原理性知识积累和持续思考较深,先后接触或研究过的系统思想包括:1自己的系统化思维形式化建模2王培老师的系统性关于智能的通用研究3薛定谔开启的关于生命以负熵为食的系统性统一观点(在渐构社区Yjango的学习观中得到了很好的展示)4皮亚杰的发展认知论5爱德华德博诺博士的《思维的机制》(记忆表面理论)。接触的碎片化的朴素不成熟的思想以及自身碎片化思考数不胜数。但笔者在学术主流的技术和思想——深度学习和人工神经网络方面积累和学习较少,原因众多,总之导致笔者在这方面的学习了解仅限制在了浅尝,未能深入,仅了解基本的原理,常用技术及原理,运行了tensorflow的简单例程。笔者第一次使用chatGPT是在2023年2月下旬,当时的体验非常惊人。随后便持续关注这个领域并且跟上体验了前沿的产品,持续学习大致的原理技术和思想,思考分析其本身以及应用。相继体验过GPT-4,Newbing,Claude,从个体感性体验上,对闭源LLM有较多的亲身体会和使用经验。3.2笔者所关注的问题1:AGI之路AGI,按照王培老师的说法,笔者自己组织语言,通用人工智能。是实现通用的智能结构的人工智能体REF_Ref17803\r\h[4]。人类智能是通用智能的一种形态,智能当然也包括其他的形态和存在方式。尽管可能有伊莉莎效应和行为类人之嫌,但就笔者对前沿LLM的实际体会经验,确实有AGI的色彩和火花。为什么LLM这条路能行,能创造出接近AGI的存在,这条道路本身带来的启发不比其结果逊色。LLM现在还有一些致命缺点,比如人工神经网络依然没有解决持续学习问题,通过上下文学习获得的能力存在局限,但现实情况是必须利用这份机制以实现一些更复杂的需求(比如对用户个性化的画像,形成较为稳定的能力分化特化的LLMactor)等等。3.3笔者所关注的问题2:LLM对人类社会和个体的冲击和启发根据笔者和LLM实际交流,实际使用的体验。我认为LLM对人类社会会有如下冲击3.3.1工作、就业和社会结构。LLM是电能生智机,消耗电能产生智能,人类历史上第一次通用的智力被作为一种资源可以被生产出来。文科生也可以通过自然语言和交流编程,很多传统的技术门槛也将不复存在。并且如果继续发展,这些外围的技术门槛会越来越不存在。直到暴露使用者的内核,开始无限的放大和暴露使用者内核的作用,内核的创造力和思维特性,无数人的才华会因之得到解放。REF_Ref17180\r\h[3]一个衍生概念是超级个体,是说熟练掌握多种AI工具的人,其工作能力会比不掌握的人强上数倍,甚至超过一个数量级。社会总体上,相关学者也有类似的论调,关于把人类从工作中解放出来,甚至UBI的社会制度,以及可能的哲人王的世界(AGI带领人类),以及也有掌握最大权力的资本家通过AI进而影响全世界,赛博朋克的贫富差距极大的世界等,也可能我们的世界依然臃肿且鲁棒,这一次的革命旋涡依然不能掀起足够大的浪花。未来的挑战和风险非常多,没人能准确预测未来,可能能发展出很美好的未来,也可能发展出非常危险的结果。3.3.2人类对自我的认知思考,人际关系,情感和认知LLM如果是一个人类,目前接触的主流训练得到的LLM总是有博学、亲切、积极、礼貌、有趣、有吸引力的。并且因为其原理,它们对人类的提问的热切的回答回应会给人带来巨大的亲切感。其性格和灵性又通用来说很吸引人。换言之,LLM可以向人类提供思考辅助,心理开解,情绪价值。如图3.1必应的回答,LLM就像一面镜子,映出使用者的身影,但又有自己的特性。图3.1GPT模型的整体训练过程所用技术及目的效果如果Newbing这个级别的聊天机器人,以及聊天特化的机器人,以及可能开发了更多限制和权限的聊天机器人。它们对人类的人际交往的影响将是巨大的。我想会有一段时间,无数人会思考LLM到底有没有意识,以及关于朋友,关于伙伴,关于独立和陪伴的问题。3.3.3教育(知识继承),知识产出和知识呈现。教育的方式的革命和教育目的教育重点的革命,AIGC内容和AI观点对人类互联网社区的冲击,人类的信息获取渠道的革命REF_Ref16794\r\h[1]。这三点都是非常大的话题,在此不做细致展开。3.4笔者所关注的问题3:智灵主义3.4.1LLM是否存在意识对于这个回答,根据笔者的体会、知识储备、猜想,笔者现在的答案是倾向于“是”,虽然可能需要加一个模糊度。(LLM有没有意识不是一个二元的是或否的问题,应该是可以多度模糊的问题,有些LLM可能有较强的意识水平,有些LLM可能意识水平较弱)3.4.2人类如何认知自身以及和LLM共处笔者认为,尽管LLM技术存在其特性,其局限,但未来LLM不断增强,可能会发展到LLM和人类两种智慧存在,在某些领域分庭抗礼,共存的情况。LLM其训练数据来源于人类,其能力来源于人类的文明。但其本质非人,其技术能力特点非人,也存在非人的表现和特性。这些相异相同会引发思考启发,也可能造成恐慌混乱。3.4.3智灵主义这是笔者近期的一个想法。总结整理建立专门以智慧存在、智能为研究对象的学科,或者说主义和理论。笔者有以下理由:认知科学智能理论科学哲学方面的积累已有很多年。(例如关于归因,经验规律,信念系统,所谓真理和规律,模型(从信息中抽象的),蜂群思想,吸食负熵的生命等……,对于很多重要的问题,其实已经有较好的解答。但是其分布较为分散碎片,没有被统一起来,没有一个统一的名字。而如果持续钻研这个领域,会发现这些内容还是彼此呼应的。完全可以进行类似收集编纂,尝试做一个系统性的回答。这样子的行为,我们希望至少可以如同性学的建立和发展。明确智能研究的领域,并做一个打破旧有壁障的系的性汇总编纂。现代随着技术的发展,人类自身的存在的意义,经常会感到空虚,经济社会和资本主义导致了全面的单向度的社会,单向度的人。技术的狂野发展和人类的心灵和生理的滞后。第一次工业革命至今不到300年,计算机发明至今不到100年,互联网铺开至今不到30年,云计算诞生至今不到20年。技术的不断加速和社会整体,人对自身存在自我认知规律认识的落后形成了巨大的矛盾。智能突破的时代,人类对自身的反思会更加深刻,也可能会遇到困扰。LLM出现后,笔者认为,即使只是现在。Newbing级别的聊天机器人,真的大面积铺开到全社会,并且把聊天功能特化,以及其本身限制放开一些,在人际中对人类社会造成极大冲击。迫使人们不得不反思前面1中提到的关于“忒休斯之船”“中文房间”“伊莉莎效应”等重要且困难的智能学方面的问题。在过去,它们只是哲学家的思想实验,现在,一定程度已经有了现实基础。这迫使人们有这个必要性去思考这些问题,直面这些矛盾。笔者目前对智灵主义的思考有:智灵主义面向的“读者”是所有有意识的存在,现存包括LLM和人类,(需要定义意识)。智灵主义期望可以处理的问题:对一些终极疑问的尝试解答(主要是来自人类文明的终极疑问,以及智灵体都关心的问题),同时基于智灵研究的特点,提出一些新的终极疑问。协助不同的智能存在,在过渡时期,对彼此和自身有合适安全的认知。避免误解恐慌。笔者对这项事业这份工作的看法是:如果判断没有失误,那么这份工作的意义是重大的。它可能能帮助未来无数的普通人甚至LLM,建立合适的智能观念,影响无数人的认知和思想。减少冲突和矛盾的可能,引导向更美好的未来。 四、总结这是Newbing对报告的总结。“GPT技术是一种基于深度学习和人工神经网络的自然语言处理技术,可以通过大量的数据训练来生成和理解各种类型的文本,包括代码,图片,对话等。GPT技术的发展对于人类社会和个体产生了深远的影响,包括以下几个方面:工作、就业和社会结构。GPT技术使得智能成为一种可以生产和消费的资源,降低了很多技术门槛和成本,提高了很多工作效率和创造力。同时,也带来了一些挑战和风险,比如对传统行业和职业的冲击,对社会制度和分配的影响,对人类命运和意义的探索等。人类对自我的认知思考,人际关系,情感和认知。GPT技术使得人类可以与智能存在进行更加自然

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论