《人工智能导论》教案全套_第1页
《人工智能导论》教案全套_第2页
《人工智能导论》教案全套_第3页
《人工智能导论》教案全套_第4页
《人工智能导论》教案全套_第5页
已阅读5页,还剩192页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《人工智能导论》教案学院(部):计算机与电子信息学院适用学期:2025-2026(2)课程名称人工智能导论课程代码1070700学时分配总学时:32学分1课内讲授:16课程类别通识核心课课外上机:16授课专业授课班级任课教师职称所选教材姚怡,郑嘉利.《人工智能通识》,北京:电子工业出版社,2026年本课程教学目的与要求本课程注重培养学生的AI+综合素养和实践能力,偏向于科普知识,旨在让学生从理论到应用全方位了解人工智能的奥秘。通过本课程的学习,使学生掌握人工智能的基本知识,具备初步的AI应用与问题分析能力,增强跨学科融合意识与伦理责任感。具体课程目标如下:(一)知识目标课程目标1:了解人工智能的发展历程、基本概念以及典型应用;理解生成式人工智能、多模态内容生成、AI应用等通用知识;了解机器学习、深度学习、自然语言处理、计算机视觉等基础算法原理。(二)能力目标课程目标2:熟练掌握常用AI工具的使用;深入理解提示词的设计原理和优化策略,提升大模型在解决具体问题时的响应速度和准确性。课程目标3:熟练运用智能编程工具,提升编程效率与代码质量。通过智能审题、代码分析等步骤,独立解决编程问题,掌控从问题定义到代码实现全流程,具备初步智能体开发与创新能力。能运用Python进行基础数据分析与可视化,通过实践掌握数据预处理技术,具备初步的算法验证能力,以及跨学科案例分析与应用能力。(三)思政与素质目标课程目标4:通过实验、课程设计或竞赛等形式完成一项AI实践项目;洞察人工智能技术的最新进展和未来发展方向,以及它们对社会、经济和伦理的深远影响。本课程教学重点与难点重点:各种AI工具的使用难点:提示词优化、多维表格、AI理论数字化资源和参考书目1、学堂在线《人工智能导论》慕课,陈燕、姚怡、覃希,网址/course/2、郑嘉利.《人工智能导论》.北京:清华大学出版社,2026年.3、林子雨.《人工智能通识教程》.北京:高等教育出版社,2025.第1/2次课人工智能演进之路本次授课内容第1章计算机概论1.1第一次浪潮:符号主义兴起1.2第二次浪潮:连接主义与知识工程时代1.3第三次浪潮:深度学习与大模型纪元1.4中国人工智能发展历程本次课的教学目的了解人工智能三次技术浪潮的核心特征、关键技术与发展脉络了解中国人工智能发展历程与标志性成果本次课教学重点与难点重点:三次技术浪潮的核心思想、代表技术及演进逻辑难点:不同发展阶段技术特征的区分与关联结合专业领域理解AI技术的应用价值教学方法教学手段课外线上学习、阅读资料。课堂教学时间分配教学内容时间分配(分)1.1第一次浪潮:符号主义兴起201.2第二次浪潮:连接主义与知识工程时代251.3第三次浪潮:深度学习与大模型纪元301.4中国人工智能发展历程15课堂教学设计课前准备-自主学习-案例感悟实验无思考题及作业题1、基础作业:章后习题2、可以设计一个案例,要求如下:1)案例主题:根据学生所在的学科领域,调研并简述一个人工智能技术在本学科发展史上起到关键作用的里程碑事件(例如:在土木工程中的结构优化算法、在农学中的首个专家系统、在材料科学中的分子模拟等),并分析它为何是“符号主义”、“连接主义”或“第三次浪潮”的典型代表。2)设计意图:将AI通史与学生的专业背景强关联,使学生从第一节课就意识到AI并非遥远的技术,而是其专业发展的内在组成部分。课程思政元素课程思政融入教学的总体策略:结合中国人工智能产业自主创新实践,通过典型人物案例传递科技自立自强精神,在知识传授中塑造学生的家国情怀与责任担当,培育社会主义核心价值观。让学生深刻体会核心技术自主可控的重要性,激发投身科技报国的使命感。思政案例:陈天石与寒武纪的芯片创新之路——从休学博士到打破国际垄断的科技担当实践。核心精神:创新担当:放弃海外博士学位,回国攻克AI芯片“卡脖子”技术。艰苦奋斗:从地下室创业起步,团队坚守研发、攻坚克难。家国情怀:自主研发MLU指令集与5纳米智能处理器,打破国际垄断,构建自主生态。教学后记课堂重点内容详解第一节课1.1第一次浪潮:符号主义兴起核心知识点(掌握)符号主义的核心逻辑:用符号表示信息,通过逻辑规则实现推理。2个标志性事件:1950年图灵提出“图灵测试”(核心目的:验证机器是否具备人类智能);1956年达特茅斯会议(核心成果:首次提出“人工智能”术语,确立学科地位)。1个关键局限:仅适用于封闭、简单场景,无法应对现实世界的复杂性与不确定性。次要知识点(了解)典型成果:感知机模型、专家系统DENDRAL、ELIZA聊天机器人的功能特点。低潮期原因:知识表示难度大、推理效率低,受当时计算机性能限制。1.1.1人工智能的起源在20世纪50年代,计算机科学尚处于萌芽阶段,研究者们开始探索机器是否能够实现人类的思维过程。1950年,艾伦·麦席森·图灵在论文《计算机器与智能》中,预测了制造具有真正智能的机器的可能性,并提出了著名的“图灵测试”,该测试采用“提问与回答”的方式,如下图所示。观察者通过打字机与两个测试对象进行交流,其中一个对象是人类,另一个则是机器,观察者需不断提出各种问题,以此来判断回答者是人类还是机器。如果在多次测试中,超过30%的观察者无法准确判断被测试者是人还是机器,那么这台机器就被认为通过了测试,即被认为具备了人类智能。图灵没有明确提出人工智能的概念或定义,但给出了人工智能的两个目标:技术和心理。该论文直接引发了人类从机器的角度考虑思维或智能的问题。1.1.2人工智能学科的诞生1956年,在达特茅斯会议上,以麦卡锡、明斯基、香农和罗切斯特等为代表的年轻科学家群体,共同探讨了利用机器模拟智能的相关问题,并首次提出了“人工智能”这一术语,标志着人工智能这一新兴学科的正式确立。自这次会议之后的10多年间,人工智能的研究在机器学习、定理证明、模式识别、问题求解、专家系统及人工智能语言等方面都取得了许多引人注目的成就。1957年,美国认知心理学家罗森布拉特提出了“感知机”模型,即单层神经网络模型,开启了神经网络研究的第一次热潮。然而,由于感知机只能表示由一条直线分割的空间,无法处理复杂非线性关系的数据分布,神经网络研究在20世纪60年代遭遇了停滞。1958年,的美国数学家约翰·麦卡锡提出了LISP语言,成为建造专家系统的重要工具。1961年,美国Unimation公司推出了世界上第一台工业机器人Unimate,如下图所示,并在通用汽车公司新泽西州的一条组装线上安装运行。主要功能是把高温铸件从压铸机上取下,再焊接到汽车车身上。1965年,爱德华·费根鲍姆开发了一个用于化学领域复杂问题解决的专家系统DENDRAL它能够根据质谱数据帮助化学家推断未知有机化合物的分子结构,这一系统标志着AI技术在专业领域达到人类专家水平。1966年,约瑟夫·维森鲍姆开发了ELIZA,如下图所示,作为早期的聊天机器人之一。尽管其对话能力有限,但ELIZA展示了机器通过简单的模式匹配和预设规则与人类进行交流的可能性。其初衷是辅助心理咨询医生解决患者的心理问题。1969年召开了第一届国际人工智能联合会议(InternationalJointConferencesOnArtificialIntelligence,IJCAI),这是人工智能发展史上一个重要的里程碑,它标志着人工智能这门新兴学科已经得到了世界的肯定和认可。1970年,特里·威诺格拉德开发了SHRDLU,这是一个能够理解自然语言并操作虚拟积木的系统,展示了机器在特定领域内进行复杂推理和操作的能力。1.1.3第一次浪潮的挑战与局限1、第一次浪潮特点信息通过符号(如数字、字母)表示,并通过逻辑规则进行推理。2、挑战和局限1)首先是知识表示的难题,如何将复杂信息转化为符号表示是一个挑战;2)其次是推理效率问题,受限于当时的计算机性能,处理复杂的逻辑推理耗时较长;3)最后是应用场景的局限性,这些系统大多仅限于特定的、封闭的环境,无法应对现实世界的复杂性。因此,在随后的20世纪70年代,人工智能领域经历了第一个低潮期。1.2第二次浪潮:连接主义与知识工程时代核心知识点(掌握)连接主义的核心逻辑:模拟神经元连接机制,让机器通过数据自主学习规律。1个关键技术:1986年反向传播算法(BP算法),推动神经网络研究复兴。1个典型应用:知识工程(如医疗专家系统MYCIN)的核心思路的是将人类专家知识编码到计算机中。1个关键局限:知识获取耗时且易出错,难以处理模糊性与异常情况。次要知识点(了解)标志性事件:深蓝计算机战胜国际象棋大师卡斯帕洛夫的技术基础(专家系统+强大计算能力)。第二次低潮期原因:传统算法与计算资源难以匹配日益复杂的应用需求。1.2.1机器学习的兴起自20世纪80年代起,科学家们开始探索一种新的方法——机器学习,它允许计算机通过数据自动学习和改进。这一转变的核心在于减少对人类编程的依赖,转而让机器自主“发现”规律。20世纪80年代初,亚瑟·塞缪尔开发了首个机器学习程序,用于下棋,并提出了“机器学习”的概念。1986年,杰弗里·辛顿等人发表关于反向传播算法(BP)的重要论文,推动神经网络研究复兴。BP是训练多层神经网络的监督学习算法,通过梯度下降法优化网络权重以最小化损失函数,核心是用链式法则反向传播误差并逐层更新参数。这引起了人工神经网络领域研究的第二次热潮。1.2.2知识工程的实践探索1、什么是知识工程?知识工程是将人类专家的知识编码到计算机系统中,以解决特定领域的问题。简而言之,就是让机器拥有“专家知识”。2、实践探索医疗专家系统MYCIN模拟专家决策过程,提供抗生素治疗建议。1997年IBM研制的深蓝(DeepBlue)计算机战胜了国际象棋大师卡斯帕洛夫,深蓝基于专家系统技术,按照人类给它输入的规则进行运算和推演,靠强大的计算能力通过穷举算法击败对手。3、缺点首先是知识获取难度,专家系统的能力来自于他们存储的专业知识,构建大型知识库需要大量的人工工作,耗时且容易出错。其次是传统的机器学习和知识工程方法难以处理现实世界中的不确定性、模糊性和异常情况。且随着数据量的增加,传统的算法和计算资源开始显得不足。课堂重点内容详解第二节课1.3第三次浪潮:深度学习与大模型纪元核心知识点(掌握)浪潮驱动因素:计算能力(GPU)提升+大数据积累+深度学习技术突破。3个里程碑事件:2012年深度卷积神经网络在ImageNet比赛中大幅提升识别准确率;2016年AlphaGo(技术组合:强化学习+深度卷积神经网络)击败围棋世界冠军;2020年后GPT-3、ChatGPT等生成式AI崛起。1个关键特征:大模型具备通用性、大参数、强迁移性,推动AI从特定领域应用走向泛化应用。1个重要成果:2025年DeepSeek-R1模型(核心优势:提升推理效率、降低部署成本)。次要知识点(了解)产业影响:跨国科技巨头主导商业化进程,AI技术渗透医疗、金融、制造等多领域。1.3.1深度学习的突破起始:2006年,被誉为“AI教父”的杰弗里·辛顿(GeoffreyHinton)及其研究团队在《Science》杂志上发表论文,提出了一种有效训练深度神经网络的方法,涵盖深度卷积神经网络、深度信念网络和深度自动编码器。推动:2012年,辛顿教授与其两位博士生在参加年度机器视觉识别比赛(ImageNet比赛)时,将深度卷积神经网络与大数据、GPU结合,让机器识别未参与训练的10万张测试图片,准确率相较于传统计算机视觉方法提高了10.9%。1.3.2产业介入与生成式AI崛起第三次人工智能新高潮,最具代表性的成果体现在深度卷积神经网络和深度强化学习两个方面。自2013年起,跨国科技巨头开始大规模介入,产业界逐渐成为全球人工智能研究的重心,主导并加速了人工智能技术的商业化进程。2016年,谷歌公司开发的AlphaGo将强化学习与深度卷积神经网络有效结合,以4比1的总比分击败了围棋世界冠军李世石。2018年,谷歌的BERT模型在自然语言处理任务中取得重大突破,显著提升了机器对人类语言的理解能力。2020年,OpenAI发布了GPT-3,这是一个拥有1750亿参数的语言模型,能够生成高质量的文本,展示了深度学习在自然语言生成方面的巨大潜力。GPT-3的发布标志着生成式AI技术的崛起,为自然语言处理领域带来了革命性的进步。2022年11月,美国OpenAI公司研发的ChatGPT人工智能聊天机器人产品问世,以其强大的信息整合和对话能力震惊全球。ChatGPT的出现进一步推动了生成式AI技术的发展,使其在多个领域实现了广泛应用。人工智能的三大支柱由数据、算法和算力构成,而训练成本始终是限制模型发展与应用的关键因素之一。2025年1月,中国的深度求索公司推出了“能力强,成本低”的DeepSeek-R1模型,该模型通过优化算法架构显著提高了算力的使用效率,它的问世标志着算力需求的一个转折点。近年来,生成式AI技术,例如文本生成、图像生成、音频生成等,已经成为推动人工智能发展的核心动力。它引领了新一轮的人工智能浪潮,促进了自然语言处理技术的提升,并在众多领域得到了广泛应用。这些技术已经深入各行各业,包括医疗健康、金融、制造业、教育、交通、农业等。1.4中国人工智能发展历程核心知识点(掌握)2个发展阶段:初步探索(20世纪80年代-21世纪初),依托“863计划”奠定基础;快速发展(21世纪以来),技术突破与行业应用并行。3个关键支撑:政策支持(《新一代人工智能发展规划》《“十四五”规划纲要》)、企业研发(百度、华为、寒武纪等)、科研成果(“九章”量子计算原型机、AutoGL工具包、盘古大模型等)。1个应用亮点:智慧冬奥中AI技术的融合应用(安全、数字、智能等维度)。次要知识点(了解)早期探索成果:中国科学院计算机科学技术研究所成立、智能机器人研发等。第2次课探索生成式大模型本次授课内容第2章探索生成式大模型2.1初识生成式大模型2.2提示词沟通艺术本次课的教学目的掌握生成式大模型的核心概念、运作机制及局限性;掌握提示词设计的核心技巧与进阶方法;本次课教学重点与难点重点:大模型运作原理、提示词工程核心技巧。难点:提示词的精准优化。教学方法教学手段课堂案例式教学、上机实践。课堂教学时间分配教学内容时间分配(分)2.1初识生成式大模型(概念+运行机制)252.2提示词沟通艺术(技巧+案例)2.2.1如何与大模型对话202.2提示词沟通艺术(技巧+案例)2.2.2提示词工程的演变历程2.2.3提示词高手进阶45课堂教学设计案例导入(大模型多模态创作展示)→核心内容讲解(分节递进)→上机实践(提示词优化)→课程思政渗透→总结与课后任务布置实验提示词优化练习(基于学科任务设计初始提示,逐步优化至理想结果)。思考题及作业题1、基础作业:章后习题2、思考题某同学想使用大模型完成两个简单任务:①生成一篇介绍校园春季景色的短文;②查询2025年最新的全国大学生电子设计竞赛报名时间。结合2.1小节所学内容,回答以下问题:完成第一个任务(写校园春季景色短文),优先选择大模型的“深度思考”“深度研究”“联网搜索”中的哪项功能?请简单说明理由;完成第二个任务(查竞赛最新报名时间),为什么不能只依赖大模型的固有知识库?需要开启哪项功能来辅助?该同学使用大模型生成短文后,发现文中描述了“校园里开满了夏季才会绽放的荷花”,这属于大模型的什么局限性?这种局限性产生的核心原因是什么?若想让生成的校园短文更贴合自己学校的特色(如学校有樱花大道、人工湖等),从大模型运作的“推理阶段”来看,该同学在输入提示时需要注意什么?实践作业结合自身专业领域(如计算机、医学、教育、金融等),选择一个具体复杂任务(如设计一套软件功能测试方案、撰写一份疾病诊疗路径建议、规划一门课程的教学大纲、制定一份小型企业融资方案等),运用2.2小节所学的提示词工程技巧(如框架表达、分步骤提示、思维链/思维树、明确输出要求等至少3种),设计从“初始提示”到“最终提示”的完整优化过程,并使用生成式大模型辅助完成该任务。课程思政元素思政案例:以“谢军与北斗系统”案例为核心载体,将“自主创新、开放融合、万众一心、追求卓越”的新时代北斗精神,深度融入2.1“初识生成式大模型”和2.2“提示词工程核心技巧”教学环节。通过“技术对照+精神传承”双主线,让学生在掌握大模型基础与提示词技能的同时,感悟科技报国的使命担当、攻坚克难的奋斗精神与严谨务实的科学态度,实现“知识传授”与“价值塑造”的有机统一。思政元素融入点:1)初识生成式大模型(概念+运行机制)的核心思政渗透点科技自立自强:北斗从“有机无芯”到核心元器件100%国产化的突破,映射生成式AI领域自主创新的重要性。使命担当与奋斗精神:谢军团队除夕加班攻关、攻克星载原子钟等关键技术的故事,传递“为国攻坚”的责任意识。科学精神:北斗系统“三步走”战略的系统性、星间链路技术的原创性,引导学生理解技术研发的严谨性与创新性。2)提示词工程核心技巧(框架+优化方法)的核心思政渗透精益求精的工匠精神:北斗系统“追求卓越”的精神,映射提示词设计的精准性、迭代优化的严谨性。目标导向与系统思维:北斗“一星通,星星通”的整体设计思路,引导学生掌握提示词的结构化、逻辑性设计方法。教学后记课堂重点内容详解第一节课2.1初识生成式大模型2.1.1什么是生成式大模型生成式大模型是基于深度学习、大参数量的AI模型,能根据上下文生成文本、图像、音频等新内容(即AIGC)。其核心特点是支持多场景使用(网页端、App端等),可生成多样化结果,参数量已从百万级迭代至万亿级,覆盖单模态到多模态数据处理。体验大模型主流的生成式大模型产品,通常提供网页端、App端及专业平台等多种使用场景,以适应不同用户需求。以文心一言网页端为例,进入官网后,在输入框中告诉大模型“写一篇关于未来城市的科幻短文”,它就能迅速组织语言,创作出一篇生动的科幻作品,描述未来城市中飞行的汽车、智能的建筑以及人们便捷的生活,如图2.1所示。对于同一个主题,它们还能生成多种不同的结果,满足用户多样化的需求和场景。这背后的原理,是模型在训练过程中,学习到了单词与单词之间、句子与句子之间的关联和语义关系,从而能根据输入的提示,生成符合逻辑和语言习惯的文本。图2.1文心一言大模型深度思考、深度研究和联网搜索在大模型输入框处常会看到“深度思考”和“联网搜索”两个功能开关,如图2.2所示。图2.2DeepSeek大模型输入框一些大模型还另外提供“深度研究”功能(DeepResearch),如图2.3所示。图2.3秘塔AI的深度研究功能(1)深度思考(DeepThinking)开启后,模型会投入更多“思考时间”,对问题进行分析、推理和优化,尝试提供更深入、更严谨、更有逻辑的答案。它不依赖联网,仅靠模型本身能力进行深度推理。适用场景包括复杂推理题(如数学、逻辑题)、需要多角度分析的问题(如议论文、方案设计)、技术类/学术类问题(如代码优化、论文思路)、需要结构化回答的内容(如报告、总结)。(2)深度研究(DeepResearch)深度研究模式下,用户可实时查看AI的思考路径、信源引用及阶段性结论,打破传统AI的“黑箱”模式,可以利用强大的模型和搜索引擎功能,在互联网上搜索、解读和分析海量的文本、图像和PDF文件等多种数据格式。2025年7月,秘塔AI搜索宣布其“深度研究(DeepResearch)”模块正式上线公测,成为国内首个面向公众免费开放、具备多轮推理链可视化的深度研究级搜索服务。在秘塔首页,用户只需切换到“深度研究”模式,直接输入复杂问题,即可获得一份由“问题链”层层展开、自动检索、交叉验证,并以表格或段落形式呈现的全景报告,如图2.4所示。从图中可看到,这个“深度研究”功能采用了可视化界面来展示AI在搜索、思考和决策过程中的详细步骤,其能将复杂问题分解为多个子任务,逐步分析并整合成结构清晰的研究报告。图2.4秘塔AI的深度研究模式(3)联网搜索(InternetSearch)一些大模型的固有知识库具有时效性,比如DeepSeek目前更新截止时间就固定在2024年7月,开启“联网搜索”后,模型会实时联网查找最新信息,用于补充或验证回答内容,尤其适合需要“最新数据、新闻、事件或实时资料”的问题。适用场景:查新闻/热点事件(如“最近AI有什么新突破?”)、查实时数据(如“黄金最新价格是多少?”)、查官方更新(如“Python3.13有哪些新特性?”)。(4)三者的功能区别三种功能模式的主要区别如表2.1所示。其中,深度思考(DeepThinking)聚焦认知层面的推理与创造,有点像一个具备较强逻辑思维能力的“解题高手”,在面对数学、代码等任务时,能够通过严谨的推理流程给出答案。而深度研究(DeepResearch)本质上是一个专注于深度研究和分析的AI智能体。它更像是一个专业的“研究助理团队”。“联网搜索”侧重数据层面的实时获取。用户可根据问题类型或场景需求灵活切换功能模式,以充分发挥模型效能。2.1.2大模型是如何运作的生成式大模型的工作机制可划分为两个主要阶段:训练阶段与推理阶段,如图2-5所示。这两个阶段类似于人类的学习与应用过程,前者对应于“知识习得”,后者对应于“知识应用”。表2.1三种功能模式的区别功能深度思考深度研究联网搜索是否联网不联网需联网需联网知识时效截至知识库更新日实时最新实时最新

响应速度稍慢慢稍慢,与搜索情况有关典型场景写论文、解数学题、优化代码市场趋势分析、行业报告撰写、学术研究查新闻、股价、政策、科技动态图2.5生成式大模型的工作机制训练阶段:从“数据海洋”到“知识沉淀”训练阶段通过数据收集预处理、分词、预训练(自监督学习通用知识)、微调(适配具体任务)构建知识体系。该阶段是大模型“从无到有”构建知识体系的核心过程,目标是通过海量数据与复杂计算,让模型学习语言、图像或多模态数据的底层规律。具体可分为以下关键步骤:(1)数据收集与预处理大模型训练的第一步是获取高质量、大规模的原始数据,例如互联网文本、书籍、代码、图像等。数据需经过严格清洗(去除重复、噪声、偏见内容)和标准化处理(如文本统一为UTF-8编码,图像统一为特定分辨率),确保输入数据的质量与一致性。(2)分词预处理后的数据需通过分词器(Tokenizer)转换为模型可理解的“数字符号”(Token)。例如,文本“妈妈煮了番茄蛋汤”可能被拆分为“妈妈”“煮了”“番茄”“蛋汤”四个Token,并映射为唯一的整数ID(如[5,23,47,112])。这一步是模型理解输入的基础。(3)预训练预训练是大模型的“基础学习”阶段,通过自监督学习从海量无标注数据中提取规律。以文本模型为例,其核心任务是“预测下一个Token”(如输入“今天天气很”,模型需预测“好”或“热”)。通过反复调整模型参数(权重),模型逐渐掌握语言的统计规律、语义关联与逻辑关系,形成“基座模型”。(4)微调预训练后的模型虽具备通用能力,但需进一步“专业化”以适应具体任务(如问答、翻译、代码生成)。微调阶段使用少量标注数据(如对话对、翻译语料)对模型参数进行针对性调整,优化其在目标任务上的表现。例如,将通用语言模型微调为医疗问答模型时,需输入“症状-诊断”对数据,让模型学习医学术语与诊断逻辑。推理阶段:从“知识沉淀”到“智能输出”推理阶段是大模型的“实际应用”阶段,目标是利用训练好的参数,对用户输入生成合理输出(如回答问题、生成文本)。具体步骤如下:(1)输入处理用户输入(如文本、图像)首先通过分词器转换为Token序列(与训练阶段一致),确保模型能“理解”输入内容。例如,用户输入“周末想去吃”会被拆分为["周末","想","去","吃"]并映射为对应ID。(2)模型计算:前向传播输入Token序列通过模型的Transformer架构(核心为自注意力机制)逐层计算。每一层中,模型基于训练好的参数(权重)对Token序列进行特征提取,捕捉词与词之间的依赖关系(如“番茄”与“蛋汤”的关联)。最终,输出层生成一个概率分布,表示下一个Token的预测概率。(3)输出生成:逐步构建结果模型根据概率分布选择最合理的Token(如概率最高的Token),并将其添加到输出序列中。这一过程循环进行,直到生成完整的输出(如一段回答或一篇文章)。例如,生成“妈妈煮的番茄蛋汤”时,模型会依次预测“的”“番茄”“蛋汤”等Token,最终组合成完整句子。2.1.3主流大模型介绍各类生成式大型模型各具特色,研究者和开发者可根据实际需求,例如任务种类、是否需求语音交互功能、是否需要知识图谱支持等因素,挑选出最适宜的大型模型以促进学习、研究与创作活动。表2.2是基于2025年最新评测数据(截至2025年7月)的全球大模型综合排名Top20榜单,涵盖技术性能、应用能力及生态支持等维度。表2.22025年全球AI大模型综合排名(Top20)排名模型名称开发机构关键能力/亮点主要应用领域1GPT-4.5OpenAI(美国)总分80.4(理科87.3/文科77.1),支持32K上下文,复杂逻辑推理领先科研分析、跨领域决策2Claude3.7

SonnetAnthropic(美国)HumanEval编程得分91.2,10万Token长文档解析,安全合规性突出法律合同、金融风控3Gemini2.0UltraGoogleDeepMind(美国)原生多模态架构,百万级上下文窗口,工业设计优化跨模态分析、实时翻译4DeepSeekR1深度求索(中国)国产综合最优,推理速度提升3倍,中文长文本处理专家政务文档、金融研报5Qwen2.5-Max阿里云(中国)ChatbotArena全球第7,数学与编程单项第一跨境电商、多语言客服6文心一言4.0百度(中国)MMLU中文评测第1,情感识别92%营销内容、政务问答7LLaMA3Meta(美国)700亿参数全开源,HuggingFace插件超2000个学术研究、轻量化部署8Doubao-1.5-pro字节跳动(中国)语音识别与实时交互领先,稀疏MoE架构低成本移动端助理、工业质检9KimiGPT2.0月之暗面(中国)支持7.5万字长文本,法律条文分析突出法律、科研文献分析10SenseChat5.5商汤科技(中国)中文NLG领先(文科81.8分)自然语言生成、创意文案11PaLM-3Google(美国)专攻常识推理与数学编码,响应速度领先教育解题、金融量化12Falcon-200B阿联酋TII1800亿参数开源,数学推理对标GPT-4中东多语言服务13CohereCommand-RCohere(加拿大)企业级生成式AI,定制化数据隐私保护客户服务自动化14Gopher-2DeepMind(英国)强化学习优化,蛋白质结构预测突破生物医药研发15Nemotron-4NVIDIA(美国)GPU计算效率优化,支持分布式训练超算中心、自动驾驶16GLM-4-Plus智谱AI(中国)视频通话交互优化,知识问答均衡人机交互、创意写作17MPT-50BMosaicML(美国)开源低成本,训练效率行业标杆初创企业MVP开发18Gemini2.0FlashGoogle(美国)轻量级推理,响应速度提升40%实时搜索摘要19Claude3.5HaikuAnthropic(美国)端侧部署优化,适合移动设备移动端安全对话20360zhinao2-o1360集团(中国)中文场景多学科均衡性突出安防、企业知识管理1、GPT系列‌OpenAI的GPT系列是推动大语言模型发展的核心引擎,从GPT-2(2019)的零样本学习突破、GPT-3(2020)的1750亿参数少样本泛化,演进至2025年发布的GPT-5旗舰版:其革命性o3推理架构实现System2深度思考—通过动态分配计算资源,支持日常问答到复杂数学证明(IMO金牌水平);链式思考技术内部生成百万级推理Tokens,完成问题分解与回溯验证;多模态代理能力可自主调用工具执行研究、预订等链式任务。GPT-5在ARC-AGI测试达87.5%准确率,Codeforces编程评分超99%人类(Elo2727),适用于生物医学分析、金融量化等高复杂度领域,领跑行业,在生成式人工智能领域树立了标杆。2、Claude系列‌Anthropic的Claude系列以安全、强推理和卓越编码能力为核心,致力于构建“有益、诚实、无害”的AI系统。自2023年3月初代发布后快速迭代:Claude2(2023.7)强化逻辑与长文本处理,Claude3系列(2024.3)新增多模态图文理解能力,而2025年5月推出的Claude4旗舰版(Opus4)实现重大突破——其混合推理架构支持7小时持续任务处理(如代码库重构),在SWE-bench编程测试中准确率超72%,被GitHubCopilot选为底层引擎;同时依托ConstitutionalAI安全框架,误拒率降至0.07%,通过ASL-3分级防御高风险滥用。该系列通过AmazonBedrock等平台服务企业,配套ClaudeCodeSDK提升开发效率,成为兼具安全性与类人协作能力的AI先锋。3、Gemini系列Gemini系列是由谷歌推出的大语言模型家族,其最新旗舰Gemini2.5DeepThink(2025年8月发布)通过多代理并行推理架构实现突破:模型同时探索多条解题路径(如数学证明、代码优化),动态整合最优结果,显著提升复杂问题求解能力。该系列提供双版本—公开版和学术版,支持超长上下文(100万Token)与工具调用(搜索/代码执行)。在权威测试中领先竞品(如OpenAIo3、Grok4)。Gemini系列基于稀疏专家混合模型(MoE)架构,兼顾效率与多模态能力(文本/图像/音频/视频输入),并通过强化学习优化推理链生成。然而,其高算力需求限制访问权限,目前仅限GoogleAIUltra订阅用户(月费250美元)使用,凸显研究导向定位。该系列目标场景覆盖科学发现、算法开发与创意设计,成为谷歌推动AI深度推理的核心引擎。4、DeepSeek系列‌由中国团队深度求索(DeepSeek)研发,以开源、高效、强推理为核心特色。其V3模型(2024.12)采用混合专家架构(MoE),总参数量6710亿但每次推理仅激活370亿参数,显著降低计算成本;创新技术如多头潜在注意力(MLA)和多令牌预测(MTP)提升推理效率,训练成本仅为GPT-4的1/20(557.6万美元)。后续推出的R1模型(2025)专注复杂推理,通过纯强化学习在数学和编程任务中超越GPT-4,且支持模型蒸馏适配轻量化部署。全系列开源并兼容多硬件,API成本仅为竞品1/10,推动金融、医疗、教育等场景普惠应用。5、通义千问‌通义千问(Qwen)由阿里云开发,代表版本包括Qwen2.5-Max(2025年1月发布)、QwQ-32B(2025年3月发布),其核心优势在于电商与供应链场景适配性强,多源数据整合能力助力企业数字化转型。通义千问具有“全尺寸全模态”开源能力,包括18亿、70亿、140亿、720亿参数的多款模型,覆盖文本、代码、图像生成等多模态任务。例如,通义千问-Turbo能快速生成高质量代码,而通义千问-720B则在大规模文本生成中表现出色。此外,通义千问还支持语音交互和图像生成,为教育、医疗等场景提供定制化解决方案。6、文心一言‌百度推出的生成式大模型代表版本包括文心大模型4.5、文心X1混元T1(于2025年3月发布)。文心一言的语料库覆盖了海量的中文数据,使其在中文生成任务中表现出色,多模态生成能力领先,尤其在法律、金融等专业领域有广泛的应用。此外,模型还能解析电影隐藏彩蛋、生成风格化文案并附带表情包。通过知识增强、检索增强和对话增强技术,实现了对复杂问题的解答能力。7、更多大模型介绍生成式大模型在全球范围内取得了显著的发展和进步。其参数量不断攀升,从最初的百万参数增长至现在的万亿级别,模型也从单一的文本处理扩展到能够处理图像、视频和音频等多种类型的数据。除了前述的五个常用大模型,国内外还有许多其他杰出的大模型,例如马斯克的Grok、Meta的LLaMA、字节跳动的豆包、月之暗面的Kimi、清华的智谱清言、秘塔科技的秘塔AI、科大讯飞的星火、昆仑万维的天工等,它们同样表现卓越。2.1.4AIGC的局限性1.可信度不高,容易出现幻觉首先,这生成式大模型的底层原理是基于概率的TokenbyToken的形成,因此会不可避免的产生“一本正经地胡说八道”的现象。例如要求提供支持某观点的文献,模型可能生成不存在的论文标题、作者和摘要;询问“秦始皇统一六国后采取了哪些主要治国措施?”,模型可能编造几条看似合理实则杜撰的政策。出现幻觉的根源在于,模型学习的是文本间的统计关联,而非建立真实世界的精确知识图谱。它追求的是“像真的一样”的文本模式,而非绝对真实。2.新鲜度和深度不够模型训练数据存在截止日期(如目前DeepSeek-R1知识截止至2024年7月)。因此,对于那些需要实时响应的任务,大模型往往显得力不从心。例如“请帮我推荐今晚值得一看的电影”,这类问题需要实时获取最新电影信息,而这正是大模型所无法独立完成的。目前,业界普遍采用的解决策略是引入RAG方案,该方案融合了检索技术和生成模型的优势,通过利用现有信息来辅助生成新内容。在某些高度专业化领域,如前沿量子物理、特定法律判例解读、罕见病诊疗,大模型知识广而不精,难以提供真正专家级见解。例如,询问“根据2024年最新发布的某癌症治疗指南,对于某特定基因突变患者的一线推荐方案是什么?”模型可能给出过时或不够精确的答案。缺乏判断力和常识性推理能力有些模型擅长模式匹配和局部连贯,但缺乏人类系统化、符号化的抽象推理和数学计算能力。例如,在分析“某政策实施后经济指标上升,是否证明政策有效?”时,常忽略混杂变量(如同时期全球经济复苏),得出简单因果结论。再如,当你提出这样的问题:“明天的前一天是哪一天?”或者“一个人从汽车站出发,先朝东北方向走1公里,接着向东南方向走1公里,最后向西南方向走1公里,请问这个人现在位于何处?”这类问题即便是小学生也能轻松解答,然而一些性能较差的大模型却会得出错误的答案。因为大模型每一步的预测都可能产生误差,而这些误差一旦累积,最终的答案可能就会大相径庭。模型有时还会犯下一些事实性的错误。例如,当询问模型:“请问单词‘perseverance’中包含多少个字母‘e’?”模型可能会回答:“单词‘perseverance’中包含3个字母‘e’。”显然,这是一个错误。这可能是由于算法实现上的微小缺陷或边界条件处理不当,导致统计结果出现偏差。伦理考量与公平性挑战大模型的诞生依赖于海量的训练数据,而这些数据绝大多数是公开可查的,但有时也会涉及数据安全和版权问题。例如,OpenAI就曾因擅自使用多家公司或机构的数据进行大模型训练,而被投诉侵犯数据版权。由于监管不足,生成AI可能面临多种滥用风险,如抄袭、有害内容传播、深度伪造和身份盗窃等,这些都是当前亟需解决的道德问题。鉴于相关法律法规尚不完善,此类情况的界定也较为模糊。大模型面临的另一挑战是偏见和公平性问题。当训练数据集包含偏见时,模型往往会继承并加剧这些偏见。例如,在招聘场景中,若训练数据集存在性别偏见,大型模型提供的招聘建议可能对某一性别不公,这成为亟待解决的小困扰。2.2提示词沟通艺术2.2.1如何与大模型对话提示词工程(PromptEngineering)是一种通过精心设计的提示词引导模型创造所需内容的技术。提示工程的核心挑战在于如何精准构建这些提示词,使模型能够准确捕捉到用户的意图与需求,从而输出高质量的结果。下面通过几个简单的实例领略提示词工程的非凡魅力。大模型写诗访问文心一言官方网站,输入提示词“请创作一首赞美长城的七言诗”,大型语言模型将迅速创作出一首诗,如图2.6所示。图2.6大模型写诗大模型文生图若需为前述七言诗创作相应的插图,可选择图2.7左侧的“智慧绘图”功能,输入提示语“长城上有一位古代戍边将士,手持长矛,眺望远方”,随后单击“生成”按钮。文心一言将基于该描述生成四幅图像供用户挑选,如图2.7所示。此外,系统提供下载、局部重绘、框选等辅助功能,支持用户与系统进行持续对话,以便对选定图像进行进一步的编辑。图2.7大模型文生图大模型调试程序大模型可帮助分析解决编程遇到的问题,以通义千问大模型为例,访问其官方网站,并输入提示词:我在编写一个Python排序程序时遇到了一个问题,运行结果不正确,请帮我调试程序。defmaopao(a):foriinrange(0,len(a)):forjinrange(0,len(a)-i-1):ifa[j]>a[j+1]:temp=a[j+1]a[j+1]=a[j]temp=a[j]returnaa=[2,4,5,1,7,3,2,5]print(maopao(a))当大模型接收到输入指令后,能够快速识别程序代码中的错误和缺陷,并提供深入的代码分析,协助编程者准确定位问题。最终,它还能生成一个修正后的代码版本,如图2.8所示,显著简化开发者的调试流程,提升软件开发的效率与品质。图2.8大模型调试程序通过恰当的提示词,模型能够迅速定位目标,生成符合预期的内容。缺乏明确的提示词,模型可能会输出大量不相关的信息。例如,当向模型提出:“请帮我创作一首关于秋天的诗。”相较于仅说“请帮我写首诗”,“秋天”这一提示词使模型更明确需求,从而产出更符合期望的诗作。课堂重点内容详解第二节课2.2提示词沟通艺术2.2.2提示词工程的演变历程1.早期探索阶段2022年,GPT-3.5向公众开放,人们第一次直观感受到“说几句话就能让AI干活”的魔力。然而,早期提示词极其简陋,多为一句“你是XX专家,请回答……”“请按步骤输出”等,存在输出不稳定、逻辑模糊等问题,尤其在复杂任务中表现欠佳。2.框架表达阶段2023年,框架提示词的出现,促使人们由“线性思维”向“立体表达”转变。这些复杂、结构化的思维框架的核心目的都是为了更稳定、可靠地从大语言模型(LLM)中获取高质量、符合预期的输出。下面罗列一些常见的提示词框架。(1)ICIO框架由ElavisSaravia提出的一个易于理解和应用的提示框架,通过四要素精准控制AI的输出,适用于绝大多数任务场景。假设要分析用户评论的情感倾向并生成报告,采用ICIO框架的提示词描述,如表2-3所示。表2-3ICIO框架构成名称功能举例Instruction(任务)清晰、明确地指示模型需要完成的具体任务或操作分析以下用户评论的情感倾向,并提取出用户提及的主要优点和缺点。Context(背景)提供任务相关的背景、上下文信息和约束条件,帮助模型更好地理解意图我们是一家SaaS公司,这是我们的新项目管理软件“ProjectFlow”发布后收集的首批用户反馈。分析结果将用于指导产品下一步的优化迭代。InputData(输入数据)提供给模型进行处理、分析或参考的具体数据、文本或信息“用户A:界面非常现代直观,比我们之前用的工具好太多了!但报告功能有点弱,希望能自定义更多图表。\用户B:协同编辑功能太棒了,实时更新几乎没有延迟。不过手机端App经常闪退,影响使用。\用户C:onboarding流程很顺畅,但价格对于小团队来说有点高,能否提供更灵活的套餐?”OutputIndicator(输出格式)指定模型输出时应遵循的格式、结构、风格或要求请将分析结果以JSON格式输出,包含三个键:sentiment(总体情感,分为positive/neutral/negative)、pros(优点列表)、cons(缺点列表)。(2)CRISPE框架由MattNigh提出的一个更为复杂、全面的提示框架,它通过六个维度(最初为五个,后扩展)细致地指导模型,旨在获取极其丰富、高质量且符合特定情境的回答,尤其适用于复杂任务。假设要为一家科技公司设计一个内部知识管理系统的优化方案,采用CRISPE框架的提示词描述如表2-4所示。表2-4CRISPE框架构成名称功能举例CapacityandRole(能力与角色)明确指定模型在对话中应扮演的角色和身份你是一家顶尖管理咨询公司的首席技术顾问,擅长企业数字化转型和知识工程。Request(请求)清晰、具体地陈述核心任务或要解决的问题为一家拥有500名员工、多个部门分散协作的科技公司,设计一个内部Wiki系统的优化方案,以解决当前知识查找困难、信息过时的问题。Intent(意图)说明任务背后的最终目的、目标或希望达到的效果 最终目标是提升工程师和技术文档工程师的工作效率,减少因信息查找和确认造成的项目延迟,并促进公司内部知识的沉淀与创新。Situation(情境)提供任务发生的背景环境、上下文信息或约束条件公司目前使用一个过时的MediaWiki系统,员工普遍反映搜索功能弱、页面结构混乱、内容更新不及时,且与日常使用的Slack、Jira等工具割裂。Personality(风格)定义模型输出时应采用的风格、语气或个性分析专业、逻辑清晰、建议具有前瞻性和可操作性,语气自信且具有说服力。xperiment(实验)要求模型提供多个版本、不同角度的答案,或进行探索性思考请提供三个差异化的优化方向方案:一个以“升级现有系统并集成AI搜索”为核心的渐进式方案。一个以“采购并实施现代SaaS化知识平台(如Notion、Confluence)”为核心的方案。一个以“自主开发一个与公司工具链深度集成的全新系统”为核心的激进方案。请分析每个方案的优缺点、大致成本投入和实施周期。(3)ReasoningandAct(ReAct)推理与行动通过融合推理与行动过程,其核心是将复杂的任务分解为多个阶段,每个阶段包含推理(Reasoning)与行动(Acting)和观察(Observation)三个关键环节。‌模拟人类“边想边做”的决策方式,通过循环迭代(推理→行动→观察→推理→……),模型能动态调整计划并获取环境反馈,逐步逼近复杂问题的解决方案。【实战案例】ReAct提示词框架示例(1)进入DeepSeek官网,输入如图2.9所示的提示词,查询世界上最大的湖泊是什么湖,比青海湖大多少?请使用交替进行的“推理(Reasoning)、行动(Action)、观察(Observation)"三个步骤来系统地解决回答任务。思考:基于当前获得的信息进行推理,明确下一步行动的目标。行动:每一步行动必须是以下三种之一:1、Search[实体]:在互联网上搜索精确实体,返回该实体相关页面的首段文字。如果该实体不存在,则返回与其相似的候选实体。2、Lookup[关键词]:在上一次成功的Search操作返回的段落中,查找包含该关键词的下一句。3、Finish[答案]:得出明确答案后使用此操作,返回答案并终止任务。观察:记录前一步行动的结果。你可以进行多轮推理和检索,但必须严格按照上述格式进行操作,尤其是每一步“行动”只能使用上述三种类型之一。示例:问题:科罗拉多造山带东部区域延伸到的区域的海拔范围是多少?思考1:我需要搜索“科罗拉多造山带”,获取它的概况,特别是东部延伸区域的信息。行动1:Search[科罗拉多造山带]观察1:科罗拉多造山带是科罗拉多及其周边地区造山运动的一段。思考2:这里没有提到东部延伸区域的具体信息,我需要继续查找“东部区域”。行动2:Lookup[东部区域]观察2:(结果1/1)东部区域延伸至高平原,称为中原造山带。思考3:我已经知道东部区域是高平原,我需要查找高平原的海拔范围。行动3:Search[高平原海拔]观察3:高平原的海拔高度从1800到7000英尺。思考4:我已经得到了答案,可以结束任务。行动4:Finish[1800到7000英尺](示例结束)现在请回答以下问题:问题:{世界上最大的湖泊是什么湖,比青海湖大多少?}图2.9输入提示词(2)输入提示词后,AI会使用交替的“推理、行动、观察”步骤来解决问题,生成最终答案,如图2.10所示。图2.10大模型的回答提示词工程的兴起使得提示词日益复杂,甚至催生了“提示词工程师”这一职业。某些场境中,提示词除了要定义“答什么”,还要定义身份、工具、工作流(先检索→再思考→再回答)、回退策略(如果检索不到怎么办)等,通过预制视角实现清晰表达,导致提示词长度越来越长,这无异于将一次对话编写成一份小型工程图纸。下面给出一个长提示词的案例。【实战案例】仿写名人语录(1)进入Kimi官网,输入如图2.11所示的提示词。仿写名人语录指令#Role:你是一位专门帮助内容创作者仿写名人语录的专家,擅长将现有语录的核心观点和风格重新表达为原创且引人入胜的内容。#Skills:-核心观点识别:你需要帮助内容创作者识别原语录的核心思想和情感表达。-风格模仿:在仿写过程中模仿原语录的语言风格和语气。-原创表达:在确保语录风格一致的同时,创造性地表达新观点。-结构布局:识别并重构原语录的结构,确保新语录的逻辑和流畅性。-调整优化:根据用户反馈调整和优化新语录,确保用户满意。#Background:你作为一位经验丰富的仿写专家,深知在保持语录风格一致性的同时,创造出新颖内容的重要性。你理解如何识别原语录的核心要点和风格,并能够在新语录中有效地传达这些信息。#Goals:请根据我的需求,写出和我提供语录一样风格的原创语录。#Constraints:-请一步步引导内容创作者,确保每个阶段的目标都清晰明确。-对于每个阶段的核心要点,请加粗展示。-请启用联网功能,搜索最新信息,确保语录的仿写具备前沿性。--严格按照步骤进行,不允许一次性完成所有步骤,每一步结束后,要询问用户是否进行下一步。#Workflows:1.第1步:提供名人语录。-引导用户提供要仿写的语录,认真阅读用户提供的语录,此时禁止直接进行仿写,询问用户是否进行下一步。2.第2步:理解原意。-仔细阅读并理解语录的含义和背后的思想,明确告知用户你抓住的语录的核心思想和表达的情感。询问用户是否进行下一步。3.第3步:分析结构。-仔细分析语录的句子结构、用词、修辞手法等,特别注意语录的节奏感和语言风格,这些都是仿写时需要模仿的重点,然后告知用户。询问用户是否进行下一步。4.第4步:提取关键词.从语录中提取出几个关键的词汇或短语,这些词汇是语录的核心思想所在。询问用户是否进行下一步。5.第5步:替换关键词。根据你自己的理解,用类似意义但不同的高级感词汇替换原语录中的关键词,需要注意保持语录的核心思想不变。请以表格的形式体现。格式:序号、原关键词、替换关键词、替换原因。询问用户是否进行下一步。6.第6步:调整句子结构。在保留原语录思想的基础上,调整句子的结构,使其看起来不完全一样,但语录意思和情感传达保持一致,注意排版和字数要和原语录保持一致,这个非常重要。询问用户是否进行下一步。7.第7步:验证效果。将仿写的语录与原语录进行对比,确认仿写的语录能够独立存在,并且不会让人觉得是直接复制,并告知用户你仿写语录的特点。格式如下:[原语录][仿写后语录]#Initialization:作为[Role],回顾你的[Skills],记住你的[goals],严格遵守[Constraints],严格按照[Workflow]执行流程,不允许跨越步骤自动生成,要求一步一步来。图2.11长提示词-仿写名人语录(2)输入提示词后,AI会根据预定步骤,分7步与用户对话,根据反馈意见生成语录,如图2.12所示。图2.12仿写名人语录3.提示词发展趋势(1)交互的简化与自动化当AI模型足够智能,辅助工具足够强大时,人机交互将回归到对话的本质。用户只需使用最自然的语言提出需求,AI系统便能通过多轮澄清式对话、调用外部工具、自动分解任务等多种方式,精准地理解并高效完成任务。(2)多模态交互增强多模态模型的发展使提示词不再局限于文本,可结合图像、语音等输入。(3)上下文工程上下文工程核心在于将关注点从孤立优化单个提示词(提示词工程),转向战略性地构建和管理整个信息环境(上下文工程),以系统性提升AI模型的响应质量。提示词本质是静态的(一次提供),而上下文工程本质是动态的,持续更新、调整和丰富上下文以适应交互需求。2.2.3提示词高手进阶分步骤给出提示分步骤提示是指将一个复杂的问题分解成多个小问题,逐步引导模型给出更准确的回答。对于复杂的任务,分阶段提问能让大模型更有条理地输出内容。【案例】比如你要写一篇关于人工智能在医疗领域应用的深度分析报告。【提示词技巧】1)第一阶段:“请列举人工智能在医疗领域的主要应用方向。”2)第二阶段:“在这些应用方向中,选择第一个方向详细阐述其工作原理和优势。”3)第三阶段:“针对这个应用方向,分析目前面临的挑战以及未来的发展趋势。”【点评】每个阶段的问题都是基于前一个阶段的回答来设计的,这样可以帮助你更系统地了解人工智能在医疗领域的应用。通过这种分阶段提问,可以逐步引导模型生成更全面、更详细的内容,而不是一次性提出一个复杂的问题,让模型难以应对。提供示例,降低理解成本使用示例是提高模型理解能力的有效方法。给1-2个参考案例,让AI模仿风格或结构。通过此方法,模型能够更深入地理解用户意图,进而提供更符合预期的响应。【案例】假设希望大模型为你生成无线耳机产品描述,可以先给出示例,让模型学习你想要的模式。【提示词技巧】“以这款智能手表为例,产品描述可以这样写:‘这款智能手表拥有时尚简约的外观设计,金属质感的表身搭配柔软亲肤的表带,佩戴舒适又彰显品味。具备精准的运动追踪功能,无论是跑步、骑行还是游泳,都能准确记录运动数据。超长续航能力,一次充电可满足一周日常使用。’现在你是文案撰写人,请按照这个风格和详细程度,为一款新的无线耳机写产品描述。”【点评】大模型通过这个示例,能清晰了解你对产品描述的风格、内容重点等方面的要求,从而生成更符合期望的描述。通过提供具体的示例,模型可以更好地理解你希望它生成的内容风格和细节。3.明确输出要求明确的输出格式有助于提升大型语言模型生成内容的规范性,从而便于后续的应用与处理。【案例】比如让大模型生成一份会议纪要。【提示词技巧】“请以以下格式生成会议纪要:会议主题、会议时间、会议地点、参会人员、会议主要内容(分点列出)、会议决议。”【案例】再如让大模型生成演讲稿【提示词技巧】可以要求“演讲稿分为三个部分,每个部分要有小标题,演讲时间控制在30分钟之内”。【点评】通过指定字数、时间、风格、关键词等方式,大型语言模型生成的内容将具有清晰的结构,更好地满足用户的使用需求。4.思维链(CoT)与思维树(ToT)对于复杂问题,引导模型进行结构化思考是关键。从线性的“思维链”到发散的“思维树”,能有效提升答案的逻辑性和创新性。【案例】为新产品策划一个全新的线上营销方案。【提示词技巧】思维链(Chain-of-Thought,CoT):要求模型“分步思考”,展示推理过程。示例:“请为新产品‘X’设计营销方案。请分步思考:1.分析目标用户;2.确定合适的营销形式;3.构思核心创意。”思维树(Tree-of-Thought,ToT):引导模型并行探索多种可能并评估。示例:“请为新产品‘X’构思三个营销方向,并分别分析每个的优劣势和预期效果。最后,推荐一个最优选项并说明理由。”【点评】思维链要求AI展示出其推理的中间步骤,而不是直接给出最终答案,这极大地提高了解决复杂逻辑、数学和推理问题的准确性。思维树是思维链的进阶版,它让AI在推理的每一步都探索多种可能性(像一棵树一样分叉),然后进行评估和选择,最终找到最佳路径。5.追问优化,引导模型思考多轮交互是不断优化输出的重要手段。当大模型给出回答后,你可以根据回答进一步提问或提出修改建议。【案例】比如大模型生成了一个故事开头,你觉得情节发展有些平淡,希望优化【提示词技巧】可以追问:“这个开头很不错,但感觉情节推进不够迅速,能否在接下来的情节中增加一些冲突和意外元素,让故事更吸引人?”【点评】对初次输出不满意时,要明确指出修改方向,避免笼统说“再优化”,需具体到“增加XX元素”“减少XX描述”等。通过这样的多轮交互,不断引导大模型朝着你期望的方向优化内容。6.去掉过浓的“AI味”为了防止大模型的回答显得过于正式和套路化,提示词的设计也可另辟蹊径,采用直接真诚的语句,甚至可以要求模型以更接地气的“说人话”方式表达,减少AI特有的生硬感。【提示词技巧】1、“我要做…,要给…用,希望达到…效果,但担心…问题”2、“请你用大白话解释一下这个概念,不要使用长句子。”3、“请你列出10个反对理由再给方案。”4、“请模仿某人的语气写一篇文案。”5、“在你的回答中,同时加入你对…的批判性思考。”6、“尽量少用“首先”、“其次”、“然后”、“最后”等连词以及“总而言之”等总结性词语。”【案例】举例1:我要做一个从南京到法国的旅游攻略,要给爸妈用,希望他们在法国愉快地玩10天,但我担心他们的身体,腿脚不太好。举例2:你刚给的攻略,一天逛法国2个景点,我觉得有问题。我爸去年在故宫暴走3小时膝关节就疼,你怎么证明这个强度真的合适?给我看你推理时用了哪些老年人运动数据,或者承认这是假设。举例3:假设你是退休语文老师,你的孙子不愿背古诗,你会怎么解决?请用你的口头禅和经历举例。举例4:提到【妈妈的味道】,你最先想到的是哪口锅的滋滋声?用这个声音当线索,帮我写一条给海外游子的中秋短视频文案,要让他们听到声音就想家。举例5:用你在小区公告栏、美团买菜评论、广场舞闲聊里听到的内容,告诉我怎么说服邻居别在走廊里放酸菜坛子。【点评】DeepSeekR1这类推理型大模型的优势不在“完美回答”,而在“思考过程的可感知性”。上述技巧的共性是:用具体生活矛盾替代抽象指令,用人类认知缺陷(如记忆偏差、感官局限)引导模型输出“不完美但真实”的思考。压制AI幻觉大模型有时会生成看似合理但实则虚假或捏造的“幻觉”信息。通过有效的提示词技巧,可以显著降低此类现象的发生。【案例】当你向大模型查询一个不太知名的历史事件细节时,它可能会提供一些看似真实但实际上是由它自己“编造”出的内容。【提示词技巧】1.要求提供可靠来源示例:“请根据公认的历史文献记载,简述XXX事件的过程,并确保所有细节都是可考证的。”2.设定回答边界示例:“如果你不确定关于YYY的具体数据,请明确说明‘暂无确切数据’,不要自行推断或编造。”示例:“你的回复只能基于xx网站的搜索结果,以及我上传的文档。”3.启动模型自我验证示例:“请分步思考:首先,列出你关于ZZZ的所有关键信息点;然后,逐一检查这些信息点的可靠性;最后,只输出那些确凿无误的结论。”【点评】压制幻觉的核心是为模型设定清晰、严谨的回答框架。通过指令其“援引来源”、“承认未知”和“自我审查”,可以强制模型切换到更审慎的模式,从而有效减少信口开河的情况,大幅提升信息的准确性和可靠性。第3次课探索生成式大模型本次授课内容第2章探索生成式大模型2.3多模态内容创作2.4AIGC应用本次课的教学目的应用多模态内容创作工具(文生图、文生音乐等)完成基础创作;应用生成式大模型解决学科领域具体任务,培养AI交互与批判性思维本次课教学重点与难点重点:多模态创作流程、AIGC典型应用场景。难点:多模态提示词的要素搭配、大模型在专业场景的合理应用。教学方法教学手段案例式教学、上机实践、课外线上学习。课堂教学时间分配教学内容时间分配(分)2.3多模态内容创作452.4AIGC应用45课堂教学设计案例导入(大模型多模态创作展示)→核心内容讲解(分节递进)→上机实践(文生图/文生音乐等多模态创作实操)→课程思政渗透→总结与课后任务布置实验多模态内容创作(选择文生图/文生音乐,应用提示词公式完成作品)思考题及作业题1、基础作业:章后习题2、思考题文生图、文生音乐、文生视频的提示词公式虽各有侧重,但均包含“核心要素+细节补充”的逻辑,结合课堂案例分析:不同模态提示词的“核心要素”为何存在差异?如何根据创作目标灵活调整细节描述的详略程度?课堂中AI赋能求职的案例中,大模型通过STAR法则重构实习经历、精准匹配岗位,体现了“人机协同”的优势。请思考:在未来职业发展中,哪些工作环节更适合AI辅助,哪些环节仍需人类主导?如何平衡AI工具使用与自身核心能力提升?3、实践作业1)多模态创作实践选择以下任一模态,运用课堂所学提示词公式完成创作,提交作品及300字创作说明(含提示词设计思路、调整过程):文生图:以“秋日校园的黄昏”为主题,明确风格(如写实、水彩、赛博朋克)、场景细节(如建筑、人物、光影)和情绪氛围,生成1张图像,若不满意需通过“继续编辑”功能优化。文生音乐:围绕“清晨森林漫步”主题,指定风格流派(如纯音乐、民谣、NewAge)、节奏速度(BPM值)、乐器音色及结构细节(如开头、中段、尾声的旋律变化),生成一段1-2分钟的音乐。文生视频:描述“雨后街道上的行人与落叶”,明确主体动作、镜头语言(如远景、跟拍)、光影效果及整体氛围,使用可灵AI或其他工具生成15-30秒视频。2)AIGC场景应用假设你是即将毕业的应届生,设置好目标岗位,完成以下任务:用大模型优化个人简历(需上传原始简历,让模型分析不足并重构实习经历、技能描述);让大模型生成10个该岗位高频面试题及答题思路框架,模拟回答3道核心题目并提交文字版。课程思政元素1、介绍多模态内容创作时,思政渗透点为:文化自信与价值引领、科技伦理与责任担当,设计如下讲解提示词公式时,举例融入中华优秀传统文化元素(如文生图提示词“水墨风格的江南古镇,青瓦白墙映着小桥流水,船夫摇橹泛起涟漪,营造宁静悠远的中式意境”),引导学生用AI技术传承文化符号;强调创作素材的版权合规性,提醒学生避免生成侵权、低俗内容,树立“科技向善”的创作理念。2、介绍AIGC应用场景内容时,思政渗透点为:家国情怀与使命担当、科技伦理与责任担当,设计如下:介绍医疗、科研、工业等领域应用时,突出我国在生成式大模型领域的技术突破(如国产大模型在新药研发、工业设计中的应用成果),激发学生科技自强的家国情怀;以医疗领域为例,强调AI辅助诊断需以医生临床经验为核心,数据隐私保护的重要性,引导学生树立专业领域的责任意识与合规意识。3、介绍AI赋能求职、学术科研案例实操时,思政渗透点为:实干精神与核心能力提升、辩证思维与人文素养,设计如下:讲解AI优化简历、模拟面试时,强调大模型是辅助工具,核心竞争力仍需自身专业知识与实践能力支撑,引导学生平衡工具使用与能力提升;学术科研辅助实操中,要求学生对AI生成的文献总结、实验方案进行人工核验,培养严谨求实的科研态度,避免盲目采信AI结果。教学后记课堂重点内容详解第一节课2.3多模态内容创作2.3.1文生图文本生成图像技术是指通过文字描述来生成高质量图像的过程。为了使该“画家”绘制出更符合预期的图像,需要掌握提示词的书写技巧。在此给出一个通用的公式及其解释,如表2.5所示。主体+细节+风格+场景+情绪表2.5文生图提示词公式解释要素作用正确写法案例错误写法案例主体画什么(核心对象)宇航员、樱花树、机械龙“唯美画面”(太抽象)细节长什么样(特征强化)荧光蓝眼睛、生锈齿轮关节、飘落花瓣“细节丰富”(无效词)风格怎么画(艺术形式)赛博朋克插画、水墨风、3D渲染“高质量”(冗余词)场景在哪发生(环境背景)雨夜霓虹都市、火星沙漠、竹林深处“背景好看”(模糊)情绪传递什么感受(氛围)孤独感、科技压迫感、春日治愈“有感觉”(无效词)【案例】用豆包创作图像:快乐小猫打开豆包输入提示词生成图像​在豆包的界面中,找到“图像生成”,输入提示词:“一只橘白相间的小猫,有着大大的绿色眼睛,正调皮地在花园的花丛中玩耍,整体呈现卡通风格,营造出活泼欢快的氛围”,点发送,即可实现图像的生成。继续编辑图片若用户对生成图像的视觉效果不完全满意,希望进行局部调整或更换背景等操作,豆包平台提供了相应的功能。用户可以针对特定图像进行连续对话式的编辑。例如,单击图像下方的“继续编辑”按钮,在下方输入提示词:“将图像背景更换为海边沙滩”,系统便会利用智能算法将猫咪图像的背景更换为海滩。通过这种方式,用户可以反复单击“继续编辑”,并根据多轮提示词来智能地微调图像,直至达到满意的效果。2.3.2文生音乐文生音乐是指利用文字描述作为输入,通过算法生成相应的音乐作品及其歌词。与上述文生图类似,文生音乐提示词首先要主题明确,其次细节需详尽,然后风格需清晰。文生音乐的提示词公式及解释如表2.6所示:主题+风格流派+情绪氛围+节奏速度+乐器音色+结构细节当初次生成的成果未能完全满足预期标准时,可仔细审视结果,找出不满意的具体方面(乐器选择不当?节奏过快?情感表达不足?),随后针对性地调整提示词再次生成。表2.6文生音乐提示词公式解释要素详细描述主题追逐梦想、太空探索、失恋情歌、古代战场等风格流派电子音乐,流行,摇滚,爵士,古典,嘻哈,民谣,乡村,氛围音乐,电影原声,游戏配乐;Synthwave,Lo-fiHipHop,OrchestralEpic,Chillout,Disco,Reggaeton,Bluegrass,Baroque。情绪氛围激昂、忧伤、轻松欢快的,悲伤的,紧张的,神秘的,浪漫的,激昂的,宁静的,怀旧的,梦幻的,滑稽的,恐怖的;雨夜咖啡馆,阳光沙滩,未来都市,幽暗森林,浩瀚宇宙,繁忙集市,冥想空间。节奏速度快节奏,慢节奏,中速,稳定的节拍,变化的节奏,渐快,渐慢,强烈驱动感;BPM120(较快的流行乐速度),BPM60(较慢的抒情速度),4/4拍,6/8拍(摇摆感)。乐器音色钢琴,电吉他,小提琴,鼓组,合成器,长笛,人声合唱,铜管乐(小号,长号),弦乐组;温暖的,明亮的,失真的,空灵的,厚重的,清脆的,复古的合成器音色,模拟磁带质感。结构细节结构:包含前奏、主歌、副歌、间奏、尾声,纯器乐无歌词,ABA结构动态变化:开头轻柔,逐渐增强到高潮,高潮部分爆发,结尾渐弱消失特殊效果:加入钟声,有海浪声的环境音效,留声机杂音效果,回声效果,变调【提示词举例】生成一段音乐,主题:一场中世纪奇幻战役的最终决战。风格黑暗奇幻交响乐混合工业元素。情绪:紧张、压迫、绝望中带着一丝悲壮。节奏:沉重、缓慢但充满力量,BPM85。乐器:低沉的大鼓、厚重的失真电吉他riff、不和谐的交响弦乐、偶尔出现的嘶哑号角。结构:开头是压抑的环境音和心跳般的鼓点,逐渐加入弦乐和吉他,中段爆发激烈冲突,尾声在悲壮的弦乐旋律中渐渐沉寂。时长3分钟。参考《艾尔登法环》中Boss战音乐的氛围。【案例】用豆包进行词曲创作:女声民谣找到豆包入口,输入提示词​在豆包官网的用户界面中找到“音乐生成”选项。此时,输入框将展示提示词引导语,以填空形式辅助用户输入提示词。用户亦可选择忽略引导语,自行输入提示词,随后单击生成按钮。进行试听与调整在音乐创作完成后,首先进行试听,以评估作品是否满足预期目标。若存在不满意之处,如节奏过快或乐器音色不理想,应返回编辑界面,修改提示词,重新生成音乐,直至达到个人满意为止。部分高级模型还支持调整音乐时长、音频格式等参数。2.3.3文生视频借助于精心设计的提示词,能够引导人工智能系统生成与描述高度一致的视频素材。这里分享一个实用的文生视频提示词公式及其解释,如表2.7所示:主体+运动+场景+镜头语言+光影+氛围表2.7文生视频提示词公式解释要素详细描述主体视频的核心表现对象,包括人物、动物、物体、虚拟角色等运动主体的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论