信息技术基础wps人工智能 第3版 课件 单元8 人工智能技术应用实践_第1页
信息技术基础wps人工智能 第3版 课件 单元8 人工智能技术应用实践_第2页
信息技术基础wps人工智能 第3版 课件 单元8 人工智能技术应用实践_第3页
信息技术基础wps人工智能 第3版 课件 单元8 人工智能技术应用实践_第4页
信息技术基础wps人工智能 第3版 课件 单元8 人工智能技术应用实践_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能模型认知从现象到本质的探索之旅山西职业技术学院蔡虹2026.04.09ContentAI就在身边:生活中的智能现象01AI模型的底层逻辑:从“规则”到“学习”02AI模型的家族树:主流模型分类与特征03AI模型的实际价值:赋能生活与专业04总结与思考:开启AI探索之旅05AI就在身边生活中的智能现象从日常场景出发,感受AI的无处不在AI的日常应用问题一DOUBAO为何能“听懂人话”,并给出看似合理的回答?问题二抖音、网易云音乐的推荐为何总能“猜中你心”,推荐你喜欢的内容?问题三美图秀秀的AI修图、抖音的AI换脸,如何精准地识别人脸并进行修改?AI模型的底层逻辑从“规则”到“学习”理解AI模型的本质:数据、规律与问题解决CORELOGIC传统编程vsAI模型传统编程(Rule-Based)核心逻辑:人告诉计算机明确的“规则”,计算机严格按规则执行计算与输出。通俗类比:老师直接教授学生具体的公式和解题步骤,学生照此完成作业。AI模型(Data-Driven)核心逻辑:人不预设具体规则,计算机从“海量数据”中自我学习、归纳并发现规律。通俗类比:老师给学生1000道题和答案,学生自己总结公式,再去解决新题目。AI模型的核心定义AI模型是一套能从“数据”中学习“规律”,并利用规律解决“具体问题”(预测、分类、生成、决策)的数学框架与算法集合。核心逻辑链路数据学规律解问题从海量数据中提取特征,通过算法模型化,最终赋能业务决策与创新生活化类比:厨师与菜谱AI模型厨师数据食材规律菜谱应用结果菜肴核心总结:所有AI模型,不管多复杂,底层逻辑都是“喂数据→学规律→用规律”的过程。AI模型的家族树主流模型分类与特征掌握四大核心模型,构建AI知识框架分类模型:做判断,分类型核心特征根据学习到的规律,把“新数据”分成不同的类别,实现定性判断。典型案例人脸识别、垃圾邮件识别、疫情核酸检测AI分析、疾病辅助诊断。代表模型CNN(卷积神经网络)、决策树、支持向量机(SVM)、逻辑回归,MTCNN回归模型:做预测,算数值房价走势预测示例核心特征:连续数值预测根据历史数据学习规律,输出具体的、连续的数值结果,而非分类标签。典型案例:多领域应用广泛应用于房价估值、气象温度预报、股票价格趋势分析等场景。代表模型:经典与进阶基础模型:线性回归(LinearRegression);进阶模型:随机森林回归(RandomForest)。生成模型:做创造,生内容核心特征:根据学习到的规律,生成全新的、符合规律的内容。文本生成代表案例:ChatGPT、文心一言擅长对话、文案撰写与代码。图像生成代表案例:Midjourney、SD根据文字描述生成艺术画作。音视频生成代表案例:AI写歌、短视频生成自动生成背景音乐与视频脚本。代表技术模型大语言模型(LLM)以Transformer为核心,理解和生成人类语言。生成对抗网络(GAN)通过博弈学习,生成逼真的图像、音频等数据。推荐模型:猜喜好,做推荐核心特征:洞察喜好规律基于用户历史行为数据进行深度学习,精准捕捉用户偏好模式,实现个性化内容分发。典型案例:无处不在的推荐覆盖娱乐与电商场景:网易云音乐的“每日推荐”、淘宝的商品推荐、抖音的短视频流。代表模型:算法驱动精准度从早期的协同过滤算法,演进到如今基于深度学习的复杂推荐模型,推荐精度大幅提升。AI模型家族树总结分类模型做判断、分类型人脸识别、垃圾邮件识别回归模型做预测、算数值房价预测、天气预测生成模型做创造、生内容ChatGPT、AI绘画推荐模型猜喜好、做推荐歌曲/商品/视频推荐这四大类模型构成了AI应用的基础,其中生成模型是当前的重点和热点。AI模型的实际价值:三个核心维度生活效率让日常更便捷、更个性化产业升级让商业更智能、更高效科学探索突破人类认知边界通用生活领域实际价值社交/娱乐抖音AI推荐算法AI绘画与写歌创作游戏智能AI队友出行/生活导航AI实时路线规划外卖智能派单调度智能音箱语音交互学习/工作ChatGPT辅助文案撰写多语言AI实时翻译教育AI自动批改作业分专业领域应用(计算机/经管)计算机/软件工程/大数据用分类模型做图像识别与处理用生成模型开发AI聊天机器人用推荐模型构建个性化电商系统经管/金融/商业分析用回归模型预测股价与汇率波动用分类模型进行信贷风险智能评估用时间序列分析市场动态趋势无论技术研发还是商业决策,AI模型已成为驱动行业发展的核心引擎分专业领域应用(文科/工科/艺术)文科/新闻/中文利用生成模型辅助文案创作、新闻稿撰写,提升内容产出效率。工科/机械/自动化使用分类模型进行设备故障检测,回归模型预测生产参数,优化流程。艺术类/设计/音乐借助生成模型进行AI绘画、海报设计及AI编曲,激发无限创意灵感。AI正在成为各个专业领域的强大工具,赋能创新与发展AI智能体(Agent)这个方向二、产业升级&三、科学探索产业升级:让商业更智能、更高效制造业:AI质检准确率超99%,效率提升数倍。金融业:信用评分与欺诈检测,实时评估风险拦截盗刷。电商零售:推荐模型贡献营收,生成模型降低成本。医疗健康:AI辅助影像诊断,加速新药研发进程。科学探索:突破人类认知边界蛋白质结构预测:AlphaFold解决生物学50年难题,加速生命科学发展。气候预测:盘古气象模型预测速度快上万倍,精度更高。数学与物理:AI成为科研“第四范式”,辅助发现新定理、模拟复杂现象。AI正在重构商业成本结构,并成为突破人类认知边界的强大工具科学探索:突破人类认知边界高效社交/娱乐抖音AI推荐算法AI绘画与写歌创作游戏智能AI队友出行/生活导航AI实时路线规划外卖智能派单调度智能音箱语音交互学习/工作ChatGPT辅助文案撰写多语言AI实时翻译教育AI自动批改作业总结与思考开启AI探索之旅梳理知识框架·激发未来探索·沉淀核心价值课程核心总结AI模型的核心逻辑数据输入→学习规律

→解决问题AI模型的核心家族树分类、回归、生成、推荐

重点关注:生成模型AI模型的核心价值融入生活、赋能专业

解决实际问题的“核心大脑”掌握核心逻辑,理清家族脉络,发挥AI价值,构建对人工智能模型的纲领性认知。拓展思考:开放性问题AI模型的“智能”与人类的“智慧”有何本质区别?从数据驱动到意识涌现,探讨机器智能与生物智慧的核心差异。AI生成的内容(如文案、绘画),其版权应该归属于谁?当创作主体发生改变,法律与伦理层面应如何界定知识产权归属。结合你的专业,你认为AI模型还能解决哪些尚未被解决的问题?发散思维,探索AI在特定领域的潜在应用价值与创新突破点。Q&A感谢聆听欢迎提出您的宝贵意见与建议生成提示词工程技术:连接你与AI的桥梁语言山西职业技术学院蔡/p>

信息技术基础和人工智能通识教育系列讲座(三)课程大纲01课程导入为什么要学提示词工程?从AI发展趋势与个人效率提升两个维度切入。02核心讲解深入解析提示词工程的三大核心原则与实用万能公式。03案例实操结合真实业务场景,动手设计并优化属于你的专属提示词。04总结答疑回顾今日重点知识,开放问答环节解决个性化困惑。01课程导入:为什么要学提示词工程?PROMPTENGINEERINGCOURSE核心认知:什么是提示词工程?技术定义提示词工程是通过精准、结构化的自然语言指令,引导大语言模型(LLM)高效、准确输出符合需求结果的设计与优化技术。通俗理解它是我们与AI沟通的“桥梁语言”,消除歧义,让AI能够准确理解并执行我们的真实意图。图示:提示词工程作为连接人与AI的桥梁课前小互动:指令的差异模糊指令“帮我写一段计算机专业英语的介绍”精准指令“帮我写一段150词左右的计算机专业英语课程介绍,面向大一新生,语言简洁,包含课程核心学习内容(词汇、编程英语、文献阅读)”思考一下:哪个指令更可能得到你想要的结果?02核心讲解:提示词工程的核心原则与实用方法基础原则一:清晰具体,拒绝模糊核心思想:明确告诉AI“做什么、做多少、什么风格、面向谁”模糊指令(BadCase)“帮我写个算法笔记”缺少具体主题、字数要求、受众和格式规范,AI难以精准响应。精准指令(GoodCase)提示:越具体的指令边界,越能减少AI的猜测成本,从而获得更符合预期的高质量结果。基础原则一:清晰具体,拒绝模糊核心思想:明确告诉AI“做什么、做多少、什么风格、面向谁”模糊指令(BadCase)“帮我写个算法笔记”缺少具体主题、字数要求、受众和格式规范,AI难以精准响应。精准指令(GoodCase)“帮我写一份快速排序的入门笔记,800字左右,分3部分(原理、步骤、代码示例),面向大二计算机专业学生,语言通俗无冗余”提示:越具体的指令边界,越能减少AI的猜测成本,从而获得更符合预期的高质量结果。基础原则二:结构化表达,逻辑清晰核心思想用分点、分模块的方式组织指令,让AI“易理解、不遗漏”,确保信息处理的完整性。关键要素1.拆解任务步骤;2.限定输出格式;3.明确内容维度。减少AI的自由发挥空间。📝案例:文献总结指令“请总结《XX论文》的核心内容,结构化输出:研究背景;核心方法;实验结论;研究不足。每部分不超过100字。”效果:结果更全面、逻辑更严密、可读性强基础原则三:贴合模型能力,合理预期核心思想:了解AI的“短板”(如知识截止日期、计算边界),在指令中明确“可参考的范围”,避免提出无法完成的任务。不当指令示例“帮我找2026年最新的AI论文”

问题:超出了AI的知识截止日期(通常截至2024年),且缺乏具体领域限定,无法完成。合理指令示例“帮我梳理2024-2025年大语言模型在教育领域的核心研究论文...”

优势:明确了时间范围(符合知识截止)、具体领域(教育)、交付物(标题、作者、亮点),任务边界清晰。优化建议:指令应包含时间范围、具体领域、交付物形式,确保任务在模型能力圈内可执行。经典提示词结构:一个万能公式角色设定(Role)给AI指定一个具体的身份或专家角色(如:资深文案、Python工程师、心理咨询师),让输出内容更贴合专业视角。任务描述(Task)清晰、明确地告诉AI需要完成什么工作或解决什么问题,避免模糊不清的指令,确保AI理解核心目标。具体要求(Requirements)细化输出的细节约束,例如:字数限制、语言风格(幽默/正式)、目标受众、关键要素、避免的内容等。输出格式(Format)指定结果的呈现形式,提升信息获取效率。例如:分点列表、表格、代码块、思维导图、JSON数据等。万能公式应用案例:讲解Python列表推导式角色(Role)资深Python开发工程师,拥有丰富的教学经验,擅长将复杂概念通俗化。任务(Task)向大二计算机专业学生讲解Python中列表推导式的核心概念与使用方法。要求(Requirements)语言通俗易懂,包含核心语法解析、3个基础示例及2个常见错误解决。输出格式(Format)采用分点列表布局,代码示例需附带详细中文注释,确保逻辑清晰。提示:合理运用此公式能显著提升AI回答的专业性与准确性你是一名Python开发工程师、请面向大二计算机专业学生、讲解列表推导式、语言通俗、包含核心语法加三个基础示例加两个常见错误及解决方法、避免过于专业的术语、输出格式要求分点列出且示例配代码注释。进阶技巧一:加入示例,少讲多示范核心思想:精准对齐仅靠语言描述风格往往不够精确。通过提供具体的示例,让AI学习并模仿输出的格式、语气和专业度,从而大幅降低沟通成本。操作要点:少讲多做与其长篇大论解释“什么是好的翻译”,不如直接给出一个高质量的翻译范例。示例越贴近目标场景,AI的输出越符合预期。实战案例:计算机专业英语翻译Prompt指令设计:“请将以下计算机专业词汇翻译成英文,要求专业准确。示例:数据结构-datastructure;待翻译:算法、面向对象编程、数据库、机器学习”预期效果:AI将严格遵循“中文术语-英文术语”的格式进行输出,确保一致性。进阶技巧二&三:加入约束+分步提问技巧二:加入约束条件明确“不要做什么”,避免偏离主题在撰写论文提纲时,可以要求:“不涉及过于前沿的未落地技术”通过限制范围,让AI的输出更加聚焦和实用。技巧三:分步提问将复杂任务拆分为多个简单任务将制作PPT的复杂需求拆分:1.设计框架→2.撰写内容分步骤处理能显著提升最终成果的质量。核心逻辑:通过“约束”减少无效探索,通过“拆分”降低任务难度,两者结合能最大化AI的效率。“请为我的课程论文《大学计算机专业英语评价体系》设计3级提纲,要求:1.符合大学课程论文规范;2.分5个核心章节;3.不涉及过于前沿的未落地技术”。——“帮我完成一份AI课程的PPT内容,包含封面、目录、5个章节、总结”,——改为:

先问“帮我设计《AI基础入门》课程的PPT框架,含封面标题、目录和5个核心章节主题”,

——基于框架问“帮我撰写PPT第2章‘大语言模型基础’的内容,每部分不超过200字,适合课堂讲解”。新手避坑指南:别让这些错误影响你的效率指令过于简短,信息缺失只说“帮我写篇作文”,没有任何具体要求,导致结果偏离预期。一次提多个无关任务同时要求AI写代码、翻译和总结,任务逻辑混杂,难以精准执行。过度追求华丽词汇堆砌大量形容词,忽略了核心需求的明确表达,增加AI理解成本。💡核心原则:指令需具体、任务需单一、表达需直白新手避坑指南:别让这些错误影响你的效率·

错误示例:“帮我写篇作文”;·

修正:明确主题、字数、风格、受众(如“帮我写一篇800字左右的议论文,主题为‘AI时代的大学生学习’,面向大学英语写作课程,语言正式”)。·

错误示例:“帮我写一段Python代码,再帮我翻译一下计算机专业英语,顺便写个课程总结”;·

修正:一个提示词只对应一个核心任务,分开提问。·

错误示例:“请你以专业的、深度的、全面的视角,为我详尽阐述一下大语言模型的相关知识”;·

修正:去掉无意义的形容词,直接明确需求(如“请阐述大语言模型的核心工作原理,分3点说明,每点不超过150字”)。03案例实操:动手设计你的提示词PRACTICALCASES&HANDS-ONDESIGN实操任务一:基础套用与修改任务一:基础套用请使用“角色+任务+要求+格式”的万能四结构,为“讲解C语言指针的入门知识”设计一个提示词。任务二:修改优化请修改这个模糊的提示词“帮我写计算机专业英语的学习方法”,使其变得清晰、具体、结构化。引导语:现在,请大家动手尝试,我们稍后会一起点评。实操任务二:进阶优化(分步提问)当前任务:需求拆解挑战复杂需求:“帮我梳理《数据结构》中二叉树的核心考点,适配期末考试”操作要求:运用“分步提问”技巧,将上述复杂需求拆分成两个连续的、更简单的提示词,以提升回答质量。思考:可以小组讨论一下,如何拆分这个需求?第一步应该问什么?第二步呢?04总结答疑:回顾与交流课程总结与答疑核心定义把你的需求,用AI能理解的方式说清楚,减少歧义。万能公式直接套用四结构:角色+任务+要求+格式。进阶技巧做到具体不模糊,使用结构化表达,学会拆分复杂任务。课后拓展建议多工具尝试体验ChatGPT、文心一言等不同模型的差异。刻意练习将日常学习和工作需求转化为提示词进行练习。官方文档阅读官方提示词文档,掌握最前沿的使用规范。Q&A/感谢聆听ThankYouQ&A欢迎课后交流与探讨多模态大模型与AIGC应用从沟通到创作:AI时代的“全能创作力”养成计划山西职业技术学院

蔡息技术基础和人工智能通识教育系列讲座(三)目录CONTENTS0102多模态大模型从“单通道”到“全能AI”的进化03AIGC到底是什么定义、全品类内容与核心价值04核心应用场景图文、音视频、综合创作与专业落地05实战演练10分钟做出你的第一个AIGC作品06风险与伦理理性、安全地使用AI总结与展望系列课闭环与未来趋势课程开场:回顾与衔接第一场回顾:认知AI模型AI模型=数据+学规律+解问题我们知道了AI有四大模型,而其中最火、最能激发我们想象力的,就是生成模型。它就像一个不知疲倦的创意大师。第二场回顾:掌握提示词工程提示词工程=角色+任务+要求+输出格式我们学会了如何用这门“通用语言”和AI高效沟通,让它成为我们的得力助手,精准地理解并执行指令。从“单文本生成”到“跨模态创作”的全面升级如果我们的指令只有文字,AI的世界是不是有点单调?如果我们想让AI看懂一张照片,听懂一首歌,甚至把一段文字变成一部电影,该怎么办?今天,我们将解锁AI更多的可能。本场定位与目标本场定位能力升级从单文本生成→跨模态理解与创作认知升级从理论认知→实战落地,拒绝纸上谈兵讲座目标01理解·Understand多模态大模型是什么?为什么它如此强大?02掌握·MasterAIGC在学习、生活、专业中的实用玩法与技巧。03创作·Create学会用“提示词+多模态工具”完成一个完整的作品。什么是多模态大模型?核心概念:模态(Modality)即信息的存在与呈现形式,包含但不限于:文字、图片、音频、视频、3D模型、各类传感器数据等。它是AI理解和交互世界的“语言”。单模态(Single-modal)只能处理和理解一种类型信息的AI,能力相对单一。

•典型例子:纯文本对话大模型、早期只能生成单一图片的文生图模型。多模态(Multi-modal)具备看懂、听懂、读懂多种信息,并能在不同形式间自由转换和生成内容的AI。

•关键能力:跨模态转换(Cross-modalTransformation)🗣️单模态AI≈“只会说中文的人”当你用英文跟他说“Drawacat”,他无法理解你的意图,更无法行动。🎨多模态AI≈“精通多国语言的艺术家”你用中文描述“一只在樱花树下打盹的猫”,他能立刻将文字转化为一幅栩栩如生的画作。多模态vs传统单模态单模态大模型📝输入/输出:仅支持纯文字形式进行交互🚀核心能力:聚焦文本处理,擅长文案撰写、知识问答、代码编写等纯文本任务,能力边界受限于单一的文字信息维度。多模态大模型🖼️输入/输出:支持文字、图片、音频、视频等多种格式混合交互✨核心能力:实现跨媒体理解与生成,如图文深度理解、文生视频、看图说话及长视频智能总结,打破单一维度限制,构建全方位的复杂信息交互平台。从“单向问答”进化到“多模态交互”,大模型不再局限于单一文本工具,而是成为能够处理和生成复杂信息的综合创作平台,释放了无限的生产力潜力。核心技术逻辑(简化版)01统一编码UnifiedEncoding把文字、图片、声音等所有信息,都转换成AI能理解的统一“数字语言”(向量)。就像把所有语言都翻译成世界语。02跨模态对齐Cross-modalAlignment让不同模态的信息“对应”起来。比如,让AI明白“猫”这个词,和一张猫的图片,以及猫的叫声,都指向同一个概念。03生成解码GenerativeDecoding根据你的指令,从AI的“世界语”知识库中,生成你想要的任何模态内容。比如,把“猫”的概念,解码成一段视频。主流多模态大模型视频生成王者:字节跳动Seedance2.0能力:支持文/图/音/视频多模态输入,可直接生成高清电影级视频,表现力行业领先。案例:2026年央视春晚视觉特效制作、知名导演贾樟柯实验性短片《贾科长Dance》。通用多模态巨头GPT-4V·豆包多模态·Claude3拥有极其强大的跨模态理解与生成能力,能够无缝处理和关联文本、图像、音频等信息。不仅是科研与创作的利器,更是日常学习、工作与生活中高效的“全能型”助手。垂直领域专家医学影像诊断·工业智能检测结合CT、MRI、病理切片等辅助医生快速识别病灶;整合机器视觉、声音分析与传感器数据,实现产线产品缺陷的毫秒级自动检测,大幅提升专业领域的生产与服务效率。主流多模态大模型案例展示2026年央视春晚·视觉特效基于Seedance2.0技术支持,实现了令人惊叹的视觉特效与虚拟场景构建,为全球观众呈现了一场融合了AI技术的科技盛宴。贾樟柯短片《贾科长Dance》短片中出现的两个“贾樟柯”角色,均由多模态AI生成,形象逼真、动作自然,真假难辨,展现了AI在影视创作中的无限潜力。医学影像·AI辅助诊断结合CT、MRI、病理报告等多模态数据,AI辅助医生快速识别病灶,分析复杂的医学影像,大幅提升诊断效率与准确率。AIGC到底是什么?01/全称定义AIGeneratedContent即“人工智能生成内容”,指利用人工智能技术自动生成文本、图像、音频、视频等各类信息内容的技术与方式。02/核心本质多模态生成模型的商业化落地它是底层AI大模型能力与人类生产生活需求的结合点,通过将复杂的AI能力转化为具体可用的工具和产品,来解决真实场景中的效率与创造问题。03/模型与应用的关系如果说“多模态大模型”是提供动力的核心引擎,那么“AIGC”就是由这个引擎驱动的、在不同赛道奔跑的各类“汽车”(应用)。AIGC覆盖的全品类内容文本Text论文、代码、演讲稿、营销文案、新闻稿件、小说故事图像Image海报、插画、表情包、产品设计图、建筑效果图、艺术创作音频Audio配音、背景音乐、AI翻唱、有声读物、播客脚本、环境音效视频Video短视频、宣传片、MG动画、虚拟人直播、影视特效、视频剪辑脚本3D建模游戏模型、产品原型、虚拟场景、数字人、3D打印模型、工业设计AIGC能做什么?几乎涵盖了我们能想到的所有内容形式。任何需要创造力的领域,AIGC都能插上一脚,甚至带来颠覆性的改变。AIGC的核心价值(对接学生场景)01降低创作门槛场景:不会PS?用文生图做课程作业海报。

不会PR?用文生视频做小组展示开场动画。让每个人都能成为“创作者”02提升效率场景:几小时才能画完的插画,AIGC几分钟搞定。

几天才能写完的文献综述,AIGC帮你快速生成初稿。把时间还给思考和创意03激发创意场景:灵感枯竭时,让AIGC生成几十个不同风格的方案供你选择。快速尝试不同的视觉和叙事风格,低成本试错。成为你的“灵感缪斯”核心应用场景1:图文多模态01/文生图📝核心任务:用简单的自然语言提示词,生成海报、PPT配图、课程作业插画等。“为一场关于‘人工智能伦理’的讲座设计一张海报,风格为赛博朋克,主色调为蓝色和紫色,画面中心是一个发光的大脑,周围环绕着代码流。”02/图生文✍️核心任务:上传任意图片,让AI分析画面内容,快速生成社交媒体文案、产品解说词、创意故事等。📸示例:上传一张秋天的校园银杏大道风景照,让AI为你写一段优美的朋友圈文案。03/图文互转🔄核心任务:将长篇课程笔记一键转化为结构化思维导图,快速梳理知识脉络;或根据论文中的文字描述,自动生成数据图表。📊价值:大幅降低整理信息的时间成本,提升学习与研究效率。核心应用场景2:音视频多模态01文生视频任务:输入一段文字描述,直接生成带有画面、配音、配乐的高清视频。案例:输入“一个宇航员在火星表面发现一朵蓝色的花...”,即可生成一段科幻短片。02图生视频任务:上传一张照片,让它“动起来”,赋予静态画面动态的生命力与叙事感。案例:上传一张家人的老照片,AI将其生成为一段温馨的动态纪念视频。03视频生文任务:上传一段视频,AI自动识别内容并生成精准的字幕、核心摘要,甚至营销文案。案例:看完一场精彩的行业讲座,上传录屏,AI快速为你整理出完整的文字笔记。核心应用场景3:跨模态综合创作01文字写脚本使用文本大模型生成视频脚本,定义叙事逻辑与核心台词。02图片生成分镜将脚本中的关键场景,通过文生图工具快速生成高保真概念分镜图。03视频生成成片将生成的脚本与分镜图结合,喂给文生视频工具,自动生成流畅的视频片段。04音频自动配音AI自动识别文本生成情感丰富的旁白,并智能匹配背景音乐与环境音效。适用场景

USECASES全流程AI辅助,

提升内容生产效率课程汇报

开场视频毕业设计

成果展示自媒体

内容创作校园社团

创意宣传核心应用场景4:专业领域落地计算机/软件工程应用:多模态数据集标注、模型微调、AI产品原型设计。利用技术优势构建更智能的底层逻辑与交互。文科(中文/新闻/广告)应用:AI辅助内容创作、文献图文总结、新媒体运营。让创意写作与内容传播更高效、更具传播力。艺术设计(美术/动画/数媒)应用:AI绘画、AI生成动画短片、数字艺术创作。释放无限想象力,探索数字艺术创作的全新边界。工科(机械/建筑/电子)应用:生成工业设计图、产品效果图、建筑可视化、制作演示动画。加速设计与工程落地,实现所见即所得。实战演练:10分钟做出AIGC作品任务发布利用多模态AI技术,快速构思并完成一个“课程宣传短视频”的脚本与分镜设计。创作目标为今天的讲座量身打造,输出一条时长约15秒的短视频文案与画面描述,能直观吸引受众。推荐工具推荐使用免费且高效的多模态AI工具,例如“豆包多模态”或“即梦AI(Seedance体验版)”进行生成。实战演练:步骤拆解01写脚本💡公式:角色+任务+要求+输出格式“你是一个专业的短视频编剧,请为一场名为‘多模态大模型与AIGC应用’的大学讲座,创作一个15秒的宣传短视频脚本。要求内容吸引人,节奏明快,突出‘从沟通到创作’的核心亮点。输出格式为分镜脚本。”02生成封面🎨重点:明确画面主题与视觉风格“根据脚本,生成一张具有科技感的封面图,主题是‘AI与人类共创’,风格为现代简约,画面比例要求为横版16:9。”03生成视频📽️进阶提示词=文本指令+视觉+音频+风格“请根据以下脚本生成一段15秒的视频:[脚本内容]。视频风格要求:现代、简洁、科技感。背景音乐要求:轻快、富有未来感的电子音乐。旁白要求:使用清晰、有活力的女声。”风险与伦理版权问题现状:AIGC生成内容的版权归属目前仍在法律探讨中,缺乏明确界定。建议:用于个人学习和非商业用途通常无风险,商业使用需格外谨慎。真实性问题风险:深度伪造(Deepfake)技术可能被滥用,制造极具欺骗性的虚假信息。建议:保持独立思考和信息辨别能力,不轻信未经权威证实的音视频内容。数据安全问题风险:向AI平台上传个人隐私照片、视频或敏感文档,可能面临数据泄露风险。建议:不要上传身份证、人脸照片、机密文件等敏感隐私数据。理性使用AI是一个强大的工具,它可以辅助创作、提升效率,但它无法替代人类独特的原创思考、情感共鸣与价值判断。请记住,AI应该是你的能力“放大器”,而不是思维的“替代品”。总结与展望01认知AI模型·是什么从底层逻辑出发,建立对AI大模型的基础认知与科学理解。02提示词工程·怎么沟通掌握与AI对话的“通用语言”,学会精准传达指令以获取最佳结果。03多模态&AIGC·怎么用打破单一文本限制,在跨模态的实践中探索AI赋能的无限创造力。多模态大模型是AI的全能形态,AIGC是人人可用的创作生产力,而提示词,就是打开这一切能力的钥匙。多实操尝试用AIGC完成下一次作业或作品,在动手实践中感知AI能力边界。多迭代不要满足于一次的生成结果,不断优化你的提示词,追求更精准、更有创意的答案。关注前沿AI技术日新月异,多模态只是开始,更自主的智能体(AIAgent)已在路上。智能体入门:开启人机协作新纪元蔡息技术基础和人工智能通识教育系列讲座(四)目录CONTENTS01什么是智能体?定义、本质与关键特征02智能体的核心组成感知、推理、行动、记忆四大模块03智能体开发平台主流平台概览与选型指南04智能体的未来与趋势自我创造、群体智能与协作增强引言:科技领袖的共识核心观点:智能体(AIAgent)已不再是遥远的概念,而是正在发生的技术革命。全球科技领袖们一致认为,智能体将是AI应用的主流形态,是下一个时代的核心驱动力。SamAltman(OpenAI创始人)“相信在2025年,我们可能会看到第一批AI智能体加入劳动力并实质性地改变公司的产出。”李彦宏(百度创始人)“智能体是AI应用的最主流形态,即将迎来它的爆发点。做智能体就像PC时代做网站,移动时代做自媒体。”我们的共识:智能体标志着AI从被动响应的“工具”向主动服务的“伙伴”转变,是一种全新的人机协作范式。市场爆发:数据告诉我们什么?智能体市场正经历指数级增长,已成为全球科技竞争的新高地。全球市场规模8.3万亿元2025年企业级AI智能体市场

来源:IDC&Frost&Sullivan中国市场增速71.9%/年年复合增长率领跑全球

来源:IDC&Frost&Sullivan2027年规模预测655亿元中国企业级AIAgent市场规模

CAGR高达120%|来源:第一新声企业落地应用>60%财富500强企业已部署或

正在试点AI智能体解决方案结论智能体不是未来的趋势,而是正在发生的现实。PART01什么是智能体?WHATISANAGENT?定义与本质:你的“超级员工”核心定义智能体(Agent)是指能够自主感知环境、作出决策并执行行动的AI系统。它不只是简单的聊天机器人,而是能独立思考、主动规划并解决复杂问题的“数字员工”。模式变革过去:人找服务打开多个APP、重复操作,拼凑出解决方案现在:服务找人主动理解意图,自动拆解任务并协调多方,提供一站式答案。本质:超级员工🧠具备人类核心能力理解·分析·决策·执行⚡️超越人类的独特优势不知疲倦|极速处理|超强记忆

快速学习|情绪稳定智能体的五大关键特征自主性(Autonomy)无需人工干预,独立完成任务。例如,智能客服能独立处理90%以上的常规咨询。目标导向性(Goal-Oriented)始终围绕核心目标行动。例如,智能客服的目标是解决客户问题,提升满意度。感知与适应性(Perception)能感知环境变化并调整策略。例如,感知客户情绪,在大促期间调整回复优先级。交互与学习(Learning)能与用户和其他系统交互,并从经验中学习。每次对话都是优化服务的机会。工具使用能力(Tool-Using)能像熟练员工一样调用各种工具。例如,查询订单系统、调用支付API、跟踪物流信息。案例分析:智能体在身边智能客服·基础应用🔍场景:用户询问“我昨天买的手机什么时候能到?”🤖行动:理解意图→关联订单→调用物流API→主动回复✨价值:提升服务响应效率,显著降低企业人工成本AI学习助手·学生场景🔍场景:“帮我整理‘人工智能伦理’的论文大纲,并找出3篇最新相关文献。”🤖行动:理解需求→规划任务→调用学术数据库→生成结构化大纲和文献列表✨价值:解放文献整理等重复性劳动,释放精力激发创新思维AI旅行规划师·生活场景🔍场景:“计划一个五一假期去成都的3天旅行,预算3000元,偏好美食和自然风光。”🤖行动:理解需求→规划行程逻辑→调用票务/地图API筛选→生成详细行程单✨价值:提供千人千面的个性化方案,打造高效省心的生活体验智能体与AI的关系01/概念层次:AI家族中的“自主行动者”●AI(人工智能):是一个庞大的技术“大家族”,包含机器学习、深度学习、自然语言处理等多种底层技术能力。●智能体(Agent):是家族中具备生命力的“成员”。它整合了多种AI技术,实现了感知环境、自主决策与执行行动的闭环。💡生动类比:如果AI是“所有交通工具”,那么智能体就是“自动驾驶汽车”02/发展历程:从“感知”到“行动”的飞跃阶段1·专家系统基于固定规则的逻辑推理,缺乏灵活性。阶段2·机器学习通过数据训练模型,实现了初步的预测与分类。阶段3·深度学习&LLM具备强大的语义理解与内容生成能力,实现了“能听懂、能说话”。阶段4·智能体(Agent)增加了自主规划、工具使用与记忆能力,完成了从“能说”到“能干”的质变。PART02智能体的核心组成CORECOMPONENTSOFAGENTS智能体的“大脑与四肢”:四模块架构一个完整的智能体系统,如同一个人一样,拥有“感官”、“大脑”、“手脚”和“记忆”。

这四个模块构成了“感知→推理→行动→记忆”的闭环工作流。感知模块Perception如同人的“感官”,负责从外部环境或海量数据中获取、识别关键信息,是智能体与世界交互的窗口。推理模块Reasoning如同人的“大脑”,基于感知信息和历史经验进行逻辑分析、权衡利弊与决策规划,生成下一步的行动指令。行动模块Action如同人的“手脚”,将推理模块得出的抽象决策转化为具体的执行动作,直接作用于外部环境或调用系统接口。记忆模块Memory如同人的“记忆”,存储过往的感知数据、决策逻辑与行动结果,沉淀为知识库,供推理模块在未来复用。感知模块-智能体的“五官”核心功能:全方位信息捕获与理解如同人类的感官系统,负责精准接收并初步解析来自外部环境的多源异构信息,是智能体“认识世界”的第一步。文本解析处理用户指令、电子文档、邮件内容及代码逻辑,理解语义与结构。视觉识别识别照片内容、图表数据趋势及手写文字,将视觉信号转化为可理解的数据。语音交互支持语音对话交互与音频文件解析,实现“听”懂人类语言与音频信息。多模态融合融合文本、图像、语音等多种信息源,进行跨模态的综合语义理解与推理。模块二:推理模块-智能体的“大脑”🎯核心功能:接收感知层输入的信息,进行深层逻辑分析、多模态推理与最优决策生成,是决定智能体“智商”的中枢神经。🔧核心技术引擎:大语言模型(LLM)典型代表:GPT系列·Claude·GoogleGemini·文心一言·通义千问·豆包语义理解能力不仅识别文字,更理解深层意图、语境及用户未直接表达的隐含需求。逻辑推理能力利用世界知识进行因果分析、数学计算与逻辑推导,解决复杂多步骤问题。任务规划能力将复杂的用户目标拆解为可执行的子任务序列,并动态评估和调整执行路径。📝场景示例:用户反馈“下单3天了,我的快递怎么还没到?”🤔推理路径:识别“物流延迟”意图→推测“天气/地址/物流异常”等根因→规划“查单+安抚+补偿/重发”行动方案。模块三:行动模块-智能体的“手脚”核心功能:将推理模块的“大脑”决策转化为具体操作指令,连接数字世界与物理世界,让智能体真正“干实事”。信息获取全网搜索信息、查询内部数据库、调用第三方API接口获取实时数据。内容生成撰写分析报告、编写应用代码、自动制作数据可视化图表、生成邮件草稿。系统交互自动发送邮件通知、读写本地/云端文件、控制物联网(IoT)硬件设备。用户沟通通过IM工具回复用户咨询、定期反馈任务执行状态、提供任务进度报告。场景示例:自动化处理“退款申请”1.调用API接口确定订单详情→2.核对数据库验证退款条件

3.触发财务系统执行退款操作→4.发送邮件/短信发送确认通知模块四:记忆模块-智能体的“知识库”核心功能:存储和管理海量信息,让智能体在交互中不断积累经验,从而为用户提供千人千面的个性化服务体验。数据与知识基座底层存储架构支撑

记忆的持久化与可追溯性短期记忆(Short-term)👤类比:人类的“工作记忆”🎯作用:维持单次对话上下文连贯性。例如,记住当前谈论的“订单”具体是哪一笔。⚡特点:数据临时存储,任务结束或超时后自动清除。长期记忆(Long-term)🧠类比:人类的长期记忆系统📚作用:沉淀用户偏好、历史交互记录及专业领域的知识图谱。如记住用户喜欢的灯光亮度、行业标准数据等。📦特点:海量容量,持久化存储,可跨会话调用。PART03智能体开发平台AGENTDEVELOPMENTPLATFORM从想法到应用:开发平台概览现在,构建一个智能体不再需要从底层编写复杂代码。各大科技公司和开源社区提供了强大的开发平台,极大地降低了开发门槛,让创意能更快速落地为实际应用。大厂生态型依托巨头技术底座与流量生态,

功能集成度高,能快速接入应用场景。

代表:字节Coze、百度文心、腾讯元宝开源框架型支持私有化部署,灵活度极高,

适合开发者定制化深度开发。

代表:Dify、FastGPT专业领域型深耕垂直领域,解决特定行业痛点,

具备深厚的行业Know-how。

代表:蚂蚁数科Agentar(金融领域)平台选型指南:如何选择适合你的平台?01.核心选型四大维度技术架构自主性自研引擎决定定制上限与扩展能力数据安全与合规是否支持私有化及等保三级认证行业Know-How深度有无成熟行业案例与解决方案模板开发门槛与生态低代码能力与企业现有软件集成度02.决策路径流程图Q1:企业数据隐私要求极高?✅是:直接锁定支持私有化部署平台(如:Dify,蚂蚁数科Agentar)❌否:继续向下,根据“生态归属”选择Q2:所处生态与开发目标?•字节生态/快速验证:Coze|百度生态:文心智能体•腾讯生态:元宝|技术探索/深度定制:Dify(开源)主流平台横向对比字节Coze(扣子)核心定位:低门槛智能体创建平台,面向全场景的AI应用构建工具。开发门槛:极低(零代码拖拽即可完成智能体配置)私有化能力:有限,以字节官方云端部署为主。适用场景:快速原型验证、自媒体内容创作、互联网运营辅助。百度文心智能体核心定位:依托文心大模型生态,提供内容创作与场景化服务。开发门槛:零代码,支持快速配置与发布。私有化能力:有限,主要基于百度云平台。适用场景:电商营销推广、企业内容生产及百度生态用户接入。D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论