版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多模态大模型与AIGC应用从沟通到创作:AI时代的“全能创作力”养成计划山西职业技术学院
蔡息技术基础和人工智能通识教育系列讲座(三)目录CONTENTS0102多模态大模型从“单通道”到“全能AI”的进化03AIGC到底是什么定义、全品类内容与核心价值04核心应用场景图文、音视频、综合创作与专业落地05实战演练10分钟做出你的第一个AIGC作品06风险与伦理理性、安全地使用AI总结与展望系列课闭环与未来趋势课程开场:回顾与衔接第一场回顾:认知AI模型AI模型=数据+学规律+解问题我们知道了AI有四大模型,而其中最火、最能激发我们想象力的,就是生成模型。它就像一个不知疲倦的创意大师。第二场回顾:掌握提示词工程提示词工程=角色+任务+要求+输出格式我们学会了如何用这门“通用语言”和AI高效沟通,让它成为我们的得力助手,精准地理解并执行指令。从“单文本生成”到“跨模态创作”的全面升级如果我们的指令只有文字,AI的世界是不是有点单调?如果我们想让AI看懂一张照片,听懂一首歌,甚至把一段文字变成一部电影,该怎么办?今天,我们将解锁AI更多的可能。本场定位与目标本场定位能力升级从单文本生成→跨模态理解与创作认知升级从理论认知→实战落地,拒绝纸上谈兵讲座目标01理解·Understand多模态大模型是什么?为什么它如此强大?02掌握·MasterAIGC在学习、生活、专业中的实用玩法与技巧。03创作·Create学会用“提示词+多模态工具”完成一个完整的作品。什么是多模态大模型?核心概念:模态(Modality)即信息的存在与呈现形式,包含但不限于:文字、图片、音频、视频、3D模型、各类传感器数据等。它是AI理解和交互世界的“语言”。单模态(Single-modal)只能处理和理解一种类型信息的AI,能力相对单一。
•典型例子:纯文本对话大模型、早期只能生成单一图片的文生图模型。多模态(Multi-modal)具备看懂、听懂、读懂多种信息,并能在不同形式间自由转换和生成内容的AI。
•关键能力:跨模态转换(Cross-modalTransformation)🗣️单模态AI≈“只会说中文的人”当你用英文跟他说“Drawacat”,他无法理解你的意图,更无法行动。🎨多模态AI≈“精通多国语言的艺术家”你用中文描述“一只在樱花树下打盹的猫”,他能立刻将文字转化为一幅栩栩如生的画作。多模态vs传统单模态单模态大模型📝输入/输出:仅支持纯文字形式进行交互🚀核心能力:聚焦文本处理,擅长文案撰写、知识问答、代码编写等纯文本任务,能力边界受限于单一的文字信息维度。多模态大模型🖼️输入/输出:支持文字、图片、音频、视频等多种格式混合交互✨核心能力:实现跨媒体理解与生成,如图文深度理解、文生视频、看图说话及长视频智能总结,打破单一维度限制,构建全方位的复杂信息交互平台。从“单向问答”进化到“多模态交互”,大模型不再局限于单一文本工具,而是成为能够处理和生成复杂信息的综合创作平台,释放了无限的生产力潜力。核心技术逻辑(简化版)01统一编码UnifiedEncoding把文字、图片、声音等所有信息,都转换成AI能理解的统一“数字语言”(向量)。就像把所有语言都翻译成世界语。02跨模态对齐Cross-modalAlignment让不同模态的信息“对应”起来。比如,让AI明白“猫”这个词,和一张猫的图片,以及猫的叫声,都指向同一个概念。03生成解码GenerativeDecoding根据你的指令,从AI的“世界语”知识库中,生成你想要的任何模态内容。比如,把“猫”的概念,解码成一段视频。主流多模态大模型视频生成王者:字节跳动Seedance2.0能力:支持文/图/音/视频多模态输入,可直接生成高清电影级视频,表现力行业领先。案例:2026年央视春晚视觉特效制作、知名导演贾樟柯实验性短片《贾科长Dance》。通用多模态巨头GPT-4V·豆包多模态·Claude3拥有极其强大的跨模态理解与生成能力,能够无缝处理和关联文本、图像、音频等信息。不仅是科研与创作的利器,更是日常学习、工作与生活中高效的“全能型”助手。垂直领域专家医学影像诊断·工业智能检测结合CT、MRI、病理切片等辅助医生快速识别病灶;整合机器视觉、声音分析与传感器数据,实现产线产品缺陷的毫秒级自动检测,大幅提升专业领域的生产与服务效率。主流多模态大模型案例展示2026年央视春晚·视觉特效基于Seedance2.0技术支持,实现了令人惊叹的视觉特效与虚拟场景构建,为全球观众呈现了一场融合了AI技术的科技盛宴。贾樟柯短片《贾科长Dance》短片中出现的两个“贾樟柯”角色,均由多模态AI生成,形象逼真、动作自然,真假难辨,展现了AI在影视创作中的无限潜力。医学影像·AI辅助诊断结合CT、MRI、病理报告等多模态数据,AI辅助医生快速识别病灶,分析复杂的医学影像,大幅提升诊断效率与准确率。AIGC到底是什么?01/全称定义AIGeneratedContent即“人工智能生成内容”,指利用人工智能技术自动生成文本、图像、音频、视频等各类信息内容的技术与方式。02/核心本质多模态生成模型的商业化落地它是底层AI大模型能力与人类生产生活需求的结合点,通过将复杂的AI能力转化为具体可用的工具和产品,来解决真实场景中的效率与创造问题。03/模型与应用的关系如果说“多模态大模型”是提供动力的核心引擎,那么“AIGC”就是由这个引擎驱动的、在不同赛道奔跑的各类“汽车”(应用)。AIGC覆盖的全品类内容文本Text论文、代码、演讲稿、营销文案、新闻稿件、小说故事图像Image海报、插画、表情包、产品设计图、建筑效果图、艺术创作音频Audio配音、背景音乐、AI翻唱、有声读物、播客脚本、环境音效视频Video短视频、宣传片、MG动画、虚拟人直播、影视特效、视频剪辑脚本3D建模游戏模型、产品原型、虚拟场景、数字人、3D打印模型、工业设计AIGC能做什么?几乎涵盖了我们能想到的所有内容形式。任何需要创造力的领域,AIGC都能插上一脚,甚至带来颠覆性的改变。AIGC的核心价值(对接学生场景)01降低创作门槛场景:不会PS?用文生图做课程作业海报。
不会PR?用文生视频做小组展示开场动画。让每个人都能成为“创作者”02提升效率场景:几小时才能画完的插画,AIGC几分钟搞定。
几天才能写完的文献综述,AIGC帮你快速生成初稿。把时间还给思考和创意03激发创意场景:灵感枯竭时,让AIGC生成几十个不同风格的方案供你选择。快速尝试不同的视觉和叙事风格,低成本试错。成为你的“灵感缪斯”核心应用场景1:图文多模态01/文生图📝核心任务:用简单的自然语言提示词,生成海报、PPT配图、课程作业插画等。“为一场关于‘人工智能伦理’的讲座设计一张海报,风格为赛博朋克,主色调为蓝色和紫色,画面中心是一个发光的大脑,周围环绕着代码流。”02/图生文✍️核心任务:上传任意图片,让AI分析画面内容,快速生成社交媒体文案、产品解说词、创意故事等。📸示例:上传一张秋天的校园银杏大道风景照,让AI为你写一段优美的朋友圈文案。03/图文互转🔄核心任务:将长篇课程笔记一键转化为结构化思维导图,快速梳理知识脉络;或根据论文中的文字描述,自动生成数据图表。📊价值:大幅降低整理信息的时间成本,提升学习与研究效率。核心应用场景2:音视频多模态01文生视频任务:输入一段文字描述,直接生成带有画面、配音、配乐的高清视频。案例:输入“一个宇航员在火星表面发现一朵蓝色的花...”,即可生成一段科幻短片。02图生视频任务:上传一张照片,让它“动起来”,赋予静态画面动态的生命力与叙事感。案例:上传一张家人的老照片,AI将其生成为一段温馨的动态纪念视频。03视频生文任务:上传一段视频,AI自动识别内容并生成精准的字幕、核心摘要,甚至营销文案。案例:看完一场精彩的行业讲座,上传录屏,AI快速为你整理出完整的文字笔记。核心应用场景3:跨模态综合创作01文字写脚本使用文本大模型生成视频脚本,定义叙事逻辑与核心台词。02图片生成分镜将脚本中的关键场景,通过文生图工具快速生成高保真概念分镜图。03视频生成成片将生成的脚本与分镜图结合,喂给文生视频工具,自动生成流畅的视频片段。04音频自动配音AI自动识别文本生成情感丰富的旁白,并智能匹配背景音乐与环境音效。适用场景
USECASES全流程AI辅助,
提升内容生产效率课程汇报
开场视频毕业设计
成果展示自媒体
内容创作校园社团
创意宣传核心应用场景4:专业领域落地计算机/软件工程应用:多模态数据集标注、模型微调、AI产品原型设计。利用技术优势构建更智能的底层逻辑与交互。文科(中文/新闻/广告)应用:AI辅助内容创作、文献图文总结、新媒体运营。让创意写作与内容传播更高效、更具传播力。艺术设计(美术/动画/数媒)应用:AI绘画、AI生成动画短片、数字艺术创作。释放无限想象力,探索数字艺术创作的全新边界。工科(机械/建筑/电子)应用:生成工业设计图、产品效果图、建筑可视化、制作演示动画。加速设计与工程落地,实现所见即所得。实战演练:10分钟做出AIGC作品任务发布利用多模态AI技术,快速构思并完成一个“课程宣传短视频”的脚本与分镜设计。创作目标为今天的讲座量身打造,输出一条时长约15秒的短视频文案与画面描述,能直观吸引受众。推荐工具推荐使用免费且高效的多模态AI工具,例如“豆包多模态”或“即梦AI(Seedance体验版)”进行生成。实战演练:步骤拆解01写脚本💡公式:角色+任务+要求+输出格式“你是一个专业的短视频编剧,请为一场名为‘多模态大模型与AIGC应用’的大学讲座,创作一个15秒的宣传短视频脚本。要求内容吸引人,节奏明快,突出‘从沟通到创作’的核心亮点。输出格式为分镜脚本。”02生成封面🎨重点:明确画面主题与视觉风格“根据脚本,生成一张具有科技感的封面图,主题是‘AI与人类共创’,风格为现代简约,画面比例要求为横版16:9。”03生成视频📽️进阶提示词=文本指令+视觉+音频+风格“请根据以下脚本生成一段15秒的视频:[脚本内容]。视频风格要求:现代、简洁、科技感。背景音乐要求:轻快、富有未来感的电子音乐。旁白要求:使用清晰、有活力的女声。”风险与伦理版权问题现状:AIGC生成内容的版权归属目前仍在法律探讨中,缺乏明确界定。建议:用于个人学习和非商业用途通常无风险,商业使用需格外谨慎。真实性问题风险:深度伪造(Deepfake)技术可能被滥用,制造极具欺骗性的虚假信息。建议:保持独立思考和信息辨别能力,不轻信未经权威证实的音视频内容。数据安全问题风险:向AI平台上传个人隐私照片、视频或敏感文档,可能面临数据泄露风险。建议:不要上传身份证、人脸照片、机密文件等敏感隐私数据。理性使用AI是一个强大的工具,它可以辅助创作、提升效率,但它无法替代人类独特的原创思考、情感共鸣与价值判断。请记住,AI应该是你的能力“放大器”,而不是思维的“替代品”。总结与展望01认知AI模型·是什么从底层逻辑出发,建立对AI大模型的基础认知与科学理解。02提示词工程·
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机械检修安全规程讲解
- 矿山安全生产誓言讲解
- 2026年一级建造师历年仿真题解析
- 2026年环境监测安全员招聘笔试题
- 2026年知识守护生命主题班会
- 2026年一级建造师之一建工程法规考前冲刺模拟题库带答案详解(综合卷)
- 2026年二建市政工程案例专项突破
- 2026年人社部健康管理师模拟试卷及答案
- 2026年健身教练技能考核题
- 2026年职业规划专业知识技能
- 园林植物病虫害-电子教案
- 2023年山东省国有资产投资控股有限公司招聘笔试参考题库含答案解析
- Creo-7.0基础教程-配套课件
- 2023年重庆市高考化学试卷(解析版)
- 公职人员政务处分法ppt
- 拉杆钢结构雨篷计算
- XXXX年调资工资软件操作说明
- 浙江省公路机电工程施工统一用表v表格体系
- 2023年副主任医师(副高)-疾病控制(副高)考试高频试题(历年真题)带答案
- 新加坡环境治理与保护
- 地震成因及作用
评论
0/150
提交评论