03模块三-GenAI与应用技术AIGC_第1页
03模块三-GenAI与应用技术AIGC_第2页
03模块三-GenAI与应用技术AIGC_第3页
03模块三-GenAI与应用技术AIGC_第4页
03模块三-GenAI与应用技术AIGC_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模块三GenAI与AIGC人工智能AIGC通识教程高职通识课程学习目标知识目标素养目标能力目标能够辨析不同AIGC技术的特点和适用场景具备使用主流AIGC工具的基本能力能够使用AI生成图片、视频、音频等内容具备使用AI辅助编程的能力能够将AIGC技术应用到实际场景中理解生成式AI(GenAI)的定义、原理和技术分类掌握AIGC的核心技术原理和应用领域树立创新意识,培养AI时代的创造力培养批判性思维,理性看待AI生成内容增强版权意识和伦理观念了解AI大语言模型的概念和训练方法激发探索精神,关注AIGC技术前沿发展熟悉AIGC多模态生成技术(图片、视频、音频)掌握AIGC应用编码技术(HTML、Markdown、Python、JSON)培养终身学习能力,适应技术快速变革单元一GenAI概述生成式人工智能(GenerativeAl,简称GenAI)是人工智能领域的革命性突破,它能够创造出全新的内容,包括文本、图像、音频、视频等多种形式。从ChatGPT到Midjourney,从文生图到文生视频,GenAI正在深刻改变内容创作的方式,释放人类的创造力。这不仅是技术的革命,更是生产力的革命。创造性·多样性高效性GenAl让AI从'理解"走向'创造"GenAI的定义与基本原理什么是生成式AI核心原理基于大规模预训练模型,学习海量数据中的模式和规律,通过概率模型生成新的内容,生成的内容具有多样性和创造性生成式AI(GenerativeAI)是一种人工智能技术,它能够学习数据中的模式和规律,生成全新的、与训练数据相似但不完全相同的内容,包括文本、图像、音频、视频、代码等多种形式,是AI从"感知理解"到"创造生成"的重要跨越与传统AI的区别关键技术传统AI:分析、判断、预测,如:分类、识别、推荐预测,输出的是对输入的理解和判断;生成式AI:创造、生成、设计,如:写作、绘画、作曲、编程,输出的是全新的内容和创意深度学习和神经网络,Transformer架构,大规模预训训练+微调,扩散模型、GAN等,多模态融合技术输入→AI模型→输出新内容GenAI的技术分类文本生成图像生成生成各种类型的文字内容包括文章、对话、摘要、翻译等代表:GPT系列、文心一言、豆包应用:内容创作、智能客服、代码生成根据文字描述生成图片包括写实、艺术、设计等多种风格代表:Midjourney、StableDiffusion、文生图应用:设计、广告、游戏、教育多模态生成音频生成生成语音、音乐、音效等音频内容包括语音合成、音乐创作、声音克隆代表:豆包音乐、讯飞星火应用:有声书、音乐创作、语音助手融合多种模态的输入和输出文本、图像、音频、视频相互转换实现更丰富的创作体验代表:GPT-4o、Gemini、豆包4.0视频生成代码生成根据文字或图片生成视频内容包括数字人、场景生成、视频编辑代表:即梦AI、可灵AI、Runway应用:短视频、广告、影视制作根据需求生成程序代码支持多种编程语言辅助编程、调试、文档生成代表:GitHubCopilot、Qwen3-CoderGenAI技术正在快速发展,新的应用场景不断涌现GenAI的应用领域与优势效率提升大大提高内容生产效率;几分钟完成过去几小时的工作;释放人力从事更有创造性的工作内容创作企业服务科研创新教育培训成本降低文章写作、文案策划;创意设计、插画创作;频脚本、音乐乐创作;游戏设计、剧本杀杀等营销文案和广告创意;户服务和智能客服;智降低内容生产成本;减少对专业人员的依赖;让更多人能够进行创作个性化学习内容生成;智能辅育辅导和答疑;教育资源制作;语言学习和练习论文写作和文献综述;实验综述;实验设计和数共和数据分析;科学发现创新探索;跨学科研究辅客视创意激发数据分析和报告生成;产品设计和原型开发提供无限的创意可能性;突破人类思维的局限;;辅助人类进行创新助个性化定制GenAI正在千行百业中释放创造力,推动内容生产的革命根据用户需求生成定制化内容;满足个性化和多样化需求;实现千人千面的内容体验Al超级个体训练:Qwen3-Coder代码生成功能体验代码生成:根据需求描述生成代码,代码补全:自动补全代码片段,代码解释:解释代码的功能和原理,代码优化:提供优化建议,Bug修复:帮助找出和修复代码问题,多语言支持:Python、Java、C++等Qwen3-Coder是阿里云推出的代码大模型,专门针对编程场景进行优化,支持多种编程语言和开发场景,是程序员的得力助使用场景手。学习编程:辅助学习新的编程语言,项目开发:快速生成项目原型,代码审查:检查代码质量和安全,算法实现:快速实现各种算法文档生成:自动生成代码注释和文档学习收获了解AI辅助编程的能力和局限,掌握使用AI提高编程效率的方法,培养计算思维和问题解决能力,激发对编程和AI的兴趣单元二AIGC概述AIGC(AIGeneratedContent,人工智能生成内容)是生成式AI的重要应用领域,指利用人工智能技术自动生成各种形式的内容。从文字到图片,从音频到视频,AIGC正在重塑内容创作的方式,让每一个人都能成为内容创作者。AIGC不仅是技术工具,更是创意的放大器和生产力的解放者。降低创作门槛·提高生产效率·激发创意灵感·丰富内容生态AIGC时代,人人都是创作者AIGC的技术原理核心技术基础关键技术路径技术发展趋势扩散模型(Diffusion)目前图像生成的主流技术,通过逐步去噪生成图像,生成质量高,细节丰富,代表:StableDiffusion、DALL-E生成对抗网络(GAN)生成器和判别器对抗训练,生成逼真的图像和视频,风格多样,创意性强,代表:StyleGAN、CycleGAN大语言模型(LLM)基于Transformer架构,理解和生成自然语言,具备推理、创作等能力力,代表:GPT系列、Qwen、豆包多模态融合:文本、图像、音频、视频融合,实现更丰富的交互和创作,是未来发展的重要方向轻量化和端侧部署:模型压缩和优化,在手机、PC等终端设备运行,更快的响应速度,更好的隐私保护可控性和可解释性:提高生成内容的可控性,让AI生成的结果更符合预期提高AI决策的可解释性大规模预训练模型:在海量数据上进行训练,学习语言、图像等的模式和规律,参数量从数亿到数千亿不等,参数量越大,能力通常越强Transformer架构:当前大模型的主流架构,注意力机制(Attention)是核心,能够捕捉长距离依赖关系,并行计算能力强,训练效率高AIGC内容类型与质量评评估文本内容准确性创意性合规性文本内容照片、插画、设计稿;Logo、海报、宣传图;Logo、海报、宣传图;内容是否准确,有无错误;事实是否清晰;是否符合客观规律和常识内容是否准确,有无错误;事实是否正确,逻辑是否清晰;是否符合客观规律和常识文章、博客、新闻报道;营销文案、广告脚本;音频内容诗歌、小说、剧本;代码、文档、邮件照片、插画、设计稿;Logo、海报、宣传图;游戏素材、动漫角色游戏素材、动漫角色;歌曲素材、音效、配色;建筑效果图、产品设计图内容是否有新意和创意;是否能带来灵感和启发;风格是否独特和有吸引力内容是否有新意和创意;是否能带来灵感和启发;风格是否独特和有吸引力图像内容有声书;内容播报有实际价值;语用成;音效、配音;是否能满足用户的需求;是否易于理解和使用是否符合法律法规;是否符合伦理道德;是否侵犯版权和隐私;是否存在安全隐患音乐创作、歌曲生成;视频内容数字人视频;动画、特效;电影预告片短视频、宣传片;数字人视频;数字人声音语音克隆数字人声音电影预告片高质量的AIGC内容需要兼顾准确性、创意性和实用性AIGC在各领域的应用媒体与内容教育与培训设计与创意新闻稿件自动撰写、营销文案和广告创意、社交媒体内容生成、内容个性化推荐教材和课件制作、个性化学习内容生成、智能题库和试卷生成、虚拟教师和数字人教学平面设计、Ul设计,产品设计、建筑设计,游戏美术和场景设计,服装设计、品牌设计娱乐与游戏医疗与健康科研与创新游戏剧情和角色生成、音乐和音效创作、虚拟偶像和数字人、剧本杀、互动叙事论文写作和文献综述、实验数据分析和可视化、科学发现和假说生成、专利分析和技术趋势预测医学影像分析和报告、健康宣教内容生成、个性化健康建议、医疗知识问答AIGC正在渗透到各行各业,创造无限可能AI超级个体训练:豆包AI口语陪练豆包AI提供智能口语陪练服务,可以随时随地进行行英语口语练习,支持多多种场景对话,发音标准准,还能实时纠正语法和用词错误,是学习英语功能体验日常对话练习:模拟真实生活场景对话;话题讨论:就特定话题进行深入交流;发音纠正:指出发音问题并示范正确读法;语法纠错:实时纠正语法和用词错误;角色扮演:模拟不同场景的角色扮演学习场景的好帮手。日常交流:提高日常口语表达能力;职场英语:面试、会议、商务谈判;考试备考:雅思、托福、四六级口语;出国旅游:旅行常用对话和表达学习收获提高英语口语表达能力;增强英语学习的兴趣和信信心;了解不同场景的英语表达方式;培养英语思维和跨文化交际能力AI让语言学习更高效、更有趣单元三AI大语言模型大语言模型(LargeLanguageModel,LLM)是AI领域的重大突破,它通过在海量文本数据上进行训练,获得了理解和生成自然语言的能力。从ChatGPT到文心一言,从GPT-4到豆包,大语言模型正在改变我们与计算机交互的方式,也在改变着我们的工作和生活。大言模型不仅是对话机器人,更是知识引擎、创意伙伴和生产力工具。语言理解能力知识推理能力内容生成能力大语言模型是AI时代的重要基础设施什么是AI大语言模型定义发展历程早期阶段(2017年前)基于统计模型和深度学习,如RNN、LSTM等,主要有力限,主要用于特定任务大语言模型(LargeLanguageModel,LLM)是一种基于深度学习的自然语言处理模型,通过在大规模文本语料上进行预训练,学习语言的规律、知识和逻辑,能够理解和生成自然语言文本Transformer时代(2017-2019)2017年Transformer架构提出,GPT-1、BERT等模型出现,预训练+微调成为主流范式核心特点大模型时代(2020-2022)GPT-3出现,参数量达1750亿,展现出强大的通用能力,国内大模型纷纷涌现规模大:参数量从数十亿到数千亿;能力强:理解、生成、推理、创作;通用性:适用于多种任务和场景;涌现性:规模达到一定程度后出现新能力多模态时代(2023至今)GPT-4、Gemini等多模态模型出现,支持文本、图像、音频等多种输入,能力更强,应用场景更丰富大语言模型训练方法与技术第一阶段:预训练(Pre-training)第二阶段:微调第二阶段:微调(Fine-tuning)核心技术在大规模通用语料上进行训练学习语言规律、世界知识和逻辑推理是模型能力的基础数据量:万亿级Toker特点:通用性强,知识丰富Transformer架构和注意力机制大规模分布式训练技术大规模分布式训练技术混合精度训练和显存优化位置编码和上下文扩展MoE(混合专家)架构推理优化技术模型压缩和量化KV缓存优化推测解码在特定任务数据上进一步训练在特定任务数据上进一步训练让模型更好地适应特定场景提高在具体任务上的表现常见方法:SFT(监督微调)、LoRA等特点:针对性强,任务表现好第三阶段第三阶段:对齐(Alignment)让模型的输出符合人类的价值观和期望RLHF:基于人类反馈的强化学习提高模型的有用性、诚实性和安全性是模型从"能用"到"好用"的关键包括:指令遵循、安全性、伦理对齐等推理优化技KV缓存优化推测解码分布式推理通用型AI大模型VS推理型AI大模型通用型AI大模型推理型AI大模型在推理和逻辑方面能力更强;擅长复杂问题的分析和解决;思维链(ChainofThought)能力突出;数学、编程、逻辑推理能力强复杂问题解决能力强;逻辑推理更严谨;编程和数学能力突出;适合专业和技术场景特点功能全面,适用于多种场景;能力均衡,综合表现好;理解和生成能力强;适用人群广泛特点优势优势VS适用场景多,通用性强;对话体验流畅自然;知识覆盖面广;综合能力突出代表产品01、01、o3;DeepSeek-R1;Qwen3-Coder;豆包推理模型代表产品GPT-4o、GPT-4;Claude3;文心一言;豆包4.0;Qwen3适用场景复杂数学问题;程序开发和调试;逻辑推理和分析;科学计算和研究:复杂方案设计日常对话和问答;内容创作和写作;学习和教育;通用办公场景适用场景不同类型的模型各有优势,根据具体场景选择合适的模型。选择对的模型,事半功倍。AI超级个体训练:大模型应用实践通过实际使用不同类型的AI大模型,了解它们各自的特点和优势,学会根据不同场景选择合适的AI工具,提高使用AI解决实际问题的能力。对比维度文本生成能力:写作、摘要、翻译逻辑推理能力:数学、逻辑、分析代码生成能力:编程、调试、解释代码生成能力:编程、调试、解释多模态能力:图片理解、视频分析响应速度和使用成本实践任务评估总结学习收获任务1:用不同模型写同一主题的文章任务2:用不同模型解同一道数学题任务3:用不同模型生成同任务4:用不同模型生成同一段代码任务4:用不同模型分析同一张图片不同模型的优势和劣势不同场景下的最佳选择如何组合使用多个模型形成个人的AI工具箱了解主流大模型的特点掌握选型和使用技巧提高AI应用能力培养Al时代的核心竞争力单元四AI生成图片、视频、音频AI不仅能生成文字,还能创作图片、视频和音频,让创意表达更加丰富多彩。从精美的AI绘画到生动的数字人视频,从动听的AI音乐到逼真的语音合成,多模态AIGC正在开启内容创作的新纪元。文字描就能生成丰富的多媒体内容,每个人都可以成为创意导演AI图像生成AI视频生成AI音频生成让创意冲破语言的边界,化作可视可听的精彩AI生成图片:文字秒变艺术技术原理应用场景创意设计:海报、插画、概念图游戏美术:角色、场景、道具设计广告营销:营销素材、产品展示教育培训:教学配图、科普插画建筑设计:效果图、概念方案主要基于扩散模型(DiffusionModel)通过逐步去噪生成清晰图像也有基于GAN、Transformer等技术训练数据包含海量图片和文字描述能够理解文字描述并转化为图像代表工具国内:豆包AI、即梦AI、可灵AI国外:Midjourney、DALL-E、StableDiffusion特点:各有特色,风格和效果不同核心能力文生图:根据文字描述生成图片图生图:根据参考图生成新图图像编辑:局部修改和重绘风格转换:将图片转换为不同风格超分辨率:提高图片清晰度提示词技巧清晰描述主体和场景指定艺术风格和画面氛围添加光影、构图等细节参考艺术家或作品风格使用负面提示词排除不想要的元素图片/绘画AI超级个体训练:体验豆包AI文生图体验内容提示词练习简单描述:"一只可爱的小猫"详细描述:"一只坐在草地上的橘猫,阳光明媚,油画风格"加入风格:"赛博朋克风格的城市夜景,霓虹灯光"加入参数:画面比例、质量、风格强度等文生图:用文字描述生成图片不同风格:写实、插画、动漫、油画等不同比例:正方形、横图、竖图高清生成:生成高分辨率图片创意实践豆包AI集成了强大的图像生成能力,可以通过文字描述生成各种风格的图片,操作简单,使用方便,是学习AI图像生成的理想工具。学习收获为文章配图:根据文章内容生成插图设计海报:生成活动海报和宣传图创作头像:设计个性化头像创作场景概念:设计游戏场景和角色掌握AI图像生成的基本方法学会编写有效的图像生成提示词培养视觉创意和审美能力了解AI图像生成的能力和局限AI生成视频:让创意动起来技术原理应用场景基于扩散模型和Transformer架构将文本或图像转换为视频序列;学习视频的时序和运动规律;生成连贯自然的动态画面短视频创作:快速生成短视频内容;数字人视频:虚拟主播、数字员工;广告营销:教育培训:教学动画、课程视频;游戏影视:场景预览、特效制作告营销:产品展示、品牌宣传主要类型代表工具创作流程文生视频:纯文字描述生成视频图生视频:静态图片生成动态视频视频风格转换:改变视频的艺术风格数字人生成:生成数字人口播视频国内:即梦AI、可灵AI、豆包国外:Runway、Pika、Sora特点:生成质量不断提升,时长逐渐增加确定主题和内容;撰写详细的视频描述;选择视频风格和特点生成视频并进行调整后期剪辑和完善AI超级个体训练:即梦AI文生视频体验功能体验文生视频:用文字描述生成视频;图生视频:将静态图片变成动态视频;视频风格化:将视频转换为不同艺术风格;数字人生成:生成数字人口播视频实践任务即梦AI是字节跳动推出的AI视频生成工具,支持文生视频、图生视频等多种功能,生成的视频画面精美,动作流畅,是国内领先的AI视频创作平台。任务1:生成一段自然风光视频;任务2:生成一个数字人介绍视频;任务3:将一张照片变成动态视频;任务4:生成产品宣传短视频创作技巧描述要详细:场景、人物、动作、氛围;指定镜头语言:推、拉、摇、移;选择合适的风格:写实、动漫、油画等;控制视频时长和分辨率;多次生成,选择最好的结果学习收获了解AI视频生成的能力和局限;掌握AI视频创作的基本方法;培养视频创意和叙事能力;展望AI视频的未来发展AI生成音频:声音的魔法应用场景有声读物:小说、文章语音播报虚拟主播:新闻、播客、配音音乐创作:歌曲、背景音乐、音效教育学习:语言学习、听力材料无障碍服务:为视障人士提供语音服务技术分类语音合成(TTS):将文字转换为语音音乐生成:AI创作音乐和歌曲音效生成:生成各种音效和声音效果声音克隆:模仿特定人的声音代表工具豆包音乐、网易云音乐AI讯飞语音、百度语音Suno、Udio等AI音乐工具Suno、各种TTS语音合成引擎核心技术AI音乐创作基于深度学习的音频生成模型Transformer和扩散模型在音频领域的应用声音的数字化表示和特征提取高保真音频生成和优化技术根据文字描述生成歌曲生成完整的词曲唱支持个性化定制和调整指定风格、情绪、乐器降低音频制作门槛提高内容生产效率丰富声音创作的可能性满足个性化的音频需求AI超级个体训练:海绵音乐智能创作功能体验创作实践使用技巧文生歌:用文字描述生成歌曲;风格选择:流行、摇滚、电子、古典等;为短视频创作背景音乐;为诗歌配上旋律;创作生日祝福歌曲;创作生日祝福歌曲;尝试不同风格的音乐创作;用AI辅助进行音乐创作描述要清晰:风格、海绵音乐是一款AI音乐创作工具,只需要输入简单的描述,就能生成完整的歌曲包括旋律、编曲、演唱、唱,让每个人都能成为音乐情绪设置:欢快、悲伤、温柔、激昂等;语言选择:中文、英文等;参数调整:速度、调式、乐器等学习收获创作者。了解AI音乐生成的基本原理体验AI辅助创作的乐趣;描述要清晰:风格、情绪、主题;参考具体的歌曲或艺人风格;指定乐器配置和节奏类型;多次生成,选择满意的版本;后期可以进行编辑和混音培养音乐审美和创作能力;激发创意和想象力;思考AI对艺术创作的影响单元五AIGC应用编码技术AIGC不仅可以生成文本、图片等内容,还可以生成代码,帮助我们进行开发工作。HTML、Markdown、Python、JSON..这些常用的技术都可以借助AI来提高效率。掌握AI辅助编码技术,让你在数字时代事半功倍。AI是程序员的好帮手,也是初学者的好老师。PythonMarkdownJSONHTMLAl让编码更简单,让创意更容易实现HTML:网页的建筑语言什么是HTMLAI在HTML开发中的应用HTM(HyperTextMarkupLanguage)超文本标记语言,是网页的基础用标签来描述网页的结构和内容是学习Web开发的第一步页面结构生成:快速生成HTML骨架样式设计:配合CSS实现美观页面表单创建:快速生成各种表单元素响应式布局:适配不同设备屏幕代码优化:优化HTML结构和性能HTML的作用腾讯元宝HTML生成体验定义网页的结构和内容创建标题、段落、列表、链接等插入图片、音频、视频等多媒体构建表单和交互元素描述页面需求,AI自动生成HTML代码可以指定风格、布局、功能等生成的代码可以直接使用和修改快速创建网页原型和演示学习要点基本结构理解HTML的基本语法和标签学会使用AI辅助学习和开发培养网页设计和布局思维文档类型声明根元素头部,包含元信息主体,包含页面内容了解HTML与CSS、JavaScript的关系NHTMLMarkdown:轻量级文档语言什么是MarkdownAI在Markdown中的应用Markdown是一种轻量级标记语言使用简单的符号来标记文本格式语法简单,易于学习和使用可以快速编写结构化的文档内容生成:AI生成Markdown格式的文档格式转换:将其他格式转换为Markdown文档优化:优化文档结构和表达方式技术文档:生成API文档、技术说明Markdown的特点实践应用笔记记录:快速整理学习笔记文章写作:博客、技术文章文档撰写:项目文档、说明文档PPT大纲:快速制作演示文稿大纲纯文本格式,兼容性好语法简单,学习成本低转换方便,可导出为HTML、PDF等专注内容,让写作更高效常用语法学习收获标题:#一级标题、##二级标题列表:*无序列表、1.有序列表强调:**粗体**、*斜体*链接和图片:[文字](url)代码:'代码"、"代码块"掌握握Markdown的基本语法学会用AI辅助文档写作提高文档编写效率和质量培养结构化思维和表达能力Python:AI时代的编程语言为什么学习PythonPython的应用领域AI在Python开发中的应用代码生成:根据需求生成Python代码,代码补全:智能补全代码片段,代码解释:解释代码的功能和原理,Bug修复:找出并修复代码错误,代码优化:提供性能优化建议人工智能和机器学习,数据分析和可视化,Web开发和网络编程,Web开发和网络编程,自动化脚本和工具开发,科学计算和研究Python是最流行的编程语言之一,语法简洁,易于学习和使用,丰富的库和框架,功能强大,AI、数据分析、Web开发等领域首选基本概念基本概念学习方法变量和数据类型,条件语句和循环,函数和模块,面向对象编程,错误处理和调试变量和数据类型,条件语句和循环,函数和模块,面向对象编程,错误处理和调试用AI辅助学习Python编程,遇到问题先问AI,理解后再实践,让AI解释难懂的概念和代码,通过项目实践提高编程能力注意事项0AI生成的代码可能有错误,需要验证,理解代码原理,不要盲目复制,培养独立思考和问题解决能力,AI是助手,不是替代/PythonJSON:数据交换的通用语言JSON在AI中的应用AI模型的输入输出格式;API接口的数据交换;结构化数据的表示和存储;配置文件和参数设置什么是JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,易于人类阅读和编写,也易于机器解析,基于JavaScript语法,但独立于语言AI生成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论