模块3-GenAI与基础应用AIGC

上传人：h*** IP属地：山东上传时间：2026-06-24 格式：PPTX 页数：25 大小：399.21KB 积分：15 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

03模块三GenAI与AIGC《人工智能——AIGC通识教程》武汉职业技术大学数智商务学院《人工智能——AIGC通识教程（微课版）》本模块内容0101生成式AI基础原理0202大语言模型（LLM）0303AI图像生成技术0404AI视频与音频生成0505AI代码生成0606AIGC伦理初探201生成式AI基础原理从判别到生成的技术跨越3判别式AIvs生成式AI判别式AI•输入数据→输出类别•学习数据边界•如：图像分类、垃圾邮件过滤•擅长：是非题生成式AI（GenAI）•学习数据分布•能创造新内容•如：ChatGPT、Midjourney•擅长：创作题VS4生成模型技术演进12014年GAN对抗生成网络：生成器与判别器博弈，开创图像生成22015年VAE变分自编码器：学习数据潜在空间，可控生成32017年Transformer架构：注意力机制，奠定大模型基础42021年扩散模型（DDPM）：从噪声中逐步还原图像52022年ChatGPT发布：大语言模型的商业化突破62024年多模态大模型：文字、图像、语音、视频统一处理5扩散模型工作原理正向过程（加噪）：逐步向图像添加高斯噪声，直到变为纯噪声反向过程（去噪）：训练神经网络逐步去除噪声，还原图像条件生成：通过文本描述引导去噪方向，实现文生图代表模型：DALL-E3、StableDiffusion、即梦AI优势：生成质量高，可控性强，多样性好602大语言模型（LLM）当代AI最重要的技术突破7大语言模型发展里程碑12018年BERT（Google）：双向Transformer，NLP预训练新范式22020年GPT-3（OpenAI）：1750亿参数，涌现能力令人震惊32022年ChatGPT：RLHF对齐技术，AI对话体验质的飞跃42023年GPT-4：多模态理解，通过律师/医生资格考试52024年DeepSeek-R1：中国开源大模型，推理能力媲美GPT-462025年大模型百花齐放：Claude/Gemini/Llama/通义/文心8LLM的核心能力1文本生成：写作、摘要、翻译、改写，模仿任何文体风格2推理分析：数学推导、逻辑分析、因果推断3代码生成：理解需求，自动生成Python/JavaScript等代码4多轮对话：记忆上下文，进行连续深度对话5知识问答：海量知识编码，快速准确回答各类问题6角色扮演：扮演专家、历史人物、虚构角色9主流大模型横向对比国际模型•GPT-4o（OpenAI）：综合能力最强•Claude3.5（Anthropic）：长文档处理•GeminiUltra（Google）：多模态优秀•LLaMA3（Meta）：开源可本地部署国内模型•DeepSeek-R1：推理能力强，完全开源•文心一言（百度）：中文理解优秀•通义千问（阿里）：多模态、长上下文•豆包（字节）：创意写作与工具集成VS10LLM的局限性与应对幻觉问题：模型可能生成听起来合理但实际错误的内容知识截止：训练数据有截止日期，无法了解最新事件上下文窗口：一次对话处理的文字量有上限解决方案1：RAG检索增强——实时联网或知识库补充解决方案2：工具调用——让AI执行搜索、计算、API请求最佳实践：重要信息务必交叉验证，不盲目信任AI1103AI图像生成技术从文字到图像的创意革命12文生图技术栈输入：自然语言描述（Prompt）+可选参考图处理：CLIP文本编码→扩散模型去噪→解码器输出输出：高分辨率图像，可指定风格、比例、细节主流工具：即梦AI（国内）、Midjourney、DALL-E3、Firefly关键参数：采样步数、CFG引导强度、种子值、宽高比13AI图像生成典型应用1电商设计：商品主图、促销Banner、包装设计，效率提升10倍2广告创意：概念海报、品牌物料、视觉方案快速原型3游戏开发：角色设计、场景概念图、纹理贴图4出版插图：书籍封面、教材配图、新闻配图5个人创作：艺术探索、头像生成、表情包制作1404AI视频与音频生成时间轴上的AIGC革命15AI视频生成工具对比国内工具•即梦AI：高质量文生视频，支持5-10秒•可灵（快手）：120秒长视频，动态效果逼真•海螺AI（MiniMax）：专业级视频生成国际工具•Sora（OpenAI）：物理世界模拟•RunwayGen-3：电影级视频生成•Pika：简单易用，创意表达VS16AI音乐与音频生成AI作曲：Suno、网易天音、天工音乐——输入风格描述，生成完整歌曲AI配音：ElevenLabs、微软AzureTTS——克隆人声，多语言配音AI音效：生成背景音乐、环境音效、Podcast配乐声音克隆：只需30秒录音，AI还原你的声音（需注意使用边界）应用场景：短视频配乐、有声书制作、游戏音效、广告配音1705AI代码生成让每个人都能编程的技术18AI辅助编程工具GitHubCopilot：IDE插件，实时代码补全与生成TraeSolo：字节跳动推出，AI原生编程工具DeepSeekCoder：开源代码模型，本地部署可用Cursor：AI驱动的代码编辑器，支持整项目理解ReplitAI：在线IDE，AI辅助项目搭建19AI代码生成的工作流1需求描述：用自然语言描述你想要的功能2代码生成：AI自动生成完整代码片段或函数3理解审查：理解代码逻辑，验证正确性4调试优化：向AI反馈错误，获得修复建议5文档生成：让AI自动为代码生成注释和文档2006AIGC伦理初探技术的边界与责任21AIGC的机遇与挑战机遇•创作效率大幅提升•降低创作门槛•新的职业形态诞生•个性化内容体验挑战•深度伪造与虚假信息•版权归属争议•创意产业冲击•学术诚信问题VS22AIGC版权与合规现行法律：AI生成内容在中国不自动享有著作权（2024年司法解释）AI+人工创作：当人工构成主要创作贡献时可能受版权保护内容标注：按《生成式AI服务管理暂行办法》要求标注AI生成商业使用：各平台授权协议不同，商用前需仔细阅读条款学术使用：AI辅助创作需在论文中如实说明23模块小结GenAI核心技术：GAN→VAE→扩散模型→Transformer，生成能力不断突破LLM是当前AI最重要突破，DeepSeek等国产模型达国际先进水平AIGC覆盖文本、图像、视频、音频、代码全领域即梦AI、Suno、DeepSeek是高职生最易上手的AIGC工具AIGC带来效率革命的同时，伴随版权、伦理、安全挑战合理合规使用AIGC，避免深度伪造、学术不诚信等风险24本模块学习要点回顾1✓生成式AI：从判别到生成的技术跨越，扩散模型是核心2✓

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

模块3-GenAI与基础应用AIGC

文档简介

温馨提示

最新文档

评论

模块3-GenAI与基础应用AIGC

文档简介

温馨提示

最新文档

评论

相关文档