《AIGC应用实战：写作、绘图、视频制作、直播》-课件王翎子第1-5章认识AIGC -Stable Diffusion的使用方法

上传人：h*** IP属地：山东上传时间：2025-05-08 格式：PPTX 页数：105 大小：30.76MB 积分：25 举报 版权申诉

《AIGC应用实战：写作、绘图、视频制作、直播》-课件王翎子第1-5章认识AIGC -Stable Diffusion的使用方法_第2页

《AIGC应用实战：写作、绘图、视频制作、直播》-课件王翎子第1-5章认识AIGC -Stable Diffusion的使用方法_第3页

《AIGC应用实战：写作、绘图、视频制作、直播》-课件王翎子第1-5章认识AIGC -Stable Diffusion的使用方法_第4页

《AIGC应用实战：写作、绘图、视频制作、直播》-课件王翎子第1-5章认识AIGC -Stable Diffusion的使用方法_第5页

已阅读5页，还剩100页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章认识AIGC

《AIGC应用实战：写作、绘图、视频制作、直播》1.41.11.2AIGC的应用前景AIGC的基本概念AIGC的发展历程1.3AIGC的技术原理目录CONTENTS本章导读学习目标【知识目标】理解AIGC的基本概念和发展历程。了解AIGC的原理和相关应用。【能力目标】对AIGC技术及相关应用有清晰、全面的认识。【素质目标】培养使用AIGC技术的创新性思维。提高个人创作能力，利用AIGC技术，高效开展各类创作工作。AIGC的基本概念PART1.1AIGC是继专业生成内容（ProfessionalGeneratedContent，PGC）、用户生成内容（UserGeneratedContent，UGC）之后兴起的又一个概念。2022年年底，总部位于美国旧金山的人工智能研发公司OpenAI基于GPT-3.5架构推出的聊天机器人程序ChatGPT在全球爆火，使得公众对人工智能的应用前景有了更广阔的想象空间。1.1AIGC的基本概念人工智能（ArtificialIntelligence，AI）的定义较多，目前学界比较认可的是斯图尔特·罗素（StuartRussell）与皮特·诺维格（PeterNorvig）的定义，即人工智能是构建“智能体”（IntelligenceAgent）的研究与设计。人工智能的相关研究涉及数学、计算机科学、工程学等多门学科知识，需要使计算机具备自然语言处理、知识表达、自动推理、机器学习、计算机视觉和语音识别等能力，能够理解、学习数据信息，并基于大量数据信息及时做出决策及执行任务。1.1.1人工智能1.1.2人工智能生成内容人工智能生成内容指的是利用人工智能技术，基于预训练的大模型，通过人机交互，机器能自动生成文本、图像、音频、视频等内容。基于机器学习和自然语言处理等技术，在人机交互的过程中，只需要使用与人类对话的自然语言，即可对人工智能发出指令。不仅如此，人工智能还能够通过海量的数据，学习、理解和模仿人类的语言、图像等创作的规律，生成符合特定要求的全新的内容。具体来说，ChatGPT作为聊天机器人，能够与人类进行实时对话，尽管对话的内容偶有错误，但其语言组织能力与真人几乎没有太大的差异，且能进行多轮对话。人工智能技术发展到今天，已经不再停留在计算机对人的思维判断或行为指令进行简单的复制、模仿，而是使计算机系统具备类似人类智慧和能力的科学与技术应用，而“人工智能生成内容”即AIGC，正是这一技术发展进程中的里程碑之一。1.1.3通用人工智能AIGC的发展历程PART1.2早期实验性探索，如1957年计算机生成音乐作品《依利亚克组曲》，1966年聊天机器人“Eliza”诞生。这一阶段AIGC概念尚未明确，受成本、资本投入等因素限制，应用开发停滞不前。1.2.1萌芽阶段（20世纪50年代至90年代中期）在这一阶段，计算机技术不断发展进步，在硬件方面，GPU（图形处理单元）、CPU（中央处理器）等硬件设备性能不断提升；在软件方面，杰弗里·欣顿等人于2006年提出颠覆性的深度学习算法，使神经网络的能力大幅提高。与此同时，互联网上的海量数据沉淀，也为开展AI训练储备了数据。2012年，微软公司向公众展示了全自动同声传译系统，它主要基于深度神经网络（DeepNeuralNetwork，DNN），自动将英文讲话内容通过语音识别、翻译、语音合成等技术转为中文语音，进一步打开了公众对工智能技术应用的想象空间。1.2.2积累阶段（20世纪90年代后期至21世纪10年代中期）AIGC进入快速发展期，2014年生成对抗网络（GAN）推出，2017年小冰完成首部诗集，2024年Sora生成60s连贯视频。我国AIGC技术也取得进展，如百度文心大模型等，应用领域不断拓展。1.2.3发展阶段（21世纪10年代后期至今）AIGC的技术原理PART1.3自然语言处理（NaturalLanguageProcessing，NLP）是人工智能和语言学的一个交叉领域，它专注于实现人与计算机之间使用自然语言进行有效通信的各种理论和方法，是AIGC可以理解人类语言并能生成人类语言，实现人机交互的技术基础。NLP技术是通过对大量语言数据的分析、学习和模拟，使得AIGC能够理解和生成人类语言的技术，它主要包括以下功能1.3.1自然语言处理（NLP）机器学习（MachineLearning，ML）的核心是研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构来不断提升自身的性能，这是使计算机具有智能的根本途径。机器学习是指利用数据集训练模型，学习数据特征与标签间的关联，通过算法迭代优化模型参数，使模型能准确预测新数据，从而使得计算机能够模拟人类的判别能力。011.3.2机器学习CV使机器“看懂”世界，涵盖图像分割、目标检测、图像分类等技术。图像分割将图像分成特定区域，目标检测识别目标物体，图像分类根据特征区分图像类别。这些技术为AIGC在视觉内容生成和理解方面提供支持。1.3.3计算机视觉（CV）AIGC的应用前景PART1.4AIGC为电商带来变革，如生成营销文案、制作短视频、直播带货等，降低人力成本，提升内容创作效率。同时，AIGC还可用于商品展示、客服咨询等环节，优化用户体验，提高销售效率。1.4.1AIGC与电商——无人值守带货直播在传媒行业，AIGC可用于新闻热点捕捉、信息采集、内容写作、视频创作等，提高新闻生产效率，丰富内容呈现形式。此外，AIGC还能实现内容分发的个性化推荐，增强用户黏性。1.4.2AIGC与传媒——智能化的内容创作AIGC为艺术创作和设计带来新思路，如辅助绘画创作、生成设计方案、实现风格迁移等，提高创作效率，激发创意灵感。同时，AIGC还可应用于产品设计、家居装饰等领域，满足个性化需求。1.4.3AIGC与艺术设计——高效创作与沉浸体验依托“央视听媒体大模型”制作的AI系列动画片《千秋诗颂》1.4.4AIGC与教育——个性化智能助教一方面是面向教师侧的AIGC应用日益丰富。在教学过程中，AIGC可促使教师角色从单一的教授转向使用AI技术辅助教学，在早期，主要应用于基于学生学习情况的个性化学习内容推荐，如拉伊·瓦利（RajE.Valli）团队开发的TabtorMath可以为中小学生提供数学个性化辅导，系统会提供学生的学习情况分析报告，向用户推荐适合该学生的学习内容，为学生提供量身定制的学习计划表。部分学校也建立了教育数据平台，通过AIGC辅助教学，以多维度交互方式提高课上教学效果，实现人类教师“分身有术”，也可根据讲授内容进行智能化辅导。本章小结事实上，AIGC技术已在多个行业开始应用，恰当地利用技术，人机协作开展工作，能有效促进企业降本增效。无论是从事具体工作的一线员工，还是业务团队的负责人，都应当对AIGC技术具有基本认知，并结合自己的岗位和实际的工作场景，积极思考如何利用相关技术，优化工作流程，提升生产效率。谢谢观看第二章AI写作概述《AIGC应用实战：写作、绘图、视频制作、直播》目录CONTENTSAI写作概述AI写作的应用工具AI写作工具的使用技巧2.32.12.2本章导读【知识目标】了解AI写作的基本概念与行业应用情况。熟悉AI写作的平台和工具。【能力目标】掌握AI写作工具的使用方法和技巧。具备使用AI写作工具应对不同工作场景的能力。【素质目标】培养自主学习的意识和能力，合理利用工具提升工作效率。培养自主创新意识和解决实际问题的能力。AI写作概述PART2.1AI写作是利用人工智能文本生成技术，生成各类文本内容。从早期简单规则系统到如今复杂深度学习模型，经历了多阶段发展，如20世纪的基于规则专家系统，到21世纪深度学习模型的广泛应用，不断推动写作技术革新。以OpenAI的GPT模型为例，其通过海量文本数据训练，能够理解上下文并生成高质量文本，体现了AI写作从简单模仿到深度学习的进化过程。定义与发展历程2.1.1AI写作的基本概念2.1.2AI写作的技术特点与人工写作相比，AI写作的优势是显而易见的，其最大的特点就是提高写作效率，AI可以根据给定的关键词、主题或简短提示快速生成大量的文本内容，还能博古通今，旁征博引。许多AI写作工具更支持多种语言，可以帮助公司轻松创建面向不同市场的多语言内容。AI还能学习并模仿特定的文案写作风格，分析目标用户的数据，生成更加符合特定用户群体偏好的文案，提高文案的相关性和吸引力。AI还可以帮助检查语法、拼写和标点符号错误，提高写作质量技术特点AI写作的应用工具PART2.22.2.1风靡全球的聊天机器人——ChatGPTChatGPT由OpenAI开发，是基于生成式预训练模型的对话工具。它具备强大的语言生成和对话能力，可处理多种语言，广泛应用于教育、内容创作等领域。例如，学生可使用ChatGPT获取学习资料和解答问题；作家可借助其灵感激发和内容拓展功能，丰富创作思路。2.2.3多款应用集成平台——讯飞星火科大讯飞发布的讯飞星火认知大模型具备文本生成、语言理解等七大核心能力。它推出多种AI助手和插件，满足不同场景需求，如PPT大纲生成、述职报告撰写等。对于职场人士，讯飞星火可快速生成工作汇报和演讲稿，提高工作效率；在学习场景中，它能辅助完成作业和论文撰写，提升学习效果。2.2.2国产通用大语言模型——文心一言百度推出的文心一言是知识增强大语言模型，拥有丰富语料库。它支持多轮对话，可生成多种类型文本，如市场营销策划、品牌推广文案等，为各行业提供定制化解决方案。在实际应用中，企业可利用文心一言生成产品介绍和宣传文案，提升品牌传播效果；教育机构可借助其生成教学资料和课程大纲，辅助教学工作。2.2常见的基于大语言模型开发的应用工具ChatGPT由OpenAI公司开发，于2022年11月30日推向市场，是一款基于生成式预训练模型的对话工具。ChatGPT广泛应用于各种领域，如教育、客户服务、内容创作、编程辅助等，许多企业和开发者也利用ChatGPT来构建自己的应用程序和服务。ChatGPT网页版如图所示，用户在页面最下方输入问题或提出写作要求，就能实时获得回应，而ChatGPT生成的文本内容，让用户几乎感觉不到AI与人的差异。除了日常对话聊天，ChatGPT还能够针对用户的具体问题，有条理地提出解决的方案。2.2.1风靡全球的聊天机器人——ChatGPTChatGPT页面展示2.2.2国产通用大语言模型——文心一言文心一言推出了计算机网页版和移动端应用程序，用户在注册之后，无须付费就能使用。在页面下方的对话框内，用户可以以文本形式输入自己想提的问题或讨论的话题，单击右下角小箭头图标，即可提交给文心一言，开始互动对话。文心一言也能支持多轮对话，单击页面左侧选项中的“百宝箱”，进入图所示的页面，该页面中提供了大量应用于各行各业垂直领域的写作工具，如市场营销计划、品牌推广、策划方案生成、视频脚本创作等，更能满足用户实际工作场景的应用需求。文心一言“百宝箱”2.2.3多款应用集成平台——讯飞星火2023年5月6日，科大讯飞正式发布讯飞星火认知大模型。它有七大核心能力：文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模交互能力。应对工作场景的有PPT大纲智能体、商业文案智能体、市场分析师等，适用于学习场景的有中英文写作助手、编程知识问答助手、述职报告小能手等，满足生活场景应用的有个人营养师、旅游攻略等，帮助用户完成各种场景的工作任务。讯飞星火同样支持用手机移动端访问，也为有专业需求的用户开放了API。讯飞星火的网页版首页AI写作工具的使用技巧PART2.32.3.1AI写作的方法1．基于纯文本对话的AI写作一是提示词（Prompt）的撰写技巧。所谓提示词，是指输入给AI模型的文本，这段文本旨在指导模型生成具有特定内容或遵循特定上下文的输出。二是多轮对话的技巧。仅一次人机交互，AI可能完成得不够理想，我们可以就AI写作中出现的问题，立刻提出调整、修改意见，使AI能够迅速应答，生成新的内容。文心一言提示用户展开多轮对话2.3.1AI写作的方法除了用纯文本对话，我们还可以把相应的文件材料提供给AI，让AI基于这些文件材料生成内容。如图所示，以文心一言为例，在对话框的上方，有上传文件和图片的选项，可以支持Word文档、PDF文档、TXT文档、Excel表格、PPT幻灯片和URL（统一资源定位符）等，最多可上传10个文件，每个文件最大为50MB；也可以上传图片，让文心一言进行解析。文心一言上传文件的选项提示词是用户与AI写作工具交互的关键，它直接影响生成内容的质量和准确性。合理的提示词能够帮助AI更好地理解用户需求，生成符合期望的文本。例如，当用户希望生成一篇关于环保主题的文章时，明确的提示词如“请写一篇关于环保重要性的文章，强调个人行动对环境保护的影响”会比模糊的提示词如“写一篇环保文章”生成更准确、更有针对性的内容。提示词的重要性提示词通常包括角色设定、基础指令、操作要求、结果限定等要素。角色设定明确AI的身份和角色；基础指令说明具体任务；操作要求提供任务背景和具体要求；结果限定明确输出格式和数量。提示词的结构与要素优化提示词的方法包括增加细节描述、调整语句结构、使用专业术语等。通过不断优化提示词，可以提高AI生成内容的准确性和相关性。例如，当用户发现生成的文案不够具体时，可在提示词中增加更多细节描述，如“请在文案中提到智能手表的防水功能和多种运动模式”；若生成的文案逻辑不够清晰，可调整提示词的语句结构，使其更符合逻辑表达。提示词的优化方法2.3.2AI写作的提示词撰写技巧2.3.2AI写作的提示词撰写技巧研究员马特·奈伊（MattNigh）总结的提示词框架，被称作CRISPE框架，业界普遍认为其完备性较高，适合作为提示词的写作模板。马特·奈伊认为，一套完整的提示词需包含以下几个元素。● 能力与角色（CapacityandRole）：希望大模型扮演怎样的角色。● 洞察力（Insight）：背景信息和上下文。● 指令（Statement）：希望大模型做什么。● 个性（Personality）：希望大模型以什么风格或方式回答。● 尝试（Experiment）：要求大模型提供多个答案。以一个例子来说明这些元素的含义。“扮演怎样的角色”为“假设我是一名美妆类的自媒体工作者”；“上下文”为“适合夏天使用的防晒霜，它的防晒系数为SPF15到SPF20”；“指令”为“生成一篇小红书‘种草’防晒霜的文案”；“风格和方式”为“具有网感，较为活泼的语言风格”；“提供多个答案”为“请给我生成两篇不同的文案”。2.3.2AI写作的提示词撰写技巧AI写作提示词=角色设定+基础指令+操作要求+结果限定AI写作提示词公式详解2.3.2AI写作的提示词撰写技巧2.3.2AI写作的提示词撰写技巧“你是一名广告文案策划师，你要给一家食品公司撰写饮料的广告词，它低卡低糖，补充维生素，文案需要符合新媒体投放的要求，要求大气、有文采，限200字，输出5篇。”我们以文心一言来做测试，输出的结果如图：按公式撰写的提示词的生成结果本章小结综上所述，结构化提示词，能切实帮助用户有效地将语言模型用于各种应用场景和研究领域，通过尝试撰写提示词，调整和优化提示词，也有助于用户深入了解大型语言模型的能力和局限性，更好地为我所用。同时要理解AI写作工具的生成内容仍然需要人工润色和编辑，特别是需要人工对写作内容的价值导向进行审核，才能真正用好AI写作，而不被AI所愚弄。2.3.2AI写作的提示词撰写技巧谢谢观看第三章

通义的使用方法《AIGC应用实战：写作、绘图、视频制作、直播》

CONTENTS通义的工作页面和基本功能01.目录用通义写作的步骤02.本章导读【知识目标】认识通义的主要功能。了解通义的常用操作步骤。熟悉通义的提示词和使用技巧。【能力目标】掌握通义的主要功能和使用方法。具备使用通义辅助文案生成的能力。【素质目标】培养自主学习的意识和能力，灵活运用工具寻找解决方案。提升利用辅助工具生成文案的能力，结合个人专业知识和创意进行文案创作。PowerPointDesign通义的工作页面和基本功能PART3.11．文件上传通义工作页面简洁明了，分为顶部导航栏、左侧功能区和右侧主工作区。顶部导航栏提供用户信息、设置等入口；左侧功能区集成多种工具和模块，方便快速切换；右侧主工作区是核心交互区域，用于输入提示词、查看生成内容等操作，整体布局合理，便于用户高效使用。例如，用户在使用时，可通过顶部导航栏快速访问个人设置，调整账号信息或偏好设置；在左侧功能区选择“AI写作”模块，直接在右侧主工作区输入写作需求，获取AI生成的文本内容，整个过程流畅便捷。用户交互体验3.1.1AI对话框模块1．文件上传通义的文件上传功能，隐藏在对话框左侧箭头处，单击后才能发现。通义能够同时上传100个文档，每个最大150MB，除了支持WordExcel、PDF这些常见的文档格式，还支持Markdown、TXT文档、EPUB和MOBI的电子书式，可以说是目前最强的多文档处理AI工具。通义的文档上传页面3.1.1AI对话框模块1．文件上传2．特色功能（1）“深度搜索”单击“深度搜索”，在对话框内即自动输入提示词“深度搜索：”。（2）“PPT创作”通义推出了智能PPT制作功能，可以基于文本写作的内容，即刻生成PPT，供用户轻松应对办公场景。通义的“PPT创作”通义的“深度搜索”选项3.1.1AI对话框模块2．特色功能2．特色功能（3）“指令中心”在网页右侧弹出“指令中心”，它的作用是帮助我们熟悉提示词的书写方式，以及简化提示词的书写流程。我们还可以选择自己新建指令。单击“指令中心”最上方的“新建指令”选项，在这里可以输入长达1万字的具体指令。通义的“指令中心”通义的“新建指令”3.1.2AI工作助手模块2．特色功能“效率”——AI工作助手模块“通义”的AI工作助手模块，集中在页面左侧“效率”选项中。“效率”是一个提供多种工具和服务的平台，主要是为了帮助用户提高工作和学习效率而设计的。通义的“效率”通义的“论文速读”页面

3.1.3AI智能体2．特色功能“智能体”功能的提供通义还为用户提供了“智能体”功能，通用的大模型在一般的对话、应答上表现优秀，但对于特定的专业领域知识，了解并不深入，这里的智能体，通俗地理解，就是在大模型的基础上，又学习了某行业和某个领域的专业知识，因此可以更准确地回答用户的提问。通义的“智能体”页面用通义写作的步骤PART3.2明确写作目标以电商的新媒体推文写作为例。我们需要撰写一篇文章来推荐某款品牌烤箱，客户提出，烤箱的市场竞争非常激烈，我们的新媒体推文不能写成很“硬”的广告，而是希望用户能够认真阅读推文，并起到“种草”的效果。接受这个品牌的烤箱，我们应该怎么写呢？创意提示首先是拿出创意，我们并不想直接让AI开始写作，而是希望AI给我们建议，究竟应该如何写这篇推文，请AI帮忙提出一些写作角度。3.2.1应用文写作提示词写作公式通义的应答页面如果对生成结果不满意，还可以发起多轮对话，让AI提出新的方案。我们可以找产品研发团队讨论，用通义“效率”的“实时记录功能”，让AI来记录对话的语音，并整理出这份独家食谱。随后，我们在通义对话框页面，单击对话框左侧文件上传选项，将我们整理出的食谱的文档，上传给AI。此时，我们可以使用多轮对话的方法，马上纠正AI的错误。发起多轮对话修改3.2.1应用文写作在通义对话框提交食谱并撰写提示词通义写的食谱文案01怎么撰写剧本或分镜头脚本，对于电商销售行业的人来说是个难题，使用通义就可以很好地解决这个问题。我们可以提出一个创意，让AI来生成相关内容。使用写作公式，我们的提示词可以写为：你是一个写品牌广告短剧的剧本创作高手，写一个中秋节团圆的故事剧本，影片中植入一款品牌的烤箱，烤箱在剧中出现2次，要求有冲突，有温情，有笑点，有泪点，充分发挥想象，主题是阖家团圆，不超过1000字。输入提示词02033.2.2剧本和分镜头脚本写作“通义”写出的品牌广告短剧剧本提示词写作公式3.2.2剧本和分镜头脚本写作虽然我们使用的通义是通用模型，对影视行业的剧本相关知识知之甚少，但是仍然写出了一个植入了产品的短剧剧本。在我们对剧本的剧情进一步修改完成后，可以要求通义进一步把剧本改写成分镜头脚本。因为分镜头脚本有不同的写作格式，而用提示词去描述格式，非常难表达，建议给通义上传一个分镜头脚本的范本，作为格式参考。上传分镜头脚本的范本02上传分镜头脚本的范本并进行第二轮对话“通义”按格式改写的分镜头脚本输入提示词汇报PPT的制作，也是日常办公经常见到的场景。我们以电商品牌广告短剧策划案的汇报为例，让通义制作一份PPT。首先在对话框中输入提示词，按照提示词公式：你要向客户汇报一份品牌广告的短剧策划案，做一个PPT，阐述你的短剧剧本创意，要说清楚为什么有这样的策划创意，为什么剧情这样设计，并展示剧本。3.2.3制作汇报PPT提交提示词给通义通义千问PPT样式选择页面3.2.3汇报PPT制作选择样式，进行PPT制作在页面底部，还提供了演讲的场景选择，如“通用”“产品展示”、“商业计划书”等，确定后单击右上角“下一步”，即可进入PPT样式选择页面。在确定了PPT样式后，单击“生成PPT”，“通义”不仅完成了PPT排版，还自动配上了一些符合表述内容的图像，极大地提高了我们的工作效率。单击右上角对应选项，即可保存或导出。“通义”PPT样式选择页面本章小结使用通义进行写作，能够迅速整合信息、生成高质量文本，极大提升创作效率。它不仅缩短了撰写时间，还确保了内容的准确性和创意性，使作者能专注于深度思考和优化，有效提升整体工作效率和产出质量。谢谢观看第四章AI绘图《AIGC应用实战：写作、绘图、视频制作、直播》4.14.2AI绘图概述AI绘图的应用工具4.3AI绘图的使用技巧目录CONTENTS本章导读学习目标【知识目标】理解AI绘图的基本概念，了解行业应用概况。了解进行AI绘图的方法。【能力目标】掌握AI绘图的平台与工具。利用AI绘图工具进行艺术创作并能够胜任商业实战工作。【素质目标】在人机协同作业中提升创意思维，提高职业素养。提高文化素养、艺术审美与鉴赏水平。AI绘图概述PART4.1追溯AI绘图的历史，早在20世纪70年代，美国加利福尼亚大学的教授哈罗德·科恩（HaroldCohen）就使用计算机程序AARON，通过控制一个机械臂进行绘画创作。在20世纪80年代，AARON学会了绘制三维物体，而到了90年代，AARON能够用多种颜料进行绘画。而哈罗德·科恩利用AARON绘制的图画也为艺术界所认可，被一些知名博物馆和画廊收藏。4.1.1AI绘图的基本概念2006年，计算机创作学教授西蒙·科尔顿（SimonColton）研发的自动绘画工具“绘画愚人”（ThePaintingFool）开始进入公众视野。“绘画愚人”早期作品是由图片拼接合成的，它能够根据少量的提示词信息，通过在互联网上寻找与之相关联的照片，提取照片中的颜色信息，借鉴人类的作品来开展自己的创作，被视作AI辅助艺术创作的雏形。令当时的人们所震惊的是，艺术作品竟然可以靠一行行代码敲出的程序来创作完成，这在以前是不可想象的。4.1.1AI绘图的基本概念4.1.1AI绘图的基本概念2017年，GoogleAI的研究人员发展了传统的扩散模型（DiffusionModel），提出了一种新的潜在扩散模型（LatentDiffusionModel，LDM）。它通过学习输入数据的潜在表示来生成输出图像，其绘制速度比传统扩散模型的更快，更适合实际应用，因此广泛应用在AI绘图领域。2021年，OpenAI团队开源了新的深度学习模型，即对比语言－图像预训练模型（ContrastiveLanguage-ImagePre-Training，CLIP），它可以决定图像和文字提示的对应程度，如把狗的图像和“狗”这个词完全匹配起来。同年，OpenAI团队发布了广受关注的人工智能绘画工具达利（DALL·E）系统，它标志着人工智能仅凭文字就能进行绘图创作。如今，随着深度学习技术的不断进步和开源社区的蓬勃发展，AI绘图工具正变得更加智能、高效和多样化。AI绘图技术的应用已不再局限于生成静态图像，还拓展到了动态视频、三维模型的创作，以及与虚拟现实（VirtualReality，VR）、增强现实（AugmentedReality，AR）、混合现实（MixedReality，MR）等技术的结合，为艺术创作和内容生成提供了更大的想象空间。4.1.1AI绘图的基本概念与传统人工绘图相比，AI绘图可极大地提高创作效率，这是它最直观可见的优势，它能突破人工绘图的空间、作画材料等种种限制，降低试错成本，为艺术家们提供前所未有的创作自由度。但是，人工智能绘制的绘画作品也会在一定程度上受到训练数据的限制或偏见的影响，如知名的AI绘图平台Midjourney，生成的景观照、人物肖像照，细节非常精致，几乎无法分辨出AI绘图与实拍照片的区别，但是有时画出来的人物面部有较多雀斑，或有纹身，不太符合东方审美，可能还会在图像上随机画上一些符号和图腾，设计师在使用AI绘图时需要仔细甄别。4.1.2AI绘图的技术特点AI绘图的应用工具PART4.2Midjourney是一家较为年轻的公司，于2021年在美国加利福尼亚州旧金山创立，团队规模较小但高效，Midjourney网站所生成的图像，是基于生成对抗网络和深度学习技术来实现的。其显著特点是它更偏向于为用户搭建一个绘画创作的社区，用户可以在Discord社区接入该平台并进行自由创作。4.2.1AI艺术创作社区——MidjourneyStableDiffusion是一款开源模型，它在GitHub等平台上开源，供全球的研究人员和开发者使用和改进。其基于潜在空间扩散的原理。用户可以根据自己的需求和偏好，选择合适的模型进行绘图，当用户选择了一个模型之后，所绘制出的所有图像风格能基本保持一致，同时在AI绘图的过程中，用户可以对每一个控制环节进行微调，以尝试获得不一样的效果。StableDiffusion既可以在云端部署，也可以在本地部署，还可以在单台计算机上运行。但是，它的使用门槛较高，对计算资源的需求很高，特别是对于复杂的模型和大规模的数据集，需要更强大的计算能力。4.2.2可控性强的开源模型——StableDiffusion文心一格是百度公司基于文心大模型技术推出的AI艺术和创意辅助平台。它利用百度自研的深度学习框架和数据库进行训练，因此，这款工具在中式人物与场景方面效果更好。同时，百度还持续优化算法和模型结构，提升文心一格的性能和效率。此外，文心一格还提供了制作艺术字、制作海报、制作商品图等功能，还嵌入了图片扩展、图片变高清、涂抹消除、智能抠图、涂抹编辑、图片叠加等AI编辑功能，方便用户使用人工智能技术对图像做更多、更精细的编辑操控。4.2.3简单易上手的AI工具——文心一格AI绘图的使用技巧PART4.3文生图，即通过文本生成图像。以文心一格为例，用户首先选择“画面类型”，即确定自己偏好的绘画风格对应的模型，随后设置所要生成的图像的比例，再在文本框内输入提示词，来描述自己想要的图像效果，AI会根据提示词生成相应的图片。用户可以通过细致的文本描述，控制画面的风格、内容和构图，指定AI生成各种人、物、景的图像。4.3.1AI绘图的方法1.文生图图生图，即用户在给AI输入提示词的同时，还提供一张参考图，这样做可以帮助AI理解用户想要的风格或变化。AI可以根据用户提供的参考图，结合提示词，生成一张既借鉴了参考图，又符合提示词要求的新图像。具体的操作流程是：用户首先选择自己偏好的绘画风格对应的模型，设置所要生成的图像的尺寸，随后，先将准备好的参考图上传到AI绘图平台，再在文本框内撰写提示词，再进行生成2．图生图AI绘图提示词公式：AI绘图提示词=主体+调性+构图+风格参考+细节参数4.3.2AI绘图的提示词撰写技巧例如，要设计一款奶茶的宣传海报，希望将一杯奶茶置于大自然之中，奶茶杯的外包装也是山水画风格，根据提示词公式，它的提示词可以这样写：“主体”为“翡翠山水环绕的纸杯”“奶油有机流体”；“调性”为“绿色系”“自然光”；“构图”为“正面”；“风格参考”为“中国立体山水画”“超现实主义梦境风格”；“细节参数”为“4K高清”。由于“奶茶杯”的形状描述起来非常困难，创作者可以使用“图生图”模式，在不改变这段提示词的情况下，上传一张奶茶杯的参考图，能够确保AI在我们想要的杯子上作画。4.3.2AI绘图的提示词撰写技巧本章小结本章深入探讨了AI绘图的多个方面，首先介绍了AI绘图的基本概念，包括其定义、发展历程以及技术特点。接着，详细介绍了几款主流的AI绘图应用工具，如Midjourney、StableDiffusion和文心一格，分析了它们的特点和优势。最后，讲解了AI绘图的使用技巧，包括文生图和图生图的方法，以及如何撰写有效的提示词来提高绘图效果。通过本章的学习，读者可以对AI绘图有一个全面的了解，并掌握如何利用AI工具进行艺术创作和商业应用。谢谢观看的第五章：StableDiffusion的使用方法《AIGC应用实战：写作、绘图、视频制作、直播》

目录CONTENTS5.1SDWebUI和基本功能StableDiffusion绘图实操5.2.学习目标【知识目标】学习StableDiffusion的基本操作、提示词的使用技巧。了解AI绘图的多样化应用场景。【能力目标】熟悉StableDiffusion的工具与平台。应用AI绘图工具进行艺术创作并应用于商业实战中。【素质目标】探索AI绘图的创新应用。提升创意思维能力。提升文化理解、审美与表达等方面的能力。本章导读SDWebUI和基本功能PART5.101SD生图，第一步需要先选好大模型，第二步选好微调模型。SDWebUI选择大模型的选项，如图所示，即CHECKPOINT。单击“基础算法”右侧的箭头，在下拉选项中，有多个模型可供选择。大模型与微调模型5.1.1基本概念和对应功能模块本章使用“哩布哩布”提供的云端部署的SDWebUI来做演示01大模型与微调模型常见的微调模型有Embedding模型、LoRa模型、Hypernetwork模型、VAE模型，但它们在SDWebUI中，分布较散乱。我们常用到的是LoRa模型，如图，位于SDWebUI中间，单击“模型”，可以看到这里的“LoRa”中有两个画“中秋”海报的LoRa模型，如果创作者是首次使用，“LoRa”可能是空白的，这时我们只需到“哩布哩布”的首页去挑选喜欢的LoRa模型并点星标收藏，就能收藏到自己的“星标模型”中。5.1.1基本概念和对应功能模块本章使用“哩布哩布”提供的云端部署的SDWebUI来做演示正向提示词与负向提示词02正向提示词就是填写想要在画面中出现的内容，负向提示词就是填写避免在画面中出现的内容。比如想画一个美丽的女孩，需在正向提示词中填入“一个女孩，美丽的脸”，在负向提示词中则需要填入“丑陋的，低质量的”5.1.1基本概念和对应功能模块本章使用“哩布哩布”提供的云端部署的SDWebUI来做演示正向提示词与负向提示词025.1.1基本概念和对应功能模块本章使用“哩布哩布”提供的云端部署的SDWebUI来做演示在SDWebUI负向提示词框中，已经默认填写了一些通用的负向提示词，另外，单击“提示词”左侧蓝色小箭头，可以弹出提示词词库，也可以帮助我们快速撰写提示词。其他常用且晦涩难懂的参数有，“采样方法”“迭代步数”“提示词引导系数”“随机数子”“ControlNet”，在SDWebUI中的位置如图所示，一些创作者会在分享自己的生图模型的同时，标注这些参数供其他创作者参考。掌握这些参数有助于我们更好地操控AI绘图工具。其他常用参数035.1.1基本概念和对应功能模块本章使用“哩布哩布”提供的云端部署的SDWebUI来做演示“文生图”模块如图所示，主要通过大模型、微调模型的选择，以及撰写正向提示词、负向提示词来生成图像。1．“文生图”模块大部分内容与“文生图”的一致，但在SDWebUI中部多了可上传图像的空白位置。在使用“图生图”模块时，除了选择大模型、微调模型并撰写提示词外，还需要上传一张提前准备好的图片，作为参考图，让AI更好地理解创作者的意图，引导人工智能完成图像绘制。“图生图”模块下，还嵌套强大的功能模块：“涂鸦”“局部重绘”“涂鸦重绘”“重绘蒙版”。2．“图生图”模块5.1.2生图功能模块涂鸦乱涂即可变成画作，AI能识别画笔的颜色和形状，在“涂鸦”区域上传一张白纸，单击“涂鸦”区右侧圆形（即画笔），用蓝笔在白纸上随便画几笔，没有任何提示词，AI就能创作出蓝色小飞机局部重绘针对图像不满意的地方，或者有瑕疵、错漏的地方，进行局部的重新绘制。涂鸦重绘用颜色和形状给AI做绘画的引导，跟“涂鸦”的功能类似，但是没有“涂鸦”无中生有的能力强。在“涂鸦”区域上传一张美女图片，单击“涂鸦”区域右侧圆形，在美女脸上画出黑色区域，没有写任何提示词，单击“开始生图”，美女就戴上了黑色口罩。这个功能适合用于给人物的衣服、头发换颜色等。5.1.2生图功能模块重绘蒙版主要作用是限定AI重新绘制图像的位置，AI会在创作者通过蒙版指定的绘画区域内绘画。“反推”，顾名思义，就是从图像反推提示词。当创作者不知道怎么描述图像时，先找一张类似的图像，提交给SD进行提示词反推，即可看到图像的提示词的写法。“反推”有3种方式可以实现：“CLIP反推”“DeepBooru反推”“WD1.4标签器”反推。5.1.3“反推”功能模块PowerPointDesignStableDiffusion绘图实操PART5.2模型广场上的LoRa微调模型及示例图片的详细参数，类似刺绣画框的效果非常好，我们单击图像，即可弹出生图的相关信息，要仔细阅读这些信息，这些信息相当于厨师烧出好菜后公布出的菜谱。5.2.1文生图选择大模型“majicMIXrealistic麦橘写实-v7”，LoRa微调模型选择“画中人”，仅这2步就已经能模仿到“相同的菜谱”了，而“VAE”“采样方式”“高清放大算法”这些不必全盘照搬。SD图片的宽度和高度默认是512px*512px，即方形图，这是SD最常用的图片大小，且我们要生成的图片，是在方形图上画了一个圆形画框，因此该图片的宽高比不需做调整。5.2.1文生图根据公式，绘图提示词=主体+调性+构图+风格参考+细节参数，我们想要“主体”与“构图”是一个女孩站姿全身照，因此，我们在正向提示词中，填入“一个女孩，全身，站立，大师作品，高质量”，单击提示词框右侧的“翻译成英文”，译为“1girl,fullbody,standing,masterpiece,bestquality”，负向提示词使用默认提示词，“采样方法”“迭代步数”“提示词引导系数”均为默认值，单击“开始生图”。5.2.1文生图如果对图片不满意，可以单击“开始生图”再次生图。从已经生成的画面来看，该LoRa微调模型独有的“刺绣画框”效果已经实现了，但问题在于面部出现畸形，图片也不够高清，所以，我们应当针对这两个问题，对参数进行调整，在“生图”参数中找到“面部修复”和“高分辨率修复”这两个选项并勾选上，其他参数仍然不变，重新生成图像，对比效果5.2.1文生图两次生成图像的对比，与左边第一次生成的图像比，右边第二次生成的图像不仅更高清，服饰的细节更精致，而且面部五官也更端正。这就是对SD实现精准控制的效果。单击已生成的图像，即可下载该图像。还可以在“图库”中，找到我们所有生成过

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《AIGC应用实战：写作、绘图、视频制作、直播》-课件王翎子第1-5章认识AIGC -Stable Diffusion的使用方法

文档简介

温馨提示

最新文档

评论

《AIGC应用实战：写作、绘图、视频制作、直播》-课件 王翎子 第1-5章 认识AIGC -Stable Diffusion的使用方法

文档简介

温馨提示

最新文档

评论

相关文档

《AIGC应用实战：写作、绘图、视频制作、直播》-课件王翎子第1-5章认识AIGC -Stable Diffusion的使用方法