版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《人工智能基础与应用》课程教案课题:培养具备AI素养的技术技能人才教学目的:了解AI的定义、术语和分类。掌握AI的技术架构及其主要组成部分。理解机器学习、深度学习、计算机视觉、自然语言处理和知识图谱等关键技术的基本原理和应用。熟悉常用的AI大模型,如盘古大模型、豆包大模型、讯飞星火认知大模型、文心大模型和DeepSeek大模型。认识AI的发展历程,以及我国在AI领域的发展现状。了解AI伦理治理的基本概念和重要性。课型:新授课课时:本章安排8个课时。教学重点:重点:掌握AI的技术架构及其主要组成部分。教学难点:难点:认识AI的发展历程,以及我国在AI领域的发展现状。教学过程:教学形式:讲授课,教学组织采用课堂整体讲授和分组演示。教学媒体:采用启发式教学、案例教学等教学方法。教学手段采用多媒体课件、视频等媒体技术。板书设计:本课标题培养具备AI素养的技术技能人才课次4授课方式理论课□讨论课□习题课□其他□课时安排8学分共2分授课对象普通高等院校学生任课教师教材及参考资料1.《人工智能基础与应用》;电子工业出版社。2.本教材配套视频教程及学习检查等资源。3.与本课程相关的其他资源。教学基本内容教学方法及教学手段课程引入在AI技术飞速发展的今天,教育领域正经历着前所未有的变革。面对这一挑战与机遇并存的时代,我们的使命是激发学生的潜能,培养他们解决问题的能力,塑造具有创新精神和责任感的新一代。为实现这一目标,我们需要培养学生具备AI素养、创造力、适应力、伦理意识、批判性思维、情绪智力和社交技能等多方面的能力。通过学习必要的知识和技能,希望学生能够灵活应对未来社会和职场的变化,同时实现个人成长和社会发展的双重目标。参考以下形式:1.衔接导入2.悬念导入3.情景导入4.激疑导入5.演示导入6.实例导入7.其他形式任务1.1认识AI随着科技的发展,AI已经从科幻小说走入我们的日常生活。从智能手机的语音助手到自动驾驶汽车,AI的应用越来越广泛。然而,对大多数人来说,AI仍然是一个模糊的概念。1.1.1AI的定义AI(ArtificialIntelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。AI是计算机科学的一个分支,试图了解智能的实质,并生产出一种新的能以与人类智能相似的方式做出反应的智能机器,该领域的研究包括机器学习、语音识别、视觉识别、运动控制、自然语言处理和专家系统等,如图1-1所示。AI从诞生以来,理论和技术日益成熟,应用领域也在不断扩大,可以设想,未来以AI技术为基础的科技产品,将会是人类智慧的“容器”。AI可以对人的意识、思维的信息过程进行模拟。AI不是人的智能,但能像人一样思考,也可能超过人的智能。AI在计算机上的实现方式有两种。一种是采用传统的编程技术。另一种是模拟法。1.1.2AI的术语AI智能体、AI和AIGC(AI-GeneratedContent,人工智能生成内容)这些术语,虽然在表面上看似相近,但它们各自有着不同的侧重点和应用范畴。1.AI智能体2.AI3.AIGC的应用前景,能够大大提高内容创作的效率和质量。1.1.3AI的分类AI可以根据功能和工作原理分为多种不同的类型,这种分类方式有助于读者理解AI的不同应用场景和技术特点。1.按工作原理划分(1)符号主义AI(2)连接主义AI(3)进化计算2.按用途划分(1)决策式AI(2)生成式AI3.按学习能力划分(1)监督学习(2)无监督学习(3)半监督学习(4)强化学习4.按智能水平划分(1)弱AI(窄AI)(2)强AI(通用AI)1.1.4AI的特点AI具有智能化、学习能力、自主性等特点,随着技术的不断创新和发展,AI的特点将会得到进一步拓展和完善。1.智能化AI的主要特点在于它的智能化程度。通过模拟人类的思考过程和决策能力,AI能够以与人类智能类似的方式分析和解决问题。以机器学习为例,通过大数据和算法的应用,AI可以自动从数据中学习,不断提升自身的智能水平。这种智能化使得AI在多个领域具有广泛的应用前景。2.学习能力AI的学习能力是其另一个重要特点。通过不断地接收和处理新的信息,AI可以从中获取知识和经验,并运用于问题的解决方案中。不仅如此,AI还能够通过与环境的交互,实现学习和进化。通过反馈机制和自我调整算法,AI可以根据实际情况进行优化和改进,不断提高自身的性能和准确性。3.自主性AI的自主性是指其独立进行决策和行动的能力。相对于传统的预设规则和指令,AI能够根据自身的智能和学习能力,主动进行决策和行动,而无须人为干预。1.1.5AI的技术架构AI的技术架构通常由应用层、技术层和基础层构成,如图1-2所示。1.应用层2.技术层3.基础层这三个层次共同构成了AI的技术架构,从底层的数据收集和处理,到中层的算法和框架,再到顶层的具体应用,形成了一个完整的生态系统。这种架构不仅确保了AI技术的高效运行,也为未来的技术创新和应用拓展提供了广阔的空间。任务1.2AI技术基础AI的核心目标是使机器能够执行通常需要人类智能才能完成的任务,如学习、理解语言、识别图像、解决问题等。AI的发展经历了多个阶段,从早期的规则引擎到现在的深度学习和机器学习算法,AI技术不断进步,应用范围也在不断扩大。1.2.1机器学习机器学习(MachineLearning)是AI的核心领域之一。它通过让计算机模拟或实现人类的学习行为,以获取新知识和技能,并不断改善自身性能。机器学习是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,旨在研究如何让计算机模拟或实现人类的学习行为,以获取新的知识或技能。重新组织已有的知识结构使之不断改善自身的性能,是AI技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一。该方法聚焦于从观测数据(样本)出发寻找规律,并利用所发现的规律对未来数据或无法直接观测的数据进行预测。机器学习强调三个关键词:算法、经验、性能。其处理过程如图1-3所示。在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算法重新建立模型,再次进行评估。如此循环往复,直到获得满意的模型来处理其他数据。机器学习技术和方法已经被成功应用到多个领域,如个性推荐系统、金融反欺诈、语音识别、自然语言处理、机器翻译、模式识别、智能控制等。1.2.2深度学习深度学习的核心在于使用多层神经网络来模拟人脑处理信息的方式,从而能够自动从数据中提取和学习复杂的特征。深度学习的基本原理是通过构建深层的、多级别的神经网络结构,使得机器能够从原始数据中自动发现、学习和组合特征,以实现对数据的高层次理解。这种学习方法在图像识别、语音识别、自然语言处理等领域取得了显著的成果,因为它能够处理大量的非结构化数据,如图像和声音等。1.2.3计算机视觉计算机视觉是AI领域的一个重要分支。它能够使机器解释和理解视觉世界。计算机视觉致力于使计算机能够像人类一样“看”,即通过摄像头、图像传感器等设备捕捉图像,并从中提取信息。计算机视觉的发展经历了从简单的图像处理到复杂的图像理解的过程,目前深度学习技术对其发展产生了重大影响。计算机视觉涉及的技术包括人脸识别、图像识别、图像分类、对象检测、场景重建等。其中,人脸识别、图像识别(包括静态和动态信息)是目前的主要应用方向。计算机视觉广泛应用于多个领域,如自动驾驶、医疗图像分析、安防监控、工业自动化等。vivo公司在计算机视觉领域的创新包括AI拍照、屏下指纹识别、人脸识别等技术。1.2.4自然语言处理自然语言处理(NaturalLanguageProcessing,NLP)是AI领域的一个重要分支,专注于使计算机能够理解和处理人类语言。自然语言处理是一门通过建立计算机模型来理解和处理自然语言的学科,是用计算机对自然语言的形、音、义等信息进行处理并识别的应用,涉及机器翻译、自动提取文本摘要、文本分类、语音合成、情感分析等领域。自然语言处理的应用场景丰富多样,涵盖机器翻译、手写体和印刷体字符识别、语音识别、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等。从技术交叉维度看,它既涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、AI研究,也涵盖与语言计算相关的语言学研究。1.2.5知识图谱知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关的“属性/值”对。不同实体之间通过关系相互联结,构成网状的知识结构。知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面具有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还存在很大的挑战,如数据的噪声问题,即数据有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。任务1.3AI大模型AI大模型是指拥有超大规模参数(通常在十亿个以上)、复杂计算结构的机器学习模型。它通常能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。随着计算机硬件性能的不断提升,以及深度学习算法的快速优化,大模型的发展日新月异。一系列基于大模型的AI应用相继问世,下面介绍几款常用大模型。1.3.1盘古大模型盘古大模型是华为旗下的盘古系列AI大模型,包括NLP大模型、CV大模型、气象大模型等。1.3.2豆包大模型豆包大模型,原名“云雀”,是字节跳动发布的大模型。2024年5月15日,在火山引擎原动力大会上字节跳动豆包大模型被正式发布。字节跳动的豆包大模型家族包含下面几种模型。(1)豆包通用模型。(2)豆包通用模型Lite。(3)豆包·角色扮演模型。(4)豆包·语音合成模型。(5)豆包·声音复刻模型。(6)豆包·语音识别模型。(7)豆包·文生图模型。(8)豆包·Functioncall模型。(9)豆包·向量化模型。1.3.3讯飞星火认知大模型讯飞星火认知大模型是一款集成多种先进AI技术的认知智能系统。其核心能力涵盖文本生成、语言理解与知识问答、逻辑推理与科研辅助、数学问题解决、编程支持和多模态交互体验等方面。下面进行具体介绍。1.文本生成文本生成是讯飞星火认知大模型的一项核心能力。它能够通过自然语言处理技术,自动产生高质量的文本内容。这一功能在多个应用场景中展现出了巨大的价值,包括文档创作、多语种支持、图文匹配及演讲准备等。(1)文档一键生成。(2)AI撰写助手。(3)多语种文档生成。(4)自动配图。(5)模板选择。(6)演讲备注。2.语言理解与知识问答3.逻辑推理与科研辅助4.数学问题解决5.编程支持6.多模态交互体验(1)图像识别与描述(2)基于图像的内容问答(3)音/视频生成1.3.4文心大模型文心大模型是百度推出的自然语言处理预训练模型。它有多个版本,每个版本都在前一个版本的基础上进行了改进和优化。1.文心大模型3.52.文心大模型4.03.文心大模型4.0Turbo1.3.5DeepSeek大模型DeepSeek是一款由深度求索(北京)科技有限公司开发的AI模型。它可以读作“深度”(Deep)和“探索”(Seek),寓意通过深度学习技术探索未知的领域。这款基于Transformer架构的AI助手,具备自然语言理解与生成、多轮对话管理、跨领域知识整合及代码处理等核心能力,依托大规模预训练和持续学习机制,支持中英文等语言交互,能够在信息检索、学习研究、创意生成等场景中提供辅助。DeepSeek的第一个开源模型于2023年11月被发布,随后DeepSeek-V3和DeepSeek-R1模型被相继发布。1.DeepSeek-V32.DeepSeek-R1任务1.4AI现状AI作为当今科技领域热门的话题之一,其发展现状可谓蓬勃向上,日新月异。从基础研究到应用实践,从政策支持到产业布局,AI正以前所未有的速度改变着我们的生活和工作方式。1.4.1AI的发展历程从始至此,AI在充满未知的道路上探索,曲折起伏,这段发展历程大致可划分为五个阶段。第一个阶段:起步发展期(20世纪40年代~60年代)第二个阶段:低谷反思期(20世纪70年代)第三个阶段:应用发展期(20世纪80年代)第四个阶段:平稳发展期(20世纪90年代~21世纪10年代)第五个阶段:蓬勃发展期(2011年至今)1.4.2我国在AI领域的发展现状随着中国社会经济的发展,劳动力红利逐渐消失,老龄化社会的到来及精英人才需求的不断增加,关键技术的开发成为亟待解决的问题。在这种背景下,发展AI和智能机器不仅能够实现“机器换人”,推动产业转型升级,还能为解决现有的经济问题和社会问题创造良机。“AI+X”将成为万众创新的新时尚和新潮流。1.4.3AI发展的启示AI的目标是模拟、延伸和扩展人类智能,探寻智能本质,发展类人智能机器。其探索之路充满未知且曲折起伏。通过总结AI发展历程中的经验和教训,可以得到以下启示。1.尊重发展规律是推动学科健康发展的前提2.基础研究是学科可持续发展的基石3.应用需求是科技创新的不竭之源4.学科交叉是创新突破的“捷径”5.宽容失败是支持创新的题中应有之义6.实事求是设定发展目标是制订学科发展规划的基本原则1.4.4AI伦理治理尽管AI带来了诸多机遇,但也存在数据安全、隐私保护等方面的风险。因此,在推进AI产业发展的同时,必须建立健全相关法律法规框架,确保个人信息不受侵害,并加强对算法透明度及公平性的监管,进行AI伦理治理。安全、伦理和隐私问题是AI发展面临的挑战。安全问题是让技术能够持续发展的前提。技术的发展给社会信任带来了风险,如何增加社会信任,让技术发展遵循伦理要求,特别是保障隐私不被侵犯是亟须解决的问题。为此,制定合理的政策、法律、标准基础,并与国际社会协作,建立一个令AI技术造福于社会、保护公众利益的政策、法律和标准化环境,是AI技术持续、健康发展的重要前提。1.机器人准则所有科学家和工程师都面临伦理考量:哪些项目应该做,哪些项目不应该做,以及如何确保项目执行是安全且有益的。2010年,英国工程和物理科学研究委员会制定了一系列机器人准则。之后,其他政府机构、非营利组织及各公司纷纷建立了类似的准则。常用的准则如下:(1)阿西莫夫机器人三定律(1942)(2)欧盟《人工智能伦理准则》(2019)。(3)IEEE《伦理对齐设计》(2019)。(4)联合国教科文组织《人工智能伦理建议书》(2021)。(5)中国《新一代人工智能伦理规范》(2021)。2.伦理要求AI作为人类智能和价值系统的延伸,在发展过程中必须考虑伦理价值。设定AI技术的伦理要求需要社会和公众的深入思考与广泛共识,并遵循以下共识原则。(1)人类利益原则(2)责任原则3.保护个人隐私政策隐私设计原则强调在产品和服务的设计阶段就融入隐私保护措施。通过默认隐私设置、最小化数据收集和使用,以及增强用户控制权等方式,确保技术发展与个人隐私保护相协调,从而减少隐私侵犯的风险。1.4.5中高职学生应具备的AI素养在当今AI快速发展的时代,中高职学生作为未来技术领域的重要力量,应具备相应的AI素养。1.体系化知识2.构建式能力3.创造性价值4.人本型伦理1.4.6AI应用AI与行业领域的深度融合将改变甚至重新塑造传统行业。AI已经广泛应用于金融、家居、交通、医疗、教育等多个领域,对人类社会的生产和生活产生了深远的影响。1.金融2.家居3.交通4.医疗5.教育1.教学以学生学习教材的基本内容为主,系统全面地了解培养具备AI素养的技术技能人才的内容。2.整个教学过程中,各教学点可根据实际情况,进行拓展知识的讲解。本章小结:本章围绕“培养具备AI素养的技术技能人才”核心,系统介绍了AI的基础认知、技术架构、关键技术、主流大模型、发展现状及伦理治理等内容。从AI的定义、术语与分类,到机器学习、计算机视觉等核心技术,再到盘古、豆包等常用大模型,清晰勾勒出AI的技术体系与应用场景。同时,梳理了AI发展历程与我国发展现状,强调了伦理治理的重要性,明确了中高职学生应具备的体系化知识、构建式能力等AI素养。整体内容兼具理论性与实用性,为培养适应AI时代的技术技能人才奠定了基础。《人工智能基础与应用》课程教案课题:探索视觉智能新境界:AI生成图像技术的基本应用教学目的:理解AI生成图像技术的发展历程。掌握不同AI生成图像技术的特点,以及面临的难题和挑战。掌握讯飞星火、文心一言、ChatGPT等AI生成图像工具的使用方法。了解Midjourney绘图工具的特点和使用方法。课型:新授课课时:本章安排8个课时。教学重点:重点:理解AI生成图像技术的发展历程教学难点:难点:掌握讯飞星火、文心一言、ChatGPT等AI生成图像工具的使用方法。教学过程:教学形式:讲授课,教学组织采用课堂整体讲授和分组演示。教学媒体:采用启发式教学、案例教学等教学方法。教学手段采用多媒体课件、视频等媒体技术。板书设计:本课标题探索视觉智能新境界:AI生成图像技术的基本应用课次4授课方式理论课□讨论课□习题课□其他□课时安排8学分共2分授课对象普通高等院校学生任课教师教材及参考资料1.《人工智能基础与应用》;电子工业出版社。2.本教材配套视频教程及学习检查等资源。3.与本课程相关的其他资源。教学基本内容教学方法及教学手段课程引入随着AI的快速发展,AI生成图像技术变得越来越流行,正在改变着人们对视觉艺术的认知和创作方式。本项目通过深入介绍AI生成图像技术的发展、特点、挑战及多种实用工具,帮助读者掌握这一前沿技术。通过本项目的学习,读者不仅能够获得关于AI生成图像技术的理论知识,还将具备实际操作能力,从而将学到的技术应用到实际创作中。参考以下形式:1.衔接导入2.悬念导入3.情景导入4.激疑导入5.演示导入6.实例导入7.其他形式
任务2.1AI生成图像技术随着社交媒体、广告、游戏、电影等行业的快速发展,其对高质量、个性化、快速生成图像的需求日益增长。Al生成图像技术以高效、灵活、创意无限的特点,正逐步成为满足这些需求的重要工具。2.1.1AI生成图像技术的发展AI生成图像技术的快速发展得益于深度学习、自然语言处理、计算机视觉等多个领域的突破性进展。了解前沿动态,有助于我们及时捕捉这些领域的最新技术成果,并将其应用于文生图任务中,从而推动技术创新和进步。1.AARON系统计算机生成图像的早期探索可追溯至20世纪70年代,艺术家哈罗德・科恩(HaroldCohen)在这一时期开发了AARON系统。这个系统可以通过机械臂输出绘画,如图2-1所示。AARON系统的特点是使用机械臂和计算机程序进行创作。这类基于规则的图像生成技术,为后续AI生成图像技术奠定了概念基础。2.基于深度神经网络的现代模型随着时间的推移,AI生成图像技术逐渐从基于规则的算法发展到基于深度神经网络的现代模型。2012年,谷歌的吴恩达和JeffDean使用深度学习模型,基于大量猫脸图片训练出了一个能够生成模糊猫脸的模型,如图2-2所示。这一成果为后续生成模型的算法优化和算力部署提供了重要参考,间接推动了生成式AI技术的发展。2015年,谷歌推出了“深梦”(DeepDream)图像生成工具,其生成图像的效果如图2-3所示,尽管它更像是一个高级滤镜,但它标志着AI绘画技术的进步。此后,AI生成图像技术不断进步,出现了诸如DALL-E、CLIP和StableDiffusion等先进的模型,这些模型能够根据输入的文本生成高度复杂和逼真的图像。3.DALL-E模型2021年,OpenAI推出了DALL-E模型,这是一个深度学习算法模型,能够直接根据提示词“按需创造”风格多样的图像,如图2-4所示,其生成了风格多样的牛油果形状的椅子。DALL-E的出现极大地扩展了AI生成图像技术的应用范围,使其在设计、广告、艺术创作等领域发挥了重要作用。近年来,扩散模型成为AI生成图像技术的一个重要发展方向。扩散模型的原理借鉴了物理学上的扩散现象,通过向训练图像中不断加入噪声,然后通过AI预测并逐步减少噪声,最终生成新的图像。这种技术不仅提升了生成图像的质量,也使得AI生成图像技术更加灵活和强大。2.1.2AI生成图像技术面临的难题和挑战随着AIGC技术的快速发展,特别是AI生成图像技术的进步,我们正见证着一个前所未有的视觉创作新时代的到来。然而,在AI生成图像技术带来无限可能性的同时,也面临着诸多难题和挑战。1.数据质量问题高质量、多样化的数据集是训练有效模型的基础,但获取这样的数据集往往成本高昂且耗时,不充分或偏差的数据可能导致生成图像存在偏差或者缺乏真实性。2.计算资源需求当前先进的图像生成算法通常需要借助大量的GPU加速处理能力才能高效运行,高昂的硬件成本制约了个人用户及小型企业的技术参与度,同时增加了环境负担。3.创意控制难题尽管AI模型已经能够在一定程度上理解文本描述并生成相应的图像,但要想实现文本与图像的精准映射,以及对生成风格或特征的精确控制,仍然是一个巨大的挑战。输入方式的局限性制约了非专业人士的创作参与。此外,模型在生成图像时也容易陷入局部最优解,导致生成的图像缺乏新颖性和惊喜感。4.伦理道德考量随着AI生成图像技术的普及和应用,版权和伦理问题也日益凸显。滥用AI生成图像技术可能引发版权争议、隐私泄露等问题,相关部门必须建立健全的法律法规来规范其应用范围,以保障创作者权益和个人信息安全。因此,在推动AI生成图像技术发展的同时,相关部门也需要关注并解决这些问题。5.技术门槛与资源消耗AI生成图像技术涉及多个领域的复杂技术,包括深度学习、自然语言处理等,对开发者的技术水平提出了较高的要求。这意味着只有具备深厚技术背景和丰富经验的团队才能在这个领域取得突破。另外,由于技术门槛较高,因此许多小型团队或个人无法承担高昂的研发成本,也难以承受相应风险。这一现状使其在AI生成图像领域的参与度受到明显限制。2.1.3AI生成图像技术的特点AI生成图像利用深度学习算法和神经网络等技术,通过已有的数据集学习和理解绘画的特征、风格和规律,从而创作出独特的艺术作品。AI生成图像技术以创新性、多样性、高效性等特点,正在成为艺术创作领域的重要工具。1.创新性2.多样性3.高效性4.可定制性5.交互性6.跨平台性7.学习性8.辅助性2.1.4AI生成图像提示词AI生成图像提示词(Prompt)也被称为AI绘画指令或提示短语,是用户向AI生成图像工具或软件提供的具体指令,用于指导AI生成符合用户需求的图像。这些提示词对AI生成图像工具来说至关重要,因为它们直接决定了生成图像的风格、内容、色彩、构图等多个方面。通过合理运用提示词的语法规则,可以提高生成内容的质量和相关性。1.提示词的语法规则提示词的语法规则包括基本语法规则、权重调整及特殊语法。提示词通常由内容型提示词和标准化提示词构成,它们共同作用以引导AI生成用户期望的内容。下面将具体介绍提示词的语法规则。(1)基本语法规则。(2)权重调整。(3)特殊语法。2.提示词分类(1)主题与风格。(2)色彩与光影。(3)构图与细节。(4)情感与氛围。(5)元素与对象。(6)其他。2.1.5AI图像编辑在ChatGPT中,用户不仅可以基于新的提示词对现有图像进行编辑,从而修改图像的内容或风格,还可以通过这种方式探索无限的创意可能性。这种交互式的编辑功能为用户提供了极大的灵活性和创造力,使得每个人都能成为艺术作品的创作者。1.内容编辑2.风格转换3.情感与氛围调整4.跨领域应用总之,ChatGPT中的这一功能打开了创意表达的新大门,让每个人都能利用AI探索和实现自己的艺术愿景。随着技术的不断进步和完善,相信未来将会有更多激动人心的应用出现。任务2.2讯飞星火AI生成图像讯飞星火中包含基于AI技术的生成图像工具,它可以帮助用户快速生成各种风格的艺术作品。讯飞星火中的AI生成图像工具包括图像生成、一键生同款和绘图智能体等,通过深度学习算法和大数据分析,讯飞星火AI生成图像工具可以模拟出各种绘画风格,如水墨画、水彩画、国画等,让用户轻松创作出具有艺术感的作品。2.2.1讯飞星火概述讯飞星火是由科大讯飞推出的AI对话工具,整合了文本生成、语言理解、知识问答等多种功能。讯飞星火V4.0版本在多项国际评测中表现优异,部分测试集综合得分超越GPT-4Turbo并位居首位。基于领先的自然语言处理与认知智能能力,该模型为用户提供了智能批阅机、讯飞晓医App等个性化解决方案。讯飞星火AI生成图像工具是科大讯飞基于先进的AI技术研发的一项创新服务,旨在通过智能算法将文本描述转化为生动、具体的图像。这一工具融合了深度学习、图像处理和自然语言理解等前沿技术,能够高效解析用户输入的文本信息,并快速生成符合描述的高质量图像。进入讯飞星火官方网站首页,如图2-5所示,单击“开始对话”按钮,打开登录界面,如图2-6所示。可以使用手机号、微信或账号密码进行登录。下面以手机号登录为例介绍如何登录讯飞星火。输入手机号,并单击“获取验证码”按钮发送验证码,当手机收到验证码后,在该界面的“验证码”文本框中输入验证码,并勾选下面的复选框,单击“登录”按钮,即可进入讯飞星火用户使用界面,如图2-7所示。2.2.2图像生成打开讯飞星火网页版,选择左侧的“图像生成”选项,进入“图像生成”界面,如图2-8所示。在“图像生成”界面的文本框中输入要生成图像的描述内容(也就是提示词)并单击按钮即可使用图像生成功能。1.文本生成图像文本生成图像是指用户输入一段文本描述,由计算机生成一张或多张与描述相关的图像。1)提示词输入(1)打开“图像生成”界面,输入提示词,如“一个荷包蛋”,单击按钮,讯飞星火将在打开的界面中根据输入的提示词自动编写一个问题“画一张‘一个荷包蛋’的图片给我。”,并在下面自动生成一张图像,如图2-9所示。(2)打开“图像生成”界面,输入提示词,如“一只可爱的拉布拉多犬住在一个用寿司做的房子里”,单击按钮,讯飞星火将在打开的界面中根据输入的提示词自动编写一个问题“画一张‘一只可爱的拉布拉多犬住在一个用寿司做的房子里’的图片给我。”,并在下面自动生成一张图像,如图2-10所示。2)智能体对话“智能体”是指讯飞星火AI平台提供的一种智能对话服务。它可以根据用户的需求进行自然语言处理和图像生成,帮助用户解决各种问题。(1)选择图2-9所示图像下方的“问问智能体(2)选择图像下方的“退出智能体”选项,返回图2-11所示的界面。此时,界面中不显示生成图像的过程图。3)随机生成图像4)提示词效果(1)面部、头发、头饰提示词(2)表情提示词(3)绘画风格提示词(4)画面效果提示词(5)构图形式提示词(6)构图视角提示词(7)镜头效果提示词2.图像风格背景设置在“图像生成”界面的文本框中单击,自动添加“图像生成”选项组,其用于创建、修改或增强图像,其中包括“背景”和“风格”设置选项,如图2-20所示。背景:选择或更改图像的背景颜色、纹理或图案。可选项包括森林、城市、海边、夕阳、田园、沙漠、草原、雨天。风格:提供了一系列的预设样式,如水彩画、水墨画、赛博朋克、简笔漫画、3D卡通、皮克斯、迪士尼、国画,用户可以通过选择这些样式来改变图像的整体外观和风格。1)背景设置2)风格设置2.2.3一键生同款2.2.4绘图智能体讯飞星火的智能体不仅支持结构化指令助手、编排助手和轻应用,还包含满足用户绘图需求的工具。在讯飞星火用户使用界面中,选择左侧的“我的智能体”→“更多智能体”选项,在右侧“我的智能体”界面下显示已经验证的应用工具,如图2-36所示。1.绘画大师2.头像生成3.漫画绘本4.个性化助手任务2.3文心一言AI生成图像在数字化时代,AI技术的应用已经渗透到各个领域,特别是在艺术创作领域。文心一言AI生成图像功能作为其中的佼佼者,为用户提供了两种强大的图像生成方法:文生图和图生图。这两种方法各有特色,极大地丰富了用户的创意表达方式。2.3.1文心一言概述文心一言通过图片检索增强技术,可以使用用户上传的参考图进行绘画,实现丰富多样的风格和画面内容。文心一言在绘图领域的应用非常广泛,包括但不限于平面设计、产品设计、服装设计、动画制作等。其还可以应用于艺术创作、图像处理、教育等多个领域,为设计师、艺术家、教学者等提供强大的辅助工具。2.3.2文生图文心一言同样支持文生图功能,根据用户输入的描述性文本,即可生成图像。这种方法的优势在于具备高度的灵活性和定制化创作能力。用户可以根据自己的需求,详细描述图像的每个元素,从色彩、形状到场景布局,文心一言将根据这些描述生成符合预期的图像。这种方法适用于那些对图像有具体构想,但缺乏绘画技能的用户。(1)单击“重新生成”按钮,直接在界面中输出新图像,如图2-52所示。这种方法虽然简单直接,但存在一些潜在的局限性和使用时需考虑的因素。(2)尝试结合不同的提示词来创造出独特的视觉效果。2.3.3图生图图生图方法为用户提供了一种全新的创作体验。用户只需上传一张图像,文心一言即可根据这张图像的风格和特征生成新的图像。这种方法的优势在于具备快速性和高效性,特别适合需要生成大量相似风格图像的用户使用。同时,图生图方法也为设计师和艺术家提供了灵感来源,可以帮助他们在现有作品的基础上进行创新和拓展。2.3.4智慧绘图文心一言中的智慧绘图是一种基于AI和深度学习技术的图形生成功能,它能够根据用户输入的文本描述自动生成符合要求的图形或图像,已在多个领域发挥重要作用。在文心一言用户使用界面的文本框上方单击“智慧绘图”按钮,打开“智慧绘图”编辑界面,如图2-56所示。其中包含“文字生图”和“图片重绘”两大功能。下面介绍“文字生图”功能。任务2.4ChatGPTAI生成图像ChatGPT通过DALL-E模型,为用户提供了强大的图像生成功能。DALL-E模型是OpenAI推出的一种从深度学习文本到图像的潜在扩散模型(LDM),它使用来自LAION-5B开源数据库子集的512像素×512像素的图像进行训练。该模型通过引入隐向量空间来解决Diffusion速度瓶颈问题,不仅可以实现文生图,还可以实现图生图、特定角色刻画,甚至是超分或上色。2.4.1ChatGPT概述ChatGPT(ChatGenerativePre-trainedTransformer)基于GPT大模型构建,由OpenAI采用“从人类反馈中强化学习”(RLHF)训练方式打造而成。其本质是辅助人类进行信息收集、整理、分析等的智能工具,可为各类场景提供丰富、精准的内容生成方案或数据支持。2.4.2直接生成图像用户可以通过输入提示词来生成原始图像,生成图像的尺寸可以是256像素×256像素、512像素×512像素或1024像素×1024像素,其中,较小尺寸图像的生成速度更快。在文本框中输入提示词“创作一张图像一只小鸟”,单击按钮,ChatGPT将在打开的界面中根据输入的提示词生成一张图像,如图2-63所示。2.4.3绘图应用工具在ChatGPT用户使用界面左侧列表框中选择“GPT”选项,在右侧界面中打开“精选推荐”选项卡,用户可以浏览和选择不同的GPT模型和功能,体验不同的对话风格和应用,如图2-67所示。其中,“Trending”选项组下显示了专门用于生成和优化图像的工具,包括imagegenerator、imagegeneratorpro等,如图2-68所示。选择用于图像生成的工具“imagegenerator”,进入“imagegenerator”绘画模式,在文本框中输入“一只小鸟”,imagegenerator就会自动为用户生成一张图像,如图2-69所示。(4)场景一变换(上传场景一的图像)为场景三,如图2-73所示。(5)场景二变换(上传场景二的图像)为场景四,如图2-74所示。任务2.5亦心AI生成图像随着科技的不断发展,AI逐渐成为人们生活的一部分。如今,AI不仅在智能手机、智能家居等领域发挥重要作用,还开始涉足室内设计行业。AI室内设计通过运用智能算法和大数据分析,可以为用户提供个性化的家居设计方案。生成式AI技术高速演进,颠覆式的产品和商业模式正在涌现。作为国内专业图像处理领域的领军企业,亦心科技基于自身的海量大数据和AI算法技术积累,推出全新AI创意工具,即亦心AI和AI闪绘。2.5.1亦心AI概述亦心AI是亦心科技全力打造的核心技术。它就如同一个超级智能大脑,具备极为强大的从文本到图像的转化能力。读者可以把它想象成一个神奇的画师,只需用文本描述出脑海中的画面,无论是梦幻的童话场景,还是充满科技感的未来城市,亦心AI都可将这些文本转化为逼真的图像。悟空图像是一款专注于图像处理的AI软件,在专业领域有着广泛的应用。它集成了多种强大的功能,旨在帮助用户高效地处理图像,实现创意设计。亦心AI就像是悟空图像的“心脏”,为悟空图像提供了最核心的技术支持。悟空图像则是亦心AI技术的实际应用载体,将亦心AI强大的从文本到图像的转化能力,以及其他相关AI能力呈现给广大用户。2.5.2亦心AI亦心AI是一款专业的AI创作工具,根据用户输入的文本(中英文均可)和设置的参数,即可生成丰富的图像。单击悟空图像操作界面右上角的“亦心
AI”按钮,如果处于未登录状态,则会弹出登录界面,勾选“登录即表明同意《悟空图像用户协议》”复选框,并使用微信扫码登录或手机号登录,或者单击“切换为使用密码登录”方式,使用账号密码登录,登录后即可进入“亦心AI”界面,如图2-78所示。1.文生图2.图生图2.5.3AI闪绘AI闪绘是国内首款专业AI实时渲染创新应用,支持实时生成、实时预览,凭借卓越的交互体验、超低使用门槛、超强实时生成能力、多模态生成能力,在设计、影视、游戏等行业及广泛用户群体中具有广阔的应用空间和巨大的开发潜力。用户只需画出草图,AI闪绘即可实时生成完整效果图。单击悟空图像操作界面右上角的“AI闪绘”按钮,如果处于未登录状态,则会弹出登录界面,勾选“登录即表明同意《悟空图像用户协议》”复选框,并使用微信扫码登录或手机号登录,或者单击“切换为使用密码登录”方式,使用账号密码登录,登录后即可进入“AI闪绘”界面。在“AI闪绘”界面中,单击工具栏中的“画笔”按钮,在右侧调板窗的“基本设置”中,设置笔刷大小、颜色和样式,绘制草图,如图2-82所示。输入提示词“哪吒”,设置变化幅度为“50”,单击“闪绘输入栏”中的“生成”按钮,生成效果图,如图2-83所示。任务2.6Midjourney绘图Midjourney是一款由旧金山独立研究实验室Midjourney,Inc.创建并托管的生成式AI服务。它利用先进的深度学习技术,根据用户输入的提示词生成逼真的图像。Midjourney被广泛应用于创意设计、广告制作、游戏开发等领域。例如,广告公司使用Midjourney生成广告海报和产品图片,游戏开发者利用其生成游戏角色和场景等元素,显著提高了创作效率和质量。2.6.1Midjourney概述Midjourney
是一款功能强大的
AI生成图像工具,以独特的特点和优势在创意产业中脱颖而出。无论是专业设计师、艺术家,还是普通爱好者,都可以通过Midjourney轻松生成高质量的数字艺术作品、插画或概念设计。1.Midjourney的特点1)高度智能化2)丰富的艺术风格3)灵活的创作控制4)高效的生成流程5)社区与协作生态2.Midjourney网页版界面2.6.2文生图Midjourney的核心功能之一是通过提示词生成独特的视觉图像。用户只需清晰描述期望的画面内容、风格及其他相关要素,Midjourney即可将其转化为相应的图像。1.界面基本操作成功登录Midjourney网页版后,在界面顶部通常会有一个醒目的文本框,用于输入提示词,Midjourney一般支持输入英文提示词,如图2-86所示。2.生成参数设置若需要对图像生成过程进行更精细的控制,则可以单击提示词文本框右侧的“Settings”(设置)按钮,展开一个参数设置下拉面板,以调整多种生成参数,如图2-88所示。再次单击按钮,即可隐藏该面板。下面介绍下拉面板中的主要参数选项。(1)ImageSize(图像大小)选项(2)Aesthetics(美学参数)选项(3)Model(模型)选项(4)MoreOptions(更多选项)Relax(--relax)Fast(--fast)Turbo(--turbo)3.提示词结构提示词是最基本的部分,用于描述想要生成的图像内容,明确想要生成的主体是什么,如动物、人物、地点或物体。一个基本的Midjourney提示词既可以是一个单词或短语,也可以是一个包含描述性文本、风格和参数设置的组合。1)主要素(1)角色(2)角色+动作(3)角色+动作+背景2)图像变体(1)VarySubtle(2)VaryStrong4.图像再创作5.风格1)艺术风格2)构图3)光照环境6.后缀参数设置2.6.3图生图在Midjourney中,除了输入提示词,用户还可以利用一张或多张现有图像作为“垫图”或“参考图”来引导和影响AI的图像生成过程。这种技术通常被称为“图生图”,它可在已有视觉元素的基础上进行迭代和创新,极大地扩展了创作的可能性。1.参考图分类在Midjourney中使用图像作为输入时,“参考图”根据其作用和影响方式,分为以下三种。(1)ImagePrompts(图像提示)。这是最基础也是最常见的参考图方式。用户提供一张或多张图像作为提示词的一部分。Midjourney尝试理解这些图像中的整体构图、颜色、物体形状、氛围和大致内容,并将这些视觉元素与用户提供的提示词相结合,共同指导最终图像的生成。(2)StyleReferences(风格参考)。命令为--sref。这种方式更侧重于提取和迁移所提供参考图的“艺术风格”或“美学特征”,而不是其具体内容或构图。Midjourney会分析参考图的色彩搭配、笔触、纹理、光影处理、整体氛围等风格要素,并将这些风格应用到基于用户提供的提示词生成的新图像上。(3)CharacterReferences(角色参考)。命令为--cref。这是Midjourney较新的功能,可以在不同图像中保持角色外观的一致性。用户提供一张包含清晰角色特征的图像作为参考,Midjourney在新生成的图像中复制该角色的面部特征、发型、服装(在一定程度上)等关键视觉元素,即使提示词描述了不同的场景或动作。2.上传参考图(ImagePrompts)(1)单击文本框左侧的按钮,在弹出的下拉列表中选择“ImagePrompts”选项,如图2-99所示,单击左侧的按钮,弹出“打开”对话框,选择本地图像,如图2-100所示。(2)单击“打开”按钮,在Midjourney中显示上传的图像,如图2-101所示。3.提示词在使用图像作为生成基础(即“参考图”)时,提示词扮演着至关重要的角色。它不仅是对参考图内容的补充和引导,更是实现创意构想、控制生成方向的关键。根据参考图的不同作用方式,提示词的侧重点和写法也有所不同。(1)配合ImagePrompts时的提示词。(2)配合StyleReferences时的提示词。(3)配合CharacterReferences时的提示词。(3)场景二:喙尖初现(见图2-107)。(4)场景三:小鸡露头(见图2-108)。(5)场景四:小鸡出壳(见图2-109)。1.教学以学生学习教材的基本内容为主,系统全面地了解探索视觉智能新境界:AI生成图像技术的基本应用的内容。2.整个教学过程中,各教学点可根据实际情况,进行拓展知识的讲解。本章小结:本章围绕“AI生成图像技术的基本应用”展开,系统梳理了该技术的发展脉络、核心特点与现实挑战,详解了多款主流工具的使用方法。从技术层面,追溯了从AARON系统到扩散模型的演进,分析了创新性、高效性等核心特征,以及数据质量、伦理规范等面临的难题;从工具应用来看,涵盖讯飞星火、文心一言、ChatGPT、亦心AI及Midjourney,分别介绍了其文生图、图生图、风格定制等核心功能与实操流程,包括提示词设计、参数调整、智能体协作等关键技巧。通过实训任务与案例演示,展现了AI生成图像在海报设计、艺术创作、场景还原等场景的实用价值。整体内容兼顾理论深度与实践指导性,帮助读者掌握技术原理,提升工具应用能力,同时强调了伦理合规与版权保护的重要性,为灵活运用AI生成图像技术开展创意实践奠定基础。《人工智能基础与应用》课程教案课题:动态视界:AI生成视频技术的创新与应用教学目的:理解AI生成视频技术的发展和基本原理。掌握不同AI生成视频工具的特点和应用方法,如Midjourney、Pika和Sora。了解可灵AI的功能和技术特点。学习如何利用AI技术进行视频的生成、编辑和续写。课型:新授课课时:本章安排8个课时。教学重点:重点:理解AI生成视频技术的发展和基本原理。教学难点:难点:掌握不同AI生成视频工具的特点和应用方法,如Midjourney、Pika和Sora。教学过程:教学形式:讲授课,教学组织采用课堂整体讲授和分组演示。教学媒体:采用启发式教学、案例教学等教学方法。教学手段采用多媒体课件、视频等媒体技术。板书设计:本课标题动态视界:AI生成视频技术的创新与应用课次4授课方式理论课□讨论课□习题课□其他□课时安排8学分共2分授课对象普通高等院校学生任课教师教材及参考资料1.《人工智能基础与应用》;电子工业出版社。2.本教材配套视频教程及学习检查等资源。3.与本课程相关的其他资源。教学基本内容教学方法及教学手段课程引入AI正在深刻改变视频制作行业,从创作、编辑到后期处理的每个环节都能看到AI技术的应用。本项目从AI生成视频技术的发展和基本原理出发,深入探讨Midjourney、Pika、Sora等前沿工具的应用,以及可灵AI的创新功能。通过实践操作,读者将掌握如何利用AI技术进行视频生成、编辑和续写。AI在视频制作中的应用不仅提高了生产效率和质量,还为创作者提供了更多的创意空间和创作可能性。随着技术的不断进步和完善,未来,AI将在视频制作领域发挥更加重要的作用。参考以下形式:1.衔接导入2.悬念导入3.情景导入4.激疑导入5.演示导入6.实例导入7.其他形式
任务3.1AI生成视频技术AI生成视频技术是一种利用AI算法自动创建视频的技术。这项技术通过分析大量数据,学习视频制作的规律和模式,并根据用户输入的文本、图像或其他形式的指令,自动生成具有特定主题、风格或情感的视频。3.1.1AI生成视频技术的发展AI生成视频技术的发展是一个理论演进与技术创新并行的过程,从早期的简单AI动画生成,逐步发展到现在高度复杂和逼真的视频生成。1.早期实验与基础研究(1950—1999年)2.深度学习的崛起(2006年至今)3.生成对抗网络的应用(2014年至今)4.大规模预训练模型与多模态学习(2018年至今)2018年后,多模态学习兴起,其结合文本、音频和图像等多种模态的数据进行训练,使得AI能够生成更加丰富和多样化的内容。例如,DALL-E和CLIP等模型实现了将文本描述转化为图像或视频。随着技术的不断进步,AI生成视频技术将在质量和逼真度上得到进一步提升。未来的AI生成视频系统将具备更强的交互能力,能够更好地理解和响应用户的需求,提供更加个性化的服务。3.1.2AI生成视频技术的基本原理AI生成视频技术的原理主要依赖于深度学习模型,特别是生成对抗网络(GAN)和变分自编码器(VAE)等技术。这些模型能够从大量数据中学习视频生成的规律,并通过用户输入的文本或图像来生成相应的视频。AI生成视频技术的应用场景包括广告制作、电影预告片生成、教育课程视频制作等,能够显著提高视频创作的效率和多样性。通过AI生成视频技术,用户可以轻松地将创意转化为生动的视频,满足不同的创作需求。AI生成视频技术的基本原理涉及多个复杂的步骤和算法,主要包括以下几方面。1.数据收集与预处理首先,需要收集大量的视频数据,这些数据可以来自公开的视频库、社交媒体平台或专门拍摄的素材。收集到的数据需要进行预处理,包括清洗、标注和格式化等,以便后续的训练和使用。2.特征提取使用深度学习模型(如卷积神经网络模型)从视频帧中提取关键特征。这些特征可能包括颜色、纹理、形状、运动轨迹等,它们对于AI理解和生成视频至关重要。3.序列建模视频是由一系列连续的帧组成的,因此需要对视频序列进行建模。这通常使用循环神经网络(RNN)或其变体(如LSTM、GRU),它们能够处理序列数据并捕捉时间上的依赖关系。4.生成模型常用的生成模型是生成对抗网络(GAN),它由一个生成器和一个判别器组成。生成器负责创建新的视频帧,而判别器则负责评估这些帧的真实性。通过不断的训练和对抗学习,生成器逐渐学会生成逼真的视频。5.自然语言处理(NLP)如果视频包含字幕或对话,则可以使用NLP技术,其可以理解和生成自然语言文本。这有助于提升视频的可访问性和互动性。6.语音合成对于有声视频,语音合成技术可以将文本转换为自然流畅的语音。这在生成带有解说或对话的视频时非常有用。7.图像识别与跟踪计算机视觉技术用于识别与跟踪视频中的物体、人物和场景。这对于创建连贯且逻辑性强的视频非常重要。8.个性化推荐基于用户的历史行为和偏好,AI可以生成个性化的视频推荐。这通常涉及协同过滤、内容基于推荐或混合推荐系统等算法。9.实时渲染与特效AI可以实现实时视频编辑和特效添加,这通常依赖于高效的图形处理单元(GPU)和优化的算法来实现快速渲染。10.伦理与隐私保护在生成视频的过程中,需要确保遵守相关的伦理和隐私法规。例如,在使用真实的人脸或声音时需要获得授权,避免侵犯他人的肖像权或隐私权。AI生成视频技术是一个多学科交叉领域,它结合了深度学习、计算机视觉、自然语言处理等多个领域的最新研究成果,旨在生成高质量的视频。随着技术的不断进步和完善,未来将会有更多创新的应用出现。3.1.3AI生成视频技术的应用领域AI生成视频技术在娱乐、广告、教育等领域具有广泛的应用前景。例如,在娱乐领域,AI可以自动生成电影预告片、音乐视频等;在广告领域,AI可以生成个性化的广告视频等;在教育领域,AI可以生成教学视频、实验演示等。然而,AI生成视频技术也面临着一些挑战,例如,如何保证生成视频的真实性和可信度,如何处理版权问题等。1.娱乐(电影、动画制作)AI可以自动生成剧本、场景描述甚至整个故事线,从而为编剧和导演提供灵感。例如,通过分析大量成功电影的剧本结构,AI能够预测哪些情节转折最吸引观众,从而辅助编剧创作出更受欢迎的剧本。(1)角色设计与动画制作。(2)特效与后期处理。2.广告AI可以根据用户的浏览历史、购买记录等信息,生成高度个性化的广告视频,从而提高点击率和转化率。例如,电商平台可以利用AI生成针对特定用户的商品推荐视频。(1)社交媒体短视频制作。(2)市场趋势分析。3.教育AI生成视频技术在教育领域的应用已经取得了显著进展,特别是在提供个性化学习体验和虚拟实验室方面。通过提供定制化学习材料和安全的实践环境,AI不仅提高了学生的学习效率,还为他们提供了更多的探索机会。(1)定制化学习材料。(2)虚拟实验室与模拟训练。(3)语言学习与文化交流。4.游戏开发AI生成视频技术在游戏开发中的基础应用主要体现在剧情与任务生成、NPC行为与对话、测试与优化方面,通过动态生成独特的游戏体验和提供更深入的互动,AI不仅增加了游戏的可玩性,还为开发者提供了有效的工具来优化游戏质量。(1)剧情与任务生成。(2)NPC行为与对话。(3)测试与优化。5.虚拟助手与交互式媒体通过生成生动有趣的虚拟助手形象、提供逼真的三维模型和场景,以及创造全新的交互式媒体形式,AI不仅提升了用户体验,还为多个行业带来了创新的解决方案。(1)智能客服。(2)增强现实(AR)与虚拟现实(VR)体验。(3)交互式故事讲述。任务3.2Midjourney视频Midjourney结合Pika实现了AI生成视频功能,可以通过文本和图像生成视频、更改视频,还可以切换视频风格。其颠覆了传统视频制作方式,让“每一个普通人都能成为电影导演”变成现实。3.2.1Pika概述Pika是一款利用生成式AI技术生成和编辑多种风格视频的工具。它支持生成3D动画、动漫、卡通和电影等风格的视频,并提供了视频局部编辑和扩充功能。3.2.2机器人服务器Pika在Midjourney中,通过邀请机器人服务器Pika,可以使用户通过动态视频将想法变为现实,而无须高级视频编辑技能或访问复杂的视频制作资源。这对内容创作者、营销人员、教育工作者,以及任何希望以更具互动性和视觉吸引力的方式传达信息或故事的人来说特别有用。1.邀请加入(1)打开Midjourney用户服务器,在下方命令框中输入Pika网址。(2)按回车键,将网址发送到服务器中,在服务器中添加机器人服务器Pika,如图3-1所示。(3)单击“已加入”按钮,进入机器人服务器Pika界面,左侧显示频道列表,右侧显示Pika服务器指南,如图3-2所示。2.选择频道进入机器人服务器Pika界面后,左侧“Pika”列表中显示了不同的频道,任意选择一个,如“generate-1”,进入指定频道公共区域界面,如图3-3所示。由于进入的是公共区域,因此我们生成的视频,可以被所有人看到。同样,我们也可以看到其他人生成的视频。3.2.3Pika命令参数进入Pika指定频道公共区域界面后,可以在右侧下方的命令框中输入命令或上传图像,进行视频生成操作。在命令框中输入“/”,弹出命令列表,如图3-4所示。列表左侧显示了常用的官方服务器,不同的服务器中包含不同的命令。:MidjourneyBot服务器,用于AI绘图。:Nekotina服务器,主要用于定制欢迎、告别和提示消息,以及提供多种角色扮演命令和表情包。:Picsart服务器,主要用于进行图像编辑处理。:Pika服务器:用于生成AI视频。单击“Pika服务器”按钮,打开服务器列表,显示Pika服务器命令,如图3-5所示。(1)/animate:创建、编辑或播放动画,包括帧动画、骨骼动画、粒子效果等。(2)/create:这是一个通用的创建动画命令。(3)/encrypt_image:图像加密命令。其通过一个特定的算法或工具,对图像进行加密,以保护其内容不被未经授权的人访问。(4)/encrypt_text:类似于/encrypt_image,用于文本内容的加密。它可以确保敏感信息(如密码、个人数据等)在传输或存储时的安全性。在利用AI生成视频时,不同的命令会生成不同风格和效果的视频。例如,使用/create命令生成的视频往往偏向于现实风格,而使用/animate命令生成的视频则偏向于动画风格。3.2.4使用/create命令生成视频Pika通过/create命令生成的视频通常具有更高的真实感,适用于需要呈现逼真场景的应用,如纪录片片段、新闻报道或教育视频。这类视频在细节处理上更加精细,能够更好地还原现实世界的物体和环境。1.输入提示词一般情况下,在命令框中输入“/create”命令后,界面将显示prompt(提示词)参数,可在其后面输入提示词,一般为英文提示词,如图3-6所示。在利用AI生成视频时,应该尽量使用简短的提示词,避免复杂的句子结构,这样可以降低画面变形的概率。清晰的主体描述加上相关的标签通常足够生成满意的视频。1)静态对象视频2)添加动作提示词2.视频设置可以发现,Pika生成视频后,在视频下方显示五个按钮。这些按钮的设计旨在为用户提供多样化的操作选项,从而增强用户体验和互动性。(1)赞(2)倒赞(3)循环(4)交叉(5)删除3.提示词加图像(1)在命令框中输入“/create”命令,单击“增加1”按钮,打开“选项”面板,选择“image”(图像)选项,显示图像文件预览框,将图像拖曳到该框中,完成图像的添加,并输入提示词“MakethebutterflyStirringwings”(让蝴蝶扇动翅膀)。(2)在第一次生成的视频中,蝴蝶的翅膀是静止不动的。然而,当我们单击“循环”按钮重新生成视频时,蝴蝶翅膀有了轻微的煽动。这一变化表明,通过多次尝试和迭代,视频生成技术在不断改进和优化,使得细节表现更加生动和真实。这体现了在生成视频过程中进行多次尝试的重要性,这样做可以确保最终结果达到更高的质量和逼真度。3.2.5使用/animate命令生成视频Midjourney中的“/animate”命令能够以用户上传的图像和提示词作为参考生成视频,增强视频与特定图像内容的关联性。在命令框中输入“/animate”命令,显示图像文件预览框,如图3-12所示。单击“上传”按钮,弹出“打开”对话框,选择参考图,单击“打开”按钮,上传参考图,如图3-13所示。此时,命令框的image参数右侧将显示图像地址。之后使用上传的图像作为底图,底图是视频的第一帧。在命令框中输入提示词,描述附加图像的主题和背景,以及具体的动作,但无法进行较大的更改。例如,输入“ancatyawns”(猫打哈欠),如图3-14所示。按回车键,生成视频,结果如图3-15所示。从图3-15中可以得知,通过猫坐着张嘴打哈欠的图像,可以得到猫从张大嘴到合上嘴打哈欠的动态过程。然而,无法从猫坐着的状态生成它站起来的视频。这表明当前的技术在生成特定动作的连续性方面存在一定的局限性,需要进一步优化和改进,以实现更复杂的动态转换。任务3.3Sora生成视频Sora的推出标志着OpenAI在视频生成领域取得了革命性的进步。这种结合了扩散模型和大语言模型技术的视频生成系统,为从文本到视频的转换提供了一种全新的方法。Sora不仅能够生成高质量的视频,还能够根据用户的文本描述生成与之匹配的视频,这为内容创作者和开发者提供了前所未有的创作自由度和灵活性。3.3.1Sora概述Sora是由美国AI研究公司OpenAI推出的一款先进的AI生成视频大模型。它在OpenAI的文本到图像生成模型DALL-E的基础上发展而来。Sora为艺术家、电影制片人及学生等需要制作视频的用户带来了无限的可能性。1.Sora基本原理Sora的工作原理基于扩散模型,其核心是通过反向扩散过程从随机噪声中生成视频。具体来说,Sora从纯随机噪声起步,经多阶段计算逐步提炼出结构化信息,将无序的像素分布转化为连贯的图像序列。凭借扩散模型的长时序建模能力,Sora可生成最长一分钟的视频,支持写实、动画等多种视频风格,以及1024像素×1024像素等标准分辨率。(1)扩散模型是一种生成模型,通过模拟数据分布的逐渐变化过程来生成新数据。在视频生成中,这个过程通常从一个随机噪声信号开始,通过逐步添加细节和结构,最终形成完整的视频帧。这种方法的优势在于它能够捕捉到数据分布的细微变化,从而生成高度逼真的视频。(2)Sora不仅依赖于扩散模型,还受到了大语言模型的启发。通过集成大语言模型技术,Sora能够更好地理解和处理文本输入,并将其转化为对应的视频。这种结合使得Sora在处理复杂场景和多样化内容时表现出色。2.Sora技术架构Sora采用了一种结合变换器(Transformer)主干的扩散模型架构。这种架构包括以下几个关键组件。(1)变分自编码器(VAE):用于将输入视频压缩成一个潜在空间表示。这个潜在空间表示保留了视频的主要特征,同时去除了冗余信息,从而提高了模型的效率和生成能力。(2)视觉变换器(ViT):用于处理压缩后的潜在空间表示。ViT通过注意力机制来捕捉视频帧之间的时空关系,从而提高生成视频的连贯性和一致性。(3)去噪扩散概率模型(DDPM):这是扩散模型的核心部分,负责逐步去噪并生成最终的视频帧。DDPM通过多个步骤逐步去除潜在空间表示中的噪声,每一步都使生成的视频更加接近真实的场景。3.Sora技术特点凭借先进的深度学习框架、高度可定制性和可扩展性、文本到视频的转换能力、创新性与多样性、强大的物理世界模拟能力及高效的训练流程等特点,Sora在AI生成视频领域展现出卓越的性能和广泛的应用潜力。Sora技术特点主要体现在以下几方面。(1)先进的深度学习框架。(2)高度可定制性和可扩展性。(3)文本到视频的转换能力。(4)创新性与多样性。(5)强大的物理世界模拟能力。(6)高效的训练流程。4.Sora界面使用Sora模型从文本生成高质量的视频,这一过程不仅提高了视频创作的效率,还为用户提供了更多的创意空间和创作可能性。Sora被设计为一个独立产品,在S上提供服务,首批开放给Plus和Pro用户使用。这个平台提供了一个全新的用户界面。在OpenAI官方网站上注册一个账号,即可直接登录Sora网页版,其界面如图3-24所示。(1)“Explore”窗口(2)“Images”窗口(3)“Videos”窗口(4)“Top”窗口(5)“Likes”窗口(6)“Mymedia”窗口3.3.2文生视频Sora文生视频提示词在视频创作中发挥着至关重要的作用。它们不仅可以帮助创作者明确创作意图和控制视频风格,还可以优化生成过程、提高创作效率,并促进创意表达。通过合理使用提示词,创作者可以创作出高质量、有趣且符合预期的视频。1)指导视频内容2)控制视频风格3.3.3图生视频Sora还具备根据静态图像生成视频的能力,能够让图像内容“动”起来,同时关注细节呈现——通过添加动画效果、过渡场景和动态元素来增强视觉吸引力,使得生成的视频更加生动逼真。图生视频功能在动画制作、广告设计等领域具有广泛的应用前景。1.生成视频(1)在Sora网页版界面的提示词文本框左侧单击“+”按钮,弹出下拉列表,如图3-30所示。选择“Uploadfromdevice”(从设备上传)选项,弹出“Mediauploadagreement”(视频上传协议)界面,如图3-31所示,需要勾选下面所有的复选框,同意不上传包含暴力或明确主题的视频等,才可激活“Accept”(接受)按钮。(2)单击“Accept”(接受)按钮,弹出“打开”对话框,在该对话框中选择静态图像,如图3-32所示。(3)导入静态图像后,在图像下的提示词文本框中输入提示词(4)单击按钮,Sora会根据这个提示词生成两段视频,如图3-34所示。①在生成的第一段视频中,绿色的卡通人物并没有按照预期执行原地转圈的动作,而是变成了一个球体,并在地面上滚动。这一变化展示了Sora在理解和执行提示词时的创造性和灵活性。尽管这与原始提示词有所偏离,但它提供了一个有趣且独特的视觉效果。②在生成的第二段视频中,绿色的卡通人物确实执行了原地转圈的动作。然而,这个动作是通过转换镜头角度来实现的,而不是人物自身在移动。这种方法创造了一种视觉上的旋转效果,使观众感觉人物正在快速转动。使用镜头转换来模拟旋转效果是一种巧妙的技术手段,避免了复杂的动画制作过程,同时达到了预期的视觉效果。2.编辑提示词(1)为了使Sora更准确地理解和执行用户的意图,从而生成符合预期的视频,打开第一段视频,在视频下方单击“Editprompt”(编辑提示词)按钮,进入编辑界面,输入更具体的提示词“Thecharacterrotatesonce”(人物自转一圈),如图3-35所示。(2)单击按钮,Sora会根据修改后的提示词生成两段视频,如图3-36所示。可以发现,重新生成的两段视频更贴近提示词“Characterrotatesinplace”(人物原地转圈),成功描绘了人物自转的动态效果。①在生成的第一段视频中,绿色卡通人物确实执行了原地转圈的动作,但与预期不同的是,这个动作是在人物紧缩身体变成球的状态下完成的。这种变化虽然有趣,但偏离了最初提示词“Characterrotatesinplace”(人物原地转圈)的直接要求。②在生成的第二段视频中,绿色卡通人物成功执行了原地转圈的动作,虽然在旋转过程中人物身体发生了变形,但基本实现了预期的效果。此外,该动作表现得非常流畅和自然,充分展示了Sora在动画制作方面的高超技艺。(3)尽管这两段视频都展示了Sora的能力,但结果仍有改进空间。3.3.4视频生成视频Sora具备将现有视频转换为新风格的能力,但有时效果可能不如预期。这表明该功能需要进一步优化。即使重复生成,也可能无法达到预期效果,这就需要使用视频生成视频技术来提升转换质量和准确性。Sora的视频生成视频技术不仅具备将现有视频转换为新风格的能力,还提供了多种高级功能来增强和定制视频内容。1.导入基础视频在Sora网页版界面的提示词文本框左侧单击“+”按钮,显示两种导入视频的方法。(1)选择“Uploadfromdevice”(从设备上传)选项,弹出“打开”对话框,在该对话框中可以选择基础视频,如图3-37所示。(2)选择“Choosefromlibrary”(从库中选择)选项,打开视频选择界面,从用户视频库中选择视频,如图3-38所示。2.Remix(重新混音)(1)在Sora的AI视频生成器中,Remix是一个重要的功能,它允许用户调整生成视频的多个方面,以优化最终的输出效果。借助Remix功能,用户能够使用自然语言描述来对视频元素进行替换、移除或重构。(2)导入视频后,单击右下角的“Remix”(重新混音)按钮,进入视频混音编辑界面,如图3-39所示。在该编辑界面中,激活提示词功能,通过在提示词文本框中输入提示词来描述想要实现的视频内容修改。Sora的AI技术将根据这些提示词智能地对视频进行相应的调整和创新,从而以全新的视角重塑视频内容。(3)在提示词文本框中输入提示词,通过文本描述修改视频内容。例如,输入提示词“Addingtreesinthebackground”(在背景中添加树木)。(4)单击“Remix”(重新混音)按钮,启动视频的生成过程,效果如图3-40所示。根据基础视频与提示词描述,想得到一段以一头大象为主体的视频,并在背景中添加树木。通过图3-40可以看出,生成的视频中树木的效果并不如预期那样明显。这可能是因为树木的细节没有被充分地捕捉和渲染。(5)为了改善该效果,再次单击“Remix”(重新混音)按钮,进行第二次视频生成,如图3-41所示。通过图3-41可以发现,树木变得更加明显和生动,但效果仍不是太满意。这可能是由于AI在解析和执行文本描述时存在一定的局限性,此时可以稍微调整提示词的描述。(6)再次单击“Remix”(重新混音)按钮,进行第三次视频生成。(7)除了修改提示词,通过设置混音强度参数也可以调整视频生成效果,生成视频下方包含四种混音强度参数,如图3-43所示。这些参数可以实现不同级别的创意控制,允许用户根据需要选择适当的强度。3.Blend(混合)(1)Blend(混合)功能是Sora视频生成器中一个强大的特性,允许用户将两段视频无缝结合,创造出独特且具有视觉吸引力的短片。这种混合并不是简单的拼接,而是通过高级智能算法确保两段视频之间的过渡自然流畅,仿佛它们原本就是一个整体。需要注意的是,要使用Blend功能,需要先准备两段视频。(2)导入第一段视频到Sora平台后,单击界面右下角的“Blend”(混合)按钮,激活该功能,如图3-44所示。此时,可以单击“Uploadvideo”(上传视频)或“Choosefromlibrary”(从库中选择)选项。这里选择“Uploadvideo”(上传视频)选项,弹出“打开”对话框,选择第二段视频。(3)成功导入两段视频之后,进入Sora的Blend功能编辑界面,如图3-45所示。这个界面提供了一个直观且功能强大的平台,使用户可以精确调整两段视频的混合方式。(4)在Blend功能编辑界面中,可以选择手动调整混合区域和影响曲线,以实现更精确的控制。当对自动生成的结果不完全满意时,这种手动调整功能特别有用。(5)此外,Sora还提供了几种预设的混合效果参数,如图3-46所示。单击“Blend”(混合)按钮,并选中相应的混合效果参数,生成混合视频,实现特定的视觉效果,如图3-47所示。(6)Sora的这种混合技术特别适合制作音乐视频、短片或任何需要进行动态视觉表现的项目。通过Blend功能,可以探索无限的创意可能性,并制作出真正反映艺术视角的视频。4.Loop(循环)(1)Loop功能允许用户在时间轴上截取镜头,并制作无缝循环的视频片段。这对于创建背景音乐视频、动态壁纸或社交媒体上吸引眼球的内容非常有用。(2)导入视频到Sora平台后,单击界面右下角的“Loop”(循环)按钮,进入Sora的Loop功能编辑界面,如图3-48所
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海外物资设备管理培训
- 气焊工测试验证模拟考核试卷含答案
- 冷拉丝工操作评估考核试卷含答案
- 热缩材料制造工安全培训知识考核试卷含答案
- 中药药剂员诚信强化考核试卷含答案
- 药品购销员安全技能竞赛考核试卷含答案
- 酒店员工培训与职业生涯规划制度
- 酒店服务质量监督评价制度
- 财务费用报销与审批制度
- 土壤及动植物样本检测扩建项目环境影响报告表
- 2026中考英语时文热点:跨学科融合阅读 练习(含解析)
- 《筑牢安全防线 欢度平安寒假》2026年寒假安全教育主题班会课件
- 2026国家国防科技工业局所属事业单位第一批招聘62人备考题库及答案详解(新)
- 信息技术应用创新软件适配测评技术规范
- 2026版安全隐患排查治理
- 道路施工安全管理课件
- (2025年)吉林事业单位考试真题附答案
- 肉瘤的课件教学课件
- 《患者身份识别管理标准》测试题及答案
- VTE患者并发症预防与处理
- 车辆救援合同协议书
评论
0/150
提交评论