《人工智能通识》-项目5-1 AIGC视频生成应用 - 相关知识_第1页
《人工智能通识》-项目5-1 AIGC视频生成应用 - 相关知识_第2页
《人工智能通识》-项目5-1 AIGC视频生成应用 - 相关知识_第3页
《人工智能通识》-项目5-1 AIGC视频生成应用 - 相关知识_第4页
《人工智能通识》-项目5-1 AIGC视频生成应用 - 相关知识_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIGC视频生成应用项目6机械工业出版社《人工智能通识》配套资源制作:教材编写团队AIGC本课件为《人工智能通识(AIGC版)》配套教学资源,由编写团队精心打造。为便于教学使用,团队同步提供了丰富的辅助材料,涵盖微课视频、教学课件、实训手册、习题答案、课程标准及程序源代码等。同时,教材配套超星教学示范包,支持一键克隆为网络在线课程,助力高效开展线上线下混合式教学。欢迎联系出版方订购使用。

书名:《人工智能通识(AIGC版)》书号

:978-7-111-79447-9出版社:机械工业出版社主编:蓝永健、吴秀红、罗智聪副主编:邓爱玲、王有铭、叶菊、周弢PARTTWO相关知识2.相关知识思维导图2.相关知识——计算机视觉技术的内涵计算机视觉的定义计算机视觉(ComputerVision)作为人工智能领域的重要分支,是一门研究如何使机器“看”和理解视觉世界的科学与技术。它致力于通过算法和模型让计算机从数字图像或视频中自动提取、分析和理解有用信息,进而实现对视觉场景的解释与决策。计算机视觉的本质是模拟人类视觉系统的功能,但并非简单复制生物视觉机制,而是通过计算手段解决视觉信息处理问题。计算机视觉与其他领域关系2.相关知识——计算机视觉技术的内涵计算机视觉的定义计算机视觉融合了图像处理、模式识别、机器学习、几何建模和认知科学等多领域知识,其技术体系从传统的特征提取方法发展到以深度学习为代表的端到端学习范式,如图所示。该技术不仅追求视觉数据的低级特征分析,更致力于实现接近人类水平的高级场景理解能力,广泛应用于医疗、安防、自动驾驶、工业检测等众多领域,是连接物理世界与数字智能的关键桥梁。2.相关知识——计算机视觉技术的内涵计算机视觉的核心技术2.相关知识——计算机视觉技术的内涵计算机视觉系统首先需要通过图像传感器(如摄像头、扫描仪)获取数字图像,就像我们用手机拍照获取画面一样。但原始图像往往存在噪点、亮度不均或几何变形等问题,因此需要进行预处理优化。常见的预处理包括:噪声消除、对比度增强、几何校正。噪声消除采用高斯滤波等方法,类似美颜相机的磨皮功能。对比度增强,如直方图均衡化,相当于调整手机照片的亮度。几何校正,包括图像旋转、透视变换等,就像把歪斜的身份证照片摆正。这些预处理步骤相当于给计算机“擦亮眼镜”,确保后续分析能获得准确的视觉数据。图像获取与表示(机器的“眼睛”)2.相关知识——计算机视觉技术的内涵特征提取是计算机视觉的核心环节,旨在从图像中识别出具有判别性的视觉模式。其技术发展经历了从传统算法到深度学习的演进,包括传统特征提取方法和现代深度学习方法。传统特征提取方法包括:边缘检测、角点检测、纹理分析。边缘检测(Canny算子),像用铅笔勾画物体轮廓,自动驾驶用它识别车道线。角点检测(Harris算法),定位物体的关键点,如AR滤镜找眼睛位置戴兔耳朵。纹理分析(LBP算法),就像摸布料来判断材质,超市收银机用它识别商品。现代深度学习方法,通过卷积神经网络(CNN)自动学习多层次特征,电脑通过看大量图片(比如1000张猫和狗的照片),自己总结出猫和狗的区别。特征提取与描述(机器的“观察方法”)2.相关知识——计算机视觉技术的内涵在特征提取基础上,计算机通过以下技术实现语义理解。图像分类,判断图片内容,如相册自动归类照片。目标检测,定位并识别物体,如停车场摄像头找空车位。语义分割,像素级分类,区分图像中每个像素的类别。实例分割,区分同类物体的不同个体。人脸识别,分析五官特征,应用于手机解锁、刷脸考勤。这些技术构成了从简单识别到复杂理解的完整能力体系。目标检测与识别(机器的“认知能力”)2.相关知识——计算机视觉技术的内涵处理视频需要额外的时序分析能力,包括:光流估计、动作识别、目标跟踪。光流估计,计算相邻帧之间的像素运动。动作识别,理解视频中人物的行为模式。目标跟踪,持续追踪移动物体的轨迹。这些技术让计算机不仅能处理静态图像,还能理解动态场景的变化。视频理解技术(机器的“动态视觉”)2.相关知识——计算机视觉技术的应用在工业制造领域,计算机视觉系统通过高精度图像分析实现了自动化质量检测,能够快速识别产品表面的微小缺陷,准确率可达99.9%以上,大幅提升了生产效率和产品质量。工业与制造业智能交通系统深度依赖计算机视觉技术来实现环境感知和决策支持。自动驾驶车辆通过多摄像头和激光雷达融合的视觉系统,实时检测道路上的车辆、行人、交通标志等目标,并准确判断可行驶区域。在城市交通管理方面,智能监控摄像头可以自动识别违章行为、统计车流量并检测交通事故,显著提升了交通管理效率。智能交通与自动驾驶计算机视觉技术已广泛应用于各个行业,深刻改变着人们的生产和生活方式。2.相关知识——计算机视觉技术的应用计算机视觉技术在智能交通的应用2.相关知识——计算机视觉技术的应用医疗健康是计算机视觉最具社会价值的应用领域之一。在医学影像分析方面,深度学习算法能够辅助医生识别X光、CT和MRI图像中的病灶,既提高了诊断效率又降低了漏诊率。医疗健康安防监控领域是计算机视觉技术最早规模化应用的场景之一。现代智能监控系统集成了人脸识别、行为分析和视频摘要等先进功能,异常行为检测算法可以自动识别打架、跌倒等突发事件。安防与监控2.相关知识——计算机视觉技术的应用电子商务平台利用图像搜索和虚拟试衣技术改善了用户的购物体验。家庭娱乐设备如体感游戏机和智能电视,通过手势识别和动作追踪实现了更自然的人机交互。这些应用不仅丰富了人们的数字生活,也推动了相关产业的升级转型。消费电子与互联网农业和环境领域正在积极应用计算机视觉技术实现智能化转型。精准农业系统通过无人机航拍和地面传感器采集的视觉数据,可以监测作物长势、识别病虫害,帮助农民优化种植决策。在环境保护方面,卫星图像分析技术则为森林资源管理和气候变化研究提供了重要工具。这些应用正在推动传统农业和环境监测向数字化、智能化方向发展。农业与环境文生视频(Text-to-Video)是一种基于人工智能的生成式技术,能够将自然语言描述转换为连贯的视频内容。其核心目标是理解文本的语义信息,并生成与之匹配的动态视觉序列。这一技术结合了自然语言处理(NLP)、计算机视觉(CV)、生成对抗网络(GANs)以及扩散模型(DiffusionModels)等深度学习技术,实现从静态文本到动态视频的跨越。当前,该技术已逐步应用于短视频创作、广告制作、游戏开发等领域,并有望在未来实现影视级内容生成,彻底改变数字内容的生产方式。2.相关知识—“文生视频”技术的工作原理与实现流程文生视频是融合多领域技术将文字变为视频的过程,以“春天的清晨,穿着碎花裙的小女孩在开满樱花的公园里放风筝”为例来看看它的实现步骤。理解与分析文本生成视觉元素合成与编排视频生成与融合音频优化与后处理2.相关知识—“文生视频”技术的工作原理与实现流程首先是文本理解与分析。输入的文本需先进行预处理,系统会去除冗余标点、过滤掉无意义的助词,把句子变成更简洁的格式。接着利用自然语言处理技术深度剖析语义,通过语法分析明确句子结构,运用命名实体识别提取实体,还能进行情感分析判断倾向,最后提取关键信息。例如,通过语法分析确定“小女孩”是主语,“放风筝”是谓语;运用命名实体识别,找出“春天的清晨”是时间,“公园”是地点,“小女孩”“樱花”“风筝”是实体;还能判断出这是一段充满生机的描述。最后提取关键信息,时间“春天清晨”、主体“穿碎花裙的小女孩”、场景“开满樱花的公园”、动作“放风筝”。随后进入视觉元素生成阶段。基于提取的关键信息,系统像一位神奇的画家,利用技术画出对应的画面。先勾勒出粉白相间的樱花树、洒满晨光的公园草地,再绘制出扎着蝴蝶结、穿着碎花裙的小女孩形象。对于“放风筝”这个动作,系统会细致地描绘出小女孩跑动、松手、风筝升空等连续画面,通过模拟连贯动作,让小女孩在画面中自然地动起来。2.相关知识—“文生视频”技术的工作原理与实现流程2.相关知识—“文生视频”技术的工作原理与实现流程接着是视频合成与编排。系统把生成的一幅幅画面按文字描述的顺序排列,从清晨阳光洒在公园,到小女孩走进画面开始放风筝,形成视频的帧序列。在场景转换时,比如从全景的公园切换到小女孩的特写,系统会添加淡入淡出的过渡效果,让画面衔接更自然。然后进行音频生成与融合。若需要旁白,系统会模拟人声朗读这句话,用轻快活泼的语调展现春日的美好。同时,系统还会添加环境音与音效,比如风吹樱花的簌簌声、小女孩的欢笑声、风筝线的呼呼声,最后将这些声音与视频画面精准匹配,让声音和画面完美融合。最后是优化与后处理。系统会检查视频画质,让樱花的粉色更鲜艳、小女孩的裙子图案更清晰,修复画面中模糊或不连贯的地方。确认视频流畅、画质精美后,将其转换为常见的MP4格式输出,这样一个生动展现春日童趣的视频就制作完成了。图生视频(Image-to-Video,I2V)是AI视频生成的前沿技术之一,其以图像输入为主要基础,可结合文本、语音、视频等多种形式的信息,实现视频生成,其生成的内容更加灵活、多变。图生视频(Image-to-Video)技术是人工智能领域的一项创新应用,它能够将静态图像转化为动态视频,其核心在于从单幅图片中挖掘潜在的动态信息,进而生成连贯、自然且符合物理规律的动态画面序列。这一技术融合了计算机视觉、深度学习以及物理模拟等多领域知识。2.相关知识—“图生视频”技术的工作原理与实现流程2.相关知识—“图生视频”技术的工作原理与实现流程图生视频,就是把一张静态图片变成会动的小短片。下面,我们以一张“公园里老人打太极拳,旁边小孩追蝴蝶”的图片为例,看看它是怎么从“不动”变“生动”的。研究图片系统预测动作生成会动的画面优化视频第一步,系统要仔细研究图片。就像我们盯着画看细节一样,系统会用特别的方法分析这张图。它先找出画面里有什么:比如老人、小孩、蝴蝶、树木这些东西,还能看出老人穿着宽松的衣服,蝴蝶翅膀是彩色的。接着,系统判断这些东西在画面里的位置,比如老人站在中间,小孩在右边追蝴蝶,树木在背景里。最后,系统还要猜猜画面里哪些东西可能会动,比如蝴蝶会飞,小孩会跑,这些信息都很重要,是让图片“活”起来的基础。第二步,系统要预测东西怎么动。这时候,系统就像一个小导演,给画面里的东西安排动作。它先把不会动的东西,比如地面、长椅,当成背景;把可能会动的,像蝴蝶、小孩,标记出来。然后,系统要想办法让这些东西动得合理。比如,它会让蝴蝶按照“飞一下,停一下,再飞”的路线移动;让小孩跟着蝴蝶跑,手臂和腿也跟着摆动。就像我们看动画片一样,系统会先确定几个关键动作,比如小孩刚开始追蝴蝶、快要追到、蝴蝶飞走这几个瞬间,这些瞬间就是后面做视频的关键画面。2.相关知识—“图生视频”技术的工作原理与实现流程第三步,系统要做出会动的画面。系统先把原来的图片当作视频的第一帧,就像故事的开头。然后,它根据刚才设计好的动作,一帧一帧地画出中间的画面。为了让画面更连贯,系统会让前后画面之间的变化不要太突然。比如,蝴蝶从左边飞到右边,系统会慢慢画出它移动的过程,不会让它突然“瞬移”。如果画面里有东西要转方向,比如小孩转身,系统会用特殊的方法,让转身的动作看起来自然,就像我们真的在看小孩转身一样。第四步,系统要让视频更好看。刚做出来的视频可能有点粗糙,比如画面不够清楚,动作不够流畅。这时候,系统会在关键画面之间加上过渡画面,让动作看起来更连贯,就像给视频“抹匀”一样。它还会把画面变得更清晰,让老人的衣服纹路、蝴蝶翅膀的花纹都看得清清楚楚。为了让视频更真实,系统会检查画面里的东西动得合不合理,比如小孩跑的时候不会浮在空中,蝴蝶飞的时候不会撞进墙壁。最后,系统还会加上声音,比如小孩的笑声、风吹树叶的声音,让视频更有趣。2.相关知识—“图生视频”技术的工作原理与实现流程了解主流AIGC视频工具有助于提升视频内容生产效率,满足多场景创作需求。通过对比工具的功能特点和适用领域,可以更精准地选择工具,优化创作流程并降低成本。以下是主流AIGC视频生成工具的对比分析。2.相关知识——主流AIGC视频生成工具对比主流AIGC视频生成工具工具名称所属公司/机构主要特点RunwayMLRunway支持多模态AI模型(文本/图像转视频),提供高级视频编辑与特效合成SynthesiaSynthesiaAI生成虚拟主持人视频,支持多语言配音和模板化场景DeepBrainDeepBrainAI基于文本生成真人播报视频,支持快速场景切换与多语言输出PictoryPictory自动将长视频剪辑为短视频,支持字幕生成与AI旁白2.相关知识——主流AIGC视频生成工具对比主流AIGC视频生成工具工具名称所属公司/机构主要特点Lumen5Lumen5文本转视频,自动匹配素材库内容,支持模板化编辑Designs.aiDesigns.ai集成AI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论