计算机与信息技术基础 课件 第5-7章 多媒体技术与应用- 人工智能与应用_第1页
计算机与信息技术基础 课件 第5-7章 多媒体技术与应用- 人工智能与应用_第2页
计算机与信息技术基础 课件 第5-7章 多媒体技术与应用- 人工智能与应用_第3页
计算机与信息技术基础 课件 第5-7章 多媒体技术与应用- 人工智能与应用_第4页
计算机与信息技术基础 课件 第5-7章 多媒体技术与应用- 人工智能与应用_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5多媒体技术与应用01多媒体技术概述02图像处理04计算机动画03视频处理目录Content5.1多媒体技术概述多媒体技术概述媒体分类:

感觉媒体、表示媒体、表现媒体、存储媒体、传输媒体多媒体:融合两种或以上感觉媒体的人机交互式信息交流与传播媒体多媒体技术:计算机及相应设备,采用数字化处理技术,将文本、图形、图像、音、动画、视频等多种媒体有机结合起来进行综合处理的技术多媒体素材分类及常见文件格式:素材文件格式文本TXT图形SVG、EPS图像BMP、JPEG、PNG、TIFF音频MP3,WMA,WAV,APE,FLAC,OGG,AAC视频AVI、MOV、MP4动画MB、SWF、ANI、GIF、FLA多媒体技术概述多媒体相关技术:多媒体数据压缩编码技术、多媒体数据库技术、多媒体信息检索技术、多媒体通信技术、多媒体虚拟现实技术、生成式人工智能技术多媒体技术特征:多样性、集成性、交互性、非线性、实时性多媒体数据压缩:无损压缩、有损压缩5.2图像处理01图形与图像处理02图层与选区04图像色彩调整03绘制图形与图像目录Content05蒙版、通道和滤镜06路径与文本图像处理基本概念像素:图像的基本单位,图像数字化过程中的最小采样点显示分辨率:显示屏上能够显示出的像素数目,如800×600的分辨率显示480000个点图像分辨率:图像中存储的信息量,每英寸图像内像素点个数PPI(PixelPerInch):每英寸图像内像素点个数,决定屏幕显示清晰度DPI(DotsPerInch):打印设备每英寸可放置的物理墨点数量,反映打印输出的精细度,通常高于PPIPhotoshop(PS)简介Photoshop的界面Photoshop的工具箱图层不同图层可独立编辑,叠加呈现复杂效果。在正常混合模式下,上方图层内容遮盖下方图层内容图层间可以不同的不透明度、填充比例混合常见图层混合模式:正常、正片叠底、线性加深、滤色、叠加、强光选取基本操作操作快捷键选区相加Shift选区相减Alt选区交叉Shift+Alt全选Ctrl+A选区反选Ctrl+Shift+I取消选区Ctrl+D前景色填充Alt+Delete背景色填充Shift+Delete撤销操作Ctrl+Z建立选区的工具规则选区工具:选框工具(矩形、椭圆形、单行、单列)不规则选区工具:套索工具(多边形套索、磁性套索)、魔棒工具、色彩范围色彩范围套索工具羽化定义画笔预设仿制图章和图案图章工具仿制图章工具:复制图像图案图章工具:重复绘制图案修复画笔工具修复画笔工具修补工具污点修复工具颜色模式RGB模式:包括红色(Red)、绿色(Green)、蓝色(Blue),取值0~255;采用“加色法”,色光叠加会变亮,CMYK模式:包括青色(Cyan)、洋红色(Magenta)、黄色(Yellow)、黑色(blacK),取值0~100%;采用“减色法”,不同颜色的颜料混合会导致反射的色光减少HSV模式:包括色相(Hue,-180~180)、饱和度/纯度(Saturation,0~100%)、亮度/强度(Value,0~100%),分别反映颜色种类、灰色分量比例和明亮程度其他颜色模式:位图模式、灰度模式、索引模式、Lab模式色阶调整黑色滑块:暗调或黑场,表示图像最小的像素值,取值范围为0~253灰色滑块:中间调,表示图像中黑场和白场的比值,默认值为1,调大取值可提高亮度,反之则降低亮度白色滑块:明调或白场,表示图像最大的像素值,取值为2~255直方图:横轴为像素值,纵轴为像素的频数调整曝光不足的图片曲线调整横轴代表调整前的色阶,纵轴代表调整后的色阶。横轴亮度值从左到右递增。使用技巧:点击图像的像素,查看其在频数分布直方图中的位置在曲线上设置多个控制点,调大、调小亮度值,或维持不变调整图片的红色通道颜色调整色相/饱和度调整:调整色相、饱和度、明度色彩平衡调整:调整RGB通道或CMY通道的取值通道抠图查看不同通道,选择主体与背景对比最鲜明的蓝色通道复制蓝色通道为alpha通道并进行通道抠图蒙版图层蒙版:白色区域显示当前图层内容,黑色区域遮盖当前图层内容,显示下一图层内容剪贴蒙版:“上图下形”,以当前图层为内容,下一图层为轮廓快捷键:在相邻图层间按Alt键滤镜路径路径由锚点顺次连接而成。在折角锚点处使用控制柄(方向线)可将折线改变为曲线,通过移动控制柄两端的方向点可用于控制曲线的弯曲方向和弯曲程度文字字符设置和段落设置文字放置在图形的不同位置5.3视频处理01视频基本概念02PRCS6操作界面04视频及音频“效果”03界面窗口目录Content视频基本概念数字视频知识——电视制式:电视信号的标准也称为电视的制式。NTSC制式是1952年由美国制定的标准,在美国、日本、韩国、台湾等使用;每秒29.97帧图像。PAL制式由西德在1962年制定的彩色电视标准,克服了NTSC由于相位敏感造成的敏感失真这一缺点,我国和欧洲国家用PAL制式,每秒25帧图像。

SECAM制式:指“顺序传送彩色信号与存储恢复彩色信号制式”,是法国在1966年制定的一种彩色电视制式。数字视频编辑方式:

线性编辑(LE)、非线性编辑(NLE)常用的视频格式:AVI、MPEG、MOV、MKV、FLV、WMV、3GP、VOB等常用的音频格式:MP3、WAV、FLAC、AAC、AIFF、APE、WMA、MIDI等

PRCS6操作界面新建一个项目文件捕捉或输入素材编辑视频序列添加字幕添加“效果”调整音频输出视频基本工作流程:界面窗口“项目”窗口“时间线”窗口界面窗口“工具”窗口“源”监视器窗口界面窗口“特效控制台”窗口“时间重映射”的倒放、加速、减速、平滑设置调音台及视频、音频“效果”“效果”窗口“调音台”窗口PRCS6的导出及小结本小节介绍了数字视频的基础知识、PRCS6的界面、各窗口功能按钮及导出。5.4计算机动画计算机动画概述视觉暂留:人眼看到一幅画或一个物体后,在1/24秒内其视觉形象不会消失动画:一系列有关联的静止画面通过连续播放造成视觉上连续变化的图画计算机动画:利用计算机技术产生图像、图形及其运动,生成一系列连续画面并实时播放的技术不同分类维度:空间视觉效果:二维动画、三维动画运动控制方式:实时动画、逐帧动画和补间动画AdobeAnimateToonBoomHarmony3DStudioMaxAutodeskMaya二维动画制作软件三维动画制作软件第6章数据处理与数据库01数据与电子表格数据处理02数据库技术及应用03数据库设计目录Content计算机硬件系统数据的分类电子表格基本概念数据统计与分析表格数据可视化数据的分类定性数据与定量数据定性数据通常用于描述和分类,提供关于质量、特性和属性等信息定量数据涉及数值,可以是离散的整数或者是在一定区间内连续的取值原始数据与加工数据原始数据是直接从源头收集、未经处理的数据加工数据是经过处理和分析的数据,更加适用于特定的应用或者决策过程结构化数据与非结构化数据结构化数据的组织方式是预定义的,通常存储在关系数据库中,以表格形式存在非结构化数据不遵循预定义格式时间序列数据与空间数据时间序列数据是按照时间顺序记录的数据点,通常用于分析趋势、季节性和周期性空间数据与地理位置相关的数据,通常用于地理信息系统(GIS)和地图制作等电子表格基本概念电子表格是数据处理的基础工具,用于输入、编辑、计算和分析数据。电子表格通过由行和列的网格系统组织数据,使得数据的存储、管理和分析变得更加高效。在电子表格中,每个数据点都存储在单元格中,这些单元格由行号和列号确定其唯一位置。例如,单元格“A1”位于第一行第一列的交叉处。数据统计与分析在电子表格软件中,数据统计与分析是核心功能之一。通过这些功能,快速从大量数据中提取有价值的信息,进行决策支持,极大地提高数据处理的效率和准确性。数据统计与分析,在金融、市场研究、科学研究和日常决策中都具有广泛的应用。表格数据可视化数据可视化是将数据转换为图形或图像的过程。在电子表格中,数据可视化是一种强大的工具,可以帮助我们解释数据、发现模式、趋势和异常,从而为决策提供支持。数据库技术及应用数据库技术基本概念数据库管理系统数据模型SQL概述数据、数据库、数据库管理系统、数据库系统等。数据库系统的基本结构数据库技术基本概念数据库管理系统数据库管理系统(DBMS)是管理数据库的计算机系统软件,它是数据库系统的核心组成部分。数据库应用系统(DatabaseApplicationSystem)则是使用DBMS提供的各种工具进行数据管理的系统。数据库应用系统必须通过DBMS访问数据库。DBMS不仅承担执行各种应用程序对数据库中数据的操作指令,还要承担数据库的维护、控制工作,以保证数据库的安全性和完整性。常见的数据模型:层次数据模型、网状数据模型和关系数据模型。层次数据模型的结构图网状数据模型的结构图数据模型SQL概述SQL(StructuredQueryLanguage)是一种用于存储、操作和检索关系数据库中数据的标准编程语言。从功能上可以分为数据定义语句、数据查询语句、数据操纵语句、数据控制语句4类。SQL的功能命令动词数据定义CREATE,DROP,ALTER数据查询SELECT数据操纵INSERT,UPDATE,DELETE数据控制GRANT,REVOKE数据库设计Access表设计Access查询设计Access窗体设计Access报表设计Access宏设计Access表设计表(Table)是一个二维结构的数据集合,主要用来存储数据信息。表是数据库的数据中心,也是最基本的数据库对象。Access数据库至少包含一个表,其他类型的对象都构建在表的基础上。表中的列称为“字段”或“属性”,行称为“记录”或“元组”。Access表设计创建Access表的方法:使用数据表视图、使用设计视图和导入外部文件数据。设计表的字段属性:字段大小、默认值、验证规则和验证文本等。编辑表间关系:新建表间关系、实施参照完整性。向表中导入外部文件数据:常见的外部文件类型包括电子表格Excel、文本TXT、其他数据库文件等。Access查询设计查询(Query)是获取数据结果、数据操作或者这两者的请求。查询的结果是从表中提取信息的动态集合,本身并不保存数据。可以使用查询回答简单问题、执行计算、合并不同表中的数据,甚至添加、更改或删除表数据。Access查询设计使用查询向导创建Access查询单击菜单栏“创建”→“查询”组中的“查询向导”命令,即可创建查询。创建查询后,可以单击“运行”命令显示查询的最终结果。使用设计视图创建Access查询对于创建指定条件的查询或者其他复杂的查询,查询向导就不能完全胜任了。这种情况下,可以通过设计视图直接创建查询;也可以在使用查询向导创建查询后,通过设计视图进行修改。Access窗体设计窗体(Form)又称为表单,是一个Access数据库对象,可用于输入、编辑或显示来自表或查询中的数据。有效的窗体可提高数据库的使用效率,这是因为用户不必搜索所需的内容。窗体本身并不存储数据,但是窗体上包含多种控件,是Access中友好的人机交互界面。Access窗体设计窗体的组成结构使用窗体向导创建Access窗体使用“窗体向导”创建窗体,既可以任意地选定要在窗体上显示的各个字段,又可以使用一个或多个数据源。使用设计视图创建Access窗体实际上就是在设计视图中提供一个空白的窗体,用户可以在窗体上添加和设置各种各样的控件。Access报表设计与窗体相比,报表(Report)虽然减少了人机交互的过程,报表中的数据也无法进行编辑,但是,作为一个数据输出的能手,报表更加侧重于数据的分组、复杂统计和丰富的输出格式。Access报表设计使用报表向导创建Access报表使用报表向导可以选择来自于多个表或者查询中的部分或全部字段作为报表的数据源,还可以指定数据的分组和排序方式,对数据进行汇总。使用设计视图创建Access报表使用报表向导创建的报表,难以在创建报表的同时产生带有汇总功能或者满足指定条件的报表,要实现上述的要求,应使用设计视图创建报表。Access宏设计宏(Macro)是由一个或多个操作组成的集合,其中每个操作都能实现特定的功能。可以将Access宏看作是一种简化的编程语言,使用这种语言能够简易快捷地创建代码。Access宏设计宏的类型和常用的宏操作创建独立宏单击菜单栏“创建”→“宏与代码”组中的“宏”命令。设计嵌入宏打开窗体或报表的设计视图,单击“属性表”→“事件”属性→选择“宏生成器”。人工智能与应用01人工智能概述02机器学习目录Content03视觉识别04自然语言处理05AIGC人工智能的缘起

人工智能的起点是1956年的达特茅斯会议。在这次会议上,麦卡斯首次提出了人工智能(ArtificialIntelligence)这个术语。由麦卡斯、明斯基等人发起成立了一个独立的人工智能研究学科,为后续人工智能发展奠定了学科基础。人工智能的概念人工智能是一门科学,是使机器做那些人需要通过智能来做的事情。(马文·明斯基)人工智能是一门关于研究知识的表示、知识的获取和知识运用的学科。(尼尔森)人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是智能学科重要的组成部分,它企图了解智能的实质,并生产出一种新的能以与人类智能相似的方式做出反应的智能机器。人工智能的发展1950,图灵测试诞生。1954,第一台可编程机器人问世。萌芽期1956年夏,人工智能诞生。1966-1972,首台人工智能移动机器人Shakey。1966,第一台聊天机器人ELIZA。启动期1981,日本启动人工智能计算机研究。1982,第一个成功的商用专家系统R1问世。1986,首台3D打印机横空出世。突破期20世纪70年代,人工智能瓶颈期。算力不足,导致人工智能研究停滞。消沉期1997,深蓝战胜人类国际象棋冠军。2016,人工智能AlphaGo战胜围棋世界冠军。近十年,我国人工智能应用产业全面铺开。高速发展期1997-5-11“深蓝”战胜国际象棋世界冠军卡斯帕罗夫2016-3-15,AlphaGo战胜围棋世界冠军李世石无人驾驶人脸识别人工智能医疗人工智能应用场景AI合成主播智能家居AI教育机器人机器学习基本原理

机器学习是一门多领域交叉学科,它旨在让计算机系统能够从数据中自动学习规律和模式,进而对未知的数据进行预测或决策。机器学习过程机器学习的任务分类监督学习无监督学习强化学习通过带有标签的训练数据来构建模型,使模型能够对新的输入数据做出预测或分类。训练数据没有人工标注的标签,算法需要自动从数据中发现潜在的模式、结构或规律。让智能体(例如机器人)通过与环境的交互学习最优策略,以最大化长期累积奖励。监督学习框图强化学习框图机器学习的训练流程数据集收集与预处理将原始数据转换为适合模型训练和分析的格式。关键步骤包括:数据收集、数据清洗和特征工程。模型选择选择机器学习模型时,需根据所处理的机器学习任务类型以及数据自身的特点来进行挑选。对于分类任务,如判断邮件属于正常邮件还是垃圾邮件,可选择适用于分类问题的模型,如逻辑回归、决策树或神经网络等。对于回归任务,如预测股票价格走势,应选择适用于回归问题的模型,如线性回归或神经网络回归等。对于无监督学习中的任务,如聚类或降维,则需选择相应的聚类算法。数据集划分将经过预处理的完整数据集按照一定比例划分为“训练集、验证集和测试集”三个部分,各部分有着不同的作用。训练集:让模型学习数据中的规律,依据训练集中输入特征与对应输出的关系来调整模型参数,使其拟合数据内在模式。验证集:训练过程中用于调整模型超参数,对比不同超参数组合下模型的性能,选出最优配置,避免模型过拟合或欠拟合。测试集:在模型训练及超参数调整完毕后,评估模型对未见过数据的预测能力以此判断模型在实际应用中的有效性。设定损失函数和优化算法损失函数的主要作用是衡量模型预测结果与真实结果之间的差异程度,它是模型训练过程中优化的目标。优化算法是机器学习中用于寻找使损失函数最小化的模型参数的方法。选择合适的优化算法来更新模型的参数,目的是使损失函数的值不断减小,让模型逐步拟合数据中的规律,达到更好的预测性能。模型训练进入迭代训练,在每一轮epoch中,将训练集数据输入模型,模型生成预测结果,通过损失函数计算预测与真实结果差异得到损失值,再依据优化算法基于损失值计算参数梯度,按梯度反方向和设定学习率更新参数,使模型拟合数据规律。模型测试当模型完成训练以及超参数调整后,就进入测试流程,其核心目的是判断模型在实际应用场景中的预测性能。机器学习的训练流程机器学习的训练流程图经典案例:乳腺癌诊断数据集来源:样本数据由美国威斯康星大学医院的WilliamH.Wolberg博士等人收集整理,最初发布于1995年的UCI机器学习数据库(UCIMachineLearningRepository)。UCI机器学习数据库是一个广泛使用的公开数据集仓库,为机器学习研究人员和从业者提供了丰富的实验数据。该样本数据也可以从加利福尼亚大学欧文分校的机器学习库中下载。通常采用机器学习中的逻辑回归算法来构建乳腺癌诊断模型,逻辑回归是一种经典的二分类算法,它通过建立一个线性模型来预测样本属于某个类别的概率,然后根据设定的阈值将概率转换为类别标签。1选取数据样本首先从数据集中挑选出用于模型训练和测试的数据样本。2读取训练样本,训练分类器将选取的数据样本分为训练集,利用训练集中的数据对分类器进行训练,使其能够学习到数据中的特征和模式。3用测试样本测试已训练好的模型使用独立的测试样本对已经训练好的分类器进行测试,评估模型的性能。4报告测试结果将测试得到的结果进行整理和分析,形成测试报告,展示模型的准确性、可靠性等指标。实现步骤经典案例:乳腺癌诊断经典案例:

乳腺癌征诊断网络图模型训练并预测inputlayerhiddenlayerhiddenlayeroutputlayer经典案例:乳腺癌诊断各部分可视化结果视觉识别技术概述

视觉识别是一种利用计算机技术,模拟人类视觉系统对图像或视频中的内容进行理解、分析和识别的过程。使计算机具备类似于人眼和大脑的视觉理解能力,实现对视觉信息的自动化分析。视觉识别的基本流程图像预处理特征提取分类识别调整图像的亮度与对比度去除图像中的噪声与干扰信息图像的尺寸调整、增强图像质量从预处理后的图像中提取能够代表图像特征的信息常用技术:边缘检测、纹理分析、颜色特征提取等深度学习中自动提取特征(如CNN)基于提取的视觉特征,应用机器学习或深度学习模型进行分析实现图像分类、目标检测或具体内容的识别常用模型包括支持向量机(SVM)、卷积神经网络(CNN)、Transformer等图像的表示与识别技术图像的本质:矩阵表示灰度图像:二维矩阵彩色图像:三维张量图像的表示与识别技术识别技术:卷积神经网络(CNN)核心思想:自动提取图像中的局部特征(如边缘、角点、纹理),实现层级化理解图像内容基本结构:卷积层(提取特征)激活层(ReLU非线性处理)池化层(降维保特征)全连接层(输出分类结果)优点:减少人工特征设计具有平移不变性与局部连接特性广泛应用于图像分类、目标检测、人脸识别等任务经典案例:MNIST手写数字识别MNIST数据集简介 MNIST数据集为手写数字图片,类别为0~9共10类;每张图像为28×28像素的灰度图,共784个像素点;其中,训练集共60,000张图像,测试集共10,000张图像。识别流程1数据导入与预处理使用Python中的torchvision.datasets.MNIST自动下载,对图片进行标准化、数据增强并且转换为张量用于训练2神经网络模型构建与训练定义模型结构(输入层、隐藏层、输出层),进行训练(损失函数、优化器)3模型评估与性能分析计算准确率,可视化结果。经典案例:MNIST手写数字识别784(28×28pixels)28pixels28pixelsOutput经典案例:Yale人脸识别Yale数据集简介 Yale数据集为人脸图片,15位受试者,每人11张图像,共165张;每张图像均为100×100像素的灰度图。识别流程1数据导入与预处理2神经网络模型构建与训练3模型评估与性能分析经典案例:Yale人脸识别100pixels100pixels网络图模型定义经典案例:视觉识别应用与发展趋势典型应用场景安防监控与人脸识别医疗影像分析工业自动化检测电子商务图像搜索推荐技术趋势与拓展方向深度学习模型优化(如CNN、Transformer)数据增强与泛化能力提升自然语言处理研究内容人与人之间需要交流。出于人类这种基本需要,每天都有大量的书面文本产生。比如,社交媒体、聊天应用、电子邮件、产品评论、新闻文章、研究论文和书籍中的丰富文本,使计算机能够理解它们以提供帮助或基于人类语言做出决策变得至关重要。自然语言处理是指研究使用自然语言的计算机和人类之间的交互。在实践中,使用自然语言处理技术来处理和分析文本数据是非常常见的,例如我们会经常使用ChatGPT,文心一言等大语言模型帮助我们更方便地完成各项任务。自然语言处理的处理方法(1)规则系统早期的自然语言处理主要依赖于人工制定的规则。例如,通过编写一系列语法规则来解析句子结构,识别主语、谓语、宾语等成分。这些规则通常基于语言学知识,如词性、句法结构等。但这种方法存在明显的局限性,因为自然语言的复杂性和多样性使得很难用有限的规则来覆盖所有情况,且规则之间的冲突也难以解决。自然语言处理的处理方法(2)词袋模型(BagofWords,BOW)将文本表示为词汇的集合,不考虑词序和语法结构,只关注词汇的出现频率。例如,对于句子“我爱自然语言处理”和“自然语言处理很有趣”,它们的词袋表示分别为{我:1,爱:1,自然:1,语言:1,处理:1}和{自然:1,语言:1,处理:1,很:1,有趣:1}。这种方法简单直观,但丢失了词序信息,无法捕捉到词语之间的关系。自然语言处理的处理方法(3)基于传统机器学习的表示方法将词汇映射到低维稠密的向量空间中,使得语义相似的词在向量空间中距离更近。例如,通过训练大规模语料库,可以得到“国王”和“王后”、“男人”和“女人”等词对在向量空间中具有相似的向量差。词嵌入能够捕捉到词与词之间的语义关系,为后续的自然语言处理任务提供了更有效的特征表示。词句在不同的机器学习模型中所对应的向量各不相同,以glove-twitter-25预训练模型为例,该模型是根据推特中的语料训练得到的,包含约119万个单词,词向量的维度为25。自然语言处理的处理方法以下是“国王”和“王后”、“男人”和“女人”在该模型中的具体表示,代码文件保存至7_4_1_Word2Vec.ipynb:自然语言处理的应用自然语言处理的应用除了机器翻译以外,在舆情分析,写作助手等问题上也有应用。在这里我们采用ChnSentiCorp

数据集,对包含酒店,外卖平台,在线商城和新浪微博等网络平台的评论进行正向与负向的分类。该数据集包含共120,000数据。数据为两列,分别是标签和评论:第一列为标签,1表示正面评论,0表示负面评论,第二列则为评论内容。例如:通过使用Pytorch构建LSTM模型,实现文本的情感分类。以下为运行结果::AIGC的概念AIGC(ArtificialIntelligenceGeneratedContent),人工智能生成内容是指基于生成对抗网络、大型预训练模型等人工智能技术,通过已有数据的学习和识别,结合泛化能力生成多样化数字内容的技术。通俗而言,AIGC是指由人工智能生成的符合用户需求的内容,包括文本、图像、音频和视频等类型。AIGC的技术原理1.AIGC需要强大的算力支持GPU(图形处理单元):提供强大的并行计算能力。通过成千上万个小处理单元并行工作,大幅提高了计算效率。TPU(张量处理单元):专门为加速人工智能学习而设计的硬件,能够显著加快计算速度。底层硬件捏个小泥人AIGC的过程好比将一个泥人变成天才的过程:捏泥人→装大脑→喂知识→有产出2.

AIGC依赖强大的数据存力数据存力的需求贯穿模型训练、推理、部署和迭代的全生命周期。AIGC模型(如GPT-4、StableDiffusion)需要PB级(千万亿字节)甚至EB级(百亿亿字节)的原始数据进行预训练。英伟达(NVIDIA):英伟达是高性能图像处理单元(GPU)的领导者,GPU广泛应用于AI训练和推理任务。全球提供算力资源领先地位企业AMD:AMD提供包括GPU在内的多种处理器,这些处理器用于支持从视频游戏到专业级AI应用的各种计算需求。我国算力资源:华为云、阿里云、腾讯云等,加速自主可控研发。软件架构Transformer架构:是目前文本生成领域的主流架构,GPT、Claude等LLM(大语言模型)都是基于Transformer。GANs(生成对抗网络):在图像生成、视频生成等领域有广泛应用,能够生成高质量的图像和视频内容。装大脑特点:基于自注意力机制(的序列建模)特点:通过两个神经网络(生成器vs.判别器)对抗训练特点:通过逐步添加噪声破坏数据,再逆向学习去噪过程以生成数据DiffusionModel(扩散模型):在图像生成、音频生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论