人工智能通识教程 课件 -第2章 人工智能计算基础_第1页
人工智能通识教程 课件 -第2章 人工智能计算基础_第2页
人工智能通识教程 课件 -第2章 人工智能计算基础_第3页
人工智能通识教程 课件 -第2章 人工智能计算基础_第4页
人工智能通识教程 课件 -第2章 人工智能计算基础_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章

人工智能计算基础IntroductiontoArtificialIntelligenceCONTENTS目录01

数的基础表示02

数的多维表达03

微积分04

损失函数曲面与正则化05

概率基础本章内容导图数的基础表示01数据的基础表示:数据、信息和知识

数据数据是客观事物的符号化记录且本身无意义,分数字和模拟数据,在计算机科学中是可输入并被处理的符号总称。

信息信息是数据经解释后的含义与内涵,香农定义其为消除随机不确定性的东西,具有时效性、共享性、真伪性和载体依附性等特征。

知识知识是系统化提炼的信息,用于解决问题,需验证、正确、被相信,有价值、可共享,依赖载体存在。数据的基础表示:数制数制的概念

数制定义数制是用固定符号和规则表示数值的方法,含基数和位权两大要素。数制组成数制由数位、数码和位权构成,数位指位置,数码是可用符号,位权由位置决定实际值。数制分类常见数制包括十进制、二进制、八进制和十六进制,各有不同基数、数码和运算规则,尾符区分。数位:在数字中所占的位置叫数位基数:数制所包含的数码的个数位权:每一位所表示的值除其本身的数

值外,还与它所处的位置有关,

由位置决定的值就叫权。数码:表示每一位数字可能使用的符号二进制二进制的表示二进制由0和1组成,是计算机存储和处理数据的基础,简化电路设计,增强稳定性,简化运算,具有强逻辑性,与逻辑代数对应。二进制的存储单位基本单位是位(bit),8位组成一个字节(Byte),存储单位体系以1024为倍率递增,包括KB、MB、GB、TB、PB、EB,体现数据量级增长。可靠性逻辑性可行性简易性物理上易实现运算法则简单逻辑线路做模型抗干扰无二义性进位制二进制八进制十进制十六进制规则逢二进一逢八进一逢十进一逢十六进一基数281016数学符号0,10~70~90~9,A~F位权2i8i10i16i表示形式BODH数码位权基数计算机相关进制Arithmetic加add0+0=01+0=0+1=11+1=10减subtract0-0=01-0=11-1=00-1=1乘multiply0*0=00*1=1*0=01*1=1除divide0/1=01/1=1二进制算术运算CPU=控制器+运算器(ALU)

1101+11101101111011-111011011101×1010000011010000+1101100000101011011111011101111111011100算术运算二进制算术运算举例Logic与and0∧0=00∧1=01∧0=01∧1=1或or0∨0=00∨1=11∨0=11∨1=1非notCPU=控制器+运算器(ALU)二进制逻辑运算与AND或OR非NOTVBLAALRVLBVA二进制逻辑运算一位全加器构成示意图或门与门异或门二进制逻辑运算应用举例进制转换

数制转换基础十进制转十进制、十进制转非十进制、二八十六进制互转,遵循按权展开、除取余与乘取整、三四位分组原则。数制转换意义掌握进制转换,是为了在不同数制间自由换算,理解计算机底层原理,并为编程、调试及硬件设计打下基础。DOBH十进制,Decimal,以D或10表示二进制,Binary,以B或2表示进制符号八进制,Octal,以O或8表示十六进制,Hexadecimal,以H或16表示进制表示2021222324252627位权:数码:数位:该二进制表示的十进制为:即:(10110010)2=1781*27+0*26+1*25+1*24+0*23+0*22+1*21+0*21:(10110010)2=()10R进制

到10进制DOBH(1232.25)10=1×103+2×102+3×101+2×100+2×10-1+5×10-2(10110.101)2=1×24+0×23+1×22+1×21+0×20+1×2-1+0×2-2+1×2-3

=22.625按权展开(127.21)8=1×82+2×81+7×80+2×8-1+1×8-2

=87.265625(1AF.C)16=1×162+A×161+F×160+C×16-1

=431.75R进制

到10进制除R取余法乘R取整法整数Integer小数Decimal10进制TOR进制0201取余取整【例】100.345(D)=110010001011(B).100250225212262321020100110010111.3801.0400.34520.690220.76021.5202×××××10进制TOR进制【例】100(D)=1008128180441144(O)1001660461664(H)【例】

100(D)=10To810To16思考:683(D)=()(H)10进制TOR进制小数例2转化成八进制三位一组转化成十六进制四位一组小数部分:从左向右进行分组,不足的位必须补00011

0110

1111.1101

0136F.D0014

=36F.D4(H)(B)=36F.D1(H)✘✔11

0110

1111(B)=36F36F00(H)2进制TO8/16进制376.52(O)=011

111

110.101

010(B)

376.52整数部分和小数部分:八进制,一位变成三个0/1位十六进制,一位变成四个0/1位A3B9.D1E(O)=1010

0011

1011

1001.1101

00011110(B)

A3B9.D1E小数例38/16进制TO2进制数据的基础表示:数和文本在计算机中的表示数据基础表示数据分数字、文本等,需转换为二进制编码,计算机处理规定格式,涵盖数值与非数值类型。数据编码数字、文字多样,统一转二进制,规定格式编码,适配计算机处理机制。数据的基础表示:数和文本在计算机中的表示数值型数据

数的符号计算机中用"0"表正,"1"表负,机器数具符号数字化与大小受限于字长特性。

定点数和浮点数计算机处理数值采用定点数(小数点位置固定)与浮点数(小数点位置可变)表示,浮点数通过规格化提高精度与统一表示。

浮点数表示IEEE754标准定义浮点数格式,32位单精度浮点数由1位符号位、8位指数位与23位尾数组成,指数位有127的偏移量。

原码、反码、补码原码直接表示数,反码对负数取反,补码对负数取反后加1,补码用于简化运算,真值0在补码中表示唯一。0数值位1000001010110011514131211109876543210真值+33113D机器数2字节例整数编码-无符号数0符号位1000001010110011514131211109876543210机器数2字节例真值-345D+0-1编码字节越长,数值范围越大整数编码-有符号数fixed-pointnumber浮点数小数点位置浮动、变化的数。float-pointnumber定点数小数点位置固定不变的数。小数编码符号位

隐含小数点153210s…符号位

隐含小数点153210s…00000000011000011101000000000000-0.625D+97D2B为例定点整数定点小数小数编码以指数形式表示十进制的浮点数二进制的浮点数阶符和阶码指数部分称为阶码小数部分称为尾数±尾数×10±阶码-6.375=-0.06375×102

=-637.5×10-2

=-0.6375×10+1=-6.375×10+0±尾数×2±阶码-6.375D=

-110.011(B)=-11.0011×2+1

=-1.10011×2+10=-0.110011×2+11=-1100.11×2-01浮点数浮点数规格化形式:尾数中的小数点在数值的第一个有效位的后面,这样便准确规定了小数点的位置。小数编码浮点数的规格化表示符号位指数位尾数位IEEE754,以32位float为例(37.625)D=(100101.101)B=

1.00101101×25小数编码符号位:为0表示正数,为1表示负数。指数位:用于表示以2位底的指数。指数加上这个偏移量后会变成一个非负整数(此处127)。因此图中8个比特的指数位范围是[0,255],减去偏移量127后,这8个比特能表示[-127,128]范围内的指数。尾数位:使用规范化处理,在存储尾数时可以省略前面的1和小数点,只记录尾数中小数点之后的部分,节约了一位内存。01原码补码03反码02最高位为符号位,数值部分为原数的绝对值。正数的补码和原码相同,负数的补码是在其反码的最后一位上加1。正数的反码和原码相同;负数的反码是对其原码除符号位外的部分求反。机器存储数字的编码方式机器数编码01原码补码03反码02+7,原码00000111+7,反码00000111+7,补码00000111-7,原码10000111-7,反码11111000-7,补码11111001负数补码负数原码取反加一取反加一机器数编码0X1|X|X≥0X≤0+7:00000111+0:00000000-7:10000111-0:10000000[X]原=01原码定义:最高位为符号位,数值部分为原数的绝对值0的表示不唯一不便于进行加减运算1000010100001001+10001110-5的原码结果为-149的原码-5+9=?1B为例机器数编码定义:正数反码和原码相同;负数反码是对原码除符号位以外外按位求反0的表示不唯一不便于进行加减运算1111101000001001+100000011-5的反码结果为+39的反码-5+9=?02反码0X1|X|X≥0X≤0+7:00000111+0:00000000-7:11111000-0:11111111[X]反=1B为例机器数编码定义:正数的补码和原码相同,负数的补码是在其反码的最后一位上加10的表示唯一正确加减运算1111101100001001+100000100-5的补码结果为补码,值+49的补码0X1|X|+1X≥0X≤0+7:00000111+0:00000000-7:11111001-0:00000000[X]补=-5+9=?补码03舍弃1B为例机器数编码数据的基础表示:数和文本在计算机中的表示字符编码

西文字符表示ASCII码是最早的西文字符编码,分7位和8位,7位码最高位为0,共128个字符,包括英文、数字和符号。

中文字符表示汉字编码包括输入码、机内码和字形码,GB/T2312标准定义了6763个汉字和682个符号,区位码、国标码和机内码用于处理和存储。ASCII编码ANSI编码鲍勃〮比默尔信息交换标准码AmericanStandardCodeforInformationInterchange扩展ASCII码西文编码扩展标准ASCII码扩展ASCII码0101100176543210使用低7位来表示大小写字母,数字0到9、标点符号,以及在美式英语中使用的特殊控制字符。最高位可以作为奇偶校验位。1101100176543210每个字符的最高位用于确定附加的128个特殊符号字符、外来语字母和图形符号。西文编码0~9编码利于ASCII码与二进制转换英文字母编码利于大小写转换含有33个无法显示的控制字符,用于输出格式控制、传输控制等ASCII编码大陆、新加坡国标码汉字字形码…………中文编码区位码Phase1国标码Phase2机内码Phase3字形码Phase4中文编码区位码区号(1-94)位号(1-94)按GB2312-18国标规定,汉字编码表有94行,94列,其行号01~94称为区号,列号01~94称为位号,一个汉字所在的区号和位号组合在一起,就构成了这个汉字的区位码。每个汉字占2个字节,第一个字节称为高字节,第二个字节称为低字节区位码表示为:区号(01-94,或01H-5EH)位号(01-94,或01H-5EH)中文编码国标码为避开ASCII码前32个控制码,在区位码的基础上加32(20H),得到国标码。国标码每个字节的编码范围为33(21H)~126(7EH)。国标码=区位码+3232(2020H)中文编码国标码“中”字的区位码5448(3630H),国标码为8680,对应的ASCII字符为“VP”。这到底是一个汉字?还是两个西文字符?高字节和低字节的高位置1,与高位是0的ASCII码区分机内码每个字节的编码范围为:161(A1H)~254(FEH)机内码=国标码+8080H机内码中文编码字形码点阵式矢量式点阵式中文编码数据的基础表示:声、图信息的表示

数据基础表示声、图信息需转二进制,计算机方可存储处理。模拟音频信号话筒录音信号采样信号量化信源编码模拟信号模拟音频信号采样频率(44KHZ)数字化处理声音、图形、视频等信息,需要转换成二进制数后计算机才能存储和处理。将模拟信号转换成二进制数的过程称为数字化处理。采样:在固定时间间隔内,对模拟音频信号截取振幅值。单位时间内采样次数(采样频率)越多,数字信号就越接近原声。量化:将信号连续取值为有限多个离散值。编码:将采集的原始数据,按文件类型(如WAV、MP3等)编码,再加上音频文件的头部,就得到了一个数字音频文件。声音的表示二值图像图像上的每一个像素只有黑、白两种可能灰度设置可通过渐变进行设置灰度图像将黑白之间的过渡灰色分为若干亮度等级彩色图像每个像素由红、绿、蓝三个分量来表示。图像的表示-点阵图像线框形图片、工程制图、二维动画设计、三维造型、美术字体设计等。绘图软件多采用矢量图形存储采用特征点和计算公式对图形进行表示和存储1定义2优缺点3应用优点:文件小;图像放大或缩小不影响图像的分辨率。缺点:难以表示色彩丰富的逼真效果;无统一标准格式;廉价设备无法点阵图形输到计算机并矢量化图像的表示-矢量图像数的多维表达02数据多维表达

数据多维表达标量、向量、矩阵、张量为核心,通过线性代数运算衔接数据与模型,提升AI特征提取与规律学习效率,关键于模型训练与推理,影响数据处理与模型表达。

AI数学基础数据表示为AI数学根基,多维度数据结构支撑模型构建,优化算法性能,增强模型泛化能力,实现智能决策与预测。数据多维表达标量标量是描述客观世界的单纯数值属性,仅有大小无方向,是构建高维数据的原子单元,运算遵循算术和逻辑法则。例:质量为5kg仅表示物质的惯性量度,与位置无关;速度为30m/s,仅表示快慢,与方向无关。数据多维表达:向量

向量是数据的多维扩展。向量是同时具有大小(也称模长)和方向的量。例如,汽车以60km/h的速度向东行驶,可表示为向量,大小60km/h,方向东。词向量是人工智能处理自然语言的基础,用于文本分类、语义相似度、智能问答、机器翻译等。例如,“猫”的一个词向量为(1.0,0.95,0.9,0.7,0.8)。该向量的每个维度对应“猫”的一个核心语义属性,取值为0到1之间的数值代表“猫”与该属性的关联程度,数值越接近1,关联越强。该例中各个维度的向量可以理解为:维度1(哺乳动物):1.0。维度2(体表有毛):0.95。维度

3(家养宠物):0.9。维度

4(食肉习性):0.7。维度

5(体型较小):0.8。一张28×28像素的图片可以表示用28×28=784个数字来表示,每个数字对应一个像素的灰度值,从0(黑色)到255(白色)。这784个数字组成的向量就能用来表示图片。向量的计算

向量线性运算涵盖加法、减法与数乘,结果为同维度向量,基础于特征缩放,满足代数定律。

向量内积运算两向量点积得实数,反映模长与夹角余弦,评估相似度,应用广泛于NLP、推荐系统与神经网络计算。“猫”的词向量a为[1.0,0.95,0.9,0.7,0.8],“狗”的词向量b为[1.0,0.9,0.85,0.75,0.7]则两个向量的内积为:a∙b=1.0×1.0+0.95×0.9+0.9×0.85+0.7×0.75+0.8×0.7=4.05。该数值较高,说明二者语义相似。数据多维表达:矩阵

矩阵的定义和表示矩阵是二维有序数据结构,由m×n个标量按m行n列排列,记为m×n,用大写黑体字母表示,维度由行数×列数确定。矩阵的运算

矩阵加减法同型矩阵对应元素加减,用于批量特征偏差修正,如样本特征矩阵标准化预处理:每个特征减去均值

矩阵与标量乘法标量与矩阵元素逐一相乘,结果为同维度矩阵,常用于特征缩放,如将图像像素矩阵乘以1/255,归一化至[0,1]区间。

矩阵与矩阵乘法前矩阵列数等于后矩阵行数,用于批量样本特征变换,如通过乘法降维,提高样本间相似度计算效率。

特殊运算⨁与⊙⨁用于向量直和或矩阵分块对角拼接,实现特征融合;⊙为哈达玛积,逐元素乘法,控制特征重要性,如LSTM中的细胞状态遗忘。直和运算⨁哈达玛积⊙数据多维表达:张量

张量是多维数组,统一标量、向量、矩阵,承载图像、语音、文本等多维度信息,具阶和形状属性,如3阶张量形状“2×3×4”。张量核心属性阶表示独立维度数量,形状用数字序列描述各维度数值个数,如2×3×4表示3个维度分别有2、3、4个数值。数据多维表达:张量张量的计算

张量元素级运算两相同形状张量,逐元素加减乘除,结果形状不变,如1×28×28灰度图叠加,像素值相加得新图。

张量降维运算通过求和、平均减少维度,提取多维数据特征,例10×28×28张量,对高宽求平均,得10×1×1张量,100图变100亮度特征。数据多维表达:张量张量在人工智能中的核心应用

图像数据3维张量用于图像识别,如224x224x3的彩色图片,通过卷积神经网络提取特征判断物体。

自然语言4维张量处理文本,如32x10x512x2的张量,利用循环神经网络或Transformer捕捉语义关系分类文本。

视频数据4维张量建模视频动作,如240x1920x1080x3,视频识别模型捕捉空间人物动作和时间变化判断动作。微积分03微积分微积分作用支撑AI模型参数调整、损失函数优化与数据规律建模,简化问题求解,保障AI从理论到实践的数学基础。微积分基础:导数与参数调整

模型参数调整基础模型参数调整基础:人工智能模型通过微积分与优化完成参数调整,导数用于评估参数微小变化对结果的影响。导数导数描述了当x在某处做微小变化时,y的变化率。微积分基础:导数与参数调整导数在模型中的应用

微积分基础导数揭示参数调整方向:始终沿着导数的反方向(负梯度方向)更新参数,以减小损失参数调整基于导数判断,增大使误差下降则应提升参数值,反之减小,有效指导线性回归等模型优化。微积分基础:偏导数与多参数分析

偏导数的作用偏导数用于多参数模型中逐个分析参数影响,避免参数干扰,描述多元函数中某参数微小变化、其他参数不变时的变化率。

人工智能中的应用人工智能模型多参数,偏导数分析各参数对误差影响,避免参数间干扰。

优化:梯度-人工智能找最优参数的指南针梯度的定义梯度是人工智能找到最优参数的指南针,是多元误差函数所有偏导数组成的向量。梯度方向的意义梯度正方向是误差函数L增长最快方向,反方向是L下降最快方向,是人工智能优化核心依据。梯度应用示例模型参数1和2,误差函数梯度∇L=(3,−2)时,1减小、2增大误差下降最快;∇L=(0,0)时误差最小或局部最小,参数无需调整,模型优化完成。优化:梯度下降01梯度下降原理通过计算函数梯度,沿负梯度方向调整参数,逐步逼近最小值,实现函数优化。02梯度下降步骤初始化参数,计算梯度,按学习率调整参数,直至误差低于阈值或梯度接近零,完成优化。03训练机器学习模型(如线性回归、逻辑回归)通过最小化损失函数,调整模型的权重、偏置等参数,提升模型预测精度。04训练深度学习模型(如神经网络)在深层网络中高效优化海量参数,拟合图像、文本等复杂数据规律,通过梯度下降优化卷积核参数以准确提取特征。05文本分类优化Transformer模型注意力权重参数以捕捉关键语义,微积分量化参数对误差影响并找最优方向,梯度下降逐步调整参数使预测接近真实结果。损失函数曲面与正则化04损失函数曲面与正则化损失函数曲面描述AI模型参数与误差关系,助模型高效学习。正则化作用约束模型复杂度,防过拟合,提泛化能力。损失函数曲面损失函数曲面定义损失函数曲面是模型参数空间与损失值的连续映射可视化载体,以参数为坐标轴、损失值为高度构建高维曲面,可简化为三维曲面表达参数对损失的影响。损失函数曲面的核心特征1)全局极小值核局部极小值

01损失函数曲面核心特征全局极小值代表最优参数组合,实现最小损失与最佳泛化;局部极小值仅适配训练数据局部特征,如噪声,影响泛化能力。

02图像分类模型实例手写数字识别模型在局部极小值区域,训练集准确率高,测试集表现差,因模型过度拟合训练数据噪声,如特定笔画角度,泛化能力弱。损失函数曲面的核心特征2)鞍点

01损失函数曲面核心特征鞍点特征显著,一方向局部极大,另一方向局部极小,梯度零但非全局最小,易致优化停滞。

02鞍点实例解析情感分类模型训练后期,特定参数如“心”权重局部极小,“天”权重局部极大,梯度近零误判最优,阻碍进一步优化。正则化定义

正则化核心概念正则化是机器学习防止过拟合、提升泛化能力的核心技术,通过在损失函数中加入正则项限制模型复杂度,避免过度学习噪声以适配未知数据。正则化定义正则化目标与公式

01正则化核心目标消除冗余局部极小值,引导梯度下降向全局极小值收敛,限制参数极端值,提升模型泛化能力。

02正则项通用形式L新(ω)=L原(ω)+λ∙R(ω),λ为惩罚强度系数,R(ω)为参数惩罚项,防止过拟合,λ过大易导致欠拟合。正则化方法-岭回归

岭回归L2基础概念岭回归L2是基础正则化方法,在原损失函数中加入参数向量L2范数平方作为惩罚项,强制参数取值平缓,避免模型过度依赖某一特征。

损失函数表达式

L2正则化作用原理L2正则化通过平方项抑制参数极端波动,大参数惩罚大损失升高而减小,小参数影响小保持稳定,实现参数整体平缓无极端值。正则化方法-Lasso回归L1与L2正则化差异L1与L2正则化核心差异在惩罚项形式,L1为参数绝对值和,可使不重要参数趋于0实现参数稀疏性。L1正则化损失函数分类任务交叉熵损失加L1正则化:回归任务均方误差损失替换原损失,惩罚项不变。L1正则化作用机制L1正则化通过绝对值惩罚,对小参数敏感,压缩无关特征至0,保留核心特征,实现自动特征筛选,简化模型结构。正则化方法-DropoutDropout正则化原理模拟多模型融合,去中心化降低神经元依赖,训练时失活不同神经元,测试时输出加权融合,提升泛化能力。

Dropout正则化原理训练时随机失活神经元,强迫模型学习更鲁棒特征,失活概率p常取0.2~0.5。Dropout实施细节每层神经元按概率p随机置0,测试时所有神经元输出乘以1-p,保持输出规模一致。正则化方法-Dropout图像识别应用示例

Dropout作用避免模型过度依赖特定特征,如识别猫狗时,隐藏层含2个神经元:N1(识别“胡须”)、N2(识别“耳朵形状”),若训练集中猫的图片多含明显胡须,模型会过度依赖N1对无胡须的猫(如幼猫)易误判为狗。

Dropout实施训练时随机失活神经元,模型不再过度依赖胡须

特征,对无胡须的幼猫也能通过耳朵形状正确识别。如概率p=0.5,使权重分布更均衡,测试时不失活,将输出乘以(1-p)调整,增强模型鲁棒性。正则化:正则化方法对比正则化方法对比正则化方法通过约束模型过拟合提升泛化能力。L2平缓参数,L1筛选特征,Dropout模拟多模型融合。文本分类优先L1,图像识别优先Dropout。概率基础05概率基础概率基础量化不确定性,核心数学基础,支撑AI推理决策。不确定性场景用户点击预测,图像噪声分析,文本语义模糊。随机变量与概率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论