人工智能通识教程(理工版)课件 第3章 人工智能与数据表示_第1页
人工智能通识教程(理工版)课件 第3章 人工智能与数据表示_第2页
人工智能通识教程(理工版)课件 第3章 人工智能与数据表示_第3页
人工智能通识教程(理工版)课件 第3章 人工智能与数据表示_第4页
人工智能通识教程(理工版)课件 第3章 人工智能与数据表示_第5页
已阅读5页,还剩136页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能通识(理工科)北京技大学主要内容计算机世界与人类世界的数据二进制数的表示和计算数值数据在计算机中的表示文本数据在计算机中表示图像的数字化声音的数字化视频的数字化从人工智能角度理解各种数据表示计算机世界中的数数据在计算机中用二进制数表示二进制数据是用“0”和“1”两个数码来表示的数二进制的基数为2,进位规则是“逢二进一”,借位规则是“借一当二”现实生活的数据文本编码处理解码处理原始数据形式不同类型数据编码与解码编码的概念所谓编码,就是采用少量基本符号(数码)和一定的组合规则来区别和表示信息。例:用0~9的组合表示数值用0~9的组合表示邮政编码、学号用26个英文字母的不同组合表示英文单词计算机中的编码编码的概念【例】某校学生的学号,规定用8位十进制数进行编码,其格式为:第1位表示学生类别,2-3位表示入学年份,4-5位表示专业号,最后三位表示学生在某专业中的序号。规则:学号编码规则成为学校的一个标准,供校内共同遵守应用:该学校最多可以设置多少个专业?每个专业最多可以招多少个学生?特征:学号编码是一个代码,用来唯一地表示一个学生生活中有哪些编码形式?41927035它具有数值的特征吗?二进制的优势物理上容易实现,并使电路简单运算简单,易于实现便于实现逻辑运算和程序中的逻辑判断0+0=00+1=1+0=11+1=10(有进位)01计算机中采用二进制的原因?各种数制表示数制的三要素数码:表示数字大小的一组固定数字符号基数:数码的数目位权:数值某位上1单位所代表的实际值数制基数进位规则位权数码表示十进制10逢十进一10i0,1,2,3,4,5,6,7,8,9D二进制2逢二进一2i0,1B八进制8逢八进一8i0,1,2,3,4,5,6,7O十六进制16逢十六进一16i0,1,2,…,8,9,A,B,C,D,E,FH数的按权展开式数的按权展开:Nn-1Nn-2…N1N0.N-1…N-m—K进制数第i位和第j位上的数码该数码的权值,K是基数十进制数的特点(Decimal)数码:0-9进位基数:逢十进一,进位基数是10位权:各数位的“权”是以10为底的幂小数点左边:从右向左,每一位对应权值分别为100、101、102小数点右边:从左向右,每一位对应的权值分别为10-1、10-2678.34=6×102+7×101+8×100+3×10-1+4×10-2基数位权数码二进制数的特点(Binary)数码:0和1进位基数:逢2进1,进位基数是2位权:各数位的“权”是以2为底的幂

小数点左边:从右向左,每一位对应的权值分别为20、21、22、23、24小数点右边:从左向右,每一位对应的权值分别为2-1、2-2(10110.1)210110.1B=1×24+0×23+1×22+1×21+0×20+1×2-1=22.5二进制的位权值第N位对应权值01122438416532664712882569512问:n位二进制代码可表示的最大数是多少?表示范围是多大?第N位对应权值1010241K(千)201M(兆)301G(吉)401T(太)501P(拍)601E(艾)701Z(泽)801Y(尧)901B(千亿亿亿)十六进制数的特点(Hex)数码:16个不同的记数符号,0~9,A~FA表示十进制数10,B表示11,C表示12,D表示13,E表示14,F表示15进位基数:逢十六进一,基数是16位权:16为底数的幂

(2AF.B2)162AF.B2H=2×162+A×161+F×160+B×16-1+2×16-2熟悉十六进制数12FB1013ED八进制数的特点(Octal)数码:0~7进位基数:逢八进一,进位基数8位权:以8为底数的幂

(456.45)8

456.45O4567.8O=4×82+5×81+6×80+4×8-1+5×8-2不同进制数值对照表最少几位二进制数可以表示1个十六进制数码?八进制数码呢?数制间转换计算机中采用二进制日常生活中习惯使用十进制常用十六进制用来书写地址、数据、指令

进制间需要相互转换(58)10=(

)2=(

)8=(

)16

111010723A???数制转换规则非十进制数十进制数二、八、十六相互转换非十进制数十进制数十进制整数——非十进制整数采用“余数法”除基数逆向取余,直到商为0。十进制小数——非十进制小数采用“进位法”:乘基数取整,直到小数部分为0或者达到精度要求为止。非十进制数十进制数十进制→二进制:整数部分方法:除2取余法。用整数部分不断去除2,并记下每次的余数,直到商为0为止。余数从下至上即为转换结果。(83)10=(?

)2

28341122012100250221210201(83)10=(1010011)2十进制→二进制:小数部分方法:乘2取整法。用小数部分连续与2相乘,并记下乘积整数部分,直到结果小数部分为0,或精度达到要求为止。所得整数从上至下即为转换结果。0.8125×21.6250×21.250×20.50×21.01101整数(0.8125)10=(0.1101)2例:(0.8125)10=(?)2十进制→二进制:小数部分【例】将0.335转换为二进制小数(精确到0.001)。

0.335×2

0.670×2

1.34×2

0.68×2

1.36

(0.335)10=(0.0101…)2≈(0.011)2十进制→二进制:简便方法12864321684210.50.250.1250.062527262524232221202-12-22-32-41100110101102.625-26=38.625-25=6.625-22=2.625-21=0.625-2-1=0.125-2-3=0查表法:将要转换的数分解为多个二进制权值之和,根据权值表,查表转换。(102.625)10=(1100110.101)2凑八进制←→二进制八进制→二进制数:每位八进制数用三位二进制数表示(一分为三)二进制→八进制数:以小数点为基准,分别向两侧将每三位分为一组,再将每组转换成一位八进制数(三合一)。001100111101(147.5)8=()2.(1

101

010

110.0111

004当小数部分最右一组不足三位时,则在右边添上0,补足三位。=(1526.34)815263)2)2(1101010110.0111)2十六进制←→二进制十六进制→二进制数:每位16进制数用四位二进制数表示(一分为四)二进制→十六进制数:以小数点为基准,分别向两侧将每四位分为一组,再将每组转换成一位八进制数(四合一)。011011100101(6E.5)16=()2.(11

0110

1110.1101014=(36E.D4)16D.E63)2)200十进制→八、十六进制除基数取余、乘基数取整十进制→二进制→八/十六进制(1100110.101)2(102.625)10=(1100110.101)2=(1100110.101)2=(146.5)8=(66.A)160数制转换图示十进制数二进制数八进制数十六进制数整数:除2取余逆向小数:乘2取整正向按权展开相加三位幷一位一位拆三位四位幷一位一位拆四位按权展开相加按权展开相加整数:除8逆向取余小数:乘8取整整数:除16逆向取余小数:乘16取整二进制数的常用单位位(bit):一位二进制数。计算机中数据处理的最小单位。二进制数的长度是用“位”来表示的。字节(Byte):通常将8位二进制数组成一组称为一个字节(Byte),字节是计算机中数据处理和存储容量的基本单位。

常用来描述存储器容量的单位还有KB、MB、GB、TB、PB、EB等。KB(千字节) 1KB=1024B=210BMB(兆字节) 1MB=1024×1KB=210×210B=220BGB(吉字节) 1GB=1024×1MB=210×220B=230BTB(太字节) 1TB=1024×1GB=210×230B=240BPB(拍字节) 1PB=1024×1TB=210×240B=250BEB(艾字节) 1EB=1024×1PB=210×250B=260BZB(泽字节) 1ZB=1024×1EB=210×260B=270BYB(尧字节) 1YB=1024×1ZB=210×270B=280BBB(千亿亿亿字节) 1BB=1024×1YB=210×280B=290B二进制数的运算二进制数的运算规则算术运算加0+0=01+0=0+1=11+1=10(有进位)减0-0=01-0=11-1=00-1=1(有借位)乘0*0=0*1=1*0=01*1=1除0/1=01/1=1逻辑运算与0∧0=00∧1=01∧0=01∧1=1或0∨0=00∨1=11∨0=11∨1=1非非0为1非1为0二进制数算术运算举例

101.01+110.011011.10101.111

-11.011

10.100要点:小数点对齐逢二进一考虑进、借位问题二进制数算术运算举例1011计算10010001÷1011

10010001101111101101111011011100110000

计算1101×10011101×1001110100001101+1110101二进制数逻辑运算举例设:a=1100,b=0110,计算:a∨b、a∧b、a。

110011001100

∨0110

∧0110

逻辑非为:

111001000011说明:逻辑运算按位进行,不同位之间不存在任何联系,不象算术运算中位之间可能有进位或借位。二进制数逻辑运算举例星期六星期五星期四星期三星期二星期一星期日√√√√1011010我要周一出发,希望乘坐CA1749航班。CA1749二进制思维解决问题的方法1011010周一是否有航班0000010周二是否有航班000010090……

航班计算问题。设某航班周一、三、四、六飞行,当客户订票时如何根据客户的需求“星期几”获知该日是否有航班?数值数据在计算机中的表示现实世界中的数值型数据:128,3.14,-67…在计算机中表示和处理数值涉及两个问题正数与负数小数点数值在计算机中的表示形式机器数符号位+数值带符号的数:原码、反码、补码带小数点的数:定点数、浮点数整数将一个数的最高位定义为符号位,用0表示正,1表示负,称为数符,其余位表示数值。

(+11)10=

(

)2在机器内存放的正、负数码化的数称为机器数把机器外部由“+”“-”号表示的数称为真值(-11)10=

(10001011)200001011?真值机器数机器数的问题直接使用机器数进行运算时,会遇到问题同号数值相减异号数值相加00100100(+36)+)10

101101(-45)11010001(-81)引入补码+5-7时钟的周期是125+|-7|=125是-7对12的补数问题:将时钟由3点拨到8点。顺时针前进5个格逆时针前进7个格将减法运算变为加法运算原码、反码与补码正数:原码、反码、补码相同。符号位为0,数值位为对应的二进制数。[+109]原

=[+109]反

=[+109]补+109=01101101原码、反码与补码负数原码:符号位为1,数值位为对应的二进制数(即机器数)

[-109]原=11101101反码:将原码除符号位外,逐位取反。

[-109]反=10010010补码:将反码末位加1。

[-109]补=10010011原码、反码和补码之间的转换图示

[X]反

数值位

[X]原

数值位

[X]补

数值位不变+←→0-←→1符号位不变符号位不变不变(符号位为0)取反加1(符号位为1)不变(符号位为0)取反(符号位为1)[X]真机器数有三种编码方法:原码、反码和补码,以解决计算中出现的符号问题常见原码、反码、补码n位二进制数的表示范围:原码?反码?补码?补码运算在微型计算机中,一般使用补码表示带符号数补码的优点唯一表示数值“0”符号位和数值位一样参与运算简化了运算(即简化了机器的结构)将减法一律转换为加法运算结果也是补码的形式,将补码形式的结果再转换为原码,即为所求补码运算举例36-45=(36)补+(

-45

)补=(10001001)原例X-Y[X]补+[-Y]补(****)补(****)原取反加1=(11110111)补=-(23+21)10=-9(-45)原=10101101(-45)反=11010010(-45)补=11010011

=(00100100)补

+(11010011)补为什么是取反加一?以8位的二进制为例(全部为数位)1XXXXXXX1OOOOOOO原码反码+1111111128-1“周期”补码原码+反码+1=周期X补=2n-X原=2n-1-X原+1=X反+1补码运算练习73-73=(01001001)补+(10110111)补=(00000000)补73-127=(01001001)补+(10000001)补=(11001010)补=(10110110)原=

-(25+24+22+21)10=-5473-73=73-127浮点数定点表示:小数点位置固定(早期的计算机使用)浮点表示:小数点位置不固定浮点数格式的统一标准:IEEE-754标准1985年,IEEE(InstituteofElectricalandElectronicsEngineers,美国电气和电子工程师协会)提出IEEE-754标准尾数:规格化,保留一位整数部分指数:使用+127的移码,使指数(-126~127)取值均为正,跳过补码运算数符Sf移码尾数S移码=原阶码+127浮点数N=1101.101=+1.101101×2+331302928272625242322001000001010110100……0数符指数部分(移码)尾数部分(原码)规格化130任意二进制小数均表示为:N=±S×2±P

数的表示范围及溢出n位二进制位整数表示数的范围溢出:数值超出了计算机能表示的范围。措施:通过扩大数的表示范围防止溢出。有符号数(补码)无符号数n=8-128~+1270~255n=16-32768~+327670~65535n-2n-1~+2n-1-10~2n-1浮点数的表示范围单精度浮点数(4字节)表示数的范围-2127×(2-2-23)≤N≤2127×(2-2-23)大约是-3.4×1038~3.4×1038双精度浮点数(8字节)表示数的范围-1.7×10308~1.7×10308同样的字长,浮点表示法比定点表示法表示的数的范围大、精度高。浮点运算时可以不考虑溢出,但运算复杂。西文字符在计算机中的表示字符是文本的基本组成单位常用西文字符:英文字母(52)、数字字符(10)、标点符号(32)、控制字符(34)等,共128个字符在计算机中,要为每个字符指定一个二进制代码(字符编码),作为识别与使用这些字符的依据编码基础:美国标准信息交换码(AmericanStandardCodeforInformationInterchange,简称ASCII码)ASCII码的编码规则用1个字节(8位二进制数)表示1个字符的编码0余下的7位可给出128个二进制编码即00000000-01111111可以表示128个字符最高位取“0”000000010010001101000101011001110000NULDLESPACE0@P`p0001SOHDC1!1AQaq0010STXDC2"2BRbr0011ETXDC3#3CScs0100EOTDC4$4DTdt0101ENQANK%5EUeu0110ACKSYN&6FVfv0111BELETB'7GWgw1000BSCAN(8HXhx1001HTEM)9IYiy1010LFSUB*:JZjz1011VTESC+;K[k{1100FFFS,<L\l|1101CRGS-=M]m}1110SORS.>N^n~1111SIUS/?O_oDEL高4位低4位编码字符0到32控制字符(33个)48到5710个数字65到9026个大写字母97到12226个小写字母其余标点符号运算符号等第127控制字符(1个)000000010010001101000101011001110000NULDLESPACE0@P`p0001SOHDC1!1AQaq0010STXDC2"2BRbr0011ETXDC3#3CScs0100EOTDC4$4DTdt0101ENQANK%5EUeu0110ACKSYN&6FVfv0111BELETB'7GWgw1000BSCAN(8HXhx1001HTEM)9IYiy1010LFSUB*:JZjz1011VTESC+;K[k{1100FFFS,<L\l|1101CRGS-=M]m}1110SORS.>N^n~1111SIUS/?O_oDEL高4位低4位01000001()2=65ASCII码常识:0字符的ASCII码值是48A字符的ASCII码值是65a字符的ASCII码值是97a与A的ASCII码值之差是32常用控制字符ASCII码的计算练习已知字符“X”的ASCII码为01011000,求小写字符”s”的ASCII码。01011000的10进制数为88(64+16+8)88+32-5=115转换为二进制数为01110011其他的字符怎么办1个字节的空间,ASCII码只使用了7位扩展ASCII编码,1字节可以表示256个字符,利用最高位为1的编码,解决欧美语言其它符号的问题±ß®λ

¾ÿ‰ISO8859字符集ISO8859:扩展ASCII码字符集1Latin1(WestEuropean)2Latin2(EastEuropean)3Latin3(SouthEuropean)4Latin4(NorthEuropean)5Cyrillic6Arabic7Greek8Hebrew9Latin5(Turkish)10Latin6(Nordic)………国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位元字符集的标准,15个字符集。高位为1的8位编码均属于拉丁语系ISO-8859-1(latin1)西欧文字MySQL数据库的默认编码是Latin1实践中的英文字符编码PPT:插入→符号中文字符在计算机中的表示汉字(Chinesecharacter,Hancharacter,Hanzi):记录汉语的文字,属于表意文字,用符号直接表达词或词素汉字字符是组成中文文本的基本单位汉字的数量很大从古至今累计已超过7万字国家语委“现代汉语通用字表”包含7000余字字形复杂,同音字多,异体字多汉字处理过程汉字的处理过程:外码→机内码→字形码全拼:guo;五笔:lgy;区位码:2590国输出码机内码输入码隶书:国行书:国楷体:国B9FA由外到内计算机内部由内到外GB2312标准《信息交换用汉字编码字符集》GB2312-1980,也称信息交换码、国标码共收录7445个汉字及图形符号GB2312字符集由三个部分构成一级汉字字符3755(以汉语拼音做索引)二级汉字字符3008(以偏旁部首做索引)682个全角字符:一般符号、序列号、数字、英文字母、日文假名、希腊字母、俄文字母GBK:《汉字内码扩展规范》,1995年发布,兼容GB2312、支持国际标准,现行中文编码标准(各中文操作系统默认编码)GB2312标准编码规则用两个字节表示一个汉字字符为与ASCII码的兼容、统一、留出控制字符等因素每个字节的最高位取0预留出取值为0~32、127的控制字符(共34个)每字节的有效取值为33~126(对应十六进制数21H~7EH)可“独立”表示94*94=8836个汉字字符00216=655367445个符号214=16384掌握GB2312标准编码规则94行94列00000000001000000000000000100000高字节低字节0010000100100001GB2312标准高八位低八位与ASCII码兼容的控制字符区区位码区位码:分别用两位十进制数对国标码的行号和列号进行编码,行号和列号组合构成了用4位十进制数表示的汉字区位码。区号→行号位号→列号GB2312(国标码)94行(1-94区)94列(1-94位)两个字节表示,每字节最高位取“0”,每字节均从33~126,即(21)16~(7E)16。区位码(7E)16啊(30)16(22)16(21)16(7E)16(22)16(21)16列行国标码为(3021)1601021694940201区号位号区位码为(1601)10区位码=(国标码高八位-(20)16国标码低八位-(20)16)10国标码用16进制数表示(从33开始)区位码用10进制数表示(从1开始)分析国标码存在的问题鞍国标码0011000000110000鞍鞍00110000001100000011000000110000鞍00汉字机内码机内码:在计算机中实现国标码存储的汉字编码方案编码标准具体实现(存储/传输)1100国标码机内码国标码=机内码-8080H机内码=国标码+8080H

“啊”的国标码为(3021)16

,求机内码。00机内码:(30+8021+80)16=(B0A1)16汉字机内码1100国标码机内码国标码=机内码-8080H机内码=国标码+8080H

区位码区位码=(国标码-2020H)10国标码=(区位码)16+2020H

汉字编码计算汉字“导”的区位码为2128,求它的国标码和机内码。注意:区位码是以10进制数表示;国标码和机内码均以16进制表示21转换为15H;15H+20H=35H28转换为1CH;1CH+20H=3CH国标码为353CH353CH+8080H=B5BCH机内码为B5BCHGB2312与ASCII区别汉字输入码汉字由于数量大,字形复杂,字音多变,无法直接使用西文标准键盘进行输入必须为汉字设计基于西文键盘的输入编码方法当用户从键盘上输入汉字的输入码后,再由相应的输入法应用程序完成从输入码到内码的转换过程典型的输入码有:全拼、五笔字形、微软拼音、智能ABC、搜狗拼音输入法、区位码等例如汉字“舞”的五笔字型编码为rlgh,拼音编码为wu,区位码为4672字形码也称输出码文字信息经过计算机处理后,还要输出显示或打印,以恢复文字的本来面目,这就需要对字形进行编码汉字字形码通常用点阵表示用点阵表示字形时,汉字字形码就是对这个汉字字形点阵的二进制编码字形码的编码方法●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●16

16点阵:划分为16行16列的网格,对每一个小方格,用一位二进制来编码,如用0表示无笔画,1表示有笔画字形用一组二进制数表示出来,即0000001100000000……用这组二进制数可以在屏幕上显示或在打印机上打印该字形这组二进制数就称为该字的字形码,也称为字模16

16点阵字形码的编码方法●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●16

16点阵0000000000000000000000001000000000000000100000000000000010000000001111111111110000100000100001000010000010000100001000001000010000100000100001000011111111111100000000001000000000000000100000000000000010000000000000001000000000000000100000000000000000000000计算:16

16点阵存储一个汉字需要的存储空间。(16*16*1/8)=32字节字形码点阵越大,点数越多,分辨率越高,显示的文字越清晰美观常见的点阵有:16*16、24*24、48*48、128*128等全部汉字的字形码构成汉字字库输出显示汉字时系统检索字库,输出字模点阵呈现字形汉字输入输出过程全拼:xing形输入码D0CEH存储机内码国标码504EH标准输出码字形隶书:形行书:形楷体:形302EH48区46位区位码区位码检索302EH48区46位D0CEH1110504E302E48区46位实践中的中文编码Word:插入→符号,查看字符编码百度:区位码查询信息时代数据国际化需求现代人类使用的语言有6800种在计算机文本处理中,应允许能同时使用任意多种语言的字符中文简体:两岸青山相对出中文繁體:兩岸青山相對出日文:両岸の青い山は先に向かいます俄文:наобоихберегах

需要统一的、支持多语言的编码方案,这就是Unicode码unicode编码Unicode字符集:为每个字符分配唯一的编号,称为码位(CodePoint)。所有字符按照使用频度划分为17个平面(编号为0-16),每个平面有65536个码位。BMP(BasicMultilingualPlane),多语言平面收集最常见的字符,编码U+0000到U+FFFF其他为增补平面总计17×65,536=1,114,112个码位unicode字符集unicode作为编码标准只规定了码位值,并没有规定如何保存、传输编码,即:将码位转换为字节序列unicode字符集常见编码规则UTF-8:可变长编码(Python3.x默认的编码)UTF-16:双字编码(Java默认的编码)编码标准具体实现(存储/传输)unicodeUTF-8UTF-16UnicodeTransformationFormatUTF-8编码可变长编码UTF-8(UCSTransformationForm-8)代码单元由8位组成可变长形式编码单字节:ASCII字符,保持与ASCII编码的兼容性两字节:拉丁文等字符三字节:中(2万多汉字)日韩等字符四字节:扩充汉字UTF-8编码字节数表示码位的位数起始码位值终止码位值Byte1Byte2Byte3Byte417U+0000U+007F0xxxxxxx211U+0080U+07FF110xxxxx10xxxxxx316U+0800U+FFFF1110xxxx10xxxxxx10xxxxxx421U+10000U+10FFFF11110xxx10xxxxxx10xxxxxx10xxxxxxutf-8实现了unicode编码的存储和传输西文符号是1个字节,大部分汉字是3个字节UTF-8编码中:Unicode码点4E2D01001110001011011110XXXX10XXXXXX10XXXXXX0100111000101101466E4B8AD11100100

10111000

101011012013UTF-16编码大多数汉字用16位编码unicode码位值有BigEndian(大端)和LittleEndian(小端)之分大端:高8位在前,低8位在后小端:高8位在后,低8位在前中国Unicode码点4E2D56FDUTF-16大端FEFF4E2D56FDUTF-16小端FFFE2D4EFD56UTF-8E4B8ADE59BBDUTF-8编码的优点UTF-8编码中,ASCII字符只占1个字节,存储效率比较高,适用于拉丁字符较多的场合,可以节省空间UTF-16有BigEndian和LittleEndian之分,而UTF-8则没有字节顺序问题,所以UTF-8适合网络传输和通信中文乱码问题原因:通信双方编码不一致保存ANSI即为操作系统默认编码:GBK打开文件默认UTF-8编码Thefile’sencodingisinvalidforPython3.x.IDLEwillconvertittoUTF-8.拒绝文件打开失败连续性数据的表示连续图像:客观世界的景物通过光学系统作用后产生在二维坐标系中连续变化的图像,即图像像点是无限稠密的,颜色值有无穷多个。人眼中的图像计算机看到的图像连续性数据的表示声音:是通过空气传播的一种连续的波,也称为声波,不但在时间上是连续的,而且在幅度上也是连续的。将时间和幅度上都是连续的信号称为模拟信号。连续性数据的表示计算机只能处理二进制数据,即处理有限的情况。一幅分辨率为1024×768的真彩色图像,大约占用2.25MB存储空间一段采样频率为44.1kHz,量化位数为16位的立体声声音,播放时间为60秒,大约占用10MB的存储空间。大数据就是数字化趋势下的必然产物(特别是连续性媒体)。大数据基础大数据(bigdata):是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据摩尔定律:根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍。大数据基础大数据特征:4V+1O+Online在线的VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天数字图像数字图像:是具有一定分辨率和一定的颜色数量(或量化深度)的图像,组成图像的每个像素均具有一个特定的颜色值,相邻像素的颜色值变化是离散的。模拟图像:在二维坐标上颜色值变化是连续的,即像素无穷多,颜色值无穷多。数字化过程:是模拟图像转化为数字图像的过程。

图像的数字化过程步骤1-图像的采样:对连续图像在二维空间上进行离散化处理,将二维空间上的连续图像转化为一系列有限的离散点。像

素:是计算机系统生成和渲染图像的基本单位。图像像素:M×N,描述图像像素密度的指标像素水平像素点数N垂直像素点M(a)1056×1065分辨率

(b)73×74分辨率图像的数字化过程步骤2-图像的量化:是将连续量表示的像素颜色值进行离散化像素深度:指存储每个像素所使用的二进制的位数,也称为量化位数。像素水平像素点数N垂直像素点M

0/1--2种组合10010010--256种组合1001001001010010

01010001

--256256256种组合像素深度为1位

像素深度为8位

像素深度为24位图像的数字化过程步骤3-图像的编码:将图像中的每个像素的颜色使用不同的二进制代码进行记录一幅分辨率为1056×1065的真彩色图像的所占用的存储空间

(1056×1065×3B)/(1024×1024)≈3.22MB影响图像质量的因素:分辨率、像素深度01000001……图像的数字化过程11101111011110111101111011110111101111011000000000000000000001101111011110111101111011110111101111011二值图、灰度图和彩色图二值图:是指每个像素点均为黑色或者白色的图像,每个像素只需要1bit就可以完整存储信息。一般用来描述文字或者图形。灰度图:通常每个像素点用8bit来存储信息,这样可以有256级灰度,白色为255,黑色为0。二值图灰度图二值图、灰度图和彩色图颜色模式:指描述所有颜色的一套规则和定义。彩色图:计算机中采用颜色模型来对颜色进行表示。二值图、灰度图和彩色图RGB颜色模式:以红色(Red)、绿色(Green)和蓝色(Blue)为基本色并通过混合而获得其他颜色的颜色定义和颜色构造规则。颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)白色青色黄色品红色二值图、灰度图和彩色图RGB颜色模式:通常R、G、B各占用8bit来表示各自基色分量的强度,每个基色分量的强度等级为256级,图像可容纳2563种色彩。自然界的色彩是不能用任何数字归纳的,但是这些色彩数达到人眼分辨的极限,可以基本反映原图的真实色彩,故称真彩色。0~2550~2550~255256256256××=1677721624位真彩色矢量图矢量图:是根据几何特性来绘制图形,构成这些图形的元素是一些点、线、矩形、多边形、圆和弧线等,它们都是通过数学公式计算获得的,依靠专用软件(

AutoCAD和CorelDraw等

)生成。矢量图只需要记录关键点的坐标和两个点之间连线的信息——即保存描述图形的指令。矢量图矢量图与位图的区别矢量图占用的存储空间较小,保存描述图形的指令。矢量图显示速度没有位图快,每次屏幕显示时都需要重新计算。矢量图形不受分辨率的影响,无论放大、缩小或旋转不会失真。矢量图放大位图放大红外图像红外图像:自然界中的一切物体,只要它的温度高于绝对零度,总是在不断地发射着红外辐射,收集并探测这些辐射能,可以形成与物体温度分布相对应的热图像。这种热图像再现了物体各部分温度和辐射发射率差异,因而能显示出物体的特征,形成可见光的热图像,即红外图像。红外图像优点1)描述的是目标和背景所保持温度的差异,属于被动成像,可以全天候工作。2)有较大的作用距离和较强的抗干扰能力。3)图像的灰度均值保持相对稳定,含有较多、较大的同质区。缺点1)像素分辨率低,多采用插值显示。2)对比度较差,过渡较强,层次性不好。3)图像边缘模糊,温度区间界限不明显。4)图像文件格式特殊,不通用。红外图像红外图像的应用热成像检测设备热辐射信号(温度信息)图像信号(温度加伪彩后的转换)接收、转换、处理、显示常见图像文件格式GIF格式(GraphicsInterchangeFormat,图形交换格式):无损压缩格式;最多只有256种颜色;背景可以是透明的,但不能是半透明的,透明背景中的图像,如果边缘轮廓是曲线的,会产生锯齿;有静态和动态两种,可以保存动画。PNG格式(Portable Network Graphics便携式网络图形):无损压缩格式;最高48位真彩色;背景可以是透明或者半透明的,透明图像边缘光滑,没有锯齿(增加透明度通道)。常见图像文件格式JPEG格式(JointPhotographicExpertsGroup):有损压缩格式,压缩效率高,容量相对来说最小,网络传输速度快;支持24位真彩色;不支持透明背景。文件后缀名为.jpg或.jpeg。BMP格式(bitmap位图):标准Window图像格式,包含像素点信息丰富,体积大。通常不压缩,体积大。TIFF格式(TagImageFileFormat标记图像文件格式):格式复杂、灵活,除了存储图像数据之外,还保存额外的格式信息,图像信息的存放灵活多变。在各种地理信息系统、遥感领域广泛应用。数字音频声音是携带信息的重要媒体,是多媒体技术的重要研究对象之一。声音的种类繁多:人说话的声音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。利用计算机处理声音:首先对声音进行数字化分析声音信号的时域或频域特征进而进行语音的预测、编码、识别、合成等声学基础知识声音是:因物体的振动而产生的波形,以一定的速度在特定的传播介质中传播,也称为声波。产生振动的物体称为声源。声学基础知识复杂的声音信号是由许多频率不同的信号组成的。声学基础知识声音信号:在时间和幅度上都是连续变化的,模拟量

周期

频率振幅基线μ(t)t声音的三要素:音调、响度和音色声学基础知识复杂的声音信号是由许多频率不同的信号组成的。复合声音信号(复音):多频率信号组成分量声音信号(纯音):单一频率信号组成基准频率f+0.5*2*f+0.33*3*f+0.25*4*f+0.2*5*f声学基础知识——频率频率:纯音信号每秒钟变化的次数,单位赫兹(Hz)。频带宽度(带宽):组成复合声音信号的所有纯音的频率范围。声音信号的频带宽度越宽,所包含的声音信号分量就越丰富,音质越好。80~2000Hz27.5~4096Hz300~10000Hz声学基础知识——频率可听声:人的耳朵能够听到的声音,20Hz~20kHz语音信号(speech):人说话的声音,通常300Hz~3kHz女高音:100~6500Hz男低音:70~3200Hz男高音:80~4500Hz声学基础知识——频率根据频率的不同,声波分为:可听声(audio):频率在20Hz~20kHz次声波(subsonic):频率小于20Hz超声波(ultrasonic):频率大于20kHz用途?声学基础知识——频率次声波:频率较低,波长很长,穿透力强,传播距离远次声波武器次声波测井仪次声波管道泄漏监测地震、火山爆发、台风、海啸、核爆炸等发生时,伴有次声波的产生;大象可发出次声波声学基础知识——频率超声波:频率较高,方向性好,穿透能力强,在媒质中传播时能量较大。广泛用于探伤、测厚、测距、遥控和成像...超声波洗牙仪超声波加湿器超声波探伤仪超声诊断/B超声学基础知识周期:纯音波形信号的两个波峰点或两个波谷点之间的时间间隔,单位秒。频率=1/周期幅度:从纯音波形信号的基线到波峰的绝对距离,决定了信号能量的强弱程度。声音的幅度越大,声音的能量越强。声学基础知识——声压和声压级声压:由于声波的振动而在大气中产生的附加压强,单位帕斯卡(Pa)。声压的大小反映了声波的强弱,决定了声音的大小。人们正常讲话时产生的声压:约0.5Pa人耳声压的可听阈值:声压低于2×10-5Pa时,声音达到人耳听觉最小极限。人耳声压的痛阈值:声压达到200Pa时,声音达到人耳听觉的最大极限。声学基础知识——声压和声压级人耳对声音强弱的感知与声压绝对值的对数成正比声压级/声强:

声学基础知识——声音的动态范围声音的动态范围:声音的最小声压级到最大声压级的区间语音信号的动态范围:约20dB~45dB交响乐的动态范围:30dB~130dB使用动态范围来度量声音的载体能够处理的信号范围磁带的动态范围:50dB~60dBCD的动态范围:可达96dB声学基础知识——声音的分类规则声音是连续变化的模拟信号,即声波。无论声波多复杂,都可分解成多个不同振幅、频率、相位的正弦波的线性叠加。对于声音:时域分析和频域分析(两种分析方法)频率:1/(2*PI)3/(2*PI)5/(2*PI)7/(2*PI)声音信号的数字化模拟信号和数字信号模拟信号:时间和幅度都是连续的信号数字信号:

幅值被限制在有限个数值之内,它不是连续的而是离散的,即幅值只能取有限的数值将模拟的声音信号转换为计算机能够处理的数字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论