人工智能与未来 课件 3.3 数据表示与获取_第1页
人工智能与未来 课件 3.3 数据表示与获取_第2页
人工智能与未来 课件 3.3 数据表示与获取_第3页
人工智能与未来 课件 3.3 数据表示与获取_第4页
人工智能与未来 课件 3.3 数据表示与获取_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Data第3章数据主讲:王红梅2035目录CONTENTS3.13.23.3数据那些事数据概述数据表示与获取3.43.5数据存储与管理数据分析与可视化3.6大数据3.3.3信息编码3.3.4感知与数据采集3.3.2数制转换3.3.1计算机中的数据是怎么产生的3.3.1计算机中的数据是怎么产生的讲个小红和小明的故事3.3.1计算机中的数据是怎么产生的小红住在山上,妈妈让她买面粉有面粉的商店在山下没有面粉呀,等等再来吧讲个小红和小明的故事3.3.1计算机中的数据是怎么产生的好辛苦还没有买到!讲个小红和小明的故事3.3.1计算机中的数据是怎么产生的妈妈又让小红买面粉有面粉的商店在山下没有面粉呀,等等再来吧讲个小红和小明的故事3.3.1计算机中的数据是怎么产生的我得想个办法呀讲个小红和小明的故事3.3.1计算机中的数据是怎么产生的小红住在山上,有面粉的商店在山下灯不亮,没面粉灯亮

,有面粉讲个小红和小明的故事讲个小红和小明的故事3.3.1计算机中的数据是怎么产生的有大米的商店在山下小明住在另一座山上,妈妈让小明去买大米,小明的情况你能想象吗?同学们,请你们来讲解小明的故事讲个小红和小明的故事3.3.1计算机中的数据是怎么产生的有大米的商店在山下

数字3.3.1计算机中的数据是怎么产生的没米,没面没米,有面有米,没面有米,有面0,00,11,01,1没电,没电没电,有电有电,没电有电,有电逻辑

电路

3.3.1计算机中的数据是怎么产生的0,00,11,01,1讨论:是否明白计算机为什么要用0和1表示了吗?如明白,是否能有自己的语言来描述。3.3.2、数据在计算机内的表示和进制转换2个灯泡能表示4种信息(4个数)这里可以认为是二进制的2位,能表示4个数

*

(一)二进制讨论:如果有更多的灯泡来表示信息,3个,4个,5个,6个,7个、8个、9个和10个呢,又分别能表示多少种信息呢?分为6个组来讨论,并写出答案。(提醒,学生可能还没有学习排列组合)3.3.2、数据在计算机内的表示和进制转换(一)二进制64128256512102424816323.3.2、数据在计算机内的表示和进制转换(一)二进制64261282725628512291024210221422823162432253.3.2、数据在计算机内的表示和进制转换(一)二进制明白了1-10个灯泡,或称为二进制位能表示的数量,但具体怎么表示呢?

10111011000110001011电路中的低电平是0,用灰色表示。高电平是1,用红色表示。

现在我们是不是清楚了计算机是怎么表示数据的?计算机中用到的数据都是由二进制数构成的。数据的最小单位就是一个0或者一个1。一个0或者一个1叫做1位,也叫1比特(bit,简称b)。数据度量的基本单位就是比特或者位。

比比特大的单位有字节(Byte,简称B)、千字节(KB)、兆字节(MB)、吉字节(GB)等。1Byte=8bit1KB=1024B1MB=1024KB1GB=1024MB讨论:你还知道哪些数据表示单位?1TB(Trillion

byte太字节,万亿字节)=

1024

GB,1PB(Peta

byte拍字节,千万亿字节)=

1024

TB,1EB(Exa

byte艾字节,百亿亿字节)=

1024

PB,1ZB(Zetta

byte泽字节,十万亿亿字节)=1024

EB,1YB(Yotta

byte尧字节,一亿亿亿字节)=1024

ZB,1BB(Bronto

byte

一千亿亿亿字节)=1024YB.一首MP3歌曲的数据量大约5MB、一部电影的数据量大约1GB。3.3.2、数据在计算机内的表示和进制转换(二)十进制

计算机的二进制如何和生活中的十进制对应呢?十进制需要用0,1,2,...9共10个数表示如:909811012525800011000101110111011十进制&二进制如何转换呢(三)数制转换:进位计数制111111十1百1千进率为10位权为10k11111248进率为2位权为2k十进制二进制3.3.2、数据在计算机内的表示和进制转换

十进制:1049=1×103+0×102+4×101+9×100(三)数制转换:进位计数制3.3.2、数据在计算机内的表示和进制转换

二进制:(1011)2=1×23+0×22+1×21+1×20=11二进制转化为十进制讨论:十进制数如何转换为二进制呢?如9,、268转换为二进制应该是什么?有这样算的没有?9=8+1=1×23+0×22+0×21+1×20=(1001)2

268=256+8+4=1×28+1×23+1×22=1×28+0+0+0+0+1×23+1×22+0+0=(100001100)2

数据比较大怎么办?

不同数制之间的数进行转换必须遵循一定的转换原则:两个有理数相等,则有理数的整数部分和分数部分一定分别相等。使用计算机计算时需要把十进制数转换成二进制数。把一个十进制数转换成二进制数的方法是整数部分与小数部分分开进行。整数部分采用采用“除2取余,逆序排列”的方法。小数部分采用“乘2取整,顺序排列”法。(三)数制转换:进位计数制3.3.2、数据在计算机内的表示和进制转换【例3-1】将十进制数[13]10转换成二进制数。答案:

[13]10=[1101]2

13222263101011(余数)(三)数制转换:进位计数制3.3.2、数据在计算机内的表示和进制转换利用“除2取余,逆序排列”的方法把65,转换为2进制讨论:小红与小明,去购买U盘,一个购买了64G,一个购买了128G。回来打开一个,发现64G的U盘只有58.5G,而128G的也只有115G,不免感叹!奸商,真实奸商!你对这个事情,怎么看待?3.3.2、数据在计算机内的表示和进制转换(四)八进制、十六进制

二进制和八进制之间转化:3位二进制转换为一位八进制,二进制位数不足3的倍数时,左边补0例如:二进制:101011转换八进制为:53

例如:二进制:

01011

不足3的倍数

001011转八进制为:13八进制转为二进制就是1位转3位3.3.2、数据在计算机内的表示和进制转换(四)八进制、十六进制

二进制和十六进制之间转化:4位二进制转换为一位十六进制,二进制位数不足4的倍数时,左边补0十六进制的数:0~9,A,B,C,D,E,F例如:二进制:10100011转换十六进制为:A3

例如:二进制:101011

不足4的倍数

00101011转八进制为:2B十六进制转为二进制就是1位转4位讨论:我们常说的“半斤八两”是什么意思呢?

问题:如何实现字符与汉字的编码?3.3.3信息编码

前面我们讨论了数值型数据在计算机中的表示,实际上非数值型数据在计算机中使用更多,比如文字、图像等。非数值型数据要在计算机中表示和存储,需要先转换为二进制。非数值型数据可以通过信息编码方法变成二进制数。3.3.3信息编码

信息编码这个词,初听起来很陌生,其实生活中应用非常广泛,学生都有学号,学号实际上就是一个典型的信息编码的例子,如学号“2507010325”的编码信息如表所示。3.3.3信息编码年份学院专业班级序号编码2507010325代表意义2025级信息学院大数据专业3班顺序号像你看到的那样,这个学号用了10位,其中学院用了2位,为什么呢?那是因为考虑一个学校的学院数量可能超过10个,如果用1位就不够表示。其它也雷同。

二进制数的信息编码思想方法与十进制类似。试用2位二进制数对一年四季的编码表示。3.3.3信息编码编码代表意义00春季01夏季10秋季11冬季下面介绍在计算机中常见的两种信息编码:字符编码和汉字编码。数字字符特殊符号汉字ASCII码汉字编码-GB23123.3.3信息编码3.3.3信息编码(一)ASCII码计算机是美国人发明的,它首先考虑的就是如何把自己国家的符号放到计算机中去。(1)数字、英文字母、标点符号等可见的符号(2)回车、换行、空格等不可见的控制字符3.3.3信息编码(一)ASCII码

考虑到ASCII字符集要在计算机中存储,进行二进制编码,称为ASCII码。ASCII(AmericanStandardCodeforInformationInterchange)美国标准信息交换码,是国际通用的信息编码方案。3.3.3信息编码(一)ASCII码ASCII码ASCII码表由10个数字、52个英文大写和小写字母、32个符号及34个计算机通用控制符组成,共有128个元素,所以用二进制编码表示时需用7位二进制数。7位二进制数编码共有从0000000到1111111的128个码组,恰好可用来表示128个不同的字符。3.3.3信息编码(一)ASCII码ASCII码表ASCII码表的查表方式是:先查列(高三位d6d5d4),后查行(低四位d3d2d1d0),然后按从左到右的书写顺序完成。存储是按一个字节,高位补00000010100111001011101110000NULDLESP0@P’p0001SOHDC1!1AQaq0010STXDC2“2BRbr0011ETXDC3#3CScs0100EOTDC4$4DTdt0101ENQNAK%5EUeu0110ACKSYN&6FVfv0111BELETB‘7GWgw1000BSCAN(8HXhx1001HTEM)9IYiy1010LFSUB*:

JZjz1011VTESC+;

K[k{1100FFFS,<L\l|1101CRGS-

=M]m}1110SORS.

>N^n~1111SIUS/?O_oDEL举例:字符A的ASCII码是1000001。存储时按一个字节,高位补0,是01000001,十进制表示是65,低位高位常用的标准键盘都是根据ASCII码制作的,所以当我们敲击键盘上的一个键时就会产生一个对应的ASCII码,这个码通过键盘接口送入计算机内。后来计算机传到欧洲,128个不够用,就扩展到226个,从0-255,称为扩展ASCII码。3.3.3信息编码(二)汉字码计算机来到中国,常用汉字好几千容我想想,8位表示256个,16为可以表示216个,还真够用哈!256个字符也太少了(8位)从8位扩展到16位3.3.3信息编码(二)汉字码-汉字编码

汉字编码方案通常包含4部分:输入码、交换码(标准码)、内部码(内码)、输出码。输入设备+输入法存储设备输出设备输入码内码输出码

交换码

国家汉字标准(1)输入码

输入码是为了通过标准键盘把汉字输入计算机而设计的一种编码。我们输入英文时,想输入什么字符便按下什么键,直接就产生了字符码。而想输入汉字时,还需要在标准键盘上加装输入法软件。

试试键盘输入法来输入汉字(2)交换码(国标码)

采用不同的输入法可以有不同的输入编码,但是我们想要的汉字是唯一的,所以,必须把不同的输入编码对应到唯一的二进制数。一个汉字所对应的唯一的二进制数就是汉字交换码,汉字交换码采用的是中国国标码。国家标准局1980年颁布《信息交换用汉字编码字符集基本集》(代号为GB2312-80)规定了标准汉字编码,简称国标码。国标GB2312-80规定两字节(16位)的二进制数表示一个汉字,共为6763个常用汉字规定了二进制编码。比如汉字“保”的GB2312码是3123H(H说明3123为十六进制数,对应的二进制数为0011000100100011)。

(3)内码

汉字交换码只是汉字的编码,并不是汉字在计算机内部的表示。内码才是汉字在计算机内的编码,内码与交换码一一对应,但结构不同。一台计算机既要处理汉字,又要处理英文,所以必须能区别汉字字符和英文字符。英文字符的机内码是最高位为0的8位ASCII码。为了区分,把交换码每个字节的最高位置为1,其余位不变,如表3.3.4所示是“保”的交换码到内码的转换。过程是这样的:(3)内码

第一步:键盘通过标准键盘实现汉字输入编码;第二步:然后把输入码映射为16位的交换码(3123H),把交换码转换为二进制;第三步:把交换码的二进制的每个字节的高位置1,变成汉字的内码。高位(16进制)低位(16进制)交换码16进制3123交换码二进制0011000100100011二进制的每个字节高位置11011000110100011内码的16进制B1A3这样就得到了汉字内码,即实现汉字到二进制数的转换,然后就可以对这个汉字进行存储、计算等处理了。大家可以百度搜一下自己名字中对应的每个字的GB2312交换码和机内码,并转换一下,看是否正确?在wps中,查看字的GB2312对应的机内码的方法(1)选中字(2)点击“插入”标签,然后点击“符号”。记住是点击“符号”按钮,而不是点开下列菜单(3)在弹出中的对话框中选择GB2312(4)输出码输出汉字需要使用的一串二进制数就是输出码,也叫字形码。怎么由二进制数生成汉字呢?汉字在输出设备(显示器或者打印机)是以图形方式显示的。科学家们根据人类视觉特征和计算机图像学技术设计出汉字字形码。计算机系统中,一个汉字内码对应一个字形码,可采用16×16,24×24,32×32,48×48个采样点表示。(4)输出码如图所示是“保”字,采用16×16个采样点,这样就可以用一个长256位的二进制数串表示。0123456789101112131415

0

09FCH1

1104H2

2104H3

61FCH4

A000H5

2020H6

27FFH7

2020H8

20A8H9

20A8H10

2124H11

2124H12

2222H13

2222H14

2421H15

2020H根据图中的图形可以判断出这个16×16的点阵显示的是汉字“保”,所以“保”字的字形码就是这个256位的二进制数串(每一行的二进制数以十六进制形式表示在行的右端,比如第一行为0000100111111100,表示为十六进制是09FC)。在实际应用中,工程师为每一个常用汉字设计出字形码并存到一个库中,这个库称为汉字字库如方正字库就是一个常见的汉字字库。字形码位数越多,对应的点阵越密集,呈现的字形越逼真、越美观。思政案例:“当代毕昇”王选(1937年2月5日—2006年2月13日),1958年毕业于北京大学数学系,是计算机文字信息处理专家,计算机汉字激光照排技术创始人,国家最高科学技术奖获得者,中国科学院学部委员、中国工程院院士,北京大学计算机研究所原所长。王选从1970年代作为为技术总负责人,领导中国计算机汉字激光照排系统和电子出版系统的研制工作,经过近十年的奋斗终获成功,首次实现把汉字搬入计算机并通过激光照排精准输出。为此,王选被称为“当代毕昇”,1987年获国家科技进步一等奖。王选从1980年代开始进行科研成果转化与应用推广,成功创立北大方正集团,闯出了一条产学研一体化的成功道路。2001年荣获国家最高科学技术奖。3.3.3信息编码后来发现GB2312不够用了,就进行了扩展,这就是GBK,能表示近20000个汉字,再后来,少数民族也用计算机,又进行了扩充GB18030思考一个问题:全世界需要有多少编码呀!3.3.3信息编码国际化标准组织ISO组织就发起了一个全世界通用的标准Unicode标准32位。一开始各国的态度,好是好,占空间太大,不用!随着互联网的发展,不想乱码,就得用,于是在Unicode标准基础上推出UTF-8(8位传输),UTF-16(16位传输)!讨论:你身边有过哪些编码?他们都是用来解决什么问题的呢?请举例自己班的学生

智能系统常常通过智能感知获取数据,通过分析数据获取环境信息,然后自动做出响应。

可使用大量传感器获取数据交给服务器处理。人们使用专用设备(声卡、视频卡、相机)为计算机感知获取数据也叫数据采集。不管是感知还是采集,其基本原理是一样的,下面介绍声音、图像和传感数据的采集过程。3.3.4感知与数据采集

如果需要图像数据,可以使用照相机、摄像机、摄像头等图像传感设备进行数据采集;

如果需要声音数据,可以使用麦克风、声卡等声音设备进行数据采集;3.3.4感知与数据采集摄像头

照相机

麦克风

声卡

如果需要位置、距离等数据,可以使用超声、雷达、卫星定位器等测距设备进行采集;

如果需要温度、湿度、压力、高度等数据可以使用相应的传感设备进行数据采集,3.3.4感知与数据采集红外测温仪

北斗定位器

汽车雷达探测器

超声波车位探测器(一)声音编码3.3.4感知与数据采集

如果想让机器像人一样“能听会说”,就需要对声音信息进行采集和处理。使用麦克风、声卡和相关软件就可以把声音变成二进制数据。这个过程通常包括声电转换、采样、保持、量化、编码和压缩等阶段。采样保持量化编码声电转换存储器压缩模拟信号数字信号声波(一)声音编码3.3.4感知与数据采集采样保持量化编码声电转换存储器压缩模拟信号数字信号声波模拟信号:蓝色曲线采样:纵坐标,必须每隔一段时间采1次,单位时间的采样次数为频率保持:使采用标准一样量化:转换二进制编码:编成8位,16位压缩:让文件变小(一)声音编码3.3.4感知与数据采集在计算机系统中,声音的编码过程是使用一个叫做声卡的设备自动完成的。声音编码数据是以一定的格式存储于计算机存储器的,这种存储格式叫做声音文件格式。常见的声音文件格式有WAV、MP3、WMA等。同样要想让机器“能看会懂”,需要进行图像信息的采集和处理。使用相机、摄像头等图像传感设备可以把“景物”变成二进制数据,其过程一般包括光电转换、采样、保持、量化、编码和压缩等步骤,采样保持量化编码光电转换存储器压缩模拟信号数字信号光波3.3.4感知与数据采集(二)图像编码这样采集到的图像若干像素点(像素点可以理解为一个个的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论