传感器论文智能识别_第1页
传感器论文智能识别_第2页
传感器论文智能识别_第3页
传感器论文智能识别_第4页
传感器论文智能识别_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、传感器与物联网论文传感器与物联网论文题 目:智能识别学院(系):交通运输(智能运输工程)专业年级:运输1110班学生姓名:谢一德,王薇,向万晓,王一方任课教师:魏秀琨目录:射频识别 3图像识别 13语音识别 17射频识别(RFID)1、射频识别相关概念1.1无线射频(RF) 射频技术(Radio Frequency,简称RF,也称无线射频或无线电射频技术)是一种无线电通信技术,其基本原理是电磁理论,利用无线电波对记录媒体进行读写。1.2射频识别(RFID)技术RFID是英文Radio Frequency ldentification (无线射频识别技术)的缩写,即射频识别。射频识别技术是一种非

2、接触式的自动识别技术,它通过射频信号自动识别目标对象来获取相关数据,并利用无线电波进行双向通信。其完成识别工作时无需人工干预,适于实现自动化且不易损坏,可识别高速运动物体并可同时识别多个射频卡,操作快捷方便。简单说,RFID就是利用无线电波进行数据信息读写的一种自动识别技术或无线电技术在自动识别领域中的应用。2、RFID系统组成RFID系统一般都由信号发射机(射频标签)、信号接收机(阅读器)、编程器及发射接收天线等部分组成。2.1信号发射机(射频标签)2.1.1射频标签的组成RFID系统的射频标签由射频模块、存储器、控制模块及天线四个主要部分构成,它能够自动或在外力的作用下,将存储的信息主动发

3、射出去。其中,标签中存储器的内存容量在几个比特到几十干字节之间,可储存永久性数据和非永久性数据;而控制模块则完成接收、译码及执行读写器命令,控制读写数据,负责数据安全等功能。2.1.2射频标签的分类按调制方式的不同,射频标签可分为:主动式标签和被动式标签。主动式标签内部自带电池进行供电,使用自身的射频能量主动地发射数据给阅读器,工作可靠性高,信号传送的距离远。但其使用寿命也因此受到限制,随着标签内电池电力的消耗,数据传输的距离会越来越小,影响系统的正常工作。有源射频标签通常应用于需要限制数据传输量或者使用数据有限制的地方,如军事、交通控制等方面。被动式标签主要靠外界提供能量(从阅读器发射的电磁

4、波中获得),可分为不含电源的标签及半主动标签(电源只为芯片运转提供能量)。被动式标签具有永久的使用期,支持长时间的数据传输和永久性的数据存储,但其数据传输的距离比主动式标签短,因此其通常应用于标签信息需要每天读写或频繁读写多次的地方,如零售行业的传统标签等。 按内部使用存储器类型的不同,射频标签可分为:只读标签和可读可写标签。只读型标签的内容只能读出,不可写入,其存储器是只读型存储器。只读型标签可分为只读标签、一次性编程只读标签以及可重复编程只读标签。其中,只读标签的内容在标签出厂时已被写入,识别时只可读出,不可再改写,其存储器一般由ROM组成;一次性编程只读标签的内容只可在应用前一次性编程写

5、入,识别过程中标签内容不可改写,其存储器一般由PROM、PAL组成;可重复编程只读标签的内容经擦除后可重新编程写入,识别过程中标签内容不改写,其存储器一般是由EPRoM或GAL组成。读写型标签的内容既可以被阅读器读出,又可由阅读器写入,其可以只具有读写型存储器(如RAM或EERoM),也可以同时具有读写型存储器和只读型存储器。读写型标签应用过程中数据是双向传输的。按有无电源的不同,射频标签可分为:无源标签和有源标签。无源标签中不含有电池,其工作时距识读器的天线比较近,使用寿命长。有源标签中含有电池,其工作时距识读器天线的距离较无源标签要远,但需定期更换电池。 按标签中存储器数据存储能力的不同,

6、射频标签可分为标识标签与便携式数据文件。标识标签中存储的只是标识号码,用于对特定的标识项目,如人、物、地点进行标识,关于被标识项目的详细的特定信息,只能在与系统相连接的数据库中进行查找。便携式数据文件是指标签中存储的数据非常大,可以看作是一个数据文件。这种标签一般都是用户可编程的,且标签中除了存储标识码外,还存储有大量的被标识项目其他的相关信息,如包装说明、工艺过程说明等。按频率的不同,射频标签可分为:低频标签、高频标签、超高频标签以及微波标签。低频标签:使用的频段范围为10KHz1MHz,常见的主要规格有125KHz、135KHz。一般这个频段的电子卷标都是被动式的,低频的最大的优点在于其标

7、签靠近金属或液体的物品上时能够有效发射讯号,但缺点是读取距离短、无法同时进行多卷标读取以及信息量较低,一般应用于门禁系统、动物芯片、汽车防盗器和玩具等。高频标签:使用的频段范围为1MHz400MHz,常见的主要规格为13.56MHz。这个频段的标签主要还是以被动式为主,最大的应用就是我们所熟知的Smart Card。和低频相较,其传输速度较快且可进行多标签辨识,一般应用于图书馆管理、产品管理等。超高频标签:使用的频段范围为400MHz1GHz,常见的主要规格有433 MHz、868950MHz。主动式和被动式的应用在这个频段都很常见,被动式标签读取距离约34公尺左右,传输速率较快,而且因为天线

8、可采用蚀刻或印刷的方式制造,因此成本较低,虽然在金属与液体的物品上的应用较不理想,但由于读取距离较远、信息传输速率较快,而且可以同时进行大数量标签的读取与辨识,因此目前已成为市场的主流,未来将广泛应用于航空旅客与行李管理系统、货架及栈板管理、出货管理、物流管理等。微波标签:使用的频段范围为1GHz以上,常见的主要规格有2.45GHz、5.8GHz。微波频段的特性与应用和超高频段相似,读取距离约为2公尺,但是对于环境的敏感性较高,一般应用于行李追踪、物品管理、供应链管理等。2.1.3射频标签的基本功能具有一定容量的存储器,用以存储被识别对象的信息。在一定的工作环境及技术条件下标签数据可读写。具有

9、确定的使用期限,使用期限内无需维修。维持对识别对象的识别及相关信息的完整。数据信息编码后,工作时可传输给读写器。可编程,且一旦编程后,永久性数据不能再修改。对于有源标签,通过读写器能显示出电池的工作情况。2.2信号接收机(阅读器)阅读器主要由天线、射频模块、读写模块三大部分组成,其基本功能是利用射频技术读取标签信息或将信息写入标签并通过计算机及网络系统进行管理和信息传输,以及信号状态控制、奇偶错误校验与更正等。2.3编程器编程器是向标签写人数据的装置。只有可读写标签系统才需要编程器。编程器主要包括两种方式:离线(oxline)式和在线(online)式。其中,离线式是预先在标签中写入数据,等到

10、开始应用时直接把标签附在被标识项目上;而在线式则是在生产环境中作为交互式便携数据文件来处理时使用。2.3天线天线是标签与阅读器之间传输数据的发射、接收装置。在实际应用中除了系统功率,天线的形状和相对位置也会影响数据的发射和接收,需要专业人员对系统的天线进行设计。3、RFID工作流程 编程器预先将数据信息写入标签中。阅读器经过发射天线向外发射无线电载波信号。当射频标签进入发射天线的工作区时,射频标签被激活后即将自身信息经标签天线发射出去。系统的接收天线接收到射频标签发出的载波信号,经天线的调节器传给阅读器,阅读器对接到的信号进行解调解码,送后台计算机。计算机控制器根据逻辑运算判断射频标签的合法性

11、,针对不同的设定做出相应的处理和控制,发出指令信号控制执行机构的动作。执行机构按计算机的指令动作。通过计算机通信网络将各个监控点连接起来,构成总控信息平台。4、RFID工作原理无线射频识别技术是一种非接触的自动识别技术,其基本原理是利用射频信号和空间耦合(电感或电磁耦合)或雷达反射的传输特性,实现对被识别物体的自动识别。RFID系统至少包含电子标签和阅读器两部分。RFID阅读器(读写器)通过天线与RFID电子标签进行无线通信,可以实现对标签识别码和内存数据的读出或写入操作。通常由阅读器在一个区域内发射射频能量形成电磁场,作用距离的大小取决于发射功率。标签通过这一电磁场时接收解读器发出的射频信号

12、,凭借感应电流所获得的能量发送存储在标签中的数据,或根据阅读器的指令改写存储在标签中的数据。阅读器可接收标签发送的数据或向标签发送数据,并能通过标准接口与计算机网络进行通信。5、RFID系统分类 根据RFID系统完成的功能不同,可以把RFID系统分成四种类型:EAS系统、便携式数据采集系统、物流控制系统和定位系统。5.1 EAS系统EAS(Electronic Article Surveillance,电子物品监视技术)是一种设置在需要控制物品出入门口的RFID技术。EAS系统主要由附着在物品上的电子标签、电子传感器和在出入口形成一定监视区域的监视器组成。其工作原理是发射器在监视区以一定的频率

13、发射无线电波,当携带有一定特征的电子标签的物品进入该监视区时,会对发射器发出的信号产生干扰,这种干扰信号也会被接收器所接收,微处理器对此信号作出分析判断,控制警报器的响鸣,从而完成对通过监视区的物品的监视。这种技术的典型应用场合是商店、图书馆和数据中心等地方,当未被授权的人从这些地方非法取走物品时,EAS系统会发出警告。5.2便携式数据采集系统便携式数据采集系统是使用带有RFID阅读器的手持式数据采集器来采集RFID标签上数据的系统。其工作方式是手持式阅读器(数据输入终端) 在读取数据的同时,通过无线电波数据传输方式实时向主计算机系统传输数据,或暂时将数据存储在阅读器中,成批地向主计算机系统传

14、输数据。这种系统具有比较大的灵活性,适用于不宜安装固定式RFID系统的应用环境。5.3物流控制系统在物流控制系统中,RFID阅读器分散布置在给定的区域,并且阅读器直接与数据管理信息系统相连,信号发射机是移动的,一般安装在移动的物体、人上面。当物体、人流经过阅读器时,阅读器会自动扫描标签上的信息并把数据信息输入数据管理信息系统进行存储、分析和处理,以达到控制物流的目的。5.4 RFID定位系统阅读器安装在移动的车辆、轮船上,或自动化流水线上移动原材料、半成品、成品上,通过无线或有线方式与计算机信息系统相连;信号发射机则嵌入到操作环境的地表下面或其他位置,存储有位置识别信息。通过阅读器和发射器的配

15、合工作,可用于自动化加工系统中定位以及提供对车辆、轮船等的运行定位支持。6、RFID技术的特点 6.1 RFID技术的优点不局限于视线,读取数据方便快速:RFID读取设备利用无线电波,可以全自动瞬间读取大量的卷标信息。可重复使用:条形码印刷之后就无法更改,但RFID可不限制次数地新增、删除、修改RFID内的储存数据。方便数据辨读:RFID标签只要在无线电波的范围内,即可传递讯号。数据储存容量大:RFID的数据储存容量可达数Megabytes(一维条形码的容量是50Bytes;二维条形码最大的容量可储存2至3000字符)。可同时读取数个数据:条形码阅读器一次只能读取单一条形码数据;RFID的辨识

16、器可同时辨识读取数个RFID,读取速度每秒可达250个标签,这种多任务成效远比传统条形码一次扫描一个高得多。体积小:传统的磁性条形码受限于体积,不易嵌在较小的物品上,RFID则不然。日立(Hitachi)甚至已经发展出厚度仅有0.1mm、面积为0.4mm X 0.4mm的微型RFID芯片,薄到可以嵌入纸币中;因此RFID的迷你体积可以隐藏在各种物品里面。不容易损坏:条形码属于易碎标签,很容易退色、撕毁;RFID属于电子产品,可以在条件苛刻的环境下使用,RFID具有可重复使用数十万甚至数百万次以上的特性,其材质也能够被放置于较为恶劣的环境中。识别距离比光学系统远。难以伪造和有智能。6.2 RFI

17、D技术的缺点RFID技术的缺点主要体现在价格与隐私方面。RFID目前的成本除了标签部分外,配套的周边与服务对一般企业来说仍然偏高,通常只有大企业负担得起。因此,虽然市场普遍看好RFID,但需要各个领域的多数厂商加入,才可让RFID如同条形码与POS系统一样普及。 对于个人的消费情形隐私权,已让大众产生疑虑,随着RFID技术普及到各层面,未来更可能使用在证照或身份证件等方面,数据曝光的危险性显得更高;同时,随之而来如黑客或是政府的监视,也都影响到民众的权益。因此,我们可说RFID未来的市场有多大,安全与隐私权维护的忧虑就有多大。7、RFID技术在国内外的应用及其发展前景7.1 RFID技术在国际

18、上的应用目前,RFID技术广泛应用于工业自动化、商业自动化、交通运输控制管理等众多领域:汽车、火车等交通监控;高速公路自动收费系统;停车场管理系统;物品管理; 流水线生产自动化;安全出入检查;仓储管理;动物管理;车辆防盗等。至今RFID技术的应用仍层出不穷,如澳大利亚将它的RFID产品用于机场旅客行李管理中;瑞士国家铁路局在瑞士的全部旅客列车E安装RFID自动识别系统,调度员可以实时掌握火车运行情况,不仅利于管理,还大大减少了发生事故的可能性。7.2 RFID技术在我国的应用目前,我国公交、医疗等的收费系统,高校的学生校园卡系统及第二代身份证系统都与RFID技术息息相关。而在物流、交通方面,我

19、国RFID技术的应用也已经开始,锦山的一条高速公路已应用了非接触射频卡自动收费;我国的铁路系统使用RFID技术记录货车车厢编号的试点已运行了一段时间;北京的机场高速公路、深圳的皇岗口岸也使用了RFID系统收费;一些物流企业已经将RFID技术用于物流管理中。7.3 RFID技术的发展前景RFID技术将主要应用于安全防护、商品生产销售、管理与数据统计、交通运输、供应链管理及国防和军事应用等领域。7.3.1安全防护领域门禁保安,未来的门禁保安系统均可应用射频卡,且可一卡多用。汽车防盗。电子物品监视系统,目的是防止商品被盗。7.3.2商品生产销售领域生产线自动化仓储管理产品防伪RFID卡收费7.3.3

20、管理与数据统计领域畜牧管理运动计时7.3.4交通运输领域高速公路自动收费及交通管理火车和货运集装箱的识别7.3.5供应链管理领域供应链包括从原材料到最终用户的所有实物的移动过程,包括供货商选择、采购、产品计划、材料加工、订单处理、存货管理、包装、运输、仓储与客户服务;也包括供应链中的产品、货主、位置和时间,以便供货商和客户之间更好地沟通。8、RFID技术的应用案例8.1景区智能门票系统RFID电子标签可以封装于PVC、PET、PP、不干胶纸等多种介质内,凭借其优异的物理特性及强大的信息管理和防伪功能,为各大风景区提供功能完善全面的多种解决方案,如门票、年票、套票等;同时可以现场发卡,为客户提供

21、更灵活的个性化服务。本系统已应用于全国重点风景名胜区之一的广东肇庆风景区等。8.1.1景区智能门票系统的主要性能特点采用了先进的RFID识别技术,防伪性能良好。每个电子门票拥有一个全球唯一序列号,且该序列号无法更改。采用计算机控制和数据处理技术,自动化程度高,控制准确。发行电子门票时无机械接触动作,感应通讯,反应迅速,方便用户使用。识别过程由入口验票处的识别主机完成,景区各入口的控制主机负责查找、鉴别,整个过程不需人工干预,失误率趋于零。系统管理软件WINDOWS环境下编写,中文菜单操作显示,界面友好。每个操作步骤都有详细的提示说明,操作简单,使用方便。安装、调试、维护简单方便,易于检修。系统

22、性能稳定,使用可靠。8.1.2景区智能门票系统实现的基本功能 防止伪造假票。提高管理效率,快速识别有效门票。简化管理手段,轻松设定使用权限及实现一卡多用。扩展功能强,通过对门票的电子化管理,可实现统计、结算等扩展功能。利用远程通讯技术实现异地发卡,远程统计查询,景区查验功能。8.2工业气瓶电子化管理系统 RFID电子标签可以封装于多种具有耐酸、耐碱、抗冲击等物理性能的非金属介质中,因此具有抗恶劣环境的特性;同时标签本身具有信息存储功能,面对使用环境复杂,流动性大的工业气瓶,用RFID电子标签对其进行信息化管理是一种极佳的选择。 目前该系统已应用于广州地区乙炔气瓶管理。8.2.1工业气瓶电子化管

23、理系统的主要性能特点采用先进的RFID识别技术,每个工业气瓶拥有一个全球唯一序列号,读写操作时采用验证机制和多重加密技术,无法伪造仿制。同时保证只有该系统发行的电子标签才能被有效识别。经附合后的电子标签不可逆性粘贴于气瓶的瓶肩部。识别和数据写入过程由手持读写仪完成。气瓶每次检测、充气及相关操作人员的信息由手持读写仪检测并写入电子标签。系统管理软件运行于WINDOWS环境下,界面友好,操作简便。提供数据库支持,方便气瓶资料的动态管理。安装、调试、维护简单方便,易于检修。标签及读写设备具有防爆性能,可满足特殊防爆需求。8.2.2工业气瓶电子化管理系统实现的基本功能记录气瓶基本信息及充装情况。对气瓶

24、进行定期检审并记录检审信息。实现气瓶充装操作人员的管理。实现气瓶充装及运输的物流管理。具用极强的防伪功能。8.3智能出租车管理系统通过封装在驾驶员资格证以及以不同方式固定于车身的RFID电子标签,对驾驶员、出租车辆的基本资料以及驾驶运营情况进行管理,同时遏制了“克隆车”的出现。 本系统已在广州、上海等国内大中城市应用,取得了良好的实用效果和社会效益。 8.3.1智能出租车管理系统的主要性能特点采用了先进的RFID技术,防伪性能良好。每辆车拥有一个全球唯一序列号,且该序列号无法更改。采用计算机控制和数据处理技术,自动化程度高,控制准确。发行电子标签时无机械接触动作,感应通讯,反应迅速,方便用户使

25、用。识别过程由手持读写仪完成,控制主机负责查找、鉴别,整个过程不需人工干预,失误率趋于零。出租车动态行驶状态下不停车查验。系统管理软件WINDOWS环境下编写,中文菜单操作显示,界面友好;每个操作步骤都有详细的提示说明,操作简单,使用方便。安装、调试、维护简单方便,易于检修。系统性能稳定,使用可靠。8.3.2智能出租车管理系统实现的基本功能出租车车辆及驾驶员资格证的防伪。出租车驾驶员个人信息及车辆信息管理。驾驶员违章的实时处理,简化处罚手续,缩短处理时间。出租车辆行驶运营及违章情况的管理。各类证件发放的无纸化办公,提高工作效率。提高年审工作效率,避免因手工操作引起的差错。稽查人员的工作绩效管理

26、。8.4其他应用高速公路的自动收费系统据测试,采用这种自动收费方式,车辆通过自动收费卡口车速可保持在40km/h,与停车领卡交费相比,行车可节省时间30一70。RFID库存跟踪系统将RFID标签贴在托盘、包装箱或元器件上,无需打开产品的外包装,系统就可以对其成箱成包地进行识别,实现对商品从原料、半成品、成品、运输、仓储、配送、上架、最终销售,甚至退货处理等所有环节的实时监控,极大地提高自动化程度,大幅降低差错率,提高供应链的透明度和管理效率。集装箱识别系统将记录有集装箱位置、物品类别、数量等数据的标签安装在集装箱上,借助射频识别技术,就可以确定集装箱在货场内的确切位置,在移动时可以将更新的数据

27、写入射频卡。系统还可以识别未被允许的集装箱移动,有利于管理和安全。智能助手系统在德国莱因伯格的未来商店中,RFID货架能识别货架上的物品缺货时间或被摆放错位置。只需按键便显示价格的电子货架标签可以保证价格的准确可信。图像识别1图像识别定义1.1定义图像识别,是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。1.2研究问题图像识别所研究的问题,是如何用计算机代替为人自动去处理大量的物理信息,解决人类生理器官所不能识别的问题,从而从部分上代替人的脑力劳动。图像的含义也比较广泛,最早是指图片,后来把如声波的波形图也归为图像。具体来说,图像可以是各种图画,字符,声波信号,透

28、视胶片,空间物体。综合来说,又可以分为直观视觉图像(图案,文字)和间接转换图像(声音,心率等)两类。2图像识别内容2.1图像识别基础图像识别是以图像的主要特征为基础的。对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映象。在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的信息加工才能实

29、现。对于熟悉的图形,由于掌握了它的主要特征,就会把它当作一个单元来识别,而不再注意它的细节了。这种由孤立的单元材料组成的整体单位叫做组块,每一个组块是同时被感知的。在文字材料的识别中,人们不仅可以把一个汉字的笔划或偏旁等单元组成一个组块,而且能把经常在一起出现的字或词组成组块单位来加以识别。2.2图像识别基本方法图像识别的方法很多,可概括为三种:统计(或决策理论)法,结构(或句法)方法和神经网络法。对于一幅实际图像来说,目标和背景常常不是线性可分的,统计法是一种分类误差最小的方法。它以数学上的决策理论为基础,根据这种理论建立统计学识别模型。其基本模型是对研究的图像进行大量的统计分析,找出规律性

30、认识,提出反映图像本质特点的特征进行识别。如Bayes模型和马尔科夫(MRF)模型。但是统计方法基本严格的数学模型,而忽略了图像中被识别对象的空间相互关系,即结构关系,所以当被识别物体的结构特征为主要特征时,用统计方法便会很难识别。句法识别是对统计识别方法的补充,统计方法用数值来描述图像的特征,句法方法则是用符号来描述图像特征的。它模仿了语言学中句法的层次结构,采用分层描述方法,把复杂图像分解为单层或多层的简单子图像,主要突出识别对象的结构信息。模式识别是从统计方法发展起来的,而句法方法更扩大了模式识别的能力,使其不仅限于对象物的分类,而且用于景物的分析与物体结构的识别。神经网络方法是指用神经

31、网络的算法对图像进行识别的方法,神经网络系统是由大量简单的处理单元(神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特性,是人脑神经网络系统的简化,抽象和模拟。句法方法侧重于模拟人的逻辑思维,而神经网络侧重于模拟和实现人的认知过程中的感知觉过程,形象思维,分布式记忆和自学自组织的过程,与符号处理是一种互补的关系。但神经网络具有大规模并行,分布式存储和处理,自组织,自适应和自学习的能力,特别适用于处理需要同时考虑许多因素和条件的不精确和模糊的信息处理问题。2.3其它图像识别方法模糊集识别法。在模式识别,自动控制等方面有广泛应用。在图像识别中,有些问题极其复杂,很难用一些确定

32、的标准做出判断。人脑的识别精度不高,却能够用一些不够精确,也即模糊的概念准确地辨识复杂事物的特征,怎样用不太精确的方式来描述复杂的系统,怎样建立合理的数学模型来研究模糊现象,并能快速准确地进行识别,就是模糊识别法研究的目的。标记松弛法是另一种采用符号来描述图像特征的识别方法,在这种方法中,处理对象一般称为目标,而描述目标的符号则称为标记,标记松弛法先对目标给定一组不确切的标记,通过迭代运算逐次更新标记,最后求得这组目标的较为确切的标记集,算法的整个过程与人对某一事物的猜测推理过程相类似。由于以迭代方式进行,所以易于实现,但所缺点是计算量太大,只有采用并行处理的方法,标记松弛法才能充分发挥它的作

33、用。此外,还有实用性很强的模板匹配法,模板匹配法是按照预置在机内的模板用匹配的方法来识别目标,模板可以是数字量,也可以是符号串等。因此可以把它看作是统计法和句法方法的一种特例来研究。模板匹配法简单方便,各种自动售货机,字符阅读机等往往按此构成,但由于噪声的影响和实际图像结构千变万化,模板匹配在较复杂的情况下往往得不到理想的效果。3图像识别技术所面临的问题和发展趋势3.1面临问题分辨现实世界中的各种复杂景物对为类来说是一件轻而易取的事,而用计算机进行图像识别却非常困难,图像识别大多数成功的应用是相对简单(或对识别环境有严格的限制)的领域,并且多是二维的。当前图像识别所面临者许多问题:首先,完成一

34、幅图像的识别要经过许多不同的处理过程,图像的识别正是这些过程的综合作用的结果。但是缺少一个普遍的原理来指导这些过程在完成特定任务时应该如何组织和搭配,即使是对于各种常用的图像分割算法之间的性能比较,也没有一个较好的统一的标准。还有,现在的各种图像识别算法都或多或少带有一定的局限性,图像识别是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型。例如模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫模板。当前的刺激如果能与大脑中的模板相匹配,这个图像也就被识别了。例如有一个字母A,如果在脑中有个A模板,字母A的大小、方

35、位、形状都与这个A模板完全一致,字母A就被识别了。这个模型简单明了,也容易得到实际应用。但这种模型强调图像必须与脑中的模板完全符合才能加以识别,而事实上人不仅能识别与脑中的模板完全一致的图像,也能识别与模板不完全一致的图像。例如,人们不仅能识别某一个具体的字母A,也能识别印刷体的、手写体的、方向不正、大小不同的各种字母A。同时,人能识别的图像是大量的,如果所识别的每一个图像在脑中都有一个相应的模板,也是不可能的。在一种环境下效果很好,但另一种环境下就可能很差,传统的只简单处理方法很难构造图像中景物的完整描述。另外,一些能用性,效果好的算法往往计算量很大,难以实时应用。最后,为类对生物体的视觉机

36、理还不清楚,不能给计算机图像识别提供有力的指导。3.2发展趋势对于模版问题,格式塔心理学家又提出了一个原型匹配模型。这种模型认为,在长时记忆中存储的并不是所要识别的无数个模板,而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型,拿它来检验所要识别的图像。如果能找到一个相似的原型,这个图像也就被识别了。这种模型从神经上和记忆探寻的过程上来看,都比模板匹配模型更适宜,而且还能说明对一些不规则的,但某些方面与原型相似的图像的识别。但是,这种模型没有说明人是怎样对相似的刺激进行辨别和加工的,它也难以在计算机程序中得到实现。因此又有人提出了一个更复杂的模型,即“泛魔”识别模型。尽管计算机

37、图像识别技术面临着很大的挑战,但还是取得了很大的发展,多年的发展变化,不难看出一些特点:1.立体视觉与人工智能仍然是计算机图像识别今后发展的方向,短时间内实现全自动的通用性很大的计算机视觉系统的可能性不大,今后应结合各种实际应用开发各种用途的计算机视觉系统。2.七十年代末Marr提出的视觉计算理论极大地促进了计算机视觉的发展,但同时也存在不少缺陷,视觉识别是一个极其复杂的过程,在Marr的理论中,有些东西是作为一种假设出现的,有些重要问题甚至还没有涉及,图像识别技术的发展必须以视觉计算理论的发展为前提。3.一些优秀的数学方法,如神经网络,模糊集,分形理论,小波分析,遗传算法纷纷应用于图像识别领

38、域,取得了一定的成就,这些方法的继续发展完美以及各种方法相互融合,取长补短的综合集成是往后发展的重要任务。语音识别1、语音识别的基本概念语音识别技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是以语音为研究对象。通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

39、语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。2、发展历史早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来1。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别1

40、0个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。2。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间规整Dynamic Time Warp技术。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词

41、的识别方面取得了实质性的进展。进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Rabiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。进入90年代以后,在语音识别的系统框架方面并没有什

42、么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作。到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。日本也在1981年的第五

43、代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。1987年起,日本又拟出新的国家项目-高级人机口语接口和自动电话翻译系统。尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。3、基本原理语音识别是一个多层模式识别的任务。声音信号经过考察 ,结构分为一个层次词 根单位(例如,音素)、词 、短语 、句子。每 一层可提供额外的时间限制,例如,已经被认知的单词发音或法律上的单词序列,可以弥补错误或把不确定性降到较低水 平。限制的最好方法是在所有较低的层次中利用概率

44、相结合的决策而只在最高层次中使用离散决策。一个标准的语音识别系统如下图所示,3.1语音信号的预处理与分析3.1.1原始语音实际的物理波形信号通过传声器(话筒)采集而形成的随时间连续变化的模拟信号,在语音信号被采集的同时背景噪音也随之而来。 信号预处理要将采集进来的模拟信号转换为计算机认识的信号,这就需要数模转换(计算机中的声卡就有此功能)。其中最常见的方式称为脉冲编码调制(PulseCodeModulation),可分为采样、量化、编码三个过程。 采样就是将模拟音频电信号转换成二进制码。耳朵可以听到的频率为20Hz20kHz,根据采样定理:当采样频率大于信号的两倍带宽时,即采样频率大于40kH

45、z时,采样过程就不会丢失信息。由于考虑到设备兼容性问题,国际上将采样频率标准定为441kHz。尽管从物理上可以证明大于40kHz的采样率可精确重构原始波形,但人的主管听音试验表明,采样频率越大音质越有保证。量化就是将模拟信号的采样的幅度值以特定单位进行度量,用它整数倍的数字进行表示的过程。先将整个幅度值划分成有限的区域,所有采样信号的幅度值分布在幅度值最相近的区域并用量化精度(比特数)表示。量化决定了声音动态范围,因为都是2的整数倍,如4bit、8bit、16bit等等。而且量化过程没有最低标准,精度一般越大越好。经过时间上的采样和幅度上的量化后,连续的模拟信号就变成了离散信号,这样就转化为了

46、数字信号。其中把量化好的采样值表示成二进制代码的这一过程就是编码。量化和编码基本上是同时实现的。信号分析为了简化后续过程必须先将数字信号中的语音信号进过转化和压缩,其中有许多技术能将其中的特征提取出来和压缩数据的时候尽量减少重要数据的丢失。短时傅里叶变换语音信号有短时的稳定,长时变化,瞬时稳态的特点,即信号的频率随时间的变化。传统傅里叶变换缺少时域定位功能而不适用于时变信号。线性预测编码这是广泛和最有效的语音分析技术,可以用过去的若干个语音信号样值的线性组合来预测以后的样值。倒谱系数语音识别中较为常用的特征参数是线性预测倒谱系数LPCC(LinearPredictiveCepstralCodi

47、ng)和Mel频率倒谱系数(MelFrequencyCepstrumCoefficient)。前者体现人的声道特性容易受环境噪声干扰,后者构造了人的听觉模型,强调语音低频信息,有利于噪音屏蔽干扰。3.2语音识别的主要技术方法在经过语音信号的预处理和分析,提取出来的特征参数要与模型库中的模板参数去匹配。而这个就是语言识别系统的核心。目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。3.2.1特征参数匹配法这是一种传统的模式识别方法,其技术要点是:在训练过程中将预处j里过的信号通过一次变换,

48、去掉冗余部分,而把代表语音本质的特征参数抽出来,成为相对应语音的模版;然后,在识别过程中,用同样的方法从待识别语音信号中提取出语音参数;最后,应用某种不变的测度,寻求语音参数与模版参数两者之间的相似性,用似然函数进行判决。3.2.2隐马尔可夫模型(HiddenMarkovMode1HMM)这是一种研究透彻,算法成熟,效率高,效果好,易于训练的方法,已成为识别的主流技术,目前大多数词汇量、连续语音的非特定语音识别系统,都是基于HMM的模型。隐马尔可夫模型是马尔可夫链的一种,它的模式库不是预先存储好的模式样本。而是通过反复训练形成的与训练后输出信号相似合概率最大的最优模型参数。而且它的识别过程中待

49、识别语音序列与HMM参数达到最佳匹配状态作为识别输出,是较为理想的识别模型。3.2.3神经网络法(ANN)人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性。其强大的分类能力和输入一输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型,它与HMM正好相反,其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通MLP分类器只能解决静态模式分类问题,并不涉及时间序列的处理。ANN本质上是一个自适应非线性动力

50、学系统,模拟了人类神经元活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性。基于神经网络的语音识别系统通常由网络结构、训练算法和神经元构成。由于具有良好的动态时变性能和结构,良好的动态时间关联特性,使其具有很大的发展潜力。尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展,其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性

51、和准确率。3.2.4动态时间规整算法(DynamicTimeWarping,DTW)动态时间规整算法是在非特定人语音识别中一种简单有效的方法该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组

52、成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比,在实际的应用过程中。人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。3.2.5 SVM支持向量机(Suppoavectormachine)是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理(StructuralRiskMinimizatio

53、n,SRM)有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力在解决小样本、非线性及高维模式识别方面有许多优越的性能,已经被广泛地应用到模式识别领域。3. 2 语音识别系统的分类语音识别系统可以根据对输人语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为类:(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的语音,或者成为特定组语音识别系统该系统仅要求对要识别的那组人的语音进行训练。如果从说话的方式考虑,也可以将识别系统分

54、为3类:(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目

55、前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。4.语音识别系统的应用在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个

56、具有竞争性的新兴高技术产业。语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询

57、服务系统的性能表示满意。可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。近期,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论