




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六篇拓展篇——人工智能与智能机器人任务二人工智能技术第六篇拓展篇——人工智能与智能机器人1.了解语音识别技术2.了解机器人视觉技术3.了解深度学习6.2人工智能技术6.2.1语音识别技术与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。自动语音识别技术ASR(AutomaticSpeechRecognition)就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别的最大优势在于使得人机用户界面更加自然和容易使用。6.2人工智能技术1.手机应用语音输入将语音实时识别为文字,适用于语音聊天、语音输入、语音搜索、语音下单、语音指令、语音问答等多种场景。2.机器人对话通过语音识别实现人机对话。将语音对话实时识别为文字,实现自然流畅的人机对话。6.2人工智能技术3.语音内容分析将音频内容识别为文字进行返回,从中提取关键信息,对内容进行追踪、处理及打标签等操作。4.实时语音转写可将会议记录、笔记、总结、音视频直播内容等音频实时转写为文字,进行内容记录、实时展示。6.2人工智能技术任务实施使用Python实现以下语音识别功能:对着电脑说一段10S钟内的语言,进行录音,并将声音上传到百度智能云进行识别,将识别结果返回。百度智能云语音识别开发的过程如图6-15所示。6.2人工智能技术图6-15百度智能云语音开发过程本任务需要用到的python模块有:PyAudio(录音接口)、wave(打开录音文件并设置音频参数)、requests(GET/POST)。1.创建百度智能云语言应用登录百度智能云/,注册账号,如有账号可以直接登录,在应用列表中,创建一个语言技术的应用。应用的名称自定义,可设为“语音识别”。6.2人工智能技术图6-16登录百度智能云图6-17创建百度智能云语音技术应用创建应用完成后,获取该应用的APIkey和SecretKey6.2人工智能技术图6-18应用创建完成2.录音功能实现百度智能云支持的语音格式包含pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。推荐使用pcm格式(采样率16000,编码:16bit位的单声道),如使用其他格式百度智能云端会将非pcm格式,转为pcm格式,因此使用wav、amr会有额外的转换耗时。实现录音功能的具体python代码如下。6.2人工智能技术importwavefrompyaudioimportPyAudio,paInt16framerate=16000#采样率num_samples=2000#采样点channels=1#声道sampwidth=2#采样宽度2bytesFILEPATH='speech.wav'6.2人工智能技术defsave_wave_file(filepath,data):wf=wave.open(filepath,'wb')wf.setnchannels(channels)wf.setsampwidth(sampwidth)wf.setframerate(framerate)wf.writeframes(b''.join(data))6.2人工智能技术wf.close()#录音defmy_record():pa=PyAudio()#打开一个新的音频streamstream=pa.open(format=paInt16,channels=channels,rate=framerate,input=True,frames_per_buffer=num_samples)my_buf=[]#存放录音数据6.2人工智能技术t=time.time()print('正在录音...')whiletime.time()<t+9:#设置录音时间(10秒)
#循环read,每次read2000framesstring_audio_data=stream.read(num_samples)my_buf.append(string_audio_data)print('录音结束.')save_wave_file(FILEPATH,my_buf)stream.close()6.2人工智能技术3.获取百度语音识别服务通过文档组装url获取token,以JSON格式POST到百度语音识别服务器,获得返回结果。具体代码如下。importrequestsimportbase64#百度语音要求对本地语音二进制数据进行base64编码#组装url获取token6.2人工智能技术base_url="/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"APIKey="U6sTWixskuPvbBUSHtNnMCVL"SecretKey="Crv0kw*******R00****"HOST=base_url%(APIKey,SecretKey)defgetToken(host):res=requests.post(host)returnres.json()['access_token']6.2人工智能技术#传入语音二进制数据,token#dev_pid为百度语音识别提供的几种语言选择defspeech2text(speech_data,token,dev_pid=1537):FORMAT='wav'RATE='16000'CHANNEL=1CUID='********'SPEECH=base64.b64encode(speech_data).decode('utf-8')6.2人工智能技术data={'format':FORMAT,'rate':RATE,'channel':CHANNEL,'cuid':CUID,'len':len(speech_data),'speech':SPEECH,'token':token,'dev_pid':dev_pid }6.2人工智能技术url='/server_api'headers={'Content-Type':'application/json'}#r=requests.post(url,data=json.dumps(data),headers=headers)print('正在识别...')r=requests.post(url,json=data,headers=headers)Result=r.json()if'result'inResult:returnResult['result'][0]else:returnResult6.2人工智能技术完整程序,见ASR-demo.py,使用中文普通话录音后返回文字如图6-19如下。读者可下载程序,在百度智能云创建应用,修改程序中APIKey和SecretKey,运行程序后进行录音并识别。6.2人工智能技术图6-19语音识别结果6.2.2机器视觉技术机器视觉作为人工智能的一个分支既是机遇也是挑战,工业机器人赋予“慧眼”的机器视觉,大大提升了工业机器人效率。在智能制造过程中,机器视觉主要用计算机,来模拟人的视觉功能,也就是要把客观事物的图像信息提取、处理并理解,最终用于实际检测、测量和控制。目前,日渐成熟的图像识别技术已经被应用在各个行业各个领域,如网络搜索、智能家居、电商购物、农林业、金融、安防、医疗等。6.2人工智能技术在智能家居领域,可实现在门口安装了摄像头,当有物体出现在摄像头范围内的时候,摄像头自动拍摄图像进行识别,如果发现是可疑的人或物体,就可以及时报警给户主。如果图像和主人的面部匹配,则会主动为主人开门,如图6-20所示。该技术也普遍应用于安防系统。6.2人工智能技术图6-20智能家居将图像识别技术应用到医疗领域,可以更精准更快速地分辨X光片、MRI和CT扫描图片,上至诊断预防癌症,下至加速发现治病救命的新药。一个放射科医生一生可能会看上万张扫描图像,但是,一台计算机可能会看上千万张,如图6-21所示。6.2人工智能技术图6-21机器人分析X光片机器视觉针对瑕疵检测,也是人工智能的一大“场景”,是人工智能在工业场景的一大落地应用。经视觉准确分析定位后引导动作,避免了产品传送中的偏差,增强了不同产品的生产适应性,同时大幅提升产品的加工精度。此外,机器视觉还能检测成品的精度,免除人工抽检带来的低效、误差与漏检。6.2人工智能技术图6-22视觉分拣任务实施使用在线识图搜索,上传图片至百度识图搜索进行识别。1.准备好需要识别的图片。准备好如图6-23所示的机械手图片。2.打开百度识图搜索,如图6-24所示。6.2人工智能技术图6-23机械手图片图6-24百度识图3.上传图片并识图上传机械手的图片,根据该图像特征匹配到“可能是越疆魔术师机械臂”,并提供相似图片以供参考,如图6-25所示。6.2人工智能技术图6-25百度识图结果6.2.3深度学习技术深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。6.2人工智能技术典型的深度学习模型有卷积神经网络(convolutionalneuralnetwork)、DBN和堆栈自编码网络(stackedauto-encodernetwork)模型等。1.卷积神经网络模型在无监督预训练出现之前,训练深度神经网络通常非常困难,而其中一个特例是卷积神经网络。6.2人工智能技术图6-26卷积神经网络。卷积神经网络受视觉系统的结构启发而产生。第一个卷积神经网络计算模型是在Fukushima(D的神经认知机中提出的,基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,LeCun等人在该思想的基础上,用误差梯度设计并训练卷积神经网络,在一些模式识别任务上得到优越的性能。至今,基于卷积神经网络的模式识别系统是最好的实现系统之一,尤其在手写体字符识别任务上表现出非凡的性能。6.2人工智能技术2.深度信任网络模型DBN可以解释为贝叶斯概率生成模型,由多层随机隐变量组成,上面的两层具有无向对称连接,下面的层得到来自上一层的自顶向下的有向连接,最底层单元的状态为可见输入数据向量。DBN由若2F结构单元堆栈组成,结构单元通常为RBM(RestIlctedBoltzmannMachine,受限玻尔兹曼机)。堆栈中每个RBM单元的可视层神经元数量等于前一RBM单元的隐层神经元数量。根据深度学习机制,采用输入样例训练第一层RBM单元,并利用其输出训练第二层RBM模型,将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中,DBN编码输入到顶层RBM后,解码顶层的状态到最底层的单元,实现输入的重构。RBM作为DBN的结构单元,与每一层DBN共享参数。6.2人工智能技术3.堆栈自编码网络模型堆栈自编码网络的结构与DBN类似,由若干结构单元堆栈组成,不同之处在于其结构单元为自编码模型(auto-en-coder)而不是RBM。自编码模型是一个两层的神经网络,第一层称为编码层
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中医骨科试题及答案
- 新疆阿克苏地区库车县二中2025届数学高二第二学期期末联考模拟试题含解析
- 浙江省丽水、湖州、衢州市2025届数学高二第二学期期末预测试题含解析
- 浙江省新2024-2025学年高二数学第二学期期末考试模拟试题含解析
- 财务外包服务合同
- 旅游度假村场地使用权转让合同范本
- 房地产项目财务担保服务合同
- 特色美食餐厅转让及装修改造合同
- 桉树造林项目投资合作合同模板
- 环保节能型料砖渣采购与质量监控合同
- 2025年中考历史复习专项训练:中国近代史材料题40题(原卷版)
- TCTSS 3-2024 茶艺职业技能竞赛技术规程
- 以教育家精神引领教育硕士研究生高质量培养的价值意蕴与实践路径
- 有限空间作业气体检测记录表
- 部编版语文六年级下册第五单元教材解读大单元集体备课
- 乒乓球的起源与发展
- 服装表演音乐游戏课程设计
- 理工英语3-01-国开机考参考资料
- 头颅常见病影像
- 漫画解读非煤地采矿山重大事故隐患判定标准
- 2024年建筑业10项新技术
评论
0/150
提交评论