版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能导论模块3应用-语音处理实训手册《人工智能导论》课程组
目录11900839141实践目的 1776544402实践环境 216155993513实践要求 25950595894实践步骤 23351682444.1资源环境准备 23230708274.2APIExplorer 310127297734.3语音识别 421413923364.4语音合成 107025510795实践总结 119108935476讨论与作业 111实践目的介绍如何使用华为云语音交互服务功能了解长录音文件如何放在OBS(对象存储服务)或公网可访问的服务器上掌握如何使用录音文件接口来识别长录音文件,获取录音文件识别结果及识别状态了解在APIExplorer中调试华为云语音互助服务接口,如何进行自动认证鉴权如何使用APIExplorer自动生成SDK代码示例,在本地调用对应功能功能。了解语音合成的使用方法及如何进行语音合成2实践环境(1)华为云EI企业智能语音交互服务(2)对象存储服务OBS3实践要求本实践要求在华为云EI企业智能,使用语音交互服务,具体包括:华为云上进行语音识别本地语音识别云上进行语音合成本地语音合成4实践步骤4.1资源环境准备登录华为云(学习者可自行注册登录。/)然后注意:我们在“华北-北京四”的区域完成本实践。区域选择的步骤如下:先登录控制台,左上角会有区域的选择,选择“华北-北京四”。4.2APIExplorer在北京四区域,点击搜索,输入“APIExplorer”,进入“APIExplorer”界面。在“APIExplorer”界面,区域选择:“华北-北京四”,然后依次选择“所有产品”->“人工智能”->“语音交互服务”,进入语音交互服务界面,如下图所示。4.3语音识别获取语音文件的访问路径①搜索华为云“对象存储服务OBS”,并进入。②进入本课程的OBS桶:ai-intro-wzvtc③找到本次课的资源文件夹:speech-processing④进入/speech-processing/chinese目录,找到16k.pcm文件,点击“分享”按钮。⑤复制该文件的链接,建议先粘贴到一个记事本中。选择“语音交互服务”->“语音识别接口”->“PushTranscriberJobs”->填入“Region”为“华北-北京四”,填projectID为“华北-北京四”下的项目ID选择“audio_format”的值为"pcm16k16bit",选择“_property”的值为"chinese_16k_conversation"输入桶的地址data_url,即前面复制好的16k.pcm的分享链接(5)点击“调试”,显示“调试成功”,在响应结果的响应体中找到job_id
"job_id":
"f0e3f530fb864aa5b0a3a94472dad779"这个job_id务必先记下来(比如先复制粘贴到记事本中)(6)选择“语音识别接口”->“CollectTranscriberJob”,填入project_id和job_id
"job_id":
"f0e3f530fb864aa5b0a3a94472dad779"(7)点击“调试”->显示“调试成功”,可以看到请求体和响应体内容;(8)查看响应结果的内容{
"status":
"FINISHED",
"create_time":
"2022-08-12T01:31:31.045Z",
"start_time":
"2022-08-12T01:31:31.270Z",
"finish_time":
"2022-08-12T01:31:32.131Z",
"audio_duration":
7000,
"segments":
[
{
"start_time":
80,
"end_time":
7025,
"result":
{
"text":
"华为致力于把数字世界带入每个人每个家庭每个组织构建万物互联的智能世界"
}
}
]}课后实训任务:录制一段音频打开“对象存储服务OBS”在softwaredev-2202桶中的以自己学号命名的目录下上传录制的音频;按前面步骤进行操作,验证一下调用结果是否最终结果是否可以识别。值得注意的是,在调用PushTranscriberJobs时,参数“audio_format”的值可以设为"auto",避免音频文件的格式问题。在作业中上传音频文件与最终调用结果截图,并说明是否成功,若不成功,也请说明原因。4.4语音合成(1)选择“语音交互服务”->“语音合成接口”->“RunTts”->填入“Region”为“华北-北京四”,填projectID为“华北-北京四”下的项目ID(2)在Body中输入text的内容为,如下内容:语音交互服务是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。对以上内容进行语音合成。在audio_format中选择“wav”格式。在property中根据喜好一种类型的声音。(3)选择“调试”,可以看到响应体和请求体的内容。这里得到的”data”部分,是Base64编码后的字符串,点击此栏右上角的复制按照,将响应结果保存的剪切板备用。保存为mp3文件:可以采用如下Python代码解码并保存。importbase64file2=open("17k.mp3","wb")#写入二进制文件,确定文件类型text="""base64编码串"""text=base64.b64decode(text)#进行解码file2.write(text)file2.close()#写入文件完成后需要关闭文件才能成功写入将第三步中的data部分,放置在代码中的“base64编码串”中,并运行程序,将在工作目录上生成mp3文件(文本生成语音的结果)。课后实训任务:任意选择一段话(中英文都可),进行语音合成实践,并下载最终的mp3文件。在作业中提交调用界面截图,以及最终得到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 执业药师培训机构哪家最好
- 活塞压缩机培训课件
- 2024-2025学年安徽省A10名校联盟高一下学期5月学情调研考地理试题(C卷)(解析版)
- 2024-2025学年青海省海南藏族自治州高二下学期期末考试历史试题(解析版)
- 2024-2025学年山东省济南市高二下学期期末质量检测历史试题(解析版)
- 2026年经济学专业知识进阶试题集
- 2026年人力资源管理实务人事招聘与培训高频考点题
- 2026年IoT开发工程师进阶试题设备通信与云平台集成
- 2026年律师职业资格考试模拟题及答案
- 2026年商业法再教育必修问题解答集
- 造价咨询保密管理制度
- 冷链物流配送合作协议
- 生物-江苏省苏州市2024-2025学年第一学期学业质量阳光指标调研卷暨高二上学期期末考试试题和答案
- 2024年人教版一年级数学下册教学计划范文(33篇)
- 成都随迁子女劳动合同的要求
- 万象城项目总承包述标汇报
- 科普绩效考核指标
- 小学英语完形填空训练100篇含答案
- 牛津阅读树4级(30本)目录
- 填料密封和机械密封讲义课件
- 审计报告征求意见书模板
评论
0/150
提交评论