大数据采集与预处理技术(微课版)课件 7.2语音直播数据采集-采集实施_第1页
大数据采集与预处理技术(微课版)课件 7.2语音直播数据采集-采集实施_第2页
大数据采集与预处理技术(微课版)课件 7.2语音直播数据采集-采集实施_第3页
大数据采集与预处理技术(微课版)课件 7.2语音直播数据采集-采集实施_第4页
大数据采集与预处理技术(微课版)课件 7.2语音直播数据采集-采集实施_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据采集与预处理技术*

*项目三语音直播数据采集与预处理序号软件配置要求1OBS最新版本2Librosa等最新版本一、项目目标:1、根据应用需求确定语音数据采集方法,并完成语音数据采集;2、对采集的语音数据进行去噪、归一化、采样频率转换、语音特征提取、静音去除、语音切分、信号增强等预处理操作;3、根据训练模型要求完成语音数据文本转录、音频分割、标签标注等,为不同模型准备训练数据。二、环境要求:任务一语音直播数据采集一、任务目标1、根据此任务要求,首先要选取合适的语音数据采集目标,包括公开的数据集和语音直播网站。2、根据语音采集目标选取合适的数据采集工具,包括常见的录音软件、录音工具。3、搭建语音数据采集和预处理环境,为后续项目提供开发环境。4、根据模型训练要求,对语音数据集进行清洗,根据模型输入要求选择合适的数据标注方式。二、公开数据集采集

为了模拟说话者,可以下载语音验证相关数据集,这里使用ST-CMDS数据集。该语料库在安静的室内环境中使用手机录制。共有855位发音人,每位发音人录制了120个语句。所有语句均经过人工精心转录和校对,确保转录准确性。点击/38/打开下载网页,找到需要下载的数据集,该数据集大小为8.2G,有不同镜像源,这里使用CN镜像源,该数据下载页面如下图1-1所示:下载完成后,可以解压该语料库,每一条数据有包含以下内容:音频文件、转录文件、元数据,共307800个文件,有102600条数据。这些数据大多数是一句话的录音,元数据会记录数据生成的设备、文件名、说话人性别、所在省份等。三、OBS采集语音使用语音软件OBS采集直播语音数据,需要先下载软件,登录软件官网/,打开下载页面,找到Windows版下载:下载完成后,双击“OBS-Studio-30.2.3-Windows-Installer”安装,可以选择默认配置安装,由于步骤较简单,不再赘述。完成安装后,运行软件,首次启动会有自动配置向导提示,根据需要选择即可。设置完成后进入OBS首页,在“来源”窗口点击“+”号可以选择音频源,如果是采集音频来源麦克风,可以选择“音频输入采集”,选择目标麦克风即可。如果要采集bilibili的某个直播间的数据,可以通过以下步骤进行设置:步骤一:添加场景。在OBS界面左下角的“场景”列表中,点击“+”添加一个新场景(可以命名为“Bilibili直播采集”)。步骤二:添加来源。在“来源”列表中,点击“+”,选择“浏览器”,并为该来源命名(例如“Bilibili直播”)。在弹出的窗口中,输入Bilibili直播间的URL(通过Bilibili的网页复制该直播间的链接,读者可以自行查找)。

步骤三:设置音频采集。在“来源”列表中,点击“+”,选择“音频输入捕获”,并命名为“音频采集”。在弹出的窗口中,选择要采集的音频设备,例如您电脑的扬声器或麦克风,确保音频来源为直播的音频输出。确保音频采集设备的音量条在OBS的“混音器”中处于正常范围(可以调节音量大小)。

步骤四:录制或直播。点击右下角的“开始录制”按钮,OBS会开始录制设置的音频和视频源。录制完成后,点击“停止录制”,录制的文件会保存在设置中指定的文件夹中。

步骤五:保存和处理音频。录制完成后,可以通过音频编辑软件(如Audacity)对采集到的直播音频进行后期处理。比如使用Audacity(免费音频编辑软件),可以选择“文件”->“导入”->“音频”,选择OBS录制的文件,Audacity会自动提取其中的音频,可以对其进行编辑,并导出为MP3、WAV等格式。四、语音转写文本(1)创建账号和应用点击链接进入讯飞开放平台主页面,/。在页面注册自己的个人账户,注册账户注意选择是个人使用。登录后点击首页的“控制台”,点击“创建新应用”,首次登录会提示需要个人认证,根据提示完成个人信息认证,创建应用根据实际填写应用名称和信息,填写完成后提交即可。(2)开通语音转写服务应用创建后,点击应用名称跳转到应用详情页,包括服务接口认证信息,这是需要在代码中使用,可以复制保存。讯飞语音转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果。转写接口并不是默认开通,用户可以查看应用页,在语音识别下的语音转写功能页面下方免费领取。(3)开发语音转写代码确保系统已经安装Python和pip。需要使用websocket-client库来进行WebSocket通信,可以使用以下命令安装:pipinstallwebsocket-client

编写Python代码,以下是调用科大讯飞语音识别API的Python示例代码:#导入相关依赖importhashlib,hmac,base64,json,time,websocket,ssl#替换为你的应用ID、APIKey和APISecretAPPID='你的AppID'APIKey='你的APIKey'APISecret='你的APISecret'#音频文件路径AUDIO_FILE='你的音频文件路径'#接上页代码defget_auth_url():now=int(time.time())date=time.strftime('%a,%d%b%Y%H:%M:%SGMT',time.gmtime(now))signature_origin="host:\n"+"date:"+date+"\n"+"GET/v1/private/iatHTTP/1.1"signature_sha=hmac.new(APISecret.encode('utf-8'),signature_origin.encode('utf-8'),hashlib.sha256).digest()signature_sha_base64=base64.b64encode(signature_sha).decode('utf-8')authorization_origin=f'api_key="{APIKey}",algorithm="hmac-sha256",headers="hostdaterequest-line",signature="{signature_sha_base64}"'authorization=base64.b64encode(authorization_origin.encode('utf-8')).decode('utf-8')url=f'wss:///v1/private/iat?authorization={authorization}&date={date}&host='returnurldefon_message(ws,message):print("Receivedmessage:",message)result=json.loads(message)if'data'inresult:print("识别结果:",result['data']['result']['text'])defon_error(ws,error):print("Error:",error)defon_close(ws):print("WebSocketclosed")defon_open(ws):defsend_audio():withopen(AUDIO_FILE,'rb')asf:whileTrue:data=f.read(1280)ifnotdata:breakws.send(data,websocket.ABNF.OPCODE_BINARY)time.sleep(0.04)ws.send(json.dumps({"end":"true"}))#发送结束标志

time.sleep(1)#等待连接

send_audio()if__name__=="__main__":url=get_auth_url()ws=websocket.WebSocketApp(url,on_message=on_message,on_error=on_error,on_close=on_close)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论