大采集处理技术 1_第1页
大采集处理技术 1_第2页
大采集处理技术 1_第3页
大采集处理技术 1_第4页
大采集处理技术 1_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据采集与预处理技术*

*项目三语音直播数据采集与预处理序号软件配置要求1OBS最新版本2Librosa等最新版本一、项目目标:1、根据应用需求确定语音数据采集方法,并完成语音数据采集;2、对采集的语音数据进行去噪、归一化、采样频率转换、语音特征提取、静音去除、语音切分、信号增强等预处理操作;3、根据训练模型要求完成语音数据文本转录、音频分割、标签标注等,为不同模型准备训练数据。二、环境要求:任务一语音直播数据采集一、任务目标1、根据此任务要求,首先要选取合适的语音数据采集目标,包括公开的数据集和语音直播网站。2、根据语音采集目标选取合适的数据采集工具,包括常见的录音软件、录音工具。3、搭建语音数据采集和预处理环境,为后续项目提供开发环境。4、根据模型训练要求,对语音数据集进行清洗,根据模型输入要求选择合适的数据标注方式。二、常见语音采集方法(1)自定义录制自定义录制语音数据可以确保数据的质量和多样性,要求使用高质量的麦克风和录音设备,确保录音清晰,无背景噪音。对于语音识别、语音合成、语音情感分析任务,还需要保证录音数据的多样性,包括录制不同年龄、性别、口音和情感状态的语音。这种方法可以保证数据质量,但是不适合大规模数据集的采集。(2)众包平台利用众包平台(如AmazonMechanicalTurk、FigureEight、Appen等)可以快速收集大量语音数据。需要设计明确、简洁的任务说明,确保参与者理解录制要求。设置质量控制机制,如预先录制示例、后续审核、使用验证问题等,确保数据质量。通过平台选择不同地区、年龄段和性别的参与者,确保数据多样性。(3)公开数据集使用已有的公开语音数据集,如LibriSpeech、CommonVoice、TIMIT等。这些数据集下载需要获得数据许可,确保使用的数据集符合相关许可协议,避免版权和隐私问题。还需要进行数据清洗,对公开数据集进行预处理和清洗,确保数据质量。(4)应用程序采集开发或使用现有的移动应用程序或网页应用,邀请用户通过应用录制语音。录制时需要注重用户体验,设计用户友好的界面,确保用户能方便地录制和提交语音。确保遵循隐私政策,告知用户数据用途,并获取用户同意。可以通过积分、奖励等方式激励用户参与录音。(5)语音助手和交互系统利用现有的语音助手和交互系统(如智能音箱、语音识别软件)采集用户的语音数据。确保在采集用户语音数据前,获得用户的明确同意。对采集到的数据进行匿名化处理,保护用户隐私。对采集到的语音数据进行标注,如识别出不同的发言者、情感状态等。(6)电话采集通过电话系统采集语音数据,特别适用于采集不同口音和方言的语音数据。设计好录音脚本,涵盖各种场景和对话,使用自动化录音系统,确保电话录音质量和一致性。注意隐私保护,告知用户录音目的,并征得用户同意。(7)现场录音在特定环境中进行现场录音,如会议、讲座、采访等。设备选择使用高质量的录音设备,确保在各种环境下录音清晰。尽可能控制现场环境,减少背景噪音和干扰。(8)模拟对话模拟真实对话场景,邀请多位参与者进行对话录音。设计多种对话情景,涵盖不同主题和情感状态。邀请不同背景、年龄和性别的参与者,确保对话多样性。提供适当的对话引导,确保对话自然流畅。(9)多渠道录音同时使用多个录音设备,从不同渠道采集语音数据,如手机、电脑、麦克风等。确保多个设备同步录音,避免时序错乱。对不同渠道的录音数据进行融合,确保最终数据的完整性和一致性。在不同环境下进行录音,确保数据覆盖各种使用场景。(10)数据合成使用语音合成技术生成语音数据,特别适用于训练语音合成模型。准备好用于合成的文本,涵盖各种情景和语料。用高质量的语音合成技术,确保合成语音的自然度和清晰度。对合成语音数据进行标注,确保数据的可用性。三、常见语音公开数据集数据集名称数据集介绍数据集链接LibriSpeech一个常用于语音识别的英文数据集,基于LibriVox有声书录制,包含约1000小时的英文读物。高质量的音频,带有对应的文本转录。音频数据经过降噪处理,采样率为16kHz。常用于语音识别、语音合成、口音分析等任务。/12/,进入官网,选择目标数据子集,如train-clean-100、dev-clean等。使用就近的镜像服务器(如US、EU、CN)来加快下载速度。下载完成后解压为FLAC格式音频及其文本转录文件。CommonVoiceMozilla开发的CommonVoice数据集是一个开源多语言数据集,支持全球多种语言的语音录制。包括来自不同背景、口音、年龄的用户录制的语音,数据持续更新,涵盖了多种语言。常用于多语言语音识别、口音识别、语音合成。/,进入官网,在官方网站注册并登录后,选择需要的语言数据集进行下载。数据通常为WAV格式音频和对应的转录文件。TIMIT经典的语音数据集,用于语音识别研究。数据集包含了不同方言区的发音者的语音样本。数据内容包含630个说话者的录音,涵盖8个不同的美国英语方言区。每个说话者录制10个句子,标注了精确的音素边界。常用于语音识别、语音分割、方言识别等任务。/LDC93S1,进入官网,需要通过LinguisticDataConsortium(LDC)账号获取。该数据集是收费资源,需要申请访问许可。AISHELL-1一个开源的中文普通话语音数据集,主要用于中文语音识别任务。该数据集包含170小时的语音录音,采集自400名说普通话的中国人,涵盖了不同的性别和口音。常用于中文语音识别、口音分析、语音合成。https://www.robots.ox.ac.uk/~vgg/data/voxceleb/通过上述链接进入官网,进入页面后填写申请表格以获取下载权限。数据集名称数据集介绍数据集链接VoxCeleb包含名人语音的开源数据集,广泛用于说话人识别任务。该数据集包含了超过7000名名人的音频样本,来自YouTube视频。数据集还包括背景噪声和不同的情感状态。常用于说话人识别、说话人验证、语音分离。/33/,链接进入官网,使用OpenSLR镜像下载ZIP文件,内含语音文件及其转录。Aishell-3用于中文语音合成的开放式数据集,包含带有对应转录文本的普通话语音。该数据集包含218名说话者的85小时带情感的中文语音。常用于中文语音合成、语音风格转换、情感语音分析。/51/,进入官网,下载包含TED演讲的音频和文本转录数据VCTKCorpus包含不同口音的英语语音数据集,特别适用于语音合成和语音识别研究。该数据集包含来自109名说话者的约4000句语音,涵盖不同的地区口音,采样率为48kHz。常用于语音识别、语音合成、口音分析。https://datashare.ed.ac.uk/handle/10283/2651链接进入官网,在爱丁堡大学的数据分享平台上注册账号后,即可下载数据集,内容涵盖多口音的英语语音。THCHS-30由清华大学语音与语言技术中心(CSLT)发布的中文语音数据集。数据内容包含30小时的中文语音录音及其对应的转录文本,包含多种发音方式和语调。主要用于中文语音识别、发音分析、语音合成。/18/链接进入官网,选择对应的数据集点击即可下载。ST-CMDS开源的中文语音数据集,包含10万条来自不同说话者的中文语音数据。数据内容是手机录音的语音数据,时长约110小时,采样率为16kHz。主要用于中文语音识别、说话人验证、口音识别。/38/链接进入官网,选择对应的数据集点击即可下载。BaiduOpenDataset百度提供的开源中文语音数据集,适合语音识别和TTS研究。数据内容包含不同领域和场景的普通话语音数据。主要用预语音识别、语音合成、自然语言处理。/broad/download链接进入官网,注册账号,选择需要的数据集,点击下载即可四、语音软件采集1)AudacityAudacity是一款功能强大的免费开源音频编辑和录制软件,适用于采集语音数据。该软件录制语音步骤如下:

1)下载安装:登录软件官网/,选择合适的版本下载,使用默认安装方式安装。

2)软件运行:安装后运行Audacity,点击“编辑”->“首选项”->“设备”,在“录制”部分选择使用的麦克风或音频输入设备。

3)录音:点击红色的“录音”按钮,开始录音。录制期间,可以看到音频波形的实时变化。录音完成后,点击“停止”按钮。

4)导出音频:完成录制后,可以将音频导出为WAV、MP3或其他格式。点击“文件”->“导出”,选择合适的音频格式保存文件。

注意事项:确保麦克风设置正确,避免环境噪音的干扰。调整麦克风增益,以确保音量适中且清晰。2)OBSOBS是一款广泛用于录制和直播的软件,也可以用于录制语音数据。该软件录制语音步骤如下:

1)下载安装:登录软件官网/,选择合适的版本下载,使用默认安装方式安装。

2)软件运行:打开OBS软件后,在“源”窗口点击“+”->“音频输入捕获”,选择目标麦克风或音频输入设备作为音频源。

3)开始录音:点击“开始录制”来采集音频,OBS可以录制音频或视频,文件会自动保存到指定的文件夹。

4)保存录音:在录制完成后,可以找到保存的音频文件进行后续处理。

说明:该工具支持高清音频和视频录制,可以同时录制多个音源(如背景音乐和麦克风语音)。四、语音软件采集3)AdobeAuditionAdobeAudition是一款专业的音频编辑和录制软件,适合需要高质量语音采集和编辑的场景。该软件录制语音步骤如下:

1)下载安装:登录软件官网官网/products/audition.html,选择合适的版本下载,使用默认安装方式安装。该软件需要收费,可以免费试用。

2)软件运行:打开AdobeAudition软件后,选择“文件”->“新建”->“音频文件”。点击“首选项”->“音频硬件”,选择目标麦克风作为输入源。

3)开始录音:点击红色的录音按钮,开始采集语音数据。录制完毕后,点击“停止”按钮,并保存音频文件。

4)保存录音:在录制完成后,选择“文件”->“导出”,导出为WAV、MP3等格式。该软件支持高级音频处理,如降噪、EQ、压缩等,可以大大提升音频质量。谢谢!大数据采集与预处理技术*

*项目三语音直播数据采集与预处理序号软件配置要求1OBS最新版本2Librosa等最新版本一、项目目标:1、根据应用需求确定语音数据采集方法,并完成语音数据采集;2、对采集的语音数据进行去噪、归一化、采样频率转换、语音特征提取、静音去除、语音切分、信号增强等预处理操作;3、根据训练模型要求完成语音数据文本转录、音频分割、标签标注等,为不同模型准备训练数据。二、环境要求:任务一语音直播数据采集一、任务目标1、根据此任务要求,首先要选取合适的语音数据采集目标,包括公开的数据集和语音直播网站。2、根据语音采集目标选取合适的数据采集工具,包括常见的录音软件、录音工具。3、搭建语音数据采集和预处理环境,为后续项目提供开发环境。4、根据模型训练要求,对语音数据集进行清洗,根据模型输入要求选择合适的数据标注方式。二、公开数据集采集

为了模拟说话者,可以下载语音验证相关数据集,这里使用ST-CMDS数据集。该语料库在安静的室内环境中使用手机录制。共有855位发音人,每位发音人录制了120个语句。所有语句均经过人工精心转录和校对,确保转录准确性。点击/38/打开下载网页,找到需要下载的数据集,该数据集大小为8.2G,有不同镜像源,这里使用CN镜像源,该数据下载页面如下图1-1所示:下载完成后,可以解压该语料库,每一条数据有包含以下内容:音频文件、转录文件、元数据,共307800个文件,有102600条数据。这些数据大多数是一句话的录音,元数据会记录数据生成的设备、文件名、说话人性别、所在省份等。三、OBS采集语音使用语音软件OBS采集直播语音数据,需要先下载软件,登录软件官网/,打开下载页面,找到Windows版下载:下载完成后,双击“OBS-Studio-30.2.3-Windows-Installer”安装,可以选择默认配置安装,由于步骤较简单,不再赘述。完成安装后,运行软件,首次启动会有自动配置向导提示,根据需要选择即可。设置完成后进入OBS首页,在“来源”窗口点击“+”号可以选择音频源,如果是采集音频来源麦克风,可以选择“音频输入采集”,选择目标麦克风即可。如果要采集bilibili的某个直播间的数据,可以通过以下步骤进行设置:步骤一:添加场景。在OBS界面左下角的“场景”列表中,点击“+”添加一个新场景(可以命名为“Bilibili直播采集”)。步骤二:添加来源。在“来源”列表中,点击“+”,选择“浏览器”,并为该来源命名(例如“Bilibili直播”)。在弹出的窗口中,输入Bilibili直播间的URL(通过Bilibili的网页复制该直播间的链接,读者可以自行查找)。

步骤三:设置音频采集。在“来源”列表中,点击“+”,选择“音频输入捕获”,并命名为“音频采集”。在弹出的窗口中,选择要采集的音频设备,例如您电脑的扬声器或麦克风,确保音频来源为直播的音频输出。确保音频采集设备的音量条在OBS的“混音器”中处于正常范围(可以调节音量大小)。

步骤四:录制或直播。点击右下角的“开始录制”按钮,OBS会开始录制设置的音频和视频源。录制完成后,点击“停止录制”,录制的文件会保存在设置中指定的文件夹中。

步骤五:保存和处理音频。录制完成后,可以通过音频编辑软件(如Audacity)对采集到的直播音频进行后期处理。比如使用Audacity(免费音频编辑软件),可以选择“文件”->“导入”->“音频”,选择OBS录制的文件,Audacity会自动提取其中的音频,可以对其进行编辑,并导出为MP3、WAV等格式。四、语音转写文本(1)创建账号和应用点击链接进入讯飞开放平台主页面,/。在页面注册自己的个人账户,注册账户注意选择是个人使用。登录后点击首页的“控制台”,点击“创建新应用”,首次登录会提示需要个人认证,根据提示完成个人信息认证,创建应用根据实际填写应用名称和信息,填写完成后提交即可。(2)开通语音转写服务应用创建后,点击应用名称跳转到应用详情页,包括服务接口认证信息,这是需要在代码中使用,可以复制保存。讯飞语音转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果。转写接口并不是默认开通,用户可以查看应用页,在语音识别下的语音转写功能页面下方免费领取。(3)开发语音转写代码确保系统已经安装Python和pip。需要使用websocket-client库来进行WebSocket通信,可以使用以下命令安装:pipinstallwebsocket-client

编写Python代码,以下是调用科大讯飞语音识别API的Python示例代码:#导入相关依赖importhashlib,hmac,base64,json,time,websocket,ssl#替换为你的应用ID、APIKey和APISecretAPPID='你的AppID'APIKey='你的APIKey'APISecret='你的APISecret'#音频文件路径AUDIO_FILE='你的音频文件路径'#接上页代码defget_auth_url():now=int(time.time())date=time.strftime('%a,%d%b%Y%H:%M:%SGMT',time.gmtime(now))signature_origin="host:\n"+"date:"+date+"\n"+"GET/v1/private/iatHTTP/1.1"signature_sha=hmac.new(APISecret.encode('utf-8'),signature_origin.encode('utf-8'),hashlib.sha256).digest()signature_sha_base64=base64.b64encode(signature_sha).decode('utf-8')authorization_origin=f'api_key="{APIKey}",algorithm="hmac-sha256",headers="hostdaterequest-line",signature="{signature_sha_base64}"'authorization=base64.b64encode(authorization_origin.encode('utf-8')).decode('utf-8')url=f'wss:///v1/private/iat?authorization={authorization}&date={date}&host='returnurldefon_message(ws,message):print("Receivedmessage:",message)result=json.loads(message)if'data'inresult:print("识别结果:",result['data']['result']['text'])defon_error(ws,error):print("Error:",error)defo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论