CN114154485B 一种文本纠错方法和装置 (北京搜狗科技发展有限公司)_第1页
CN114154485B 一种文本纠错方法和装置 (北京搜狗科技发展有限公司)_第2页
CN114154485B 一种文本纠错方法和装置 (北京搜狗科技发展有限公司)_第3页
CN114154485B 一种文本纠错方法和装置 (北京搜狗科技发展有限公司)_第4页
CN114154485B 一种文本纠错方法和装置 (北京搜狗科技发展有限公司)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本申请实施例提供了一种文本纠错方法和型根据所述词语的文本特征信息和所述词语的2确定所述待纠错文本中各个词语的文本特征向量,以及针在所述错误概率小于预定概率阈值的情况下,基于纠错模型在所述错误概率大于或等于预定概率阈值的情况下,执行确定所述错误文本对应的文本特征向量和所述错误文本的各个字将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签作为确定所述错误文本的文本特征向量、所述纠正文本的各个字将所述错误文本的文本特征向量、所述纠正文本的各个字对应的纠根据所述检错模型的损失函数和所述纠错模型的损失函数,对所述检错模3第一纠错模块,用于在所述错误概率小于预定概率阈值的情错误概率确定子模块,用于基于检错模型根据所述各个词训练文本获取模块,用于获取纠错语料训练文本;标签确定模块,用于确定所述错误文本对应的文本特征向量和所述错误第一模型设置模块,用于将所述错误文本对应的文本特征参数确定模块,用于确定所述错误文本的文本特征向量、所述纠第二模型设置模块,用于将所述错误文本的文本特征向量、训练模块,用于根据所述检错模型的损失函数和所述其上存储有指令的一个或多个机器可读介质得所述处理器执行如权利要求1-3任一项所述述处理器执行如权利要求1-3任一项所述文9.一种计算机程序产品,其特征在于,所述计算机指令,所述计算机程序或所述计算机指令被处理器执行时实现权利要求1-3任一项所述45[0002]ASR(AutomaticSpeechRecognition,自动语音识别)是指把语音识别为文本的解决上述问题的一种文本纠错方法和相应的一种文本[0013]将所述词语对应的拼音特征向量乘以错误概率P,将所述拼音掩码向量乘以(1-6[0020]基于检错模型根据所述各个词语的文本特征向量,确定所述各个词语的错误概[0023]确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标[0024]将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签所述错误文本的每个字对应的纠正词的概率[0038]第一文本向量确定子模块,用于确定所述待纠错文本中各个词语的文本特征向7[0053]其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行8[0065]图8是本申请根据另一示例性实施例示出的一种用于显示的电子设备的结构示意[0068]现有的ASR纠错系统可以是基于字单元建模的Softmasked-Macbert模型,该模型得了强大的基础模型,再经过ASR中文标点数据Finetune(微调)之后取得了远超现有模型的优异效果。使用预训练语言模型可以在真实数据量不大的ASR自动纠错任务中提供更大语设置拼音特征信息,对发生错误的词语能够结合文本特征信息和拼音特征信息进行纠9[0081]步骤105,基于纠错模型根据所述词语的文本特征信息和所述词语的拼音特征信[0083]本申请实施例可以根据确定的待纠错文本中各个词语的文本特征信息和错误概语在文本词典中的索引位置,可以根据词语在预设文本词典中的索引位置,在为文本embedding矩阵中索引得到对应的文embedding矩阵中找到1这个索引对应的是第一行,是“你”的文本特征向量;在文本[0094]假设文本特征向量为V,文本掩码向量为Vmask,目标文本向量可以为[V*(1-P)+于预设拼音词典生成拼音embedding矩阵,预设拼音词典中按位置顺序记录了各个词语的音embedding矩阵中索引得到对应的述待纠错文本中错误的词语基于对应的拼音[0107]参照图3所示为本申请实施例中ASR纠错系统的示意图。其中ASR纠错系统包括检将“shi”对应的拼音特征向量S2乘以(1-P2),加上对应的拼音掩码向量M/2乘以P2;将拼音向量为[(S1*(1-P1)+M/1*P1),(S2*(1-P2)+M/2*P2),(S3*(1-P3)+M/3*P3),(S4*(1-P4)+M/4*P4)]。此输出该词。[0115]参照图4所示为本申请实施例中检错模型和纠错模型的训练方法的步骤流程图,[0117]纠错语料训练文本可以包括错误文本和纠正文本。错误文本可以是存在ASR识别[0119]步骤402,确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应[0122]步骤403,将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的各个词语对应的拼音特征向量乘以P,将错误文本各个词语对应的拼音掩码向量乘以(1-签、所述错误文本的各个字发生错误的概率和所述错误文本对应的目标拼音向量作为输[0131]示例性地,检错模型的损失函数detect-loss可以基于检错模型输出的各个字发生错误的概率P和检错标签确定。纠错模型的损失函数correct-loss可以根据纠错模型输[0138]纠错模块505,用于基于纠错模型根据所述词语的文本特征信息和所述词语的拼[0148]错误概率确定子模块5031,用于基于检错模型根据所述各个词语的文本特征向[0151]标签确定模块507,用于确定所述错误文本对应的文本特征向量和所述错误文本[0152]第一模型设置模块508,用于将所述错误文本对应的文本特征向量和所述错误文[0157]图7是根据一示例性实施例示出的一种用于文本纠错的电子设备700的结构框方便多媒体组件708和处理组件702之间的[0161]电力组件706为电子设备700的各种组件提供电力。电力组件706可以包括电源管[0162]多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通[0164]I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可如所述组件为电子设备700的显示器和小键盘,传感器组件714还可以检测电子设备700或[0166]通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通例性实施例中,通信部件714经由广播信道接收来自外部广播管理系统的广播信号或广播[0177]将所述词语对应的拼音特征向量乘以错误概率P,将所述拼音掩码向量乘以(1-[0187]确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标[0188]将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签所述错误文本的每个字对应的纠正词的概率[0192]图8是本申请根据另一示例性实施例示出的一种用于文本纠错的电子设备800的[0193]服务器还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接[0194]在示例性实施例中,服务器经配置以由一个或者一个以上中央处理器822执行一[0202]将所述词语对应的拼音特征向量乘以错误概率P,将所述拼音掩码向量乘以(1-[0212]确定所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标[0213]将所述错误文本对应的文本特征向量和所述错误文本的各个字对应的检错标签所述错误文本的每个字对应的纠正词的概率行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中[0220]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程包括优选实施例以及落入本申请实施例范围的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论