CN114065749B 一种面向文本的粤语识别模型及系统的训练、识别方法 (中国科学院计算技术研究所)_第1页
CN114065749B 一种面向文本的粤语识别模型及系统的训练、识别方法 (中国科学院计算技术研究所)_第2页
CN114065749B 一种面向文本的粤语识别模型及系统的训练、识别方法 (中国科学院计算技术研究所)_第3页
CN114065749B 一种面向文本的粤语识别模型及系统的训练、识别方法 (中国科学院计算技术研究所)_第4页
CN114065749B 一种面向文本的粤语识别模型及系统的训练、识别方法 (中国科学院计算技术研究所)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种面向文本的粤语识别模型及系统的训本发明提供了一种面向文本的粤语识别系词表构建用于检索语料是否命中粤语特色词表2规则匹配模型,用于基于粤语特色词表检索待处理文本是否命中粤语特色S3、采用改进停用词表过滤步骤S1中的标注数据集并进行分词处理得到训练数据集,A2、利用步骤A1中获得的训练数据集,采用面向文本的粤语A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是据集上得到的输出结果构成的三维向量集训练线性感知机以得到感知机模型参数实现模S22、利用python中的jieba分词划分过滤后的标注3为输入、以语料是否为粤语的判断结果为输出训练Hanzidentifier模型获得简繁识别模F2、采用如权利要求1-8中任一所述方法训练的粤语识别系统识别待处理文本是否为可被处理器执行以实现权利要求1-9中任一存储装置,用于存储一个或多个程序,当所述一个或多个程序被4于该技术采用了迁移多语种模型参数的方式,使得网络过分依赖所选数据集质量与大小,中心锚方法进一步训练深度神经骨干网络。自适应中心锚方法是指计算各个语种训练集的输出结果与其对应的语种特征中心的欧式距离,基于欧式距离构建Anchor集和非Anchor集;基于Anchor集和非Anchor集对所述深度神经骨干网络进行训练,不断更新特征中心和而更好识别该文本所属语种。该技术主要针对语音的特征进行了提取训练,但是文本与语5python中的jieba分词划分过滤后的标注数据集中的每条语料,确定不同字符之间的关联粤语和普通话的分词词频,获取超过预设词频阈值的粤语分词和普通话分词中的共用词,处理文本是否命中粤语特色词表以得到待处理文本是否为粤语的判断结果;简繁识别模6标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;断结果为输出训练Hanzidentifier模知机以得到感知机模型参数实现模型融合,并以线性感知机softmax回归层输出作为最终[0026]2、现有方法中没有利用粤语具有特征词汇这一特征,导致识别精度和可靠性偏7[0037]根据本发明的一个实施例,本发明提供一种面向文本的粤语识别模型的训练方对其进行所属语种的标注,并按照获取到的语料文本的实际情况选择是否进行数据清洗。8不同编码的文本语料按照选定的编码方式进行decode(解码转化为unicode编码(统一述移除表情符号是去除包含在短文本中的表情符号;所述移除url链接是去除短文本数据中在爬取过程中产生的大量URL数据还有部分网址链接例如http://www.等等形式的链接;[0045]该步骤主要是采用简体中文停用词表过滤步骤S1中得到的标注数据集并进行分9[0051]根据本发明的一个实施例,本发明提供一种面向文本的粤语识别模型的识别方用本发明的一种面向文本的粤语识别模型的训练方法训练的粤语识别模型识别待处理文[0054]根据本发明的一个实施例,提供一种用于面向文本的粤粤语,但仍需要融合模块来进行校正。其中,根据本发明的一个实施例,基于Hanzidentifier模型首先利用正则表达式匹配提取出语料当中的汉字,然后通过查询CC-[0066]根据本发明的一个实施例,本发明所述Softmax函数在线性感知机输出二维向量的时候使得向量中的每个值都归一化在0-1区间内,代表对两种结果预测的概率。其中,分类准确率最高,故本发明选取学习率为0.1的小批量随机梯度下降方法作为模型融合过坐标轴建立一个平面直角坐标系,那么这些取值点连成一个网格,以每个点为参数训练用本发明的一种面向文本的粤语识别系统的训练方法训练的粤语识别系统识别待处理文[0072]2、现有方法中没有利用粤语具有特征词汇这一特征,导致识别精度和可靠性偏[0078]计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论