CN119416742A 一种基于生僻字的标准化处理方法及系统 (上海银行股份有限公司)_第1页
已阅读1页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本发明公开了一种基于生僻字的标准化处据格式,建立标准化字典表进行疑似生僻字标2获取输入文本数据进行预处理并统一文本数据格式,建立标准化字基于疑似生僻字标记提取多模态文字特征综合识典表进行疑似生僻字标记指通过查询国家语言文字规范和常用汉字标准建立标准化字典表,对于分词结果中每个字符提取字符图像和字符拼音在标准化字典表中进行逐一匹配,;定义生僻字上下文窗口大小为,从连续文本内容中提取上下文字符形成上下文字符集合c(t):C(t)=fti-r,ti-rH1,…,tixr};其中hrs表示上下文窗口中第j个字使用词向量模型将上下文字符转换为词向量w(t),使用字符向量模型将上下文字符转换为字符向量w2(tx),同步使用拼音生成工具将上下文字符转换为拼音形成拼音嵌入向量w3(tx)进行平均生成对应上下文特征其中为上下文特征,将所有上下文特征进行加权融合生成综合上下文特征向量Fe;并进行训练,将拼音嵌入向量和生僻字的形态特征FS输入训练的联想学习网络3将形态特征FS、综合上下文特征向量F以及视觉语音联想特征pn进行L2归一化处理并进行加权融合生成综合嵌入向量F,使用Tr终特征向量FX与每个字典字符最终特征向量的余弦相似度,若余弦相似度高于设定阈值,则将余弦相似度最高的字典字符作为生僻字识别结果并将生僻字标记为已识别字符,别结果指将已识别的生僻字替换为标准化字符后替换带入连续文本内容中向用户进行展8.一种基于生僻字的标准化处理系统,基于权利要求1~7任一所述的基于生僻字的标文本处理模块,用于获取用户输入文本数据进行预处识别模块,用于对提取生僻字的多模态文字特征综合识别生僻字9.一种计算机设备,包括存储器和处理器,所述存储器存于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的基于生僻字的标准化被处理器执行时实现权利要求1~7任一所述的基于生僻字的标准化处理4基于疑似生僻字标记提取多模态文字特征综合识别生僻字,转化已识别的生僻输入文本数据进行预处理并统一文本数据格式指获取用户输入的包含生僻字的文本数据,续文本内容进行分词处理提取字符并输出分标准化字典表进行疑似生僻字标记指通过查询国家语言文字规范和常用汉字标准建立标5;使用词向量模型将上下文字符转换为词向量w2(tx),使用字符向量模型将上下文字符转换为字符向量w2(t),同步使用拼音生成工具将上下文字符转换为拼音形成拼音嵌入向量”3(tx)进行平均生成对应上下文特征将所有上下文特征进行加权融合生成综合上下文特征向量Fe;基于拼音生成工具生成生僻字字符的拼音嵌入向量w3(t),构建联想学习网络Encoder并进行训练,将拼音嵌入向量和生僻字的形态特征FS输入训练的联想学习将形态特征FS、综合上下文特征向量F以及视觉语音联想特征pn进行L2归一化处理并进行加权融合生成综合嵌入向量F,使基于标准化字典表中每个字典字符生成字典字符最终特征向量,分别计算生并使用拼音库生成拼音信息附加到未识别字符的重点标记中,将未识别字符形成列表输6生僻字识别结果指将已识别的生僻字替换为标准化字符后替换带入连续文本内容中向用7布的语言文字标准,确保字典表能够与国家规范保持一致,这种动态更新机制避免了现有技术中静态字典表无法适应语言文字发展变化的问题,对分词结果中的每个字符逐一提取字符图像和字符拼音进行匹配,这是一个细粒度的标记方式,相比于传统的词级匹配方法(如仅基于词典规则进行模糊识别本发明在字符级别进行匹配操作,能够精准定位疑似的字符则标记为疑似生僻字并加入疑似生僻字集合,这种明确区分标记的设计不仅使得普通字符与生僻字的分类更为清晰,也为后续生僻字的进一步处理(如动态扩展字典表或人8僻字集合,将疑似生僻字集合中每个生僻字使用基于构形规则的解析器分解为具体部件,;使用词向量模型将上下文字符转换为词向量,使用字符向量模型将上下文字符转换为字符向量w2(tx),同步使用拼音生成工具将上下文字符转换为拼音形成拼拼音嵌入向量w3(tx)进行平均生成对应上下文特征:将所有上下文特征进行加权融合生成综合上下文特征向量Fe;基于拼音生成工具生成生僻字字符的拼音嵌入向量w3(t),构建联想学习网络Encoder并进行训练,将拼音嵌入向量和生僻字的9将形态特征FS、综合上下文特征向量F以及视觉语音联想特征pn进行L2归一化处理并进行加权融合生成综合嵌入向量F,使TreeLSTM能够捕获二叉树结构中层次化的特征关联,通过TreeLSTM捕获生僻基于标准化字典表中每个字典字符生成字典字符最终特征向量,分别计算生[0028]通过将已识别的生僻字替换为标准化字符,并使用统一的Unicode编码进行表示据丢失或显示异常,本发明通过Unicode编码的标准化策略,解决了字符编码不统一的问库在每次更新存储数据时同步将存储数据上传至云端进行同[0033]本实施例还提供一种计算机设备,适用于基于生僻字的AccessMemory,简称SRAM电可擦除可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory,简称EEPRO

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论