版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
路165号汇金国际大厦东1幢12层1201室为准确地实现对政策文件中每个段落的分类以提供的政策信息识别器通过在所构建的政策文2集合G中的每个标签9在所述标签词集合u中具有存在映射关系的标签词u(g);u中的所述标签词u(g)分别填入到所述句子模板集合T中的每个所述句子模板t中的所述第一空缺、所述第二空缺中,然后使用所述语言模型计算;g映射为所述标签词u(g)后作为对应的实体类型TUO)xy表示使用候选的文本片段xij和与标签9具有映射关系的标签词u(g)填入句子模公式(1)中,Tug)xy表示使用候选的文本片段xij和与标签9具有映射关系的标签词u(g)填入句子模板t得到的句子;t1:c-1表示所述句子TUO)xy的词序列中的第1项到第c-1项;x表示输入到所述语言模型N的所述段落;p(tItc-1,x)表示在给定输入的所述段落x和所述句子TUO)xy的词序列中的第1项到3所述政策工具_需求型这一大类下包括政府采购、公司合作、海外合作这所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别;所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别;完成分类的所述段落进一步在实体级别抽取出所述关键信息,具体通过预先训练的政策L3,标签转换器v将所述标签k映射为事先构建的政策文件要素体系的标签词集合v中对应的标签词v(k)作为预测得到的所述段落x的类型。sp,v(k,x)=M(v(k)lp(x))公式(2)表示文本分类任务的标签集合;4合v中的每个标签词v(k)填入所述掩码位置的概率分数sp.v(k,x),sp.v(k,x)的计算方法通sp.v(k,x)=MP(v(x)lp(x))公式(5)B3,对关联每个所述模板函数p的sp.v(k,x)进行融合得到s(k,x),s(k,x)通过以下公式w(p)表示所述模板函数p在计算s(k,x)时所占的权重;表示文本分类任务的标签集合;LW表示模型预测的分数s(k,x)与真实分数间的差距;5合G中的每个标签在所述标签词集合u中具有存在映射关系的标签词u(g);集合u中的所述标签词u(g)分别填入到所述句子模板集合T中的每个所述句子模板t中的所述第一空缺、所述第二空缺中,然后使用所述语6u(g)填入句子模板t得到的句子;[0016]x表示输入到所述语言模型N的所[0017]p(tcltc-1,x)表示在给定输入的所述段落x和所述句子TOXO的词序列中的第1项[0019]作为优选,事先构建的所述政策文件要素体系包括句子级别要素和实体级别要[0026]作为优选,步骤S1中是对已完成分类的所述段落进一步在实体级别抽取出所述7v中对应的标签词v(k)作为预测得到的所述段落x的类型。[0032]sp,v(k,x)=M(v(x)lp(x))公式(2)k中与所述标签词v(k)具有映射关系的标签;;词集合v中的每个标签词v(k)填入所述掩码位置的概率分数sp.v(k,x),sp.v(k,x)的计算方[0048]sp.v(k,x)=MP(v(x)lp(x))公式(5)[0052]w(p)表示所述模板函数p在计算s(k,x)时所占的权重;8k中与所述标签词v(k)具有映射关系的标[0061]LWW表示模型预测的分数s(k,x)与真实分数间的差距;[0068]2、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内[0073]图4是本发明一实施例用于对比的基于预训练一微调的政策信息识别器的逻辑框9可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而中,选择图1中所示的政策文件要素体系中的一般形式的句子级别要素作为段落的候选类并比较了训练效果,其中一个分类粒度的句子级别要素为图1中所示的政策目标、申请审[0090]以下对本实施例利用预训练的政策文本分类器对输入的段落进行分类的方法进[0092]设M为预先训练的语言模型(优选为BERT语言模型v是政策文件要素体系中的标签词集合,掩码词mev被用于填写语言模型M的输入里被遮盖住的掩码位置[mask]的到输入语言模型M的词序列x,然后使用自定义的模板函数p将x转换为语言模型M的输入填空问题形式表示的p(x)为输入,预测得到的最合适填入掩码位置的词作为对x表达的段策文本分类器的分类效率。进一步地,本实[0095]给定一个输入段落x(优选为原始段落的词序列使用模板函数p将x转换为语言予市区联动200万元奖励。总体而言,这是有关的政策文本段落。”中的掩码位置中的标签词集合v中对应的标签词v(k)作为预测得到的段落x的类型。练方法可应用到本申请中用于训练语言模型M,区别在于,本实施例用于训练语言模型M的样本为经模板函数p转换得到的p(x)以及经标签转换器v转换得到的标签词集合v中对应[0099]训练语言模型时,本申请将样本数据集按照7:3的比例随机划分为训练集和验[0100]对于每个政策文本段落产生的只包含一个掩码位置的序列,对政策文件要素体系中的标签词集合v中的每个标签词v(k)填入该掩码位置的概率计算一个分数(由于标签k在标签词集合v中具有一个存在映射关系的的概率分数相当于预测对应的标签词v(k)填入该掩码位置的概率分数这个分数由语言[0101]sp,v(k,x)=M(v(x)lp(x))公式(1)要素体系的标签词集合v中对应的标签词v(k)具有映射关系,因此sp.v(k,x)相当于表示标签词v(k)填入掩码位置的概率分数;[0103]k表示标签词集合k中与标签词v(x)具有映射关系的标签,例如可以将图1中的标[0117]对于作为训练样本的每个p(x),通过对应的语言子模型MP计算标签词集合v中的[0118]sp.v(k,x)=MP(v(x)lp(x))公式(4)[0130]LWW表示模型预测的分数s(k,x)与真实分数间的差距。[0131]本申请提供的以具有提示语言的p(x)为语言模型M的输入的掩码位置标签预测win表示词序列中的第n个词,再通过在大规模综合领域语料库上预训练得到的词向量被表示为一个300维的预训练的向量,i表示词序列w中的第i个词,通过词向量得到段落si的特征表示xi后,将段落的特征表示xi输入一个多分类器来预测每个段落属于个类别的概率,预测过程表示为为特征表示函数,分类器进行完全监督学习。其中,基于统计机器学习的多分类器是以支持向量机模型和XGBoost模型为基础设计的;基于深度学习的多分类器是以TextCNN模型和Bi_LSTM+所有词的300维分布式表示的每一维取平均值,并拼接上段落的长度和在整篇政策文件中尺寸的卷积核提取的特征拼接为特征向量输入到softmax激活函数后输出该段落分类的标的所有词的300维分布式表示正向输入到LSTM长短时记忆网络中得集上训练得到的多分类器与通过本发明实施例提供的基于提示语言和掩码位置标签预测行掩码位置标签预测的段落文本分类方法在小规模数据集上表现出了比其他四种方法训[0140]完成对政策文本中的段落分类后,有时需要自动识别出各个段落中的关键信义图1中所示的政策文件要素体系中的实体级别的要素作为政策的关键信息类别集合,即[0141]以下对基于提示学习的政策信息识别器抽取出每个段落中的关键信息的方法进为实体识别任务的标签集合,标签集合G中的每个标签9在标签词集合u中存在一个具有映的内容为从输入段落中截取的文本片段,这些片段被视为候选的实体,第二空缺为需要预测的所填入的文本片段的实体类别标签。对政策文件要素体系中用于实体识别的标签词集合u中的每一个标签词u(g)代表的实体类型,将这类型的句子模板和非实体类型的句子模板构成一个句子模板的集合。[0143]将从段落x中截取的每个文本片段填入到句子模板集合T中的每个句子模板t中,u(g)填入到句子模板t后得到的句子;[0149]x表示输入到所述语言模型N的文本序列;[0150]p(t.ltc-1,x)表示在给定输入文本x和句子模板的词序列中的第1项到第c-1项数据集随机划分为训练集和验证集。对于训练集中的数据,若文本片段xij的实体类型为TOXU的得分的原理为:,将该特征表示进行线性变换后使用softmax函数得到当前步输出单词tc的条件概率(指在给定前c一1项和输入段落后,第c项的概率分布计算方式为[0157]本申请提供的基于提示学习的政策信息提取方法在小规模数据集上具有优秀的间的依赖进一步建模。在本实施例中,采用多层感知机、Transformer和Flat一Lattice[0162]在基于Flat_LatticeTransformer(FLAT)的上下文编码层中,使用了一种Transformer的变体FLAT,同时使用了文本的字符和词汇的分布式表示,并进一步拓展了i个文本片段在原始序列中的第一个和最后[0169]以下展示了基于预训练_微调的政策信息识别器与通过本发明实施例提供的基于提示学习的政策信息识别器在有标注的训练数据集规模较小的情况下对图1中所示的“政语言模型N在小规模训练数据集上表现出了比其他方法训练的政策信息识别器更优的性能,证明了本实施例训练的语言模型N在有标注的训练数据集较少时识别政策关键信息的在标签词集合u中具有存在映射关系的标签词u(g);u(g)分别填入到句子模板集合T中的每个句子模板t中的第一空缺、第二空缺中,然后使用语言模型N计算这些填写好的句子的概率分数s(rox.);[0176]更加具体地,步骤S1中是对已完成分类的所述段落进一步在实体级别抽取出所对应的标签词v(k)作为预测得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit7 Day to Remember Section A Grammar Focus教学设计人教版(2024)英语七年级下册
- 2025年湖北省咸宁市事业单位招聘考试试题及答案解析
- 2026长影集团有限责任公司招聘9人考试参考题库及答案解析
- 2026年中国石油宁夏销售分公司校园招聘考试参考题库及答案解析
- 2026中国中煤能源集团有限公司西南分公司(四川分公司)第三批招聘10人备考题库及一套完整答案详解
- 2026广西来宾合山市融媒体中心招聘见习人员4人备考题库带答案详解(培优b卷)
- 2026四川成都青白江区中医医院集团编外人员招聘31人备考题库及答案详解(新)
- 2026广东深圳市龙岗区布吉街道布吉社区第一幼儿园招聘1人备考题库及参考答案详解(夺分金卷)
- 2026山东枣庄市滕州市招聘教师87人备考题库带答案详解(巩固)
- 2026湖南郴州市第一人民医院招聘58人备考题库附参考答案详解(黄金题型)
- 小托福阅读:题型解析与应对策略
- 第五版PFMEA模板(自动计算AP值)
- 2025版中小学安保人员校园监控系统安装与维护合同3篇
- 医院9s管理培训
- 全国计算机等级考试《二级MySQL数据库程序设计》复习全书核心讲义+历年真题详解
- 污水管道及化粪池进行清污、疏通、巡检方案
- 歌曲《wake》中英文歌词对照
- 气管切开病人的护理问题及护理措施
- 2024年贵州省贵阳市中考生物地理合卷试题(含答案逐题解析)
- TB10001-2016 铁路路基设计规范
- 建筑幕墙工程(铝板、玻璃、石材)监理实施细则(全面版)
评论
0/150
提交评论