版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本申请的实施例提供了一种实体关系抽取中已标注分词的标签映射到所述每个文本对应词性序列中选择至少一个第二词性序列作为标本申请实施例的技术方案能够实现高效且准确2获取多个文本分别对应的第一词性序列,每个文本对应的第一将所述每个文本中已标注分词的标签映射到所述每个文本对应的第一词性序列的词根据所述多个文本分别对应的第一词性序列,生成频繁序列模式,根据所述获取所述每个目标词性序列中的标签在所述每个目标词计算每个目标词性序列中的标签数量与所述至少一个目标词性序列中的标签数量之根据所述标签序列模式确定目标文本中未标注分词的标签,以从所述多个文本分别对应的第一词性序列中选择在所述多个文本中的第一支持度大对所述多个文本分别对应的第三词性序列进行序列模式挖掘,生成所述频繁序列模根据所述多个文本分别对应的第一词性序列中的词性元素,在计算包含所述各个词性元素的文本数量与所述多个文本从所述多个文本分别对应的第三词性序列中选择词性元素作为前缀,并从所述至少一个后缀中选择在所述至少一个后缀中的第二支持度大于所述第一阈值的后缀,直至从确定出的新的后缀中无法选择出第二支持度大于所述阈值的词性元素为3若所述多个前缀中存在包含有其他前缀中的词性元素,且包含的根据所述至少一个后缀中的词性元素,在所述至少一个计算包含所述各个词性元素的后缀数量与所述多个文本述各个词性元素在所述至少一个后缀中的第二根据所述目标文本对应的第一词性序列,从所述标签序列模式中获取单元,配置为获取多个文本分别对应的第一词性序列,生成单元,配置为将所述每个文本中已标注分词的标据所述频繁序列模式从所述多个文本分别对应的第二词性序列中选择至少一个目标词性获取所述每个目标词性序列中的标签在所述每个目标词计算每个目标词性序列中的标签数量与所述至少一个目标词性序列中的标签数量之确定单元,配置为根据所述标签序列模式确定目标文本中未标所述目标文本中的标签生成所述目标文本的实体关系抽处理器执行时实现权利要求1至7中任一项4其中,所述处理器配置为经由执行所述可执行指令来执行读取并执行所述计算机程序,使得所述计算机设备执行权利要求1至7中任一项所述的方5配置为从所述多个文本分别对应的第一词性序列中选择在所述多个文本中的第一支持度6缀中选择在所述至少一个后缀中的第二支持度大于所述第一阈值的一个词性元素添加至新的后缀中无法选择出第二支持度大于所述阈值的词性元素为止;根据得到的多个前缀,述频繁序列模式从所述多个文本分别对应的第二词性序列中选择至少一个目标词性序列,所述至少一个目标标签序列模式包含有所述目标文本对应的第一词性序列中的词性元素,且包含的词性元素的位置顺序与在所述目标文本对应的第一词性序列中的位置顺序一致;7本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,8[0031]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对务器105通过本申请实施例所提供的实体关系抽取方法对该文本进行处理,并将得到的实关系抽取的方法主要包括基于词汇-语义的实体关系抽取方法、基于标注语料机器学习的实体关系抽取和基于模式挖掘和匹配的实体[0042]其中,基于词汇-语义的实体关系抽取方法先采用词向量方法从语料中提取概念9计词汇-语义规则标注算法来进行自动化标注,从而识别句子中哪些成分构成实体关系的[0044]基于模式匹配和挖掘的实体关系抽取方法首先需要将句子中的关系元素和触发应的第二词性序列中选择至少一个第二词性序列作为述目标文本中的标签生成所述目标文本的实体关系抽性序列包含所述每个文本的分词结果中的各个分一词性序列,第一词性序列包含每个文本的分词结果中的各个分词所对应的词性元素,且应的第二词性序列中选择至少一个第二词性序列作为述目标文本中的标签生成所述目标文本的实体关系抽[0064]本申请实施例的实体关系抽取方法,通过对多个文本进[0066]步骤S2301、从所述多个文本分别对应的第一词性序列中选择在所述多个文本中[0069]具体到本步骤中,为了对多个文本分别对应的第一词性[0075]在统计得到包含各个词性元素的文本数量后,可以计算得到词性元素n的第一支[0077]序列模式挖掘可以挖掘序列数据库中支持度大于最小支持度阈值的所有频繁序[0090]步骤S23021、从所述多个文本分别对应的第三词性序列中选择词性元素作为前三个文本分别对应的第三词性序列A的超序列。[0121]频繁序列模式是通过对多个文本分别对应的第一词性序列进行序列模式挖掘得[0127]步骤S23033、将所述置信度大于第二阈值的目标词性序列作为所述标签序列模之和是通过不同位置序号的标签的个数获得,在该实施例中,具体包括步骤S810-步骤[0132]步骤S820、对所述至少一个目标词性序列中不同位置序号的标签的个数进行求除了/公司a/的/股东/公司b/外/其他/公司/也作为/公司c/的/投资方/公司d/是/ns/u/ns”中选择在后缀中的第二支持度大于第一阈值的一个词性元素添加到“/n/u/n/v”本中的标签生成所述目标文本的实体关系抽取[0185]目标文本可以为表1所示的四个文本,从标签序列模式中选择至少一个目标标签序列模式,至少一个目标标签序列模式包含有目标文本对应的第一词性序列中的词性元标签,而根据目标标签序列模式还可以对该目标文本未标注标签的第三位置的分词进行标[0193]图10示出了根据本申请的一个实施例的实体关系抽取装置的框图,参照图10所标文本中的标签生成所述目标文本的实体关系抽取述多个文本分别对应的第一词性序列中选择在所述多个文本中的第一支持度大于第一阈所述置信度大于第二阈值的目标词性序列作为所述标[0205]如图11所示,计算机系统1100包括中央处理单元(CentralProcessingUnit,存部分1108加载到随机访问存储器(RandomAccessMemory,RAM)1103中的程序而执行各器等的输出部分1107;包括硬盘等的储存部分1108;以及包括诸如LAN(LocalArea因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质从其上读出的计算机程序根据需要被安装入储存部分1108。或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以块或者单元的特征和功能可以进一步划分为由多个模块或者单途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026安徽宿州市第四人民医院劳务派遣人员招聘12人备考题库带答案详解(完整版)
- 2026广东深圳武宣县中医医院招聘编外聘用人员4人备考题库(第一期)含答案详解(b卷)
- 2026浙江龙游人才科创有限公司招聘热线员1人备考题库含答案详解(典型题)
- 2026贵州省重点产业人才“蓄水池”第三批岗位专项简化程序公开招聘8人备考题库及1套完整答案详解
- 2026辽宁丹东凤城市中心医院招聘卫生专业技术人员7人备考题库(二)及一套完整答案详解
- 2026第二季度陆军第82集团军医院社会聘用人员招聘53人备考题库及答案详解(网校专用)
- 2026重庆旅游资产管理有限公司统景景区管理分公司招聘3人备考题库及答案详解(考点梳理)
- Unit 13Section A 1a-2d教案 2025-2026学年人教版九年级英语全一册
- 保险产品设计与风险防范手册
- 油气勘探与开采手册
- 招标安全培训课件
- 2026中国联通秋季校园招聘考试参考题库及答案解析
- 降低呼吸机相关性肺炎的品管圈
- 2025年湖南省长沙市初中学业水平考试中考(会考)地理试卷(真题+答案)
- 春耕开犁活动方案
- 2025年河北高考化学试卷真题及答案详解(精校打印版)
- T/CECS 10410-2024废弃混凝土活性再生微粉
- 2022年高考历史试卷(山东)(解析卷)
- 能源与动力工程测试技术 课件 第八章 液位测量
- 设备运维的标准化与规范化管理
- 2025年度建筑行业安全生产资金投入计划
评论
0/150
提交评论