CN110287466B 一种实体模板生成方法和装置 (腾讯科技(深圳)有限公司)_第1页
CN110287466B 一种实体模板生成方法和装置 (腾讯科技(深圳)有限公司)_第2页
CN110287466B 一种实体模板生成方法和装置 (腾讯科技(深圳)有限公司)_第3页
CN110287466B 一种实体模板生成方法和装置 (腾讯科技(深圳)有限公司)_第4页
CN110287466B 一种实体模板生成方法和装置 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本申请实施例公开了一种实体模板生成方索文本与当前实体模板库中的实体模板进行匹搜索文本和其中的第一目标实体生成新的目标2将所述搜索文本与实体模板库中的实体模板进行匹配,所述实体模板包若所述搜索文本与所述实体模板库中的第一实体模板符合匹配将所述第一目标实体回标至所述搜索文本中,根据所述搜索在根据候选实体库中的第二目标实体的实体特征确定所述第二目标实体不属于新实从所述搜索文本中提取第一组合文本,所述第一组合文本包括所述第一确定词典库中是否包括所述第二目标实体,所述词典库中包括确定所述第二目标实体是否满足目标规则条件,所述目标确定所述候选实体库中任意两个第二目标实体3所述匹配单元,用于将所述搜索文本与实体模板库中的实体模所述确定单元,用于若所述搜索文本与所述实体模板库中的第一实体模所述生成单元,用于将所述第一目标实体回标至所述搜索文本中和所述第一目标实体生成目标实体模板,并将所述目标实体模板添加至所述实体模板库所述确定单元,还用于在根据候选实体库中的第二目标实体的实体特征从所述搜索文本中提取第一组合文本,所述第一组合文本包括所述第一在所述根据所述第二组合文本生成目标实体模板之前,确定所在根据候选实体库中的第二目标实体的实体特征,确定所述第所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中4[0003]对浏览器的搜索日志进行文本挖掘能够得到很多的实体信息,通过收集实体信5[0017]所述生成单元,用于根据所述搜索文本和所述第一目标[0020]所述处理器用于根据所述程序代码中的指令执行如第一方面所述的实体模板生[0028]图5为本申请实施例提供的一种对候选实体库中的第二目标实体进行过滤和合并6设备例如可以是智能终端、计算机、个人数字助理(PersonalDigitalAssistant,简称[0038]参见图1,图1为本申请实施例提供的一种实体模板生成方法的应用场景示意该应用场景中包括服务器101,所述服务器101中可以保存有实体模板库,所述实体模板库中包括实体模板,所述实体模板包括实体替代词和对应的相邻文本,比如实体模板可以是 包括有“下载XX”这一实体模板,在将搜索文本与当前实体模板库中的实体模板进行匹配78定所述第二组合文本在搜索文本中的出现频次9[0079]所述相匹配的实体模板数量可以是第二目标实体与实体模板库中的实体模板相[0080]可以将所述第二目标实体包括所述候选实体库中的其他第一目标实体数量理解为:第二目标实体中可以包括在候选实体库中的一些第一目标实体,比如第一目标实体为第二目标数实体,像候选实体库中这样的第一目标实体的数量(即候选实体库中被第二目标实体包括的第一目标实体数量)即可以是第二目标实体包括所述候选实体库中的其他第一目标实体数量。其中,当第二目标实体包括所述候选实体库中的其他第一目标实体数量体库中这样的第一目标实体的数量(即候选实体库中包括第二目标实体的第一目标实体数中包括第二目标实体的第一目标实体数量较多时,可以表明该第二目标实体的语义较宽第二目标数实体在第二预设时间内出现的频次分布。当第二预设时间为近一个月的时间删除。由此,在对候选实体库中的全部第一目标实体都作为第二实体,并通过执行上述可以通过如下方法构建Base词库:首先,将历史搜索日志作为搜索文本,通过执行上述[0108]基于前述介绍的实体模板生成方法,本申请实施例还提供了一种新实体召回方以通过基于命名实体识别方式的召回模块和基于实体模板的召回模块来将搜索文本中的法可以是一种自扩展的弱监督方法,所述Bootstrapping方法可以对有限的样本资料进行一组合文本中的第一目标实体进行匿名化,即将其中的第一目标实体替换为实体替代词,[0117]参见图5,该图示出了本申请实施例提供的一种对候选实体库中的第二目标实体[0121]所述确定单元603,用于若所述搜索文本与所述实体模板库中的第一实体模板符[0122]所述生成单元604,用于根据所述搜索文本和所述第一目标实体生成目标实体模目标实体的第一目标实体数量、在第一预设时间内的词频和在第二预设时间内的词频分[0145]图7示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoise通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystemofMobilecommunication,简称GSM)、通用分组无线服务(GeneralPacketRadioService,简称GPRS)、码分多址(CodeDivisionMultipleAccess,简称[0148]存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720[0149]输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以[0150]显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741,可选的,可以采用液晶显示器(LiquidCrystal将触控面板731与显示面板741集成而实现手机的输入的大小,静止时可检测出重力的大小及方向,可用或者将音频数据输出至存储器720以便进[0153]WiFi属于短距离无线传输技术,手机通过WiFi模块770可以帮助用户收发电子邮过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的[0175]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论