版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN112528654B(65)同一申请的已公布的文献号(73)专利权人作业帮教育科技(北京)有限公司基地开拓路1号4层4002(74)专利代理机构北京清诚知识产权代理有限公司11691专利代理师宋红艳审查员王艳臣自然语言处理方法、装置及电子设备本发明属于计算机信息处理技术领域,提供一种自然语言处理方法、装置、电子设备及计算机可读介质,该方法包括:对文本数据中的文字进行分词处理以获取文字和/或词汇;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言对文本数据中的文字进行分词处理以获取文字和/或词汇将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量基于所述句子语义向量对所述实时文本数据进行自然语言处理2获取分词字典;基于所述分词字典对实时文本数据进行分词,生成词汇网络,所述词汇网络为有向无基于动态规划算法确定所述词汇网络中的最大概率路径;包括:先通过词汇网络将所有的分词路径都搜索出来,然后分词的路径就是概率最大的路径,每个路径的概率=该路径所有词的概率乘积;基于所述最大概率路径确定文字和词汇;基于所述文本数据的内容确定所述文本数据的领域属性;和/或基于所述文本数据的标签确定所述文本数据的领域属性;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和所述词汇对应的第二权重;根据所述第一权重和所述字向量生成第一句向量;根据所述第二权重将和所述词向量生成第二句向量;将第一句向量和第二句向量进行拼接以生成句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言处理。2.根据权利要求1所述的自然语言处理方法,其特征在于,还包括:提取数据库中多个预设文本数据的句子语义向量;基于所述句子语义向量将所述文本数据和所述多个预设文本数据进行相似度比较;根据相似度比较结果由所述多个预设文本数据中确定目标文本数据。3.根据权利要求1所述的自然语言处理方法,其特征在于,还包括:4.根据权利要求1所述的自然语言处理方法,其特征在于,将所述文本数据和其对应的将所述文本数据和其对应的领域属性输入训练完毕的BERT模型中以生成字向量;可选地,将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量,包将所述文本数据和其对应的领域属性输入训练完毕的Word2vec模型中以生成词向量。5.根据权利要求1所述的自然语言处理方法,其特征在于,基于所述文本数据确定所述文字对应的第一权重和所述词汇对应的第二权重,包括:基于所述文本数据中所述文字和所述词汇对应的逆文档频率确定所述第一权重和所述第二权重。6.一种自然语言处理装置,其特征在于,采用权利要分词模块,用于获取分词字典;基于所述分词字典对文本数据进行分词,生成词汇网络,所述词汇网络为有向无环图;基于动态规划算法确定所述词汇网络中的最大概率路径;基于所述最大概率路径确定文字和词汇;基于所述文本数据的内容确定所述文本数据的领3域属性;和/或基于所述文本数据的标签确定所述文本数据的领域属性;文字模块,用于将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向词汇模块,用于将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向权重模块,用于基于所述文本数据确定所述文字对应的第一权重和所述词汇对应的第二权重;向量模块,用于根据所述第一权重和所述字向量生成第一句向量;根据所述第二权重将和所述词向量生成第二句向量;将第一句向量和第二句向量进行拼接以生成句子语义向语义模块,用于基于所述句子语义向量对所述实时文本数据进行自然语言处理。7.一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于:当所述计算机可执行程序被所述处理器执行时,所述处理器执行如权利要求1-5中任一项所述的方法。8.一种计算机可读介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现如权利要求1-5中任一项所述的方法。4自然语言处理方法、装置及电子设备技术领域[0001]本发明属于计算机信息处理领域技术领域,特别适用于机器的语义识别领域,更具体的是涉及一种自然语言处理方法、装置、电子设备及计算机可读介质。背景技术[0002]自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。实际上,自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十分困难的。一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示。[0003]现代NLP算法是基于机器学习,特别是统计机器学习。机器学习范式是不同于一般之前的尝试语言处理。语言处理任务的实现,通常涉及直接用手的大套规则编码。通常做法是,基于常用语料库对机器学习模型进行训练,对一段含有自然语言的文本数据进行分词处理,将分词处理后的结果输入到训练好的机器学习模型中,然后基于词向量进行语义识[0004]在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。发明内容[0005]本发明旨在解决现有技术的自然语言处理中存在的困境,因为现有技术中的自然语言处理过程,均为基于分词的方式进行的,而在实际的中文中,单字也能表达很多含义;而且,现有技术中的自然语言处理模型均是基于宽泛的语料库进行训练,力求得到一个适用于所有场景的自然语言处理模型。以上两个缺点使得现有技术中的自然语言处理模型计算较慢,而且在某些场景中给出的分析结果不够准确。[0006]为解决上述技术问题,本发明的一方面提出一种自然语言处理方法,该方法包括:对文本数据中的文字进行分词处理以获取文字和/或词汇;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言处[0007]根据本发明的优选实施方式,还包括:提取数据库中多个预设文本数据的句子语义向量;基于所述句子语义向量将所述文本数据和所述多个预设文本数据进行相似度比5较;根据相似度比较结果由所述多个预设文本数据中确定目标文本数据。[0008]根据本发明的优选实施方式,还包括:基于多个带有领域属性的语料对深度神经网络模型进行训练,生成所述文字向量模型;基于多个带有领域属性的语料对浅层神经网络模型进行训练,生成所述词汇向量模型。[0009]根据本发明的优选实施方式,对文本数据中的文字进行分词处理以获取文字和/所述词汇网络为有向无环图;基于所述词汇网络确定所述词汇。[0010]根据本发明的优选实施方式,基于所述词汇网络确定所述词汇,包括:基于动态规划算法确定所述词汇网络中的最大概率路径;基于所述最大概率路径确定所述词汇。[0011]根据本发明的优选实施方式,对文本数据中的文字进行分词处理以获取文字和/或词汇后,还包括:基于所述文本数据的内容确定所述文本数据的领域属性;和/或基于所述文本数据的标签确定所述文本数据的领域属性。[0012]根据本发明的优选实施方式,将所述文本数据和其对应的领域属性输入文字向量中以生成字向量。[0013]根据本发明的优选实施方式,将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量,包括:将所述文本数据和其对应的领域属性输入训练完毕的Word2vec模型中以生成词向量。[0014]根据本发明的优选实施方式,基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重,包括:基于所述文本数据中所述文字和/或所述词汇对应的逆文档频率确定所述第一权重和/或所述第二权重。[0015]根据本发明的优选实施方式,通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量,包括:根据所述第一权重和/或所述第二权重将所述字向量和/或所述词向量进行拼接以生成所述句子语义向量。[0016]本发明第二方面提出一种自然语言处理装置,该装置包括:分词模块,用于对文本数据中的文字进行分词处理以获取文字和/或词汇;文字模块,用于将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;词汇模块,用于将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;权重模块,用于基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;向量模块,用于通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;语义模块,用于基于所述句子语义向量对所述实时文本数据进行自然语言处理。[0017]本发明第三方面提出一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的方法。[0018]本发明第四方面还提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的方法。[0019]根据本公开的自然语言处理方法、装置、电子设备及计算机可读介质,通过对文本数据中的文字进行分词处理以获取文字和/或词汇;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的6第二权重;通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言处理的方式,能够有效提升句子的语义表达能力,对句子级别的自然语言处理任务在保证其简便高效性的前提下大大的增强了其语义表达能力,达到对下游任务产生积极正向作用的目的。[0020]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明[0021]图1是本发明的一个实施例的自然语言处理方法及装置的系统框图。[0022]图2是本发明的一个实施例的自然语言处理方法的流程图。[0023]图3是本发明的一个实施例的自然语言处理方法的流程图。[0024]图4是本发明的一个实施例的自然语言处理方法的流程图。[0025]图5是本发明的一个实施例的自然语言处理装置的框图。[0026]图6是本发明的一个实施例的电子设备的结构示意图;[0027]图7是本发明的一个实施例的计算机可读记录介质的示意图。具体实施方式[0028]在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案[0029]附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。[0030]附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实[0031]各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然文本中可能使用第组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。[0032]为解决上述技术问题,本发明提出一种自然语言处理方法、装置、电子设备及计算机可读介质,对文本数据中的文字进行分词处理以获取文字和/或词汇;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;通过所述字向量、所述第一权重和/或所述词向量、所述第二7权重确定所述文本数据的句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言处理的方式,能够有效提升句子的语义表达能力,对句子级别的自然语言处理任务在保证其简便高效性的前提下大大的增强了其语义表达能力,达到对下游任务产生积极正向作用的目的。[0033]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。[0034]在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案[0035]附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。[0036]附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实[0037]各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然文本中可能使用第组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。[0038]图1是根据一示例性实施例示出的一种自然语言处理方法及装置的系统框图。络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。[0040]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如辅助学习类应[0041]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。[0042]在一个实施例中,终端设备101、102、103可例如对文本数据中的文字进行分词处理以获取文字和/或词汇;终端设备101、102、103可例如将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;终端设备101、102、103应的领域属性输入词汇向量模型中,获取词向量;终端设备101、102、1本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;终端设备101、102、103可例如通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;终端设备101、102、103可例如基于所述句子语义向量对所述实时文8本数据进行自然语言处理。其中,文字向量模型和词汇向量模型可位于终端设备101、102、103的本地或服务器105端。[0043]服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的视频学习类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的文[0044]在一个实施例中,服务器105可例如由终端设备101、102、103获取文本数据,然后对文本数据中的文字进行分词处理以获取文字和/或词汇;服务器105可例如将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;服务器105可例如将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;服务器105可例如基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;服务器105可例如通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;服务器105可例如基于所述句子语义向量对所述实时文本数据进行自然语言处理。[0045]服务器105还可例如提取数据库中多个预设文本数据的句子语义向量;服务器105还可例如基于所述句子语义向量将所述文本数据和所述多个预设文本数据进行相似度比较;服务器105还可例如根据相似度比较结果由所述多个预设文本数据中确定目标文本数[0046]服务器105还可例如基于多个带有领域属性的语料对深度神经网络模型进行训练,生成所述文字向量模型;服务器105还可例如基于多个带有领域属性的语料对浅层神经网络模型进行训练,生成所述词汇向量模型。[0047]服务器105可以是一个实体的服务器,还可例如为多个服务器组成,服务器105中的一部分可例如进行机器学习模型的训练,生成文字向量模型和词汇向量模型;以及服务器105中的一部分还可例如对文本数据进行自然语言处理。[0048]需要说明的是,本公开实施例所提供的自然语言处理方法可以由服务器105或终端设备101、102、103执行,相应地,自然语言处理装置可以设置于服务器105或终端设备[0049]图2是根据一示例性实施例示出的一种自然语言处理方法的流程图。自然语言处理方法20至少包括步骤S202至S212。[0050]如图2所示,在S202中,对文本数据中的文字进行分词处理以获取文字和/或词汇。其中,文本数据可为来自于人机交互过程中,用户的文字数据,或者是用户的语音数据转换而成的文字数据,文本数据中可包括一句或者多句由自然语言组成的语句。[0051]在本公开中,分词处理可为中文分词处理,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。在本发明中,可利用上述一种或多种方法对文本数据进行分词处理,以生成多个中文的字和词汇。[0052]在一个实施例中,还包括:基于所述文本数据的内容确定所述文本数据的领域属性;和/或基于所述文本数据的标签确定所述文本数据的领域属性。可由人机对话的对话请求中获取文本数据的领域属性,还可由所述文本数据切词之后的文字中,确定领域属性,本公开不以此为限。9[0053]在S204中,将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量。可例如,将所述文本数据和其对应的领域属性输入训练完毕的BERT模型中以生成字向[0054]在一个实施例中,还包括:基于多个带有领域属性的语料对深度神经网络模型进行训练,生成所述文字向量模型;其中,深度神经网络模型可为BERT系列的深度神经网络模语料(维基百科)上训练了一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP要用纯文本语料来训练,因为海量的文本语料可以在各种语言的网络的公开得到。预训练表示可以是上下文无关的,也可以是上下文相关的,而且,上下文相关的表示可以是单向的或双向的。[0055]在本发明的实施例中,进行BERT模型训练的时候,语料数据的BERT模型进行训练,生成针对不同领域属性的文字向量模型。[0056]在S206中,将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量。可例如,将所述文本数据和其对应的领域属性输入训练完毕的Word2vec模型中以生成[0057]在一个实施例中,还包括:基于多个带有领域属性的语料对浅层神经网络模型进行训练,生成所述词汇向量模型。浅层神经网络模型可为Word2vec模型,Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。[0058]在本发明的实施例中,进行word2vec模型训练的时候,语料数据输入的时候,也是对不同的word2vec模型进行训练,生成针对不同领域属性的词汇向量模型。[0059]在S208中,基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重。可基于所述文本数据中所述文字和/或所述词汇对应的逆文档频率确定所述第一权重和/或所述第二权重。[0060]其中,逆文档频率(TF-IDF)是一种统计方法,用以评估一个字或一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式作为本发明中字或词的重要度评级。[0061]在S210中,通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量。可例如,根据所述第一权重和/或所述第二权重将所述字向量和/或所述词向量进行拼接以生成所述句子语义向量。[0064]2)获取各词向量:今天:[0.1,0.2,0.3];是:[0.4,0.5,0.6];阴天:[0.7,0.8,[0065]3)该句的词向量切分方式对应的第二句向量:(idf(今天)*[0.1,0.2,0.3]+idf(是)*[0.4,0.5,0.6]+idf(阴天)*[0.7,0.8,0.9])/3,结果也一个三维向量(也可为更多维度的向量,本申请不以此为限);阴:[0.7,0.8,0.9];(另注:字向量和上述2)词向量长度没有相等的限制,优选的,字和量之间的长度最好差别也不要太大。[0068]6)该句的字向量切分方式对应的第一句向量:(idf(今)*[0.1,0.2,0.3]+idf(天)*[0.12,0.82,0.92]+idf(是)*[0.4,0.5,0.6]+idf(阴)*[0.7,0.8,0.9]+idf(天)*[0.12,0.82,0.92])/5,结果是一个三维向量(也可为更多维度的向量,本申请不以此为限);[0069]7)各粒度句向量拼接:(句向量1,句向量2…),最后维度为各句向量长度的加和.[0070]在S212中,基于所述句子语义向量对所述实时文本数据进行自然语言处理。[0071]在一个实施例中,还包括:提取数据库中多个预设文本数据的句子语义向量;基于所述句子语义向量将所述文本数据和所述多个预设文本数据进行相似度比较;根据相似度比较结果由所述多个预设文本数据中确定目标文本数据。可例如,用户输入一个文本数据,文本数据中可数学应用题,根据用户输入的数据在试题库中进行搜索,可以根据文本数据的句子语义向量和试题库中所有的试题做cosine(余弦)距离计算,以作为两个句子的相似度,然后在试题库中确定和文本数据中最相似的试题和对应的解答方法,并将结果返回用[0072]根据本公开的自然语言处理方法,对文本数据中的文字进行分词处理以获取文字和/或词汇;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言处理的方式,能够有效提升句子的语义表达能力,对句子级别的自然语言处理任务在保证其简便高效性的前提下大大的增强了其语义表达能力,达到对下游任务产生积极正向作用的目的。[0073]应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它[0074]图3是根据另一示例性实施例示出的一种自然语言处理方法的流程图。图3所示的流程30是对图2所示的流程中S202“文本数据中的文字进行分词处理以获取文字和/或词[0076]在S304中,基于所述分词字典对所述文本数据进行分词,生成词汇网络,所述词汇网络为有向无环图。有向无环图指的是一个无回路的有向图。如果有一个非有向无环图,且A点出发向B经C可回到A,形成一个环。将从C到A的边方向改为从A到C,则变成有向无环图。11有向无环图的生成树个数等于入度非零的节点的入度积。[0077]在S306中,基于动态规划算法确定所述词汇网络中的最大概率路径。动态规划算法通常用于求解具有某种最优性质的问题。在这类问题中,可能会有许多可行解。每一个解都对应于一个值,我们希望找到具有最优值的解。动态规划算法与分治法类似,其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。[0078]在词汇网络中,一个阶段的状态给定以后,从该状态演变到下一阶段某个状态的一种选择(行动)称为决策。由每个阶段的决策组成的序列称为策略。对于每一个实际的多阶段决策过程,可供选取的策略有一定的范围限制,这个范围称为允许策略集合。允许策略集合中达到最优效果的策略称为最优策略,在本发明中,将最优策略定位所有分词词汇的最大概率路径。[0079]更具体的,在本发明中,先通过词汇网络将所有的分词路径都搜索出来。然后分词的路径就是概率最大的路径,每个路径的概率=该路径所有词的概率乘积。[0080]在S308中,基于所述最大概率路径确定所述词汇。[0081]图4是根据另一示例性实施例示出的一种自然语言处理方法的流程图。图4所示的流程40是对本发明的自然语言处理方法全过程的详细描述。[0082]如图4所示,在S402中,收集语料数据,生成多个语料数据集合。收集公开领域语料。[0083]在S404中,各个语料数据集合中的数据是否处理完毕。[0085]在S408中,字/词分词处理,分别统计其IDF。对文本句子分别按字和词粒度进行切[0086]在S410中,分别对字/词分词后的句子,训练字/词向量。采用神经网络分别对字和获取相应的字词向量,各自进行tf-idf加权后拼接,从而生成句子语义向量,将其做为该句的表征。[0089]本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。[0090]此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。[0091]下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。[0092]图5是根据一示例性实施例示出的一种自然语言处理装置的框图。如图5所示,自然语言处理装置50包括:分词模块502,文字模块504,词汇模块506,权重模块508,向量模块510,语义模块512。[0093]分词模块502用于对文本数据中的文字进行分词处理以获取文字和/或词汇;[0094]文字模块504用于将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;[0095]词汇模块506用于将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;[0096]权重模块508用于基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;[0097]向量模块510用于通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;[0098]语义模块512用于基于所述句子语义向量对所述实时文本数据进行自然语言处[0099]根据本公开的自然语言处理装置,对文本数据中的文字进行分词处理以获取文字和/或词汇;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言处理的方式,能够有效提升句子的语义表达能力,对句子级别的自然语言处理任务在保证其简便高效性的前提下大大的增强了其语义表达能力,达到对下游任务产生积极正向作用的目的。[0100]图6是本发明的一个实施例的电子设备的结构示意图,该电子设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行基于旋转角监测的车辆智能助力推行方法。[0101]如图6所示,电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。[0102]所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。[0103]所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储[0104]可选的,该实施例中,电子设备还包括有I/0接口,其用于电子设备与外部的设备进行数据交换。I/0接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。[0105]应当理解,图6显示的电子设备仅仅是本发明的一个示例,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 量子随机化搜索-洞察及研究
- 黑洞熵与宇宙膨胀的关系-洞察及研究
- 滑膜炎中miRNA调控网络解析-洞察及研究
- 抗性基因克隆分析-洞察及研究
- 电解质平衡与肠道健康关系-洞察及研究
- 2025年湖口县林业局面向社会公开补招编外工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年湖南益阳安化县教师进城选调135人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 家长安全生产知识培训课件
- 家长安全教育培训讲话课件
- 家长安全培训内容文案课件
- 委内瑞拉变局的背后
- 2025至2030供水产业行业项目调研及市场前景预测评估报告
- GB/T 18991-2003冷热水系统用热塑性塑料管材和管件
- GB/T 11418-1989搪瓷耐热性测试方法
- FZ/T 50047-2019聚酰亚胺纤维耐热、耐紫外光辐射及耐酸性能试验方法
- 市政道路施工总进度计划表
- (更新版)国家开放大学电大《机械制造基础》机考网考题库和答案
- 新部编版小学三年级上册道德与法治期末复习课件
- 2023年新疆文化旅游投资集团有限公司招聘笔试模拟试题及答案解析
- 《城市规划原理》复习考试题库(含答案)
- aw4.4工作站中文操作指南
评论
0/150
提交评论