版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN114722198B(65)同一申请的已公布的文献号(73)专利权人金蝶软件(中国)有限公司地址518057广东省深圳市南山区科技园科技南十二路2号金蝶软件园A座1-8层审查员李晓晖(72)发明人宁义双宁可(74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙)44285专利代理师张晓产品分类编码确定方法、系统及相关装置本申请实施例公开了产品分类编码确定方法、系统及相关装置,该方法的目标分类模型由训练样本对初始分类模型进行机器学习训练得到,且训练样本包括已分类产品名称特征、已分类产品名称对应的产品分类编码及未分类产品名称特征,故目标分类模型保存有产品名称特征和产品类别的目标对应关系,以使得将目标产品全称的目标产品全称特征输入目标分类模型,就能预判出目标产品所属的产品类别及其对应的目标分类编码。因此,本申请实施例通过产品名称就能快而准地自动识别出产品对应的产品分类编码,无需配置大量的人工资源和长时间的结将目标产品名称特征输入目标分类模型,以输出目标产品分类编码2获取预先训练完成的目标分类模型,所述目标分类模型由训练样本对初始分类模型进行机器学习训练得到,所述训练样本包括已分类产品名称特征、已分类产品名称对应的分类编码及未分类产品名称特征,所述目标分类模型保存有产品名称特征和产品类别的目标对应关系;根据待分类的目标产品全称确定目标产品全称特征;将所述目标产品全称特征输入所述目标分类模型,以输出所述目标分类模型依据所述目标对应关系确定的目标分类编码,所述目标分类编码用于表示目标产品所属的产品类所述输出所述目标分类模型依据所述目标对应关系确定的目标分类编码,包括:当输入所述目标分类模型的目标产品全称特征由目标名称拼接词获得时,判断所述目标对应关系输出的K个全文式概率值中的最大概率值是否满足全文分类概率阈值,其中,所述K为自定义设置的非零整数,所述目标名称拼接词通过拼接用于组成目标产品全称的多个目标名称分词得到,每一全文式概率值对应一个产品类别;若判断结果为满足,则确定所述最大概率值对应的产品类别为目标产品所属的目标产品类别,并输出所述目标产品类别对应的分类编码作为所述目标分类编码。2.根据权利要求1所述的方法,其特征在于,所述获取预先训练完成的目标分类模型之获取训练样本,所述训练样本包括已分类产品名称特征、所述已分类产品名称特征对应的分类编码及未分类产品名称特征;使用所述训练样本对所述初始分类模型进行机器学习训练,以得到保存有所述目标对应关系的目标分类模型,其中,所述初始分类模型的模型参数通过使用半监督学习算法定义的损失函数确定。3.根据权利要求2所述的方法,其特征在于,所述获取训练样本包括:获取已分类产品全称和未分类产品全称,并对所述已分类产品全称和所述未分类产品全称进行文本预处理,以得到用于组成每一产品全称的名称分词;确定每一所述名称分词在产品词库中以稀疏向量形式表示的位置索引初始值;通过词嵌入生成模型将稀疏向量形式的位置索引初始值,转换为稠密向量形式的位置索引映射值,所述位置索引映射值作为训练样本中的产品名称特征用于训练初始分类模4.根据权利要求3所述的方法,其特征在于,所述文本预处理包括对产品全称进行文本清洗和分词处理;所述文本清洗包括:将已分类产品全称和未分类产品全称中的字母统一切换为仅大写形式或仅小写形式的字母,和/或,去除产品全称中的重复词汇、括号及所述括号中的文本所述分词处理包括将清洗后的产品名称划分成至少一个名称分词。5.根据权利要求1所述的方法,其特征在于,所述根据待分类的目标产品全称确定目标获取目标产品全称,并对所述目标产品全称进行包括文本清洗和分词处理的文本预处3理,以得到用于组成所述目标产品全称的目标名称分词;根据所述目标名称分词,转换得与所述已分类产品名称特征同向量维度的目标产品全称特征;将所述目标产品全称特征输入所述目标分类模型的步骤,包括:将与所述已分类产品名称特征同向量维度的目标产品全称特征,输入所述目标分类模型以确定所述目标分类编码。6.根据权利要求1所述的方法,其特征在于,输出所述目标分类模型依据所述目标对应若判断结果为不满足,则将由各目标名称分词中词性为名词的分词获得的目标产品全称特征分别输入所述目标分类模型,以得到目标产品属于不同产品类别的局部式概率值;将对应相同产品类别的全文式概率值和局部式概率值进行加权融合,以确定得对应最大融合结果的产品类别所匹配的分类编码为所述目标分类编码。7.根据权利要求1所述的方法,其特征在于,所述获取预先训练完成的目标分类模型之判断目标产品全称是否记录在词典文件中,所述词典文件预先保存有已分类产品全称及所述已分类产品全称正确对应的分类编码;若判断结果为是,则直接输出目标产品全称在所述词典文件中对应记录的分类编码作为所述目标分类编码;若判断结果为否,则通过所述目标分类模型确定所述目标分类编码。获取单元,用于获取预先训练完成的目标分类模型,所述目标分类模型由训练样本对初始分类模型进行机器学习训练得到,所述目标分类模型保存有产品名称和产品类别的目标对应关系,所述训练样本包括已分类产品名称特征、所述已分类产品名称特征对应的分类编码及未分类产品名称特征;处理单元,用于根据待分类的目标产品全称确定目标产品全称特征;所述处理单元,还用于将所述目标产品全称特征输入所述目标分类模型,以输出所述目标分类模型依据所述目标对应关系确定的目标分类编码,所述目标分类编码用于表示目标产品所属的产品类别;所述处理单元具体用于:当输入所述目标分类模型的目标产品全称特征由目标名称拼接词获得时,判断所述目标对应关系输出的K个全文式概率值中的最大概率值是否满足全文分类概率阈值,其中,所述K为自定义设置的非零整数,所述目标名称拼接词通过拼接用于组成目标产品全称的多个目标名称分词得到,每一全文式概率值对应一个产品类别;若判断结果为满足,则确定所述最大概率值对应的产品类别为目标产品所属的目标产品类别,并输出所述目标产品类别对应的分类编码作为所述目标分类编码。所述存储器为短暂存储存储器或持久存储存储器;所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。410.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。11.一种计算机程序产品,其特征在于,所述计算机程序产品在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。5[0001]本申请实施例涉及互联网技术领域,尤其涉及产品分类编码确定方法、系统及相关装置。[0002]生产经营过程中,经常需要对各种产品进行归类识别,以提高分类整理或统计时的效率。例如,财务处需根据不同的商品开具商品增值税发票,其中,开具发票时票面上的商品应与税务总局核定的税收分类编码对应关联,如此才能按分类编码上注明的税率和征收率正确地开具发票,进而提高税务机关统计和分析数据的进程,加强征收管理效率。[0003]实际应用中,如果每张增值税发票都需要人工通过商品名来找它对应的税收分类编码,那人工工作量巨大且重复,再者商品丰富采样,人工分类也容易出错及时效性差。因此,有必要提供高效的产品分类编码确定方法解决上述问题。[0004]本申请实施例提供了产品分类编码确定方法、系统及相关装置,用以根据产品名称快速准确地自动确定其对应的产品分类编码。[0005]本申请实施例第一方面提供一种产品分类编码确定方法,包括:[0007]根据待分类的目标产品全称确定目标产品全称特征;所述目标对应关系确定的目标分类编码,所述目标分类编码用于[0009]可选地,所述将对应相同产品类别的全文式概率值和局部式概率值进行加权融[0010]将对应相同产品类别的全文式概率值和局部式概率值进行求和,得到当前产品类别下的概率小计值;[0011]根据每一概率小计值计算每一产品类别对应的最大差值,并对所有的全文式概率值和局部式概率值求和得到概率总计值;[0012]根据概率小计值、最大差值和概率总计值,计算每一产品类别的融合结果;[0013]根据各融合结果的数值大小过滤得满足融合结果条件的融合结果,其中各概率小计值和/或各融合结果可分别进行大小排序。[0014]本申请实施例第二方面提供一种产品分类编码确定系统,包括:[0015]获取单元,用于获取预先训练完成的目标分类模型,所述目标分类模型由训练样6本对初始分类模型进行机器学习训练得到,所述目标分类模型保存有产品名称和产品类别的目标对应关系,所述训练样本包括已分类产品名称特征、所述已分类产品名称特征对应的分类编码及未分类产品名称特征;[0016]处理单元,用于根据待分类的目标产品全称确定目标产品全称特征;[0017]所述处理单元,还用于将所述目标产品全称特征输入所述目标分类模型,以输出所述目标分类模型依据所述目标对应关系确定的目标分类编码,所述目标分类编码用于表示目标产品所属的产品类别。[0018]可选地,所述获取单元还用于获取训练样本,所述训练样本包括已分类产品名称特征、所述已分类产品名称特征对应的分类编码及未分类产品名称特征;[0019]所述处理单元,还用于使用所述训练样本对所述初始分类模型进行机器学习训练,以得到保存有所述目标对应关系的目标分类模型,其中,所述初始分类模型的模型参数通过使用半监督学习算法定义的损失函数确定。[0021]获取已分类产品全称和未分类产品全称,并对所述已分类产品全称和所述未分类产品全称进行文本预处理,以得到用于组成每一产品全称的名称分词;[0022]确定每一所述名称分词在产品词库中以稀疏向量形式表示的位置索引初始值;[0023]通过词嵌入生成模型将稀疏向量形式的位置索引初始值,转换为稠密向量形式的位置索引映射值,所述位置索引映射值作为训练样本中的产品名称特征用于训练初始分类模型。[0025]将已分类产品全称和未分类产品全称中的字母统一切换为仅大写形式或仅小写[0026]将清洗后的产品名称划分成至少一个名称分词。[0028]获取目标产品全称,并对所述目标产品全称进行包括文本清洗和分词处理的文本预处理,以得到用于组成所述目标产品全称的目标名称分词;[0029]根据所述目标名称分词,转换得与所述已分类产品名称特征同向量维度的目标产品全称特征;[0030]所述处理单元具体用于:将与所述已分类产品名称特征同向量维度的目标产品全称特征,输入所述目标分类模型以确定所述目标分类编码。[0032]当输入目标分类模型的目标产品全称特征由目标名称拼接词获得时,判断所述目标对应关系输出的K个全文式概率值中的最大概率值是否满足全文分类概率阈值,其中,所述K为自定义设置的非零整数,所述目标名称拼接词通过拼接用于组成目标产品全称的多个目标名称分词得到,每一全文式概率值对应一个产品类别;[0033]若判断结果为满足,则确定所述最大概率值对应的产品类别为目标产品所属的目标产品类别,并输出所述目标产品类别对应的分类编码作为所述目标分类编码;[0034]若判断结果为不满足,则将由各目标名称分词中词性为名词的分词获得的目标产品全称特征分别输入所述目标分类模型,以得到目标产品属于不同产品类别的局部式概率7[0035]将对应相同产品类别的全文式概率值和局部式概率值进行加权融合,以确定得对应最大融合结果的产品类别所匹配的分类编码为所述目标分类编码。[0037]判断目标产品全称是否记录在词典文件中,所述词典文件预先保存有已分类产品全称及所述已分类产品全称正确对应的分类编码;[0038]若判断结果为是,则直接输出目标产品全称在所述词典文件中对应记录的分类编码作为所述目标分类编码;[0039]若判断结果为否,则通过所述目标分类模型确定所述目标分类编码。[0041]将对应相同产品类别的全文式概率值和局部式概率值进行求和,得到当前产品类别下的概率小计值;[0042]根据每一概率小计值计算每一产品类别对应的最大差值,并对所有的全文式概率值和局部式概率值求和得到概率总计值;[0044]根据各融合结果的数值大小过滤得满足融合结果条件的融合结果,其中各概率小计值和/或各融合结果可分别进行大小排序。[0045]本申请实施例第三方面提供一种产品分类编码确定装置,包括:[0047]所述存储器为短暂存储存储器或持久存储存储器;[0048]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。[0049]本申请实施例第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。[0050]本申请实施例第五方面提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。[0051]从以上技术方案可以看出,本申请实施例具有以下优点:[0052]本申请实施例的目标分类模型由训练样本对初始分类模型进行机器学习训练得到,且训练样本包括已分类产品名称特征、已分类产品名称对应的产品分类编码及未分类产品名称特征,故目标分类模型保存有产品名称特征和产品类别的目标对应关系,以使得将目标产品全称的目标产品全称特征输入目标分类模型,就能预判出目标产品所属的产品类别及其对应的目标分类编码。因此,本申请实施例通过产品名称就能快而准地自动确定出产品对应的产品分类编码,无需配置大量的人工资源和长时间的结果等待时长,从而提高对产品分类整理或核算等的工作进程,提升用户体验。附图说明[0053]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使8用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。[0054]图1为本申请实施例产品分类编码确定方法的一个流程示意图;[0055]图2为本申请实施例产品分类编码确定方法的另一流程示意图;[0056]图3为本申请实施例产品分类编码确定系统的一个结构示意图;[0057]图4为本申请实施例产品分类编码确定装置的一个结构示意图。具体实施方式[0058]为便于说明和理解,本申请实施例中涉及的名词和术语适用于如下的解释。[0059](1)产品词库(可称为语料库或数据集):用于分析与学习的自然语言文本数据库,包含实际使用中真实出现过的语言材料,这些材料通常经过整理具有既定的格式与标记;示例性地,产品词库中可保存有词典文件。化和特征化。[0061](3)词嵌入:通俗来讲,是指将一个词语(word)转换为一个向量(vector)表示,所以词嵌入有时又被叫作“word2vec”;它是自然语言处理中语言模型与表征学习技术的统称,概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个非词组或词组被映射为实数域上的向量。[0062](4)LSTM网络:长短期记忆网络(LSTM,longshort-termmemory)是一种时间循环神经网络,是为了解决一般的循环神经网络(RNN,recurrentneuralnetwork)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。[0063](5)Docker服务:Docker是一个开源的应用容器引擎,基于go语言并遵从Apache2.0协议开源。总局确定。[0065]下面介绍目前关于如何根据商品名称得到对应税收分类编码的几种传统方法:[0066]1)人工查找方法。先筛选出商品的关键词进行查找,无法直接查进行行业大类的划分,而再进行小类细划分时,无法清除界定归类的,对于货物类则可以按照商品的材料或用途选择最近似的编码,劳务类或服务类则可按照交易实质选择最近似的编码,从而最后根据选择的编码确定商品名称和税率。基于人工查找的方法的局限在于,会[0067]2)半自动税收编码方法及其系统。先提取大量的商品关键词,再将关键词和税收分类编码的映射关系存储到数据库,当需要开具新发票时,只需要得到商品的关键词,利用其关键词去数据库检索,则可获取到对应商品的税收分类编码等信息。其中,半自动税收编码方法及其系统,存在的第一个问题是,事先需要人工筛选商品关键词,但现在很多商品为了提高检索量和推广度,会在商品名称中添加大量的修饰词语,因此在人工筛选关键词这一步会消耗极大的人工工作量;第二个问题是,该数据库记载的关键词数据是有限的,对于一些不在数据库的关键词是没有输出结果的,从而导致识别率低;第三个问题是,大多数情况下该数据库的检索无结果,因此另需利用人工查找方法去选取相应的税收分类编码,不9能做到完全的自动化处理。[0068]下面将以如何根据商品名称获取商品对应的税收分类编码为应用示例,对本申请做进一步的详细说明。[0069]请参阅图1,本申请第一方面提供产品分类编码确定方法的一个实施例,包括:[0071]将分类技术拓展到文本分类识别任务中,有利于解放人工分类劳动力,并提高产品分类结果的输出时效性和准确性。目标分类模型由训练样本对初始分类模型进行机器学习训练得到,目标分类模型保存有产品名称和产品类别的目标对应关系,训练样本包括已分类产品名称特征、已分类产品名称特征对应的分类编码及未分类产品名称特征。例如实际操作过程中,目标对应关系具体可以概率公式的形式呈现,以表明产品名称特征及其所属产品类别的映射关系,进而确定待分类产品(目标产品)所对应的产品分类编码。本申请实施例中的产品名称特征,可理解为用以表征名称文本内容的数据信息,可影响对产品类别及分类编码的预测准确性。[0072]102、根据待分类的目标产品全称确定目标产品全称特征。[0073]因目标分类模型保存有产品名称和产品类别的目标对应关系,故为保证目标分类模型能更好地运用输入量,从而更优地输出分类预测结果,需适应性地先根据待分类的目标产品全称确定出其对应的目标产品全称特征,以便后续将此目标产品全称特征作为输入量投入目标分类模型进行分类预测。[0074]103、将目标产品全称特征输入目标分类模型,以输出目标产品分类编码。[0075]将目标产品全称的目标产品全称特征输入目标分类模型,就能通过当中的目标对应关系预测出目标产品所属的产品类别及其对应的目标分类编码,进而实现由产品名称快而准地自动识别出产品对应的产品分类编码,无需配置大量的人工资源和长时间的结果等待时长,且有利于产品分类整理或核算等进程的开展,提升用户体验。[0076]请参阅图2,本申请第二方面提供产品分类编码确定方法的一个实施例,包括:将产品名称投用至目标分类模型之前,可预先尝试进行规则匹配处理以确定是否可得到目标分类编码;[0078]判断目标产品全称是否记录在词典文件中,词典文件预先保存有已分类产品全称及已分类产品全称正确对应的分类编码;[0079]若判断结果为是,则直接输出目标产品全称在词典文件中对应记录的分类编码作为目标分类编码,从而快速准确地得到分类结果;若判断结果为否,则通过目标分类模型确定目标分类编码,即进入模型预测处理阶段(具体可区分为全文分类式和局部分类式两种模型预测处理阶段)。[0080]另一方面,规则匹配处理的有益之处在于,面对需快速响应和调整模型算法中不能正确分类的情况,例如,对于一条没有在训练数据和词嵌入训练中出现过的商品名称,分类模型难以正确识别出其税收分类编码,所以这种情况下需要(手动)将这些数据加入词典文件中,使得下次训练模型时可以将这些数据加入训练数据中,从而循环迭代地训练分类模型。[0082]若规则匹配处理阶段无法得到分类结果,则可以使用分类模型确定目标产品分类编码。由训练样本对初始分类模型进行机器学习训练的过程,具体可以包括:[0084]因产品及其名称丰富多样具有不断上新或更新的可能,故实际场景中,未确定分类编码的产品(文中或称为无标注产品,已知该产品名称但对应的分类编码未知)相比于已确定好分类编码的产品是大批量的(文中或称为标注产品),为此有必要将无标注产品数据,即仅有产品名而对应税收分类编码的数据,作为训练样本中的一部分用于模型训练。示例性地,可利用大数据平台数据库内已经开好的商品发票数据信息,从中提取商品名称和税收分类编码两个字段,同时剔除字段为空或者明显错误的数据,最终筛选出10万条标注产品(已分类产品)数据,将其中9万条作为训练数据,1万条作为测试数据,数据保存为逗号分隔值csv文本格式或txt格式,标注产品数据实例如下表所示;另外再获取100万条无标注商品(未分类产品)数据,此处获取产品名称的过程可视为构建模型语料库的过程。序号商品名称商品税收分类编码1小柴胡颗粒(芽培)2USB白色单耳导线[0086]在一个具体实施方式中,获取到前述已分类产品全称和未分类产品全称后,需要对这些预作为训练样本数据的产品名称进行如下的特征提取处理:[0087](1)对已分类产品全称和未分类产品全称进行文本预处理,以得到用于组成每一产品全称的名称分词。文本预处理包括对产品全称进行文本清洗和分词处理。[0088]文本清洗过程包括,将已分类产品全称和未分类产品全称中的字母统一切换为仅大写形式或仅小写形式的字母,和/或,去除产品全称中的重复词汇、括号及括号中的文本内容;此目的在于,字母Ab和ab内容本质上一致的,故统一转换字母的大小写形式,有利于降低数据存储的冗余和资源占用。另一方面,税务局制定的税务编码文件表主要对应大概率统计出的产品类别及其分类编码,并不会细化到产品型号或口味等细微的差异性类别上,且产品名称中括号的文本内容多为用以区分产品批号的修饰性词汇,不影响实际对产品类别归属的区分。例如:文本数据“小佳维咀嚼片(香甜柠檬味)(赠品)”首先经过大小写转换的数据没有发生变化,然后使用正则匹配去除文本中括号和括号中的内容,文本则变[0089]分词处理过程包括,将清洗后的产品名称划分成至少一个名称分词,例如,可使用结巴分词或中文词法分析(Lac,lexicalanalysisofchines)等分词工具进行分词处理。[0090]实际应用中,文本清洗的过程具体还可以包括剔除产品全称中的虚词(如助词或连词)等对分类结果意义不大的词汇,以避免后续占用系统资源去处理这些词汇及影响预测时长。[0091]下述步骤(2)和(3)可视为词嵌入生成步骤所包含的操作过程。[0092](2)确定每一名称分词在产品词库中以稀疏向量形式表示的位置索引初始值。[0093]在一个具体实施方式中,位置索引初始值为one-hot形式的V维稀疏向量(V表示产品词库大小),即将每一分词在产品词库中的索引位置置为1,其他位置置为0,如第n个分词在词汇表中的位置索引初始值为xₙ=[1,0,…,0],X={x₁,…,x}表示某一产品全称的n个[0094](3)通过词嵌入生成模型(具体为来自词嵌入生成模型的Embedding矩阵)将稀疏时间步为t-1网络单元的输出,最后对每个时间步的上文和下文信息进行编码得到输出行全连接映射,最后使用Softmax归一化,得到各产品名称特征属于各产品类别的概率,数据和大量的未标记数据来进行模式识别工作。监督训练算法(如最大似然和对抗训练算件熵越小模型越稳定效果越好,熵最小化损失以无监督的方式应用于标注和未标注数据。扰动后模型输出的类别概率的Kullback-LeiblerDiverg[0114]示例性地,最后真正用于模型调参的混合目标损失函数(混合应用上述四种学习(具体可为名词词性),转换得与已分类产品名称特征同向量维度的目标产品全称特征,如映射成300维稠密向量形式的名称特征。步不同,进而影响模型的预测效果;而全文分类情况中,同一产品全称划分得的目标名称拼接词(当中包括的分词词性不限于是名词词性),因是拼接得到的句式,故其在词汇量和词汇表意上更贴近该产品全称的原意,进而得到的模型分类结果更符合该产品的正确标签,如上述移动通信设备;因此,实际应用中,全文分类式模型预测的优先级高于局部分类式模型预测,相当于优先考虑全文分类情况的预测结果,而当此全文预测结果不满足预设条件(如概率结果未达到阈值)时,再考虑采用局部分类式预测及其预测结果。可见,本申请实施例的分类模型能够在语义层面解析文本,同时为用户提供更好更快的识别效果,从而降低人工作业成本和提高用户满意度。[0121]需要说明的是,实际应用中,单个的动词或形容词等非名词词性的单个词汇对识别出产品类别的意义不大,故为避免占用系统资源和延迟响应时长,局部分类式情况中应仅对名词词性的产品名称分词进行特征提取处理,以得到其输入至分类模型的产品名称特征,从而高效地输出局部分类式预测结果。[0123]将与已分类产品名称特征同向量维度(300维稠密向量形式)的目标产品全称特征,输入目标分类模型以确定目标分类编码。[0124]其中输出目标产品分类编码的过程,具体可以[0125]全文分类式处理阶段包括:当输入目标分类模型的目标产品全称特征由目标名称拼接词获得时,判断目标对应关系输出的K个全文式概率值(topK个分类标签结果)中的最大概率值是否满足全文分类概率阈值,其中,K为自定义设置的非零整数,目标名称拼接词通过拼接用于组成目标产品全称的多个目标名称分词得到(具体可以用制表符“\t”进行拼接),每一全文式概率值对应一个产品类别;实际应用中,提供前述topK个分类标签结果有利于提高召回率。[0126]若判断结果为满足,则确定最大概率值对应的产品类别为目标产品所属的目标产品类别,并输出目标产品类别对应的分类编码作为目标分类编码;[0127]局部分类式处理阶段包括:若判断结果为不满足,则将由各目标名称分词中词性为名词的分词获得的目标产品全称特征分别输入目标分类模型,以得到目标产品属于不同产品类别的局部式概率值;[0128]将对应相同产品类别的全文式概率值和局部式概率值进行加权融合,以确定得对应最大融合结果的产品类别所匹配的分类编码为目标分类编码。[0129]在一个具体实施方式中,将对应相同产品类别(同一标签)的全文式概率值和局部[0130]将对应相同产品类别的全文式概率值和局部式概率值进行求和,得到当前产品类别下的概率小计值(可用p表示);根据每一概率小计值计算每一产品类别对应的最大差值,并对所有的全文式概率值和局部式概率值求和得到概率总计值(可用p总表示);根据概率小计值、最大差值和概率总计值,计算每一产品类别的融合结果;根据各融合结果的数值大小过滤得满足融合结果条件的融合结果,其中各概率小计值和/或各融合结果可分别进行大[0131]sub=round((1-p)*10)*0.1,1),round代表“四舍五入函数”,“L」”表示将数值向下取整(floor);融合结果=p/p总+sub,sub的用意在于维持最终的融合结果小于1。[0132]在一个具体实施例中,对应相同产品类别的全文式概率值和局部式概率值进行加权融合的公式还可以为:类别a的全文式概率值×n%+类别a的局部式概率值×(1-n%)=关于同一产品类别a的融合结果,n%为权重系数。[0133]实际应用中,模型训练和代码开发完成后,为了便于部署,可以将整个系统服务打包进容器docker,这样就可以快速便捷地在具有docker环境的机器部署本服务。[0134]步骤220至240类似步骤101至103,具体不再赘述;实际应用中,步骤200与步骤210的先后执行顺序不限,即只要确保启用分类模型进行预测时该模型已训练好即可。[0135]综上,本申请实施例提出了基于LSTM网络半监督文本分类算法在商品税收分类编码中的应用,该方法首先利用海量无标注数据获取数据间的隐含表达,然后使用有标注数据进行对抗训练,以提升模型的鲁棒性和泛化能力,从而使得模型获得更好的分类效果;同时,本模型采用具有语义信息的稠密向量表征商品文本,可进一步提升模型的预测效果。在整个系统的性能上,单次调用的时间稳定维持在几十ms左右,最后本系统方法可采用docker部署服务,以达到快捷部署和使用的效果。因此,本技术方案能够全面提升税分类编码的识别效果。[0136]请参阅图3,本申请第二方面提供一种产品分类编码确定系统的一个实施例,包[0137]获取单元301,用于获取预先训练完成的目标分类模型,目标分类模型由训练样本对初始分类模型进行机器学习训练得到,目标分类模型保存有产品名称和产品类别的目标对应关系,训练样本包括已分类产品名称特征、已分类产品名称特征对应的分类编码及未分类产品名称特征;[0138]处理单元302,用于根据待分类的目标产品全称确定目标产品全称特征;[0139]处理单元302,还用于将目标产品全称特征输入目标分类模型,以输出目标分类模型依据目标对应关系确定的目标分类编码,目标分类编码用于表示目标产品所属的产品类[0140]本申请实施例中,产品分类编码确定系统各单元所执行的操作,与前述第一方面或第一方面的任一具体方法实施例所描述的操作类似,具体此处不再赘述。[0141]请参阅图4,本申请实施例的产品分类编码确定装置400可以包括一个或一个以上中央处理器CPU(CPU,centralprocessing
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年国投航空科技(北京)有限公司招聘备考题库完整答案详解
- 2026年国家空间科学中心质量管理处招聘备考题库含答案详解
- 2026年天津市医源卫生人才服务有限责任公司公开招聘工作人员的备考题库及一套参考答案详解
- 2026年天津市医源卫生人才服务有限责任公司公开招聘工作人员的备考题库及1套完整答案详解
- 2026年中建新科建设发展有限公司招聘备考题库完整答案详解
- 2026年北京协和医院神经科合同制科研助理招聘备考题库及答案详解一套
- 2026年天津市静海区所属部分国有企业面向社会公开招聘工作人员备考题库及参考答案详解一套
- 2026年1112月山东圣翰财贸职业学院韩语教师招聘备考题库及答案详解一套
- 2026年上海对外经贸大学招聘工作人员备考题库参考答案详解
- 2026年哈尔滨电机厂有限责任公司招聘备考题库及1套参考答案详解
- 职业培训师的8堂私房课:修订升级版
- 围产期母婴感染B族链球菌的防治及专家共识防治指南PPT课件院内培训
- 18621客运服务礼仪题库(114道)
- 1例内镜下经鼻腔-蝶窦垂体瘤切除术的护理
- 多园区管理模式下的机制建设
- DB13T 3035-2023 建筑消防设施维护保养技术规范
- 断桥铝门窗工程施工组织方案
- YB/T 070-1995钢锭模
- “孝、悌、忠、信、礼、义、廉、耻”
- 第1章 地理信息系统概述《地理信息系统教程》
- 高中生物试剂大全
评论
0/150
提交评论