版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
品本申请公开一种商品数据清洗方法及其装练集训练的分类器对所述测试集中的商品数据根据预测分类标签与原始分类标签之间的误差量的商品数据进行有效数据清洗以获得优质的2确定商品数据集,所述商品数据集包括多个携带原始分类标签采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分的商品数据的深层语义信息,所述深层语义信息包含所述商品数据的文本特征信息和/或标签为该商品数据的分类概率最大的原始分根据商品数据的预测分类标签与原始分类标签之间的误差信息,确对待清洗数据集中的商品数据进行聚类,从训练集中删除聚类结果与原采用第一特征提取模型对所述测试集中的商品数据的商品标题进行深层语义信息提采用第二特征提取模型对所述测试集中的商品数据的商品图片进行深层语义信息提将相同商品数据的所述文本特征信息与图片特征信息拼接为表示该商品数据的深层根据所述测试集中的商品数据的预测分类标签与其原始分类标签淆矩阵中的每个元素用于表征原始分类标签相对应的商品数据被预测为某个预测分类标从所述混淆矩阵内原始分类标签与预测分类标签不一致的元素中,从所述训练集中提取出携带所述目标元素相对应的原始分类标签的商品数据构成待采用预设聚类算法,根据所述待清洗数据集中的商品数据的深层语义信息进行聚类,3统计每个商品数据簇中商品数据所拥有的最大数量的原始确定净化训练集,该净化训练集包括各个已完成数据清洗的所5.根据权利要求1至4中任意一项所述的据集中的商品数据进行聚类,从训练集中删除聚类结果与原始分类标签不一致的商品数在该分类器完成训练后,自所述采用经所述训练集训练的分其中,在所述确定存在错误预测最多的预定数量的多个6.根据权利要求5所述的商品数据清洗方法,其特征在于,本方法还包括如下后续步统计各次训练所得的分类器的预测准确率,所述预测准确确定预测准确率最大的分类器所采用的训练集为最优训练集运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的8.一种计算机可读存储介质,其特征在于,其以4[0001]本申请涉及电商信息技术领域,尤其涉及一种商品数据清洗方法及其相应的装[0007]本申请的首要目的在于解决上述问题至少之一而提供一种商品数据清洗方法及[0011]采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进5[0016]采用分类器计算所述深层语义信息映射到各个所述的原始分类标签相对应的分[0018]采用第一特征提取模型对所述测试集中的商品数据的商品标题进行深层语义信[0019]采用第二特征提取模型对所述测试集中的商品数据的商品图片进行深层语义信[0020]将相同商品数据的所述文本特征信息与图片特征信息拼接为表示该商品数据的[0021]深化的实施例中,根据商品数据的预测分类标签与原始分类标签之间的误差信[0022]根据所述测试集中的商品数据的预测分类标签与其原始分类标签统计出混淆矩[0024]从所述训练集中提取出携带所述目标元素相对应的原始分类标签的商品数据构据簇中未携带该最大数量的原始分类标签的商品数据删除以实现对该商品数据簇的数据6[0032]其中,在所述确定存在错误预测最多的预定数量的多个数据的深层语义信息被分类器正确分类至其原始据的所述文本特征信息与图片特征信息拼接为表示该商品数据的深层语义信息的图文特其中统计数量最大的预定数量的多个目标元素,确定该些目标元素相对应的原始分类标7括各个已完成数据清洗的所述商品数据簇中的述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品计算机程序/指令被处理器执行时实现本申请任意一种实施8[0050]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得[0052]图2为本申请实施例中获取商品数据的深层语义信息进行分类的过程的流程示意[0054]图4为本申请实施例中采用神经网络模型获取图文特征信息的过程的流程示意[0056]图6为本申请实施例中根据预测分类标签与原始分类标签之间的误差信息确定出[0059]图9为本申请的实施例中对迭代清洗过程生成的训练集和分类器进行优选的过程9显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioning包括射频接收器的常规膝上型和/或掌上型计算机或其他设备离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。[0074]本申请示例性说明的一个应用场景是电商领域中的分类任务训练相关的应用场集对分类器进行训练,因此可以借助本申请的技术方案对这些商品数据集进行数据清洗,[0082]步骤S1200、采用经所述训练集训练的分类器对所述测试集中的商品数据的深层空间,当针对一个商品数据的深层语义信息通过Softmax之类的分类器计算出该分类空间类标签的统计数量越大,则该原始分类标签与该预测分类标签之间的类间易混淆性便越述深层语义信息包含所述商品数据的文本特征信息和/或[0101]步骤S1211、采用第一特征提取模型对所述测试集中的商品数据的商品标题进行[0103]步骤S1212、采用第二特征提取模型对所述测试集中的商品数据的商品图片进行[0105]步骤S1213、将相同商品数据的所述文本特征信息与图片特征信息拼接为表示该单独采用所述的图片特征提取模型,单独利用所述文本特征信息或图片特征信息用于分[0108]步骤S1220、采用分类器计算所述深层语义信息映射到各个所述的原始分类标签[0112]步骤S1310、根据所述测试集中的商品数据的预测分类标签与其原始分类标签统表示一个原始分类标签相对应的测试集中的全量商品数据被映射到各个预测分类标签相应优先对这部分统计数量相对应的原始分类标签下的商品数据的K值可以由本领域技术人员灵活设定,后续的实施例中还将揭示该值可以多次调整以优[0117]确定出统计数量最大的K个目标元素之后,便可确定出这些目标元素相对应的原[0118]步骤S1330、从所述训练集中提取出携带所述目标元素相对应的原始分类标签的中确定出的目标元素所对应的原始分类标签的数将该商品数据簇中未携带该最大数量的原始分类标签的商品数据删除以实现对该商品数试集中商品数据的深层语义信息被分类器正确分类至其原始分类各个分类器实例的预测准确率来择取其中最优的分类器用[0141]由于混淆矩阵中的每一行数据表示了一个原始分类标签被映射到分类空间中所类器用于响应商品数据的分类需求而确定商品数据的所述文本特征信息与图片特征信息拼接为表示该商品数据的深层语义信息的图文特个元素用于表征原始分类标签相对应的商品数据被预测为某个预测分类标签的统计数量;误测确定子模块,用于从所述混淆矩阵内原始分类标签与预测分类标签不一致的元素中,集包括各个已完成数据清洗的所述商品数据簇使得处理器实现一种商品数据清洗方法。该计算机设备的处理器用于提供计算和控制能有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所被一个或多个处理器执行时实现本申请任一实施例所述[0156]本领域普通技术人员可以理解实现本申请上述实施例方[0157]综上所述,本申请能够对海量的商品数据进行有效数据清洗以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工企业数字化转型规划
- 国有企业精益管理实施方案
- 工业互联网应用项目可行性研究报告
- 高三班主任学期末工作总结
- 初中九年级英语教案 时态语态整合复习
- 大空间自动跟踪消防水炮安装施工方案
- 托管经营劳动合同
- 保安保洁委托管理合同书
- 污水运营托管合同
- 嘉兴腻子粉仓储托管合同
- 2026年6月汉江国有资本投资集团有限公司招聘14人笔试备考题库及答案详解
- 2026中国中医科学院广安门医院招聘合同制人员29人(护理岗位)笔试模拟试题及答案详解
- 2026年云南省中考英语试卷(含答案及解析)
- 保险学(张洪涛第五版)习题库及答案
- 职业健康素养60条(精)
- 禾大西普化学(四川)有限公司扩能3000吨-年壬二酸项目环境影响报告
- 中东呼吸综合征医疗
- NY/T 388-1999畜禽场环境质量标准
- LY/T 1000-2013容器育苗技术
- GB/T 24425.1-2009普通型钢丝螺套
- GB/T 19873.2-2009机器状态监测与诊断振动状态监测第2部分:振动数据处理、分析与描述
评论
0/150
提交评论