版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本申请公开一种分类模型更新方法及其相预设阈值的候选词作为所述引用文本中的命中与其所属分类以及所述引用文本之间的映射关使分类模型不断引入其对动态新增热点信息的语义理解能力而提升其对于标题文本的安全属2获取具有满足预设时效性的引用文本,对其进行分词以提取融合每个候选词的自信息熵与互信息熵获得每个候选词的信息预设阈值的候选词作为所述引用文本中的命计算每个命中词与预设的分类词库中各个分类的匹配将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将其分类的映射关系作为该引用文本的监督标签,在完成训练后启动所述安全属性分类模得其属于所述分类词库中的各个分类的评分值;输出其中评分值最大的分类的分类标签,调用爬虫接口抓取属于目标地理区域及预设时间从所述网站信息页面中提取出其中的文本信息,将其格式化预处理为所述的引用文统计每个候选词的自信息熵,自信息熵为根据该候适应每个候选词,将其自信息熵与其互信息熵配以不同权重输出信息分值高于预设阈值的候选词作为所述引用文本中的命3将所述命中词与所述预设的分类词库中的关键根据向量化所得的词向量,计算每个命中词与分类词库中各个分类的将每个命中词与所述各个分类的匹配度的对应关系数据存储至所调用所述用于实现标题文本分类的安全属性分类模型所述引用文本在所述预设分类词库的分类结构中所比较所述引用文本的具体分类与该引用文本的命中词的最高匹配度的分类是否一致,接收针对所召回的命中词的匹配度的重新标注数据,将其存储至文本引用模块,用于获取具有满足预设时效性的引用文本,文本评分模块,用于融合每个候选词的自信息熵与互信息熵获分类更新模块,用于计算每个命中词与预设的分类词库语料更新模块,用于将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更模型启动模块,用于启动用于实现标题文本分类的安全属性分类模型爬虫抓取子模块,用于调用爬虫接口抓取属于目标地理区域文本提取子模块,用于从所述网站信息页面中提取出4分值融合子模块,用于适应每个候选词,将其自信息熵与选词冒泡子模块,用于输出信息分值高于预设阈值的候选词作为所述5[0003]近年随着Attention(注意力机制)的兴起,预训练和精调模型(fine-tune)用于NLP语言任务的情况越来越多。首先预训练得到的模型是基于大量完整语义所训练后得到[0007]本申请的目的针对现有技术中存在的至少部分不足而提供一种分类模型更新方6所属分类以及所述引用文本之间的映射关系更新至[0027]将每个命中词与所述各个分类的匹配度的对应关系数据[0030]比较所述引用文本的具体分类与该引用文本的命中词的最高匹配度的分类是否7词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料8[0047]为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介极大提高对潜在风险信息的检测准确率,最大化地减小训练样本打标所需的人力时间成9[0052]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioning包括射频接收器的常规膝上型和/或掌上型计算机或其他设备离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。[0072]请参阅图1所示本申请的分类模型更新方法在其典型实施例中的基本流程示意[0073]步骤S1100、获取具有满足预设时效性的引用文本,对其进行分词以提取出候选将信息分值高于预设阈值的候选词作为所述引用文本中的命[0079]候选词的自信息熵,用来衡量该候选词的自由度。假设一个候选词一共出现了N词按照相应的匹配度聚类至所述各个分类以构成该分类[0087]确定每个命中词的匹配度数据之后,便可将每个命中词存储至所述的分类词库命中词与其所属分类以及所述引用文本之间的映射关系更新所述命中词与其所属分类的映射关系数据则被添加至该语料库中构成该引用文本被用于极大提高对潜在风险信息的检测准确率,最大化地减小训练样本打标所需的人力时间成[0100]步骤S1111、调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息[0104]较佳的,这些网站信息页面可以是政府网站的法律法规[0135]为了获得每个候选词的自信息熵与互信息熵之间的和值选词所在的引用文本中的命中词。虑了候选词与其他字词之间的关联自由度,使得据此所发现的新词更具语义上的准确性,[0147]步骤S1313、将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述[0150]请参阅图5,为进一步实现本申请的方案基于机器学习原理实现自训练的扩展的[0151]步骤S1314、调用所述用于实现标题文本分类的分类模型对所述引用文本进行分[0153]步骤S1315、比较所述引用文本的具体分类与该引用文本的命中词的最高匹配度[0158]请参阅图6,为本申请的分类模型在电商领域的具体应用而进一步扩展的实施例[0164]本实施例的分类模型推荐基于ALBert来实现向量化之后,可以基于Attention机[0168]请参阅图7,本申请实施例还提供一种分类模型更新装置,其包括文本引用模块个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;及时更新,使分类模型经迭代训练
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026内蒙古锡林郭勒盟东乌珠穆沁旗事业单位引进急需紧缺人才3人考试模拟试题及答案解析
- 2026年阿克苏市交通运输系统事业单位人员招聘考试备考试题及答案详解
- 2026福建厦门半导体投资集团有限公司招聘考试参考题库及答案解析
- 2026年崇左市财政系统事业单位人员招聘考试备考试题及答案详解
- 2026湖南大学附属中学校医招聘1人考试模拟试题及答案解析
- 2026 增肌期粉条课件
- 2026年达州市辅警招聘考试备考试题及答案详解
- 2026春季中国南水北调集团文旅发展有限公司 (新闻宣传中心)招聘1人考试备考试题及答案解析
- 2026 儿童餐食设计课件
- 职业规划标准模板
- 2018年四川省绵阳市中考地理试卷(解析版)
- 住院患者身体约束护理团标精神科保护性约束实施及解除专家共识
- 如何成为一个合格的面试官课件
- 小学五年级家长会语文老师的课件
- AI在药物研发中的应用
- 新人教版七至九年级英语单词表
- 关键施工技术、工艺与工程项目实施的重点、难点和解决方案
- 2023年环境卫生(正高)考试历年难点与易错点考核试题3答案解析
- 50套普通话测试题与答案
- GB/T 4325.23-2013钼化学分析方法第23部分:氧量和氮量的测定惰气熔融红外吸收法-热导法
- GB/T 2970-2016厚钢板超声检测方法
评论
0/150
提交评论