结合机器学习提升规则维护效率_第1页
结合机器学习提升规则维护效率_第2页
结合机器学习提升规则维护效率_第3页
结合机器学习提升规则维护效率_第4页
结合机器学习提升规则维护效率_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 结合机器学习提升规则维护效率 【摘 要】在大数据的领域中, 对大量数据的文本分析是基石,后面的 所有数据的解析都是依赖与此,规则维 护的效率以及准确率至关重要。本文主 要是对比了目前常用的几种语义分析的 方法,提出了相对来说效率更高,准确 率也能得到保障的方法。 中国论文网 /8/view-12933437.htm 【关键词】文本分析;手工编写 规则;机器学习 1 背景内容 规则维护的办法,目前主要思路 如下:先整理大量的样本数据,先手工 打上各种分类标签或者关键字,然后以 这些手工梳理好后的样本数据或者关键 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 字为基准去手工编写规则。 但是后期随着关键字的变化或者 样本数据的丰富,会发现现有规则的准 确性、覆盖率越来越低,甚至出现大量 的样本数据都匹配不到现在的分类中。 定期对现有规则的维护是一项很重要并 且很必须的工作。 随着规则的积累和样本量的增加, 手工维护规则的工作量会越来越来,为 了保证语义分析的效果,规则开发维护 的人员会越来越多,会使得成本增加; 另一方面因为规则的积累,导致规则混 乱,在累加规则中,甚至会出现在手工 S 护规则后,规则的准确性和覆盖性 越来越低。 2 文本分析常用方法 2.1 手工编写规则 1)提供大量的样本数据; 2)通过人工手动去打上相应的 标签、关键字; 3)数据分析师根据关键词,输 出分类对应的规则; -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 4)再用另外一部分样本去验证 手工编写规则的准确率、覆盖率; 5)对于有明显某些分类的准确 率覆盖率较低的分类,需要专项再重新 去分析优化。 优点: 相应分类样本充足的情况下,准 确率覆盖率都可以达到较高的值。 缺点: 需要大量的业务人员,能够对样 本数据归纳分类; 需要大量的分析师,并且对分析 师要求还较高,需要了解业务,能够通 过大量数据识别关键字进行分析; 编写规则的周期较长; 规则需要定期维护,否则准确率 覆盖率会逐渐降低; 由于样本局限性,在实际应用场 景中,会有大量的数据匹配不到分类; 2.2 机器学习通过训练生成数据 模型 1)提供样本数据(对比手工编 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 写规则的量要小) ; 2)用样本数据做训练,生成数 据模型; 3)用训练后的数据模型验证新 的样本数据; 4)对于准确性较差的分类,需 要再次调整优化数据模型,提高准确率。 优点: 规则周期短; 需要的人力少; 需要样本量相对来说少; 缺点: 整体的准确率达不到手工编写规 则的值; 3 机器学习结合人工编写规则 3.1 方法论的产生 纯手工维护规则,可以使得某些 分类的准确率达到很高,但是输出规则 需要很长的周期,并且也很多人力支撑, 输出的规则很有局限性,不在样本范围 内的规则或者关键字,无法识别,后期 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 需要很高的维 成本; 机器学习通过训练,能够很快速 的生成数据模型,对业务数据进行分析。 但是准确率无法达到手工收工维护规则 的程度。 手工维护规则精度够,但是周期 长、可扩展性不强;机器学习可扩展性 好,周期短,但是精度不够。 那何不集合这两种方法的优点, 提升规则维护效率,缩短规则生成周期, 并且后期维护成本也不用那么高。 3.2 方法步骤 1)提供样本数据(对比手工编 写规则的量要小) ; 2)通过样本数据做训练,生成 数据模型; 3)用训练后的数据模型验证新 的样本数据; 4)对于准确率较差的分类,需 要再次调整优化提高准确性 5)模型训 练后准确性还是较差的分类,手工编写 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 规则,提供准确性; 6)机器学习可以输出相应的关 键字,提高了编写规则的效率; 7)对于后期新增的业务场景和 数据,机器学习可以及时识别,降低了 无法识别分类的概率。 3.3 方法论总结 机器学习和传统的手工编写规则 相结合的方法,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论