版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章概论西华大学机器学习第十三章偷税漏税行为识别分析XXX学校XXX2022目录Contents案例引入模型介绍案例操作
本章知识图谱3案例引入一1案例引入5案例数据:
本案例将以汽车销售行业为例,将提供汽车销售行业纳税人的各个属性和是否偷税漏税的标识。案例目标:
结合汽车销售行业纳税人的各个属性,总结衡量纳税人的经营特征,建立偷税漏税行为的识别模型,识别偷税漏税的纳税人。模型介绍二2模型介绍7
本案例将使用LM神经网络对该问题进行求解,因此先对该方法进行介绍。LM(Levenberg-Marquardt,莱文贝格——马夸特)神经网络算法,是梯度下降法和高斯牛顿法相结合的方法,它综合了这两种算法的优点,在一定程度上克服了基本BP神经网络收敛速度慢和容易陷入局部最小点等问题。LM神经网络算法参数沿着与误差梯度相反的方向移动,使误差函数减小,直到取得极小值。设误差指标函数为:
2模型介绍8
2模型介绍9
案例操作三3.1案例步骤3.1案例步骤收集某地区汽车销售行业的销售情况和纳税情况。数据集中应该提供汽车销售行业纳税人的各个属性与是否偷税漏税的标识。对数据集进行数据探索,查看是否有缺失值、异常值等。利用Step2中的探索结果,对数据进行清洗。并且随机选择80%的数据集作为后续模型的训练样本,20%的数据集作为后续模型的测试样本。利用CART决策树和神经网络分别建立汽车销售行业预测模型,并且对模型进行训练。利用Step4中训练的模型以及Step3中的测试数据集,对模型进行评估测试。对识别结果进行输出。3.2案例实现1、数据获取
本案例为了尽可能覆盖各种偷税漏税方式,收集了不同纳税类别的所有偷税漏税用户和正常用户的纳税情况,以及偷税漏税用户的偷税漏税关键数据指标,共计124条数据。2、数据探索分析
观察所获得的数据,可以知道样本数据包含15个特征属性,分别为14个输入特征和1个输出特征,有纳税人基本信息和经营指标数据。数据探索分析能够及早发现数据是否存在较大差异,并且对数据整体情况有基本的认识。3.2案例实现
运行结果:
根据数据的分布情况可以看出,销售类型主要是国产轿车和进口轿车,销售模式主要是4S店和一级代理商。3.2案例实现3、数据预处理
通过数据探索可以知道数据里存在缺失值和异常值,需要进行预处理,运行结果:4、划分训练数据集与测试数据集
为了保证模型的正确性和合理性,需要将数据集划分为训练数据集和测试数据集。将80%的数据集作为训练数据集,20%的数据集作为测试数据集。3.2案例实现5、构建偷税漏税行为识别模型
由图结果可以看出,准确分类的样本数为:98+1=99;由此可知模型准确率为:99/(99+0+0)=100%。(1)CART决策树分类模型建立2)决策树分类模型评估1)LM神经网络预测结果3.2案例实现(2)LM神经网络模型建立1)LM神经网络预测结果
由图结果可以看出,准确分类的人数为:59+37=96;由此可知模型准确率为:96/(96+0+3)=96.97%2)LM神经网络评估结果3.2案例实现(3)两模型ROC曲线比较
优秀的分类器所对应的ROC曲线应该更加靠近左上角。对比分析,CART决策树的ROC曲线比LM神经网络的ROC曲线更加靠近左上角,说明CART决策树模型的分类性能更好,更加适用于对本案例的偷漏税行为的识别。
思考题19
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东中山板芙镇社区卫生服务中心招聘见习人员3人备考题库带答案详解(巩固)
- 2026浙江宁波报业传媒集团有限公司招聘编辑1人备考题库【培优】附答案详解
- 2026上海交通大学公共卫生学院栾洋课题组博士后招聘备考题库带答案详解(突破训练)
- 2026黑龙江齐齐哈尔市克东县公益性岗位人员招聘60人备考题库(必刷)附答案详解
- 2026湖北武汉市第三医院骨干人才及成熟型人才招聘备考题库附参考答案详解【夺分金卷】
- 2026云南百大物业服务有限公司招聘备考题库附参考答案详解【夺分金卷】
- 2026云南中烟再造烟叶有限责任公司招聘8人备考题库附完整答案详解(各地真题)
- 疾病传播路径模拟
- 2024-2025学年高中化学 第四单元 化学与技术的发展 4.2 表面活性剂 精细化工品教学设计 新人教版选修2
- 新手护士静脉留置针培训
- TSG Z6002-2026 特种设备焊接操作人员考核细则
- 大公国际 -两会解读:北斗规模应用全面拓展的时代意义 202602310
- (2026年)婴幼儿辅食添加营养指南课件
- 2026届江西省上进联考2025-高三11月一轮复习阶段检测英语试卷(解析版)
- 2025年第一批广西广投临港工业有限公司社会招聘35人笔试参考题库附带答案详解
- 2026及未来5年中国羽毛(绒)加工及制品行业市场行情监测及投资前景研判报告
- 二甲医院评价指标任务分解详解
- DG65 Z 012-2023 《分流式整地机》
- 2026年河南应用技术职业学院单招职业适应性测试题库含答案解析
- 2026年六安职业技术学院单招职业适应性考试题库带答案详解(巩固)
- 2026年及未来5年中国天然植物纤维编织工艺品行业市场发展数据监测及投资前景展望报告
评论
0/150
提交评论