大数据支撑下的税收治理解决方案_第1页
大数据支撑下的税收治理解决方案_第2页
大数据支撑下的税收治理解决方案_第3页
大数据支撑下的税收治理解决方案_第4页
大数据支撑下的税收治理解决方案_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据支撑下的税收治理大数据支撑下的税收治理大数据支撑下的税收治理 治理两字,字典上解释为:整治,调理,整修,改造。这是什么意思呢?就是说,治理一定是对已经存在的事物,已经构建并正在运行的事物进行修补、改造、调理、整治,完全没有推倒重来的意思。把握好这个尺度,就不会出现偏差。大数据支撑下的税收治理 治理两字,字典上解释为:整治,调至于税收治理,它是指国家在立法、行政和司法机关之间、中央与地方之间,以及政府、社会组织和公民之间对税收权力的配置和运用,通过彼此之间的合作和互动,以达到引导、控制、管理、协调和服务税收目标的活动。我们沿着这个定义,看看当前税收中有哪些需要治理的呢?第一,立法方面。至于

2、税收治理,它是指国家在立法、行政和司法机关之间、中央与地第二,政策方面。第三,执法方面。第四,司法方面。第一,立法方面。第二,政策方面。第三,执法方面。第四,司法方面。第一,立法方上面列举了税收治理需要做的一些事情,这只是税收治理中很少的一部分,我们换个角度,在下图税收管理的诸方面恐怕能找出更多的需要治理的内容。上面列举了税收治理需要做的一些事情,这只是税收治理中很少的一那么,大数据支撑下的税收治理应该怎么做呢?那么,大数据支撑下的税收治理应该怎么做呢? 第一,要把税收治理当作国家治理体系和治理能力的重要组成部分,治理的根本目的是“降低征纳成本,提高征管效率,增强税法遵从度和纳税人满意度,提高

3、中国税务在国际上的影响力,确保税收职能作用充分有效发挥,促进经济健康发展和社会公平正义。”这是王军局长的话。 第一,要把税收治理当作国家治理体系和治理能力的重要组 第二,鉴于大数据及其应用渗透到税收工作的各个环节和方面,建议成立大数据管理与协调领导小组,统辖大数据战略与全局。进行大数据顶层设计和规划。建立大数据相关制度、机制和工作方法。税收治理仅仅是大数据支撑下整个税收工作的一个方面,要统筹大数据支撑下的各项税收工作的目标、任务、分工和进度。 第二,鉴于大数据及其应用渗透到税收工作的各个环节和方面 第三,数据是首要问题。首先要清楚你心里想要的是什么样的大数据。在此基础上,进一步深入研究并建立大

4、数据的采集、传输、存储、校验、分配、使用和发布的标准及规范体系。根据我们的经验,一项大数据分析,数据整备占60%时间。由此可见,改善税收数据质量是信息管税,加强征管,优化服务与实现大数据分析应用的基本前提和必要准备。 第三,数据是首要问题。首先要清楚你心里想要的是什么样的第四,分析方法是大数据应用的核心。一把钥匙开一把锁,当税务系统内部的数据与外部其他政府部门数据、电商数据、社区数据、银行数据、自然人数据形成跨界数据时,分析方法成了重中之重。第四,分析方法是大数据应用的核心。一把钥匙开一把锁,当税务系 对于指标法,我们的基本判断是,它是眼下税务系统正在使用的主流方法,简答明了,易于理解,它依然

5、可以继续使用,但是你心里要明白,众多定量化的指标只能从某个角度、某个视角反映纳税人的特征,当出现10万家企业,每家企业过筛出100个以上的指标偏离可信区间时,你将如何作出取舍?哪家是你的关注重点?尤其在纳税遵从风险识别任务中,指标法难以全面刻画量化风险。 对于指标法,我们的基本判断是,它是眼下税务系统正在使用 对于传统统计计量方法,我们指的是使用数学模型的方法,包括因子分析、主成分分析、数据包络分析(DEA)、随机前沿分析、判别分析与多元线性回归分析等等。一是不能接受全指标变量,而大数据变量远远超出它的承载能力;二是每一种数学模型都有严格的假设条件,而大数据哪儿去找那么多符合正态分布的数据呢?

6、所以,它的使用会越来越受到大数据及其复杂分析主题的挤压。 对于传统统计计量方法,我们指的是使用数学模型的方法,包 我们最终认定,机器学习法正是面向复杂数据和大数据分析的最优方法。它是在概率论、统计学、逼近论、凸分析等诸多算法的基础上利用计算机强大的解析能力而发展起来的。一是完全不受指标变量约束,自变量100个也行,1万个也行;二是模型完全从数据出发,用一个地区、一个行业、一类客户、一种事务的数据训练出可以反映其内在规律的模型,然后再对新的同类数据做测算。如果训练的数据样本足够丰富,训练的频度足够密集,算法模型就是在不断进化、不断优化、不断逼近真相的过程中。 我们最终认定,机器学习法正是面向复杂

7、数据和大数据分析的 第五,要深入研究并建立强大有效的大数据技术体系。税务大数据应用是难以想象的复杂工程,它是硬件、软件、网络、应用系统、标准、安全、运维、工程、制度、业务、技术、流程、组织、管理、资金、人员的有机结合与团队的联合作战。对此要有足够的思想准备。一定要落实大数据应用的责任主体。 第五,要深入研究并建立强大有效的大数据技术体系。税务大这张图是国家税务总局数据资源建设项目云平台数据管理子项目的结构图。这张图是国家税务总局数据资源建设项目云平台数据管理子项目的结 我们充分注意到,在规划书中提到,这个平台将提供应用基础,为各司局、省局自行开发应用项目提供基础数据和工具,鼓励多样性应用开发,

8、并体现“众包协助”要求,以提供基础数据服务为主,形成数据统一加工和应用多样开发结合的格局。规划书中还表示,这个平台为全国各省局数据开发利用提供从硬件建设、数据治理和应用开发的示范性模板,推进全国税收数据利用水平提升。这些提法为各省自行开发应用项目铺平了道路。 我们充分注意到,在规划书中提到,这个平台将提供应用基础第六,要高度关注并追踪大数据税收法律法规体系的进展,包括上位法的进展。要把握好大数据的采集权和使用权的边界。要尊重大数据应用中的争议解决、仲裁和维权保障的国家法律与规章制度,包括对弱势一方的纳税人的隐私保护和社会公众对税收大数据的知情权和使用权的保护。第六,要高度关注并追踪大数据税收法

9、律法规体系的进展,包括上位第七,要深入研究并建立大数据人才培养体系。实战本领(1)提出分析目标或分析主题的能力;(2)整备数据的能力;(3)选用方法及模型的能力;(4)解析预测结果的能力;第七,要深入研究并建立大数据人才培养体系。一、大数据大数据体量庞大;大数据类型多样;大数据是高速运行的;大数据是沙里淘金,为此,就非得使用大数据的分析方法不可。二、大数据的价值国家观点企业观点专家观点三、大数据的三维解析:理论、实践、技术1.大数据的理论解析2.大数据实践中的三大主体与一个最大推手3.大数据的5项技术四、大数据支撑下的税收治理第一,立法方面第二,政策方面第三,执法方面第四,司法方面大数据支撑下

10、的税收治理应该怎么做呢?共7点建议。报告的提纲一、大数据报告的微观税收流失率测算方法研究一个用大数据机器学习算法模型测算行业税收流失率的完全案例微观税收流失率一个用大数据机器学习算法模型测算税收缺口与税收流失率计算公式1税收缺口与1纳税人应当缴纳的税款与实际缴纳的税款之间的差额1-1 税收缺口定义这里“应当缴纳的税款”是指综合考虑税法条例和税法精神所确定的最终税额。纳税人应当缴纳的税款与实际缴纳的税款之间的差额1-1 税收缺1-2 税收缺口组成结构本讲研究的是税收净缺口1-2 税收缺口组成结构本讲研究的是税收净缺口1-3 税收流失环节如图红线所示,我们只对由于纳税人不遵从税法,进行虚假申报导致

11、的税收流失进行测算。1-3 税收流失环节如图红线所示,我们只对由于纳税人不遵从税(纳税人应当缴纳税额实际缴纳税额)/应当缴纳税额*100%1-4 流失率计算公式等同于:流失金额/(流失金额+实际缴纳税额)*100%(纳税人应当缴纳税额实际缴纳税额)/应当缴纳税额*100%税收流失率测算方法概述2税收流失率2税收流失率测算方法概览税收流失率测算方法概览研究所的测算方案3研究所的测算方案33-0 测算方案总体架构3-0 测算方案总体架构3-1 确定待测总体3-1 确定待测总体主题库地区库时间库行业库规模库税种库未来设想分析样本数据库清洗规则库指标库工具库模型库主题库地区库时间库行业库规模库税种库未

12、来设想分析样本数据库清3-2 形成分析数据库研究所起草了详尽的“数据需求”文档,包括:取数范围、内容和规则的要求。第一步 提出数据需求 3-2 形成分析数据库研究所起草了详尽的“数据第一步 提出明确指出“管理服务类数据、申报征收类数据、税务稽查类数据、财务报表类数据、相关代码表、第三方信息等是数据采集的边界。明确指出“管理服务类数据、申报征收类数据、税务稽查类数据、财考虑到目前国内运转着多个征管软件版本,为了方便各地理解,研究所特别以文字表述方式给出了“取数相关表格内容”。这样,各地、各版本对字段取值不会再产生歧义。考虑到目前国内运转着多个征管软件版本,为了方便各地理解,研究实际采集数据74张

13、表,14.7亿条记录。为此,三下S省第二步 取数与存储 实际采集数据74张表,第二步 取数与存储 第三步 初筛根据S省数据的实际情况,制订了筛选样本企业的规则,对原始数据进行初步清理。初筛规则1.停业户、证件失效户、注销户、注销迁出户等非正常户; 2.进行了税务登记但经确认为起征点以下的纳税户; 3.小规模纳税户; 4.一般纳税人中不缴纳企业所得税的纳税户; 5.该申报而未申报增值税、企业所得税的纳税户第三步 初筛根据S省数据的实际情况,制订了筛选样本企业的规则征收信息财务信息登记信息初筛之后,进一步在登记信息、申报信息、征收信息、财务信息和第三方信息中寻找同时存在的企业户,就此形成分析数据库

14、的初步形态申报信息计:140,937户第四步 寻找交集征收财务登记初筛之后,进一步在登记信息、申报信息、征收申报计第五步 终筛 在分析数据库的初步形态基础上,制订终筛样本企业的规则,形成分析数据库的最终形态终筛规则第五步 终筛 在分析数据库的初步形态基础上,制订终筛能不能不做终筛?不能。指标值为空,如何计算?指标值极度异常,肯定影响分析结果。这里,流动资产占总资产比例1且0,在财务会计原理上无法讲通。能不能不做终筛?不能。不符合常理:总资产周转率为482,104,734次,平均每分钟转917次再举一例不符合常理:再举一例本课题最终确定以2010年 S省 批发零售业107,719户企业作为测算对

15、象大数据支撑下的税收治理解决方案从税额占比看2010年 S省批发和零售业企业所得税为 276 亿元第六步 评估测算样本的代表性样本企业107,719 户261.9亿元95%非样本企业5%107,719户样本企业已有足够代表性从户数占比看从税额占比看2010年 S省批发和零售业第六步 评估测算第七步 指标优化与计算 “宽表”“宽表”!共117个指标(还不包括第三方数据)研究所认为,实现“宽表”是保证税收流失率测算正常开展的基本形态第七步 指标优化与计算 “宽表”第八步 撰写数据质量综合分析报告第八步 撰写数据质量综合分析报告通过这八步,完整地形成了包括数据采集范围、采集内容、存储、清洗、分类、组

16、织、应用准备等一整套的“治数”规则和方法。为课题研究奠定了基础。信息管税的“信息”二字,就是指要对税收经济数据实现全面掌控,非如此,不能管税。更不能应用于科学分析。通过这八步,完整地形成了包括数据采集范围、采集内容、存储、清对于数的理解到此结束。我相信,不管我说的多么言之凿凿,依然会有人认为,仅靠企业自报的数据,是算不出能让人信服的结论的,也就是说,立基于不可信数据基础上的模型测算,基本不靠谱。大数据支撑下的税收治理解决方案我的基本观点是:不是所有企业在所有时间、所有地点、所有税种、所有指标、所有科目上造同样的假!只要有足够大的样本量,依靠计算机的巨大运算能力,是可能实现逐一比对,从而解析出样

17、本群中哪些企业是“正常”的经济行为,哪些企业是“异常”的经济行为!在此基础上,推导出税收行为的差异。我的基本观点是:3-3 测算方法及模型选择3-3 测算方法样本审计推算法国外通用测算方法,有坚实的理论基础周期长、成本高、征纳双方负担较重高度依赖样本数据及人工审核的准确性多长时间做一次多大规模和深度的“抽样”测算,受到经济社会变化和财力的制约一般进行客观的、详细的调查样本审计推算法国外通用测算方法,有坚实的理论基础周期长、成本教科书上通常见到的主成分分析、数据包络分析(DEA)、判别分析与多元线性回归分析都属于经典统计方法。它可用数学公式来表达3-3-2 测算方法二:传统统计方法教科书上通常见

18、到的主成分分析、3-3-2 测算方法二:传统统1、几种传统统计方法在测算流失率中的作用1、几种传统统计方法在测算流失率中的作用10、传统统计方法 简要总结(在满足一定条件的情况下,可用)对原始数据质量要求较高,如用随机前沿法筛选好坏样本时,所用指标不能有空项对数据分布有假定条件。如回归时,要求假定随机误差遵从正态分布10、传统统计方法 简要总结对原始数据质量对数据分布有3-3-3 测算方法三:机器学习法 1、选择新测算方法的必要性中国税收经济数据之复杂, 世所罕见种类繁多数量庞大质量参差不齐既不遵从正态分布又常有数据缺失项传统统计和计量方法已无能为力!此种情况,迫使课题组将目光转向面向复杂数据

19、的机器学习法3-3-3 测算方法三:机器学习法 1、选择新测算方法的2、新测算方法 机器学习法的可选种类决策树/随机森林/支持向量机神经网络/Boosting/Bagging以800户大型企业做测试数据,以9个指标做测试变量,采取5折交叉验证方式,计算每种机器学习法的最小均方误差随机森林 入选3、通过实验来确定入选者2、新测算方法 机器学习法的可选种类决策树/随机森林/支4、何谓随机森林利奥.布雷曼(Leo Breiman)于2001年提出来的随机森林中每一棵决策树相当于一个精通某个领域的专家。对每一个新的输入数据,可以按多种角度加以分析,最终由各个专家投票得到结果是一个组合分类器,其基础分类

20、器称作决策树 h(x,k),k=1,4、利奥.布雷曼随机森林中每一棵决策树相当于一个精通某个领域5、 随机森林下的模型构建5、 随机森林下的模型构建行业代码行业名称511农、林、牧产品批发512+522食品、饮料及烟草制品批发和专门零售513+523纺织、服装及家庭用品批发和专门零售514+524文化、体育用品及器材批发和专门零售515+525医药及医疗器材批发和专门零售516矿产品、建材及化工产品批发517机械设备、五金产品及电子产品批发518贸易经纪与代理519+529其他批发+货摊、无店铺及其他零售业521综合零售526汽车、摩托车、燃料及零配件专门零售527家用电器及电子产品专门零售5

21、28五金、家具及室内装饰材料专门零售初始指标25252525252525252525252525共享指标10101010101010101010101010特色指标94971091078910913优化后指标19141917201920171819201923平均货币资金管理费用销项税额销售收入营业成本进项税额工资总额实际抵扣税额平均所有者权益销售费用财务费用流动资产额资产总额平均固定资产平均应收账款减免所得税额负债进项税额支出平均存货期末留底税额弥补以前年度亏损期初留底税额企业规模类别免抵退货物退税额抵免所得税额平均货币资金管理费用销项税额销售收入运营成本进项税额工资总额平均所有者权益销售费

22、用财务费用6、随机森林下的指标选取与优化行业代码行业名称511农、林、牧产品批发512+522食品、至此,三种最常见、最典型的微观税收流失率测算方已经法介绍完毕。我们认为要允许多种方法并存,要充分实验,只有在较长时期内,经受实践考验,才能“优胜劣汰”!至此,三种最常见、最典型3-4 运行过程3-4 运行过程3-5 结论分析结论分析,是对模型验证、实地验证等多种验证之后的最终测算结果,做出风险分析、征管质量分析和绩效分析等多角度的解析,以应用于工作建议和政策改进。3-5 结论分析结论分析,是对模型验证、实地验证等多种验证机器学习法测算结果展现与解析4机器学习法44-1 S省 2010批发和零售业

23、企业所得税流失户、流失金额、流失率4-1 107719户 样本企业 汇总统计测算流失金额 0,087万元实际申报缴纳税额 , 619,275万元总流失率 14.94%样本企业总户数 107,719户流失户 12,912户流失户比 11.98%107719户 样本企业 汇总统计测算流失金额 (GM-1)样本企业按 规模 分组A 规模(GM-1)样本企业按 规模 分组A 规模(GM-2)按规模分组之 大型企业 组别 流失户、流失金额及流失率测算结果29.12亿元12%户均流失金额1,015万元(GM-2)按规模分组之 大型企业 组别 29.12亿元户均(GM-3)按规模分组之 中型企业 组别 流失

24、户、流失金额及流失率测算结果15.91亿元24.4%户均流失金额45万元(GM-3)按规模分组之 中型企业 组别 15.91亿元户均(GM-4)按规模分组之 小型企业 组别 流失户、流失金额及流失率测算结果0.79亿元29.9%户均流失金额2.16万元(GM-4)按规模分组之 小型企业 组别 0.79亿元户均流(GM-5)按规模分组之 微型企业 组别 流失户、流失金额及流失率测算结果0.19亿元40.3%户均流失金额0.34万元(GM-5)按规模分组之 微型企业 组别 0.19亿元户均流(GM-6)各规模组别 横向比较流失户、流失金额及流失率测算结果(GM-6)各规模组别 横向比较(HY-1)

25、样本企业按 行业 分组B 行业(HY-1)样本企业按 行业 分组B 行业(HY-2)按行业分组之 各组别 流失户测算结果一览(HY-2)按行业分组之 各组别 (HY-3)按行业分组之 各组别 流失金额测算结果一览(HY-3)按行业分组之 各组别 (HY-4)按行业分组之 各组别 流失率测算结果一览(HY-4)按行业分组之 各组别 (GH-1)样本企业按 规模、行业 分组C 规模、行业(GH-1)样本企业按 规模、行业 分组C 规模、行业(GH-2)按规模行业分组之 各组别 流失户测算结果一览按规模行业分组之流失户比(GH-2)按规模行业分组之 各组别 按规模行业分组之流失户(GH-3)按规模行业分组之 各组别 流失金额测算结果一览(GH-3)按规模行业分组之 各组别 (GH-4)按规模行业分组之 各组别 流失率测算结果一览(GH-4)按规模行业分组之 各组别 D 流失金额排位前200名企业的名单流失金额最高的为22,225万元;流失金额最低的为381万元;户均流失金额为1,589万元;D 流失金额排位前200名企业的名单流失金额排位前200名企业(D-1)流失金额占总流失金额的比例1.77亿元总流失金额6.00亿元流失金额排位前200名企业(D-1)流失金额占总流失金额的比流失金额排位前2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论