




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2-1京津冀地区商务服务业驱动因素及差异研究京津冀地区商务服务业驱动因索及差异研究基于经济普查数据的随机森林与lasso探索分析北京市统计局、国家统计局北京调查总队李刚、范静、李冬浩摘要商务服务业发展是京津冀地区协同发展的重要载体。在当前京津冀一体化背景下,研究 京津冀地区商务服务业的驱动因素及差异,有助于明确本区域未來发展方向与思路。本文 利用第二次经济普查商务服务业企业微观数据,选取了人员、资产、信息技术等指标,经 过数据筛选和分箱预处理后,进行相关性分析、分布探索和可视化描述。在前期分析基础 上,利用两种分箱数据对随机森林、boosting等六种挖掘方法进行十折交义验证,经过比 较筛选,
2、选取mdlp炳分箱数据、随机森林及lasso冋归,确定两种模型的最优参数,并 对模型的预测精度和计算效率进行比较。木文的主要结论有:京津冀地区商务服务业的驳动因索重要性排序基木一致,人力资本 和资产是最主要的驱动因素;驱动因素对不同地区的影响程度差异较大,各因素对北京的 影响程度均高于天津和河北,信息技术和人员索质差异更为明显;京津冀地区协同发展程 度低于江浙沪地区,实现京津冀地区商务服务业一体化发展还有很长的一段路要走。本文 对优化资源配置,实现地区差杲化、协同化发展具有可借鉴性,并为普查资料的开发利用 提供了一种新的思路。关键词:京津冀,商务服务业,交义验证,mdlp爛分箱,随机森林,lo
3、ss。回归目录一、问题的提出及研究综述1(一)问题的提出1(二)研究综述1二、变量选取及数据预处理1(一)基础数据悄(二)变量的选取31. 因变量的选取32. 自变量的选取3(三)数据预处理3三、数据探索分析及可视化5(一)相关性探索5(二)分布探索61. 单变量的分布探索62. 双变量的分布探索8四、京津冀地区商务服务业发展的驱动因索及差异性分析9(一)北京市商务服务业驱动因素建1. 建模方法介绍92. 交叉验证评价建模方法93. 随机森林重要性分析104. lasso回归系数分析125. 随机森林与lasso回归的优劣对比13(二)京津冀地区商务服务业差异分析141. 京津冀地区驱动因素差
4、异142. 基于洛伦兹曲线的地区产业集中度差异分析14(三)模型的结果分析15(四)模型意义及下一步研究计划16五、京津冀地区商务服务业发展存在的问题及政策建议16(一)存在的问题16(二)政策建一、问题的提出及研究综述1(一)问题的提出1(二)研究综述1二、变量选取及数据预处理1(一)基础数据情况1(二)变量的选取31 因变量的选取32.自变量的选取3(三)数据预处理3三、数据探索分析及可视化5(一)相关性探(二)分布探索61 单变量的分布探索62.双变量的分布探索8四、京津冀地区商务服务业发展的驱动因素及差显性分析9(一)北京市商务服务业驷动因素建模91. 建模方法介绍92. 交义验证评价
5、建模方法93. 随机森林重要性分析104. lasso回归系数分析125. 随机森林与lasso回归的优劣对比13(二)京津冀地区商务服务业差异分析142.基于洛伦兹曲线的地区产业集中度差异分析14(三)模型的结果分析15(四)模型意义及下一步研究计划16五、京津冀地区商务服务业发展存在的问题及政策建议16(一)存在的问题16(二)政策建议17据作为数据源。数据共包含90多力个样 本,每个企业样本数据屮包含56个指标。指标包含分类变量和连续变量两类。分类变量 包括行政区划代码、行业代码、登记注册类型、执行会计制度类别、机构类型、控股情 况、营业状态等。连续变量包括从业人员不同学历人数、从业人员
6、数量,资产、存货、所 有者权益、各类资本、营业利润、各项费用、工资福利等财务报表数据,以及计算机数 量、电子商务情况等。我们选取上述数据中行业代码属于商务服务业的35多万条数据进行预处理及建模。基 础数据情况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务业企业数占全国商务服务业企业数的16%,其中北京商务服务业企业数量较 大,分别为天津、河北的4. 9倍和7. 5倍。农1基础数据情况地区服务业数据量商务服务或全国9069043558(京津冀地区141463563(北京市102094420;天津市2235786河北省1701260000-unoo40000一2
7、0000一0-i i行业代码从全国商务服务业企业按行业代码分类柱状图(图1)看到,企业数量排名前四的行业 为:广告业(代码:7440)、社会经济咨询(代码:7433)、其他专业咨询(代码: 7439)和资产管理(代码:7412)。图1全国商务服务业企业按行业代码分类柱状图2据作为数据源。数据共包含90多万个样本,每个企业样本数据中包含56个指标。指标 包含分类变量和连续变量两类。分类变量包括行政区划代码、行业代码、登记注册类型、 执行会计制度类别、机构类型、控股情况、营业状态等。连续变量包括从业人员不同学历人数、从业人员数量,资产、存货、所有者权益、各类资本、营业利润、各项费用、工资 福利等财
8、务报表数据,以及计算机数量、电子商务情况等。我们选取上述数据中行业代码属于商务服务业的35多力条数据进行预处理及建模。基 础数据悄况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务业企业数占全国商务服务业企业数的16%,其小北京商务服务业企业数量较 大,分别为天津、河北的4.9倍和7.5倍。表1基础数据情况地区全国京津冀地区服务业数据量906904141463商务服务哑rar3558(563(北京市河北省1020942235717012420:8656图1全国商务服务业金业按行业代码分类柱状图2据作为数据源。数据共包含90多万个样本,每个企业样本数据中包含56
9、个指标。指标 包含分类变量和连续变量两类。分类变量包括彳亍政区划代码、行业代码、登记注册类型、 执行会计制度类别、机构类型、控股情况、营业状态等。连续变量包括从业人员不同学历 人数、从业人员数量,资产、存货、所有者权益、各类资本、营业利润、各项费用、工资 福利等财务报表数据,以及计算机数量、电了商务情况等。我们选取上述数据中行业代码属于商务服务业的35多万条数据进行预处理及建模。基 础数据悄况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务业企业数占全国商务服务业企业数的16%,其中北京商务服务业企业数量较 大,分别为天津、河北的4. 9倍和7. 5倍。表1基
10、础数据悄况地区服务业数据量商务服务或全国9069043558(京津冀地区141463563(1 1 亠 1 , 北乐巾102094420:天津市2235786河北省1701256山时兽呂豈翌二w占席竺各苹絃芾思侶吉行业代码从全国商务服务业企业按行业代码分类柱状图(图1)看到,企业数量排名前四的行业 为:广告业(代码:7440)、社会经济咨询(代码:7433)、其他专业咨询(代码: 7439)和资产管理(代码:7412)。图1全国商务服务业金业按行业代码分类柱状图2据作为数据源。数据共包含90多万个样本,每个企业样本数据中包含56个指标。指标 包含分类变量和连续变量两类。分类变量包括彳亍政区划代
11、码、行业代码、登记注册类型、 执行会计制度类别、机构类型、控股情况、营业状态等。连续变量包括从业人员不同学历 人数、从业人员数量,资产、存货、所有者权益、各类资本、营业利润、各项费用、工资 福利等财务报表数据,以及计算机数量、电了商务情况等。我们选取上述数据中行业代码属于商务服务业的35多万条数据进行预处理及建模。基 础数据悄况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务业企业数占全国商务服务业企业数的16%,其中北京商务服务业企业数量较 大,分别为天津、河北的4. 9倍和7. 5倍。表1基础数据悄况地区服务业数据量商务服务或全国9069043558(京津
12、冀地区141463563(北京市102094420;天津市2235786河北省1701260000-unoo40000一20000一0-i i行业代码从全国商务服务业企业按行业代码分类柱状图(图1)看到,企业数量排名前四的行业 为:广告业(代码:7440)、社会经济咨询(代码:7433)、其他专业咨询(代码: 7439)和资产管理(代码:7412)。图1全国商务服务业企业按行业代码分类柱状图2据作为数据源。数据共包含90多万个样本,每个企业样本数据中包含56个指标。指标 包含分类变量和连续变量两类。分类变量包括行政区划代码、行业代码、登记注册类型、 执行会计制度类别、机构类型、控股情况、营业状
13、态等。连续变量包括从业人员不同学历人数、从业人员数量,资产、存货、所有者权益、各类资本、营业利润、各项费用、工资 福利等财务报表数据,以及计算机数量、电子商务情况等。我们选取上述数据中行业代码属于商务服务业的35多力条数据进行预处理及建模。基 础数据悄况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务业企业数占全国商务服务业企业数的16%,其小北京商务服务业企业数量较 大,分别为天津、河北的4.9倍和7.5倍。表1基础数据情况地区全国京津冀地区服务业数据量906904141463商务服务哑rar3558(563(北京市河北省102094223571701242
14、0:8656图1全国商务服务业金业按行业代码分类柱状图2据作为数据源。数据共包含90多万个样本,每个企业样本数据中包含56个指标。指标 包含分类变量和连续变量两类。分类变量包括彳亍政区划代码、行业代码、登记注册类型、 执行会计制度类别、机构类型、控股情况、营业状态等。连续变量包括从业人员不同学历 人数、从业人员数量,资产、存货、所有者权益、各类资本、营业利润、各项费用、工资 福利等财务报表数据,以及计算机数量、电了商务情况等。我们选取上述数据中行业代码属于商务服务业的35多万条数据进行预处理及建模。基 础数据悄况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务
15、业企业数占全国商务服务业企业数的16%,其中北京商务服务业企业数量较 大,分别为天津、河北的4. 9倍和7. 5倍。表1基础数据悄况地区服务业数据量商务服务或全国9069043558(京津冀地区141463563(1 1 亠 1 , 北乐巾102094420:天津市2235786河北省1701256山时兽呂豈翌二w占席竺各苹絃芾思侶吉行业代码从全国商务服务业企业按行业代码分类柱状图(图1)看到,企业数量排名前四的行业 为:广告业(代码:7440)、社会经济咨询(代码:7433)、其他专业咨询(代码: 7439)和资产管理(代码:7412)。图1全国商务服务业金业按行业代码分类柱状图2据作为数据
16、源。数据共包含90多万个样本,每个企业样本数据中包含56个指标。指标 包含分类变量和连续变量两类。分类变量包括彳亍政区划代码、行业代码、登记注册类型、 执行会计制度类别、机构类型、控股情况、营业状态等。连续变量包括从业人员不同学历 人数、从业人员数量,资产、存货、所有者权益、各类资本、营业利润、各项费用、工资 福利等财务报表数据,以及计算机数量、电了商务情况等。我们选取上述数据中行业代码属于商务服务业的35多万条数据进行预处理及建模。基 础数据悄况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务业企业数占全国商务服务业企业数的16%,其中北京商务服务业企业数量
17、较 大,分别为天津、河北的4. 9倍和7. 5倍。表1基础数据悄况地区服务业数据量商务服务或全国9069043558(京津冀地区141463563(北京市102094420;天津市2235786河北省1701260000-unoo40000一20000一0-i i行业代码从全国商务服务业企业按行业代码分类柱状图(图1)看到,企业数量排名前四的行业 为:广告业(代码:7440)、社会经济咨询(代码:7433)、其他专业咨询(代码: 7439)和资产管理(代码:7412)。图1全国商务服务业企业按行业代码分类柱状图2据作为数据源。数据共包含90多万个样本,每个企业样本数据中包含56个指标。指标 包
18、含分类变量和连续变量两类。分类变量包括行政区划代码、行业代码、登记注册类型、 执行会计制度类别、机构类型、控股情况、营业状态等。连续变量包括从业人员不同学历人数、从业人员数量,资产、存货、所有者权益、各类资本、营业利润、各项费用、工资 福利等财务报表数据,以及计算机数量、电子商务情况等。我们选取上述数据中行业代码属于商务服务业的35多力条数据进行预处理及建模。基 础数据悄况如表1所示。全国商务服务业企业数占服务业总数的比重接近40%,京津冀地 区商务服务业企业数占全国商务服务业企业数的16%,其小北京商务服务业企业数量较 大,分别为天津、河北的4.9倍和7.5倍。表1基础数据情况地区全国京津冀
19、地区服务业数据量906904141463商务服务哑rar3558(563(北京市河北省1020942235717012420:8656图1全国商务服务业金业按行业代码分类柱状图2得到k个nmse值,其值越小说明模型越优,本文选择10折交叉验证方法对上述六种模 型进行验证比较。分别对北京商务服务业企业的数据在未分箱数据及两种不同分箱方法下,建立了分类 树、随机森林、boosting bagging、svm和lasso回归六种模型,在默认参数设置下发现 随机森林、lasso冋归较优,再针对这两种方法进行参数选择,设置了随机森林的树的个 数200、预选变量数3个以及bsso回归的惩罚限值0.55 (
20、参数选择的具体过程见第木章 3、4节),分别计算10折交叉验证的7mse平均值,交叉验证结果如表5。表5两种分箱方法、六种模型的10折交叉验证7mse平均值nmse平均值分类树随机森林boostingbaggingsvm分位数分组0.4290.3810.5420.534042(mdlp 分组0.42403700.5370.533039s从表5可以得到以下两条结论:(1)基于mdlp爛分组得到的nmse平均值均小于分位数分组法,因此基于mdlp爛分组 的方法更优。本文采用基于mdlp嫡分组得到的分箱数据进行后续建模。(2)随机森林和lasso回归的nmse平均值较小,在后续的分析中选取随机森林和
21、lasso 回归两种方法分析北京的商务服务业驱动因素。3.随机森林重要性分析随机森林对连续变量设置了两种重要性,一种是平均均方误差减少白分比:%lncmse;另一种是平均节点不纯度下降量:incnodepurityo假设因变量为yi,i 1,n, 一共建立了 k棵树,每棵树均存在相应的袋外数据用来计算袋外数据误差,记为erroobl, j, j 1,k,也就是袋外数据的均方误差。对于口变量x,如果将其替换为一组随机的数值,那么xa/yz间没有任何关 系,再次计算袋外数据课差erroob2 j,这样一定会有2err00bl erroobjj,即在x变为随机数值之后,袋外数据的预测误差增大,这两个
22、值差距越大,说明x变量越重要。也就是模型给出的%incmse (均方误差增加百分 比)10得到k个nmse值,其值越小说叨模型越优,木文选择10折交叉验证方法对上述六种模 型进行验证比较。分别对北京商务服务业企业的数据在未分箱数据及两种不同分箱方法f,建立了分类 树、随机森林、boosting、bagging、svm和lasso回归六种模型,在默认参数设置下发现 随机森林、bsso回归较优,再针对这两种方法进行参数选择,设置了随机森林的树的个 数200、预选变量数3个以及lasso冋归的惩罚限值0.55 (参数选择的具体过程见第本章 3、4节),分别计算10折交叉验证的nmse平均值,交叉验证
23、结果如表5。表5两种分箱方法、六种模型的10折交叉验证nmse平均值nmse平均值分类树随机森林boostingbaggingsvm分位数分组0.4290.3810.5420.534042(mdlp 分组0.42403700.5370.533039j从表5可以得到以下两条结论:(1) 基丁7dlp炳分组得到的nmse平均值均小丁分位数分组法,因此基tmdlp爛分组 的方法更优。本文采用皋于mdlp爛分组得到的分箱数据进行后续建模。(2) 随机森林和lasso冋归的nmse平均值较小,在后续的分析中选取随机森林和lasso 回归两种方法分析北京的商务服务业驱动因素。3.随机森林巫要性分析随机森林
24、对连续变量设置了两种重要性,一种是平均均方误差减少白分比:%tncmse;另一种是平均节点不纯度卜降量:incnodcpurityo假设因变量为yi),i 1,n, 一共建立了 k棵树,每棵树均存在相应的袋外数据用來计算袋外数据误差,记为(erroobl, j), j 1,k,也就是袋外数据的均方误差。对于口变量x,如果将其替换为一组随机的数值,那么x与y之间没有任何关 系,再次计算袋外数据误差err00b2 j),这样一定会有2erroobl orroobjj,即在x变为随机数值之后,袋外数据的预测误差增大,这两个值差距越大,说明x变量越重要。也就是模型给岀的%incmse (均方误差增加白
25、分 比)10得到k个nmse值,其值越小说明模型越优,本文选择10折交义验证方法对上述六种模 型进行验证比较。分别对北京商务服务业企业的数据在未分箱数据及两种不同分箱方法下,建立了分类 树、随机森林、boosting、bagging、svm和lasso冋归六种模型,在默认参数设置下发现 随机森林、lasso冋归较优,再针对这两种方法进行参数选择,设置了随机森林的树的个 数200、预选变量数3个以及bsso回归的惩罚限值0.55 (参数选择的具体过程见第木章 3、4节),分别计算10折交叉验证的7mse平均值,交叉验证结果如表5。表5两种分箱方法、六种模型的10折交叉验证7mse平均值nmse平
26、均值分类树随机森林boostingbaggingsvm分位数分组0.4290.3810.5420.534042(mdlp 分组0.42403700.5370.533039s从表5可以得到以下两条结论:(1) 基于mdlp爛分组得到的nmse平均值均小于分位数分组法,因此基于mdlp爛分组 的方法更优。本文采用基于mdlp嫡分组得到的分箱数据进行后续建模。(2) 随机森林和lasso回归的nmse平均值较小,在后续的分析中选取随机森林和lasso 冋归两种方法分析北京的商务服务业驱动因素。3.随机森林匝要性分析随机森林对连续变量设置了两种重要性,一种是平均均方误差减少白分比:%lncmse;另一
27、种是平均节点不纯度下降量:incnodepurityo假设因变量为yi,i 1,n, 一共建立了 k棵树,每棵树均存在相应的袋外数据用来计算袋外数据误差,记为(erroobl, j, j 1,k,也就是袋外数据的均方误差。对于口变量x,如果将其替换为一组随机的数值,那么x与y之间没有任何关 系,再次计算袋外数据误差err00b2j,这样一定会有2err00bl erroobjj,即在x变为随机数值z后,袋外数据的预测误差增大,这两个值差距越大,说明x变量越重要。也就是模型给出的%incmse (均方误差增加百分 比)10得到k个nmse值,其值越小说明模型越优,本文选择10折交叉验证方法对上述
28、六种模 型进行验证比较。分别对北京商务服务业企业的数据在未分箱数据及两种不同分箱方法下,建立了分类 树、随机森林、boosting、bagging、svm和lasso回归六种模型,在默认参数设置下发现 随机森林、lasso回归较优,再针对这两种方法进行参数选择,设置了随机森林的树的个 数200、预选变量数3个以及lasso回归的惩罚限值0.55 (参数选择的具体过程见第木章 3、4节),分别计算10折交叉验证的nmse平均值,交叉验证结果如表5。表5两种分箱方法、六种模型的10折交叉验证7mse平均值nmse平均值分类树随机森林boostingbaggingsvm分位数分组0.4290.381
29、0.5420.5340.42(mdlp 分组0.4240.3700.5370.533039i从表5可以得到以下两条结论:(1)基丁7dlp炳分组得到的nmse平均值均小丁分位数分组法,因此基tmdlp爛分组 的方法更优。本文采用皋于mdlp爛分组得到的分箱数据进行后续建模。(2)随机森林和lasso冋归的nmse平均值较小,在后续的分析中选取随机森林和lasso 回归两种方法分析北京的商务服务业驱动因素。3.随机森林巫要性分析随机森林对连续变量设置了两种觅要性,一种是平均均方误差减少百分比:%tncmse;另一种是平均节点不纯度卜降量:tncnodcpurityo假设因变量为yi,i 1,n,
30、 一共建立了 k棵树,每棵树均存在相应的袋外数据用來计算袋外数据谋差,记为erroobl, j, j 1,k,也就是袋外数据的均方误差。对于口变量x,如果将其替换为一组随机的数值,那么xyz间没有任何关 系,再次计算袋外数据误差erroob2j,这样一定会有2erroobl orroobjj,即在x变为随机数值之后,袋外数据的预测误差增大,这两个值差距越大,说明x变量越重要。也就是模型给出的%incmse (均方误差增加白分 比)10得到k个nmse值,其值越小说明模型越优,本文选择10折交义验证方法对上述六种模 型进行验证比较。分别对北京商务服务业企业的数据在未分箱数据及两种不同分箱方法下,
31、建立了分类 树、随机森林、boosting、bagging、svm和lasso冋归六种模型,在默认参数设置下发现 随机森林、lasso回归较优,再针对这两种方法进行参数选择,设置了随机森林的树的个 数200、预选变量数3个以及lasso回归的惩罚限值0.55 (参数选择的具体过程见第本章 3、4节),分别计算10折交义验证的7mse平均值,交义验证结果如表5。表5两种分箱方法、六种模型的10折交叉验证nmse平均值nmse平均值分类树随机森林boostingbaggingsvm分位数分组0.4290.3810.5420.534042(mdlp 分组0.42403700.5370.533039s
32、从表5可以得到以下两条结论:(1) 基于mdlp爛分组得到的nmse平均值均小于分位数分组法,因此基于mdlp爛分组 的方法更优。本文采用基于mdlp嫡分组得到的分箱数据进行后续建模。(2) 随机森林和lasso回归的nmse平均值较小,在后续的分析中选取随机森林和lasso 冋归两种方法分析北京的商务服务业驱动因素。3.随机森林匝要性分析随机森林对连续变量设置了两种重要性,一种是平均均方误差减少白分比:%lncmse;另一种是平均节点不纯度下降量:incnodepurityo假设因变量为yi,i 1,n, 一共建立了 k棵树,每棵树均存在相应的袋外数据用来计算袋外数据误差,记为(erroob
33、l, j, j 1,k,也就是袋外数据的均方误差。对于口变量x,如果将其替换为一组随机的数值,那么x与y之间没有任何关 系,再次计算袋外数据误差err00b2j,这样一定会有2err00bl erroobjj,即在x变为随机数值z后,袋外数据的预测误差增大,这两个值差距越大,说明x变量越重要。也就是模型给出的%incmse (均方误差增加百分 比)10屮x轴表示企业个数累计帀分比,y轴表示企业利润累计tt分比,将画出的散点图连成 线,得到一条x轴、y轴均为0到1的曲线。曲线距横轴的面积越小,产业集屮度越大, 为了减少某些大企业的影响,采用了璽抽样方法,计算100次抽样的平均值得到了京津冀 地区
34、的产业集屮度,具体情况如表8、图11所示。可以看出,北京与天津的商务服务业企 业利润分布相对集中。表8京津冀和江浙沪地区洛伦兹曲线距横轴而积情况北京天津河北上海江?100次抽样面积平均值0.043560.042930.064270.049990.0弐q 一昼尋个数百分比图11京津冀地区企业洛伦兹曲线(三)模型的结果分析通过以上对于北京市商业服务业驱动因素和京津冀地区z间的差异分析,本文得到了以 下结论:第一,人力资本与资产投入是北京市商务服务业发展最莹要的两个驱动因素,其对于行 业发展的驷动作用明显大于其它进入模型的变量。此外,信息技术水平对于北京商务服务 业发展也具有重要影响。第二,北京借助
35、独特首都优势,吸引大量高素质的劳动力,人力资本效率高于天津、河 北两地,但是却没有对其所获得的资产进行充分运用,导致资产的产出效率较低,资产利 用率相对不足。笫三,从区域整体悄况來看,人力资本和资产因素在京津冀地区商务服务业发展过程屮 都起到主要的驱动作用,但三个区域信息技术水平对行业发展的驱动15作用却不尽相同,其对于北京的驱动作用明显大于天津、河北地区,说明北京市商务服 务业发展对信息技术的依赖性更人。第四,北京和天津商务服务业的产业集中度较高,行业的人部分利润都被少数的大型企 业获得,占有相当数量比例的中小型企业在行业中处于劣势的竞争地位,获得利润空间 小,与大企业的盈利情况差距巨大。第
36、五,不同因素对于京津冀地区商务服务业发展的驱动作用存在显苦差异,但是在江浙 沪地区,这种差异明显较小,说明江浙沪地区商务服务业协同发展模式已经较为成熟,京 津冀地区实现一体化还有很长的一段路要走。(四)模型意义及下一步研究计划木文通过探索性分析和数据挖掘算法对京津冀地区商务服务业企业微观数据展开分析, 发现了区域发展特点与各要素驱动力差异,有以下儿个创新点:模型意义:1将数据挖掘算法应用于经济普查数据,从微观企业数据的角度研究了商务 服务业的发展现状。2.相较大多数的实证研究,更注重于模型在不同数据、不同参数设置 下的模型优劣评价,建模具备一定得合理性。3.随机森林能给出较高预测精度模型但计算 效率较差,lasso预测精度略差但计算效率较高,应用时可根据需求使用不同的方法。下一步研究计划:1本文对多个地区在单个行业上的各类投入耍素驱动力的差异进行了 研究,这种研究思路可以用丁深入研究地区差异化、协同化发展方向,例如对京津冀三个 地区和多个行业分别建模得到各投入要素驱动力差杲,根据不同地区各类行业要素驱动力 差异,可以考虑不同地区重点发展不同行业,达到差异化发展、双赢共促的效果。2.研究 基于2008年经济普杳数据,数据时效性不强,可以考虑使用最新普査数据做进一步研 究。五、京津冀地区商务服务业发展存在的问题及政策建议(-)存在的问题通过前文分析可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康知识培训资料及考卷课件
- 北京市顺义区2023-2024学年九年级下学期中考适应性训练(三模)历史试卷及答案
- 评价器奖惩管理办法
- 新质生产力高质量发展大会
- 学校食堂食品安全突发事件应急处置预案
- 新疆维吾尔自治区高级导游等级考试(导游综合知识)综合能力测试题及答案(2025年)
- 出租车公司安全培训总结课件
- 出国劳务业务课件
- 2025合同审批流程和合同文档管理规范采购合同协议书
- 2025年FIDIC合同框架下EPC工程总承包管理培训教材
- 李毓佩数学历险记
- 3D打印技术(课件)
- (完整版)【钢琴谱】大鱼钢琴谱
- (完整word版)英语四级单词大全
- 取暖器市场需求分析报告
- MATLAB 应用全套课件
- 双侧壁导坑施工工法
- 《培生·小学英语分级阅读80篇》四年级-这套资料难度系数较大
- 2023山东济南市长清区教体系统所属事业单位招聘22人(共500题含答案解析)笔试历年难、易错考点试题含答案附详解
- 城市轨道交通车辆制动系统PPT(高职)完整全套教学课件
- 故宫宫廷文化公司介绍
评论
0/150
提交评论