基于联机处理货运分析技术研究分项报告西南交大_第1页
基于联机处理货运分析技术研究分项报告西南交大_第2页
基于联机处理货运分析技术研究分项报告西南交大_第3页
基于联机处理货运分析技术研究分项报告西南交大_第4页
基于联机处理货运分析技术研究分项报告西南交大_第5页
已阅读5页,还剩185页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

合同编号报告题目报告类型20167 完成单位合同编号报告题目报告类型20167 完成单位 关键词本课题主要从铁路货运的业务数据库入手,结合需求兑现和经营两个分析主项目背景与研究内 项目背 研究内容及目 联机分析处理研究与应用现 项目背景与研究内 项目背 研究内容及目 联机分析处理研究与应用现 联机分析处理国内外研究现 联机分析处理国内外应用现 货运营销需求分 需求兑 123需求分 装车分 固定台 自定义分 经营收 运量构 费用构 货票费 货运收 物流服 址:四川省成都市二环路北一段111号签字(签字运价下 保价运 自定义查 运价下 保价运 自定义查 运力资源优 车辆需求及分布情况分 货流稳定性识 月度货运量预 潜在需求识 货运营销应用方案研 需求兑现应用方 4需求分 装车分 固定台 自定义分 系统开发成 经营收益应用方 运量构 费用构 货票费 货运收 物流服 运价下 保价运 自定义查 系统开发成 运力资源优化应用方 车辆需求与分布情况分 货流稳定性识别分 月度货运量预测应用方 月度货运量变化特征分 月度货运量预测模型及算法选 月度货运量预测模型案例实月度货运量变化特征分 月度货运量预测模型及算法选 月度货运量预测模型案例实 模型结果意 潜在需求识别应用方 分析目 关键方 数据准 数据分 结果分 结果的应 5技术方案研 总体方案设 数据来源与加 数据来 数据预处 数据整合与存 数据整 数据存 数据分析与应 数据分析的实 数据应 数据展 第1项目背景与研究内项目背第1项目背景与研究内项目背研究内容及目1.需求兑现主题2.经济收益主题(2)提供自定义查询功能以满足临时性的运量统计(2)提供自定义查询功能以满足临时性的运量统计查询需要(3)提供货运收入费用结构的查询、比较,方便使用者通过对信息的比对及占比,向下钻取到各种车型(自备和路用、箱型(自备和路用4统计分析货场和专用线的装车数、运量、货票收入的本期和同期量及第2联机分析处理研究与应用现第2联机分析处理研究与应用现联机分析处理国内外研究现E.F.CoddOLAPOLAP产品的十二条准则。SHLSystemhouseJ.L.Weldon阐述了什么是多维、维的基本特征、多AdvantageInc.R.AdvantageInc.R.TanlerK.DrostOLAP中多维数据处理的特征及基本功OLAP的优缺点作了比较详细的比较和分析。ArborSoftwareCorp.G.Colliat从磁盘占用、输入、输出的速度和数量等方面引用一系列具体另有一些学者对OLAPMOLAPHOLAP。ROLAP是基于关系数据库的联OLAPOLAP服SQL语句执行,然后把执行结果转换成多维试图返回给2.2联机分析处理国内外应用现OLAPOLAP技术的应OLAPOLAPSASMDDBOLAP技术的成熟应用,许多大型企业与跨国SQLServer在金融行业,GreatWesternBank根据MEATGroup2000多家企业中,90%以上的企业已经建立了自己的数据仓库,大约80%的已经投资数据仓库的企业都认为获该数据仓库建设于上世纪80年代,迄今已有30年,沃尔玛也由此获得了巨大的IDC(InternetDataCenter)1997曾进行一项调62家各种规模的采用了数据仓库的公司之后,得到的结论表明他ROI(投资回报率)400%2-3年;若从部门级数据仓库(数据集市)开始实施,则投资回报率超过了500%。货运营销需求分第33.1需求兑需求兑3-1需求兑现框架3.1.1需求分1.预约货运营销需求分第33.1需求兑需求兑3-1需求兑现框架3.1.1需求分1.预约自定义分固定台装车分需求分2.2.订车需(43.1.2装车分1.装车2.兑现分3.1.3固定台1.日历台2.3.1.3固定台1.日历台2.月度台分单位、品类、去向、车种别建立月度别正常订车(不含当日补充订车3.1.4自定义分3.2经营收3-2经营收益框架3.2.1运量构3.2经营收3-2经营收益框架3.2.1运量构自定义查3.2.23.2.2费用构3.2.3货票费3.2.4货运收3.2.5物流服3.2.6运3.2.4货运收3.2.5物流服3.2.6运价下业务需求通过对货票库信息的整合汇总提供使用者按需求进行下浮总量功能需求(1)总量(2)幅度(3)运价号分3.2.7保价运1.(3)运价号分3.2.7保价运1.2.3.3.2.8自定义查3.3运力资源优车辆3.3运力资源优车辆需求及分布情况分3.3.2货流稳定性识1.2.3.4月度货运量预潜在需求识潜在需求识第4货运营销应用方案研需求兑现应用方第4货运营销应用方案研需求兑现应用方需求分4.1.1.1分析目4.1.1.2关键方41需求分析关键方4.1.1.3事实表构4242需求分析事实4.1.1.3事实表构4242需求分析事实业务名预约需求分析、订车需求分分析目了解货运预约需求、订车和受理的变化情事实表需求车数、受理车数、订车选择维操作描按一定周期完成数据统计,计算需求车数、订车数的同比增长率比增长率、受理率等指标,并以多维数据集的方式展输出结理率等指标的分析结果结果意通过对铁路货运预约需求、订车和受理的变化情况的多维分析,铁货运营销人员能够更好的制定营销方案4.1.1.4维度表构1.43时间日周询4.1.1.4维度表构1.43时间日周询44大宗零散45受理渠道46品类47车种44大宗零散45受理渠道46品类47车种月季年48发省49班列4104-11订车方式10.412路局11.48发省49班列4104-11订车方式10.412路局11.413站段12.414车站4.1.1.5数据准41413站段12.414车站4.1.1.5数据准414-1数据仓库关系4-1数据仓库关系TB_BUSI_YSXQ(电子商务系统预约数据表1.基础数据表的建(1)4-24-2路局维数据表的建(2)4-34-3车种维数据表的建4-3车种维数据表的建(3)4-44-4品类维数据表的建(4)4-54-5时间维数据表的建(5)提TB_BUSI_YSXQ(电子商务系统预约数据表)中的相关数据4-64-6事实表的建(64-6事实表的建(6)通过主外键之间的关系,建立表与表之间的关联,如747案例实现数据库关系2.建立多维数据利用SSAS(SQLServerAnalysisServices)(1)(2)4-848数据源视(48数据源视(3)建立多维数据集,如94-9多维数据集的建(4)添加各维度的分析字段,并设置时间维的层次关系,时间维(4)添加各维度的分析字段,并设置时间维的层次关系,时间维层次关410410时间维层次结构的设(5)添加计算度量根据同比增长率环比增长率以及受理率的展示要求Cousin([时间维].[层次结构[时间维].[层次构,(Cousin([时间维].[层次结构[时间维].[层次构环比增长率IIF(ISEMPTY(([Measures].[YTCS],[时间维].[层次结构([Measures].[YTCS],[时间维].[层次结构-预约需求受理率(6)处理多维数据集,并在浏览器中查看结果4.1.1.6数据分1.20144.1.1.6数据分1.20144114-112014年成都局预约需求车数2.201444124-122014年第4季度成都局预约需求车数3.20144134-132014年4-132014年第各月份成都局预约需求车数4.20144144-142014年成都局各车种预约需求车数5.20144154-152014年4-152014年成都局各品类预约需求车数6.20144164-162014年发到别预约需求车数7.20144174-172014年品类去向别预约4-172014年品类去向别预约需求车4.1.2装车分4.1.2.1分析目4.1.2.2关键方基于联机分析处理技术的铁路货运装车分析关键方案如表4-154154装车分析关键方4.1.2.3事实表的构416装车分析事实4装车分析关键方4.1.2.3事实表的构416装车分析事实业务名装车完成分析、兑现分分析目了解货运装车情况、货运生产情况及装车兑现的变化事实表订车数、配车数、装车选择维操作描按一定周期完成数据统计,计算装车数的同比增长率、环比增长输出结输出不同维度的铁路货运装车数、订车数、配车数的基本情况,并结果意通过对铁路货运装车情况以及装车兑现的多维分析,铁路货运营员能够更好的掌握铁路货运的日常经营情4.1.2.4维度表的构417时间418大宗零散日周询月季年4.1.2.4维度表的构417时间418大宗零散日周询月季年419受理渠道420品类421车种422423订车方式419受理渠道420品类421车种422423订车方式424路局425站段426车站数据准418424路局425站段426车站数据准4184-18数据仓库关系4-18数据仓库关系:4.1.3固定台4.1.3.1分析目4.1.3.2关键方4-27固定台账分析关4.1.3.2关键方4-27固定台账分析关键方4.1.3.3事实表的构4-28固定台账事实业务名固定台账分分析目建立正常订车数、装车完成数、本省电煤装车数、省外电煤装车及港口电煤装车数的固定台事实表正常订车数、装车完成数、本省电煤装车数、省外电煤装车数以口电煤装车选择维发省维、时间维、品类维、车种维、路局维、站段维、车站维、电厂操作描基于联机分析处理技术从日历、月度等不同的时间跨度建立不同输出结输出不同维度的铁路货运正常订车数、装车完成数、本省电煤装车数省外电煤装车数以及港口电煤装车数的固定台账分析结果结果意通过建立正常订车数、装车完成数、本省电煤装车数、省外电煤4.1.3.4维度表的构1.429时间日周询月季4.1.3.4维度表的构1.429时间日周询月季430品类431车种432发省433路局434站段430品类431车种432发省433路局434站段年435车站436电厂数据准419435车站436电厂数据准4194-19数据仓库关系4-19数据仓库关系:4.1.4自定义分零散维、分界口维、班列维等维度分析全路、各铁路局、各站段(货运中心4.1.4.1分析目4.1.4.2关键方4374自定义分析关键方案事实表的构4.1.4.2关键方4374自定义分析关键方案事实表的构4-38自定义分析事实业务名分析目提供灵活的查询服务,帮助铁路货运营销人员更为灵活的分析订和装车数的变化情事实表字订车数、装选择维操作描按一定周期完成数据统计,计算订车数和装车数的同比增长率、增长率等指标,并以多维数据集的方式展输出结输出不同维度的铁路货运订车数、装车数的基本情况,并展示同长率、环比增长率等指标的分析结果结果意通过对铁路货运订车和装车数的变化情况的多维分析,铁路货运人员能够更好的制定营销方案4.1.4.4维度表的构1.439时间日周询月季年4.1.4.4维度表的构1.439时间日周询月季年440品类441车种442发省443路局444站段440品类441车种442发省443路局444站段445车站446447大宗零散10.448班列4494.1.4.5数据准445车站446447大宗零散10.448班列4494.1.4.5数据准420420420420数据库关系:4.1.5系统开发成421生产动态首421生产动态首4224224234.2经营收益应用方4.2.1运量构4.2经营收益应用方4.2.1运量构4.2.1.1分析目4.2.1.2关键方4-50运量构成关键方业务名运量构成分4.2.1.3事实表构-4-51运量构成事实4.2.1.3事实表构-4-51运量构成事实分析目找出不同站段、路局,不同品类、不同去向、不同运输方式的运量成情事实表批准车数、批准吨数、货票收选择维品类维、发站路局维、到站路局维、运输方式维、货场维、专用线时间操作描对立方体中的装车送量、到达量、货票收入按照降序进行排列并显示出本期与同期的比输出结的比结果意根据本期与同期的比值,了解货运量的变化趋使用部营销部了解各路局不同情况的货运量及货票收入变化据实际情况制定市场营销方案4.2.1.4维度选452发站路局维453到站路局维4.2.1.4维度选452发站路局维453到站路局维454455456运输方式维457458专用线维454455456运输方式维457458专用线维日月季年4.2.1.5数据准424424数据4.2.1.5数据准424424数据库关系:4.2.2费用构4.2.2.1分析目4.2.2.2关键方4-594.2.2费用构4.2.2.1分析目4.2.2.2关键方4-59费用构成关键方4594.2.2.3事实表构业务名费用构成分分析目查询各发局、货运中心、经营部、作业站、客户的货运收入、费用成的实际数值,及其与基准周期的比值事实表货票收入、铁建基金、电气化费、印花税、保价费、仓储费、车卸费、装载加固费、接取送达费、上门装选择维发局维、货运中心维、经营部维、作业站维、客户维、时间操作描仓储费、车站装卸费、装载加固费、接取送达费、上门装卸费示其与基准周期的输出结电气化费、印花税、保价费、仓储费、车站装卸费、装载加固费取送达费、上门装卸费的大小进行汇总,并输出本期与同期的比结果意根据本期与基准周期的比值,了解收入与费用的变化使用部营销部了解铁路不同层级的货票收入及费用变化趋势际情况制定市场营销方案4-60费用构成事实4-60费用构成事实4.2.2.4维度选461发站路局维462货运中心维463经营部维4.2.2.4维度选461发站路局维462货运中心维463经营部维464作业站维465466数据准425日月季年464作业站维465466数据准425日月季年425数据库关系425数据库关系:4.2.3货票费4.2.3.1分析目4.2.3.2关键方4-67货票费用关键方4674.2.3.3事实表4.2.3.2关键方4-67货票费用关键方4674.2.3.3事实表构业务名货票费用分分析目根据货票号查询每张运单的发到站、发收货单位、统计日期、品名运价号、车种、吨数、运费、基金、电气化统计值事实表选择维品类维、发站路局维、到站路局维、客户维、车种维、运价号维间操作描对立方体中的批准车数、批准吨数、货票合计、运费、基金、电气进行展输出结按货票号对发到站、发到企业、品名、运价号、批准车数、批准吨货票合计、运费、基金、电气化进行统结果意了解每单货票号的具体信使用部营销部信息4-68货票费用事实4.2.3.4维度选469发站路局维4-68货票费用事实4.2.3.4维度选469发站路局维470到站路局维471客户472473日月季年470到站路局维471客户472473日月季年474475运价号维4.2.3.5数据准426426数据库关系474475运价号维4.2.3.5数据准426426数据库关系:4.2.4货运收4.2.4.1分析目4.2.4.2关键方4.2.4货运收4.2.4.1分析目4.2.4.2关键方4-76货运收入关键方业务名货运收入分分析目查询和比较铁路各层级不同品类、不同里程、不同运输方式、不同价号在指定时间段的装车数、运量、里程、货运收入、收入率事实表选择维发站路局维、到站路局维、货运中心维、经营部维、作业站维、客维、运价号维、时间维、品类维、里程维、运输方式操作描品类去向、运输里程距离、集装箱箱型、特种运输、快运班列进示输出结按铁路部门各层级、品类去向、运输里程距离、集装箱箱型、特种输、快运班列输出批准车数、批准吨数、里程、收结果意查询、比较不同层级的货运收入信息使用部营销部势,协助业务部门针对性地开展营销及客户服务工作4.2.4.3事实表构4-77货运收入事实4.2.4.3事实表构4-77货运收入事实4.2.4.4维度选478发站路局维479到站路局维480货运中心维481经营部维4.2.4.4维度选478发站路局维479到站路局维480货运中心维481经营部维482作业站维483484日月季482作业站维483484日月季485486运价号维10)里程维48711)运输方式维488运输方式维4.2.4.5数据准427485486运价号维10)里程维48711)运输方式维488运输方式维4.2.4.5数据准427年427数据库关系427数据库关系:4.2.5物流服4.2.5.1分析目4.2.5.2关键方4-89物流服务关键方4894.2.5.3事实4.2.5.2关键方4-89物流服务关键方4894.2.5.3事实表构业务名物流服务分分析目查询和比较铁路各层级在指定时间段的装运量接取费送达费、仓储费、上门装卸费、货运收入、收入率事实表批准车数、批准吨数、里程、接取费、送达费、仓储费、上门装费、货票收选择维路局维、货运中心维、经营部维、作业站维、客户维、时间操作描对立方体中的批准车数、批准吨数、里程、接取费、送达费、仓储上门装卸费、货票收入按铁路部门各层级进行展输出结按铁路部门各层级输出批准车数、批准吨接取仓储费、上门装卸费、货票收结果意查询、比较不同层级的物流服务信息使用部营销部工作人员可查询、比较不同层级的物流服务信息,掌4-90物流服务事实4.2.5.4维度选 491发站路局维4-90物流服务事实4.2.5.4维度选 491发站路局维492货运中心维493经营部维494作业站维492货运中心维493经营部维494作业站维495 4964.2.5.5数据准428日月季495 4964.2.5.5数据准428日月季年428数据库关系:428数据库关系:4.2.6运价下4.2.6.1分析目4.2.6.2关键方4-97运价下浮关键方4.2.6.3事实表构业务名4-97运价下浮关键方4.2.6.3事实表构业务名运价下浮分分析目不同铁路层级、不同去向、不同品类、不同下浮幅度、不同运价号装车数、运量、里程、货运收入,并计算收入率事实表选择维发站路局维、到站路局维、货运中心维、经营部维、作业站维、客维、运价号维、时间维、品类维、里程维、下降幅度操作描对立方体中的批准车数、批准吨数、里程、货票收入按铁路部门级、品类、去向、下降幅度、运价号进行输出结按铁路部门各层级、品类、去向、下降幅度、运价号输出批准车数批准吨数、里程、货票收结果意提供使用者按需求进行下浮总量、不同运价号下浮及下浮幅度的业信息的查询、比使用部营销部4984-98运价下浮事实4.2.6.4维度选 499发站路局维4984-98运价下浮事实4.2.6.4维度选 499发站路局维4100到站路局维4101货运中心维4102经营部维4103作业站维4100到站路局维4101货运中心维4102经营部维4103作业站维4104客户维4105时间维4106品类维4107运价号维日月季4104客户维4105时间维4106品类维4107运价号维日月季年4108里程维4109下降幅度维4.2.6.5数据准4294108里程维4109下降幅度维4.2.6.5数据准429429数据库关系:429数据库关系:4.2.7保价运4.2.7.1分析目4.2.7.2关键方4-110保价运输关键4.2.7.3事实表构4-111保价运输事实4.2.7.3事实表构4-111保价运输事实业务名保价运输分分析目查询和比较铁路各层级在指定时间段的装车数、运量、保价收入事实表选择维发站路局维、到站路局维、货运中心维、经营部维、作业站维、客维、时间维、保价比例操作描对立方体中的批准车数、批准吨数、保价收入按铁路部门各层级、类、去向、报价比例进行展输出结按铁路部门各层级、品类、去向、报价比例输出批准车保价收结果意查询、比较不同层级的保价业务量使用部营销部工作人员可查询、实时掌握办理保价的业务量布、保价收入情况4.2.7.4维度选 4-112发站路局维 4-113到站路局维4.2.7.4维度选 4-112发站路局维 4-113到站路局维4-114货运中心维4-115经营部维4-116作业站维4-117客户维4-114货运中心维4-115经营部维4-116作业站维4-117客户维4-118时间维4-119品类维4120运价号维日月4-118时间维4-119品类维4120运价号维日月季年4121里程维4.2.7.5数据准4304304121里程维4.2.7.5数据准430430数据库关系:4.2.8自定义查4.2.8.1分析目4.2.8.2关键方4.2.8自定义查4.2.8.1分析目4.2.8.2关键方4-122自定义查询关键方业务名自定义查询分析目运量,并对货源上下游情况进行统计分事实表选择维发站路局维、到站路局维、发站维、到站维、客户维、品类操作描对立方体中的批准车数、批准吨数、里程按铁路部门各层级、品类去向进行展输出结按铁路部门各层级的品类运量、去向运量、客户运量进行展示结果意及时了解品类流向、运量,客户去向、运量,并对货源上下游情况行统计使用部营销部工作人员可自定义查 针对不同区域货源结构、流向情况建立相应货运营销策略4.2.8.3事实表构4-123自定义查询事4.2.8.4维度选4.2.8.3事实表构4-123自定义查询事4.2.8.4维度选4124发站路局维4125到站路局维4126发站维4127发站维4128客户维4124发站路局维4125到站路局维4126发站维4127发站维4128客户维4129时间维4130品类维数据准431日月季4129时间维4130品类维数据准431日月季年431数据库关系431数据库关系:4.2.9系统开发成432经营收益首432经营收益首4.3运力资源优化应用方车辆需求与分布情况分OLAP4.3.1.1分析目OLAP4.3.1.2关键方4.3.1.1分析目OLAP4.3.1.2关键方4-131车辆需求与分布分析关键方4.3.1.3事实表构4-132车辆需求与分布情况分析事4.3.1.4维度选41334.3.1.3事实表构4-132车辆需求与分布情况分析事4.3.1.4维度选4133413441354136日月季年413441354136日月季年4.3.1.5数据准4334.3.1.5数据准433433数据库关系:4.3.2货流稳定性识别分4.3.2.1分析目关键方表货流稳定性识别分析关键方4.3.2.1分析目关键方表货流稳定性识别分析关键方算法选分析一段时间内,某车种在两个及以上路局之间循环流动的数量,这说明这种类型的车辆在这几个路局之间能够形成稳定的货间信度进行确定,并获取数据当中潜在的规则。该算法首先要确定的是频繁信度进行确定,并获取数据当中潜在的规则。该算法首先要确定的是频繁1项现的次数(即支持度1项集,将其记做L1。1项集L12项集L2,并以此类推。如k项集Lkk+1项集,那行扫描,kk项集Ck,随后对数据库进行扫描,将不满足条件的项集删除,然后才能获得频繁k项集。重要基础,这是因为在由频繁项集Lk-1确定频繁项集Lk的时候需要进行两个重操作一:连接。所谓连接主要是指,在得到频繁项集Lk-1以后,对频繁项集Lk的候选集Ck进行确定,并最终确定频繁项集Lk。现假定频繁项集Lk-1当中有两个项集L1和L2,而Li当中的第j项记做Li[j],而且假定各项已经进行排序,即在频繁项集Li当中,符合条件Li[1]Li[2], ,Li[k1]。现在将Lk-1和(L1[1]=L2[1]&&L1[2]=L2 L1[k2]=L2[k2&&L1[k1]那么L1和L2之间便可以连接,连接后的表示方式是 ,L1[k1],L2[k其中,连接操作记做Lk-1&Lk-1。换句话讲,如果频繁项集L1和频繁项集L2的前k-2项完全相同,那么频繁项集L1和频繁项集L2便可以进行连接操作。操作二:剪枝。这里假定候选频繁项集Ck是频繁项集Lk的超集,那么集Ck当中,也就是说Lk集Ck当中,也就是说LkCk。然后算法执行数据库扫描操作,计算出候选频繁项集Ck当中每个元素的支持度,只有超过最小支持度的元素才属于频繁项集Lk。输出:频繁项集L。(1)L1for(k2;Lk1;k)DOBEGINforeachtDDOBEGIN//foreachcCtDOc.countLk{cCk|c.countRerurnLUkLkk-1k序列,然后通过对数据集的扫描来确定频繁k序列。总的来看,Apriori算法在对数据集进行挖掘的时候存在如下几个优势:第生的候选项集不大;第二,Apriori算法主要利用了候选频繁项集和频繁项集之不会出现遗漏;第三,Apriori算法易于编程实现[36]4.3.2.4数据准4-138车辆流转初始货运单发站发站代到达日出库日4-138车辆流转初始货运单发站发站代到达日出库日 4-139车辆 4-139车辆流转路径EPCST-1001<2014/1/7>,ST-1001<2014/1/15>,ST-1020<2014/1/23>,ST-1020<2014/1/26>,ST-1001<2014/1/7>,ST-1001<2014/1/19>,ST-1002<2014/1/8>,ST-1002<2014/1/10>,ST-1004<2014/1/8>,ST-1004<2014/1/18>,ST-1005<2014/1/18>,ST-1005<2014/1/21>,ST-1015<2014/1/28>,ST-1015<2014/2/3>,ST-1007<2014/1/8>,ST-1007<2014/1/18>,ST-1014<2014/1/25>,ST-1014<2014/2/4>,ST-1015<2014/2/10>,ST-1015<2014/2/14>,ST-1026<2014/2/20>,ST-地点维压缩的主要作用是,将路径数据压缩为形如Location,Time-S,Time-E地点维压缩的主要作用是,将路径数据压缩为形如Location,Time-S,Time-E)的数据单元。其中,EPC表示的是车辆数据的唯一标识,Location表的是离开该路局的最终时间。在下表中,EPC编码为201301FH136064的车辆ST-10012014/1/7ST-1001的路局的最终时间2014/1/15,进入编码为ST-1020的路局的起始时间为的路径信息可以压缩为:201301FH136064:(ST-1001<2014/1/7,2014/1/15>,ST--4-140地点维压缩后的车辆路径信车辆编<Location,Time-S,Time-在经过地点维压缩处理以后,车辆流转数据便转化成为形如即时间维压缩。可以将序列数据进一步精简为<Location,Time-S>4141表经过时间维压即时间维压缩。可以将序列数据进一步精简为<Location,Time-S>4141表经过时间维压缩后的车辆路径信息车辆编<Location,Time-S,Time-4.3.2.5数据分B=P(A后使用Matlab进行运算,得到的结果为:4-34实验一挖掘结4-142经过时间计算的车辆流向信车辆编++-……0.051133ST-1003ST-1001133-51=820.082。均符合第二支持度的标准,其对应的均衡度取值为13=0.0510.082=0.624-35实验二挖掘结4-35实验二挖掘结4-143经过时间计算的车辆流向信车辆编++-……1001114-20=94次,对应的第二支持度取值为0.094。第二支持度取值并不完全满足条件,因此判断ST-1001ST-1005之间不存在封闭环。Matlab进行运算,得到的结果为:4-36实验三挖掘结4-36实验三挖掘结4-144经过时间计算的车辆流向信车辆编++-……“+60ST-1001ST-100460个,对0.06113ST-1003ST-1001ST-1001ST-1005之间存在封闭环。其对应的均衡度取值为14=0.060.053=1.13Matlab进行运算,得到的结果为:4-37实验四挖掘结4-145经过时间4-37实验四挖掘结4-145经过时间计算的车辆流向信++--++++-+…………4-38三点环流车辆流转信ST-1003ST-10040.1ST-1001第二个频繁 序列,即<ST-1001,ST-1004,ST-1005>的分析方法与第一频繁34.3.2.6结果分Apriori1月份、2月份、3月份的数据进行挖掘,共得到三个频繁2项集,分别是:<(ST-1001,ST-1003,133>,<(S-1001,ST-1005,114>,<(ST-1001,ST-1004,113>,但是这里的支持度包含两个方面的数据,一方ST-1001ST-10041.13ST-1001ST-Apriori3ST-1001ST-10041.13ST-1001ST-Apriori33项集对应节4.4月度货运量预测应用方月度货运量变化特征分动性在铁路月度货运量中尤为明显。铁路月度货运量的发展存在双重周期性:2005120141112020141241464-1462006-201511月我国铁路月度货运 1 23456789(23456789(1)时间特征之一:小波动持续性增长趋2006年4-39铁路货运量月度折线4-39显示我国铁路货运量长期发展演变情况。图中较为明显的显现2006年至201511月我国铁路月度货运量的时间序列呈现出明显直线增长趋我国铁路货运量月度数据折线0(2)时间特征之二:周期性不均衡循环波为(2)时间特征之二:周期性不均衡循环波为研究货运量周期性波动趋势的特点,还需进一步研究不同周期间的变化律和特征,因此可以从年度横断面数据来分析,绘制历年我国铁路月度货运量4-40我国铁路货运量数据年度变化折线4-40可见,对比各年度间的我国铁路月度货运量数据,可见2006年2015年我国铁路货运量年度波动趋势比较接近,整体呈现出以年份为周期的阶段,2月跌至低谷,3~10月小幅度波动增长10月时达到局部峰值,之后在11月份出现小幅度下降,12月增长并再次达到高峰。1月、12月(冬季)高峰期和6月、7月(夏季)高峰期都是因为全国电煤用量明显增多所致。个别数据现出的明显的差异性,基本都是源于投资波动、制度和政策变动、产业结构的盾以及自然灾害的影响,是客观事实的真实体现,并不影响对整体数据的变化律把握月度货运量预测模型及算法选铁路货运量是一个存在季节和周期变化趋势、并存在一定增长(或降低)序列的预测问题。为此,铁路货运量短期预测采用Holt-Winters模型,以提高我国铁路货运量数据年度变化折线1 2 3 4 5 6 7 8 9 10月11月122005 2006 2007 2008 20092010 2011 2012 2013 2014Holt-Winters模型的基本思想是把具体线性趋势、季节变动和随机变动的时U(1b(4-Ft tHolt-Winters模型的基本思想是把具体线性趋势、季节变动和随机变动的时U(1b(4-Ft tttbt(UtUt1)(1(4-F (1(4-ttUt式中:Utt平均数;btt时刻的趋势项,是时间序列变化趋势的指数平滑平均数;Ftt时刻的季节项,是季节因子的指数平滑平均数;dtt时刻的实际值;L长度或时间周期;α、β、γ分别为平滑系数,在(0,1)2nn2d d(4- i,,iftm(Utmbt)Ft(4-节因子Ft-1均数bt-1对前一时刻平均数Ut-1进行修正,并用Ut-Ut-1与上期趋势增量进行加γ(0<γ<1),进一步改善了季节变化对预测结果算机编程,通过穷举3个平滑系数(从01)nLddiU0di算机编程,通过穷举3个平滑系数(从01)nLddiU0di,b0d2i(4-(n/diL1/(n/L) F(4-td推,每次分别计算指数平滑因子Ut、bt、Ft及预测值ft+m月度货运量预测模型案例实-4-4106-11年每月货运量散点1212442拟合效果443201212个月的货运量预4442012年预测曲线4442012年预测曲线80%的置信区间并检验预测效果检验延迟1- 4-45延迟1-20阶与货运量预测残差关系4-46预测误差直方由图4-454.4.4模型结果意高峰阶段,2月跌至低谷,3~10月小幅度波动增长,在10月时达到局部峰值,11月份出现小幅度下降,12月增长并再次达到高峰。1月、12月(冬季6月、7月(夏季)潜在需求识别应用方6月、7月(夏季)潜在需求识别应用方4.5.1分析目4.5.2关键方4-147潜在需求识别关键方业务名分析目分析铁路货运产品之间的关联性,进而识别铁路货运客户的潜在所需数客户历史交易数据,主要为订单数据操作描利用数据挖掘技术对客户历史交易数据进行关联规则分析,得出货运产品之间的关联,进而根据得出的规则识别客户的潜在需输出结输出产品之间的关联规则以及客户的潜在需求情4.5.3数据准01。0表示客户未选择这一产品,1表示4148客户需求提报信息需求受取货服送货服仓4.5.3数据准01。0表示客户未选择这一产品,1表示4148客户需求提报信息需求受取货服送货服仓储服上门装上门卸装再加材100101011010101100100001011010…结果意通过对铁路货运客户历史交易数据进行关联规则分析能够帮助铁4.5.4数据分4.5.4.1模型建4.5.4数据分4.5.4.1模型建Apriori算法对铁路货运客户购买数据集进行关联分析。在完成对分析所需447铁路货运潜在需求识别流4484-48样本质量评估4494-4494-49样本分部情况4.5.4.2模型的评10%80%450数据450数据挖掘结4.5.5结果分4-51铁路货运产品关联规4-51铁路货运产品关联规仓储服务,这一则的confidence=94.788%,support=37.167%,也就是说,每100个客户当中,在所有的客户当中,有37.167%满足这一规则。4.5.6结果的应通过关联分析得到的规则集,铁路货运即可进行潜在客户需求的识别。将项作为筛选条件,筛选出只满足前项而不满足后项的需求提报信息,进而向该户推荐后项的服务内容,进而实现精准营销。例如,筛选到某一客户购买了上卸车和送货服务,却没有购买仓储服务,即可向其推荐仓储服技术方案研第5用技术方案研第5用技术方案进行讨论,主要目的在于建立能够实现数据管理、数据挖掘、分析的系统5.1总体方案设本系统所涉及到的内容可以分为如下几点:第一,数据来源层;第二,数加工层;第三,数据整合存储层;第四,数据应用层;第五,数据展示层,通对这些数据的统一管理与分析,来发掘隐藏于数据当中的有用信息,进而为铁局的决策提供帮助在分析业务需求的基础上,此处对本系统的总体架构设计如下图5-1数据集数据集数据集标准字统一统运输集成平货票系电子商务系数据抽取、清洗、转换、装数据挖联机分析处统计查其它应经营收益分需求兑现分5-1系统总体架构5-1系统总体架构预处理操作(ETL,为构建数据仓库做好数据准备工作。数据整合存储包括由数据获取和预处理形成的ODS和数据仓库(DataarehouseDWODS也可以作为数据分析结果的存OLAPServer利用软件工具从数据仓库中提取分析所需数据形成数据立方体,表、Excel5.2数据来源与加数据来源与加工基本包括明确数据源,根据数据来源系统的不同进行5.2数据来源与加数据来源与加工基本包括明确数据源,根据数据来源系统的不同进行相应ETL处理,将处理好的数据加载到操作数据存储(ODS)中,方便进行数据分和展示。本小节主要是总体架构的第一层和第二层,如下图红框图5-2所示数据集数据集数据集5-2数据来源与加5.2.1数据来基于联机处理的货运营销分析技术方案所需数据主要来源于铁路货运电商务平台及运输集成平台的内部数据,基本涉及到货票基本信息、订车信息、车信息、运单信息、运输需求信息等。本技术方案的数据获取与预处理、数据标准字典信 统一统计口运输集成平货票系电子商务系数据抽取、清洗、转换、装数据挖联机分析处统计查其它应经营收益分需求兑现分5.2.2数据预处(Extract5.2.2数据预处(Extract(ransfrm证海洋环境数据仓库数据质量、数据规范及标准化的关键环节。ETL通过对来构造铁路货运数据仓库。铁路货运ETL的流程如下:将基础数据仓库中的数据抽取、清理、转换、一体化并集成到操作型数据存储(OperationalDataStore,入、修改、删除等操作后,ETL将通过调度定时更新铁路货运数据仓库中的数53铁路ETL过抽数据源 数据集 清理、转加 数据仓抽 清理、转数据源 数据集12类型有:OCI(12类型有:OCI(OracleCallinterface、ODBC、OLEDB、JDBC等。ETLETL(2)ETL的数据源对象以铁路货运的订单信息为例。具体如下5454创建数据流54创建数据流任图5-5表示为订单信息创建数据流任务,以便对数据源进行操作,数据流务包含对数据源所做的所有操作5创建数据源图5-5表示在数据流任务编辑界面添加了连接到目标数据源的组件,名5-6Excel连接管理5-6Excel连接管理56表示管理器Excel源编辑器中选1作OLEDB连57OLEDB连接管理Excel源编辑页面选择所Excel货票基本信息表58OLEDB58OLEDB编辑器中编辑货票基本信息表的可用外部列,即是选择用来输入的属性。默认择所有可用属性59创建数据转图5-9表示在数据流任务中添加了一个数据转换,主要用于将数据源中某属性的数据类型转换为目标数据库要求的数据类型510编辑数据510编辑数据转511创建目标表连5-12表示对OLEDB目标进行编辑,选择数据库“TLHYYX”进行连接513选择表编OLEDB息表,该表主要是通过SQL语言创建514运行数据流任514运行数据流任图5-14表示运行已经创建好的数据流任务,图中显示的数据窗口为数据加ODS中的预览,是数据ODS中存储形式515ODS中的订单信5-15表示加载到ODS中的运输需求基础数据表,显示存储着订单业务细节数据(3)根据上述的操作过程对各数据源进行类似的操作,最终形成ODS,包括票基本信息根据上述的操作过程对各数据源进行类似的操作,最终形成ODS,包括票基本信息、运输需求基础数据表、订车需求基础数据、运单发车信息、运单达信息、路局信息、货运中心信息、营业站信息、作业站信息、车种信息、品信息等5.3数据整合与存数据整合与存储主要是实现分散、不一致的数据的整合,消除不同来源的据间的不一致,使其成为统一的整体并有效的组织数据的储存。数据整合与存标准字统一统5数据整合与存储运输集成平货票系电子商务系数据抽取、清洗、转换、装数据集 数据挖联机分析处统计查其它应经营收益分需求兑现分5.3.1数据整(XQuery,SQL5.3.1数据整(XQuery,SQL5151数据表与数据来数据类数据数据来预约数I(TB_BUSI_WLXQ客户数(TB_UNIT表(TB_UNIT_INFO),字典发货单位表(TB_UNIT_INFO),字典发货单位订车数(TB_BUSI_ZCRBJH调系统货票数HPJBXX息(HPJFXX),货票品名信息(HPPMXX)基础字字典品类(TB_ZD_PL、字典路局字典车种(TB_ZD_CZ、字典车务段(TB_ZD_CWD)(TB_ZD_FTZ)、字典收特征(TB_ZD_STZ)、字典专用线(TB_ZD_ZYX)(TB_ZD_FJ(TB_ZD_SB(TB_ZD_TZ(TB_ZD_GK)(TB_ZD_HWTZ)(_OLAPOLAPMOLAP,MOLAP(Multi-DimensionalOLAP)OLAPOLAPMOLAP,MOLAP(Multi-DimensionalOLAP),多维联机分析处理。MOLAPROLAP(RelationalOLAP),关系型联机分析处理。ROLAP在功能上类似于HOLAP,混合型。HOLAP不仅仅是MOLAPROLAP的简单组合,而是5.3.252具体设事实主要字主事实主要字主TJJJ、YHS、DQHF、XSYF、BJF等维度主要字主DatekeyDateYearSemi-annualCalendarQuarter、Month、Ten- DM、JC、QC、PYMBLDM、HCDM、基于联机处理的货运营销分析所需数据整合结果如517517货运营销数据整合结1基于联机处理的货运营销分析所需数据整合结果如517517货运营销数据整合结1(XQSLHSEQNUM分维度能够直接通过主键与相应的事实表关联,例如:客户维可以直接通过4SEQNUM分维度能够直接通过主键与相应的事实表关联,例如:客户维可以直接通过43753路局-货运中心-营业部-作业站关系具体的软件实现结果如518所示5185.3.2数据存数据存储的形式主要有操作型具体的软件实现结果如518所示5185.3.2数据存数据存储的形式主要有操作型数据存储区和数据仓库,也就是常说DW。ODS是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是面向主题的、集成的、可变的、反映当数据值的和详细的数据的集合,其最大特点是数据可更新的,甚至由业务系统过触发器直接更新。因此,ODS是业务系统和数据仓库之间的数据存储区域,来满足企业综合的、集成的以及操作型的处理需求。数据仓库是一个面向主题Oriented(Integrateolatile作业站所属营业部代作业站所属营业部名营业部所属货运中心代营业部所属货运中心名货运中心所属路局代货运中心所属路局名ODS中实现历史数据的长期存储,从而能ODS中实现历史数据的长期存储,从而能1、ODS在数据获取和预处理过程中,ODS的构建和设计对于企业数据统一管理,从扩展性和有效性上来看十分必要。一般来说,设置ODS会有以下功能。比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODSODS的数据仓库体系结构中,DW层所存储的数据都是进二、ODS1、ODS据库、SQLServer数据库等一些主流的数据库,建议采用与业务系统一致的Oracle数据库,降低维护数据库的成本。存储期限:指的是集成的数据在ODS中的存储期限。由于ODS中数据经常ODS中的数据不会为三个月,ODS中的数据会根据数据仓库的加载周期来加载到数据仓库中,对2、数据仓库的存储模2、数据仓库的存储模事实表含有大量数据,没有冗余。如图5-19519步分解到附加表中。模式图形成类似于雪花的形状。如图5-205205-21521事实星座模521事实星座模三、ODSODS5225-22ODS中的5-22ODS中的部分数据数据仓库的物理实现主要是将ODS中的数据加载到数据仓库中的实际操过程。该物理实现过程以某种数据库软件为工具示例,创建相应数据库作为数存储载体。采用某种软件作为数据加载工具,具体实现过程如图5-23所示523新建数据5-23表示利用该软件新建数据源524选择数据524选择数据5-25完成新建数据图5-26表示利用该软件完成新建数据源5-26新建数5-26新建数据源向图5-26表示利用该软件新建数据源向导5-27完成新建数据源图5-27表示利用该软件完成新建数据源向导5-28新建5-28新建SQLServer导入和导出5-28表示利用该软件新建SQLServer导入和导出向导5-29连接数据-据图5-30表示在向导中选择数据仓库所在的数据库作为数据加载的目标库,便数据能加载到存储载体531编辑SQL5-31表示编写SQL语句用于从ODS订单信息表中提取所需属性,以组目标表的属性字段图5-32表示在源和目标之间编辑映射关系,可以修改数据类型、大小、精等参数,也可以编辑用于创建目标表的SQL语句533表示执行成功状态,即已经将所需数据加载到数据仓库所在的目标中图5-34表示已经加载到数据仓库中的时间维表,显示的就是所需的数据求基础数据表、货票基本信息表、运输需求基础数据表、班列维、车种维、大零散维等5.4数据分析与应数据分析指的是利用各种数据分析应用对数据存储层中的数据进行挖掘析,本方案主要采用OLAP(在线联机处理)和数据挖掘方法。该部分主要是据查询和决策支持。具体如图5-35红框部分表示:数据集数据集数据集标准字统一统535数据集数据集数据集标准字统一统5355.4.1数据分析的实一、OLAP理论基支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营况,了解对象的需求,制定正确的方案子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取,即是架图中OLAP服务器从数据仓库中根据商务主题选取所需事实表和维度表,聚运输集成平货票系电子商务系数据抽取、清洗、转换、装数据挖联机分析处统计查其它应经营收益分需求兑现分就目前的情况来看,OLAPOLAP的工具越来越AnalysisService2008OracleExpress就目前的情况来看,OLAPOLAP的工具越来越AnalysisService2008OracleExpressServer和HyperionEssbaseOLAPServerIBMDB2OLAPServer来做出选择,各种工具的优缺点如54名称AnalysisHOLAP服务器,集成HyperionEssbaseOLAP引擎和DB2的EssbaseAPI完运行于UNIX等各种产品等多种硬件平台、MOLAP——多维模型存储和管理多改良式聚合设化OLAP性能整合主动缓存及MOLAP的性能据存储——可以存储在DB2Essbase多维存(3)支持多种数据源——主流数格、平面文件、ETL工具强大的分析处理能力——预测、时间序列分型可以将电子表格的行列扩展成多维,支多维数据模型,而且具有模以及对数据进行假设分析作如536作如536使用KPI架构的KPI执行预测性分Web——提供Web全面解决的管理报告以及专门的多维信息——高度可(4)支持多种业务分析——客户分析、供应链分缩性、强健性数限制在Windows平需要复杂的预需要复杂的预定不够灵活,数据仓库设计的一个变化会导致数据库的重构、系统维护图5-36表示在该软件中新建数据源图5-37表示在该软件中新建数据源向导,并选择所用数据源为“TLHYYX”5-38表示完成新建数据源,此数据源为“TLHYYX5-39创建数据源视图向图5-39表示在该软件中新建数据源视图向导图5-40表示选择所用的各个维度表和事实表,如大宗货物维、订车方式维订车需求基础数据表等,并将其添加进来5-41完成数据源视图向图5-41表示完成数据源视图向导,数据源视图名称为“TLHYYX”图5-42表示在该软件中连接到数据仓库的事实表,生成了基于表以及与事表相关的维度表的数据源视图,在这个基础上创建多维数据集图5-43表示利用多维数据集向导创建多维数据集图5-44表示利用多维数据集向导选择创建方法为:使用现有表图5-45表示利用多维数据集向导选择度量值组表为三个事实表,分别是订需求基础信息维,货票基本信息维,运输需求基础数据维-QQCS,QQDS,HPSR等字段图5-47表示利用多维数据集向导选择各个维度表,如大宗货物维,客户维省份维,专用线维5-48完成多维5-48完成多维数据集图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论