(系统工程专业论文)流通过程的物流信息分析处理研究.pdf_第1页
(系统工程专业论文)流通过程的物流信息分析处理研究.pdf_第2页
(系统工程专业论文)流通过程的物流信息分析处理研究.pdf_第3页
(系统工程专业论文)流通过程的物流信息分析处理研究.pdf_第4页
(系统工程专业论文)流通过程的物流信息分析处理研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(系统工程专业论文)流通过程的物流信息分析处理研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着物流现代化的迅速推进,各流通行业在经营过程中产生了海量的数据, 引发了“数据监狱”现象,这些海量的数据蕴藏了丰富的经营视点和市场规律。这 些企业拥有相当丰富的数掘,却缺乏足够的信息。 本文研究的甘标是通过对物流信息的定量分析,达到降低物流成本,控制渠 道,从而控制市场,这也是本文的创新之处。文中采用工程领域里较为常用的技 术,如灰色系统,模糊数学,神经网络,关联度,主成分分析等对流通领域早的 部份物流信息进行了分析研究,建立了一系列较为实用的模型。然后对杭州科宏 电气有限公司的库存信息和杭州烟草专卖局销售信息进行了实际分析,其中销售 信息分析是本文的重点和主要工作。 本文的主要研究工作如下: 1 以技术曲线研究分析库存服务情况,并进行库存灾变分析,以发现库存 异常和库存a b c 分析,以使仓库管理员集中精力放在重点产品上。 2 从定性预测和定量预测两个角度对销售量进行了预测分析。采用多种技 术曲线进行定性预测。提出平均灰色指数模型,对中长期的销售量进行 定量的预测。 3 对产品相关性进行了分析。包括发展规律相关性分析和货架关联分析, 静者可以找出发展规律很相似的产品,后者可以发现购买一种产品的同 时,购买另一种产品的可能性和支持度。 4 针对产品生命周期分析的问题,本文建立一个以模糊数学为基础的模型。 通过该模型,可以定量地分析产品所处的生命周期阶段。同时还对产品 品牌进行评估,找出主要影响整个市场的2 0 的品牌。 5 对渠道成员绩效度进行分析评估,以及对渠道成员进行聚类分析,方便 决策者分析了解渠道成员,进而控制渠道。 最后对本文工作做了总结,并点明进一步研究的方向和所需要做的工作。 a b s t r a c t a st h ef a s tb o o s to fl o g i s t i c sm o d e r n i z a t i o n ,i th a sg e n e r a t e dm a s s d a t ai nt h ec i r c u l a t i o n ,a n de n g e n d e r st h ep h e n o m e n o n o f “d a t aj a i l ”i n t h e s em a s sd a t a ,i tc o n t a i n sa b u n d a n ti n f o r m a t i o nf o rm a n a g e m e n t t h e e n t e r p r i s e s i nt h ec i r c u l a t i o ni n d u s t r yh a v em a n yd a t a ,b u tt h e y l a c k e n o u g h d e c i s i o ni n f o r m a t i o n t h e p u r p o s e s a n dt h ei n n o v a t i o no f t h ep a p e ra r et or e d u c et h ec o s to f l o g i s t i c s a n dc o n t r o l t h ec h a n n e l a n dt h e m a r k e t p l a c et h r o u g h t h e q u a n t i t a t i v e l ya n a l y s e s t h i s p a p e ra d o p t s t h et e c h n o l o g i e sw h i c ha r 。 o 船nu s e di ne n g i n e e r i n gf i e l d ,s u c ha sg r e ys y s t e m 、f u z z y m a t h e m a t i c s 、 n e u r a ln e t w o r k 、p c a 、g r e y c o r r e l a t i v ed e g r e e ,a n de s t a b l i s h e d as e r i e s o f p r a c t i c a lm o d e l s t h em a i n t o p i c so f t h i sp a p e ra r e a sf o l l o w s 1 r e s e a r c h e dt h es e r v i c e so f t h ei n v e n t o r yb yt e c h n i c a lc u r v e s ,t h e a n a l y s i s o fi n v e n t o r yc a l a m i t yi n o r d e rt op r e d i c tt h ea b n o r m i t yo f i n v e n t o r ya n d t h ea b ca n a l y s i so fi n v e n t o r yp r o d u c ts ot h a tt h e a d m i n i s t r a t o ro fi n v e n t o r y c a n p u te m p h a s i s u p o n t h e2 0 p r o d u c t s 2 r e s e a r c h e dt h eq u a l i t a t i v ea n a l y s i so f s a l e st r e n da d o p t e ds o m e t e c h n i c a lc u r v e s ,a n dt h eq u a n t i t a t i v ea n a l y s i so fs a l e s t r e n db y a v e r a g eg r e ye x p o n e n t m o d e l ,w h i c h i se s t a b l i s h e di nt h i sp a p e r l i 3 r e s e a r c h e dt h e a n a l y s i s o f p r o d u c tr e l a t i v i t y , c o n t a i n e d t h e c o m p a r a b i l i t y o fg r o wr u l e sa n dt h ec o r r e l a t i v eo fp r o d u c t si n o r d e r s 4 t os o l v et h eq u e s t i o no ft h ea n a l y s i so fp r o d u c tl i f e c y c l e ,t h e p a p e re s t a b l i s h e d o n em o d e lb a s e do nf u z z ym a t h e m a t i c s a n d r e s e a r c h e dt h ee v a l u a t i o nf o rp r o d u c tb r a n d s ,f i n do u tt h e 2 0 b r a n d sw h i c h m a i n l y i n f l u e n c et h em a r k e t p l a c e 5 r e s e a r c h e dt h e q u a n t i t a t i v e e v a l u a t i o no fp e r f o r m a n c eo ft h e c h a n n e lm e m b e r sa n dc l u s t e r i n go ft h ec h a n n e lm e m b e r si no r d e r t oc o n t r o lt h ec h a n n e lm e m b e r s f i n a l l y , o nt h e b a s i so fs u m m a r i z a t i o no ft h i s p a p e r , t h e f a r t h e r d e v e l o p m e n t s a b o u tt h er e s e a r c ha l ed i s c u s s e d 1 1 1 浙江人学坝i 学位论文 1 1 引言 绪论 “我们币受信息的淹没,但却渴求知识! ” 所谓的物流信息【l ,2 ,57 j 包括企业运行中的实时数据,如内部物料流、生产 状态、产品库存与运输等等。在物流活动中,按照所起的作用不同,可将物流信 息分为:订货信息、库存信息、生产指示信息( 采购指示信息) 、发货信息、物 流管理信息。物流信息一般具有下列一些特征: 1 物流信息涉及多方面,而且绝对量多; 2 高峰时与平时的信息量差别很大;每天发生信息的单位大: 3 信息发生的来源、处理场所、传达对象分布在很广的地区: 4 要求与商品流通的时间相适应; 5 和商流、生产等本企业内其他部门的关系密切; 6 在货主与物流业者及有关企业之间,物流信息相同,各连接点的信息再 输入情况较多: 7 有不少物流系统的环节,同时兼办信息的中转和转送,并贯穿于生产经 营活动的全过程。 物流是很独特的:在一年的5 2 周j 一周的7 天和一天的2 4 个小时内物流始 终存在,从来也没有停止过。整个物流过程是一个多环节( 子系统) 的复杂系统, 而物流系统中各个环节之间的相互衔接是通过信息予以沟通的【1 5 , 1 6 】。同时随着 信息技术的不断发展,物流现代化进程的不断推进,在流通过程中产生了海量的 物流信息,人们积累的数据越来越多。在这些海量的物流信息背后蕴藏了丰富的 经营视点和市场规律。人们希望能够对其进行更高层次的分析,以便更好地利用 这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能, 但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋 势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 物流信息是随企业的物流活动而同时发生的,是实现物流功能必不可少的条 件。物流信息对交易、控制、决策分析以及战略计划起强大的支持作用。随着全 球经济一体化进程的加剧,企业面临着更为激烈的竞争。为了适应市场的各种发 展,掌握信息,开拓业务,提高自身的竞争能力和地位,有效快速地对物流信息 进行分析处理,显的非常的重要,具体表现在如下几个方面: 1 物流的总体目标是要在尽可能最低的总成本条件下实现既定的顾客服务 水平。有调查表明在这些大量的数据当中,平时只用到5 1 0 ,并且许多管理 浙江人学埘。学位论殳 者要花费8 0 的时问进行数据分析,真正用于决策的时间只有2 0 。而且对于 许多大型企业,还必须为之配备庞大的专业分析队伍。人们从这些海量的信息当 中获取有用的信息的代价不断提高。因此我们需要充分利用这些数据,有效地分 析它们,降低获取有用信息的代价。 2 在市场竞争激烈的今天,成功企业的标志之一是能对供应链术端顾客的 需求形成快速反应。为了形成最强大的竞争优势,供应链中成员应当相互合作, 这样,服务与顾客需求之间的缝隙爿会越来越小,最终形成无缝隙供应链 ( s e a m l e s ss c ) 。无缝隙供应链形成的关键在于对于物流信息的正确理解,减少“长 鞭效应”的负面影响。所谓的“长鞭效应”【1 ”是下游企业的需求信息在向上游企业 传递时发生的放大现象。减少长鞭效应的必要条件就是能够对物流信息进行准确 的分析与处理。 3 通讯方式的发展、交通的便利以及金融体系的完善,使企业更难以长久 维持自己的竞争优势。在流通企业管理过程中,常常面临各种艰难的决策,而市 场波动频繁,契机一瞬即逝,如果企业管理者不能快速进行决策,即使最终可以 得出正确的决定,也可能坐失良机。因此企业必须不断地创新,从以规模取胜转 变到以速度取胜。同时企业中采购、生产、销售和服务等方面的联系日益紧密。 企业的整个运作系统更加复杂和精密。某一环节的判断失误将产生链锁反应,造 成企业重大的损失。这些都要求管理者能够迅速做出正确的决策,这就要求我 们能够迅速地准确地从海量的数据当中获取有用的决策信息。 4 随着经济全球化趋势的加剧,尤其是中国加入w t o 之后,无论是否愿意, 企业都将面对全球的竞争者和全球范围的消费市场。而随着消费者权益意识的增 强等,又使政府颁布了更详尽的法令和制度约束企业的经营行为。企业管理者在 进行决策时需要考虑更多、更复杂的制约因素。因此管理者们要科学地决策,就 需要有科学的决策信息,而把决策仅仅建立在直觉和经验基础之上必将失败。这 也要求我们能够拥有科学的决策信息。 5 管理者经常希望能综合多种因索来分析问题。如,石油价格的上涨、物 价指数的波动对企业各方面的影响:如果现在采取降价措施,本年度术公司的市 场分额、销售额和赢利是否有所增长? 哪些客户对企业最关键,他们有什么特征, 如何增加他们对企业的忠诚度? 产品目前处于什么阶段等等。对于大型零售企业, 为了实现最高效率,如何在一个区域内设立自己的连锁店? 如何制定有效的预算 计划和现金流计划? 如何防止客户的流失? 这些复杂的分析,也迫切需要我们能 够拥有有效的信息分析方法。 随着电子商务的发展,必将加剧流通行业在高度集成的网络技术支持下服务 方面的竞争。对于流通行业来讲,构筑以i n t e m e t 为基础的电子商务,除了一一些 完成特定作来的技术系统之外,还应注重如何做到信息资源领先,以发现新的供 2 一一 鲨坚叁兰! ! ! :兰些笙壅 应商,挖掘、创造并满足客户的需求,进行物流活动的控制和其业务过程的重组, 延伸服务内容,创新服务方式等等。物流是电子商务的重要组成部分,也是目前 电子商务发展过程的“瓶颈”。我们应该大力发展物流产生,促进电子商务的发展。 拥有完善的流通渠道的制造商丌展电子商务业务比i s p 、i c p 等因特网站经营者 为从事电子商务而建立销售渠道和物流系统更加方便。因此对物流信息的分析不 管是在传统的物流系统下,还是在电子商务下,都是至关重要的,并且为了加速 电子商务的发展,应该加强对物流信息的分析,提高物流现代化的发展进程。 从上面的分析,我们可以看出,在“数据暴炸”的时代,如果想掌握流通渠道, 想控制市场,想使自己在竞争当中处于不败之地,就必须从海量的数据信息当中 提取出有效的决策信息,进行科学的决策,提高企业的竞争力。 现在的问题是如何才能发掘这些知识,传统的信息处理工作已经不能应付这 一要求,人们需要些有效的方法,能发现和描述数据中隐含的商j 比发展趋势、 对数据进行更高层次的分析,以更好地利用这些数据。 国家自然科学基金信息科学三处2 0 0 3 年鼓励的研究领域就包括“面向海量信 息的知识发现与分稚式处理”,2 0 0 4 年鼓励的研究领域也包括“信息处理”。目前 物流信息分析处理受到了普遍的关注,但到目前为止的研究结果只是差强人意。 本研究课题就是在这种背景下产生的,主要研究流通过程中产生的物流信息的分 析处理。 1 2 信息分析层次 通常意义上讲,进行信息分析的目的可以归纳为以下几个方面: ( 1 ) 从混沌的信息中萃取出有用的信息。从漫无边际的信息中捕捉或提炼 出有针对性的、对解决问题有用的信息,是信息分析最经常的需要。 由此要采用比较、判别、检索、相关分析等方法。 ( 2 ) 从表层信息中发现相关的隐蔽信息。从离散的信息中识别出聚类的信 息,由此需要内容分析、聚类分析等方法。 ( 3 ) 从过去和现在的信息中推演出未来的信息。由此运用预测的种种方 法。 ( 4 ) 从部分信息中推知总体的信息。即从点滴的、不完整的或不充分的局 部信息要得知整体的状态,因而使用统计学方法、系统辨识、内容分 析等方法。 ( 5 ) 揭示相关信息的结构和变化规律。由此利用关联树法、模型方法等等 有关的方法。 从上面的分析,我们可以看出,信息分析方法的来源是多方面的,方法的类 浙江人学蛳 学位论文 别和数量是众多的,方法的性质是多元的。同前,在流通过程中,还没有对物流 信息的分析有一个全面的研究。到曰酶为止,所做的物流信息分析都有其相应的 局限性和不足。如何合理有效的使用这些方法或它们的组合来解决现实问题是。 个现实的难点。 应该说信息分析首先是商业应用,其次才是技术。一般情况下,数据分析分 四个层次:第一个层次是对当前数据和历史数据的简单查询和报表生成,这部分 工作通常由电子报表、查询工具和报表生成工具实现。 第二个层次则是深入进行跨数据来源的处理。例如,在浙江大学玉泉校区哪 些品牌香烟好卖,而玉泉校区附近哪些品牌香烟又好卖呢? 其差别的原因是什 么? 第三个层次是要分析过去发生过什么事件使得数据呈现目前的状态,以及要 分析未来要完成什么工作才能实现某种特定的目标。例如,为什么这个月全硬大 红鹰( 精品) 的销售量突然提商,而其它香烟却没有变化? 是因为烟民都喜欢上大 红鹰,还是因为促销做得好? 要回答这些问题,就得对内部数据和外部数据进行 复杂的处理。这一层次的查询活动中对外部数据的需求逐渐增加。还比如,如果 增明年的目标是利润长5 ,那么要有哪些前提条件发生变化以及还要在未来采 取哪些措施才能实现这个目标,全硬杭州现在是处于生合周期的哪一阶段? 第四个层次是要从大量的数据中找出自己未知的信息。比如全硬杭州跟哪种 品牌香烟发展规律很相似? 经烟户在定购一种品牌香烟的同时,最有可能会定购 另外哪种等等。 前面三个层次都是验证驱动的信息分析,第四个层次是发现驱动的信息分 析,即知识发现( k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 。不同的层次,立足点不同, 采用的分析方法和手段也各不相同。本文主要是从第三、四层的角度进行分析, 为目前市场上一些物流信息分析系统提供有力的补充。 1 3 商业智能系统 对这些信息的分析,o r a c l e ,i b m ,m s 都已经推出过软件解决方案一商业智 能系统( b i s ) 4 , 5 , 6 , 2 8 】。o r a c l e 还特推出s a l e sa n a l y z e r 和o r a c l es a l e s i n t e l l i g e n c e 。 何为商业智能? 商业智能是在e r p 等信息化管理工具的基础上提出的,是基 于信息技术构建的智能化管理工具,它实时地对e r p 、c r m 、s c m 等管理工具 生成的企业数据进行各种分析,并给出报告,帮助管理者认识企业和市场的现状, 做出f 确的决策的系统。b i 系统在技术与功能上都已不同于以往的管理信息系 统( m i s ) ,它具有以下特点: 4 浙江人学坝i :学位论文 一是在不断提供完善的技术同时,还提供整体应用的解决方案,即系统整体 设计思想,这一设计思想已将未来的决策分析需求纳入系统; 二是利用分类技术将信息消费者使用的决策支持对象分门别类,帮助业务人 员解决每天业务运转可能出现的各种主要问题,从而简化对业务信息的访问。从 技术上说,就是按维度与层次对主题建立数据分析模型; 三是支持对所有形式的业务信息进行访问,而不仅仅是支持对存储在数据 库、数据仓库中数据的访问。因为企业仍然有相当数量的信息保存在办公或工作 组罩,或保存在企业i n t r a n e t 和i n t e m e t 上的w e b 服务器中; 四是为企业提供强大的报表功能,比如在同一时间显示多个不同业务指标的 记分卡式多指标报表、用户按维度分类分析并作比较的关键特征指标( k p i ) 报 表、固定需求的状况报表以及即时报表。而且,对所有报表具有良好的管理和分 发机制。 商业智能主要的技术基础是数据仓库和数据挖掘,它利用数据挖掘不断发现 新的知识,扩充到现有企业知识中来。使用户在决策分析的过程中把注意力集中 在分析的数据上,引导用户对数据从不同层次、不同角度、不同时期进行观察和 分析。层次分析与角度分析交互进行,从而得到产生结果的内在原因,提示数据 之间隐含的关系,真正做到辅助经营决策,使决策依据数据化,保证决策结果的 科学化。 但是从目前企业应用现状和市面上有的商业智能系统的功能实现上来看,其 效果并不令人满意。目前所有的商业智能系统( 包括o r a c l e 、i b m 、m s 的) 功能 都集中在前面两层数据分析方面,如数据查询、报表、o l a p 、数据可视化,还 不配有知识发现工具,无法进行复杂的分析处理和发现驱动的信息分析。因此功 能比较集中,更深层次的要求无法满足,还没有达到第三,第四层次的数据分析。 o r a c l e 推出的s a l e sa n a l y z e ri s j 号称能够帮助公司对隐藏在数据中的重要 的商务信息进行识别和判断,但是从其产品的介绍来看,其核心是一个基于o l a p 分析的s e l e c t o r ,通过它将数据子集包含到报表和图表当中来。其所有的分析 也只是处于前面两层。而o r a c l es a l e si n t e l l i g e n c e 号称是为向那些销售专业 人才提供复杂商务问题解决方案而设计的,但是从其产品的介绍来看,其实质只 是一个b s 结构的s a l e sa n a l y z e r 产品,与s a l e sa n a l y z e r 并无多大的区别。 1 4 研究内容 本文对物流信息进行分析的目的是方便制造商经营决策,掌握需求市场,控 制营销渠道,进而控制需求市场,同时降低物流成本。 市场信息是企业经营决策的依据,谁掌握了灵敏的市场信息,谁就能在现代 浙江人学砸i 学位论文 企业经营活动中取生。从前面物流信息的定义,我们知道其内容是非常丰富的, 其涉及面是非常、泛的,从本文的研究目的出发,我们将主要分析销售信息,库 存信息和营销渠道信息,其中销售信息和库存信息即是独立的,也是营销渠道信 息一部分。 目前企业和产品所做的信息分析一般只达到了第二个层次。当然不可否认, 这砦产品和解决方案对海量的信息分析处理起者抛砖引玉的作用,也为决策者带 来了一一定的便利,但是它们都没有将信息分析透彻。作为一个完美的信息分析处 理方案,应该包括所有层次的分析,这样才能将信息分析透彻。本文主要侧重于 第三、第四层次的信息分析。 本文所采用的技术与方法在工程领域里面都是较常用的算法,包括多元统计 分析,数据挖掘,模糊数学和灰色系统理论。这些技术在流通领域里面却鲜有应 用。目前流通领域罩面的大多数决策基本上都是建立在定性的分析的基础上,或 者是最简单效果很差的定量分析基础上,没有使用计算机技术和先进的算法,因 而造成物流信息分析不够透彻,这也是我国流通领域落后的一个原因。而本文就 是采用上述技术或它们的组合来对销售信息,库存信息和营销渠道信息进行较准 确的定量分析,以方便经营者进行决策,构成一般商业智能系统的有力补充。这 也是本文的创新之处。 1 5 全文概貌 本文对流通过程中产生的海量物流信息进行了较为高层的分析,主要从库存 信息,销售信息,营销渠道信息三方面入手,将工程领域常用的技术应用于流通 领域,建立一系列实用新颖的模型,对库存信息,销售信息和营销渠道信息的定 量化分析做了较为深入的研究。全文内容安排如下: 第一章对流通过程中物流信息的特点做了详细的介绍,阐述了对海量的物流 信息进行分析的必要性和意义。提出了本文的研究内容。 第二章主要介绍了本文所做研究所涉及到的一些基础知识。 第三章对流通过程中的库存信息进行了一定程度的分析。研究了库存周转率 分析,库存灾变分析和库存a b c 分析。通过这些分析,我们可以在满足需求的 前提下,尽可能地降低库存成本。同样,库存信息分析即可以用于配送中心,也 可以用于对营销渠道成员的库存进行分析,它也是营销渠道信息分析的重点之 。 第四章对流通过程中产生的销售信息进行了一定的研究。研究了销售量的定 性分析,销售量的定量预测,产品相关性分析,产品的生命周期分析和产品品牌 的评估。通过这些分析,我们可以很好地把握整个市场或某个区域或某个产品的 6 浙江大学颂i 。学位论文 未来的走势,可以得知某个产品处于生命周期的哪个阶段,进而采取年h 应的措施 等等。在本章里面提出的模型都是很实用的灵活模型,这些模型即可以为制造商 服务,也可以对营销渠道成员进行分析。销售信息分析也是营销渠道信息分析的 重点之一。 第五章本章对营销渠道信息除销售信息和库存信息之外的信息进行了分析 研究,包括渠道成员绩效的定量评估排序和聚类。通过这些分析可以很好的掌控 渠道成员,了解渠道成员的实时动向,从而控制渠道,进而控制市场。 第六章总结全文,提出进一步的研究设想和建议。 1 6 小结 本章首先阐述本研究课题的研究背景,对流通过程中物流信息的特点做了详 细的介绍,探讨了对海量的物流信息进行分析的必要性和意义。接着提出问题, 介绍本人主要的研究内容:库存信息分析,销售信息分析和营销渠道信息分析, 并点明本文的创新之处。最后简单介绍了一下本文的概貌。 浙江人学坝i 学位论文 2 1 引言 二基础知识 2 0 世纪中叶以来,人类处于一种急剧变化的信息环境之中。随着科技、经济 和社会的快速变化和发展,我们很早就认识到信息分析的重要性。经过多年的研 究,以形成了多种信息分析技术和方法。我们以后的研究也是以这些技术和方法 为基础。本章主要介绍这些信息分析技术和方法。 2 2 多元统计分析 多元统计分析 2 0 , 2 1 , 2 2 , 2 3 , 2 4 , 2 5 , 2 6 , 2 7 是数理统计学中近2 0 多年来迅速发展的 一。个重要分支。它是- - 1 3 实用性很强的学科。多元统计分析的应用范围很7 。,无 论自然科学还是社会科学,无论开发研究还是实际预测和决策,都可以成功地应 用。在我们物流信息分析处理中,也需要大量地运用多元统计方法。下面介绍几 种本文所用到的多元统计方法: 2 2 i 时间序列分析 在不同时刻对某种自然现象或社会现象的数量特性进行观测,所得的一系列 有次序的观测数据称为时问序列。时问序列数据区别于其它类型数掘,主要在于 它的次序的重要性。时间序列分析的目的,就是要研究这种依赖于时间变化的数 据的相互关联规律,用以预测未来。 1 移动平均法 移动平均法是通过移动平均数来进行预测的方法。常用的有一次移动平均法 和二次移动平均法。 一次移动平均法是依次取时间序列的n 个观测值进行平均,并依次移动,得 到一个平均数序列,且以最近n 个观测值的平均数作为下期预测值的预测方法。 它分为简单移动平均法与加权移动平均法。两者的模型分别如下: 1 t 积) _ = i 五,( f - n ,z + l ,) ( 2 1 ) ,i = l - n + l ft 和殿:= a , x ;q ,其中翻是根据时间序列的具体情况,凭经验, i = t - n + li = t - n + l 按近期大、远期小原则而设计。 浙江人学埘l 学位论文 二次移动平均法是利用预测变量的时间序列的一次移动平均值和_ 次移动 平均值的滞后偏差演变规律建立线性方程进行预测的方法,它适用于预测具有线 性变动趋势的经济变量。其模型为x f + f = a + b t t 其中,x f + r 表示f + r 期 的预测值;a 、b 为模型参数。 色= 2 墨一墨孙,骞= ( 厨一厨2 ) , ( 2 2 ) 其中贾;2 1 ,夏分别表示二次移动平均数和一次移动平均数。 2 指数平滑法 移动平均法在预测时要求具有较多的数据,计算量很大。而指数平滑法克服 了这些缺点。它也分为一次指数平滑法和多次指数平滑法。 一次指数平滑法是对第t 期的预测值和观测值,用平滑系数口( 1 ) 加权,算出 第t 期的平滑值,并以此平滑值作为下期预测值的一种预测方法。其模型为 砝) _ 口1 置+ ( 1 一口1 ) 窟1 ( 2 3 ) a ( 1 ) 为一次指数平滑系数( 0 口( 1 ) 1 ) 。二次指数平滑法是对一次指数平滑 法序列再进行一次指数平滑,以求得二次指数平滑值,然后利用它们之间的滞后 偏差规律,建立线性模型,对有明显上升或下降趋势的时间序列进行预测的方法。 其模型为x t + r = a + 包t 其中,五+ ,表示f + 丁期的预测值;舀、b 为模型 参数。 匆= 2 9 一母2 1 ,巨= 丁竺( 母一s t ( z ) ( z 4 ) l 一口 其中母劲,母1 分别表示二次指数平滑值和一次指数平滑值。 3 时问序列因素分解【2 9 , 3 0 一个预测目标可以被分解成以下四个因素: 实际值y = f ( t ,c ,i ,r ) , 式中】,一实际观察值,一长期趋势因素,c 一长期循环因素,一季节循 环因素。厂即可以是加法模型,也可是以乘法模型,这罩只介绍乘法模型。即 y = t c x i r ,这是一个适用广泛的模型。 9 浙江人学坝i 。学化论义 我们知道,如果将作用于预测目标的三个相似因素即长期趋势因素、长期循 环因素、季节变动因素分解出来,也就基本上把握了这个数据的基本性质。 具体步骤如下: a 长期趋势因素和长期循环因素分解 求得时间序列的平均移动序列( 记为m a ) ,利用最小二乘法确定长期趋势 的直线模型,并求的长期趋势序列t 。那么由c = m a 丁得长期循环因素。 b 季节循环因素与随机因素分解 实际数据值】,实际上是( 丁c x i r ) 四个因素综合作用的结果。剔除掉 t x c ,就剩下季节循环因素和随机因素( ,x 尺) 了。 因此i x r = y m a 。 值的说明的是,并不一定要是季节循环因素,也可以是月份循环因素。采用 因素分解法,至少需要一年多的数据。 为了消除随机因素,应该使平均移动的期数等于季节的周期( 如4 个季度, 1 2 个月) ,这样可以有效的排除随机因素。 在消除了随机因素后,实际应用于预测的关系式是: y = t c i 。 2 2 2 聚类分析 聚类分析与判别分析的不同之处在于,聚类分析不必事先知道分类对象的分 类结构。基本思想是,从一批样品的多个观测指标中,找出能度量样品之间或指 标之自j 相似程度的统计量,构成一个对称的相似性矩阵。在此基础上进一步找出 各样品( 或变量) 之间或样品组合之间的相似程度,按相似程度的大小,把样品 ( 或变量) 逐一归类。关系密切的归类聚集到一个小的分类单位,关系疏远的聚 集到一个大的分类,直到所有样品或变量都聚集完毕,形成一个亲疏关系谱系图, 用以更自然地和直观地显示分类对象( 个体或指标) 的差异和联系。 聚类分析可以与其它统计方法结合使用。如当变量很多时,在进行回归分析 之前,可以先对变量( 指标) 进行聚类,再从每类中挑选一个最有代表性的变量, 参加回归分析。 聚类分析有好多种方法,如系统聚类法,系统聚类法中又有8 种聚类方法, 分别为最短距离示,最长距离法,中间距离法,重心法,类平均法,可变类平均 法,可变法。我们介绍常用的最短距离法。 1 0 l i 江人学颂l 。学位论文 1 数据变换 为了不受各种变量单位的影响,在聚类分析计算之前,需要对原始数据进行 变换,使其标准化。 设有n 个样品,对它们各观测p 个变量,勘表示第f 个变量第,个样品观测 值, 式将柳变换成x 口 三 。所谓标准化变换就是指按如下公 x 口= 等( 扛l ,2 ,舶芦,2 ,) , ( 2 5 ) ( 2 6 ) 经标准化变换后,每个变量的均值为0 ,标准差为1 ,且0 x 口1 ,从而消除 了量纲的影响。 2 q 型聚类分析统计量 按聚类对象的不同,可以分为q 型和r 型聚类。对样品的分类叫q 型聚类, 而对变量的分类叫r 型聚类。在我们的研究中主要是用q 型聚类,常用的用于 划分类型的统计量采用距离系数。 若把n 个样品看作p 维空间的n 个点,则可用样品在空间的距离束度量样 品间的相似性。这个距离实际上是马哈拉诺必斯距离。当标准化变量互不相关时, 则马氏距离即为欧氏距离苏= 维数, 办= 即定义距离系数为 跖 应用时,总是将这个距离除以 ( 2 7 ) 西k 越小,两样品相似程度越大。故可用西 的大小来对n 个样品进行分类。需 ;b ,l | | y 阵矩据数始原得 | i 一 x 爿 一 扣 = 其 雨 浙江人学何! j 学位论文 要注意的是用( 2 7 ) 式计算距离时 产生偏倚。如果两变量之间相关时, 3 具体步骤 要求变量之间互不相关。当变量相关时会 可以用采用相关系数作为统计量。 算得相关系数矩阵后,即可根据它对样品或变量进行归类,形成谱系图。在 聚类过程中,逐步合并有最大相似性的样品,组成新的样品,再重新计算相似系 数,如此反复进行,直至全部样品归类完毕。具体步骤和准则如下: ( 1 ) 将原始数据标准化,构成标准化数据矩阵。 ( 2 ) 计算相似系数矩阵,选出最大相似系数样品组。 ( 3 ) 把对应的一组样品加权平均 x i2 玎1 x j l + t + 1 2 x j 2 形成一个新的样品点,其中,z 1 t 1 2 分别为己组合 船l 十t 1 2 过的样品组中样品的个数,对i ,习2 为相应的数据。 ( 4 ) 用新的样品点代替原来的一对样品点。 ( 5 ) 对新形成的样品数据与其余样品数据重新计算相似矩阵,以代替原相似 矩阵,再找出新相似系数阵中最大系数的对应样品组。如此重复( 3 ) 到( 5 ) 的步骤, 直到把所有样品都归类完毕止。 ( 6 ) 最后按下列原则连结成谱系图 a 若两个样品在已经连结成组的组中未出现过,则它们连结成一个新组; b 若两个样品中有一个在某组中出现过,则另一个就加入该组: c 若两个样品都在同一组中,则这对样品不再分组; d 若两个样品都不同的组中出现过,则把两组连结在一起。 2 2 3 主成分分析 在实际问题中,研究多指标问题是经常遇到的。然而在多数情况下,不同指标 之间是有一定相关性的,这势必增加分析问题的复杂性。主成分分析方法就是将 原来指标重新组成一组新的相互无关的几个综合指标来代替原来的指标,同时 根据实际情况,从中取几个较少的综合指标来尽可能多地反应原来指标的信息。 这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析。它也 是数学上处理降维的一种方法。 1 基本思想 通常数学上的处理就是将原来p 个指标作线性组合,作为新的综合指标。如 果将第一个线性组合所得的综合指标记为f l 。自然希望f - 尽可能多地反应原来 指标的信息。这里的信息用什么来表达呢? 最经典的方法就是用f 1 的方差来表 浙江人学俩i 。学位论史 达,即v a t ( f 1 ) 越大,f l 所包含的信息越多。因此在所有的线性组合巾,所选取 的f l 应该是方差最人的。故称f l 为第主成分。如果f 1 不足以表达原来p 个指 标的信息,就考虑选取f :就第二个线性组合,为了有效地反应原来的信息,n 中已有的信息就不在出现在f 2 中。用数学语言表达就是c o y ( f 1 ,l i 2 ) - 0 ,此时称 f 2 为第:二主成分,依次类推,可以造出第三主成分,第四主成分第p 主成分。 不难想象这些主成分之间是不相关的,且它们的方差越来越小。凶此在实际工作 当中,就选取前面几个最大的主成分。这样虽然会损失一部分信息,但是由于我 们抓住了主要矛盾,并从原始信息中提取了某些新的信息,因此在某些实际问题 的研究中是可行的。 2 变量的标准化 在实际问题中,进行主成分分析时常遇到的p 个指标代表的不同的量,其度量 单位也就不一样例如价格和重量以及长度等等的线性组合而成的主成分,其含 义难以解释不仅如此,更重要的是当某一变量改变计量单位后,其协方差阵就会 发生变化,自然相应于协方差阵的特征根也要发生变化,从而使相应的特征向量 也发生变化,最后导致主成分也发生改变为了解决这一问题,我们可以从数据矩 阵x 的相关矩阵r 出发,来求原来p 个指标的主成分一般来说,从相关矩阵r 求 得的主成分与从x 的协方差矩阵y 求得的主成分是不一样的通常,在变量的 度量单位不相同时,从相关矩阵r 出发求主成分是比较恰当的但当变量的度量 单位是一致的或协方差矩阵中的主对角线上各元素相差不大对,可以直接出协方 差矩阵来求主成分 3 选取主成分个数 利用主成分分析的目的就是为了降维,所以一般情况下都是选取k ( k j m 枷 溉 x i 一 x x 厂lv、l 浙江人学坝l 等j 位论文 ( 1 ) 计算数据矩阵x 协方差矩阵的估计值 = ( & ) = s , 其中 2 一1 丢n ( 觑r 一无) ( 甄一霸) ,元2 蕃n 觑“ ( 2 8 ) ( 2 ) 用雅可比法求s 的特征根见和相应的特征向量厶( f = l ,) ( 3 ) 写出各主成分表达式 z :芝厶( 一冠) ( j j = l ,2 ,m ) ( 2 9 ) ( 4 ) 根据累积贡献率的要求选取主成分的个数。并对主成分进行解释 2 2 4 典型相关分析 为研究两组随机变量间的关系,常采用主成分的思想,先分别找出 ( ,却) 的一个线性组合及( 咒,y q ) 的一个线性组合y ,把研究两组 随机变量间相关的问题化为研究两个随机变量间的相关。当然我们希望能找到的 ,v 之间能有最大可能的相关系数,以充分反映两组变量间的关系。然后, 再分别作与,y 独立的线性组合,使的它们之间有其次大的相关系数。如此 继续下去,直到认为合适为止。这就是典型相关分析的基本思想。它是揭示两组 因素之间内部联系的一种有效工具。 具体步骤如下: 有样本数据阵x = ( 崩) n xp 。 1 求x 的相关矩阵r 首先标准化x + 七f ;x l 了a - - 亍x ,i ,k = l ,n ;i = l ,p , 其中 、,s i i 两= 去喜w + 忙击喜c x k i - - x i 只汕一够得标准数肿阵 x + = ( x 村) 。p ,从而得样本相关矩阵为r = 七x ”x + 再根据需要将r 1 4 浙江人学坝l 学位论文 分成四个子块:月:f :j 1 蜀2 1 p l o ( s p l p 2 ) 3 求出征向量 分别将这s 个非零特征根的值代入式f 2 1 0 1 中两个方程中的兄2 : 肛p 等= 繁。爿 办y i := 占g t 。( 。 x x 。o 。:z = ,s 并且,x c - ,与x c z ,的第z 样本典型相关系数为 m m n i | | i 口 d d 舭糯 一 一胁肌 一2 一, r r 地 纠足尺 一 一 塑兰叁堂型! :堂垡堡苎 2 3 数据挖掘 数据挖掘 7 , 8 , 9 , 1 0 , i i , 1 2 , 1 3 , 1 4 , 3 5 ,3 6 】是信息技术自然演化的结果,是人们长期对 数据库技术进行研究和丌发的结果。当建立企业的数据仓库以后,在这些数据背 后隐减着极为重要的商业知识,这些商业知识是隐含的、事先未知的、具有潜在 有用的价值。问题是如何才能挖掘这些知识,数据挖掘正是为了解决这个问题而 出现的。它是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提 取隐含在其中的、不为人所知的、但又是潜在有用的信息和知识的过程。 数据挖掘方法学主要是由一些重要的概念组成。首先一条概念是在数据中找 到一个模式;其次是取样,或不必用所有的数据来做出结论,这个结论是关于其 它部分数据可能会发生什么;另一个重要的概念是验证数据挖掘算法产生的预测 模型,数据挖掘所要求的验证是在一些历史数据上建造模型后,将模型应用于不 是建造模型的那些相似的历史数据。 常用的数据挖掘技术可以分成统计分析类,知识发现类和其他类型的数据挖 掘技术三大类。统计分析类使用的数据挖掘模型有线性分析和非线性分析、回归 分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和 聚类分析等技术。知识发现类数据挖掘技术是与统计类数据挖掘完全不同的一种 挖掘技术。它可以从数据仓库的大量数据中筛选信息,寻找市场可能出现的运营 模式,发掘人们所不知道的事实。主要包含人工神经网络、决策树、遗传算法、 粗糙集、规则发现和关联顺序等。其他数据挖掘技术主要包含文本数据挖掘、 w e b 数据挖掘、分类系统、可视化系统、空间数据挖掘和分布式数据挖掘等。下 面将简单介绍前面两类技术: 2 3 1 决策树 决策树方法的起源是概念学习系统c l s ,然后发展到i d 3 方法而为高潮,最后 又演化为能处理连续属性的c 4 5 。有名的决策树方法还有c a r t 和a s s i s t a n t 。 决策树算法第一就是构造树。决策树构造的输入是一组带有类别标记的例 子,构造的结果是一棵二叉或多叉树。二叉树的内部节点( 非叶子节点) 一般表 示为一个逻辑判断,如形式为( a i = v i ) 的逻辑判断,其中a i 是属性,v i 是该 属性的某个属性值;树的边是逻辑判断的分支结果。多叉树( i d 3 ) 的内部节点 是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶子节点都 是类别标记。 构造决策树的方法是采用自上而下的递归构造。以多叉树为例,它的构造思 路是,如果训练例子集合中的所有例子是同类的,则将之作为叶子节点,节点内 1 6 浙江大学舰j j 学位论文 容即是该类别标记。否则,根据某种策略选择一个属性,按照属性的各个取值, 把例子集合划分为若干子集合,使得每个子集上的所有例予在该属性上具有同样 的属性值。然后再依次递归处理子集。这种思路实际上就是“分而治之” ( d i v i d e a n d c o n q u e r ) 的道理。二:叉树同理,差别仅在于要选择一个好的逻辑 判断。 1 属性的选择 构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例 子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概 率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择 恰当的逻辑判断或属性。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论