版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目一认识大数据分析与供应链CONTENTS目录01
认识大数据02
大数据分析的应用过程03
大数据分析常用平台04
供应链大数据分析05
了解大数据分析工具“魔镜”06
了解供应链大数据分析与应用配套教材认识大数据认知01大数据的起源
数据的历史演进数据历史可追溯至上古结绳记事,印加帝国曾用其管理庞大帝国。
信息工具的进步从甲骨文、造纸术到互联网,信息工具推动数据处理方式演进。
大数据时代的价值大数据可帮助企业了解客户需求、发现市场趋势,助力政府提高治理效率。大数据的定义大数据的定义大数据的字面含义
大数据指巨量数据,计量单位已从TB级发展到PB、EB等更高级别。机构定义对比
麦肯锡认为大数据是超出传统工具处理能力的数据集合,具有4V特征;Gartner强调新处理模式的必要性。技术视角解读
大数据的战略意义在于专业化处理,通过加工实现数据增值。大数据的5V特征大数据的5V特征数量(Volume)全球数据年增40%,2010年全球企业存储数据超7EB,相当于美国国会图书馆数据的3万倍。多样性(Variety)数据形态包括结构化、半结构化和非结构化数据,如网络日志、音视频等。速度(Velocity)数据量每20个月增长一倍,需快速处理以满足时效性需求,如搜索引擎和个性化推荐。价值(Value)价值密度低但潜在价值大,如监控视频关键数据仅占1-2秒,Face-book用户数据价值上千亿美元。真实性(Veracity)需确保数据真实性,通过分析还原事物本质、预测发展规律是未来趋势。小贴士
英国教授维克托·迈尔—舍恩伯格曾经在《大数据时代:生活、工作与思维的大变革》中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,他说大数据是人们获得新的认知,创造新的价值的源泉,大数据还是改变市场、组织机构,以及政府与公民关系的方法。小案例了解我国大数据产业
根据大数据产业生态联盟最新发布的《2023中国大数据产业生态发展报告》,2022年我国的数据产量为8.1ZB,同比增长22.7%持续高速增长,占全球数据总产量的10.5%,排名世界第二。在同期发布的“2023中国大数据企业50强名单中”,华为、中兴通讯、百度、腾讯、阿里云等悉数在列,是我国头部大数据企业的代表,中国联通、中国移动则是国企中大数据产业的代表企业。大数据分析的应用过程02大数据采集
数据采集系统结合软硬件实现自定义测量,应用于摄像头、麦克风等领域。
采集层级划分智能感知层负责数据识别、传输等,基础支撑层提供虚拟服务器和数据库等环境。
采集挑战并发数高,需部署大量数据库并解决负载均衡和分片问题。大数据处理
数据导入与预处理将前端数据导入分布式数据库或存储集群,可进行简单清洗和预处理。
实时计算需求部分用户使用Twitter的Storm进行流式计算,满足实时需求。
处理挑战导入数据量大,每秒可达百兆甚至千兆级别。大数据治理
数据治理的定义作为商业资产的管理机制,消除数据不一致性,建立标准,提高数据质量。
数据治理的意义缺乏有效治理会产生劣质数据,导致决策错误、成本增加等问题。
涉及技术领域包括元数据、数据标准、数据质量、数据安全等多个主题。大数据分析与展现
分析的战略意义大数据技术的价值在于专业化处理,分析是决策的决定性因素。
企业应用需求企业需借助专业服务和人才挖掘数据价值,为决策提供科学依据。
展现形式利用直观技术将数据转化为可视化图表,多维立体呈现分析结果。大数据挖掘挖掘的目标从海量数据中发现有价值信息,转化为知识,应对全球性挑战。挖掘与分析的区别挖掘无预设主题,通过算法实现预测,如Kmeans、SVM等。挖掘挑战算法复杂,数据量和计算量大,常用算法多为单线程。小案例Google对流感活动的评估Google搜索引擎每天接受数亿次查询。每个查询都被看做一个事务,用户通过事务描述他们的信息需求。随着时间的推移,搜索引擎可以从这些大量的搜索查询中学到什么样的新颖的、有用的知识?有趣的是,从众多用户查询中发现的某些模式能够揭示无价的知识,这些知识无法通过仅读取个体数据项得到。例如,Google的FluTrends(流感趋势)使用特殊的搜索项作为流感活动的指示器。它发现了搜索流感相关信息的人数与实际具有流感症状的人数之间的紧密联系。当与流感相关的所有搜索都聚集在一起时,一个模式就出现了。使用聚集的搜索数据,Google的FluTrends可以比传统的系统早两周对流感活动作出评估。大数据分析常用平台03
InfoSphereBigInsightsIBM推出,处理流数据与持久性数据,提供内置分析技术和无分享集群,减少网络流量提升性能,可自动从故障中恢复。
BigQueryGoogle推出的Web服务,用类SQL语法分析超大型数据库,支持统计函数,适合交互分析。
魔镜国云数据研发的可视化工具,支持多数据源,自动拖拽建模,操作简单,超万家企业使用。
Anaconda流行的Python数据科学平台,含NumPy等库,可管理环境、安装库,支持多操作系统,适用于数据科学与机器学习。供应链大数据分析04认识供应链大数据
供应链大数据的定义指供应链业务中产生的海量数据,包括生产、销售、物流等多维度数据。认识供应链大数据
供应链大数据的作用帮助企业了解供应链状况、发现瓶颈、制定策略,提升效率降低成本。认识供应链大数据
发展趋势未来将向人工智能与机器学习、网络协同、风险管理、客户体验优化等方向发展。供应链大数据分析应用场景帮助实时监控物流运输大数据分析技术可以通过实时监测车辆位置、路况、道路交通量等信息,实时反馈物流运输状况,从而提高运输效率、降低运输成本。帮助优化库存管理通过大数据分析技术,可以实时监控库存数据,预测需求,并及时调整采购订单,从而降低库存成本和预测误差。帮助实现供应链可视化大数据分析技术可以将数据模型引入到供应链全流程,将数据转化为可视化图表、报表等形式,帮助管理者更直观地了解物流情况、库存状态,及时发现问题并作出解决方案。为数字供应链融资提供支撑数字供应链融资可以将金融机构抵押担保的要求向应收账款、存货、未来货权等进行转换,提供控制金融风险的新渠道、新方法。企业供应链大数据分析案例Glasfloss公司利用数据分析评估承运商表现、分析最经济的运输模式。利用数据分析优化运费运营,降低货损索赔。Avnet公司小案例Amazon的供应链大数据应用Amazon坚持走自建物流方向,将集成物流与大数据紧紧相连,从而在营销方面实现了更大的价值。由于Amazon有完善、优化的物流系统作为保障,它才能将物流作为促销的手段,并有能力严格地控制物流成本和有效地进行物流过程的组织运作。Amazon利用大数据实现了全球可视化的供应链管理,在中国就能看到来自大洋彼岸的库存。Amazon平台可以让国内消费者、合作商和Amazon的工作人员全程监控货物、包裹位置和订单状态。从前端的预约到收货到內部存储管理、库存调拨、拣货、包装,再到配送发货,送到客户手中,整个过程环环相扣,每个流程都有大数据的支持,并通过系统实现对其的可视化管理。了解大数据分析工具“魔镜”05大数据分析工具“魔镜”
“魔镜”工具大数据分析工具“魔镜”是一个集数据集成、数据处理、数据分析、数据可视化、数据挖掘为一体的平台。在这个平台上,可以运用“魔镜”工具连接并整合用户自身的内外部数据,实现多角度和多维度的数据处理、分析、挖掘、预测、展现和管理。了解供应链大数据分析与应用
配套教材06供应链大数据分析与应用配套教材THEEND谢谢机械工业出版社项目二供应链大数据技术基础CONTENTS目录01
数据采集02
数据存储03
Hadoop生态04
数据开发数据采集01
数据的形态数据是信息的原始材料,需加工解释后成为信息,形式包括数字、文字、图像等。结构化数据以二维表存储,遵循格式规范,查询修改方便但扩展性差,如关系型数据库数据。半结构化数据具有一定结构性,自描述且模式灵活,适合数据库集成与Web信息共享,如XML、HTML。非结构化数据无固定结构,包括文档、图片等,需智能技术处理,存储为二进制格式。数据采集的方法
基于物联网采集通过传感器、摄像头等采集定位、视频等数据,如智能交通中的GPS与卡口图像采集
系统日志采集采集日志的时间、类型、异常等信息,工具如Flume、Scribe,支持高并发传输
网络数据采集利用爬虫技术从网页提取非结构化数据,支持文件采集与关联,如Nutch爬虫结合Splunk检索小贴士企业数据采集
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。数据存储02数据存储的概念
大数据存储特点数据量大、查询复杂,传统存储无法满足,需分布式与云存储技术。
存储技术方案通过ETL转换数据格式,使用NoSQL数据库管理,利用分布式文件系统降低成本。
数据存储的方式
关系型数据库以表格存储,如MySQL、Oracle,数据一致性强,但大规模存储性能有限。非关系型数据库采用键值对、文档等形式,如MongoDB,高可扩展但一致性较弱。文件系统它以文件和目录的形式组织数据,并使用文件系统的命令和接口来访问和操作数据。分布式文件系统自动处理故障恢复和负载均衡等问题,并支持分布式计算和存储。内存数据库内存数据库将数据存储在内存中,以提供高速的数据访问和处理能力。小案例大型企业都用哪些数据存储方式
一个成功的大数据分析项目的关键在于对数据的正确存储。Hadoop、Spark和NoSQL等技术是当前最流行的大数据存储方案之一。
例如,Uber使用Hadoop存储和处理其庞大的司机和乘客数据;Twitter使用Hadoop来存储和分析其海量的推文信息;Netflix则使用NoSQL来管理其电影和电视节目库。常见的数据源类型
文本类型包括Excel、TXT、CSV,Excel用于数据处理,CSV适用于跨程序数据转移。
数据库类型如MySQL、SQLServer,关系型数据库支持结构化数据管理,各有适用场景。
数据集群类型Hive将结构化数据映射为表,Spark基于内存处理,提升迭代计算效率。Hadoop生态03Hadoop概述
Hadoop基础Apache开发的分布式架构,用户无需了解底层细节即可开发分布式程序。
HDFS与MapReduceHDFS高容错、高吞吐量,适合超大数据集;MapReduce负责并行计算,分解任务并汇总结果。HBase数据库
HBase特点分布式、可扩展,基于列存储,支持实时查询与批处理,数据多版本且类型单一。
应用场景适用于非结构化数据存储,表可动态增加列,无表间关联查询。
MapReduce编程模型核心思想将大规模数据任务分解到节点处理,再整合结果,适用于TB级数据并行运算。处理流程map阶段转换输入为中间键值对,reduce阶段汇总结果,每个任务分为map和reduce阶段。
Hive数据仓库Hive功能建立在Hadoop上的数据仓库工具,将结构化数据映射为表,提供SQL查询能力。应用价值简化大数据分析,适合非编程人员通过SQL处理Hadoop中的数据。小贴士
Hadoop是最早的一批大数据技术框架,在市面上拥有极高的占有率和庞大的用户群体。Hadoop在大数据体系内,技术难度相对较低,非常适合作为大数据学习的入门技术。小案例Facebook对Hadoop的运用
在《数据大爆炸一分钟=60秒=海量数据》一文中,我们了解到在短短的60秒内,Facebook的用户会分享684478条信息,如此庞大的业务量时刻考验着Facebook的数据处理能力,稍有不慎,随时会宕机。那Facebook面临这一挑战是如何做的呢?我们发现Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。它所运用的Hadoop集群机器节点超过1400台,超过15PB原始存储容量,每个商用机器节点配置了8核CPU,12TB数据存储,主要使用StreamingAPI和JavaAPI编程接口。数据开发04维度建模开发维度建模概述
Kimball提出的方法,将数据分为度量与维度,维度表存客观事实,事实表存业务数据。总线矩阵设计
划分数据域与业务过程,明确维度与业务的关联,如某服装公司的交易域、商品域。维度表与事实表
维度表属性需丰富且通用,事实表存储业务度量,粒度需统一,占据主要存储空间。设计步骤
需求调研→数据探查→识别维度与业务→设计总线矩阵→模型设计→命名规范→文档归档→审查验证。Python开发
Python概述解释型、面向对象语言,语法简洁,支持快速开发,拥有丰富库与框架。
Python的优点易于学习、跨平台、支持多编程范式,第三方库如NumPy、Pandas适用于数据科学。
应用案例NASA用Python处理科学数据,YouTube分析视频数据,Netflix开发推荐算法。小案例Python在数据分析中的使用场景
NASA是美国宇航局,他们使用Python来进行科学计算和数据分析。Python的科学计算库和数据分析库使得NASA能够快速地处理和分析大量的科学数据,帮助他们在航天领域做出决策。
YouTube是全球最大的视频分享网站,他们使用Python来处理和分析海量的视频数据。Python的数据分析库和机器学习库使得YouTube能够从海量的视频数据中挖掘出有价值的信息,并为用户提供更好的视频推荐。Netflix是一家提供在线流媒体服务的公司,他们使用Python来开发他们的推荐算法。Python的数据分析和机器学习库使得Netflix能够根据用户的观影历史和评分,为他们推荐最感兴趣的电影和电视剧。R语言
R语言概述为统计计算而生,支持数据预处理、可视化、机器学习,可保存分析对象。R语言特点算法覆盖广,CRAN有超1万个扩展包;社区支持强,交互简单,适合统计分析。THEEND谢谢机械工业出版社项目三供应链大数据管理机械工业出版社CONTENTS目录01
供应链数据管理概述02
供应链业务管理环节03
供应链数据管理环节供应链数据管理概述01
供应链数据管理的定义核心定义以数据管理部门为主体,通过统一标准、质量与安全管理,实现数据资产化、服务化与价值化的功能网链结构数据收集与整理机制明确商品、物流、库存等数据类型,通过自动化系统或人工渠道收集,经清洗、去重后建立规范存储结构供应链数据管理的意义
数据作为生产资料的价值数据是21世纪重要生产资料,有效管理数据是企业数字化转型的前提,助力提升核心竞争力
数据推动信息可见性通过数据分析定制可视化报表,记录运营进度、发现问题,实现可视化管理与日常营运优化
促进信息共享与运营能力构建帮助企业与合作伙伴高效共享数据,动态调整供应链策略,精准把握顾客需求与行业变化小案例《数据供应链白皮书》在世界互联网大会上发布2021年世界互联网大会“互联网之光”博览会由国家互联网信息办公室、科学技术部、工业和信息化部、浙江省人民政府共同主办,会上正式发布了《数据供应链白皮书2021》。该白皮书中正式明确了数据供应链的管理指引,数据供应链通过制定统一数据标准、管理统一数据质量,保障统一数据安全,将数据供应给需求部门进行应用,实现数据资产化、服务化、价值化,该书已经被企事业单位广泛应用。供应链业务管理环节02
供应链业务管理的发展历程发展阶段20世纪初聚焦企业内部生产与物流协调;50年代受福特制、丰田制推动,注重协调优化;信息技术及新兴技术应用带来新机遇
供应链业务管理核心环节
01需求计划需求计划通过分析历史数据制定预测,避免缺货或积压
02供应商管理供应商管理需建立长期合作,评估质量、价格与交货期
03采购管理采购管理以合理价格获取高质量物品,确保交货顺畅
04库存管理库存管理的主要目标是确保库存水平适当,满足生产和销售的需求,同时避免库存积压和浪费
供应链业务管理核心环节
05生产管理生产管理保障流程顺畅、效率提升与安全
06分销管理分销管理确保产品及时送达,提升客户满意度
07物流管理物流管理优化运输,降低成本
08信息共享企业与合作伙伴实时共享信息,提高供应链透明度与响应速度,及时调整生产销售计划供应链数据管理环节03数据采集与存储
数据采集从供应商、库存系统等来源收集实时数据,明确标准流程,经筛选、清洗后确保准确性与完整性
数据存储存储于统一平台,确保兼容共享,兼顾容量、扩展性、安全性与备份恢复数据处理与可视化分析
数据处理通过清洗、去重、分类等操作转化原始数据,采用合适工具与算法,确保数据质量
数据可视化分析运用统计、关联等分析方法,结合可视化工具展现供应链状况,优化管理、发现问题并支持决策数据安全管理
安全措施采用加密技术保护传输与存储安全,设置访问权限与审计日志,定期备份恢复
全环节保障从采集、存储、处理、传输到销毁各环节采取措施,结合制度、组织与技术层面保障安全
数据标准与质量管理数据标准建立制定统一标准确保数据兼容共享,降低处理成本,注重全员培训与监管数据质量管理定期检查校验数据,建立校验规则,及时修正问题,保证数据准确性与可靠性小贴士
建立数据标准时,需确保定义明确、格式统一。建立完毕之后,注重全员参与培训和推广,加强监管审查,促进沟通协作,是数据标准推行成功的关键。数据交换与共享
平台建设与规则制定建立安全可靠的交换共享平台,制定规则协议,促进组织协作,提升供应链效率数据应用与决策支持
业务应用优化库存管理、降低运输成本、提高订单履行效率,支持决策者制定科学战略小案例Apple公司的供应链数据管理
Apple在全球范围内拥有数以千计的供应商,如何确保供应链的顺畅、高效且风险低是极大的挑战。通过精细的数据管理和先进的IT系统,Apple已实现原材料需求精准预估,避免了库存积压。在采购决策上,Apple不仅仅基于价格,还会综合考虑质量、供应商的可持续发展策略等,且通过与供应商的实时数据共享和管理,优化了物流环节,并减少冗余,提高效率。这种数据驱动的供应链管理方式为Apple赢得了业界的高度赞誉和市场份额。THEEND谢谢机械工业出版社项目四供应链大数据分析CONTENTS目录01
供应链大数据分析概述02
供应链大数据分析的意义03
大数据分析的特点04
供应链数据分析常见指标05
供应链数据分析常见方法供应链大数据分析概述01供应链大数据分析的概念
背景全球化与互联网化推动数据爆发式增长,传统管理方式难以应对,政策支持下大数据分析成为解决方案
定义利用大数据技术对供应链数据进行收集、处理、分析和应用,优化管理、提升效率、降低成本
数据特点数据来源广泛(企业内部、供应商、客户等),类型多样(结构化、非结构化、时序数据)供应链大数据分析领域发展现状政策支持中国政府推动制造业转型升级,加强供应链管理和智能化改造,提供政策支持市场需求企业重视供应链优化,对供应链大数据分析师需求增长,人才缺口大人才培养高职院校加强相关人才培养,2022年起开展1+X供应链数据分析职业技能等级证书考试供应链大数据分析的意义02提高供应链运营效率
01决策与需求能力提升大数据分析提高决策准确性和需求预测能力,优化资源配置,促进各环节合作
02案例:快递行业大数据与物流仓储结合,整合物流与客户信息,提高物流与货物信息匹配度,提升快递速度
03成本控制企业根据分析结果调整方向、优化资源,降低运营成本,如金融机构通过交易数据融资,节约成本降低供应链风险
风险管理过程供应链风险管理包括事前、事中、事后管理,大数据可应用于各环节
风险预测与管控大数据整合内外部数据,增强事前预测能力;实时分析数据,加强事中管控;协助事后找出风险根源助力供应链创新发展
思维转变大数据改变生产生活方式,催生创新变革,提升企业创新能力
业务创新帮助企业打破发展瓶颈,解决业务难题,挖掘潜在商业机会,实现方法创新大数据分析的特点03大数据与传统数据分析的区别
分析对象传统分析关注宏观整体,大数据分析微观个体,实现个性化需求
方法与标准传统分析方法成熟、标准明确,大数据挖掘无固定方法,缺乏统一标准
数据来源传统数据来自阶段性评估,存在系统误差;大数据来自过程性记录,误差较小
人才与设备传统分析人才易获取,大数据挖掘需数学或计算机领域专业人才,设备要求高大数据与传统DW分析的区别数据处理传统数据仓库有精致的ETL流程,数据清洗规范;大数据针对非结构化数据,处理更具挑战性数据类型传统分析基于结构化数据和关系模型;大数据处理图片、视频等非结构化数据,难以建立正式关系分析方式传统分析是定向批处理,需完成ETL;大数据利用软件实时分析技术平台传统分析依赖昂贵硬件;大数据通过Hadoop、Spark等平台实现小案例数据分析帮服饰公司优化供应链、提升销售额和客户满意度
某服饰品牌企业数据分析师对销售系统、库存系统和采购系统的数据进行整合,采用时间序列分析销售数据预测未来一周的销量,使用聚类分析将客户进行分类,分析各类客户的购买习惯,利用关联分析找出销量较高的商品组合。通过这些数据分析,企业发现夏季T恤在周末的销量明显高于工作日,年轻女性更喜欢颜色鲜艳的服饰,而成熟女性则更偏爱素色,购买外套的客户更倾向于同时购买围巾。基于这些数据分析结论,企业调整了供应链管理策略,比如在周末增加T恤的备货量,将外套和围巾捆绑销售,以及针对不同客户群体设计不同风格的产品,这些措施有效提高了企业的销售额和客户满意度。供应链数据分析
常见指标04总量指标
概念反映一定时间、空间下的总规模或总水平,用绝对数表示,如社会物流总额
作用是计算相对指标和平均指标的基础,影响派生指标的准确性
计算方法直接计算法(计数、测量汇总)和间接推算法(利用平衡、因果关系推算)
计算原则科学确定含义和范围,统一计算口径、方法和计量单位相对指标
01概念两个相关指标的比值,反映数量对比关系,如比重、比例、速度等
02作用反映现象联系程度,使不可比数据可比,表明发展程度和结构
03计算方法同一总体内部:计划完成程度、结构、比例、动态相对指标;两个总体之间:比较、强度相对指标平均指标概念反映总体一般水平,抽象化标志值差异,如平均工资分类数值平均(算术、调和、几何平均数)和位置平均(众数、中位数)计算方法算术平均数:简单算术平均和加权算术平均;调和平均数:简单调和平均和加权调和平均;几何平均数:简单几何平均和加权几何平均变异指标概念反映总体标志值的差异程度,说明离散程度作用反映离散趋势,衡量平均数代表性,量度发展均衡性计算方法全距(极差)、平均差、方差和标准差供应链数据分析常见方法05回归方法概念
分析自变量和因变量的相关关系,建立方程,用于预报和控制,如用户满意度与产品质量的关系方程分类
按变量个数:一元回归、多元回归;按关系类型:线性回归、非线性回归预测方法概念利用统计方法对未来发展进行定量推测,回归预测是简单方法步骤确定变量建立模型相关分析计算预测误差确定预测值回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。小案例预测方法在供应链方面的应用
UPS每天要递送大量包裹,为了更好地跟踪包裹状态,UPS公司采用了商业智能平台协调企业分析来捕获和分析客户数据、运营数据和规划数据。平台利用预测分析、机器学习和多模型预测,以及专有的随机性和季节性增长因素来支持预测、运营可见性、优化和报告。通过这种方式,UPS公司能够实时了解每个包裹的状态,更好地规划和管理其物流网络。THEEND谢谢机械工业出版社项目五供应链大数据挖掘机械工业出版社CONTENTS目录01
认识供应链数据挖掘02
供应链数据挖掘的流程和算法认识供应链数据挖掘01了解供应链数据挖掘
数据挖掘与供应链
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘与供应链
供应链挖掘起源数据挖掘起源于多种学科,其中最重要的两门是统计学和机器学习
数据挖掘的任务数据总结浓缩数据,通过统计方法或OLAP技术实现数据的总体把握分类用分类模型将数据分派到不同组关联分析找出数据间的关联关系,如“尿布与啤酒”案例聚类分析按相近程度将数据分成子集合,用于缺乏描述信息或无分类模式的数据小案例尿布与啤酒”的故事
关联模型的一个典型场景是市场菜篮分析(MarketingBasketAnalysis)通过挖掘数据派生关联规则,可以了解客户的行为。比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。数据挖掘在供应链中的应用
核心应用场景预测需求、优化配送路线、避免废品和抱怨、风险管控、提高采购效率
面临的挑战数据整合难度大、数据质量问题及隐私安全问题需企业优化解决供应链数据挖掘的流程和算法02供应链数据挖掘的流程
预处理预处理包括异常点检测、比例缩放等
模型评估解释模型以辅助决策,流程具有高度反复性数据收集数据收集分设计实验和观察法
解释模型与得出结论选择并评估数据挖掘模型常见数据挖掘算法决策树起源于概念学习系统CLS(ConceptLearningSystem)。结构简单、分类速度快,适用于大规模数据处理决策树表示法决策树构造思想决策树的方法特点树状结构,它从根节点开始,对数据样本进行测试,根据不同的结果将数据样本划分成不同的数据样本子集,每个数据样本子集构成一子节点量通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。决策树的生成是一个从上至下,“分而治之”(Divide-And-Conquer)的过程,是一个递归的过程。小案例决策树模型在某地电视机生产中的应用
为了适应市场的需要,某地准备扩大电视机生产。市场预测表明:产品销路好的概率为0.7;销路差的概率为0.3。备选方案有三个:第一个方案是建设大工厂,需要投资600万元,可使用10年;如销路好,每年可赢利200万元;如销路不好,每年会亏损40万元。第二个方案是建设小工厂,需投资280万元;如销路好,每年可赢利80万元;如销路不好,每年也会赢利60万元。第三个方案也是先建设小工厂,但是如销路好,3年后扩建,扩建需投资400万元,可使用7年,扩建后每年会赢利190万元。小案例
各点期望:点②:0.7×200×10+0.3×(−40)×10−600(投资)=680(万元)点⑤:1.0×190×7−400=930(万元)点⑥:1.0×80×7=560(万元)小案例
比较决策点4的情况可以看到,由于点⑤(930万元)与点⑥(560万元)相比,点⑤的期望利润值较大,因此应采用扩建的方案,而舍弃不扩建的方案。把点⑤的930万元移到点4来,可计算出点③的期望利润值。点③:0.7×80×3+0.7×930+0.3×60×(3+7)−280=719(万元)最后比较决策点1的情况。由于点③(719万元)与点②(680万元)相比,点③的期望利润值较大,因此取点③而舍点②。这样,相比之下,建设大工厂的方案不是最优方案,合理的策略应采用前3年建小工厂,如销路好,后7年进行扩建的方案。常见数据挖掘算法遗传算法模拟自然界生物进化过程与机制求解极值问题的一类自组织、自适应人工智能技术。特点流程优点从问题解的中集开始嫂索求解时使用特定问题的信息极少极强的容错能力采用随机方法隐含的并行性仿生全局优化包含5个基本要素:问题编码,初始群体的设定,适应值函数的设计,遗传操作设计,控制参数设定。常见数据挖掘算法神经网络以重复学习的方法,将一串例子交与学习,使其归纳出足以区分的样式。基本介绍特点神经网络是一种可以容易的应用于预测、分类和聚类的强有力工具。具有良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性。小贴士
MP模型属于一种阂值元件模型,它是由美国McCulloch和Pitts提出的最早神经元模型之一。MP模型是大多数神经网络模型的基础。常见数据挖掘算法关联规则分类算法通过发现数据集中的关联规则来预测新数据的分类标签关联规则分类算法介绍在此算法中,数据集通常由项集组成,项集是由多个项(item)组成的集合。每个项代表数据集中的一个特征或属性。数据稀缺性多重比较问题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届四川省巴中市南江县重点名校初三第二次校模拟考试数学试题含解析
- 2026届辽宁省清原中学初三毕业班第一次调研测试物理试题含解析
- 四川省眉山洪雅县联考2025-2026学年初三第二次联合考试数学试题试卷含解析
- 2026年大学大一(健康信息管理)健康信息数据管理分析综合测试题及答案
- 一级响应应急流程
- 急性胸痛与肺栓塞的鉴别与护理
- 护理安全:护理人员的心理健康与安全
- 2025年前台防疫接待礼仪知识考核
- 护理不良事件分级职业安全
- 护理教学课件:护理信息技术与远程医疗
- 学校食堂副食品配送服务投标方案(技术方案)
- 数学竞赛辅导:《高中数学竞赛辅导班》教案
- 麻醉科应急预案及流程
- 上海市第一至十八届高一物理基础知识竞赛试题及答案
- 《皮肤性病学4》课程标准
- 动火作业方案及安全措施
- 财务管理实习报告范文
- 水运港口专题知识讲座
- 农村老房分房协议书范本(2篇)
- 23J916-1 住宅排气道(一)
- 特殊工种作业人员安全管理制度的人员考核与奖惩机制
评论
0/150
提交评论