




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章电子商务中的数据处理技术,介绍,想要成功地实现电子商务,需要许多IT管理系统的支持,其中数据处理技术的发展和应用是决定电子商务成功运行和有效管理的关键因素之一。数据处理技术一般分为两种类型:操作型数据处理和分析性数据处理。操作型数据处理也称为事务处理,是指对数据库联机的日常操作。而分析型数据处理是指从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,涉及数据仓库。本章将介绍数据仓库的概念,以及应用于电子商务中的前沿数据处理技术,包括在线分析处理、数据挖掘技术和商业智能的概念及应用。,8.1数据仓库,8.1.1数据仓库的概念及特点1.数据仓库及相关特点(1)数据仓库(DataWarehouse,DW)建立数据仓库的目的是解决企业遇到的“企业应用蜘蛛网”现象,并更好地支持管理决策。(2)多维数据库(Multi-DimensionalDatabase,MDD)多维数据库可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。当维数扩展到三维甚至更多维时,多维数组库将形成类似“超立方块”一样的结构,人们通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。,(3)数据集市(DataMarts)数据集市是一种更小、更集中的数据仓库,是为企业提供分析数据的一条廉价途径。(4)元数据(Metadata)元数据是关于数据的数据,它描述了数据仓库的数据和环境。数据通常可以分为两类:一类是管理元数据,它是对源数据及其内容、数据仓库主题、数据转换及各种操作信息的描述。另一类是用户元数据,它帮助用户查询信息、理解结果、了解数据仓库中的数据和组织。(5)外部数据源外部数据是不能在联机事务处理(OLTP)系统中找到,却是增强数据仓库欣喜质量所需的数据。,2.数据仓库与数据库的区别传统的数据库系统由于主要用于企业的日常事务处理工作,存放在数据库中的数据基本符合操作性数据特点。而为了适应数据分析处理的要求而产生的数据仓库存放的数据,基本符合分析型数据的特点,下表显示出了操作性数据和分析型数据的区别。,数据仓库与普通数据库之间的区别主要表现在以下三个方面:(1)它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。(2)数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。(3)它采用分析型的数据处理而非普通的操作型的数据处理方式,支持决策处理而非常规事务处理。3.数据仓库的技术支持数据仓库需要以下数据库技术的支持:(1)并行数据库技术(2)高性能的数据库服务器(3)数据库互操作技术,4.数据仓库的特性(1)数据仓库的数据是面向主题的(2)数据仓库的数据是集成的(3)数据仓库的数据是不可更新的(4)数据仓库的数据是随时间不断变化的5.数据仓库的应用目标(1)作为企业的核心业务(2)优化企业内部管理控制(3)为企业增加商业机会,8.1.2数据仓库的结构及功能,1.数据仓库的体系结构数据仓库的体系结果图如下。,2.数据仓库的作用数据仓库的主要作用是对数据进行处理以提高它们的质量,是企业日常处理过程中记录的数据能够更好地用于更高层次的分析和得到更有效地利用。下表描述了产品的生产过程与数据仓库数据处理过的对比。,3.数据仓库的功能(1)建模功能(2)数据的抽取、转换和加载功能,抽取(Extraction)、转换(Transformation)和加载(Load),简称ETL(3)数据的清洗、融合与集成功能(4)数据存储管理和查询功能(5)运行维护功能,8.1.3联机分析处理技术(OLAP),1.OLAP分析联机分析处理技术也称多维分析,它是一种数据分析技术,能够完成基于某种数据存储的数据分析功能。它可简单地定义为共享多维信息的快速分析。(1)OLAP的生产与发展OLAP是在联机事务处理(OLTP)基础上发展起来的。传统的OLTP应用是基于客户/服务器的两层结构体系,随着Internet/Intranet技术的发展,它的更多应用向三层客户/服务器方向发展。(2)OLAP的特点联机分析处理要求按多维方式组织企业的数据,传统的关系数据库难以胜任。为此,人们提出了多维数据库的概念。目前,联机分析处理的工具可分为两大类,一类是基于多维数据库的,另一类是基于关系数据的。(3)OLAP服务器OLAP服务器是一个高容量和多用户的数据操作引擎,用于支持和操作多维数据结构。,2.OLAP分析工具OLAP系统上要执行的任务,为交互和在日常业务中处理面向事务的任务而优化;而OLAP分析工具在专用数据仓库服务器上执行任务,需要高的批处理性能以处理许多聚合、与计算和查询任务。(1)数据源:是操作型数据库、历史数据、外部数据或从己有的数据仓库环境所得的信息。(2)抽取/传播:是从各种数据源和不同的平台收集数据并将它们移动到数据仓库的过程。(3)转换/清洗:是在整个数据仓库建立的过程都有转换发生通常不止一步。数据转换通常包括使用映射表来解析代码及发现数据域隐藏的业务规则。在该过程的较早阶段,转换更多地用于合并不同数据源的数据。另一方面,清洗确保数据仓库具有正确的、有用的和有意义的信息。(4)数据提炼:数据提炼过程生成数据集市中的数据,它所完成的任务是:创建数据仓库的一个子集、创建计算域/虚拟域、汇总信息和聚合信息。(5)数据存储与访问:数据仓库中的操作细节数据一般用关系数据库系统进行储存和管理,但对于汇总数据等分析型数据的储存有两种方式:建立专用的多维数据库系统(MOLAP)和利用现有的关系数据库来模拟多维数据(ROLAP)。,3.OLAP分析中的维度与事实数据仓库通常采用三层结构。底层是数据仓库服务器,中间层是OLAP服务器。模型中的事实一般用维表来描述。(1)维表的特征:维表的本质是多维分析空间在某个角度上的投影,多个维表共同建立一个多维的分析空间。(2)在OLAP分析中有一些维表是常用的:时间维、地理维、机构维、客户维、产品维。(3)事实表。事实是各个维度的交点,是对某个特定事件的度量。,4.多维OLAP分析我们以一个卷烟销售分析为例,看如何从产品、时间、财务的角度,用多维的方式观察数据,此例中数据模型等同于业务模型。,OLAP分析有如下特点:(1)钻取:在一个维内部沿着层次从上到下或从下到上的方向考察数据。如查找的产品为国产上海的中华烟,则钻取到的各级数据层次。,(2)切片:固定某些维成员,用切片的方法对其他维进行观察,即在3维数据库中固定1维。对其余的两维切片观察。,(3)旋转:按不同顺序组织哥哥维,对结果进行考察。,8.2数据挖掘技术,8.2.1数据挖掘的概念数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。从数据库的角度看,数据挖掘就是这样一个过程:从数据库的数据中识别出有效的、新颖的、具有潜在效用的并最终可理解的信息,是一个非平凡过程。1.数据挖掘的定义一个比较正式的数据挖掘的定义是:数据挖掘是从数据中抽取正确的、有用的、以前未知的和综合的可理解的信息,并使用该信息作商业决策的过程。,2.数据挖掘的意义数据挖掘是先有了数据才兴起的技术。从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,从而减少风险,辅助做出正确的决策。它是提高商业和科学决策过程中的质量和效率的一种新方法。3.联机分析处理的局限从某种意义上来说,联机分析处理还是一种传统的决策支持方法,即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,所以联机分析处理是一种验证性的分析。一般来说验证型的分析有如下局限性:(1)常常需要以假设为基础。(2)联机分析处理需要对用户的需求有全面而深入的了解,然而实际上有些时候用户的需求并不是确定的。(3)抽取信息的质量依赖于用户对结果的解释,容易导致错误。,8.2.2数据挖掘的内涵,数据挖掘DM技术,就是对海量的数据进行精加工,从大量的数据中抽取出潜在的、不为人知的、有价值的信息、模式和趋势,然后,将它们以可视化形式和易于理解的方式表达出来,为人么所用。1.数据挖掘的功能数据挖掘目前的功能主要有以下几种:(1)概念描述功能(2)关联分析功能(3)分类和预测功能(4)聚类功能(5)检测功能(6)演变分析功能2.数据挖掘技术的应用(1)金融业:分析金融企业影响业务的关键因素,将市场和服务分成有意义的群组。(2)银行业:以提高资金的使用效率,制定正确的金融政策和加强对犯罪活动的防范措施。,(3)保险业:对索赔数据进行挖掘,防止欺诈行为。(4)零售业:识别和找出客户人口统计特征间的联系和购买行为,以改进服务质量,提高客户的满意度,减少商业成本,提高利润。(5)医疗与保健:找出病人的行为特征,找出各种疾病的成功医疗与预防方法,提提高治愈率等。(6)物流业:对运输路径、物流运行方式等作业数据进行挖掘,可以支持SCS优化物流网络。(7)电信业:确定电信模式,捕捉盗用行为,进行异常模式识别,以便更好地利用资源和提高服务质量,降低成本和创造盈利。上述只是DM应用的典型行业,还有如税务、能源、房地产、证券、教育、制造业和政府等,DM几乎可用于所有的行业。下面有几个运用数字挖掘技术成功的案例:,案例1:美国国内税务局为了提高对纳税人的服务水平。运用数据挖掘技术,合理地安排税务官的工作,为纳税人提供更迅捷、更准确的服务。案例2:GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%案例3:汇丰银行运用数据挖掘技术对不断增长的客户群进行分类,对每种产品找出最有价值的客户。使得营销费用减少了30,3.数据挖掘的过程与技术数据挖掘的过程如下图所示。先将选择的数据组织成一致的格式,再用ETL工具完成数据的抽取、转换和加载功能,数据挖掘过程中抽取的信息经过去粗取精的处理,最终转换为可以支持企业关键性决策的信息。,数据挖掘所有到的关键技术主要有以下几项:(1)关联技术:若两个或多个变量的取值之间存在某种规律性,就称为关联。从大量的商务事务记录中发现潜在的关联,可以帮助人们做出正确的商务决策。关联规则关联分析“啤酒与尿布”的故事购物篮分析(2)分类:分类要解决的问题是为一个事件或对象归类,即预测一个特定的对象属于哪一类。(3)聚类:聚类就是根据一定的聚类规则把整个数据分成不同的组,即将具有某种相同特征的数据聚在一起,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。,8.2.3现代数据库技术,1.现代数据库技术的优越性在传统的决策支持系统中,数据库、模型库和知识库往往被独立地设计和实现,因而缺乏内在的统一性。而以数据仓库为中心、事务处理和数据挖掘为手段的现代数据库技术很好地解决了这个问题。,现代数据库技术的优越性在于:(1)数据仓库解决了数据不统一的问题。(2)联机分析处理从数据仓库中的集成数据出发,实现了分析方法和数据结构的分离。(3)数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动作出预测。2.数据库技术对电子商务系统的支持数据库技术对电子商务系统的支持是全方位的,从底层的数据基础到上层的应用都涉及到数据库技术。数据库技术对于电子商务系统的支持可以概括为以下几部分:(1)数据的收集、存储和组织:这是传统数据库系统的主要功能。(2)决策支持:这就要用到前面所提到的数据仓库解决方案。(3)对EDI的支持:EOI是电子商务重要的组成部分。,8.3商业智能,8.3.1商业智能的内涵1.商业智能的概念商业智能(BusinessIntelligence,BI)系统使组织能够通过利用客户、供应商以及内部业务操作的有关信息来提高商业性能。BI系统的最终目标是使用户能够消费大量有关数据,对其进行分析从而使企业有机会增加收入或者节省成本。BI系统通常需要:(1)从多个来源收集数据(2)集结、组织以及标准化仓库中的信息(3)提供分析工具(4)BI系统的绩效信息架构能根据基础指标设定企业目标,2.数据仓库解决方案的缺点(1)系统的开发者总是专注于软件技术,而不是商业解决方案,但是企业多需要的是应用程序和商务解决方案,并不仅是技术。(2)许多企业认为只需要建立起数据仓库并为用户提供合适的工具,就可以解决问题。但是客户们过多的关心如何建立数据库,而不是如何对它进行访问。3.商业智能的组成支持商业智能和商业智能系统的三大支柱是数据仓库、联机分析处理OLAP和数据挖掘技术,系统中各部分之间的关系如下图所示。,从图中可以看出,数据仓库是BI的基础,联机分析处理和数据挖掘是数据仓库上的两类不同目的的数据增值操作;联机分析工具是数据汇总/聚集工具,它提供切片、切块、上卷和旋转等数据分析操作,并能简化数据分析的工作。,8.3.2商业智能的特点和作用,1.商业智能系统的主要优点(1)作为第三代的业务信息系统,商业智能系统不仅支持最新的IT技术,同时也提供了一系列的应用解决方案。(2)商业智能系统着眼于终端用户对业务数据的访问和业务数据的传送,它同时为信息提供者信息消费者提供了支持。(3)商业智能系统支持对所有格式商务信息的访问,而不仅仅是那些存储在数据仓库中的信息。2.商业智能的管理方式一般来说,商业智能采用的是协助管理模式,它主要有以下三种形式:(1)基于目标的管理方式。(2)基于例外的管理方式。(3)基于事实的管理方式。,3.商业智能系统功能(1)预定义查询与报告(2)查询和分析(3)数据传输4.商业智能的作用(1)支持智能化信息处理(2)帮助处理海量数据因此,BI能够帮助建立对供应商、客户,竞争对手和市场等的动态分折,不断地调整原有的计划,支持企业的管理决策活动。同时,商业智能也为企业实施整体供应链的协调同运作提供了支持和帮助。,8.3.3商业智能的应用,1.商业智能的实施由于关系数据库技能是BI的基础,而商业智能和数据仓库已经成为商业运作中的重头戏,所以拥有有关数据处理技术的正确技能变得越来越重要。(1)抽取、转换和装入(ETL):通常将从多个源应用程序(内部的和外部的)中收集事务数据称做抽取(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 游泳方面培训课件图片
- 无损检测技术应用-第1篇-洞察及研究
- 英语教研培训课件下载
- 慢性阻塞性肺疾病诊疗与护理考核试题及答案
- 2025年官方网站及移动应用界面翻译服务协议
- 2025版金融行业高级管理人员聘用合同
- 2025第狞部分智慧农业项目合作协议
- 2025年度高级管理人员聘用合同封面设计模板
- 2025年采矿设备安全性能检测与采购合同
- 2025房产中介服务合同-新房销售代理
- 2025四川省公安厅招聘辅警(448人)笔试参考题库附答案解析
- 湖北省圆创高中名校联盟2026届高三第一次联合测评 语文试卷(含答案)
- 2025秋苏教版(2024)小学科学二年级上册(全册)课时练习及答案(附目录)
- 巡察整改工作课件模板
- 医务人员职业道德准则理论试题
- 2025年城镇燃气条例竞赛题库
- GB/T 22030-2025车用乙醇汽油调合组分油
- 肺癌的护理新进展
- 2025年煤炭矿山职业技能鉴定考试-综采考试历年参考题库含答案解析(5套100道单选题合辑)
- 车务段安全培训课件
- DB42T 1891-2022 人防工程防护及防化通风设备安装标准
评论
0/150
提交评论