零售业销售预测系统的设计与实现_第1页
零售业销售预测系统的设计与实现_第2页
零售业销售预测系统的设计与实现_第3页
零售业销售预测系统的设计与实现_第4页
零售业销售预测系统的设计与实现_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电 子 科 技 大 学UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA工程硕士学位论文ENGINEERING MASTER DISSERTATION论 文 题 目:零售业销售预测系统的设计与实现工 程 领 域:软件工程指 导 教 师:吴劲副教授作 者 姓 名:潘海清班学号:200792349054分类号UDC 注 1密级学位论文零售业销售预测系统的设计与实现(题名和副题名)潘海清(作者姓名)指导教师姓名吴劲讲师电子科技大学常庆周河南联通网络建设部(职务、职称、学位、单位名称及地址)成高郑都工州申请专业学位级别硕士专业学位类别工程硕

2、士工程领域名称软件工程提交论文日期2010-8-10论文答辩日期2010-10-30学位授予单位和日期电 子 科 技 大 学答辩委员会主席评阅人2010 年 12 月 5 日注 1:注明国际十进分类法 UDC的类号独 创 性 声 明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名: 潘海清日期:2010 年 12 月 13 日关于

3、论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日摘 要摘要随着信息技术的迅速发展和广泛使用,零售业已经积累了大量的业务数据,如何运用数据挖掘等相关计算机技术,通过对企业长时间积累的经营数据进行分析,获取有用的知识和潜在的模式,己成为许多零售业所关注的问题。为了保持合理的库存,制定有效的销售策略,

4、减少企业运作成本,从而增加利润,零售业越来越认识到销售预测的重要作用。本文以“河南某大型连锁超市销售预测系统”项目开发为背景,以超市销售物品为主要分析对象,论述了作为一个销售预测系统,其具体的需求分析、设计理念及实现预测的方法和结果。本文首先介绍了数据挖掘所用到的相关技术,包括数据仓库技术、联机分析处理等相关技术。然后基于某连锁超市的销售历史数据,针对挖掘主题来进行数据需求分析,设计了数据清洗预处理方法,完成了数据加载,从而实现了数据仓库,并在此基础上设计了用于 OLAP 的多维立方体,研究了.NET 平台下怎样用 ADOMD.NET 以及 MDX 访问多维数据集进行多维数据的查询、分析和处理

5、,有效的解决了数据挖掘能够利用的复杂数据的存储和查询问题。同时,研究了销售预测基本方法和算法以及与其相关的统计学方法,针对目前各种方法所存在的不足,提出灰色预测方法,并利用灰色预测算法和传统的加权平均算法结合的方式来弥补 GM(1,1)模型的不足,定义了加权平均权值学习算法,使得挖掘模型不但能够在有明显趋势的历史数据上有高精度的预测,而且在没有明显规律的历史数据中找出模式的概率有所提高,很大程度上提高了模型对不同数据集的适应性和预测能力。本文在解决了多维数据的存储和查询问题以及设计和实现了具体的挖掘模型的基础之上,基于 Visual Studio 2005 开发环境生成一个可用的销售预测系统。

6、并根据具体的数据挖掘程序利用现有数据做了大量实验,并选用其中比较典型的预测数据实例去解释预测过程、分析和评估预测结果,总结了挖掘模型的优点和不足,以及针对预测模型的参数调整方法。最后,根据本文的不足之处,确定了进一步的研究方向,以使挖掘模型精度更高,适应能力更强。关键词: 销售预测,数据仓库,数据挖掘,联机分析处理ABSTRACTABSTRACTAs information technology and widespread use of rapid development, retail hasaccumulated a large amount of business data, how

7、to related to the computer using datamining techniques, by accumulation Company intensified analysis to obtain usefulknowledge and enterprise model , has become a concern in many retail. In order tomaintain reasonable inventory, develop effective sales strategies, to reduce businessoperating costs,

8、thereby increasing profits, increasing awareness of retail sales forecastsfor the important role.This thesis in a large chain supermarket of Henan sales forecasting system projectdevelopment background, discussed the system analysis, design and implementation ofthe main ideas and methods. First intr

9、oduced by the use of data mining relatedtechnologies, including data warehouse, online analytical processing and other relatedtechnologies. Supermarket chains and the sale based on an historical data for the themefor data mining requirement analysis and design of the data cleanning pretreatment, toc

10、omplete the data loading, Conger to achieve a data warehouse, and on this basis wasused for OLAP is designed to multi-dimensional cube is studied. NET platformADOMD.NET and how to use MDX to access multidimensional data cube query,analysis and processing, and effective data mining can be used to sol

11、ve complex datastorage and query. At the same time, study the basic methods and algorithms salesforecasts and the associated statistical methods for the current shortcomings of variousmethods the proposed prediction method of gray, and gray prediction algorithm and thetraditional weighted average al

12、gorithm with a way to make up for GM (1,1) modeldeficiencies, define the right value weighted average algorithm, making mining modelnot only has obvious exaltation in the historical data, and without any apparenthistorical data findding model probability has increased, largely improving the model to

13、different data sets of adaptability and predictability.This thesis addresses multi-dimensional data storage and query design andimplementation issues, and specific mining model based on, based on Visual Studio2005 development environment to generate a sales forecast system available. AndIIABSTRACTpr

14、ocedures based on specific data mining done a lot of use of existing experimental data,and use some of the more typical examples of the forecast data to explain the predictionprocess, analysis and evaluation of prediction results, summed up the advantages anddisadvantages of mining models, as well a

15、s for the prediction model parameteradjustment method. Finally, the inadequacies of this article, further research todetermine the direction of mining model to make more precise and stronger adaptability.Keywords:Sales Forecast,Database,Data Mining,OLAP目目录录第一章 引言 . 11.1 系统研究背景及意义 . 11.2 数据挖掘技术在销售预测应

16、用中的发展 . 21.3 本文主要研究内容 . 3第二章 预测系统的相关技术简介 . 52.1 数据仓库 . 52.1.1 数据仓库的基本概念 . 52.1.2 数据仓库的特征 . 62.1.3 数据仓库的体系结构 . 72.2 数据挖掘 . 82.2.1 知识发现和数据挖掘 . 82.2.2 数据挖掘的任务 . 92.3 联机分析处理(OLAP)相关技术 . 102.3.1 联机分析处理(OLAP)的功能特点 . 102.3.2 联机分析处理(OLAP)的体系结构 . 112.3.3 联机分析处理(OLAP)的基本操作 . 132.2.4 联机分析处理(OLAP)的三种数据组织形式 . 15

17、2.4 数据仓库、联机分析处理(OLAP)及数据挖掘的关系 . 162.5 灰色系统与销售预测 . 172.5.1 灰色生成方法 . 182.5.2 GM(1,1)模型 . 192.6 本章小结 . 21第三章 销售预测系统需求分析 . 223.1 源数据需求分析 . 223.2 维度和事实度量需求分析 . 233.3 数据粒度需求分析 . 253.4 本章小结 . 26第四章 数据仓库设计 . 274.1 事实表设计 . 27IV目录4.2 维表设计 . 274.3 数据清洗和预处理 . 294.4 数据仓库数据加载 . 304.5 OLAP 多维数据集的实现 . 324.5.1 多维数据集

18、数据组织方式 . 324.5.2 多维数据集的生成 . 334.5.3 多维表达式 MDX . 344.5.4 使用 ADOMD.NET 访问多维数据集 . 354.6 本章小结 . 36第五章 销售预测系统的设计 . 375.1 数据挖掘模型设计 . 375.1.1 挖掘模型整体结构 . 375.1.2 数据预处理方法 . 385.1.3 加权平均计算方法 . 385.1.4 数据修匀方法 . 385.1.5 加权平均权值学习算法 . 395.1.6 预测结果计算方法 . 405.2 销售预测程序结构设计 . 405.3 本章小结 . 41第六章 系统模型测试 . 426.1 2007 年碳

19、酸饮料 10 周销售数据预测 . 426.2 2007 年清洁用品 10 周销售数据预测 . 456.3 测试分析与小结 . 47第七章 总结与展望 . 48致 谢 . 49参考文献 . 50V第一章 引 言第一章 引言1.1 系统研究背景及意义如今商业竞争日趋激烈,如何正确、及时的对瞬息万变的市场情况和企业经营情况做出商业预测是摆在所有公司管理层的一个重要课题。同时,信息技术的快速发展,也使许多企业建立了独立的业务信息系统,如 ERP(企业资源计划)、CRM(客户关系管理)、SCM(供应链管理)等,并积累了大量的业务数据,如何从大量的数据中提取有价值的信息,以及如何通过历史经营情况挖掘出潜在

20、的规律和模式,并用数据来预测未来的发展趋势,使企业在激烈竞争中立于不败之地,已成为企业经营者越来越关注的问题。销售预测是根据过去的销售情况来预测未来销售需求的过程,在了解其过去和现在的销售数据的基础上通过分析掌握其内在规律从而对未来的销售趋势作出科学的推测,达到降低预测失误的概率的目的。零售商可以保持高库存,而承担高库存成本;或者保持低库存成本,而承担在顾客需要购买时由于没有产品而丧失销售机会的风险。权衡这些竞争成本的最佳方式是构建预测模型来确保每个连锁商店都具有适当的库存级别。数据挖掘是指从大量的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是

21、一个多学科领域,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、可视化技术以及高性能计算技术等。随着科学技术的进步,国际及国内信息科学取得了不断的发展,产生出了诸多的成果与理论,这些成果和理论具有广泛的指导意义和价值。如何将这些理论有机地与实践相结合,也成为一项十分有意义的研究工作。从目前的发展形势来看,数据挖掘在很多领域都得到了较为广泛的应用,如金融、电信业、零售业等3。零售业是数据挖掘研究涉足较早的一个领域,经典的“啤酒与尿布”的故事就是数据挖掘在零售业应用的一个著名的成功案例。经过近几年的研究,数据挖掘在零售业的应用有了长足的进步,有了更加先进的工具和算法,简化了挖掘的程

22、序,提高了开发数据挖掘的效率。但是,针对销售预测的数据挖掘准确性尤为重要,因为其关系到整个企业的销售策略和库存计划,从而影响每个企业都非常重视的成本和利润,因此正越来越多的引起各个零售企业的重视。1电子科技大学硕士学位论文本选题的研究内容正是在“河南某大型连锁超市销售预测系统”立项开发的需求基础上提出的。1.2 数据挖掘技术在销售预测应用中的发展销售预测的内容非常丰富,单就销售额预测来讲,就可以根据数据的不同,采用不同的方法。鉴于数据、挖掘任务和挖掘方法的多样性,虽然数据挖掘技术己经在许多方面得到了广泛的应用,但数据挖掘技术的研究还很不成熟,将其应用于销售预测还面临很多问题和障碍。下面列出销售

23、预测应用面临的主要挑战,同时也是其主要发展方向。(1) 挖掘算法效率的提高数据挖掘是直接面向海量数据集的。进行销售预测的数据集将会有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,同时这也增加了出现不确定性、错误和病态模式的可能性。因此,提高算法的效率以及具有规模伸缩性是它们在实际应用中必须面对的巨大挑战。目前己经形成了多种数据挖掘常用算法往往在多个方面表现出局限性,因此对这些方法的改进和新方法的提出,是适应不同数据挖掘任务的必然选择。(2) 挖掘算法与应用领域知识的结合挖掘算法必须与实际应用相结合,才能产生效益。各种方法均有一定的优

24、点,也有一些不足。在实际应用时,针对不同类型的数据挖掘任务,算法各有不同。即使是相同的业务目标在不同的挖掘算法之间也要取得一定的平衡。另外,有效的数据挖掘往往需要用户的背景知识和指导作用来加快挖掘的进程和挖掘的知识的有效性,因此,将相关领域的知识融入数据挖掘中是一个重要但没有很好解决的问题。(3) 不同类型的数据和数据源的处理随着数据库的应用范围日益扩大,要处理的数据集中包含着大量复杂的数据类型。更进一步,随着计算机网络技术的发展和企业需求的扩张,把企业网和国际互联网上的众多数据源连接成一个大型的分布、异构的数据库。从这些包含不同语义的格式化和非格式化数据中挖掘知识无疑是对数据挖掘的重大挑战。

25、数据库的巨大规模、异地分布及数据挖掘方法的计算复杂性要求建立并行分布数据挖掘算法。还需研究更多的数据挖掘方法,以及多种方法的综合,使数据挖掘得到的2第一章 引 言知识具有更强的辅助预测效果。(4) 各种规则的挖掘的结合为了使数据挖掘得到的知识具有更强的辅助预测效果,人们试图利用各种算法和模型,如神经网络、遗传算法等,挖掘出诸如分类规则、序列模式、预测、关联规则、聚类规则等模式,或者是其它新的规则,如模糊规则,还会有一些新的算法或多种方法的结合。(5) 数据挖掘系统交互性数据挖掘是一个复杂的过程,数据挖掘过程中操作者的适当参与是必不可少的。系统的交互能力对系统的性能是至关重要的,一方面,交互界面

26、接收用户的检索、查询要求和数据挖掘策略,为用户提供方便的手段来表达其要求和策略是这方面的关键;另一方面,交互界面又把生成的结果传递给用户,在这里,由于生成的结果是多种多样的,因此,准确而直观地描述挖掘的结果和友好而高效的用户界面一直是这方面研究的重要课题。1.3 本文主要研究内容本文是以“河南某大型连锁超市销售预测系统”为例介绍该系统的分析、设计与实现主要思想和方法。本文首先研究了数据仓库、OLAP 和数据挖掘的相关技术,设计了数据仓库并在 SQL Server 2005 平台上实现,利用数据仓库的数据在微软Analysis Services 上建立多维数据集,采用灰色预测算法和基于权值学习的

27、加权平均算法建立挖掘模型,进行中短期销售额预测,通过多次实验并分析预测结果,找出比较合理模式和参数,以提高预测精度。本文的组织结构和主要研究内容如下:第 1 章 引言通过介绍课题的背景和意义引出全文,并介绍了数据挖掘和销售预测当前在国内外的研究状况。第 2 章 预测系统的相关技术简介主要介绍与本系统开发有关的相关概念和技术方法,包括数据仓库、OLAP(联机分析处理)、数据挖掘,以及灰色预测 GM(1,1)模型。第 3 章 销售预测系统需求分析主要论述了本课题“河南某大型连锁超市销售预测系统”的系统开发初期系统调查和总体需求分析。3电子科技大学硕士学位论文第 4 章 数据仓库设计主要论述了根据业

28、务需求所进行的数据仓库设计,包括维度需求分析、粒度划分、数据预处理和加载。然后是 OLAP 多维立方体的实现和数据访问所用到的技术和方法。第 5 章 销售预测系统的设计主要论述了针对系统功能,数据挖掘引擎的设计,并给出了相关算法的设计,介绍了预测程序的基本框架。第 6 章 系统模型测试针对预测系统所建立的模型,应用大量实验中的典型预测数据进行分析,并对实验进行分析和总结。第 7 章 总结与展望对本文的研究课题研究成果作出总结结论,并提出本系统的不足之处以及需要进一步研究的方向。4第二章 预测系统的相关技术简介第二章 预测系统的相关技术简介2.1 数据仓库数据仓库技术的出现是由于销售预测系统发展

29、的需要。它的提出是以关系数据库、并行处理、分布式技术以及 INTERNET 的飞速发展为基础,它是解决如何利用分散的异构环境数据源,及时得到准确的信息,解决信息技术 (IT)在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。数据库的建立并不是要替代数据库,它是建立在一个比较全面和完善的信息应用基础之上的,用于支持高层预测的分析。而数据检测是为寻找未知的模式或趋势在数据库的细节数据中进行搜索的过程。它并不是让查询语言去找某些特定的事实,而是查看所有的事实,寻找具有某种含义深长的模式或关系来进行预测,从更深意义上来找到更有价值的一种延续性的数据或者信息。数据库系统不

30、是一个简单的由各种数据合并而成的超大型数据库,而是一种专为联机分析应用和销售预测系统 DSS 提供数据源与预测工具的结构化数据环境,是一种动态有效的“仓库”。数据库以支持管理预测过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其组织和管理数据的方法与普通数据库不同。主要表现为:1)它依据预测要求,只从数据库中抽取那些需要的数据,并进行一定的处理;2)数据库是多维的;3)它支持预测处理不同于普通的事务处理。并且它需要数据库技术的支持包括:1)并行数据库技术;2)高性能的数据库服务器;3)数据库互操作技术。2.1.1 数据仓库的基本概念数据仓库的定义有多种多样,其中比较经典

31、的一种定义是由数据库之父William Inon 提出的,其定义如下:数据仓库是在管理人员预测中的面向主题的、5电子科技大学硕士学位论文集成的、非易失的、不同时间的数据集合,用于支持经营管理中预测的制定。每种对数据库的定义都是站在不同角度上来看的,但是其中都含有以下的一些共同特征:1) 数据库包含大量数据。2) 组织数据仓库是为了更加便利地使用数据进行预测。、3) 数据仓库为最终用户提供了可用来存取数据的工具。数据仓库的信息来自不同地点的数据库或其他信息源。数据仓库的信息源具有分布和异构的特点,其中的主要信息可以视为定义在信息源上的实体化视图集合。实体化视图与通常所说的视图不同。数据仓库管理系

32、统预先把实体化视图对应的数据从信息源中提取出来,物理地存储到数据库中,使这些视图成为物理存储的数据实体。数据仓库是一个概念。它不是某种能够实际购买的产品。数据仓库由一系列硬件和软件组成,能被用来更好地分析大量数据以使企业作出更好的商业预测。数据仓库系统具有两个主要功能:一是从各信息源提取需要的有效数据,加工处理后,存储到数据库中;二是直接在数据仓库上处理用户的查询和预测分析请求,尽量避免访问信息源。它能自己不断的汲取营养,再传输到需要的地方。2.1.2 数据仓库的特征数据仓库与传统的数据库相比具有自己的特点,两者之间存在着很大的差别,数据库的主要特征如下:1) 数据仓库是面向主题的,它是与传统

33、数据库面向应用相对应的。主题是一个较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,它可为辅助预测集成多个部门不同系统的大量数据。数据仓库的数据量很大,一般为 1 0GB 左右,大型数据仓库可达到 TB 级。基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵,互不交叉。而基于应用的数据组织则完全不同,它的数据是为处理具体应用而组织在一起的。应用是客观世界既定的,它对于数据内容的划分未必适于分析所需。可为辅助预测集成多个部门不同系统的大量数据。2) 数据的集成性。数据仓库中的存贮并不是简单的存贮,而是对来源于不同系统存在语义异构性的数据进行加工和集成处理后再存贮。其数据

34、进入数据仓库之前,必须经过统一和综合,同时实现数据结构从面向应用到面向主题的转变。3) 数据的不易失性。即数据的稳定性。数据仓库中的数据主要是供企业预6第二章 预测系统的相关技术简介测分析之用,其反映的是一段相当长时期内历史数据的内容,而非日常事务处理产生的、最新的、专有的数据。这些数据来源于多个数据库,经加工和集成进入数据库后极少或根本不进行修改更新。4) 数据的时间性。数据仓库的数据包含有时间因素,是用来标明数据的历史时期的。这里有三层含义:(1),数据仓库中的数据随时间的不同而不同,以现在为中点,在此之前的数据与现在离得越远,其作用、在数据库里的位置、存在的形式变化越大;(2),数据仓库

35、随时间变化不断增加新的数据内容;,数据仓库的数据也有存贮期限,一般为 5-10 年,当数据超过这一期限便要考虑删除或保存到别的存贮介质上去。2.1.3 数据仓库的体系结构数据仓库是在原有关系型数据库基础上发展形成的,其组成结构主要由数据仓库 (DW)、数据库管理和分析工具三部分组成,其体系结构如图 2-1 所示。关系数据库数据仓库管理工具用户查询抽取、净化、转换、装载元数据工具C/S工具数据文件元数据库OLAP工具其他数据库源数据数据建模工具仓库管理数据库数据仓库DM工具分析工具图 2-1 数据库体系结构源数据是数据仓库中数据的来源,主要包括企业内部数据、市场调查报告以及各种文档之类的外部数据

36、。数据仓库得到的是事务数据的拷贝。将源数据存储到数据库中,需要经过数据的抽取、净化、转换和装载。抽取是将数据从源数据中提取出来放到数据库中的过程。在数据抽取的过程中,还需要将数据转换成数据库的数据仓库结构和内部格式。净化是保证数据有足够的质量为所进行的预测服7电子科技大学硕士学位论文务,最后是将净化后的数据加载到数据仓库中。从抽取到加载这四个过程通常被称为数据分级 (datastaging),在这个过程中将无关联的数据转换到数据仓库中有明确主体的统一数据视图中。元数据是一种“有关数据的数据”,它描述的是数据结构、关键字、索引等内容。元数据基本有四类:第一类是关于数据仓库潜在数据来源的信息:第二

37、类是关于数据模式的信息;第三类是业务数据与仓库数据结构间的映射;第四类元数据是仓库中信息的使用情况。元数据库采用元数据来管理所有与数据库相关的模式、视图、操作策略。通过查询工具对元数据进行访问可以知道数据库中有什么、在哪里可以找到它、哪些人被授权可以访问它以及已经预先求出的汇总数据有哪些。对数据仓库进行操作的分析工具分为查询工具和数据检测工具两类。联机分析处理 (OLAP)是数据仓库中一种很重要的查询工具,它包含一个用于向数据库提出问题的最终用户接口。OLAP 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便于用户对数据进行深入的分析和观察。数据检测主要是一种展望和预测型的工

38、具,能自动挖掘出数据间的潜在模式,发现预测者可能忽略的信息,并为他们作出超前的、基于智能和知识的预测服务。2.2 数据挖掘数据挖掘的基本思想是从数据中抽取有价值信息,其目的是帮助预测者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和预测行为也许是十分有用的,从数据库的角度看,数据挖掘是从数据库的数据中识别出有效的、新颖的,具有潜在效用的并最终可理解的信息的非平凡过程。数据挖掘是数据驱动的,是一种真正的知识发现方法。数据挖掘是人工智能、机器学习与数据库技术相结合的产物。数据挖掘技术的兴起,为预测支持系统提供了一个有力的技术手段。2.2.1 知识发现和数据挖掘从 数 据 库 中 发

39、现 知 识 (KNOWLEDGEDISCOVERY IN (KDD) 被 认 为 是 从DATABASE-KDD)是上世纪 80 年代末开始的。数据挖掘 (DM)被认为是 KDD 过程中的一个特定步骤,它用专门算法从数据中抽取模式 (PATTERN).KDD 被定义为:从大量数据中抽取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。“模式”可以看成是知识的雏形,经过验证、完善后形成知识。8第二章 预测系统的相关技术简介KDD 过程是多个步骤相互连接起来并反复进行人机交互的过程。现具体说明如下:1)学习某个应用领域:包括应用中的预先知识和目标。2)建立一个目标数据集:选择一个数据集或在

40、多数据集的子集上聚焦。3)数据清理和预处理:去除噪声或无关数据,去除空白数据域,考虑时间顺序和数据的变化等。4)数据转换:找到数据的特征进行编码,减少有效变量的数目,如年龄,10年为一级,一般为 10 级。5)选定数据开采算法:决定数据开采的目的,用 KDD 过程中的准则选择某一个特定数据挖掘算法 (如汇总、聚类、分类等),用于搜索数据中的模式,它可以是近似的。6)数据挖掘:通过数据挖掘方法产生一个特定的感兴趣的模式或一个特定的数据集。7)解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式为知识。8)评价知识:将这些知识放到实际系统中,查看这些知识的作用,或者证明这些知识。

41、用预先可信的知识检查和解决知识中可能的矛盾。通过反复执行上述步骤,可以不断提高 KDD 的学习效果。数据挖掘 (DM)是 KDD 中的一个最重要的步骤。它主要是利用某些特定的知识发现算法,在一定的运算效率的限制内,从数据库中发现出有关的知识。DM 主要有以下特点:1)数据挖掘要处理大量的数据,待处理的数据规模可能达到 GB, TB 甚至更大;2)由于用户不能形成准确的查询要求,依靠数据挖掘技术为用户寻找它可能感兴趣的信息;3)它把大量的原始数据转换成有价值的知识,用于描述过去的趋势和预测未来的趋势;4)数据量增长快速,许多数据来不及分析就过时了。数据挖掘能快速的作出响应,提供预测支持信息。2.

42、2.2 数据挖掘的任务数据挖掘的任务有六项:关联分析、时序模式、聚类、分类、偏差检测和预测。9电子科技大学硕士学位论文1)关联分析。关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值重复出现且概率很高时,它就存在某种联系,可以建立起这些数据项的关联规则。2)时序模式。通过时间序列搜索出重复发生概率较高的模式。 这里强调时间序列的影响。3)聚类。数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。4)分类。分类是数据挖掘中应用得最多的任务。分类是找出一个类别的

43、概念描述,它代表了这类数据的整体信息,即该类的内涵描述,一般用规则或预测树模式表示。该模式能把数据库中的元组映射到给定类别中的某一个。5)偏差检测。数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况也是很重要的,以引起人们更多的注意。6)预测。预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。2.3 联机分析处理(OLAP)相关技术联机分析处理是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机分析处理是一种自上而下、不断深入的分析工具。预测分析需要从不同的

44、角度观察分析数据,以多维数据为核心的多维数据分析是预测的主要内容。多维数据库是以多维方式组织数据和信息的。联机分析处理是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。联机分析处理是一项给数据分析人员以灵活、可用和及时的方式构造、处理和表示综合数据的技术。2.3.1 联机分析处理(OLAP)的功能特点联机分析处理功能特点可用 FASMI 描述,即:1)响应速度快 (FAST). 联机分析处理系统一般应在 5 秒内对问题作出响应。观察发现简单问题的响应在 1 秒内,复杂问题的响应不应超过 30 秒。这种对速度的要求并不容易实现,因为所处理的数据量非常

45、巨大,且要根据商业用户的特殊10第二章 预测系统的相关技术简介需求进行特殊计算。这个问题一般是从数据的存储及数据的预先计算入手解决的。2)分析能力强 (ANALYS)。要求联机分析处理可轻松处理任何用户相关的商业逻辑和统计分析,能够随时解决用户的任何即席查询。通过剖析详细数据和统览概括数据,提供如:2002 年第一季度济南地区住宅楼的销量”这样的商业问题解答,可以迅速准确定位有效信息。3)数据共享 (SHARED)。能够提供数据共享机制,包括数据保密安全需求和并发性数据更新的控制。4)数据库多维视图(MULTIDIMENSIONAL). 联机分析处理必须支持数据的多维概念视图,支持层次和多层次

46、。5)提供信息 (INFORMATION)。包括所有与用户应用有关的导出信息及所有数据,并支持预测。2.3.2 联机分析处理(OLAP)的体系结构联机分析处理采用三层客户/服务器体系结构。第一层是解决数据的多维数据存储问题;第二层是联机分析处理服务器,它接受查询并提取数据;第三层是用户描述服务。其结构如图 2-2 所示。用户将商业问题细化为小块,将其转化为计算机查询语言,利用联机分析处理工具从数据库中抽取数据,并对数据进行多维分析,生成报表和查询。在数据存储结构块中,数据存储方式可分为虚拟存储方式、基于关系表的存储方式和多维数据库存储方式。基于数据存储方式的不同,联机分析处理分为多维联机分析处理和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论