




已阅读5页,还剩53页未读, 继续免费阅读
(电力系统及其自动化专业论文)电力市场营销分析理论研究及决策支持系统开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t w i t ht h ed e r e g u l a t i o no ft h ee l e c t r i ci n d u s t r y , i tb e c a m en e c e s s a r yt ob u i l dt h e e l e c t r i c m a r k e t i n gs y s t e m t h e s t a t ep o w e rc o m p a n y p r o p o s e d r e a l i z e a g g i o r n a m e n t o o fe l e c t r i c m a r k e t i n gm a n a g e m e n tb y s c i e n c ea n d t e c h n o l o g y p r o g r e s s a sas l o g a n s of a r , t h es t u d i e sa n da p p l i c a t i o n so f t h i sq u e s t i o na r ef o c u s o nd a t am a n a g e m e n ta n dc o l l e c t i n gr e p o r tf o r m sw i t h o u td a t aa n a l y s i s m o s to fd a t a a n a l y s i si so n l yb a s e do n l o a df o r e c a s t i n gm e t h o d s i ti sd i f f i c u l tt ob u i l du pm o d e m e l e c t r i cm a r k e t i n gs y s t e m b y t h e s et h e o r i e s u n d e rt h eb a c k g r o u n d ,an e wm e t h o do fe l e c t r i cm a r k e t i n ga n a l y s i si sp r o p o s e d b a s e do nm o d e m m a r k e t i n g ,d a t am i n i n g ,m u l t i - s t a t i s t i ct h e o r i e sa n dt e c h n o l o g i e si n t h i st h e s i s t h ei d e aw a sp r e s e n t e di nt h i sp a p e rt os u p p o r taf u l lu n d e r s t a n d i n go f c h a r a c t e r i s t i cp a t t e r n sa n dr u l e ss u c ha sc o r r e l a t i o na m o n gt h em a r k e tc o n d i t i o n s , e l e c t r i c p o w e rc o n s u m p t i o na n dt h e m a i nf a c t o r s ,w h i c hm a d et h e c o n s u m p t i o n f l u c t u a t i n g b yu s i n gt h e s ep a t t e r n sa n dr u l e s ,b e r e r b u s i n e s ss t r a t e g yp l a n n i n gc a nb e d r a w n u p i nt h i st h e s i s ,t h em o d e lo fe l e c t r i cm a r k e t i n gi n c l u d e st h ed a t am o d e la n dt h e a n a l y s i sm e t h o d sm o d e l t h ed a t am o d e l ,c a l l e de l e c t r i cm a r k e t i n gs p a c e ,c o n t a i n s a n do r g a n i z e sa l lt h e1 1 i s t o r i c a le l e c t r i cd e a l si n f o r m a t i o nf o r a n a l y s i sm e t h o d sm o d e l t h em e t h o d sm o d e li s c o m p o s e d o fs e v e r a lm e t h o d s i n c l u d i n g d a t a m i n i n g ( a s s o c i a t i o nr u l e sm i n i n g ,d e c i s i o nt r e em i n i n g ) a n ds e n s i t i v i t ya n a l y s i sm e t h o d s d a t a m i n i n g ,at e c h n o l o g yo fk n o w l e d g ed i s c o v e r y , i si n t r o d u c e dt ou n d e r s t a n dt h ep a t t e m a n dr o l e sa b o u tt h ef l u c t u a t i o no fe l e c t r i c p o w e rc o n s u m p t i o nw i m t h ec o n d i t i o n f a c t o r si nt h ee l e c t r i c m a r k e t s e n s i t i v i t ya n a l y s i sm e t h o d ,b a s e do nm u l t i s t a t i s t i c t e c h n o l o g y , b u i l d su pt h e m a t h e m a t i c a l a n a l y t i c a lm o d e lb e t w e e ne l e c t r i cp o w e r c o n s u m p t i o na n d f a c t o r so f e l e c t r i cm a r k e tc o n d i t i o n b a s e do nt h ei d e a so ft h i st h e s i s ,t h es o f t w a r eo fe l e c t r i cm a r k e t i n gd e c i s i o n s u p p o r ti sr e s e a r c h e da n dd e v e l o p e d t h ed e s i g no ft h es o f t w a r ea p p l i e sa d v a n c e d s o f t w a r et e c h n o l o g y m a r k e t i n gs t r a t e g yc a nb ep u tf o r w a r db a s e dd a t aa n a l y s i sb y t l i ss o r w a r e k e y w o r d s :e l e c t r i c m a r k e t i n g ,d a t am i n i n g ,s e n s i t i v i t ya n a l y s i s ,p r i n c i p a lc o m p o n e n t a n a l y s i s i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤壅盘茎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 靴敝储擗。譬之孚 签字日期:五鲫z 年二月,p 日 , 学位论文版权使用授权书 本学位论文作者完全了解墨鲞盘堂有关保留、使用学位论文的规定。 特授权墨洼盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名太三童手 签字日期:知帕之年,2 ,月7 。日 导师签名 签字日期:冽年仔月,矿日 第一章绪论 第一章绪论 1 1 电力市场营销分析 我国电力行业进入高速发展阶段,电力体制市场化改革不断的深入,电力企 业的理念由计划用电向市场开拓转变,由用电管理向营销服务转变,这种以市场 为导向、对内以营销为中心、对外以客户服务为中心的新机制,需要企业的管理 层、决策层对变化的环境做出快速、科学的市场营销决策。国电公司提出要“依 靠科技进步,逐步实现营销管理现代化”,已有一些省级的电力公司开始在电力 市场营销现代化方面投入财力精力开发相关软件系统。目前作为电力市场营销分 析的理论主要是电量和电力负荷预测,本文的研究以现代营销理论为指导,借鉴 电力负荷预测某些想法,综合应用数据挖掘和多元统计分析技术,结合电力行业 的特点,建立了电力市场营销决策分析的多元化新思路。 现代营销分析理论研究中,能应用到电力市场营销分析的主要内容有:市场 细分,市场消费行为特征分析,市场潜力预测和营销策略制定几个方面【2 】。本文 将其应用于电力市场营销分析的基本思想就是将电力市场从不同的角度细分( 如 行业、月份、经济或气象状况等) ,针对不同的划分研究不同的电力消费市场中 具有特征性的电量变化与各种影响因素之间的规律,例如不同影响因素与电量水 平的相关程度和弹性,在给定属性的电力市场中影响电量变化的主要因素,以及 各个因素与电量变化的综合规律或者预测市场需求。根据这些规律发现市场的增 长点,针对不同属性的电力市场采用相应的市场开发策略。 在论文的研究中,为了能够灵活的对电力市场进行分类,本文结合实际应用 中的问题建立了售电事务空间模型,将营销历史数据和其它的影响因素数据通过 这样一个模型有机灵活的组织起来,将电力市场营销分析问题转换为分析空间中 点与位置的关系,更有利于利用数学模型进行分析。在分析方法上,本文引入了 数据挖掘技术和基于多元统计技术的灵敏度分析技术。在这些数据组织模型和分 析方法研究的基础上,研究和开发了电力市场营销决策支持系统软件,软件计算 的结果说明了以上电力市场营销分析思路的有效性和实用性。 第一章绪论 1 2 数据挖掘及其在市场分析中的应用 数据挖掘是一种综合了人工智能,统计学等学科的大数据量的信息处理技术 口 。数据挖掘在市场分析领域已经有了广泛的应用,文献 4 】和文献 5 介绍了数据 挖掘在市场营销方面的研究情况;文献【6 】和文献 7 】深入的阐述了当前数据挖掘 在通信服务业的市场分析方面的应用技术;文献 8 和文献【9 】介绍国外对数据挖 掘技术在电力市场营销中应用的研究。本文主要将数据挖掘分析中的关联规则分 析和决策树分析引入到电力市场营销分析中,利用关联规则分析主要是分析某一 市场环境( 由各种影响电量的各种因素确定) 与各种售电量水平之间的关联程度, 进而确定不同市场环境中影响售电量变化的主要因素和次要因素。利用决策树主 要是分析某一市场环境内部各个因素之间对电量水平变化的层次关系,并归纳对 该市场内对售电水平进行分类的规则并根据规则对售电水平进行预测分类。数据 挖掘技术分析电力营销数据集所得到的各种规律和知识,可以为自动生成电力市 场分析报告和营销决策建议奠定基础。 1 3 灵敏度分析及其在市场分析中的应用 灵敏度分析,与上述基于数据挖掘的方法不同在于,数据挖掘分析是基于对 历史数据仓库中事务总结归纳基础上发现规律,而灵敏度分析则是要以历史数据 样本为基础,通过综合应用多元统计技术,建立特定市场中电量对各种影响因素 综合的数学表达式。本文主要采用了主成分分析理论和基于函数变换的非线性回 归技术来建立这一模型。有了综合表达式,一方面可以通过梯度运算进一步分析 特定市场的电量对各种因素在不同环境下对售电量的弹性;另一方面,也可以预 测特定市场环境的售电量。灵敏度分析的结果也为自动生成电力市场分析报告和 营销决策建议奠定了基础。 1 4 1 本文的工作 1 4 本文的工作和结构 本论文的研究目标有两个:一是研究并建立适合于电力行业的电力市场营销 2 第一章绪论 分析的理论模型与方法,为建立电力营销现代化系统奠定理论基础;二是在上述 研究的基础上研究基于w e b 的电力市场营销决策支持系统软件的设计和实现。 针对第一个研究目标,论文结合电力行业的特点研究数据挖掘技术和计量经 济分析理论,形成了电力市场营销分析基本模型。主要分为两步,首先,在对电 力营销数据及相关的因素数据的研究基础上归纳出电力营销分析的数据结构模 型,以将电力市场营销分析问题通过数学方法表示出来;其次,在数据模型的基 础上建立了基于数据挖掘和灵敏度分析的分析方法模型。 针对第二个研究目标,结合现代数据仓库技术,组件技术,设计基于w e b 的 电力市场营销决策支持系统软件。软件数据仓库的构建充分利用现有的电力m i s , 大客户信息管理系统等电力部门已经有软件系统的数据库基础,在现有系统的数 据库基础上建立营销主题的数据仓库。软件整体采用b s 结构,用户在i n t e r n e t 上通过通用的浏览器进行使用。软件中的核心分析算法,按照c o m 组件协议开发 易于扩展的分析方法库。 1 4 2 本文的结构 本文第二章建立了电力市场营销分析的综合模型,在第三章重点分析了数据 挖掘的关联规则和决策树分析方法基础理论及其在电力市场营销分析中的应用 思路,第四章分析了灵敏度分析的基础理论及其在电力市场营销分析中的应用思 路,第五章研究了基于w e b 的电力市场营销决策支持系统软件的设计,最后在第 六章对整个论文进行了总结。 第二章电力市场营销分析模型 第二章电力市场营销分析模型 2 1 电力市场营销分析模型 为了对电力市场进行完整、科学的考察分析,以便应用各种分析方法分析电 力市场中关于售电量变化的各种规律,论文建立了电力市场营销分析模型。模型 分为两个部分,一部分是对数据进行组织的数据模型,称为售电事务空间,它将 电力市场营销分析问题抽象和表达为数学问题,为各种分析方法提供了基本的数 据组织基础和框架;另一部分是在数据模型基础上建立的分析方法模型,本文引 入了包括基于数据挖掘和灵敏度分析的两类分析方法模型。 2 1 1 电力市场营销分析数据模型 电力市场营销分析的基础资料是历史的营销事务和当时的各种环境因素的 历史数据记录,这些数据中蕴含着很多电力市场环境与售电量变化之间的规律 性。要对电力市场营销进行决策分析,首先要对这些数据进行抽象形成数据模型, 将电力市场营销分析的问题抽象和表达出来,以便应用各种方法对数据进行处 理,以发现有用的知识和规律。本文通过一组概念建立了这样的模型。 2 1 1 。1 市场营销分析数据模型中的基本概念 整个分析模型中引入了一个多维事务空间来组织数据,同时在这个空间上定 义了顺序,加法和乘法,以便能够让模型中的分析方法根据需要搜索和操作数据。 论文引入了如下的定义和规定: 定义2 1 :关系,一组属性的集合,其中属性分为两类,一类是维度属性d , 一类是度量属性时,v a d ,d f m ( 一) 表示,在爿上的投影。 例如表l 一1 表现的是一个关系。在这个关系中,彳,占,c 是维度属性,m 是度量属性: 第二章电力市场营销分析模型 表1 一l :关系实例厄 定义2 2 :,上的多维事务空间印d c e ( r ) = z ;。( d i m ( a ) o a l l ) u , 其中代表迪卡尔积, 代表度量属性全取空值的关系的实例。 空间中任何一个元素或者元素的集合,代表一个多维模式,例如以下都是定 义在关系r e 上的空间中的多维模式:t 12 ,f 2 。 , 屯= ,= 和,5 = 。 同时,标记以下的运算:设。印口c e ( r ) ,w d ,v 阻】表示v 在a 上的投影值。 每一个元素除了维度属性外,还有一个度量属性,维度属性标识了元素在空 间中的位置,度量属性标志着某种量的水平。 定义2 3 :概化具体顺序关系,设v u ,y s p a c e ( r ) : uv曹d,”哆幽g va(2-1) o rv = 如在上例中,。t :,称为比,2 更概化,f 2 比岛更具体,_ i i g v te 跏c e ( ,) , r g 妒,a l l gr 。 定义2 4 :元素加法,设v u ,v s p a e e ( r ) : w 咄州:心多。淼c z 吲 如在上例中,r 2 十f 3 = t 4 。 定义2 5 :元素乘法,n ! v u , v s p a c e ( ,j z 印口c e ( r ) ,z l 4 = “阻】n v 阻 第二章电力市场营销分析模型 如在上例中,r l f 42 f 2 。 2 。1 1 2 电力市场营销分析问题的数学表达 ( 2 3 ) 通过上述数学模型,可以表达电力市场营销分析问题,依据上述的抽象的数 据模型本文在电力市场营销分析中引入售电事务关系、售电事务空间和市场的基 本概念,通过这一组概念可以简练的表达电力市场营销分析的各个问题。 定义2 6 :售电事务关系,是电力市场电量和影响电量需求变动的因素的集 合,其中维度属性d = 季节,气象,行业类别,电价,经济, ,度量属性 吖= 售电量水平 。 定义2 7 :售电事务空间,定义在售电事务关系之上的多维事务空间。 定义2 8 :市场,售电事务空间中的任何一个元素或者元素的集合。 这样保存在历史数据仓库中的售电事务数据记录及各种影响电力市场需求 的环境因素数据就可以在售电事务空间中组织起来,历史上所有的售电事务就被 包含和组织在售电事务空间中。图1 1 是一个三维电力市场营销分析模型: 图1 1 售电事务空间实例 嬲劣 第二章电力市场营销分析模型 该模型,是一个三维售电事务空间。每个属性维度是设定的某个影响售电事 务的因素,数据仓库中一条售电记录对应空间中的一个元素,这样的一个元素有 两类属性,一类是维度属性,确定了这个元素在空间中的位置;另一类是度量属 性,定义在售电事务关系上的售电事务空间中的度量属性是售电量水平或者灵敏 度向量。要说明的是,尽管所有的历史售电事务记录都可以对应于空间中的一个 元素,但不是空间中的所有的元素都能找到相应的一个历史的售电记录,可以通 过分析与数据仓库中事务对应的点来掌握整个空间中的规律,推断和预测不对应 与历史售电记录的点的售电量变化的规律。 有了上述模型,电力市场营销分析问题就转化为在售电事务空间中分析售电 水平或灵敏度随着位置的变化规律,也就是在售电事务空间中售电水平或灵敏度 的分布规律。针对某一个指定的市场( 比如某行业市场,某一月份市场等) 的 分析,就是研究售电事务空间中部分点集合中的规律。所以售电事务空间模型能 够系统且简单的刻画电力市场营销分析问题。 2 1 2 电力市场营销分析方法模型 本文以数据挖掘和灵敏度分析为基础,建立了电力市场营销分析的方法模 型,这两类方法各有侧重。数据挖掘是从历史数据仓库中总结和归纳规律,灵敏 度分析是在历史数据的基础上建立综合的数学模型来分析电量的变化规律。 本文研究了将关联规则分析和决策树分析两种数据挖掘方法应用于电力市 场营销分析,其中关联规则分析主要研究在售电事务空间中电量水平与其在空间 中的位置之间的相关程度,即售电水平与影响售电量变化的各个因素之间的相关 关系及相关程度;决策树分析是在指定的市场中分析各种因素之间的作用关系和 形成电量水平分类的规则。论文将在第三章就这一问题详细阐述。 本文研究了将计量经济学的灵敏度分析引入到电力市场营销分析,通过综合 应用多元统计学的主成分分析和非线性回归技术,在历史数据样本的基础上建立 指定的售电事务空间中电量水平的分布函数,也就是售电量与影响售电量变化的 各种因素之间的综合数学模型。本文将在第四章就这一问题详细阐述。 表1 2 列举了本文所建立的分析方法及其基本的内容和能完成的电力市场 营销分析的目标: 第二章电力市场营销分析模型 表1 2 本文所研究的各种方法内容和目标 2 2 本章小结 本文所建立的电力市场营销分析模型内容可以归纳为如下两个方面: 1 ) 引入售电事务空间的概念,实现了历史数据按照电力市场营销分析的主 题组织。电力市场营销分析问题,即分析售电量变化与市场环境之间的关系问题, 就被转化为分析售电事务空间中点的权值与其位置的关系,为各种分析算法提供 了数据组织的基础和框架。 2 ) 在上述数据组织模型的基础上,弓l 入了数据挖掘和灵敏度分析,对数据 的规律进行分析和发现,为自动生成电力市场营销分析报告和决策建议奠定基 础。 第三章基于数据挖掘的电力市场营销分析 第三章基于数据挖掘的电力市场营销分析 3 1 概述 随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。 为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数 据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询和 报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理 大量数据,并从中抽取有价值的潜在知识,数据挖掘技术由此应运而生。数据挖 掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的【3 1 。 数据挖掘是发现隐藏在大型数据集中有趣的数据模式和数据规律,将数据转 换成有用的信息和知识的技术。这些信息的表现形式为:规则、概念、规律及模 式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式, 进而对特定的数据集合进行特征描述或者预测未来可能发生的行为。数据挖掘的 过程也叫知识发现的过程,它涉及到数据库、人工智能、数理统计、可视化等领 域,是- f - 涉及面很广的交叉性新兴学科。数据挖掘是一种新的信息处理技术, 其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理, 并从中提取辅助决策的关键性数据。更为重要的,数据挖掘是一种重要的知识发 现技术,它并不是用规范的数据库查询语言( 如s q l ) 进行查询,而是对查询的内 容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生 的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且 以一定的置信度对未来进行预测,用来为决策行为提供有利的支持,图3 1 是数 据挖掘的过程示意图【3 】。 市场营销分析是数据挖掘的一个非常有前景的研究和应用领域,尤其是被用 在聚类客户群的特征,细化市场特性,预测分类方面已有了一些实际的应用”3 。 本文的研究将数据挖掘应用于对电力市场营销的分析中,挖掘出丰富的市场需求 随着内外环境变化的规则,支持电力市场的开发决策。 9 第三章基于数据挖掘的电力市场营销分析 图3 1 数据挖掘基本流程示意 机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘 算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中 在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估:机器学习 是人工智能的另一个分支,也称为归纳推理,它通过学习训练数据集,发现模型 的参数,并找出数据中隐含的规则。1 。本文主要研究了数据挖掘中的应用很广泛 的关联规则分析法、决策树分析法,关联规则分析是一种对选定数据集特征描述 类的挖掘算法,决策树分析法则是一种分类预测类的数据挖掘算法。 关联规则分析法,主要用于从数据库中提取出用户感兴趣的关联规则,它是 几种主要的数据挖掘方法之一。挖掘关联规则是指通过搜索系统中的所有事务, 并从中找到出现条件概率较高的模式。关联实际上就是对数据对象之间相关性的 确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则 的建立并不是确定的关系,而是个具有一定置信度的可能值,即事件发生的概 率。关联分析法直观、易理解,它能够用来对所分析的样本进行特征性描述“, 应用在电力市场营销分析中,可以分析各种设定的市场环境与不同的售电水平之 间的相关关系及关联程度,根据相关性的大小在一定范围内找出出现指定售电水 平相关性最大的售电市场,例如分析售电量高的时候都是哪些环境:或者分析指 定的市场环境与各种售电水平的关联程度。 决策树,是一种树型结构的预测和分类模型,其中树的非终端节点表示属性, 叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支, 形成决策树1 。与神经元网络最大的不同在于其决策制定的过程是可见的,可以 解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太 多计算时间,适于对记录分类或结果的预测。应用在电力市场营销分析中,分析 l o 第三章基于数据挖掘的电力市场营销分析 指定市场范围内影响电量水平变化的主要因素和次要因素:并形成对该市场进行 分类的规则以对设定的市场事务的电量水平进行预测。例如可以分析某个指定的 环境中影响售电水平的差异最重要的因素是行业差别,进一步在行业a 中主要因 素是温度,再进一步分析该行业a 在温度较高时主要因素是电价等等,依次深入 分析电量随着环境的变化规律。 本文应用数据挖掘发现的规律和规则,如果存入数据库将为自动生成基于数 据仓库的市场分析和营销决策建议文件奠定基础。 3 2 基于神经网络的数据预处理 3 2 1 问题的提出和预处理流程 在对整个售电市场利用数据挖掘方法进行营销分析时,有以下两个方面的问 题必须妥善解决: 1 、消除各个因素量纲的影响。在论文所建立的售电事务空间中,涉及到多 个具有不同量纲的维度,由于量纲不同,数据数量级上差别太大会对数据挖掘结 果造成不良的影响,因此本文采用了属性构造对各维度的数据进行数据变换,在 保持原始数据值之间关系的同时将其映射到同一数量级。 2 、连续属性的离散化。论文采用了数据挖掘的分析方法,对售电事务数据 库进行搜索以总结出有用的售电量变化规律。在电力市场营销事务空间中,有些 属性( 比如售电量,气温等) 的值是连续的,由于连续属性不同值太多不利于数 据挖掘算法总结规律,因此需要对连续性的属性进行聚类和离散化,这样才有利 于通过数据挖掘分析发现规律性的知识。 本文就上述两个问题分别引入基于最大一最小规范化的属性构造方法和基 于径向基函数( r a d i a lb a s e df u n c t i o n ,r b f ) 神经网络的数据聚类方法合理的 解决了上述两个问题。 针对上述的第一个问题利用最大一最小规范化对原始数据进行线性变换。文 献 3 中对最大一最小规范化的方法作了详细介绍,假定r a i n 。和m a x 。分别为属 性a 的最小和最大值,最大一最小规范化通过计算式: 第三章基于数据挖掘的电力市场营销分析 v r a i n 月 v = 。o m a x h r a i n ( n e w m a x - - n e w m i n ) + n e w m i n ( 3 - - 1 ) 将属性a 的值v 映射到区间 n e w m i n 。,以p w m a x 。】中的v 。这样不同的量 纲的属性之间,在数据挖掘中就不会因为数据数量级上的差别对结果产生不良影 响。 针对上述的第二个问题本文利用r b f 神经网络的聚类功能,对连续属性进行 聚类,用网络中心来代替原始的连续值进行规律发现,这样使得每个属性就成为 离散值,在保持原有各属性之间基本的相对关系的同时,减少属性不同取值的个 数,这样使一些规律性才能通过数据挖掘的方法搜索出来。本章的3 2 3 节将详 细介绍r b f 神经网络及其在本文中的应用。 综合上所述,论文所提出的电力市场营销分析思路对连续属性数据预处理的 流程如图3 2 所示: 图3 2 数据预处理流程 3 2 2 径向基函数神经网络及其应用 本文用于对连续属性进行离散化的径向基函数( r b f ) 神经网络是应用多变 1 2 第三章基于数据挖掘的电力市场营销分析 量插值的径向基函数设计而成的神经网络。它的典型结构是一个三层的前向网络 ( 如图3 - - 3 ) 1 。 输 入 空 间 p 输 出 空 间 q 图3 3r b f 神经网络结构图 常用的r b f 神经网络方法可以阐述如下: 中间层神经元实现了对输入层特征提取的非线性变换,本文将中间层神经元 的转换函数取为高斯范函数,因此,第i 个神经元的转换函数为: 一上川! ! :圳、z x = g ( t i p 。一t ,1 1 ) = 口2 4 ( 3 2 ) i = 1 ,2 ,行;女= 1 ,2 ,- 一,m 其中托,指第七个样本经过第f 个神经元的输出值;只是第女个样本向量:l 是第 f 个中间层神经元的中心;范数i 陋- r , l l = ( 最一z ) 7 ( 只- 7 , ) 。每个中间层神经 元的转换函数几何图形如图3 - - 4 所示 1 3 】: j经元的输出 、 网络中- c- 点位置 样本点位 置轴 图3 - 4 r b f 网络中心转换函数 在本文中输出层的神经元实现了如下分类过程:在n 维空间r “中,给定一 个有聊个不同样本点的集合 x t r ”降= 1 ,2 ,l ,将这些样本点经过具有刀个网 第三章基于数据挖掘的电力市场营销分析 络中心的r b f 神经网络分成行类,使其与所属的类别对应的网络中心最近。 所以根据上述基函数,整个网络的映射关系为: f ( x t ) = i 。 一三( 睦型) : 当z = m a x p2 、听) ( 3 3 ) r b f 神经网络的训练可以分成两个步骤,第一步是为隐含层神经元寻找网络 中心:第二步是利用最小二乘进行参数估计得到隐含层到输出层的权值。 k 均值聚类法是r b f 神经网络易于使用且性能较好的寻找网络中心的算法, 其基本思想可以阐述如下: ( 1 ) 初始化网络中心个数及每个网络中心的向量t j ( 通常是前几个训练样 本) ; ( 2 ) 对训练样本集按现有聚类中心进行聚类,计算每个样本点与每个聚类 中心的距离。将每个样本点标记给与其距离最短的网络中心; ( 3 ) 依据本次聚类结果对网络中心进行修正,得到新的网络中心丁,设本 次聚类中标记给第,个网络中心l 的样本点共有m ,个,则 巧:李v x t 毒巧( 3 _ 4 ) j m 。 i ( 4 ) 返回( 2 ) 迭代直到l 保持基本不变,确认l 为网络中心。 通过k - 均值聚类法确定选定了网络中心之后,输出层的转换函数负责为各个 样本点标记类别。本文中,每个样本点由下面的公式来标记: l ( x l ,工t 2 ,x 扫) = i当x “= m a x ( x t l ,x 2 ,一,x h ) ( 3 - - 5 ) 其中, 是第k 个样本点的类别输出,x 。是第k 个样本点从第i 个网络中心的输 出值。 4 第三章基于数据挖掘的电力市场营销分析 各目络 样本点 ;的评竹 4 5 一狐 各样奉的相j 图3 5r b f 神经网络分类示意图 经过上述的r b f 神经网络对连续性数据序列的聚类,该属性就被离散化了, 如果神经网络的中间层有5 个神经元,经过训练后,该神经网络就形成了如图3 5 所示的数据评价分类网络,如图示,水平方向为各样本点的相对位置,垂直 方向为样本点经过每个网络中心的评价值,每个样本点将被划分给对其评价最高 的网络中心,并用该网络中心代替该样本点的值,这样原来连续的属性就被离散 化了,其取值域就仅是网络中心的集合,比较适合数据挖掘算法进行搜索和总结 规律【1 4 】。 3 3 多维关联规则挖掘 3 3 1 基本概念和问题描述 a g r a w a l 等于1 9 9 3 年首先提出了挖掘事务数据库中项集间的关联规则问题的 基本模型描述【3 j : 设= f l ,f 2 ,i 。 是由称作项目( i t e m s ) 的i = 1 , 2 ,m ) 构成的项目集合。 d 是一个事务( t r a n s a c t i o n ) 数据库,其中,每一个事务r 是满足t e ,的项目集合, 且有唯一的标识t i d 。 定义3 1 :项集( 或称模式) ,设a i ,称4 为项集或模式 定义3 2 :如果一个项目i 。属于事务丁,则称事务t 支持项目i 。如果一个 事务丁支持项集( 模式) 彳中的每一个项目,则称事务丁支持项目集( 模式) a 定义3 3 :项目集( 模式) a 在数据库d 中的支持率( s u p p o r t ) 为: s u p p o r t ( 舻器枷。 第三章基于数据挖掘的电力市场营销分析 定义3 4 :频繁项目集或频繁模式,给定最小支持率m i n s u p ,若项目集4 的 支持率大于m i n s u p ,则称项目集4 是频繁项目集或频繁模式。 定义3 5 :关联规则,是形如x j y 的蕴涵式,这里x t ,】,c t 并且 z n y = 西。规则z j y 在事务数据库d 中的支持度( s u p p o r t ) 是事务集中包含 x 和y 的事务数与所有事务数之比,记为s u p p o r t ( x j y ) ,即: s u p p o r t ( x j y 、=留:x i j y 丁,t d l :矿。6 规则石等y 在交易集中的可信度( c o n f i d e n c e ) 是指包含x 和y 的交易数与 包含x 的交易数之比,记为c o n f i d e n c e ( x j y ) ,即 僦础暖钏= 警帮c ,吲 基于以上基本概念,关联规则的挖掘问题可以描述为在给定一个事务集d 之 上,概括总结支持度和可信度分别大于用户给定的最小支持度( m i i l s u p p ) 和最小可 信度( m i n c o n f ) 的频繁模式。而进一步对每个频繁模式相关度进行排序和比较就是 相关性分析。 定义3 6 :关联规则相关度,在上述基于支持度一可信度框架下所得到关联 规则的基础上,可以更进一步的进行相关性分析,相关规则爿jb 的相关度可以 定义如下: e ( a n b ) 一椭 f 盯 l j 6 - = 1 【盯 1 ,则模式4 与模式b 成正相关;如 果盯 1 ,则模式彳与模式b 成负相关。 本文在以上所介绍的基于项集的关联规则问题模型上,将其拓展为多维问 题,文献 1 5 介绍了多维关联规则的基本问题。在多维关联规则分析中每一个事 务,就包含不同维度的项,关联规则肖jy 也有了更具体的定义,在3 3 3 节 将有详细的介绍。 1 6 第三章基于数据挖掘的电力市场营销分析 3 3 2 关联规则的挖掘算法f p g r o w t h 关联规则的挖掘算法,最基本的是a p r i o r i 算法,它是一种逐层搜索的迭 代方法,缸项集用于探索m wj 项集。这种算法会产生大量的候选项集和需要 很多次的数据库扫描,所以这种算法只能适用于小规模的数据集,随着数据集合 的增大,因为消耗的资源和时间太大而不实用,现在常用的是不产生候选项集的 f p 一矿o w 砌算法i l7 1 。f p g r 。w 历算法采用如下分治策略:将提供的频繁项集的 数据库压缩到一棵频繁模式树( f p t r e e ) ,但仍保留项集关联信息:然后,将 这种压缩后的数据库分成一组条件数据库( 一种特殊类型的投影数据库) ,每个 关联一个频繁项,并分别挖掘每个条件数据库。研究表明它比a p r i o r i 算法快一 个数量级。 算法,p g r d w 髓将发现所有频繁项目集分解为构造频繁模式树, 尸一舰8 和 挖掘频繁模式树f p t r e e 两步。构造频繁模式树卯一t r e e 阶段,数据库中所有 的事务用树的结构组织,数据库频繁模式的挖掘问题就转换成挖掘f p t r e e 问 题;挖掘频繁模式树f p t r e e 阶段由长度为1 的频繁模式开始,不断构造它条件 f p t r e e ,并递归地在该树上进行挖掘。下面是这两步算法的过程: ( - - ) 构造频繁模式树f p t r e e 的基本算法。 在f p t r e e 中,每个节点有四个域组成:节点名称n o d e n a m e 、节点计 数c o u n t 、节点链n o d e l i n k 及父节点指针p a r e n t n o d e 。另外,为方便树的遍 历搜索,创建一个项头表,它由三个域组成:节点名称n o d e n a m e 、节点计 数c o u n t 及节点链头h e a d ,其中节点链头指向f p g r o w t h 中与之名称相同 的第一个节点; 算法1 ( f p t r e e 构造算法) 1 1 8 1 输入:事务数据库d b ;最小支持度阈值f 输出:f p t r e e ( 1 ) 扫描d b 一次,收集频繁项的集合f 和它们的支持度。对f 按支持度降 序排序,结果为频繁项表三。 第三章基于数据挖掘的电力市场营销分析 ( 2 ) 创建f p t r e e 的根节点,标号为n u l l ,对于d b 中的每个事务i 作如下 操作: 按上中的次序排列l 中的频繁项目,排序后的频繁项集记为b i p 】, 其中p 是第一个项,而p 是剩余项目的列表; 调用f ,删,r t r e e ( l o l p l r ) 。该过程执行情况如下: 如果丁有子女使得项名= p 项名,则的计数增加1 ;否则创 建一个新的节点,将其计数设置为1 ,链接到它的父节点r ,并 且通过节点链结构将其链接到具有相同项名的节点。如果户非空, 递归调用i n s e r t t r e e ( p ,n ) 。 ( 二) 挖掘频繁模式树f p g r o w t h 的基本算法。 f p t r e e 挖掘的基本过程是:开始,由长度为1 的频繁模式( 初始后缀 模式) 开始,构造它的条件模式基( 一个“子数据库”,由f p t r e e 中与后 缀模式一起出现的前缀路径的项集组成) 。然后,构造它的条件f p t r e e , 并递归地在该树上进行挖掘。模式增长通过后缀模式与由条件f p t r e e 产生 的频繁模式连接实现。 算法2 ( 即一g r o w t h :在f p t r e e 中通过频繁模式增长挖掘频繁模式) 输入:基于算法1 构造的f p t r e e ;事务数据库d b ;最小支持度掌 输出:频繁模式的完全集。 方法:c a l lf p g r o w t h ( f p t r e e ,n u l l ) p r o c e d u r ef p g r o w t h ( t r e e ,口) i f t r e e 只含单个路径p t h e nf o r 路径p 中节点的每个组合( 记做口) d o 产生模式卢u a ,其支持度s u p p 口= 中节点的最小支持度; 第三章基于数据挖掘的电力市场营销分析 e l s e f o r e a c ha i 在f p t r e e 的项头表( 倒序) d o 产生一个模式= 口u a ,其支持度s u p p o r t = 口s u p p o r t 构造p 的条件模式基,然后构造卢的条件f p t r e et r e e 口 i f t r e e 口庐 t h e nc a l l f p g r o w t h ( t r e e 口,声) 3 3 3 基于关联规则分析的电力市场营销分析 表3 一l ,是一个从电力市场营销决策支持系统数据仓库中抽取的事务数据的 一个小部分,每一条记录是一个事务,包含五个维度属性( n d u i d - 行业标识, m o n t h i d - 月份标识,p r i c e f d - 电价水平标识,t e m p i d - 气温标识,p r e c 面泸降水 量标识) 和个度量属性( e e c l b - 电量水平标识) ,表中所有数据都是经过数据 预处理的。下文将以其作为事务数据库d 说明本文所研究的f p 一伽历算法。 值得说明的是,能得出很强规律性结论的数据挖掘过程的分析对象应该是具有大 量数据的数据仓库,以下仅有3 0 条记录的数据集重点是为说明本文将关联规则 分析应用于电力市场营销分析的思路。 表3 一i 事务数据库d 示例 第三章基于数据挖掘的电力市场营销分析 9 1 1m 9p 3t 3r 1e 3 l o1 1m 6p 3 t 4r 1e 4 1 11 1m 7p 2t 4r le 3 1 21 1m 9p 1t 3 r 1 e 3 1 31 1m 1p 2t or oe o 1 41 1m 2p 0t or oe o 1 51 1m 1p 1t 2r 0e 0 1 6i lm 2 p 2t 2r le 1 1 7 1 2m 9p 2t 3r 1e 2 1 81 2 m 1p 0t or 0e 4 1 91 2m 2 p 0t 1r 0e 3 2 01 2m 3 p 0 t 2 r 0e 3 2 11
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 7251.10-2025低压成套开关设备和控制设备第10部分:规定成套设备的指南
- 森林防灭火知识培训材料课件
- 森林防火员知识培训总结
- 森林草园防火知识培训课件
- 森林治安及防火知识培训课件
- Unit 5 Here and Now基础知识复习课件 新人教版七年级英语下册
- 2025年文化机构出版社编辑岗位笔试试题
- 《机械员》考试题库含答案【研优卷】
- 2025年建筑设计师招聘笔试模拟卷及答案详解
- 2025年注册验船师资格考试(A级船舶检验专业案例分析)能力提高训练题及答案二
- 2025年六安市裕安区石婆店镇公开招考村级后备干部8名笔试备考试题及答案解析
- 公司领导财务知识培训课件
- 2025全国农业(水产)行业职业技能大赛(水生物病害防治员)选拔赛试题库(含答案)
- 六年级口算题大全800题
- 印尼劳动法中文版
- 中式烹调师高级技师试题与答案
- GB/T 3622-1999钛及钛合金带、箔材
- GB/T 20160-2006旋转电机绝缘电阻测试
- 组织工程及再生医学基本课件
- 旅游相册:宁夏旅游课件
- 药物化学(全套课件)
评论
0/150
提交评论