(计算机软件与理论专业论文)基于回归分析和数据挖掘的建筑能耗基准评价模型研究.pdf_第1页
(计算机软件与理论专业论文)基于回归分析和数据挖掘的建筑能耗基准评价模型研究.pdf_第2页
(计算机软件与理论专业论文)基于回归分析和数据挖掘的建筑能耗基准评价模型研究.pdf_第3页
(计算机软件与理论专业论文)基于回归分析和数据挖掘的建筑能耗基准评价模型研究.pdf_第4页
(计算机软件与理论专业论文)基于回归分析和数据挖掘的建筑能耗基准评价模型研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机软件与理论专业论文)基于回归分析和数据挖掘的建筑能耗基准评价模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘耍 摘要 建筑能耗是指建筑物存使用过程中消耗的商品能源的总和。建筑能耗基准评 价是通过比较某栋建筑与相同类型、相同功能的类似建筑的能耗特性柬对其丰e 能 状况进行评价的方法。 在现阶段,国内外对建筑能耗基准评价的研究主要有以下两类方法:统计学 方法和数据挖掘方法。这些方法的共同不足之处在于:采用单- f 1 0 方法建立模型, 然后进行基准评价,基准评价的正确率较低。 本文提出了一个基于“投票”的称为s a i v o t i n g 的建筑能耗基准评价模型。 这个模型集成了三个基础模型:s t e p w i s e 模型、a p r i o r i r u l e 模型和i d 3 模型,它 们是用单一算法建立的。 本文研究工作的核心是设计和实现三个基础模型和一个集成模型: ( 1 ) 利用逐步回归法建立的回归方程形式的基准评价模型,称为s t e p w i s e 模型。 ( 2 ) 提出一个称为a p r i o r i r u l e 的建筑能耗基准评价模型。在这个模型中, 我们首次将关联规则挖掘技术应用于建筑能耗基准评价领域。 ( 3 ) 利用分类挖掘中的i d 3 算法建立决策树形式的基准评价模型,这个模 型称为i d 3 模型。 ( 4 ) 综合运用s t e p w i s e 、a p r i o r i r u l e 和i d 3 三个基础模型,采用“投票” 的方式,提出了称为s a i v o t i n g 的建筑能耗基准评价集成模型。 实验说明:s a i v o t i n g “投票”模型比单独使用三种模型有更好的效果,同 时也验证了a p r i o r i r u l e 模型比其它同类模型具有较高的评价质量。 关键词数据挖掘;建筑能耗;基准评价;回归分析 a b h lr a c i 皇曼曼! ! ! 曼! ! 曼鼍曼曼曼曼鼍曼曼! ! 曼曼! 曼曼! 曼! i 。;i ! 曼! ! ! 鼍曼! 曼! 詈! ! 皇苎! ! ! ! 曼皇鼍曼曼! 鼍苎! 毫曼曼鼍! 鼍曼 a b s t r a c t b u i l d i n ge n e r g yc o n s u m p t i o nr e f e r s t ot h et o t a lc o m m e r c i a l e n e r g y o fa b u i l d i n gw h i c hi si nu s e b u i l d i n ge n e r g yc o n s u m p t i o nb e n c h m a r k i n gi sam e t h o dt o e v a l u a t et h ee n e r g yc o n s u m p t i o no ft h eb u i l d i n gb yc o m p a r i n gw i t ht h o s eo fo t h e r b u i l d i n g sw h o s es t y l e sa n df u n c t i o n sa r eo ft h es a m e a tp r e s e n t ,t h e r ea r em a i n l yt w om e t h o d st od ob e n c h m a r k i n g :t h es t a t i s t i c a l m e t h o da n dt h ed a t a - m i n i n gm e t h o d h o w e v e r , t h e r ei sad i s a d v a n t a g ei nc o m m o n : b e n c h m a r k i n gb a s e do nas i n g l em e t h o dd o e sn o tw o r ko u te f f i c i e n t l y i n t h i sp a p e rw ep r o p o s ea ni n t e g r a t e dm o d e lo fb u i l d i n ge n e r g yc o n s u m p t i o n b e n c h m a r k i n gb a s e do n “v o t i n g ”,n o m i n a t e da ss a i v o t i n gm o d e l i nt h i sm o d e l , t h r e es i n g l e - m o d e l s ,w h oa r er e s p e c t i v e l yb u i l ti na c c o r d a n c ew i t ht h r e ea l g o r i t h m s , a r ei n t e g r a t e di n t os a i - v o t i n g t h i sp a p e rf o c u s e so nt h ed e s i g na n de s t a b l i s h m e n to ft h r e es i n g l e - m o d e l sa n d t h ei n t e g r a t e dm o d e l : ( 1 ) e s t a b l i s h i n gt h es t e p w i s em o d e lw i t hs t e p w i s er e g r e s s i o nm e t h o d ; ( 2 ) p r o p o s i n gab e n c h m a r k i n gm o d e l ,c a l l e da p r i o r i - r u l e ,f o rt h ef i r s tt i m e u t i l i z i n ga s s o c i a t i o nr u l em i n i n gt e c h n o l o g y ; ( 3 ) e s t a b l i s h i n gab e n c h m a r k i n gm o d e lc a l l e di d 3b yb u i l d i n gad e c i s i o nt r e e w i t hi d 3a l g o r i t h m ; ( 4 ) p r o p o s i n g a n i n t e g r a t e d m o d e lo fb u i l d i n g e n e r g yc o n s u m p t i o n b e n c h m a r k i n gb a s e do n “v o t i n g ,n o m i n a t e da ss a i v o t i n gm o d e li nw h i c ht h e s t e p w i s cm o d e l ,t h ea p r i o r i t a l em o d e la n dt h ei d 3m o d e la r eu s e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep e r f o r m a n c eo fs a i v o t i n gm o d e lh a s s i g n i f i c a n ti m p r o v e m e n tg a i n so v e rt h et h r e em o d e l sb a s e do ns i n g l em e t h o d b e s i d e s , i ti ss h o w nt h a tt h ea p r i o r i r u l em o d e li sb e t t e rt h a nt h el d 3m o d e li na c c u r a c y k e y w o r d sd a t am i n i n g ;b u i l d i n ge n e r g yc o n s u m p t i o n ;b e n c h m a r k i n g ;s t e p w i s e r e g r e s s i o na n a l y s i s m 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名塑垒窑魄幽堑巨旦拥 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 导师签名:恝主啡理距昱翻 第l 辛绪论 第1 章绪论 1 i 建筑能耗基准评价简介 建筑能耗( b u i l d i n ge n e r g yc o n s u m p t i o n ) 是指建筑物在使用过程中消耗商 品能源的总和。建筑能耗基准评价1 2 ,3 1 ( b u i l d i n ge n e r g yc o n s u m p t i o n b e n c h m a r k i n g ,b e c b ) 是通过比较某栋建筑与相同类型、相同功能的类似建筑的 能耗特性来对其耗能状况进行评价的方法。 通过基准评价,建筑业主或管理者可以了解其建筑运行情况,对比自己建筑 与其它类似建筑的能源消耗差异如果发王见目标建筑比其它同类建筑能耗高,可 以采取措施降低能槲引。在建筑设计阶段和建筑改造阶段过程中,建筑能耗基准 评价同样可以评价建筑设计是否合理1 3 j 。在对建筑目标进行单独能源或多重能源 审计时,建筑能耗基准评价是用来评,古拟采取的节能措施的重要方法1 4 i 。 当今世界,能源消耗量日益增长,能源短缺日益明显,很多地方出现了能源 危机1 5 1 。快速发展的中国正面临着巨大的能源压力,能源消耗正成为制约经济发 展的瓶颈【6 1 。一方面国家能源紧缺,形势严峻,另一方面建筑用能极端浪费,建 筑节能步履维艰,成为建设节约型社会中最薄弱的一个环节。 建筑能耗基准评价为我们迅速分析建筑物的大致能耗状况提供了便捷的途 径,为政府节能方针的制定提供一定的指导作用,对于推进全社会的节能工作具 有重大的意义。相关政府部门利用建筑能耗基准评价工具,可以对建筑物进行能 耗评价,有效的促进各单位加强行为节能,推进节能工作日常化、长期化。 传统的建筑能耗基准评价方法是组织建筑能耗专家对于待评价的目标建筑 进行节能诊断,通过考察建筑物的围护结构、用能设备、气候条件等信息,对目 标建筑进行基准评价。这种方法不仅花费的时间长,而且浪费大量的人力和物力。 随着能源紧缺形势的日益严峻,越来越多的研究人员开始关注建筑节能,这就要 求更省时、更省力、更经济的建筑能耗基准评价方法的诞生,于是各种理论和方 法不断出现,建筑能耗基准评价的研究获得了长足的发展。 数据挖掘1 7 1 ( d a t am i n i n g ,d m ) 就是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在的有用信 息和知识的过程。国际上对数据挖掘的研究如火如荼,并且其应用前景相当广泛, 在政府管理决策、商业经营、科学研究和企业决策支持等各个领域都有用武之地。 但是遗憾的是,在国内外文献中,很少发现将数据挖掘技术应用到建筑能耗基准 评价领域。因此探讨如何将数据挖掘技术应用到建筑能耗基准评价领域,具有很 强的理论意义和现实意义。 北京7 - 业久学t 学颂卜学f ? ,论文 1 2 国内外研究现状 1 2 1 数据挖掘 2 0 世纪8 0 年代,数据库技术1 8 l 已经得到广泛普及和应用。数据库系统可以 高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规 则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的 手段,导致了“数据爆炸但知识贫乏”的现象。 同时,计算机技术的另一领域一人工智能( a r t i f i c i a li n t e l l i g e n c e ,a 1 ) 自1 9 5 6 年诞生之后取得了重大进展。用数据库管理系统来存储数据,用机器学习的方法 来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发 现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 的产生。 “知识发现”一词是1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能 会议上首先提出的。1 9 9 5 年,在加拿大蒙特利尔召开的首届知识发现与数据挖 掘学术会议上,数据挖掘( d a t am i n i n g ,d m ) 这一术语被学术界正式提出1 9 l 。 像其他新技术的发展历程一样,数据挖掘也必须经过概念提出、概念接受、 广泛研究和探索、逐步应用和大量应用等阶段i 1 0 1 。从目前的现状看,大部分学 者认为数据挖掘的研究仍然处于广泛研究和探索阶段。一方面,数据挖掘的概念 已经被广泛接受。在理论上,批具有挑战性和前瞻性的问题被提出,吸引越来 越多的研究者。另一方面,数据挖掘的大面积广泛应用还有待时日,需要深入的 研究积累和丰富的工程实践。 把目前数据挖掘的研究现状描述为鸿沟阶段是比较准确的i l o i 。所谓鸿沟阶 段是说数据挖掘技术在广泛被应用之前仍有许多“鸿沟”需要攀越。例如,就目 前商家推出的数据挖掘系统而言,它们都是一些通用的辅助开发工具。这些工具 只能给那些熟悉数据挖掘技术的专家或高级技术人员使用,仅对专业入员开发对 应的应用起到加速或横向解决方案的作用。但是,数据挖掘来自于商业应用,而 商业应用又会由于应用的领域不同而存在很大差异。大多数学者赞成这样的观 点:数据挖掘在商业上的成功不能期望通用的辅助开发工具,而应该是数据挖掘 概念与特定领域商业逻辑相结合的纵向解决方案。 常用的数据挖掘算法有以下几类:分类算法、聚类算法、关联规则挖掘算法、 序列分析算法等。 1 2 2 回归分析方法 回归分析方法是统计学中的一个非常重要的分支。它通过样本值建立一个多 - 2 第1 亭绪论 曼- 一一 - - - 息- -2 - - - ! 曼! 皇曼曼! 曼曼! 鼍! ! 曼曼! 曼! 曼! 皇! 曼! 曼皇! 曼! 曼! ! ! ! ! 皇曼曼! 量! ! 曼! ! ! ! ! 詈 元线性回归方程,将目标建筑的各项参数输入这个方程,得到一个估计值,然后 把这个估计值与目标建筑的实际能耗值进行比较,以此束进行基准评价。在回归 分析方法中,应用最广泛也是最受人们推崇的是逐步回归法,著名的建筑能耗基 准评价工具e n e r g ys t a r 就是运用了这种方法。 巴l 归分析方法建立的回归方程是这样的形式【1 1 1 3 j : y 暑6 0 + 属工l + 2 x 2 + + 卢口x 肘+ , ( 1 - 1 ) 其中1 3i 是回归系数,e 是随机误差。因为上述( 1 1 ) 式是因变量y 与所有 自变量的回归模型,故称为全模型。 这种方法的优点是简单、直观,用户只要输入一些数据,该方法就会给出目 标建筑的能耗预测值。缺点是不能产生被用户理解的规则。 1 2 3 建筑能耗基准评价 在现阶段,国内外对建筑能耗基准评价的研究主要有以下两类类方法:统计 学方法和数据挖掘方法。其中,回归分析是统计学中的一个非常重要的分支,决 策树方法是数据挖掘分类算法中的一个重要方法。 1 9 9 6 年,t e r r ys h a r p 利用逐步回归法建立回归模型,并且应用到商业建筑 上1 1 4 l ;1 9 9 8 年,他又把这一模型应用到学校的建筑上1 1 5 i 。至此,逐步回归法得 到了越来越广泛的应用。由美国环境保护协会和美国能源部开发的建筑能耗基准 评价工具e n e r g ys t a r 就是运用了逐步回归法。2 0 0 0 年,h i c k s 和v o nn e i d a 具体 描述了逐步回归法是如何在e n e r g ys t a r 实现的。 2 0 0 2 年,m u l l e rw 和w i e d e r h o l ee 描述了如何将决策树方法应用到建筑能 耗基准评价中1 1 5 j 2 0 0 6 年2 月,m e l e ky a l c i n t a s 研究了如伺以神经网络方法建立模型1 1 6 l 。他用 的数据来源于对热带地区的6 0 多栋建筑,把其中四分之三的数据当作训练数据, 其余四分之一的数据作为测试数据。对于测试数据,建立能耗预测值与实际值之 间的一元线性回归方程,以相关系数作为衡量神经网络算法的标准。 2 0 0 6 年1 1 月,g e o f f r e yk et s o 和k e l v i nk w y a u 从预测建筑能耗值的角 度,以住宅类建筑的每户家庭为单位,分成夏季和冬季两个阶段分别应用逐步回 归、决策树和人工神经网络的方法,建立三个不同的模型l 儿l ,来预测住户的用电 能耗。他们通过计算平均残差平方和对三种方法进行了比较。 1 3 主要研究内容 目前,在建筑能耗基准评价领域,存在以下两个问题: 3 北京t 业j 、学t 。;! 倾l 。学f t 论文 ( 1 ) 在目前的国内外文献中,很少发现将关联规则挖掘技术应用剑建筑能 耗基准评价领域。因此探i , - t z h 何将关联规则挖掘技术应用到建筑能耗 基准评价领域,具有很强的理论意义和现实意义。 ( 2 ) 在进行建筑能耗基准评价时,大部分学者采用的方法是用一种方法建 立单一的模型,比如逐步回t j _ q 法、决策树万法,基准评价的结果不是 非常理想。 针对以上两个问题,本文做了以下工作: ( 1 )本文首次提出了将关联规则挖掘技术应用于建筑能耗基准评价领域 的模型,即a p r i o r i r u l e 模型。在这个模型中,我们采用经典的a p r i o r i 算法生成频繁项目集。 ( 2 )利用逐步回归法建立回归方程,从而建立基准评价模型,称为 s t e p w i s e 模型。利用分类挖掘中的i d 3 算法建立决策树,从而建立的 基准评价模型称为i d 3 模型。本文综合运用s t e p w i s e 模型、a p r i o r i r u l e 模型和i d 3 模型等三个基础模型,采用“投票”的方式,提出了称为 s a i v o t i n g 的建筑能耗基准评价集成模型。 1 4 本论文的组织形式 本论文共分五章,按以下力式进行组织: 第一章为绪论,首先介绍了建筑能耗基准评价的定义,主要介绍了本文的研 究内容、研究意义、国内外研究现状,还阐述了该领域有待深入研究的问题。 第二章将介绍应用于建筑能耗基准评价的两个主要技术:逐步回归法和决策 树算法( i d 3 ) ,用这两种方法分别建立的模型也是本文提出的“投票”模型的基 础模型。一 。 第三章将探讨如何将数据挖掘中的关键技术关联规则挖掘技术应用于 建筑能耗基准评价领域。我们将用a p r i o r i 算法生成频繁项目集,然后产生关联 规则,建立a p r i o r i r u l e 评价模型。 第四章将综合运用s t e p w i s e 模型、a p r i o r i r u l e 模型和i d 3 模型,采用“投 票 的方式,提出一个称为s a i v o t i n g 的建筑能耗基准评价集成模型。 第五章是实验验证,对s t e p w i s e 模型、a p r i o r i r u l e 模型、i d 3 模型和 s a i v o t i n g 模型进行比较。 最后对全文进行总结,并对今后的工作进行展望。 4 筠2 辛缱筑能f e e 玳计价相父 主术 第2 章建筑能耗基准评价相关技术 本章的主要内容是建筑能耗基准评价的相关技术,包括逐步回归法、关联规 则挖掘技术和a p r i o r i 算法、决策树分类方法和i d 3 算法。 2 1 逐步回归法 1 9 9 6 年,t e r r ys h a r p 首次利用逐步回归法建立建筑能耗基准评价的回归模 型。此后,逐步回归法得到了越来越广泛的应用。由美国环境保护协会和美国能 源部开发的建筑能耗基准评价工具e n e r g ys t a r 就是运用了逐步回归法。 2 1 1 总体和样本 在一个统计问题中,通常把所要调查研究的事物或现象的全体称为总体,而 把组成总体的每个元素( 成员) 称为个体,一个总体中所含的个体的数量称为总 体的容量1 1 丌。例如要某城市政府办公建筑的能耗状况,那么这个城市所有政府 办公建筑的能耗状况就是我们研究的总体,而每个建筑的能耗状况就是个体。 为了推断总体的某些特征,需要从总体中按一定比例的抽样技术抽取若干个 体,将这一抽取过程称为抽样。所抽取的部分个体称为样本,样本中所含个体的 数量称为样本容量。如在研究政府办公建筑的能耗时,随机抽取1 0 0 栋建筑来进 行调查,这1 0 0 栋建筑就是一个样本,样本容量就是1 0 0 。 2 1 2 全模型、选模型和偏f 统计量 回归分析( r e g r e s s i o na n a l y s i s ) 是处理变量x 与y 之间的一种统计方法和 技术。设我们研究的某一问题,涉及到对因变量有影响的因素共有i n 个,由因 变量y 和m 个自变量x l ,x 2 ,x m 构成的线性回归模型可以写成下面的形式1 1 4 1 7 l : 一 y p o + 卢l _ + f 1 2 x 2 + + 以+ ,( 2 - 1 ) 其中bi 是回归系数,是随机误差。因为因变量y 与所有自变量x 1 ,x 2 , x m 的回归模型,故称( 2 1 ) 式为全模型。 如果我们从所有可供选择的1 1 1 个变量中挑选出p 个,记为x l p ,x 2 p ,x p p , 由所选的p 个变量组成的回归模型为【1 4 ”7 1 : y p o ,+ a p ,+ 反p x 2 ,+ + 靠,( 2 - 2 ) 5 北京t 业人学t 学硕i 学f 皇论文 我们称模型2 2 为选模型。 在后边的讨论中,无论是从回归方程中剔除某个自变量,还是给回归方程增 加某个自变量都要用到偏f 统计量,使用偏f 统计量进行偏f 检验。 假设有样本( x l ix 1 2 ,3 ,x l ,i ,y 】) ,( x 2 1 ) x 2 2 ,戈2 3 ,x 2 ,f ,y 2 ) , ( x m l ,2 ,3 ,疗,y 用) ,其中y i ( 1s ism ) 是因变量的值。因变量是y , 自变量是一,x 2 ,x 3 ,一,。假设由这m 个样本得到的回归方程为: y = p o + 屈工1 + 2 工2 + + 二,( 2 3 ) 找1 足义统计量: 一y , y = 上- l ,( 2 4 ) 多。= p 。+ 卢 。+ 卢:毛2 + + 成王妇,( 2 5 ) 回归平方和f 1 7 i s s r ( s u mo fs q u a r e sf o rr e g r e s s i o n ) : s s r = ( 多,一讲( 2 - 6 ) 回归平方和【1 r l s s e ( s u mo f s q u a r e sf o re r r o r ) : s s e 罱i m m ( y ;一聍,( 2 - 7 ) 总平方和【1 7 s s t ( s u mo fs q u a r e sf o rt o t a l ) : 。s s 丁= 薹( 咒一歹) 2 二薹( 多,一歹) 2 + 茎( 只一y ,) 2 ,c 2 - 8 , 因而平方和分解式可以简写为:s s t = s s r + s s e 。 我们现在考虑自变量薯( 1sism ) 的显著性。在剔除掉葺后,用y 与其余 0 9m 一1 4 自变量做回归,记所得的残差平方和为& 瓯f ) ,回归平方和为s 甄f ) , 则自变量蕾对回归的贡献为z x s s r ( f ) = s s r s s r ( j ) ,称为薯的偏回归方程和。 由此构造偏f 统计量【1 7 】: f = 全垫坐( 2 - 9 ) s s e ( m 一甩一1 ) 箱2 章建筑能l t 堆准评价相关十术 一 当原假设h o i :屈= 0 成立时,_ l 式i lf 遵从自由度为( 1 ,m n i ) 的f 分 析j 。 2 i 3 逐步回归法求解回归方程的过程 在建立回归模型时,我们首先面临的问题就是如何确定回归自变量。我们一 般不会遗漏自变量,因为我们可以尽可能多的利用可能对目标值有影n 向的自变 量。如果我们担心遗漏了某些变量,而考虑了过多的变量,在这些变量中,某些 自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些变量 可能和其他变量有很大程度的重叠1 1 。如果把这样一些变量都选进来,不仅计 算量大,而且得到的回归方程稳定性也差,直接影响到回归方程的应用,这就存 在着如何挑选出对因变量有显著影响的自变量的问题。 自变量的所有可能子集构成2 m 1 个回归方程,最直接的选元方法就是求出 一切可能的回归方程然后用几个选元准则挑出最优的方程。但是当自变量的个数 较多时,由于回归方程的个数与自变量的个数呈指数增长,要求出所有的回归方 程是一件计算量非常大的事情。为此,人们提出了一些较为简便、实用、快速的 选择最优方程的方法,比如“前进法”、“后退法”、“逐步回归法”,其中“逐步 回归法”( s t e p w i s er e g r e s s i o n ) 最受推崇。 在介绍逐步回归法之前,我们先介绍前进法和后退法。 2 1 3 1 前进法前进法的思想是变量由少到多,每次增加一个,直至没有可引入 的变量为止。首先对n 个自变量,分别对因变量v 建立n 个一元线性回归方程, 并分别计算这n 个一元回归方程的n 个回归系数的偏f 检验值,记为 e 1 ,爿, e ,矸) ,选取最大者记为:f = m a x 互1 ,五1 ,e 1 。给定显著性水 平a ,若f 乏cg m 一2 ) ,则首先将x 卢l 入回归方程。为了叙述方便,设x f 就是赡。 接下来因变量y 分别与( x l ,x 2 ) ,( x l ,x 3 ) ,( x l ,x a ) 建立n - 1 个二元 线性回归方程,对这玎1 个回归方程中x 2 ,x 3 ,x 。的回归系数进行偏f 检验, 计算偏f 值,记为 墨z ,巧,砰) ,选其最大的记为砰,并且 砰昌m a x e 2 ,e z ,c 2 ,若砰之只( 1 ,m - 3 ) ,就把x 户i 入回归方程。 按照上述方法接着做下去,直至所有未被引入的方程的自变量的f 值均小于 疋( 1 ,m p - 3 ) 。这时,得到的回归方程就是最终的回归方程。 7 北京i 。业j j 学t 学弼! j 号f 一沦辽 2 1 3 2 后退法后退法与前进法相反,首先用n 个自变量建立一个回归力程,然 后在这1 1 个自变量中选择一个最不重要的变量,将它从方程中剔除。依次下去, 直到没有可剔除的变量为止,就得到最终的回归方程。 后退法和前进法都有明显的不足。前进法可能存在这样的不足,即不能反映 引进自变量之后的变化情况。因为某个自变量丌始可能是显著的,但当引入其它 自变量后,就变得不显著了,但是也没有机会将其剔除,即一旦引入,就是“终 身”的。同样,后退法也有不足之处,它一开始引入所有的变量,这样计算量很 大。如果有些自变量不太重要,一丌始就不引入,就可以减少一些计算量。再就 是,一旦某个自变量被剔除,它再也没有机会重新进入回归方程。 2 1 3 3 逐步回归法逐步回归法的基本思想是有进有洲1 7j 。具体做法是将变量一 个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引 入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或 从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行f 检验,以确 保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直 到既无显著的自变量选入回归方程,也无不显著的自变量从回归方程中剔除为 i i - 。 2 2 数据挖掘概述 后面两节将要介绍的关联规则挖掘技术和决策树分类技术都是数据挖掘中 的重要研究内容。在本小节,我们首先介绍数据挖掘概念以及知识发现的过程模 型。 数据挖掘【9 j 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又潜在的有用信息和知识的过程。 一般认为数据挖掘是数据库中知识发现( k d d ) 的一个环节,是采用具体 的数据挖掘算法从数据中自动高效地提取有用模式的过程,而k d d 是包含数据 挖掘、数据准备等环节的循环往复过程。许多专家都给出了有关k d d 的定义, 在k d d 研究领域一致认可的描述性定义是f a y y a d 等人给出的【9 j ,如图2 1 所示。 8 筇2 章建筑能 e 幕准评价相天技术 同) 竺兰兰兰芦 jl 。 7 、 目标数据 数据预处理黾_ i 。 i 弋夕 f 预处理后数据 f1 f 数据缩减目 f 弋夕 ( 缩减后数据 ) l 兰兰兰睦- 棱式 图2 - 1 数据挖掘过程 f i g u r e2 - 1 p r o c e s so fd a t am i n i n g 数据选择与数据预处理:在这一步中,将从操作型环境中提取并集成数据, 解决语义二义性问题,消除脏数据等。很明显,数据集成的目的是为了建立统一 的数据视图。一 数据缩减:对经过预处理的数据,根据知识发现的任务对数据进行必要的再 处理,使数据集中在用户的挖掘目标上。 数据挖掘:根据对问题的定义明确挖掘的任务或目的,运用选定的算法,从 数据中提取出用户所需要的知识。这些知识可以用一种特定的方式表示或使用一 些常用的表示方式,如决策树等等。 模式解释与评估:将获取的知识和规则转换为可理解的、可使用的规则集, 并通过检验样本进行测试校验。 2 3 关联规则挖掘技术 关联规则挖掘是数据挖掘中的一个重要课题,最近几年来已被世界所广泛研 9 北京t 、l l ! j :掌t :硕1 号:位论文 究。关联规则挖掘就是从大量的数据中挖掘出有价值的、描述数据项之问十 互联 系的知识,它是美国a g r a w a i 等人于1 9 9 3 首先提出的1 1 8 j 。随着收集和存储在数 据库中的数据规模越来越大,从这些海量数据中提取有价值的关联规则的可能性 也越来越大,人们对从这些数据中挖掘相应的关联知以也越来越有兴趣。 关联规则挖掘的一个典型应用是市场购物分析。它可以帮助商家分析脚! 客的 购买习惯,发现顾客常在起购买的商品( 关联规则) ,为商家制定市场营销策略 提供参考。比如:顾客在购买牛奶时,是否也可能同时购买面包等,显然能够回 答这些问题的有关信息肯定会有效地帮助商家进行有针对性的促销,以及进行合 适的货架商品摆放。例如:可以将牛奶和面包放在相近的地方这样或许会促进 这两个商品的销售。 2 3 1 基本概念 关联规则【2 0 ,2 1 2 2 j 也称为关联模式,是形如x y 的规则,更一般的可以表 示为:i f xt h e n y ,其中x ,y 是关于数据库中属性取值的规律:由于某些事务 的发生引起另外一些事件的发生。 设,= 0 t ,f 2 ,i m 是一个项目集合,事务数据库d = 0 。,f :,t 。】是由一系列 具有惟一标识t i d 的事务组成,每个事务t ;( f = 1 , 2 ,n ) 都对应i 上的一个子集。 设j lc _ i ,项目集( i t c m s c t ) j l 在数据集d 上的支持度i l o l ( s u p p o r t ) 是包含,l 的 事务在d 中所占的百分比,即s u p p o r t ( 。) = 0 t e dij r ,c t ) | | i id 0 。 一对项目集,和事务数据库d ,z 中所有满足用户指定的最小支持度 ( m i n s u p p o r t ) 的项目集,即大于或等于m i n s u p p o r t 的,的非空子集,称为频繁 项目集1 1 ( f r e q u e n tl t e m s e t s ) 。 一个定义在,和d 上的形如1 1 4 1 2 的关联规则通过满足一定的可信度、信任 度或置信度( c o n f i d e n c e ) 来给出。所谓规则的可信度【1 0 l 是指包含l l 和1 2 的事务 数与包含i l 的事务数之比,即 c o n f i d e n c e ( j l - ,2 ) = s u p p o r t ( 1 1t 31 2 ) s u p p o r t ( 1 1 ) 其中,。,:,j ,n ,一辔。 j d 在,上满足最小支持度和最小信任度( m i n c o n f i d e n c e ) 的关联规则称为强 关联规则【1 0 l ( s t r o n ga s s o c i a t i o nr u l e ) 。 1 0 箱2 章建筑能f t 毕准计价相关技术 曼曼曼! 曼曼曼曼皇曼曼曼皇曼! 曼曼曼蔓鼍曼量皇! 皂曼鼍苎鼍曼皇皇毫1 = 1 = 1 = i = = = = ! 皇皇鼍! 皇苎! 曼曼曼! 曼! 曼曼! 曼! 曼皇 2 3 2 关联规则的挖掘步骤 挖掘关联规则分成以下两步1 2 3 2 4 j : 1 、发现频繁项目集。即找出所有那些支持度大于事先给定的支持度阈值的 项集。发现频繁项目集是形成关联规则的基础。 2 、在找出的频繁项集的基础上产生强关联规则。即产生那些支持度和置信 度分别大于或等于事先给定的支持度阈值和置信度阈值的关联规则。 在上述两个步骤中,第二个步骤相对要容易一些,因为它只需要在已经找出 的频繁项集的基础上列出所有可能的关联规则,然后用支持度阂值和置信度阈值 来衡量这些关联规则,同时满足支持度阂值和置信度阈值要求的关联规则就被认 为是有趣的关联规则。事实上,由于所有的关联规则都是在频繁项集的基础上产 生的,它们就已经自动地满足了支持度阂值的要求,从而只需要考虑置信度阂值 的要求。第一个步骤是挖掘关联规则的关键步骤,挖掘关联规则的总体性能由第 一个步骤决定,因此所有挖掘关联规则的算法都是着重于研究第一个步骤。 2 3 3 经典的频繁项目集挖掘算法a p r i o r i 算法 在频繁项目集挖掘算法中,a g r a w a l 等人提出的a p r i o r i 算法是最具有影响 力和代表性的1 2 5 j 。a p r i o r i 算法利用了一个重要性质,即a p r i o r i 性质,来帮助有 效缩小频繁项集的搜索空间。 a p r i o r i 性质:频繁项集的所有非空子集都必须也是频繁的。a p r i o r i 性质基 于如下观察:设x 是一个项目集,事务数据库丁中支持x 的元组数为s 。对x 的任一非空子集为y ,设l ,中支持y 的元组数为5 j 。根据项目集支持数的定义, 一 很容易知道支持y 的元组一定支持x ,所醴s l = s ,即s u p p o r t ( y ) = s u p p o r t ( 矽。按 假设项目集工是频繁项目集,即s u p p o r t ( x ) = m i n s u p p o r t ,所以s u p p o r t ( y ) = s u p p o r t ( x ) = m i n s u p p o r t ,因此y 是频繁项目集。 a p r i o r i 算法是根据有关频集特性的先验知识而命名的。该算法利用了一个 层次顺序搜索的循环方法来完成频繁项集的挖掘工作l 矧。通过对数据库d 的多 趟扫描来发现所有的频繁项集。具体是:首先计算所有的候选1 项集的集合a 。 找出所有的频繁1 项集l j 。然后根据频繁1 项集l 1 确定候选2 项集的集合c 2 。 从c 2 中找出所有的频繁2 项集l 2 。再根据频繁2 项集2 确定候选3 项集的集 合c 3 。从c 3 中找出所有的频繁3 项集耶。如此下去直到不再有候选项集。 下面通过利用频繁项集厶1 产生频繁项集k 的例子来说明a p r i o r i 性质的具 体应用。利用l k 1 来获得l k 主要包含两个处理步骤,即连接和剪枝步骤l 圳。 连接:为了得到频繁项集“,将频繁项集l 中两个项集相连接以获得一个 北京t 业大学t 学硕i 学化论艾 k 的候选集合c k 。假定,l 和,2 为k - l 中的两个元素,记号, i j 表示,j 中的第_ 个 项;如l i 体1 1 就表示f i 中的倒数第二项。为方便起见,假设数 j i f :集中各i 己录中各 项均已按特定的字典次序排序。假定lk 1 的连接操作记为lk - 1o k 1 ,它表示若f l 和1 2 中的f j 订 一2 ) 项是相同的,也就是说若有:( 1 1 1 1 = 1 2 i ) a 八( ,1 陋2 - - - t _ ,i k 一2 】) a ( t l 【走1 】 1 2 体1 】) ,则l k - 1 中z l 和z 2 的内容就可以连接到一起。而条件( ,l 肚1 1 f 2 陆1 】) 可以确保不会产生重复的候选项集。这一步可以用伪代码表示如下图2 2 所示,我们把这个算法称为a p r i o r i g e n ( l k 1 ) 。a p r i o r i - g e n ( l k 1 ) 调用了 h a si n f r e q u e n ts u b s e t ( c ,l k - 1 ) ,是为了判断c 是否需要加入到k 候选集中, h a s i n f r e q u e n t s u b s e t ( c ,l k 1 ) 将在后面给出。 输入:( k - 1 ) - 频繁项目集l k 1 输出:k 候选项目集c k ( 1 )f o ra l li t e m s e t p e l k 1d o ( 2 )f o ra l li t e m s e tq f - - - l k 1d o ( 3 ) i f p i t e m l = q i t e m x ,p i t e m k 1 = m i n c o n f ) ( 9 ) r ;ru ( ( z 。一j ) 呻j ) ( 1 0 ) 记录c o n f i ( 1 1 ) ( 1 2 ) ( 1 3 ) r e t u r n 尺; 图3 - 1b e c b a s s o m i n i n g 算法描述 f i g u r e3 - 1d e s c r i p t i o no fb e c b a s s o - m i n i n gp r o c e d u r e 对于表3 2 所示的训练数据集d j ,给定最小支持度m i n s u p = o 2 ,得到表3 3 所示的建筑能耗频繁项目集( b e c f i ) 。若再给定最小置信度m i n c o n f = o 7 ,那么 训练数据集d i 的强关联规则如表3 4 所示。我们以“f b e c f i :s u p p o n ( b e c f i ) 1 - b e c h :s u p p o r t ( b e c f i ) 】,c o n f i d e n c e ”的形式列出。 第3g - a p r i o r i r u l e 草准评价修犁 表3 4 数据集d 】的关暇规则 t a b l e3 4t h eb e c b a s s o r u l e so fd a l a s e td1 i d b e c b a s s o r u l e s l 【 a 3 ,a g e 2 :0 2 】一【 以) :o 4 】,1 0 2 【 口3 :0 4 】- - 1 1 e 2 :0 4 】,o 7 5 3 【 a 3 ,a g e 2 ,c o r n 4 ,i t 2 :0 2 】叫 p 2 ) :0 4 】,1 0 4 【 c o r n 4 :0 4 】一【 已2 ) :0 4 】,0 7 5 5 【 a 3 ,c o r n 4 :0 3 】一【 臼 :0 4 】,1 0 6 【 a 3 ,c o r n 4 ,i t 2 :0 2 】一f 以 :o 4 】,1 0 7 【 a 3 ,i t 2 :0 2 】一【 e 2 ) :0 4 】,1 0 8 【 口4 ,l t 3 :0 2 】叫 p 3 ) :o 3 】,1 0 9 【 a g e 2 ,c o r n 4 :0 2 】一【 以) :0 4 】,1 0 1 0 【( a g e 2 ,c o r n 4 ,i t 2 :0 2 l - - - e 2 :0 4 】,1 0 1 1 【 a g e 2 ,i t 2 :0 2 】一【 以 :

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论