(数量经济学专业论文)基于数据仓库的数据挖掘方法在经济系统中的应用研究.pdf_第1页
(数量经济学专业论文)基于数据仓库的数据挖掘方法在经济系统中的应用研究.pdf_第2页
(数量经济学专业论文)基于数据仓库的数据挖掘方法在经济系统中的应用研究.pdf_第3页
(数量经济学专业论文)基于数据仓库的数据挖掘方法在经济系统中的应用研究.pdf_第4页
(数量经济学专业论文)基于数据仓库的数据挖掘方法在经济系统中的应用研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(数量经济学专业论文)基于数据仓库的数据挖掘方法在经济系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着现代信息技术、通讯技术和计算机技术的高速发展,数据库应用的范围、 深度、规模不断扩大,使得无论是企业、科研机构或政府部门等,尤其在经济系 统中( 例如零售业、证券市场) 过去多年的时间旱积累了大量的数据。目前人们 面临着迅速扩张的数据,如何有效地利用这一丰富的数据宝藏为人类服务,已经 成为许多信息工作者关注的焦点之一。与日趋成熟的数据管理技术与软件工具相 比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所 需要的相关知识,从而形成了一种“丰富的数据,贫乏的知识”之独特的现象, 人们迫切需要有新的有效手段对这些数据进行分析,数据挖掘方法就是为满足这 种需求而产生并迅速发展起来的。 本文重点研究基于数据仓库的数据挖掘方法在经济系统中的应甩研究,主要 针对零售业和证券市场进行数据挖掘,这两个领域的数据丰富,具有一定的代表 性。本文探讨了两种算法( 关联规则、决策树) 。首先进行数据采集,建立数据 库,将有用的数据从数据库中提取、整合等转到一个数据仓库中,在此基础上, 利用这些数据进行实证分析,从而发现一些规律性的东西。 本文的工作主要体现在以下几个方面: 1 、论文首先对数据挖掘国内外的研究现状进行了分析,总结了国外数据挖 掘在i n t e m e t w c b 、电子商务等方面的应用,指出了国内的研究水平仍在起始阶 段,绝大多数工作集中于局部算法设计,虽然有的开始进行软件开发,但还处在 业务数据转移和建立数据仓库的初级阶段,进行综合的系统集成设计却寥寥无 几,由于技术核心的欠缺,使得数据挖掘应用到各行业中的还不多。 2 、论文对数据挖掘的产生、定义和过程进行了进一步分析,同时结合本文 所用到的决策树和关联规则方法,对数据挖掘的方法进行了深入探讨。 3 、论文设计和构造数据挖掘的集成开发环境证券市场数据仓库( d w ) , 提出了证券市场数据仓库的解决方案,介绍数据仓库系统的组成、信息来源、功 能设计、建模及其关键技术,是本文的创新点之一。 4 、在前人研究的基础上,突破了对局部算法的理论研究,将数据挖掘算法 具体应用到了证券市场中,论文主要探讨了关联规则,针对证券市场的行情交易 数据,看出股票的走势与价格有一定的关系,一段时间低价股上涨,一段时间中 价殿上涨,一段时间高价股上涨,说明股价与涨跌之间存在一定的关系即数量关 联规则,发现股票价格和股票涨跌之间的关系,同时提取一个可信度最优的规则, 这是本文的另一个创新点。 5 、由于股票代码相当于商品,属于布尔型变量,论文采用a p r i o r i 算法,该 算法主要是针对布尔型变量的关联规则算法,利用行情数据,挖掘类似于“某只 股票在某段时间内是上涨的,在置信度为某个值的情况下,另一只股票也随之上 涨”的规律,这又是本文的一大特色。 6 、论文将客户关系管理和数据挖掘结合起来,给超市提出建设性意见,利 用决策树算法将顾客进行划分,建议超市实行会员卡服务,根据不同的会员卡实 行不同的优惠活动,为客户提供相应的服务。 【关键词】数据挖掘、数据仓库、超市、股票、证券市场 i i a b s t r a c t w i t ht h e d e v e l o p m e n t o fm o d e mi n f o r m a t i o n t e c h n o l o g y a n d c o m p u t e r t e c h n o l o g y , t h es c o p e 、d e p t ho f d a t ab a s ei st ob e c o m e l a r g e r m a n ye n t e r p r i s e sa n d s c i e n t i f i co r g a n i z a t i o n se s p e c i a l l ye c o n o m ys y s t e m ( r e t a i lt m d e 、s e c u r i t i e sb u s i n e s s e t c ) a c c u m u l a t e dag r e a td e a ld a t aaf e wy e a r sa g o a tp r e s e n t ,p e o p l ea t ef a c e dw i t h p r o l i f e r a t ed a t aw h i c hp r o v i d ef a v o r a b l ec o n d i t i o n sf o re s t a b l i s h e so fd a t aw a r e h o u s e a tp r e s e n t ,一d a t ab a s e m a n a g e m e n ts y s t e m c a ns u c c e e di n r e a l i z i n g r e c o r d 、 m o d i f i c a t i o na n dq u e r y w i t ht h er a p i di n c r e a s eo fd a t a ,q u e r ya n ds t a tc a l l tm e e t p r a c t i c a ln e e da n d f i n dr e l a t i o no fd a t as ot h a tk n o w l e d g e i sl a c k e d a tp r e s e n t ,an e w e f f e c t i v em e a s u r ei sn e e d e dt oa n a l y z ed a t a d a t am i n i n gb e c o m e d e v e l o p i n gi no r d e r t om e e tn e e d s t h ek e y s t o n eo ft h ep a p e ri st od i s c u s sd a t am i n i n gm e t h o d s a n d a p p l i c a t i o ni n e c o n o m ys y s t e m ( s u c ha sr e t a i lt r a d e 、s e c u r i t i e sb u s i n e s s ) t w om e t h o d s ( a s s o c i a t i o n r u l e 、d e c i s i o n t r e e ) a r em e n t i o n e d f i r s t l y , d a t ai s g e tt o g e t h e ra n dd a t a b a s e i s e s t a b l i s h e d s e c o n d l y , u s e f u ld a t ai se x t r a c t e df r o m d a t a b a s e f i n a l l y , e x t r a c t e dd a t ai s a n a l y z e dt og e ts o m ew e l l r e g u l a t e dk n o w l e d g e m y j o b c a l lb es e e nm o s tf r o mt h e f o l l o w i n g : f i r s t l y , t h ep a p e ra n a l y z et h eo v e r s e a sa c t u a l i t yo fd a t am i n i n ga n ds u m m a r i z e a p p l i c a t i o ni ni n t e r a c t w e be t c t h ep a p e ra c c o u n tf o rt h en a t i o n a ls i t u a t i o nw h e r e t h e r ea r en o m a n y i n d u s t r i e su s ed a t a m i n i n g t oa n a l y z ed a t a s e c o n d l y , t h ep a p e ri n t r o d u c e sd a t am i n i n g :d e f i n i t i o n ,c o u r s e ;a s s o c i a t i o nr u l e a n dd e c i s i o nt r e ea r ed i s c u s s e d m o s t l y t h i r d l y , t h ep a p e rd e s i g n s ai n t e g r a t ec o n d i t i o nf o rd a t a m i n i n g - d a t aw a r e h o u s e f o rs e c u r i t i e sb u s i n e s sa n di n t r o d u c e sd a t aw a r e h o u s es y s t e m :i n f o r m a t i o no r i g i n 、 f u n c t i o n 、m o d e la n dt e c h n o l o g y , w h i c hi so n eo ff e a t u r e si nt h e p a p e r f o u r t h l y , e x p l a i n s t h e p r o c e s s o fd a t a m i n i n ga n da p p l yt h em e t h o d si n t o s e c u r i t i e s b u s i n e s s q u a n t i t ya s s o c i a t i o nr u l ea n da p i r o r ia r eu s e dt o a n a l y z et h e r e l a t i o no fs h a r e p r i c ea n dm a r k u p a ne x c e l l e n tr u l ei sp u tf o r w a r d l a s t l y , t h ep a p e rc o m b i n e sc r mw i t hd ma n dp r o v i d e ss o m es u g g e s t i o n sf o r h l r e t a i lt r a d e d e c i s i o nt r e ea r eu s e dt op l o tc u s t o m e r so u t k e y w o r d s d a t am i n i n g 、d a t aw a r e h o u s e 、r e t a i lt r a d e ,s t o c k ,s e c u r i t i e sb u s i n e s s i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得韭立王 些盔堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:多峨楹字日期:d 中年妒月刁日 学位论文版权使用授权书 本学位论文作者完全了解j e 左王些盘兰有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论 文被查阅和借阅。本人授权j e 友至墼盔堂可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:多噻名 签字日期:吁年佃刁日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名:禹f 凳i 笨 签字日期:卯年彳月印日 电话: 邮编: 北方工业大学硕士学位论文 1 1 引言 第一章绪论 随着信息技术的发展,各行各业获取数据的能力越来越强,让我们来看一些身边 俯拾即是的现象;商业领域( 比如大型超市) 对大量条形码的普遍使用,使得每天都 积累大量的数据;i n t e r n v t 的迅猛发展,使得网上各种资源信息异常丰富;证券市场 的逐步规划,使得日交易行情数据已达到几十兆,甚至几百兆。但是大量信息给人们 带来方便的同时,也带来了一大堆问题:第一,信息过量难以消化;第二,信息分散 难以整合;第三,信息形式不一致,难以统一。人们开始提出一个新口号“要学会抛 弃信息”。面对这些“堆积如山”的信息集合,人们希望能够对其进行更高层次的分 析,以便更好有效地利用这些信息。目前的数据库系统可以高效地实现数据录入、查 询、统计等,但无法发现数据中存在的关系和规则,无法据现有数据预测未来的发展 趋势,缺乏挖掘数据背后隐藏的知识的手段,导致“数据爆炸,知识贫乏”的现象, 面对这一挑战,数据挖掘应运而生。 数据挖掘一面世,其强大的实用性得到了人们的认可。美国财富杂志5 0 0 强之一 的第一数据公司就在为第一国家银行、美国在线交易、奥马哈保险公司等著名的金融 证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、挖掘客户、降低成 本方面的年收益数以亿计,虽然数据挖掘技术已被广泛接受,但如何合理应用,仍然 有待我们的深入研究。 本文主要探讨了基于数据仓库的数据挖掘在经济系统中的应用,选取两个有代表 性的行业( 零售业) 和( 证券业) ,针对证券业提出数据仓库的解决方案,并在此基 础上,阐述关联规则算法,并对其进行了实证研究,挖掘出一些有意义的规则;在零 售业方面,主要利用决策树算法,为超市提供了种会员卡服务方案,为投资决策提 供支持。 1 _ 2 研究背景及意义 随着信息技术的发展。中国经济面临着日益激烈的竞争,各行各业纷纷采用先进 的信息技术手段提升自身的服务水平。在这十多年来,零售业、证券业积累了大量的 客户交易数据和行情数据,通过对这些数据的挖掘分析,发现一些有助于投资的信息, 提供给客户相应的服务,已成为有竞争优势的一个重要手段。数据挖掘的出现实现了 这个目标,但是国内的这两个行业仍停留在较落后的水平。中国的这些行业与国外的 相比主要是服务。国内的行业对客户的了解只是表面上的,不能够深入了解客户需求, 长期以来实行无差别的服务策略,不能够抓住真正的赢利客户,进行区别对待,为客 北方工业大学硕士学位论文 户提供一对一的服务,这两个行业虽然积累了大量的客户和行情信息但缺乏一套行之 有效的数据挖掘系统进行信息分析,甚至连客户的不同账户无从辨别,造成欺诈行为, 使各种数据不能有效结合,形成“信息孤岛”,致使领导决策层也未能提供相应的决 策支持,随着数据挖掘的不断完善,完全可以利用这些数据为决策提供支持。通过数 据挖掘能自动处理数据仓库中的海量数据,抽象出具有意义的模式,找出人们所需的 目标知识。同时数据挖掘应用范围非常广泛,用于零售业、银行业、金融业、保险业、 电信等诸多行业。在信息化过程中有很大的应用背景,所以进行数据挖掘的研究具有 重大的理论意义和实践意义。 使用数据挖掘技术的机构由于发现了分析人员发现不了的隐含的关系、模式、出 人意料但有价值的事实、趋势、例外和异常等,从而对各自的行业有了更深的了解, 这表明虽然数据挖掘是一门新兴的学科,但已在经济系统中显出巨大的潜在价值。 据c a r t n e rg r o u p 的一份调查显示,数据挖掘技术的发展,用户将采用更多的新 技术、新手段来挖掘市场价值,数据挖掘技术将在未来客户关系管理中扮演起重要的 角色。 1 3 国内外研究现状 对数据库中知识发现k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 一词的出现首先 出现在1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能会议( t h e1 1 廿1 i n t e r n a t i o n a lj o i n tc o n f e r e n c eo n a i ) 。1 9 9 9 年,亚太地区在北京召开了第三届p a k d d 会议收到1 5 8 篇论文,空前激烈,i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先 在1 9 9 3 年出版了k d d 技术专刊,并行计算、计算机网络和信息工程等其他领域的 国际学会、学刊也把数据挖掘和知识发现列为专题和专列讨论,甚至到了脍炙人口的 程度。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已召开了8 次,规 模由原来的专题讨论会发展到国际学术大会,研究重点逐渐从发现方法的研究转向实 际的系统应用,注重发现多种策略和技术的集成,以及多种学科之间的渗透。 数据挖掘技术一开始就是面向应用的,它不仅是面向特定数据库的简单检索、查 询调用,而且要对这些数据进行微观、中观及宏观的统计分析、综合、推理,以指导 实际问题的求解,企图发现事件间的相互关联甚至用已有的数据对未来的活动进行预 测。对于数据挖掘技术的研究,在国外已经有好多年的历史了。在国外,数据挖掘技 术及相关的决策支持系统发展很快,已经快速,直接给商业界、公共服务行业等众多 行业带来了令人吃惊的利润,并且有很多学校和科研机构也正投入大量资金进行数据 挖掘技术的进一步开发和深入研究。 例如加拿大b c 省电话公司要求加拿大s i n i o nf r a s e r 大学k d d 研究所根据其拥 北方工业大学硕士学位论文 有十多年的客户数据,总结、分析并提出新的电话收费管理方法,制定既有利于公司 又有利于客户的优惠政策。 美国运通公司( a m e r i c a ne x p r e s s ) 使用神经网络检测数以亿计的数据库记录, 辨别个体消费者是如何及在那里持卡交易的,得到了每个持卡用户的“购买倾向价 值”,根据这些价值,美国运通公司将个人持卡者的购买历史与关系销售尚的商品匹 配,并将这些情况附在月报后面,这样既节省了费用又提供给持卡者更有价值的分析。 n s r c 是一家位于克里夹兰的市场调研机构,它介绍了一种数据挖掘工作的情 况,使用了市场调研的成果来找出具有销售潜力的那些消费者中排在最前面的1 的 消费者,根据对顾客成本分析估计,这项数据挖掘工作将销售额提高到5 0 1 ,将净 收入增加了3 5 8 7 ,这一卓越的成绩之所以取得,由于数据挖掘技术找准了各种消费 群体之间的微差别。 数据挖掘在医学上的应用较广泛,利用数据挖掘来分析艾滋病的基因,找出s p n ( 一种肺癌的前兆症状) 的诊断率,分析具有早期乳腺癌x 光片,达到了较高的准 确率,分析肺癌数据库发现了一个有趣的规则,右肺出现肿瘤频率与左肺相比为3 : 2 等等。 目前很多领域数据挖掘都是一个很时髦的词,尤其证券、银行、电信、保险、零 售等领域,数据挖掘所能解决的典型问题是数据库营销( d a t a b a s em a r k e t i n g ) ,客户群 体划分( c u s t o m e rs e g m e n t a t i o n & c l a s s i f i c a t i o n ) ,背景分析( p r o f i l ea n a l y s i s ) ,交叉销 售( c r o s ss e l l i n g ) 等市场分析行为以及客户流失性分析( c h u m a n a l y s i s ) ,客户信用记 分( c r e d i ts c o r i n 曲,欺诈发现( f r a u dd e t e c t i o n ) 等。在国外市场激烈的环境下,每个市 场为自身的生存已经想尽了办法,很多被人工发现的规律早就发现了。 最近几年,国内也有相当多数的数据挖掘和知识发现方面的研究成果,许多学术 会议上都设有专题进行学术交流。许多科研单位和高等院校竟相开展数据挖掘的基础 理论及应用研究,这些单位包括清华大学,中科院计算技术研究所、空军第三研究所、 海军装备论证中心等,其中北京系统工程研究所对模糊方法在知识发现中的应用进行 了深入研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、 浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开 采算法的优化改造,南京大学、四川联合大学和上海交通大学等单位探讨研究非结构 化数据的知识发现以及w e b 数据挖掘。 但是国内与国外相比,我国对数据挖掘领域研究仍处于初期阶段,绝大多数工作 集中于局部算法设计,有的开始软件,但还是处在业务数据转移和建立数据仓库的初 级阶段,进行综合的系统集成设计却寥寥无几,由于技术核心的欠缺,使得数据挖掘 北方工业大学硕士学位论文 在国内一些领域只是初步开始应用。在零售业、证券业等行业开始有研究,但是只是 提出一些应用构思、解决方案,但是实现系统方面仍处于初级阶段,证券公司开始数 据仓库建设阶段,但还没有对数据进行深一步挖掘、实证研究,所以国内虽然实施了 数据挖掘,仍存在一些问题,结果不尽人意。其原因如下: 1 、设数据挖掘是一定要先确认为什么要投资数据挖掘 2 、要用数据挖掘解决什么问题; 3 、数据挖掘达到什么目的可以告一段落;否则做完都不知道怎么采用;如何评 价成功与否? 1 4 研究内容及方法 目前数据挖掘应用范围非常广泛,笔者认为零售业和证券业是两个代表性的行 业,本论文主要针对这两个行业进行研究,弥补以前的研究存在的空白之处: 1 、前很多研究是数据仓库方面的,而对如何基于数据仓库进行数据挖掘讨论的 不够深入; 2 、以前的研究只是提出一些应用构思、解决方案,而具体实证分析方面不多, 本论文在前人的基础上,利用股票行情数据进行了实证研究。 3 、国内在各行业的应用研究也仅仅是刚刚起步,国外大大超前于国内,有的已 经比较成熟,我们希望本研究结合国情,为加强与提高数据挖掘技术在我国 各行业领域应用起到一定的作用。 综上,本文将针对性地重点研究我国零售业和证券业数据仓库解决方案及运用数 据挖掘方法建立一定的模型,提取一些有用的规则,为行业提供一定的政策建议,采 用的数据来源于新华财经系统。采用的数据库是s q l 数据库,在数据库基础上通过 e t l 数据转换到数据仓库,在数据仓库的基础上采用了决策树分析、关联规则分析等 方面的建模分析。本文重点放在第三章、第四章,即实证分析上,采用v b 语言进行 关联规则编程,详细见附录。 所以,本文采用的研究方法是理论研究和实证研究相结合,在大量文献阅读的基 础上结合实例数据的挖掘分析。 4 北方工业大学硕士学位论文 1 5 论文的基本框架 绪论( 课题背景,课题意义,国内外研究现状,研究内容等) 上上 l数据挖掘( 产生t 定义,过程,方法) 上 i 数据仓库( 设计,体系结构,数据组织,功能设计,建模,关键技术) 上上 l给出具体的算法以超市、股票为例,进行实证分析 s 攀 发展方向及前景 5 北方工业大学硕士学位论文 第二章数据挖掘概述 2 1 数据挖掘的基本概念及特点 所谓数据挖掘( d a t a m i n i n g ) 是从大量数据中挖掘出隐含的、先前未知的对决策 有潜在价值的知识和规则,这些规则蕴涵了数据库中一组对象之间的特定关系,揭示 出一些有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘, 有价值的知识、规则、高层次的信息就能从数据库的相关数据集合中抽取出来,并从 不同角度显示,从而使大型数据库作为一丰富可靠的资源为知识归纳服务,数据挖掘 技术涉及数据库、人工智能、机器学习。神经网络和统计分析等多种技术。 数据挖掘的特点如下: 1 、理数据规模十分巨大; 2 、查询一般是决策制定者提出的即时随机查询,往往不能形成精确查询要求 3 、由于数据变化迅速以至于可能很快过时,因此需要对动态数据做出快速反应, 提供决策支持; 4 、主要基于大样本的统计规律,其发现的规则不一定适用于所有数据。 2 2 数据挖掘的过程 数据挖掘又称数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s ek d d ) ,它 是一个从大量数据中抽取挖掘出有价值的模式或规律性知识的复杂过程。数据挖掘的 全过程如图2 - l :从图中可以看到,整个k d d 过程是由若干挖掘步骤组成,数据挖 掘仅是其中一个主要步骤,整个知识挖掘的主要步骤有: 图2 - 1 数据挖掘过程 6 北方工业大学硕士学位论文 l 、数据清洗( d a t am i m n g ) :作用是清除数据噪声和与挖掘主题明显无关的数据; 2 、数据集成( d a t ai n t e g r a t i o n ) :其作用是将来自多数据源中的相关数据组合在 一起; 3 、数据转换( d a t at r a n s f o r m a t i o n ) :其作用是将数据转换成易于进行数据挖掘的 数据存储形式; 4 、数据挖掘( d a mm i n i n g ) :它是知识挖掘的一个基本步骤,其作用是利用智能 方法挖掘模式或规律知识: 5 、模式评估( p a t t e r ne v a l u a t i o n ) :其作用是根据一定评估标准( i m e r e s t i n g m e a s u r e s ) 从挖掘结果中筛选出有意义的模式知识。 6 、知识表示( k n o w l e d g ep r e s e n t a t i o n ) :其作用是利用可视化和知识表技术向用户 展示所挖掘出的有用知识。 尽管数据挖掘仅是整个知识挖掘的一个重要步骤,但由于目前工业界、媒体、数 据库研究领域中,“d m ”一词已被广泛使用并被普通接受,因此本论文也广泛使用 “d m ”来表示知识挖掘过程,即数据挖掘是从数据库、数据仓库或其它信息资源库 中的大量数据中挖掘有趣的知识。 2 3 数据挖掘方法 数据挖掘有很多方法,包括分类、聚类、关联、决策树、神经网络等方法,下面 仅对常用的五种方法分别加以介绍,其中对本文要用到的决策树算法和关联规则算法 作比较详细的介绍。 2 3 1 分类 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的 是学会一个分类函数或分类模型( 也常常称作分类器) ,该模型能把数据库中的数据 映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数 据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方 法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。这里我们将 不讨论回归方法。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录 或元组构成,每个元组是一个由有关字段( 又称属性或特征) 值组成的特征向量,此 外,训练样本还有一个类别标记。一个具体样本的形式可为:“,屹,、v n , c ) ;其中h 北方工业大学硕士学位论文 表示字段值,c 表示类别。 分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包 括贝叶斯法和非参数法( 近邻学习或基于事例的学习) ,对应的知识表示则为判别函 数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树 或判别树,后者则一般为产生式规则。神经网络方法主要是b p 算法,它的模型表示 是前向反馈神经网络模型( 由代表神经元的节点和代表连接权值的边组成的一种体系 结构) ,b p 算法本质上是一种非线性判别函数。另外,最近又兴起一种新的方法:粗 糙集( r o u g h e s t ) ,其知识表示是产生式规则。 不同的分类器有不同的特点。有三种分类器评价或比较尺度:( 1 ) 预测准确度; ( 2 ) 计算复杂度;( 3 ) 模型描述的简洁度。预测准确度是用得最多的一种比较尺度, 特别是对于预测型分类任务,目前公认的方法是1 0 番分层交叉验证法。计算复杂度 依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据库, 因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务。模 型描述越简洁越受欢迎;例如,采用规则表示的分类器构造法就更有用,而神经网络 方法产生的结果就难以理解。 例外注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺 值,有的分布稀疏,有的字段或属性问相关性强,有的属性是离散的而有的是连续值 或混合式的,目前普遍认为不存在某种方法能合适于各种特点的数据。 2 3 2 聚类 聚类是把一组个体照相似性归成若干类别,即“物以类聚”。它的目的是使得属 于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能的大。 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。 在统计方法中,聚类称聚类分析,它是多元数据分析的三大方法之一( 其它两种 是回归分析和判别分析) 。它主要研究基于几何距离的聚类,如欧式距离、明考斯基 距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、 有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类, 它需要考察所有的个体才能决定类的划分;因此它要求所有的数据必须预先给定:而 不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂度,难以适用于数 据库非常大的情况。 在机器学习中聚类称作无监督或无教师归纳;因为和分类学习相比,分类学习的 例子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算法来自 8 北方工业大学硕士学位论文 动确定。很多人工智能文献中,聚类也称概念聚类;因为这里的距离不再是统计方法 中的几何距离,而是根据概念的描述来确定的。当聚类对象可以动态增加时,概念聚 类则称是概念形成。 在神经网络中,有一类无监督学习方法:自组织神经网络方法:如k o h o n n e n 自 组织特征映射网络、竞争学习网络等等。在数据挖掘领域里,见报道的神经网络聚类 方法主要是自组织特征映射方法,i b m 在其发布的数据挖掘白皮书中就特别提到了 使用此方法进行数据库聚类分割。 2 3 3 神经网络 神经网络( n e u t r a ln e t w o r k ) 是一种复杂的分类和回归算法。常被称作“黑箱”。神 经网络需要很多数据来训练,因而很费时间,但是一旦训练完毕,它能快速的对新的 案例做出预测,甚至是实时的。另外,神经网络能针对多个同时发生的预 图2 - 2 一个6 节点的前馈神经网络 测提供多个结果。神经网络的个关键特点是它只直接在数字上运行。因此,任 何非数字的数据无论是白变量或是因变量都要转换成数字,如变量有如下的值 “y e s n o ”或“h i g h l o w ”等,要转换成“o l ” 最普通的人工神经网络包含了三层,分别是输入层、隐藏层和输出层,如图2 - 2 所示: 图2 - 2 所示的是一个6 节点的前馈神经网络。前馈神经网络只允许信号沿一个方 向传播,即从输入到输出。不存在反馈环,即任何层的输出不能影响同一层。 图2 - 2 中所示的w l ,w 2 表示权重。分别代表某个输入对某个节点的重要程度。 输入层的活动是表示将原始信息输入神经网络;隐藏层的活动由输入层的活动和输入 与隐藏层的连接的权重共同决定。输出层的行为依赖于隐藏层的活动和隐藏层和输出 9 北方工业大学硕士学位论文 层的权重。隐藏层使得神经网络能识别更多的模式,因此随着输入节点数和问题的负 责程度的增加,隐藏节点数也随之增加。但是太多的隐藏节点也会导致“过度匹配”。 而过少的隐藏节点又会导致模型的精确性不高。发现一个合适的隐藏节点的数目是运 用神经网络进行数据挖掘的一个重要的工作,有几种神经网络产品用一些搜索算法 ( 如遗传算法) 来发现最优的隐藏节点数。输入节点和隐藏节点之间的权重决定什么 时候某个隐藏节点是激活的。神经网络对输入进行了非线性的转换。下图2 3 揭示了 神经网络内每个节点内部发生的。 x l x 2 x 3 x 4 x 5 图2 - 3 神经网络一个输入节点的运算 其中,f ( ,) = w lx x i + w 2 x 2 + w 3 + w 4x x 4 + w 5 x 5 ,而f 。( ,) 是对f ( ,) 的一 次非线性转换。两种最常使用的前馈神经网络是多层感知器( m l p s ) 和r a d i a lb a i s f u n c t i o n ( r b f ) l n 络。这两者之间的唯一的根本差异是在隐藏层结合网络的前面的层的 数据时,m l p s 用内部的产品,而r b f 却用欧几里得距离。 神经网络方法的优点和缺点:神经网络因为不能解释发现的关系,常被看作黑箱。 它只能输入数字数据,这就意味着非数字数据需要转换。另外,输入还需要归一为0 和l 之间。如果神经网络通过很好的训练能快速预测新的案例。训练阶段是非常精密 的。需要选择合适的数字和控制过度匹配。神经网络的一个缺点是它永远不是非常精 确,即使永远训练。 2 3 4 关联规则 关联规则是形如如下的一种规则,“在购买面包和黄油的顾客中,有9 0 的人同 时也买了牛奶:( 面包+ 黄油) 一( 牛奶) 。用于关联规则发现的主要对象是事务型数 据库。其中针对的应用主要是售货数据,也称货篮数据。一个事务一般由如下几个部 分组成:事务处理时间,一组顾客购买的物品,还有顾客标识号( 如信用卡号) 。 1 0 ! ! 立三些奎兰堡主堂堡垒茎 设,= f 1 ,岛,i m 是一组物品集( 一个商场的物品可能有上万种) ,d 是一组事务 集( 称之为事务数据库) 。d 中的每个事务t 是一组物品,显然满足t j 。称事务t 支持物品集x ,如果x 互t 。关联规则是如下形式的一种蕴涵:z y ,其中石三i , y ,且x n y = m 。 评估关联规则的四个重要指标是 1 ) 支持度( s u p p o r t ) :规则肖_ y 在交易数据库d 中的支持度( s u p p o r t ) :是交易 集中包含x 和y 的交易数和所有交易数之比,记为s u p p o r t ( x 斗y ) ,即 s u p p o r t ( x - - + y ) = i 口:x u f 量r ,t d i i d i 。 2 ) 可信度( c o n f i d e n c e ) :规则x 专】,在交易集中的可信度( c o n f i d e n c e ) 是指 包含x 和y 的交易数与包含x 的交易数之比,记为c o n f i d e n c e ( x 寸y ) ,即: c o n f i d e n c e ( x 寸r ) - - - l i t :x u y l t v l l r :x _ c t ,丁d 。 3 ) 期望可信度( e x p e c t e dc o n f i d e n c e ) :描述了在没有物品集x 作用下,物品集 y 本身的支持度,记为e c o n f i d e n c e ( y ) ,即 e c o n f i d e n c e ( y ) = 1 留:y 丁,t d i 1 d 1 。 4 ) 作用度( 1 i f t ) :作用度是可信度对期望可信度的比值。描述了物品集x 对物 品集y 的影响力的大小。记为l i f t ( x 斗j ,) ,即 够( z 斗y ) = c o n f i d e n c e ( x y ) e c o n f i d e n c e ( y ) 。作用度越大,说明物品集y 受物品集x 的影响很大。一般情况,有用的关联规则的作用度都应该大于1 ,只有关 联规则的可信度大于期望可信度,才说明x 的出现对y 的出现有促进作用,也说明 了他们之间某种程度的相关性,如果作用度不大于1 ,此关联规则就没有意义了。 如果不考虑关联规则的支持度和可信度、作用度,那么在事务数据库中就会存在 无穷多的关联规则。事实上,人们一般只对满足一定的支持度、可信度和作用度的关 联规则感兴趣。在一些文献中,一般称满足定要求的( 如较大的支持度和可信度) 的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支 持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度,它表示了一 组物品集在统计意义上的需满足的最低程度:后者即用户规定的关联规则必须满足的 最小可信度,它反映了关联规则的最低可靠度。 关联规则最主要的算法是a p r i o r i 算法,a g r a w a l 等于1 9 9 3 年首先提出了挖掘顾 客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。以 北方工业大学硕士学位论文 后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有 的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;提 出各种变体,如泛化的关联规则、周期关联规则等,对关联规则的应用进行推广。 关联规则挖掘算法可以分解为两个子问题: 1 ) 找到所有支持度大于最小支持度的项集( i t e m s e t ) ,这些项集称为频集 ( f r e q u e n ti t e m s e t ) 。 2 ) 使用第1 步找到的频集产生期望的关联规则。 2 3 5 决策树 所谓决策树就是一个类似流程图的树型结构,其中树的每个内部结点代表对一个 属性( 取值) 的测试,其分支就代表测试的每个结果;而树的每个叶结点就代表一个 类型。树的最高层结点就是根结点。 为了对未知数据对象进行分类识别,可以根据决策树的结构对数据集中的属性值 进行测试,从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。 决策树可以很容易转换成分类规则。 以下算法就是构造决策树的一个基本归纳算法: 决策树g e n e r a t e _ d e c i s i o n _ t r e e 算法:根据给定数据集产生一个决策树 输入:训练样本,各属性均取离散数值,可供归纳的候选属性集为a t t r i b u t el i s t 。 输出:决策树 处理流程: 1 ) 创建一个结点n ; 2 ) 若该结点中的所有样本均为同一类别c ,则返回n 作为一个叶结点并标志为 类别c ; 3 ) 若a t t r i b u t e _ l i s t 为空,则返回n 作为一个叶结点并标记为该结点所含样本中 类别个数最多的类别; 4 ) 从a t t r i b u t e _ l i s t 选择一个信息增益最大的属性t e s t _ a t t r i b u t e ,并将结点n 标记 为t e s t _ a t t r i b u t e : 5 ) 对于t e s t _ a t t r i b u t e 中的每一个已知取值a 1 ,准备划分结点n 所包含的样本集: 1 2 北方工业大学硕士学位论文 6 ) 根据t e s ta t t r i b u t e 条件,从结点n 产生相应的一个分支,以表示该测试条件; 7 1 设s i 为t e s ta t t r i b u t c = a i 条件所获得的样本集合,若s i 为空,则将相应叶结 点标记为该结点所含样本中类别个数最多的类别:否则将相应叶结点标志为 g e n e r a t ed i c i s i o n , 返回值。t r ( s i a t t r i b u t el i s tt e s ta t t r i b u t e ) 基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构 造一个决策树。决策树所表示的分类知识可以被抽取出来并可用i f t h e n 分类规则 形式加以表示。从决策树的根结点到任个叶结点所形成的一条路径就构成了一条分 类规则。沿着决策树的一条路径所形成的属性一值偶对就构成了分类规则条件部分 ( i f 部分) 中的一个合取项,叶结点所标记的类别就构成了规则的结论内容( t h e n 部分) 。i f t h e n 分类规则表达方式易于被人理解,且决策树较大时,i f t h e n 规则 表示形式的优势就更加突出。 2 4 数据挖掘应用 实际上数据挖掘技术从一开始就是面向应用的。目前,在很多重要的领域,数据 挖掘都可以发挥积极促进的作用。尤其在银行、电信、保险、交通、零售( 如超级市 场) 等商业应用领域,数据挖掘能够帮助解决许多典型的商业问题,其中包括:数据 库营销( d a t a b a s em a r k e t i n g ) 、客户群体划分( c u s t o m e rs e g m e n t a t i o n ) 、背景分析 ( p r o f i l ea n a l y s i s ) 、交叉销售( c r o s s s e l l i n g ) 等市场分析行为,以及客户流失性分析 ( c h u m a n a l y s i s ) 、客户信用评分( c r e d i ts c o r i n g ) 、欺诈发现( f r a u dd e t e c t i o n ) 等等。 下面通过几个例子具体说明数据挖掘所应用的范围之广: 1 、银行业:侦测利用信用卡进行的欺诈行为,及时账户进行信用等级评估,利 用数据挖掘工具进行评估的最终目的是,从已有的数据中分析得到信用评估规则或标 准,即得到“满足什么条件的账户属于哪一类信用等级”,并将得到的规则或标准应 用到新的账户的信用评估,是个获取知识和应用知识的过程。 2 、金融业:典型的金融分析领域有投资评估和股票交易市场预测,分析方法一 般采用模型预测方法( 如神经网络或统计回归技术) ,由于金融投资方向的风险很大, 在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳投 资方向,无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建 立在对数据的分析基础之上的,数据挖掘通过对已有数据的处理,找到数据对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论