(计算机软件与理论专业论文)数据挖掘技术在电视台信息系统中的应用研究.pdf_第1页
(计算机软件与理论专业论文)数据挖掘技术在电视台信息系统中的应用研究.pdf_第2页
(计算机软件与理论专业论文)数据挖掘技术在电视台信息系统中的应用研究.pdf_第3页
(计算机软件与理论专业论文)数据挖掘技术在电视台信息系统中的应用研究.pdf_第4页
(计算机软件与理论专业论文)数据挖掘技术在电视台信息系统中的应用研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘技术在电视台信息系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文( 2 0 0 13 ) 摘要 y 3 6 8 7 0 3 f 计算机网络与数据库技术的迅速发展和广泛应用,使得企业管理进入个 t 崭新的时代。广大基层管理人员摆脱了繁重的制表业务和数据处理工作,管理 工作得到进一步规范化,许多业务得到了联机事务处理信息系统的支持。然而, 面对当今竞争日趋激烈与瞬息万变的市场经济,各级管理人员迫切需要面对不 同层次的大量信息迅速作出抉择。这就要求各级管理人员能够从大量的业务数 据中获得各自权限内的决策信息,及时把握市场变化的脉搏,作出正确有效的 判断和抉择。特别是随着数据库系统的逐日运行,数据的堆积将越来越庞大, 这种需求就比以往任何时候都更加迫切。从各级决策者的角度来看,数据处理 的重点应该从传统的业务过程扩展到对业务数据的联机分析处理,并从中得到 各种管理主题的统计信息和决策支持信息。 数据仓库就是针对解决上述问题所产生的一种技术方案,正如数据仓库之 父w h i n m o n 所定义的,数据仓库是一个面向主题的、集成的、不可更新的且 随时间不断变化的数据集合,用来支持管理人员的决策。数据仓库系统的目标 是给企业提供一个可用的、一致的数据环境。在这个数据环境中,企业的决策 者希望利用d s s 工具进行辅助决策分析。 浙江电视台经过几年的信息化建设,在各个主要部门建立一些部门级的信 息系统,并取得了一定的成果,目前又在此基础上,要建立一个适用于全台的 综合信息系统,并能对管理层起到一定的决策支持作用,因此,建设一个诸如 、 数据仓库之类的集成系统成了解决问题的最好、也是唯一的答案夕一一一矿一 本文首先详细介绍了数据仓库、联机分析处理与塾篓揎掘技术。然后有重 点地讨论了錾塑垒宴的构建模型和构建过程,并详细讨论了差壁塑型的挖掘模 型和混合回归模型。最后以浙江室塑鱼绫坌焦宣丕统为例,对数据仓库技术、 联机分析处理和数据挖掘技术进行了实际应用的研究,即在构建完成数据仓库 的基础上,提出了带畜空阔件约柬的关联规则模型和混合回归预型模型。 塑坚查兰堡主兰垒堡奎堡! ! ! :! ! a b s t r a c t w f f ht h e r a p i dd e v e l o p m e n t i na n dw i d e a p p l i c a t i o n o f c o m p u t e r n e t w o r ka n dd a t a b a s e t e c h n o l o g y ,e n t e r p r i s e m a n a g e m e n ti ss t e p p i n gi n t oab r a n dn e we r a t h ea d m i n i s t e r i n g s t a f fi sr e l i e v e do ft h et e d i o u sw o r ko fd a t ap r o c e s s i n ga n db u s i n e s s a d m i n i s t r a t i o na d v a n c e st ob e t t e rs t a n d a r d i z a t i o na f t e ra c q u i r i n q s u p p o r t f r o mo n l i n et r a n s a c t i o ni n f o r m a t i o n s y s t e m s h o w e v e r , f a c i n gt h ei n t e n s ec o m p e t i t i o n a n d c a p r i c i o u sm a r k e t ,a d m i n i s t e r i n g s t a f fo fd i f f e r e n ti e v e ln e e dt om a k es w i f td e c i s i o na m o n gi a r g e a m o u n to fi n f o r m a t i o n t h i sc a l l sf o rt h ea b i l i t yo fs h a r pm a r k e t a n a l y s i st h r o u g hg r e a tv o l u m e s o fb u s i n e s sd a t a t h ea c c u m u l a t i o n o fd a t ai na l ik i n d so fd a t a b a s es y s t e m sm a k et h ed e m a n dm o r e u r g e n tt h a ne v e r f r o mt h ep o i n to fv i e wo fd e c i s i o n m a k e r s t h e e m p h a s i sf o rd a t ap r o c e s s i n gs h a l is h i f tf r o mt h et r a d i t i o n a lm o d e t ot h eo n l i n ea n a l y s i so fb u s i n e s sd a t aa n do b t a i na l i k i n d so f s t a t i s t i o a n f o r m a t i o na n dd a f as u p p o r t i n gd e c i s i o nm a k i n g d a t aw a r e h o u s ej st h es c h e m ep r e s e n t e df o rt h ep r o b l e m s m e n t i o n e da b o v e a sd e f i n e db yw h 1 n m o n d a t aw a r e h o u s ei sa s u b j e c t o r i e n t e d ,i n t e g r a t e d n o n u p d a t i n g s e to fd a t at h a t h e l p s a d m i n i s t e r i n gs t a f fm a k ed e c i s i o n s t h et a r g e to fd a t aw a r e h o u s e s v s t e mj s t op r o v i d et h ee n f e r p # s ea na p p l i c a b l e c o h e r e n td a f a e n v i r o n m e n tw i t h i nt h i se n v i r o n m e n t ,t h ed e c i s i o nm a k e r so ft h e e n t e r p r i s ec a nh a v ed e c i s i o na n a l y s i sw i t ht h ea i do ft h ed s s t o o ! s z h e j i a n gt v s t a t i o nh a se s t a b l i s h e di n f o r m a t i o ns y s t e m si ni t s m a j o rd e p a r t m e n t sa f t e rs e v e r a iy e a r s w eh a v ej u s tf i n i s h e d a c o m p r e h e n s i v ei n f o r m a t i o ns y s t e mt h a tc a nh e l pt h ea d m i n i s t e r i n g s t a f fm a k et h e i rd e c i s i o n s i ns u c ha p p l i c a t i o nf i e l d ,a ni n t e g r a t e d s y s t e m l i k ed a t aw a r e h o u s ei st h eb e s ta n da l s ot h eu n i q u e s o l u t i o n t h i st h e s i ss t a r t sw i t had e t a l i e di n t r o d u c t i o nt od a t a w a r e h o u s e ,o n l i n ed a t aa n a l y s i sa n dp r o c e s s i n ga n dd a t am m m g o nt h ef o i l o w i n gc o n t e n tc o m e sad i s c u s s i o ni nt h ec o n s t r u c t i o n m o d e la n dp r o c e s s i n go fd a t aw a r e h o u s ea n dad e t a i l e dd i s c u s s i o n i nm i n i n gm o d e lo fa s s o c i a t i o nr u l e sa n dm i x e dr e c u r s l v em o d e l f i n a l l y u s i n gt h ei n f o r m a t i o ns y s t e mo ft h et v s t a t i o na sam o d e i t h ea u t h o rd i s c u s s e dt h ep r a c t i c a la p p l i c a t i o no fd a t aw a r e h o u s e , o n l i n ea n a l y s i sa n dp r o c e s s i n ga n dd a t am i n i n gt e c h n o l o g y 1 h i s d i s c u s s i o ni sj i l u s t r a f e db ym o d e l sb a s e do nt h ed a t aw a r e h o u s e c o n s t r u c t e d :a s s o c i a t i o nr u l e sm o d e la n dm i x e dr e c u r s l v em o d e l w i t hs p e c i a lc o n s t r a i n t s 2 浙江大学硕士学位论文( 2 0 0 13 ) 第一章绪论 1 1 信息系统的现状与发展 信息系统( i n f o r m a t i o ns y s t e m ,简称i s ) 是一个集成的系统,其目的是对 组织的业务数据进行采集、处理和交换,以支持和改善组织的日常业务运作, 满足管理人员解决总理和制定决策的各种信息需求。 当前的计算机信息系统大致可以分为两大类:事务型处理系统( t r a n s a c t i o n p r o c e s s i n g ) 和分析型系统( a n a l y t i c a lp r o c e s s i n g ) 。事务型处理是指对数据库联 机的日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定 应用服务的,人们关心的是响应时间,数据的安全性和完整性。分析型处理则 用于管理人员的决策分析。例如,d s s ,e i s 和多维分析等。 决策支持系统d s s 的概念最早是由m i c h a e ls c o t tm o r t o n 和t h o m a sg e r r i t y 于1 9 7 0 年提出的。1 9 8 0 年美国夏威夷大学的r a l p hh s p r a g u e 教授发表的“决 策支持系统开发的基本框架”一文中,给出了d s s 的两种不同的观点。 ( 1 ) 狭义的d s s :能够利用数据和模型来帮助决策者解决非结构化问题 的高度灵活的、人机交互的计算机信息系统。 ( 2 ) 广义的d s s :任何对决策的制定有所贡献的信息系统。 从d s s 的概念可以看出,d s s 是一个分析型处理系统;d s s 的目的是支持 决策的制定,而不是替代决策者制定决策。 d s s 的特征可归纳如下: 面向高层管理人员经常面临的结构化程度不高、说明不够充分的问题; 把模型或分析技术与传统的数据存取技术及检索技术结合起来,所以 d s s 一般具有较高的分析数据的能力: 易于使用,特别适合于非计算机专业人员以交互方式使用: 强调对环境及用户决策方法改变的灵活性及适应性; 支持但不是代替高层决策者制定决策: 一般认为d s s 的传统结构是四库三功能结构,如下图所示 浙江大学硕士学位论文f 2 0 0 13 ) d s s 是由数据库系统d s 、模型库系统m b 、知识库系统k b 和方法库系统 所组成的。多年的实践表明,决策支持系统传统的三部件结构( 人机接口、模 型库、数据库) 并没有为提高决策效果起到想象中的那么大的作用、究其原因, 主要是对d s s 的分析功能强调不够。d s s 主要是面向分析的,数据仓库和联机 事务分析等概念的产生,为d s s 的开发提供了一个崭新的发展方向。通过数据 仓库技术,完全可以将企业的数据资源管理规范化、细致化,并且按一定的层 次来管理数据而通过o l a p 技术则可向管理人员提供有效的动态实时分析工 具。数据仓库( d w ) 为d s s 提供了进一步分析的对象:而联机事务分析( o l a p ) 和数据挖掘( d m ) 则为d s s 提供了分析的工具。因此,d s s = d w + o l a p + d m 。 6 浙江大学硕士学位论文( 2 0 0 13 ) 1 2 数据仓库与数据挖掘 1 2 1 数据仓库( d w ) 按w h i n m o n 的观点,数据仓库是面向主题的、集成的、与时间密切相关 的、稳定的数据集合,用以支持管理人员业务分析与决策的制定。 ( 1 ) 数据仓库是面向主题的 所谓主题是指企业或组织的高层实体,如顾客、销售商、产品、活动等。 传统的操作型系统是面向过程或功能的,如贷款,信誉处理等。传统的操 作型系统的设计包括数据库设计和过程设计两个方面的内容。而数据仓库的设 计只考虑数据模型和数据库设计,因为主题是相对稳定的,而过程则可能处于 不断的变化之中。 “主题”在数据仓库中是由一系列表实现的。也就是说,依然是基于关系数 据库的。虽然现在许多人认为多维数据库更适用于建立数据仓库,它以多维数组 形式存储数据,但目前的事实是:”大多数多维数据库在数据量超过1 0 g 字节时 效率不佳”。一个主题之下包含许多表,表的划分可能是由于对数据的综合程度 不同。电可能是由于数据所属的时间段不同而进行的划分。但无论如何,基于一 7 浙江大学硕士学位论文( 2 0 0 l3 1 个主题的所有表都含有一个称为公共码键的属性作为其主码的一部分。公共码 键将各个表统一联系起来,从根本上体现出它们属于一个主题。比如,基于”客户 这一主题的所有表都包含公共码键c u s t o m i z e r _ i d 。同时,由于数据仓库中的数 据都是同某一时刻联系在一起的,所以每个表除了其公共码键之外,还必然包括 时间成分作为其码键的部分。因为数据仓库包含的都是历史数据,它的表必然 包括对应的时间属性。数据仓库离的数据是时序的。 有一点需要说明的是,同一主题的表未必存在同样的介质中。根据数据被关 心的程度不同,不同的表分别存储在磁盘、磁带、光盘等不同介质中。一般而言, 年代久远的、细节的或查询概率低的数据存储在廉价慢速设备( 如磁带) 上,而近 期的、综合的或查询概率高的数据则可以保存在磁盘等介质上。 ( 2 ) 数据仓库是集成的 操作型系统由于面向过程或功能的,从而导致在不同的应用系统中会出现 以下不合理的现象:数据编码的不一致;数据的量度标准不一致。通过数据仓 库很好地解决了这问题。在数据仓库中,通过集成使数据从命名、量度标准、 编码结构以及数据的物理属性等均取得了一致。 ( 3 ) 数据仓库是与时间密切相关的 数据仓库中数据的时间特性具体体现在以下几个方面: 数据仓库中数据代表了事物在很长的时间段内的变化( 通常为5 1 0 年) 数据仓库中数据的键结构通常与时间有关 数据仓库中的数据一旦确定,则通常不再进行更改 ( 4 ) 数据仓库是稳定的 在操作型系统中,数据库的数据经常以记录为单位进行插入、删除和修改 等操作。但数据仓库的主要目的是为管理人员的决策提供查询帮助,因此,数 据仓库中的数据操作极为简单。通常数据仓库中的数据操作有两种类型:数据 的载入和存取,而无需修改。因此数据仓库中的数据是稳定的。 浙江大学硕士学位论文( 2 0 0 13 ) 1 2 2 联机分析处理( o l a p ) 联机事务处理o l t p 处理的对象是大量的事务,每个事务中有相对小容量 的细节数据,而o l a p 系统则注重对相对大容量的、主要是聚合的数据进行分 析,其基本特征是综合用户数据进行动态多维分析,提供给用户快速一致的查 询响应速度。 o l a p 查询通过检查历史数据,确定其发展趋势和异常的情况,并找出导 致异常的原因,从而为管理人员制定决策提供有效的帮助。这一概念包括以下 几个方面的内容: o l a p 应能够提供在给定时间框架里进行信息检索的功能 o l a p 应能够运行支持多维“信息片”的查询; o l a p 应提供以时间为坐标的时间序列分析功能; o l a p 应支持不同维的数据相关分析的功能,如两种看起来毫不相干的 产品类型的销售量相关分析。 o l a p 应具有以下功能: 数据的切割功能,即可以按照用户需求提供给用户所需查询的那部分数 据; 透视功能,即按照数据层次管理从上层钻到下层去取数据,以满足用户的 查询需求; 寻觅功能,即可按照用户特定的和个别的需求去查找数据; 回翻功能,即可追溯回用户查找数据的全过程。 1 2 3 数据挖掘( 咖) 数据挖掘,一种比较公认的定义是w j f r a n w l e y 、g p i a t e s l y 、s h a p i r o 等人 提出的,就是从大型的数据中提取人们感兴趣的知识,这些知识是隐含的、事 先未知的潜在的有用信息,提取的知识表示为概念( c o n c e p t s ) 、规则( r u l e s ) 、 规律( r e g u l a r i t i e s ) 、模式( p a t t e m s ) 等形式。这种定义把数据挖掘的对象定义 为数据库。而更为广义的说法是:数据挖掘意味着在一些事实或观察数据的集 浙江大学硕士学位论文 2 0 0 1 3 】 合中寻找模式的决策支持系统过程,数据挖掘的对象不仅是数据库,也可以是 文件系统,或其它任何组织在一起的数据集合,例如、 ,、 ,、 ,信息资源。 ( 1 ) 数据挖掘的目的 数据挖掘的任务是从大量数据中发现知识,知识是人类认识的成果或结晶, 包括经验和理论知识,从工程角度定义,知识是有助于解决问题的有格式可复 用的信息。 在传统的决策支持系统中,知识库中的知识和规则是由专家或程序人员建 立的,是由外部输入的,而数据挖掘的任务是发现大量数据中的尚未被发现的 知识,是从系统内部自动获取知识的过程,对于那些决策者明确的信息,可以 用查询、联机分析处理( o l a p ) 或其它工具直接获取。而另外一些隐藏在大量 数据中的关系、趋势,即使是管理这些数据的专家也是没有能力发现的,这些 信息对于决策可能又是至关重要的。 数据挖掘发现的知识通常是用以下形式表示: 概念( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 、 约束( c o n s t r a i n t s ) 、可视化( v i s u a l i z a t i o n s ) 。 这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专 家,修正专家已有的知识体系:也可以作为新的知识转存到应用系统的知识存 储机构中;比如专家系统( e x p e r ts y s t e m ) 、规则库( r u l e s b a s e ) 等。 ( 2 ) 数据挖掘的过程 数据挖掘过程一般由3 个主要的阶段组成:数据准备、挖掘操作、结果表 达和解释,知识的发现可以描述为这3 个阶段的反复过程。 数据准备:这个阶段又可以进一步分成3 个步骤:数据集成、数据选 择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进 行合并处理,解决语义模糊性、处理数据中的遗漏的清洗脏数据等。 数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高 挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。 数据挖掘:这个阶段进行实际的挖掘操作,包括的要点有: ( 1 ) 要先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用 浙江大学硕士学位论文( 2 0 0 l3 ) 户自己对于数据库中可能包含的知识提出假设。前一种称为发现型 ( d i s c o v e r y - d r i v e n ) 的数据挖掘:后一种称为验证型( v e r f i c a t i o n d r i v e n ) 的数据挖掘; ( 2 ) 选择合适的工具; ( 3 ) 挖掘知识的操作; ( 4 ) 证实发现的知识: 结果表述和解释:根据最终用户的决策对提取的信息进行分析,把最 有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此, 这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理, 如果不能令决策者满意,需要重复以上数据挖掘的过程。 ( 3 ) 数据挖掘的分类 从不同的视角看,数据挖掘技术有几种分类方法:根据发现知识的种 类分类;根据挖掘的数据库的种类分类;根据采用的技术分类。 根据发现知识的种类分类:这种分类方法有总结( s u m m a r i z a t i o n ) 规则挖掘、特征( c h a r a c t e r i z a t i o n ) 规则挖掘、关联( a s s o c i a t i o n ) 规则挖掘、分类( c l a s s i f i c a t i o n ) 规则挖掘、聚类( c l u s t e r i n g ) 规 则挖掘、趋势( t r e n d ) 分析、偏差( d e v i a t i o n ) 分析、模式分析 ( p a t t e r na n a l y s i s ) 等。如果以挖掘知识的抽象层次划分,又有原 始层次( p r i m i t i v el e v e l ) 的数据挖掘、高层次( h i g hl e v e l ) 的数 据挖掘和多层次( m u l t i p l e l e v e l ) 的数据挖掘等。 根据挖掘的数据库分类:数据挖掘基于的数据库类型有:关系型 ( r e l a t i o n a l ) 、事务型( t r a n s a c t i o n a l ) 、面向对象型( o b j e c t e d o r i e m e d ) 、主动型( a c t i v e ) 、空间型( s p a t i a l ) 、时间型( t e m p o r a l ) 、 文本型( t e x t u a l ) 、多媒体型( m u l t im e d i a ) 、异质( h e t e r o g e n e o u s ) 数据库和遗留( l e g a c y ) 系统等。 根据采用的技术分类,最常用的数据挖掘技术是: ( 1 )人工神经网络:它从结构上模仿生物神经网络,是一种通 过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘 等多种数据挖掘任务: 浙江大学硕士学位论文( 2 0 0 13 ) ( 2 )决策树:用树形结构来表示决策集合,这些决策集合通过 对数据集的分类产生规则; ( 3 ) 遗传算法:是一种新的优化技术,基于生物进化的概念设 计了一系列的过程来达到优化的目的。这些过程基因组合、交叉、 变异和自然选择,为了应用遗传算法,需要把数据挖掘任务表达为 一种搜索问题而发挥遗传算法的优化搜索能力; ( 4 )最近邻技术:这种技术通过k 个最近与之相近的历史记录 的组合来辨别新的记录。有时也称这种技术为k 近邻方法,这种 技术可以用作聚类、偏差分析等挖掘任务; ( 5 )规则归纳:通过统计方法归纳、提取有价值的i f - t h e n 规则, 规则归纳的技术在数据挖掘中被广泛使用,例如关联规则的挖掘; ( 6 ) 可视化:采用直观的图形方式将信息模式、数据的关联或 趋势呈现给决策者,决策者可以通过可视化技术交互式地分析数据 关系。 ( 4 ) 数据挖掘研究和应用的挑战性 数据挖掘技术的研究还很不成熟,其应用还有较大的局限性,正是这些局 限性,促使数据挖掘研究进一步发展。 挖掘的对象:更大型的数据库、更高的维数和属性之间更复杂的关系。 数据挖掘要处理的数据通常是十分巨大的,成百上千的表,上百万条 记录,数据库容量达到若干g b 字节,甚至t b 字节。更多的属性意味 着高维的搜索空间,从而导致组合爆炸,属性值之间的关系变得更加 复杂,比如表现为层次结构。这些因素使得搜索知识代价极高。目前 的研究发展到用并行处理或抽样的方法处理大规模数据,获得了较高 的计算效率。根据问题的定义或相关知识可以选择出需要的属性从而 降低维数,而处理属性之间的复杂关系,往往需要一些背景知识,比 如不同层次的概念所构成的概念树。 多种形式的输入数据:目前数据挖掘工具能处理的数据形式有限,一 般可以处理数值型的结构化数据,但大多不能对文本、图形、数学公 式、图像或w w w 资源等这些半结构、无结构的数据进行挖掘操作, 浙江大学硕士学位论文( 2 0 0 13 ) 另外的挑战是数据本身存在缺损或噪声,特别是在商业数据库中。 用户参与和领域知识:有效的决策过程往往需要多次交互和多次反复。 目前的数据挖掘系统或工具很少能真正做到让用户参与到挖掘过程 中,用户的背景知识和指导作用可以加快挖掘的进程,并且保证发现 的知识的有效性,将有关领域的知识融入数据挖掘系统中是一个重要 但没有很好解决的问题。 证实技术的局限:数据挖掘使用特定的分析方法或逻辑形式发现知识, 比如归纳或演绎,但是系统可能没有能力去交互证实发现的知识,使 得发现的知识没有普适性而不能成淡有用的知识。另一种情况是待挖 掘的数据本身就可能是存在错误的,数据挖掘技术必须具有足够的鲁 棒性,能够确定结论具有何种程度的有效性,同样,还应该可以解释 为什么存在与那些普适规则不一致的例外情况。 知识的表达和解释机制:许多应用中重要的是用户能够理解发现的知 识,这要求知识的表达不仅限于数字或符合,而是更容易理解的方式, 如图形、自然语言和可视化技术等。数据挖掘系统指出它发现了新的 知识,并且能以关系、规则和概念等形式把知识表达出来,但是用户 不知道这种发现的基本原理,只有当数据挖掘系统能提供更好的解释 机制,用户才能更有效地评价这些知识。并且区分出哪些是真正有用 的知识,哪些只是常识性的知识或异常情况。 知识的维护和更新:新的数据积累可能以前发现的知识失效,这些知 识需要动态维护和及时更新目前研究采用增量更新的方法来维护已 有的知识。比如d w c h e u n g 等提出了维护关联规则的增量算法。 支持的局限、与其它系统的集成:目前的数据挖掘系统尚不能支持多 种平台,些产品是基于p c ,一些是面向大型主机系统的,还有些 是面向客户机朋艮务器环境。有的系统对于数据库中包含的领域或记录 是有限制有,例如要求数据文件为特定的大小,或者转化为特定的数 据库管理系统( d b m s ) 识别的格式。但是,数据重定义的费用可能是 十分昂贵的。另外的挑战是数据挖掘系统和其它决策系统的有机集成, 特别是和些用户已经熟悉的系统结合在一超,这对于系统充分发挥 1 l3 浙江大学硕士学撇( 2 0 0 13 ) 作用是非常重要的。 1 3 电视台信息系统的现状与新的应用需求 浙江电视台是国内知名的省级大电视台,在同级台中其行业规模、播出节 目的数量质量时间、播出手段、经济效益及在公众中的影响等各方面,均具有 相当大的影响力。特别是今年以来,进行机构改革,将原先的钱江电视台、教 育电视台、有线电视台的三个频道和原来的浙江电视台合并在一起,成为新的 浙江电视台所属的各个频道,规模扩大,节目制作量也成倍地增加。作为广电 行业的核心单位,充分利用计算机多媒体和网络通讯技术,结合电视台业务, 推动电视台数字化技术和网络化技术的应用,已成为一种必然的趋势。 浙江电视台管理信息系统是电视台的智能化系统的重要组成部分,它直接 关系到浙江电视台的信息采集和综合、信息分析和处理、信息交换和共享以及 信息的操作和管理的能力,它将最终决定浙江电视台高效、便利、安全、灵活 的办公环境。浙江电视台管理信息处理系统的建立,适应时代发展趋势,响应 电视事业对信息化日益迫切的要求。 近几年来,浙江电视台投入大量人力和物力,完成了多个管理系统的开发 工作如: 广告业务管理系统 陔系统实现了浙江电视台广告业务的合同、广告节目编排、广告收入 的管理,对于各时段广告的收入情况有分类统计,并建立了广告客户 档案。 节目生产管理系统 该系统实现了浙江电视台的节目管理,由于浙江电视台实现节目收购 制,一个节目从申报到审批直至节目制作、评级、收购的一系列工作, 都可以通过信息系统完成, 收视率管理系统 该系统实现了收视率调查统计管理,建立了部份观众档案,有相应的 客户调查机构资料。 音像资料管理系统 1 4 浙江大学硕士学位论文( 2 0 0 1 3 ) 该系统实现对电视台所拥有的音像资料有效管理,建立了音像资料库, 并提供完善的查询、管理功能,并与节目生产管理系统紧密集成,使 电视台的节目进行全方位的跟踪管理。 设备物资管理 该系统实现对电视台所拥有的设备、物资有效的管理,提供了设备申 请、设备购买、入库、设备使用、设备维护及物资购买、物资使用等 一系列管理功能。 现代办公系统 新闻业务系统 因特网站管理系统 财务管理系统 政工业务管理系统 事业保障管理系统 企业公司管理系统 楼字资讯管理系统 其中广告业务管理系统、节目生产管理系统、音像资料管理系统、现代办 公系统、政工业务管理系统、事业保障管理系统多个系统都是由我们负责设计 开发的。 随着以上一些应用系统的开发完成,数据处理的手段迅速改进,人们获取 数据的能力大大提高。但同时又面临了一些的问题: 数据分散在各个子系统中,数据格式各式各样。例如:有l o t u s d o m i n o 下的文档数据库,广告管理系统中的s q ls e r v e r 数据库,节目、新闻 业务、音像资料管理系统中的d b 2 数据库,财务管理系统中的d b f 数 据等。如何对这些数据进行一致、高效地访问是一个重大课题。 由于各个系统建立之初的需求主要来自减轻劳动强度和提高工作效率 方面,而不是从经营管理的角度。因此信息资源杂乱无序,时效性差, 共享困难。各系统之间数据的一致性难以保证。不能为全局的管理信 息系统提供有效的基础数据。 系统建设牵涉面广,技术条件复杂,集成化程度高,是一个综合性的 + 1 5 浙江大学硕士学位论 2 0 0 13 】 应用系统。 由于还存在这些缺陷。目前,各个系统之间存在着很多问题。譬如:各系 统之间的数据冗余大。有些数据在各系统之间重复保存;数据一致性很难保证, 导致现在上层管理人员不可能直接从现存信息系统中得到一致、可用的报告。 由各系统上报的数据不致,有时甚至是相互矛盾。因此各系统的作用没有完 全发挥。使管理层陷入个数据的海洋,对于决策者来说,具体的系统应用并 不重要,他们需要得到一些全面统计和帮助他们进行决策的数据。 浙江电视台信息化建设的下一工作是希望能充分利用现有的信息和数据, 开发出一套全局性的领导决策系统。数据仓库这个近年来迅速发展起来的存储 管理技术的设计思想是要建立一种体系化的数据存储环境。将分析决策所需要 的大量数据从传统的操作型环境中分离出来,是分散的、难于访问的操作数据 转换成集中统一、随时可用的信息。数据仓库技术是计算机应用发展的必然产 物,是对管理系统开发和应用的大量经验的总结。 我们知道目前决策支持系统多应用于金融业、保险业、商品生产销售企业、 科学研究。对于电视台来说,它的本质与商品生产企业类似,也有制造者、产 品及客户,只不过它的产品是电视节目,制造者是节目制作人员,而客户有两 部分,一部分是产品的使用者即广大的电视观众,另一部分是购买广告时间的 广告客户,而这两部分客户之间有各种各样的联系。作为电视台的领导,他们 最关心一是怎样生产更好的节目,能控制节目的制作过程,控制节目的制作费 用,特别是目前浙江电视实行节目收购制,即不论节目是否是本台制作的都 要根据节目具体情况按不同的价格购买。同时要吸引更多的观众,也必然会吸 引更多的广告客户,创造更好的经济效益。 浙江电视台决策支持系统的实现主要有三大任务: 数据仓库的构建 o l a p 应用设计及维数据建模 对节目信息的数据挖掘,即决策工具的开发 建数据仓库的最主要目的就是为了能够开发出有效实用的决策支持工具, 为决策者提供高度自动、智能的决策服务。而构建一个良好的数据仓库则是进 行更好决策的基础。 1 6 浙江大学硕士学位论文( 2 0 0 13 ) 我们将采用c l d s 开发方法,根据数据仓库的三级设计模型实现节目信息 数据仓库的构建。在挖掘节目信息方面,我们主要进行关联规则的挖掘及节目 经费及广告收入预测工作。关联规则的挖掘采用改进a p r i o r i 算法实现,而预 测工作则通过建立各种预测模型来实现。 浙江电视台决策支持系统主要包括以下功能: 从广告业务管理系统、节目生产管理系统、收视率管理系统、音像资 料管理系统等已有的操作型数据库中一次性抽取并整合、净化数据; 定期从已有的操作型数据中抽取更新的数据,并更新到数据仓库中; 实现对节目制作费用的多维分析,包括在制作时间、制作部门、节目 类别、播出时间等维上的费用分析; 实现对广告收入的多维分析,包括在时间、广告公司、广告客户、行 业等维上的收入分析; 实现对节目信息关联规则的挖掘,主要包括观众愿意收看的节目的关 联规则 实现节目费用及广告收入预测功能,即根据历史数据预测今后节目费 用及广告收入情况。 1 4 本文研究内容与目标 本文目标是在对数据仓库的设计、构建技术和数据挖掘技术进行研究的基 础上,结合科研项目,根据浙江电视台的需求和应用特点,给出了电视台信息 数据仓库模型和数据挖掘模型,并在此模型上设计了浙江电视台信息管理系统 的领导决策系统,并实现了其中的部分功能。 本文主要包括如下几大部分: 1 对数据仓库的技术及其体系结构、构建模型进行了研究和对其今后的 技术进行了展望; 2 讨论了o l a p 技术,包括o l a p 和o l t p 关系、o l a p 实施方法及多 维o l a p 和关系o l a p ; 3 详细介绍了数据挖掘的技术,包括对关联规则的介绍,a p r i o r i 算法介 绍,及数据挖掘的分析方法,其中介绍了多元线性回归及参数最d - - 一 , 1 7 乘估计、时间序列,并在此基础上提出了混合回归模型: 4 对浙江电视台信息系统的数据仓库进行了设计和构建研究: 5 提出并建立了浙江电视台信息系统o l a p 数据模型; 6 对浙江电视台信息系统的数据挖掘模型进行了研究,探讨了带有空间 性约束的关联规则,并提出了扩展了的a p r i o r i 算法,利用混合回归模 型和其它一些简单预测模型建立广告收入和节目制作费用预测模型。 蠹i i :。: , 。l 袅交鬣l 激* 氇& 。 1 8 浙江大学硕士学位论文( 2 0 0 13 1 第二章数据仓库的理论基础 2 1 设计数据仓库 数据仓库是一个面向数据分析型处理的数据环境,数据仓库的数据具有四 个基本特征:面向主题的、集成的、不可更新的、随时间不断变化的。这些特 点说明了数据仓库从数据组织到面向的数据处理都跟传统的数据库系统有较大 的区别。因此在进行数据仓库设计时,不能够照搬原来传统的数据库系统的设 计方法。数据仓库系统设计与数据库系统设计的不同主要表现在以下几个方面: 面向的处理类型不同 操作型数据库系统设计时建立一个操作型的数据环境,其设计方式是面向 应用的:一般是从某一或某些具体应用出发来进行数据库设计,然后在数据库 上建立这些应用。数据仓库的系统设计则是面向分析的,它的方法往往是从最 基本的主题开始,不断的发展新的主题,完善已有的主题,最终建立起一个面 向主题的分析型数据环境。 面向的需求不同 面向应用的数据库系统设计有一组较确定的应用需求,这是进行数据库系 统设计和开发的出发点和基础。而在数据仓库环境下,并不存在操作型环境中 的固定的且较确切的数据处理流和信息流,数据的分析处理的需求更灵活,没 有固定的模式,甚至用户自己也对所进行的分析处理不甚明了,因而在进行数 据仓库系统设计时,很难获得对用户需求的确切了解。所以,不可能完全从用 户的需求出发来进行数据仓库的设计。 系统设计的目标不同 设计o l t p 数据库时,事务处理性能( 主要表现为事务处理的响应时间) 是系统设计的一个主要目标;而数据仓库系统设计时,更应该关心的时建立起 一个全局一致的数据环境以作为企业决策支持系统的基础。因而数据仓库设计 的一个主要目标是:保证数据的四个基本特征,保证数据的全局一致性,以实 现对企业数据的全局管理和控制。 浙江大学硕士学位论文( 2 0 0 13 ) 数据来源不同 操作型环境的数据通常来自于组织外部,设计操作型数据库就是设计如何 通过与外部交互得到数据、如何将获得的数据用适当的方式进行存储、如何对 数据进行联机的查询更新操作,以及如何保证数据的安全可靠与正确有效等。 而数据仓库的数据主要来自于业已存在的系统内部,设计数据仓库就是设计如 何从现存的数据源中得到完整一致的数据,如何将所得数据进行转换、重组、 综合,如何有效的提高数据分析的效率与准确性。 数据仓库系统和操作型系统在设计上的不同点决定了它们在系统设计的方 法和步骤上也是截然不同的。数据库系统设计一般采取系统生命周期法( s y s t e m s d e v e l o p m e n t l i f ec y c l e ,s d l c ) 。但在分析环境中,d s s 分析员一般是企业的中 上层管理人员,它们对决策分析的需求不能预先作出规范说明,只能给设计人 员一个抽象的模糊的描述。通过设计人员与用户的不断交流,从而将系统需求 逐步明确和完善。因此,将这种数据仓库的设计方法称为c l d s 方法( 与s d l c 相反) 。下图是c l d s 方法与s d l c 方法的比较: s d l c 方法 外部数据 c l d s 方法 数据库系统设计的s d l c 方法有独立的收集需求和分析需求的阶段,而数 浙江大学硕士学位论文( 2 0 0 1 3 ) 据仓库系统设计采用的c l d s 方法则没有这样独立的阶段,而是将对需求分析 的过程贯穿在整个设计的过程中。这是因为o l t p 的需求是比较固定的,有一 定的操作规程,所以在一个系统生命周期内,系统的需求在设计的前期阶段即 收集需求和分析需求阶段结束后就应该确定下来,一旦进入s d l c 的构建数据 库阶段,系统的需求就基本不变了。而c l d s 方法则要求在整个系统的建设过 程中完成对系统需求( 数据分析需求) 的收集分析和理解。 2 2 数据仓库的数据组织结构 一个典型的数据仓库的数据组织结构如图所示: -高度综合 级 i -轻度综合 级 当紫节 早猡节 在数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入前细节级,并根据具体需要进行进 一步的综合从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节 级。数据仓库中存在着不同的综合级别,一般称之为粒度。粒度越大,表示细 节程度越低,综合程度越高。级别的划分是根据粒度进行的。 数据仓库中另一重要数据是元数据( m 吐ad a t a ) 。元数据是“关于数据的 或拣藏溅瀑擎冀。 2 l 浙江大学硕士学位论文( 2 0 0 j3 ) 数据”,在传统的数据库中的数据字典就是一种元数据。在数据仓库环境中,主 要由两种元数据: 为了从操作型环境向数据仓库环境转换而建立的元数据。它包含了所有 源数据项名、属性及其在数据仓库中的转换。 用来与终端用户的多维商业模型前端工具之间建立映像,这种元数据 被称为d s s 元数据,常常被用来开发更先进的决策支持工具。 2 4 数据仓库的三级数据模型 数据模型是对现实世界进行抽象的工具。操作型环境和分析型环境的数据 模型均由整体数据模型发展而来。整体数据模型仅含有原始数据。从整体数据 模型到操作型数据模型的变化是很少的。两种数据模型基本等价,只是在操作 型数据模型中增加了一些性能因素,以提高系统的性能。而数据仓库的数据模 型的变化却很大:首先删除了那些纯操作型的数据;其次,扩充了码结构,增 加了时间属性;并增加了一些导出数据。虽然存在着这样的差别,在数据仓库 设计中,仍然存在着三级数据模型,即:概念模型、逻辑模型和物理模型。 概念模型 概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计系统、 收集信息而服务的一个概念性的工具。对计算机系统来说,概念模型是客观世 界到机器世界的一个中间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论