




已阅读5页,还剩85页未读, 继续免费阅读
(计算机软件与理论专业论文)点击流数据仓库在智能导学系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 智能导学系统( i n t e lli g e n tt u t o r i n gs y s t e m ,i t s ) 是现代远程教育向智能化 发展的新阶段,属于教育技术学中重要的研究领域;是一种借助人工智能技术,让计算 机扮演教师的角色实施个别化教学,向不同需求、不同特征的学习者传授知识、提供指 导的适应性教学系统。近年来,随着网络技术的发展,基于i n t e r n e t 的i t s 成了计算 机在教育应用方面的研究热点。但i t s 毕竟是一个涉及多学科的复杂知识系统,所以在 i t s 的研究、发展过程中未能解决的问题堆积如山,迫切需要解决与完善。 近年来,决策处理提出了不同于以往的事务处理需求,传统的数据库技术数据分析 的效率低,难于将数据转化为信息,难以满足新的需求,这就导致了数据仓库( d a t a w a r e h o u s e ,d w ) 技术的出现。数据仓库系统,作为决策支持系统( d e c i s i o n m a k i n g s u p p o r ts y s t e m ,d s s ) 的辅助工具,是人们长期对数据库技术进行研究和开发的结果。 数据仓库技术使数据库技术进入了一个更高级的阶段。点击流数据仓库( c l i c k s t r e a m d a t aw a r e h o u s e ,c d w ) ,它把传统企业用于决策的支持体系应用到互联网这个高速发展 的平台,结合了w e b 和数据仓库两大热门技术的长处。其优势源于点击流数据是一种真 正改进了的数据资源集一点击流数据记录了每个访问者的h t t p 事务的执行记录。 鉴于此,本文提出了一种基于点击流数据仓库的i t s 构建方案。应用点击流数据仓 库技术,实现对学习者学习行为的跟踪机制;为使用数据挖掘、w e b 挖掘等技术来分析 学习者的个性和共性规则提供强有力的数据支持。进而,系统能够根据学习者的特征和 学习水平,提供有效的导学机制,为学习者营造出与众不同的个性化学习环境,形成一 种基于现代计算机网络的远程导学途径。 本文重点在于使用i t s 中已有的学习者信息库,教育资源信息库及w e b 点击流数据, 设计和实现出基于i t s 的点击流数据仓库多维模型,建立针对w e b 点击信息的各种维度 表和事实表;同时,改进i t s 结构;另一方面,数据仓库中存放的数据质量是数据仓库 项目的生命线所在,因此数据抽取、转换、装载( e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d , e t l ) 则是主要的一个技术。因此,在构建点击流数据仓库的过程中,也对数据e t l 技术 进行了详细设计和实现。 关键词:智能导学系统;数据仓库;点击流数据仓库; e t l a b s t r a c t i n t e l l i g e n tt u t o r i n gs y s t e m ( i t s ) i san e ws t a g ei nt h ed e v e l o p m e n to fm o d e md i s t a n c e e d u c a t i o nt ot h ei n t e l l i g e n t ,w h i c hi sa l li m p o r t a n ta r e ao fr e s e a r c hi ne d u c a t i o n a lt e c h n o l o g y b ym e 锄_ so fa r t i f i c i a li n t e l l i g e n c et e c h n o l o g y , i t si sa l l o w i n gt h ec o m p u t e rt op l a yt h er o l eo f t e a c h e r si nt h ei m p l e m e n t a t i o no fi n d i v i d u a l i z e dt e a c h i n gt od i f f e r e n tn e e d s ,d i f f e r e n t c h a r a c t e r i s t i c so fl e a r n e r st oi m p a r tk n o w l e d g e ,p r o v i d eg u i d a n c eo nt h et e a c h i n gp r o c e s s , h o w e v e lt h ee x i s t i n gi t ss y s t e m sh a v ei t su n d e n i a b l ed e f e c t sa n ds h o r t c o m i n g s ,w h i c ha r e u r g e n tn e e dt oi m p r o v e o nt h eo t h e rh a n d ,鹊t h er e s u l to ft h ed e c i s i o n - m a k i n gi sd i f f e r e n tf r o mt h ep a s tw h e n d e a l i n g 埘t l lt h en e e d so ft r a n s a c t i o np r o c e s s i n g ,t h ee f f i c i e n c yo fd a t aa n a l y s i so ft h e t r a d i t i o n a ld a t a b a s et e c h n o l o g yi sl o w e r t h et r a d i t i o n a ld a t a b a s et e c h n o l o g yw a sd i f f i c u l tt o c o n v e r td a t ai n t oi n f o r m a t i o na n dd i f f i c u l tt om e e tt h e s en e wd e m a n d s ,w h i c hl e dt ot h e e m e r g e n c eo ft h ed a t aw a r e h o u s et e c h n o l o g y t h ed a t aw a r e h o u s es y s t e m ,b yu s i n ga sa s u p p l e m e n t a r yt o o lt od e c i s i o n m a k i n gs u p p o r ts y s t e m ( d s s ) ,i st h er e s u l to fal o n g t e r m r e s e a r c ha n dd e v e l o p m e n to ft h ed a t a b a s et e c h n o l o g y c l i c k - s t r e a md a t aw a r e h o u s ec o u l db e s a i dt ob et h em o s te x c i t i n gn e w d e v e l o p m e n to ft h ed a t a b a s et e c h n o l o g y ,w h i c hc o m b i n i n g t h es t r e n g t h so ft h et w op o p u l a rt e c h n o l o g i e s - w e ba n dd a t aw a r e h o u s et e c h n o l o g y a sw e v es e e n ,an e w d e s i g ni d e ai nt h ei t sh a sb e e np r o v e dt h a ti sac l i c k s t r e a md a t a w a r e h o u s eb a s e di t sd e s i g ni d e a b yu s i n gt h ec l i c k - s t r e a md a t aw a r e h o u s et e c h n o l o g y , t h es y s t e mc o u l dr e a l i z et h e t h es o l u t i o no ft r a c i n gt h el e a r n e r s s t u d y i n gb e h a v i o ra n d p r o v i d i n gas t r o n gd a t as u p p o r t i n gi nu s i n gt h et e c h n i q u e so fd a t am i n i n g ,w e bm i n i n gt o a n a l y z e t h e l e a r n e r s p e r s o n a l i t y a n dc o m m o nr u l e s f u r t h e r m o r e , i t p r o p o s e d a d e c i s i o n - m a k i n gl e a r n i n gs c h e m eb yt h ei n t e l l i g e n ta n a l y s i sm e t h o d ;a l s oi tp r o v i d e sh e l p i n g f o rt h es t u d e n t si ni n d i v i d u a l s e l f - s t u d y i n g ,a n df o r m e dam o d e mc o m p u t e r - b a s e d d i s t a n c e l e a r n i n gc h a n n e l b yu t i l i z i n gt h ee x i s t i n gl e a r n e ri n f o r m a t i o nd a t a b a s e ,e d u c a t i o nr e s o u r c ei n f o r m a t i o n d a t a b a s ea n dc l i c ks t r e a md a t ai nt h es y s t e m ,i tc o n s t r u c t e das y s t e me v a l u a t i o ns t a n d a r d b a s e dd a t aw a r e h o u s ef a c tt a b l ea n dd i m e n s i o nt a b l e ;a l s o ,t h i ss o l u t i o ni m p r o v e st h ei t s s t r u c t u r e t h eq u a l i t yo ft h ed a t as t o r e di nt h ed a t aw a r e h o u s ei st h el i f e b l o o do ft l l ed a t a w a r e h o u s ep r o j e c t ,a n di tr e l a t e st ot h eq u a l i t yo fo l a pa n dd a t am i n i n g e t l ( e x t r a c t i o n , t r a n s f o r m a t i o n ,l o a d ) i sak e yt e c h n i c a lt os o l v et h i sp r o b l e m w i t ht h i su n d e r s t a n d i n g ,b a s e d o nt h ed a t aw a r e h o u s ef a c tt a b l ea n dd i m e n s i o nt a b l e ,i td e s i g n e da n di m p l e m e n t e dt h ee t l a l g o r i t h m k e yw o r d s :i n t e l l i g e n tt u t o r i n gs y s t e m ,d a t a b a s ew a r e h o u s e ,c l i c k - s t r e a md a t a w a r e h o u s e e t l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取 得的成果。掘我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文 中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 嗍号少 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编本学位 论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 痧日期: 电话: 邮编: 东北师范大学硕士学位论文 第一章引言 1 1本文研究背景及意义 智能导学系统( i n t e l l i g e n tt u t o r i n gs y s t e m ,i t s ) 是现代远程教育向智能化 发展的新阶段,属于教育技术学中重要的研究领域;是一种借助人工智能技术,让计算 机扮演教师的角色实施个别化教学,向不同需求、不同特征的学习者传授知识、提供指 导的适应性教学系统。i t s 不仅仅是一种授课器或问题产生器,而是象人类教师那样, 具有归纳能力的教学系统。这种系统应提供一种个性化的教学环境,根据不同学生各自 的特点,及其任务的完成情况,采用不同的教学策略。 传统的i t s 多数是单机或单独运行的,而不是基于网络的。系统费用昂贵,维护代价 高,难以大范围推广应用。近年来,随着多媒体、超媒体以及网络技术的发展,提供网 络学习环境,进行远程的网络教学成了计算机在教育应用方面的研究热点,出现了基于 i n t e r n e t 的智能教学系统乜1 。这样的教学系统与单机i t s 有很大的不同:学生的学习是在 智能学习环境中,通过与智能教学环境的交互,与同伴的协作、会话来建构实现的:学 生的学习是自主的、积极的,学生是意义建构的主体,是学习的主人。 i t s 是一项涉及人工智能、计算机科学、认知科学、教育学、心理学和行为科学的 综合性课题。所以在i t s 的研究、发展过程中未能解决的问题堆积如山。现有的智能导 学系统都在一定程度上存在缺陷与不足,迫切需要改进与完善: ( 1 ) 智能性较差口1 。对不同基础不同要求的学生和不同课程采用相同的教学策略,不 能根据学生的认知水平和自主学习情况自动调整教学策略。 ( 2 ) 传统的学生模型被视为固定n 3 。传统的学生模型通常将学生模型的属性视为固定 不变的,因此在一次测定学生状态信息后很难在对其改动,不具有用户动态增删学生模 型的属性,影响系统的性能。大体做法是:在用户信息采集中心,系统对首次登陆的学 生用户注册信息进行采集,同时为了更精确地了解用户个性特征,系统还要求学习者 完成一份个性特征的调查测验。此后,数据基本不改变。因此,也就缺乏对教学对象( 学 习者) 的有效分析。建立的学生模型不够科学准确,忽视学生现有的知识水平、认知能 力与情感等因素对学习的影响,不能k l z 畏好地达到因材施教的目的。缺乏对学生自主学习 过程、学习进度、学习效果的有效监控和合理评价。 ( 3 ) 资源浪彭引。站点上积累了大量有用的教学信息,如用户的注册信息、学习进度、 访问开志、考试信息与交流信息等等,都没有被很好地利用起来,造成了极大的资源浪 费。 ( 4 ) 缺少有效的测试,资源评价系统。练习、作业和测试系统中的题目多是事先放 在w e b 页面上固定不变的,不能根据不同能力学习者的要求和学习情况自动选题组卷、 东北师范大学硕士学位论文 变化题目,精确地对每一个学习者进行测试和评价。 同时,由于决策处理提出了不同于以往的事务处理的需求,传统的数据库技术数据 分析的效率很低,难于将数据转化为信息,难以满足这些新的需求,这就导致了数据仓 库( d a t aw a r e h o u s e ,d w ) 技术的出现,数据仓库系统,作为决策支持系统 ( d e c i s i o n m a k i n gs u p p o r ts y s t e m ,d s s ) 的辅助工具,是人们长期对数据库技术进 行研究和开发的结果。数据仓库技术使数据库技术进入了一个更高级的阶段瞄1 。然而, 数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础 上,用于支持高层决策分析,并且数据仓库往往使用数据库管理系统来管理数据仓库中 的数据。 点击流数据仓库可以说是数据仓库方面最令人激动的新发展,它把传统企业用于决 策的支持体系应用到互联网这个高速发展的平台,结合了w e b 和数据仓库两大热门技术 的长处1 。点击流数据仓库的建立完全遵从传统数据仓库建立的原则,其优势源于点击 流数据是一种真正改进了的数据资源集。点击流数据包含了这个w e b 站点的每个访问者 的h t t p 事务的执行记录。记录了用户对网站的访问及w e b 服务过程中所发生的各种情 况。每当用户访问w e b 站点时,所访问的页面、时间、用户i d 等信息,在日志中都有 相应的记录。分析w e b 日志,对发现用户浏览站点的共同行为,及至站点的智能化设计 具有重大意义。 鉴于此,本文提出一种基于点击流数据仓库的i t s 设计思想。应用点击流数据仓库 技术,建立针对w e b 点击信息的各种维度,使用数据e t l 技术把点击流数据信息以及学 习者信息,教育资源信息等相关数据信息进行加工处理,记录每一位学习者的学习行为, 实现对学习者学习行为的跟踪机制;进而系统能够根据学习者的特征和学习水平,提供 有效的导学机制,因“才 施教,为学习者营造出与众不同的个性化学习环境。 同时,点击流数据仓库中的数据为w e b 挖掘以及o l a p 的实现提供可靠的数据支持。 数据仓库具有从各种数据源中抽取数据,并对数据进行清洗、聚集和转各种处理的能力, 这又好为数据挖掘提供了良好的进行前期数据准备工作的环境。数据仓库和数据挖掘的 结合已成为必然趋势。在i t s 中对点击流数据仓库中的数据进行w e b 日志挖掘,可以获 取学习者个性化特征数据,完善学生模型,点击流是建立学生模型实施个性化教学必不 可少的数据源。w e b 日志挖掘还可以使用关联规则可以发现学习者对知识点页面之间 的访问关系,因此,教学策略模块可以根据这种访问关系,对教学知识点页面的组织结 构关系进行调整,实现动态地组织教学页面,方便学生访问,从而提高学生的访问效率; w e b 日志挖掘还可以使用序列模式预测学习者未来的访问模式,从而实现教学页面的预 取,可以实现预先存储的功能和解决下载缓慢的问题,并且及时给学生推荐这些教学页 面和内容,提高学生的积极性等等h 1 。同时,对点击流数据仓库中的数据分析还可以实 现对i t s 中资源的评测。 点击流数据仓库中存放的数据质量是数据仓库项目的生命线所在,也关系到数据分 析、数据挖掘的质量。解决这一问题,数据抽取、转换、装载( e x t r a c t i o n , t r a n s f o r m a t i o n ,l o a d ,e t l ) 则是主要的一个技术。因此,在构建点击流数据仓库的过 2 东北师范大学硕士学位论文 程中,深入研究点击流数据仓库多维模型的同时,也对数据e t l 技术进行了详细设计和 实现。目的是为了提高数据集成的质量,丰富数据挖掘及数据分析,从而提供准确决策。 1 2 国内外研究现状及发展趋势 1 2 1i t s 国内外研究现状及发展趋势 智能教学系统从提出至今已经经过几个发展阶段,从1 9 7 0 年- 1 9 8 2 年,在理论研究、 模型设计和系统开发等方面都奠定了一定基础。1 9 8 2 年一1 9 8 7 年,进一步证实了有关理 论,系统在图形功能和人机交互方面有较大改进。1 9 8 8 年以后,多媒体i t s 发展很快, 同时认知理论、认知学生模型和学习过程的研究取得了一定的进展。1 9 9 0 年以来,随着 计算机网络的同趋普及和广泛运用,国际上对于i t s 的研究越来越偏向基于网络的智能 教学系统( w e b - b a s e di t s ) 的研究。分布式、协同式、合作式等网络远程i t s 在国内 外i t s 的研究中逐步成为主导。其它如远程感知技术( r e m o t es e n s i n ga n di m a g e i n t e r p r e t a t i o n ) 、自动情感识别技术( a u t o m a t e de m o t i o nd e t e c t i o n ) 等先进的智能 用户接口技术也已经成为i t s 的重要研究应用内容口朝。 国外对i t s 的研究已有3 0 多年的历史,相对比较成熟。许多国家和地区如美国、 英国、加拿大、欧洲和同本都十分重视i t s 的研究、开发与应用,先后投入大量的人力 和财力,也建立了一大批与i t s 研究相关的研究机构和学术刊物,为i t s 的研究与发 展起到了巨大的推动作用。研究工作主要在大学和军方进行,美国一些知名的大学如 s t a n f o r d 、m i t 、m e m p h i s 、c a r n e g i e - m e l l o n ,j o h n s - h o p k i n s 、c a l i f o r n i a 等都在进行 i t s 研究工作,开发出了一些智能相对较高的应用i t s 软件。建立了内容丰富的智能化 教育网站。美国国家科学基金会( n s f ) 资助总数达0 2 2 5 亿美元基金,以进行人类学习 和创造的学习和智能系统( l e a r n i n ga n di n t e l l i g e n c e ) 的研究。在m e m p h i s 大学开发 研究了1 5 年的t u t o r 系统,通过a i 、认知科学和复杂系统的研究,能够进行不同学科 的教学。系统能够对学生的问题适当反应,由计算机进行提示和暗示。t u t o r 不通过多 项选择就能够根据对问题的键入和口头反应进行决策,对可能产生的语法或语义不正确 的语言进行解释等哺1 。 与发达国家相比,中国在i t s 领域的研究起步较晚,在理论研究方面仍以引用国外 成果为主。研究工作主要集中在少数大学和研究机构进行。其成果多为一些“展示性 的系统,真正投入教学实践的系统不多。随着对基于网络学习认知过程研究的逐步深入, 以及现代信息技术的发展与借鉴,i t s 系统的研究与应用已受到人们的逐步关注。一些 教育软件公司也投入到相关的智能化教育软件的开发中来。i t s 研究与应用的成果主要 涉及基于w e b 的i t s 适应性学习系统、计算机增强学习的试验研究、基于学习者中心的系 统设计研究,以及自适应的评测等方面。比较典型的有中科院院士张景中先生与广州大 学软件所联合研制开发的z + z 智能教育平台,它是一个面向中学数学学科的知识平台。 该平台以人工智能、知识工程等技术为基础,具有强大的自动推理和自动解题功能,支 持知识查询与计算机辅助解题等。此外比较著名的i t s 还有清华大学的“计算机线性 3 东北师范大学硕士学位论文 代数教学软件 、广东工业大学的计算机网络课程教学系统等口3 。 今后i t s 的研究将更加关注学生学习环境的构建,学习过程的设计,复杂的动态学 生模型的建立,对学生学习日志的挖掘,社会和情感智能在i t s 中的应用以及利用智能 代理、适应性超媒体、贝叶斯推理等技术构建基于w e b 的更加智能化的协作学习系统、 智能答疑系统等呻1 。旨在进一步提高系统的智能性和实用性,更好地发挥i t s 系统的“优 秀教师 这一特性。 但i t s 毕竟是一个涉及i t s 是一项涉及人工智能、计算机科学、认知科学、教育学、 心理学和行为科学的综合性课题,我们对它的定义又是如此的高,所以在i t s 的研究、 发展过程中未能解决的问题堆积如山。比如:在认知心理学方面,由于对学生的认知过 程还不太清楚,因此不能建立完善的学生模型;在教育学方面,无法从众多的教学策略 中选出一个最佳的,所以无法建立完善的教师模型;在计算机科学方面,由于i t s 系统 的核心技术是知识库加推理机,因此人工智能在发展道路上的挫折也无不体现在i t s 的 发展进程中。但我们有理由相信,随着计算机科学、认知心理学、教育学的发展,i t s 的研究也将不断向前迈进,开创良好的局面。 1 2 2 点击流数据仓库技术国内外研究现状 近年来,数据仓库技术的兴起给信息社会带来新的契机,逐渐成为i n t e r n e t 之后 的又一技术热点。数据仓库技术作为一种新的分析系统解决方案,得到了广泛重视。以 数据仓库为基础,以联机分析处理和数据挖掘工具为手段的决策支持系统日渐成熟呻1 。 作为一个新兴的研究领域,数据仓库发展得很快,许多大学和公司都在这个领域进 行着广泛深入的研究。由于国外对数据仓库技术研究较早,数据积累充分,技术相对比 较成熟,数据仓库技术得到了飞速的发展。经过几年的发展,其规模已经达到了t b 级, 应用领域遍及电信、银行、零售、航空、铁路、邮政、食品、消费类制造、汽车、医疗、 保险等行业。其中尤以斯坦福大学、i b ma l m a d e n 研究中心、威斯康辛大学、微软和a t & t 的研究最具代表性。许多厂家和公司如s y b a s e ,i n f o r m i x ,i b m 和o r a c l e 等都在这个 领域进行深入研究,相继推出了自己的数据仓库解决方案n 们。据调查,财富5 0 0 强企业 中已经有8 5 的企业建成或正在建立数据仓库。这就使得数据仓库与i n t e r n e t 一样,正 在成为最快的i t 增长点儿堙儿删。 在我国,由于信息化建设起步比较晚,数据积累不够充分,同时,国内这方面技术 不过硬,真j 下能够完整实施数据仓库方案的人才严重缺乏,导致数据仓库市场还不够成 熟。所以,虽然国内有很多大学和研究机构也在从事数据仓库技术的研究,但到目前为 止,国内基本上没有成熟的数据仓库解决方案。 点击流数据仓库作为数据仓库的一个重要类型,可以说是数据仓库方面最令人激动 的新发展,它把传统企业用于决策的支持体系应用到互联网这个高速发展的平台上。它 的建立完全遵从传统数据仓库建立的原则,其优势源于点击流数据是一种真正改进了的 数据资源集。在加上数据仓库系统本身的应用,使点击流数据仓库具有其他同类方式或 工具无法比拟的优势:首先,点击流数据仓库能够更好地组织和管理点击流数据,能绘 4 东北师范大学硕士学位论文 w e b 用户完整的行为视图:其次,点击流数据仓库中的数据通常经过抽取、转换和清洗, 因而在数据仓库上进行点击流数据分析可免去许多数据预处理的工作;再次,点击流数 据仓库中集成了大量的历史数据,而对用户行为分析的大多数问题也与时间有关,因此, 借助点击流数据仓库进行点击流分析更利于理解用户的行为。 现今,由于点击流数据仓库技术体系的不成熟,无论在国内还是国外,点击流数据 仓库的应用都受到了一定的制约。首先,点击流数据仓库技术还没有达到点击流数据仓 库技术的成熟度和易用性,目前市场上的点击流数据仓库产品都是基于一个通用的技术 平台设计的,虽然解决了不同用户的分析需求,但没有将特殊领域的商业逻辑与点击流 数据仓库技术集成,因而分析效果不可能达到峰值。其次,点击流数据仓库的应用有两 大类,一类是做分析型工作的o l a p ,另一类是做预测型工作的数据挖掘。目前基于数据 挖掘的算法层出不穷,还没有经历一个大浪淘沙的沉淀,而数据库中的检索技术经过人 们多年的摸索,己经形成几种固定成熟的技术模式,这是点击流数据仓库没有达到数据 库产品实用性的另一个原因。所以目前点击流数据仓库的发展仍处于积累阶段。同理, 其他的数据仓库类型也面临同样的问题,都有待于进一步研究和发展u 引。 1 3 本文所要解决的问题及内容安排 本文分析和研究了i t s ,以及点击数据仓库技术的发展状况、前景及其基本理论知 识。将点击流数据仓库技术应用到i t s 中,提出了一种基于点击流数据仓库技术的i t s 设计思想。目的是应用点击流数据仓库技术实现i t s 中对学习者学习行为跟踪的机制; 重点在于利用智能导学系统中已有的学习者信息库,教育资源信息库及点击流数据,构 建出基于系统评测标准的数据仓库事实表和维表。另一方面,数据仓库中存放的数据质 量是数据仓库项目的生命线所在,也关系到数据分析、数据挖掘的质量。解决这一问题, e t l 则是主要的一个技术。在数据仓库事实表和维表基础上,设计和实现相应的e t l 算 法也是系统关键所在。 就以上所要解决的问题,本文具体的研究内容安排如下: 第一章:引言。概述本文研究背景及意义,并对智能导学系统和点击流数据仓库的 研究现状及发展趋势、文章所要解决的问题以及内容安排、所产生的现实意义等进行了 阐释。 第二章:点击流数据仓库综述。介绍数据仓库、点击流数据仓库以及其涉及到的关 键技术的相关理论知识,为本课题研究提供理论基础。 第三章:智能导学系统综述。介绍i t s 相关理论知识,为本课题研究提供理论基础。 第四章:l t s 中c d w i n l t s 点击流数据仓库多维模型设计与实现。本章首先介绍了点 击流数据仓库项目的创建流程,并按此流程阐述了项目定义,需求分析以及数据仓库中 的概念模型、逻辑模型、物理模型的设计过程;之后,使用s o ls e r v e r2 0 0 5 数据库管理平台( s q ls e r v e rm a n a g e m e n ts t u d i o ,s s m s ) 实现c d w i n l t s 点击流数据 仓库多维模型。 东北师范大学硕士学位论文 第五章:c d w i n l t s 点击流数据仓库e t l 子系统设计与实现。本章重点阐述了 c d w i n l t s 点击流数据仓库中e t l 子系统的设计过程,以及使用s o ls e r v e r2 0 0 5 集成服 务( s q ls e r v e ri n t e g r a t i o ns e r v i c e s ) 实现e t l 子系统过程。 第六章:总结和展望。对本系统进行总体评价,分析其优劣,说明不足和需要进一 步完善之处,以及对其可能的发展方向进行预测。 6 东北师范大学硕士学位论文 第二章点击流数据仓库综述 点击流数据仓库可以说是数据仓库方面最令人激动的新发展,它把传统企业用于决 策的支持体系应用到互联网这个高速发展的平台上。本章重点介绍数据仓库、点击流数 据仓库以及其涉及到的关键技术的相关理论知识,为本课题研究提供理论基础。 2 1数据仓库 2 1 1 从数据库到数据仓库 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的数据管 理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构成层次型或网 状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定的、死板的。 到了1 9 6 9 年,e f c o d d 博士发表了他著名的关系数据模型的论文。此后,关系数据库 的出现开创了数据管理的一个新时代。 从2 0 世纪8 0 年代以来,联机事务处( o n l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 数 据库在实际应用的很多方面都发挥了重要的作用。曾有人发出这样的感叹:2 0 年前查询 不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。随着历史数据的 长期积累,众多企业的高层都意识到有必要利用这些积累的数据进行分析,给下一步计 划和决策提供参考n 射。数据仓库的目的就是合并和组织这些历史数据,以便对其进行分 析并用来支持业务决策。数据仓库中包含的历史数据通常是从各种不同的来源收集的。 数据仓库整合这些数据,对其进行清理和转换,使其准确一致,并在此基础上进行组织, 时期便于轻松高效的查询、分析。 数据仓库是随着应用需求的不断演化,以及数据管理技术的不断发展而诞生的,它 是数据库技术的延伸和发展。数据仓库虽然是从数据库发展而来的,但是两者在许多方 面都存在着相当大的差异,其最大的区别是他们存储的数据。传统的数据库系统( o l a p 系统) 中的数据称作操作性数据,其值是不断变化的。而数据仓库中的数据通常被称作 决策支持数据,其值保持相对的稳定。 数据仓库于数据库的不同具体表现在以下7 个方面阳1 6 1 : 一、数据管理方式不同 在企业同常的事务型操作中,数据操作不仅有查询,而且有大量的插入、删除、更 新等改变数据库状态的操作。因此,在数据库中,数据的完整性、一致性和并发性控制 是数据库管理的首要问题。然而在数据仓库应用( 如决策分析) 中,除了对数据仓库定期 或不定期地加载新的数据( 只是对数据进行各类分析,或从数据中获取潜在的知识,即 表现对数据的查询) ,而并没有对数据仓库的状态进行更改,因此数据仓库对数据的管 7 东北师范大学硕士学位论文 理重点同面向事务处理的数据库并不一样。 二、数据目标不同 数据库中的数据是面向业务操作人员,用于常规的事务处理。数据仓库中的数据是 面向中高层管理人员和分析人员,用于决策等分析型应用。 三、数据内容不同 数据库中的数据是有关业务当前状态的细节数据,是面向操作的最细粒度的原始数 据。数据仓库中的数据是历史数据,是基于原始数据经过加工导出的汇总数据,是粗粒 度的。 四、数据特性不同 数据库中的数据是动态变化的,只要有业务发生,数据就会被更新。它表示的是当 前业务情况的一个快照,经常是一个时间点。而数据仓库中的数据则是静态的历史数据, 只能定期添加,并且更改后的数据并不会覆盖原先的数据,而是以基于时间的数据的不 同版本形式保存下来。 五、数据使用不同 数据库中数据通常用于事务处理,在企业中,事务处理的特征是事务数量繁多,但 每个事务的处理量较小,既涉及的数据量较少。因此,数据库的响应较快,通常要求在 数秒以内。而用于分析型应用的数据仓库则与其操作相反,通常分析请求数量不多,但 每个分析请求通常涉及大量的数据,有时甚至需要遍历整个企业的数据,耗费大量的资 源。因此,数据仓库的响应时间可能长达数小时。 六、数据范围不同 数据库中的数据面向事务操作,因此数据库中的数据仅与一个或一些应用相关,而 数据分析通常需要和整个企业范围中的数据相关,这些数据可能位于不同的数据源,有 些甚至要从企业外部获取。 七、数据逻辑模型不同 数据库中的数据通常组织成二维表。数据操作主要针对单张表进行查询、插入、删 除等,以及对少量的表的连接( j o i n ) 。在数据仓库的设计中,根据业务需求,可将数据 按照多维模型进行组织,数据仓库用多维数据库结构建模。多维数据由多种不同的逻辑 模型,最常用的逻辑数据库模型是星型连接( s c h e m a ) 模式,简称星型模式。 由于决策处理提出了不同于以往的事务处理的需求,传统的数据库技术,数据分析 的效率很低,难于将数据转化为信息,难以满足这些新的需求,这就导致了数据仓库技 术的出现,数据仓库系统,作为决策支持系统( d e c i s i o n m a k i n gs u p p o r ts y s t e m ,d s s ) 的辅助工具,是人们长期对数据库技术进行研究和开发的结果。数据仓库技术使数据库 技术进入了一个更高级的阶段。然而,数据仓库的建立并不是要取代数据库,它要建立 在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,并且数据仓库往往 使用数据库管理系统来管理数据仓库中的数据。 8 东北师范大学硕士学位论文 2 1 2 数据仓库的概念 数据仓库的概念始于2 0 世纪8 0 年代中期,w i l l i a m h i n m o n 在其论著 b u i i d i n gt h e d a t aw a r e h o u s e 中,首先提出术语“数据仓库 ,给予如下定义:“数据仓库是面向主 题的、集成的、随时间变化的及稳定的数据集,用于支持管理决策过程。根据数据仓 库的定义,数据仓库具有以下四个主要特性咱1 : 一、面向主题性 数据仓库中的数据都是围绕着某一主题进行组织的,而不是按照正在进行的应用的 信息进行组织,例如企业中的客户、产品和销售等都可以作为主题。主题是一个抽象的 概念,从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统中的数据按 照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题 就是一些数据集合,这些数据集合对分析对象做了比较完整的、一致的描述,这种描述 不仅涉及到数据自身,而且还涉及到数据之间的联系。在主题的划分中,每一个主题都 具有独立性。在主题的数据组织中,不同的主题之间可能会出现相互重叠的信息。例如, “客户 主题与“产品 主题在产品购买信息方面有相互重叠的信息。 二、集成性 数据仓库的集成性是指根据决策分析的要求,将分散于各处的数据源中的数据进行 抽取、筛选、转换、清理等工作,经过系统加工、整理汇总到数据仓库中,集成为一个 整体,使数据仓库中的数据具有集成性。数据仓库的数据源多种多样,不仅包含在线事 务处理( o l t p ) 系统的数据,还包含归档的历史数据,在有些情况下,甚至包含第三方数 据或从外部购买的数据,可能是结构化数据,也可能非结构化数据,它们之间可能是异 构的,因此,不能直接把数据加载到数据仓库中,而是需要进行一系列数据预处理,即 将数据进行抽取、筛选、转换、清理之后,才能将它们存储到数据仓库中。 三、时变性 数据仓库中的所有数据都有特定的时间标识。数据仓库中的关键结构都隐式或显式 地包含时间标识,数据仓库中的数据代表了过去某一时刻的数据快照。随着时间的推移, 主题的数据不断地发生变化,将那些变化的数据追加到数据仓库中,也就是说数据仓库 中不断地生成新快照,以满足决策分析的需要。数据仓库中的数据不仅可以用特定的时 间点标识,也可用特定的时间段来概括,如天、星期、月、季度、年等,这可以根据快 照的生成速度和决策分析的需要而定。 数据仓库中数据的时变性,不仅反映在数据的追加方面,还反映在数据的删除上。 尽管数据仓库中的数据可以长期保留,但还是有存储期限的,一般保留5 1 0 年,超过 期限后,有的数据也需要删除。同时,由于存储数据的改变,在数据仓库中需要随着时 间的变化对数据重新进行概括处理,这也是数据仓库时变性的一个表现。 四、稳定性 数据仓库中的数据通常是历史数据,很少进行更新,一旦数据进入数据仓库以后, 就会保持一个相当长的时间。操作型数据库中的数据通常是实时更新的,同时根据需要 进行添加、删除、修改等操作,数据仓库中的数据主要用于查询、分析,很少进行修改 9 东北师范大学硕士学位论文 和删除,除非数据仓库中的数据是错误的。由于数据仓库中的数据是经过加工、清理的, 进行查询操作时可以提高其查询效率,同时可以保证不同的用户在不同的时间查询、分 析相同的问题时,获得相同的结果,这体现了数据仓库的稳定性。 综上所述,对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用 于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓 库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而 且存放在数据仓库中的数据一般不再修改。 从这里我们可以看出数据仓库不仅仅是一个数据集合,还是一个决策支持系统,它 将来自多个数据库或其它数据源的信息进行重新组织与集成,并为上层的某一主题应用 提供统一的用户接口,供最终用户直接完成对数据的查询、分析与决策。 实际上,数据仓库并不是一种产品,而是一种体系结构,它是一个含有多种技术的 灵活环境。数据仓库除具有传统数据库查询、报表和统计等功能外,它还具有o l a p 、数 据挖掘、知识发现和决策支持等功能。数据仓库技术,为不同层次的用户提供数据挖掘、 知识发现的算法和工具,能建立各种数据库之间的相互关联还包括为分析与决策层提 供各种决策支持工具、综合模糊工具、可视化图形分析工具和基于w e b 数据库网络站点 的浏览器等工具,从而为非专业人员提供复杂查询、多维分析和决策支持等手段”。 数据集市是一个和数据仓库紧密相关的概念,它是支持某一部门管理和决策,或者 满足特定分析处理需求的数据集合。数据集市中的数据仍具有数据仓库中的数据的特 点,只不过数据集市中的数据是专门为某一个部门或某个特定需求定制的而己。数据集 市建设周期短( 只需几个月) ,投资小、见效快,它的投入使用可以解决数据仓库资源 竞争的紧张程度,提高数据处理的速度。 数据集市和数据仓库之间的关系相当于子系统和系统之间的关系,数据集市相当于 子系统,数据仓库相当于系统。数据仓库中的数据覆盖整个企业范围,并在企业级对数 据进行了集成,而各个数据集市中的数据是面向某一特定主题的,数据集市通常服务于 单个部门或企业中的部分用户。由于其仅包含一个或少量几个主题的数据,因此通常更 容易实现,可以更快地满足部门级用户的需求,具有更高的效率,然而企业级的全局数 据分析则需要完整的数据仓库,数据仓库建设周期长,投资大,见效慢,因此在商业智 能系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国内单证工作汇报
- 消防安全全员培训内容课件
- 房地产策划总监年终总结
- 消防培训小区安全知识课件
- 赵州桥读写结合课件
- 赵世家课件教学课件
- 质量安全检测知识培训课件
- 质量安全培训卷子课件
- 诊室患者安全培训内容课件
- 证券合规管理培训课件
- DB32/T 3946-2020平原水网地区闸控航道通航标准
- 2025年初级银行从业资格之初级个人理财考试题库
- 2025-2030年中国核子及核辐射测量仪器行业竞争格局及发展趋势分析报告
- 2024年4月全国自考00054管理学原理真题
- 银行保险机构安全保卫工作自查操作手册
- 2025-2030中国咖喱粉市场消费调查及投资效益趋势预测研究报告
- 餐饮食堂“十统一六到位”管理培训
- 工业生产许可证实施细则
- 增加子女抚养费协议书
- 中学宿舍卫生管理制度
- 少吃糖预防蛀牙
评论
0/150
提交评论