




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)基于mda的数据分析过程研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
| | i l fl l ir l ll l li ii ii r l l 原创性声明和关于论文使用授权的说明 y 17 9 3 6 4 7 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:堑迦醴自 日期:逊! 丝:皇 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 、 论文作者签名:盈垒匦盘导师签名: a , , 山东大学硕士学位论文 目录 摘要i a b s t r a c t 1 1 1 第1 章绪论1 1 1 研究背景1 1 2 国内外研究现状2 1 3 主要研究内容5 1 4 本文结构,7 第2 章模型的建立与描述8 2 1 数据模型8 2 1 1 多维数据模型的建立9 2 1 2 多维数据模型的描述1 1 2 1 3 维度结构分类1 2 2 2 过程模型1 3 2 3 模型描述语言1 5 2 4 模型管理1 6 2 5 小结1 7 第3 章数据采集过程1 8 3 1 结构化数据的采集1 9 3 1 1 异构数据源的数据获取1 9 3 1 2 数据清洗2 2 3 1 2 1 编码统一2 3 3 1 2 2 空值处理2 4 3 1 2 3 重复记录处理2 7 3 1 3 数据质量3 3 3 2 非结构化数据的采集3 4 3 2 1 非结构化客观数据采集:3 4 3 2 2 非结构化主观数据采集3 6 山东大学硕士学位论文 3 3 小结4 0 第4 章数据统计分析与展现4 1 4 1 统计分析4 1 4 2 结果展现4 2 4 2 1 报表输出4 2 4 2 2o l a p 展现4 4 4 2 3 数据挖掘4 6 4 3 小结4 6 第5 章总结和展望4 7 参考文献4 9 致谢5 2 攻读硕士学位期间发表的学术论文5 3 攻读硕士学位期间参与科研项目情况5 4 , 一 l i 1 i 山东大学硕士学位论文 t a b l eo f c o n t e n t s a b s t r a c ti nc h i n e s e :【 a b s t r a c ti ne n g l i s h h i c h a p e r t1e x o r d i u m i 1 1r e s e a r c hb a c k g r o u n d 1 1 2c u r r e n ta c t u a l i t y 2 1 3m a i nw o r k s 。5 1 4o r g a n i z es t r u c t u r e 7 c h a p e r t2e s t a b l i s ha n dd e s c r i p t i o no f m o d e l 8 2 1d a t am o d e l 8 2 1 1e s t a b l i s ho f d a t am o d e l 9 2 1 2d e s c r i p t i o no f d a t am o d e l 1 1 2 1 3c l a s s i f i c a t i o no f d i m e n s i o n a ls t r u c t u r e 1 2 2 2p r o c e s sm o d e l 1 3 2 3m o d e ld e s c r i p t i o nl a n g u a g e 1 5 2 4m o d e lm a n a g e m e n t 。1 6 2 5c o n c l u t i o n s 1 7 c h a p e r t3p r o c e s so f d a t ac o l l e c t i o n 1 8 3 1s t r u c t u r e dd a t ac o l l e c t i o n 1 9 3 1 1d a t ac o l l e c t i o no f h e t e r o g e n e o u sd a t as o u r c e s 。1 9 3 1 2d a t ac l e a n i n g 2 2 3 1 2 1u n i f i e dc o d i n g 2 3 3 1 2 2n u l lv a l u eh a n d l i n g 2 4 3 1 2 3d e a l i n g 、加t hd u p l i c a t er e c o r d s 2 7 3 1 3d a t aq u a l i t y 3 3 3 2u n s t r u c t u r e dd a t ac o l l e c t i o n 3 4 3 2 1u n s t l l l c t i l r e do b j e c t i v ed a t ac o l l e c t i o n 3 4 3 2 2u n s e e d e ds u b j e c t i v ed a t ac o l l e c t i o n 3 6 l l f 东大学硕士学位论文 3 3c o n c l u t i o n s 4 0 c h a p e r t4d a t as t a t i s t i ca n d s h o w 4 1 4 1d a t as t a t i s t i c ,4 1 , 4 2d a t as h o w 4 2 4 2 1r e p o r to u t p u t ,4 2 , 4 2 2o l a p 4 4 4 2 3d a t a m i n i n g 4 6 4 3c o n c l u t i o n s ,4 6 c h a p e r t5s u m a r i z a t i o na n dp r o s p e c t 4 7 r e f e r e i l c e s ,4 9 a c k n o w l e d g e m e n t s 5 2 p a p e rp u b l i s h e df o rm a s t e r sd e g r e e 。5 3 p r o j e c t sp a r t i c i p a t e df o rm a s t e r sd e g r e e 5 4 山东大学硕士学位论文 摘要 当今时代随着计算机技术的高速发展,管理信息系统开始普及,各行各业 都逐渐建立起自己的管理信息系统。这些系统运行一段时间之后,会形成大量 的历史数据,但是这些系统不具备对数据进行分析的能力,海量数据就不会被 充分利用,数据中隐含的大量信息也不能被挖掘出来,没法对人们提供决策支 持的功能。因此人们开始想办法挖掘隐含在这些数据背后的有用信息。在这种 情况下,数据分析技术应运而生。 目前对数据分析的研究已经有很多,但是研究的目标主要集中在商业领域, 且数据分析的落脚点是财务数据。对于教育行业这样一个非盈利性行业,面临 经费不足、技术人员匮乏的困难,再加上与商业领域之间的行业差异,目前的 数据分析工具或方法以及数据分析过程中的细节显然不能完全适用于教育行 业,必须要根据这个行业本身的特点摸索新的数据分析过程。高成本、太复杂 的方式显然不适合教育行业,要满足它特有的需求,就需要挖掘新的方法,因 此数据分析技术面临新的问题和挑战。, 本文的主要研究内容和工作主要有以下几个方面:首先建立数据模型,将 从各个数据源得到的原始数据抽取出来,通过分析设计针对它们的数据结构、 数据操作和数据之间的约束,形成中间库数据的数据模型;确定分析主题和分 析角度之后,将它们之间的逻辑关系抽象出来,形成目标数据端的数据模型。 其次建立了结构化数据的采集模型,将数据抽取数据转化数据加载的流程抽 取为平台无关模型,其中的具体内容和细节通过x m l 配置,克服了硬编码的 局限性,增强了数据采集的灵活性、可扩展性和可移植性。再次采用了中间库 与文件相结合的方式对数据进行抽取,解决了异构数据源的数据获取问题;针 对不同的情况定义不同的规则,采用规则引擎处理不同的空值情况;采用基于 分组的相似重复记录检测方法,对不同的关键字定义不同的等级,根据等级高 低反复检测来解决重复记录检测不准确的问题。最后针对非结构化数据中的主 观数据采集,提出了自动调查问卷的设计方式,通过自动生成调查问卷,在网 上实时获得调查结果,形成了主观数据的采集模型,提高了数据分析的全面性 和准确性。 山东大学硕士学位论文 本文针对教育行业的特点,将模型驱动架构与数据分析结合起来,并进行 了探索性的研究,希望为教育行业的数据分析提供一种有效、通用的思路和方 法。本文的课题基础也是目前数据分析领域应用比较广泛的技术,不但为增强, 数据分析的通用性提供了思路和方法,同时也为拓展模型驱动架构的应用领域 提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有 一 较大的应用价值和现实意义。 关键词:模型驱动架构( m d a ) ;数据采集;数据清洗;多维数据模型 i i 山东大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y ,m a n a g e m e n ti n f o r m a t i o ns y s t e m b e c o m e sp o p u l a ra n du n i v e r s a l t h e yh e l pt h es c h o o lt oc o l l e c tal a r g en u m b e ro f h i s t o r i c a ld a t aa f t e rt h es y s t e mi sp u ti n t ou s ef o rac e r t a i np e r i o do ft i m e b u tt h e y c a n tc a r r yo u tm u l t i d i m e n s i o n a ld a t aa n a l y s i s ,a n dt h 锣a r ei n s u f f i c i e n ti ns u p p o r t i n g m a n a g e m e n tf a c u l t yt om a k er i g h td e c i s i o n s op e o p l eb e g a nt ot h i n ko fw a y st of i n d t h eu s e f u li n f o r m a t i o nb e h i n ds u c hl a r g em n o u n t so fd a t a i nt h i sc a s e ,m a n yk i n d so f d a t aa n a l y s i st e c h n i q u e sh a v ee m e r g e d a tp r e s e n t , d a t aa n a l y s i sh a sm a n ya p p l i c a t i o n si nt h ec o m m e r c i a la r e aa n dd a t a a n a l y s i sa l s op r o v i d e sag e n e r a lp r o c e s s b u tt h e i ru l t i m a t eg o a li st h ea n a l y s i so f f i n a n c i a ld a t a a san o n p r o f i ti n d u s t r y ,e d u c a t i o ni s a l w a y sc o n f r o n t i n gs o m e d i f f i c u l t i e s ,s u c ha s l a c ko ff u n d sa n dt e c h n i c a l p e r s o n n e l i na d d i t i o nt o t h e d i s t i n c t i o nb e t w e e ne d u c a t i o na n db u s i n e s s ,i t so b v i o u st h a tr e c e n td a t aa n a l y s i s i m p l e m e n t s ,m e a s u r e sa n dp r o c e s s i n gd e t a i l sc a n n o tm e e tt h en e e d ,t h u sg r o p eo f b r a n dn e wd a t aa n a l y s i sp r o c e s sa c c o r d i n gt ot h ef e a t u r e so fe d u c a t i o ni n d u s t r ys e e m s b a d l yn e c e s s a r y m o r e o v e r ,h i g hc o s ta n do b s e s s i v ec o m p l i c a t e dm e a s u r ei sn o t s u i t a b l ef o re d u c a t i o n ,i no r d e rt of i l lt h er e q u i r e m e n t ;i tn e e d st os e a r c hf o rn e w m e t h o d s t h e r e f o r ed a t aa n a l y s i st e c h n o l o g yi sf a c i n gs o m en e w c h a l l e n g e s t h ep o i n t so ft h i sp a p e ra r em a i n l ya sf o l l o w s :f i r s t ,e s t a b l i s ht h ed a t am o d e l e x t r a c tr a wd a t af r o me v e r yd a t as o u r c ea n dd e s i g nf o rt h e i rd a t as t r u c t u r e s ,d a t a o p e r a t i o n sa n dd a t ar e s t r i c tt oe s t a b l i s ht h ed a t am o d e li nm i d d l ed a t a b a s ea c c o r d i n g t ot h e i rf e a t u r e ;a f t e rd e t e r m i n ea n a l y s i st h e m ea n da n a l y s i sf a c t s ,a b s t r a c tt h el o g i c r e l a t i o n s h i pb e t w e e nt h e mt of o r mt h ed a t am o d e li nt a r g e td a t a - s i d e s e c o n d , e s t a b l i s hd a t ac o l l e c t i o nm o d e l ,d e s c f i p tt h ep r o c e s so fd a t ae x t r a c t i o n d a t a t r a n s i t i o n d a t ae x t r a c t i o n 嬲ap l a t f o r m - i n d e p e n d e n tm o d e l ,i nw h i c ht h es p e c i f i c c o n t e n ta n dd e t a i l so ft h ea d o p t i o na r eb ed e s c f i p tb yx m lc o n f i g u r a t i o n ,t o o v e r c o m et h el i m i t a t i o n so fh a r d - c o d e da n dt oe n h a n c et h ef l e x i b i l i t y ,s c a l a b i l i t ya n d p o r t a b i l i t y t h i r d ,t a k et h ec o m b i n a t i o no fi n t e r m e d i a t el i b r a r ya n dd o c u m e n t a t i o nf o r i i i 山东大学硕士学位论文 d a t ae x t r a c t i o n ,t os o l v et h ed a t aa c q u i s i t i o np r o b l e m si nh e t e r o g e n e o u sd a t as o u r c e s ; m a k ed i f f e r e n tr u l e st oh a n d l ed i f f e r e n ts i t u a t i o n so fn u l lv a l u e s ;t a k et h ep a c k e t - b a s e d m e t h o df o rt h ed e t e c t i o no fa p p r o x i m a t e l yd u p l i c a t e dr e c o r d s ,a s s i g nd i f f e r e n tw e i g h t f o rd i f f e r e n tk e y w o r d s ,a c c o r d i n gt ow h i c ht or e p e a tt h ep r o c e s so fd e t e c t i o n f o rt h e i m p r o v e m e n to fa c c u r a c y c o n c l u d e sp r o p o s ean e wm e t h o df o rg e n e r a t i o no ft h e q u e s t i o n n a i r ea u t o m a t i c a l l yt oc o l l e c ts u r v e yr e s u l t si nr e a lt i m eo n l i n e i to v e r c o m e s t h ed r a w b a c k so ft r a d i t i o n a lp a p e r - b a s e dq u e s t i o n n a i r e i nt h i sp a p e r ,w ed os o m er e s e a r c ha b o u th o wt oc o n d u c td a t aa n a l y s i sb a s e do n m o d e l d r i v e na r c h i t e c t u r e ,w i t ht h eh o p et h a tt os o l v et h ep r o b l e mw i t ha ne f f e c t i v e , c o m m o ni d e aa n dm e t h o d t h eb a s i so ft h i sp a p e ri ss o m ef a m o u st e c h n o l o g yi nd a t a a n a l y s i sa r e a , i t n o t o n l y p r o v i d e s t h ei d e a sa n dm e t h o d st oe n h a n c et h e i n t e r o p e r a b i l i t yo fd a t aa n a l y s i s ,b u ta l s op r o v i d es o m eh e l pf o rt h ee x p a n s i o no f m o d e l d r i v e na r c h i t e c t u r ea p p l i c a t i o n s s ot h i sp a p e rn o to n l yh a st h e o r e t i c a lr e s e a r c h v a l u e ,b u ta l s oh a sg r e a ta p p l i c a t i o nv a l u ea n dp r a c t i c a ls i g n i f i c a n c e k e yw o r d s :m d a ;d a t ac o l l e c t i o n ;d a t ac l e a n i n g ;m u l t i d i m e n s i o n a ld a t a m o d e l i v , f i 一 产 山东大学硕士学位论文 1 1 研究背景 第1 章绪论 随着计算机应用越来越广泛,各行业各部门对信息处理的要求也越来越高, 管理信息系统开始普及。从二十世纪6 0 年代至今,数据库技术得到了迅速的发展 和应用。特别是7 0 年代以来关系数据库的成功,使人们具有了强大的事务处理能 力,可以频繁、迅速的存取数据库中的业务数据,完成日常的业务处理任务。管 理信息系统结合关系数据库在一定程度上很好的满足了对信息处理的要求。经过 几年的发展,大部分的公司、企业及事业单位已经建立了相对比较完善的c i 泓 ( 客户关系管理) 、e 州企业资源计划) 、o a ( 办公室自动化) 等基础信息化系统。 这些系统有一个共同的特点是:通过业务人员或系统用户的使用和操作,最终体 现为对数据库进行增加、修改、删除等操作。这种系统可统一称为o l t p ( o n l i n e t r a n s a c t i o np r o c e s s ,在线事务处理) u 】,指的就是在系统运行时不断积累历史数据, 一段时间以后,这些历史数据必然会成为一个庞大的数据集。然而,随着时间的 推移,越来越多的数据堆积如山,简单的数据查询和数据显示已经远远不能满足 人们的需求,如果没有强有力的工具,人们根本不可能理解这些数据,这些海量 数据慢慢变成了难以再被访问的数据档案,其中蕴含的许多信息都无法发现和利 用,出现了数据丰富,但知识贫乏的局面【2 】。此时,如何把数据转化为信息,挖 掘出数据内部隐含的知识,使得这些信息能够被充分的理解和利用,并且辅助决 策,成为大家关注的焦点问题。于是各种知识发现技术在人们的迫切需要下而产 生,进而被广泛采用。知识发现的目的是把隐没在一大批看来杂乱无章的数据中 的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。近年来,对知识 发现相关技术的研究一直是数据库研究领域及其它相关领域一个非常热门的课 题。 与知识发现相关的术语有很多,如数据挖掘、数据分析、数据融合、决策支 持等等,按照层次的高低,知识发现大体可分为三个阶段:报表系统、数据分析、 数据挖掘【3 】。如何挖掘海量数据中的信息,并将信息展现给用户,以前用的最多 的是报表系统,简单的说,报表系统是知识发现的低端实现。现在很多行业已经 山东大学硕士学位论文 进入或开始进入中端阶段,叫做数据分析。部分行业已经开始进入高端阶段,叫 做数据挖掘。传统的报表系统在技术上已经相当成熟,大家熟悉的e x c e l 、水晶 报表、r e p o r t i n gs e r v i c e 等都已经被广泛使用。但是,随着数据的增多,需求的 提高,传统报表系统面临的挑战也越来越多【4 1 。 1 、海量数据中的大量信息无法体现 表格中堆砌了大量的密密麻麻的数据,业务人员不可能逐个数据的看,更多 的是希望得到这些数据中蕴含的信息,对于级别更高的管理者来说,不但需要数 据中的信息,还需要比表格更为直观的展现方式。 2 、难以交互分析 定制好的报表往往比较死板。每张报表包含的主题和分析的角度都是固定死 的,若想更改或增加新的分析角度可能需要重新定制新的报表,而业务问题经常 需要多个角度的交互分析。 3 、难以挖掘出潜在的规则 报表列出的往往是表面上的数据信息,但是海量数据深处潜在含有哪些规则 这些规则之间有什么样的关系,能够提供哪些决策支持确是难以挖掘出来。 4 、难以追溯历史,数据形成孤岛 业务系统很多,数据存在于不同地方。太旧的数据往往被业务系统备份出去, 导致宏观分析、长期历史分析难度很大。 因此,随着时代的发展和需求的变化,传统报表系统已经不能满足日益增长 的业务需求了,各行业各部门都在期待着新的技术。数据分析和数据挖掘的时代 正在来临。更重要的是,数据分析和数据挖掘系统的目的是带给我们更多的决策 支持价值,并不是取代数据报表。报表系统依然有其不可取代的优势,并且将会 长期与数据分析、挖掘系统一起并存下去1 5 。 本文研究了目前数据分析的相关问题,在已有工作的基础上提出了针对教育 行业的数据分析过程一基于模型驱动框架的数据分析过程。 1 2 国内外研究现状 目前,国内外已经对数据分析开展了大量的研究工作。数据分析最早应用在 产 商业领域,被称之为商务智能( b i ) 。商务智能1 9 8 9 年由g a r m e rg r o u p 的h o w a r d 2 山东大学硕士学位论文 d r e s n e r 首次提出,它描述了一系列的概念和方法,通过应用基于事实的支持系 统,来辅助商业决策的制赳6 1 。b i 技术提供帮助企业迅速分析数据的技术和方法, 包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各 处。随着社会的发展和需求的变化,其他行业也逐渐开始意识到数据分析的重要 性,希望能够寻找或建立适合自己行业的数据分析方法或工具,教育行业也是其 中之一。而目前教育行业的数据分析大体分为两类实现方式:直接使用或简单改 造b i 产品、在管理信息系统上发展数据分析系统。 1 、直接使用或简单改造b i 产品 目前b i 产品大致可划分为大型数据库厂商如o r a d e ,s y b a s e ,m m 等、统计 软件厂商如乃的衍生产和独立的软件产品两类 7 1 。前者与数据库技术密切结合, 有强大的后台数据库支持。后者则有些仅有前端展示工具,没有后端数据仓库的 支持。从技术发展来看,今后的产品将把数据仓库建模及数据挖掘等技术实质性 地应用进来。同时b i 技术也将c r m 和e r p 等技术实现融合,在企业决策分析 中发挥更大的作用,从而拓展出更大的市场发展空间。 查询、报告和o l a p 工具占主流通常认为,能够称得上b i 产品的,一定要包 含查询、报告和o l a p 这些基本功能,否则不能称之为产品【8 1 。从功能实现方面 可以大概将目前比较成熟的数据分析工具分为以下三类阴: ( 1 ) 增强型查询工具,可用于简单的多维查询,它通常带有一个流行的查询报 告工具,并需要配置一个r d b m s ,可以对元数据进行管理。然而,对于特殊的 应用逻辑或专用的规则必须用查询或报告提供的功能进行编码。另外,它不能支 持一些特殊功能,如用数据对象进行计算、计算数据对象本身和逐层细化操作等。 但它们的服务对象主要是那些数据分析领域内的专业技术人员,对于像银行管理 层或者决策支持层这类的客户,很难快速学会和使用它们所提供的工具【l 们。 ( 2 ) 多维工具,一般单独地处理多维数据,它们面向行政信息系统市场,提供 对数据的商业应用接口。这些产品为查询、报告、图形以及基本的多维操作提供 了一个易用的接口,可以完成逐层细化、切片与切块及数据旋转等操作。一般来 说,这一类产品运行于客户端,获取存储于服务器上的关系型数据。但当用户要 求的观察维数增加时,它也需要更多的处理资源和数据存储空间。另外一个不足 是它们运行的应用环境还比较封闭,一般都需要专门的数据库结构,而使用 r d b m s 则在设计上有严重限制【1 1 1 。 山东大学硕+ 学位论文 ( 3 ) 面向对象的产品:使用面向对象方法来支持多维数据。通过这种方法,管 理和操作多维数据的复杂性就可以封装在对象中,对用户是隐藏的。它们把应用 逻辑功能分为不同的层,建立了一个三层结构。在标准的关系型数据库服务器前 面加上一个逻辑服务器,它包含了特殊的规则和需要的操作或计算。客户应用负 责和用户的交流,并将需求和数据传向逻辑服务器或从服务器取回,逻辑服务器 然后再和数据服务器交流【1 2 1 。 这种实现方式不仅对于应用客户的硬件和资源提出了很高的要求,而且它的 可移动性、可扩展性很差。而且它们的应用领域一般都针对商业行业,很难被其 他行业使用。 2 、在管理信息系统上发展数据分析系统 目前很多数据分析系统是在管理信息系统的基础上发展起来的,是基于原有 数据库系统进行分析的,因此在实际应用过程中暴露出许多问题: ( 1 ) 事务处理和分析处理的性能特性不同”1 。在事务处理环境中,用户的行 为特点是数据的存取操作频率高而每次操作处理的时间短。在分析处理环境中, 用户的行为模式与此完全不同,某个数据分析过程可能需要连续几个小时,从而 消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运 行显然是不适当的。 ( 2 ) 数据集成问题【1 4 1 。数据分析系统需要集成的数据。全面而正确的数据是 有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。 当前绝大多数行业内部数据的真正状况是分散而非集成的。造成这种分散的原因 有多种,主要有事务处理应用分散、数据不一致问题、外部数据和非结构化数据。 ( 3 ) 数据动态集成问题f 15 1 。静态集成的最大缺点在于,如果在数据集成后数 据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过 时的数据。集成数据必须以一定的周期( 例如2 4 小时) 进行刷新,我们称其为动态 集成。显然,事务处理系统不具备动态集成的能力。 ( 4 ) 历史数据问题1 6 】。事务处理一般只需要当前数据,在数据库中一般也是 存储短期数据,对不同数据的保存期限也不一样,即使有一些历史数据保存下来 了,也被束之高阁,未得到充分利用但对于数据分析而言,历史数据是相当重 要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析, 是难以把握企业的发展趋势的。 4 山东大学硕士学位论文 ( 5 ) 数据的综合问题【1 7 】。在事务处理系统中积累了大量的细节数据,数据分 析并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度 的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往 往因为是一种数据冗余而加以限制。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理 及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照数据分析 的需要进行重新组织,建立单独的分析处理环境【1 8 】。 综上,目前数据分析技术的发展在一定程度上满足了人们对信息的需求,但 是在竞争激烈的今天,除了商业领域,各行业对数据分析的需求也越来越高。除 了大公司,小的企事业单位也提出了对数据分析工具的需求。 教育行业是一个非常重要的非盈利性行业,如何提高学校的教育质量、提高 学生的综合素质、了解未来教育行业的发展趋势、挖掘新的培养模式在当今社会 都是非常重要的、值得研究的问题【l9 1 。要得到这些问题的答案,还得从与教育相 关的学校、学生和老师身上寻找,通过学校的招生情况、学生的学习情况、就业 情况、老师的总体水平等各方面来获得答案。 教育行业与商业的区别在于前者是非盈利性行业,它的关注点不在财务上, 而在于如何更好的培养学生。要将b i 的产品直接应用于教育行业还存在着以下问 题:b i 产品是根据商业特点而出现的,并不能完全适用于教育行业;经费不足是 教育行业的一个大问题,对于非盈利性行业来说经费的开支需要特别谨慎,一般 不愿意花钱去购买特别昂贵的b i 产品;另外高校存在着缺少技术人员的问题,特 别是文科类院校技术人员需求量较大,即使b i 产品能够直接用于教育行业,各学 校也愿意出资购买,但学校没有相关的技术人员可以使用并维护该产品【2 0 1 。 因此,要将数据分析系统与一般的信息管理系统区分开来,按照数据分析的 一般流程,通过将已有的数据分析技术结合不同的行业特点,建立不同的数据分 析,才能使得数据分析在各个行业发挥其决策作用。 1 3 主要研究内容 本文针对教育行业经费不足、技术人员匮乏以及分析主题多等特点,提出了 基于m d a 的数据分析过程,目的是为了降低成本,提高通用性、可扩展性和可 山东大学硕士学位论文 移植性。具体内容如下: ( 1 ) 提出了数据模型的建立和描述方式,首先对从各个数据源获得原始数据 进行分析,通过设计数据结构、数据操作和数据之间的约束建立中间库 的数据模型,然后根据确定的分析主题和分析角度,将它们的关系抽象 出来,建立目标数据端的数据模型。 ( 2 ) 提出了结构化数据的采集模型,即将数据从源数据到中间库的过程中与 具体实现平台无关的部分抽取出来,建立数据采集模型,使得用户只关 注与具体实现有关的部分,在数据采集过程发生变化时,保证了可扩展 性、可移植性和对用户的透明性。 ( 3 ) 描述了结构化数据采集过程中几个常见的细节处理问题,首先采用了中 间库与文件相结合的方式对数据进行抽取,解决了异构数据源的数据获 取问题;针对不同的情况定义不同的规则,采用规则引擎处理不同的空 值情况:采用基于分组的相似重复记录检测方法,对不同的关键字定义 不同的等级,根据等级高低反复检测来解决重复记录检测不准确的问 题。 ( 4 ) 提出了非结构化数据中主观数据的采集方式,设计了调查问卷自动生成 方式,通过自动生成调查问卷,能够实时获得调查结果,提高了数据分 析的全面性和准确性。 本文的主要创新点如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国护肤用琼崖海棠油行业市场分析及投资价值评估前景预测报告
- 2025广东江门市蓬江区教师招聘23人考前自测高频考点模拟试题及1套参考答案详解
- 2025国家知识产权局知识产权发展研究中心招聘社会在职3人考前自测高频考点模拟试题完整答案详解
- 2025华东师范大学开放教育学院教师发展学院招聘1人(上海)考前自测高频考点模拟试题及答案详解1套
- 2025安徽淮北师范大学招聘高层次人才90人模拟试卷及答案详解(考点梳理)
- 2025年临沂市工业学校公开招聘教师(40名)考前自测高频考点模拟试题及1套参考答案详解
- 2025广州银行经营机构人才招聘模拟试卷附答案详解(典型题)
- 2025河南郑州城建职业学院招聘考前自测高频考点模拟试题完整答案详解
- 2025春季中国宝武全球校招“国宝生”计划正式启动模拟试卷完整答案详解
- 2025河南郑州智能科技职业学院招聘考前自测高频考点模拟试题(含答案详解)
- 2025年旅游策划服务框架协议书
- 银行解冻申请书
- 2025年成人高考政治(专升本)考试题库
- KCA试题库完美版
- 铺面装修购销合同模板
- 五年级英语上学期 Unit 2 阅读理解精练-译林版三起(含答案)
- DB35∕T 2174-2024 改良酸性土壤专用有机肥料通 用技术要求
- 森林抚育作业设计
- 糖皮质激素类药物临床应用指导原则(2023版)解读
- JT-T-1211.1-2018公路工程水泥混凝土用快速修补材料第1部分:水泥基修补材料
- 水利工程运维水利工程运行和日常维修养护方案
评论
0/150
提交评论