




已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)数据挖掘技术在考试数据再利用中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 “ f 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其 它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均己在论文中作了明确的说明并表示了谢意。 签名:f 刁专届日期:矽,丛, 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的 全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 日期:枷p 互 _ , 摘要 摘要 随着计算机技术的迅速发展,招生考试工作信息化程度不断提高,北京教 育考试院每年通过对各级各类考试的组织,积累了大量的考试数据。这些数 据隐含着学校教育的真实现状以及学科教育的情况等大量有价值的信息。对 这些数据分析利用,将有可能对北京市教育的发展和决策提供极为有用的参 考价值。 本文针对北京教育考试院的实际应用需求,主要研究了教育考试数据仓库 构建和教育考试数据挖掘中涉及的关键技术,主要工作和成果为: ( 1 ) 教育考试数据仓库的构建。分析了教育考试院业务的现状和业务数 据的特点,结合决策分析等的实际需求,确定了教育考试数据仓库主题;在 此基础上,设计了教育考试数据仓库的体系架构,数据仓库包括4 个层次: 业务数据层、数据仓库层、d s 操作层和应用展现层;设计了数据仓库的数据 模型;分析了数据e t l 中存在的问题,完成了业务数据到数据仓库的抽取、 转换和装载。 ( 2 ) 数据挖掘技术在教育考试数据分析中的应用。深入研究了数据挖掘 中关联规则挖掘技术,对其经典的挖掘算法一a p r i o r i 算法进行了分析,针对教 育考试挖掘的需求,研究了改进措施,使其能更好地适应应用环境;利用该 算法,对教育考试数据进行了挖掘尝试。 实践表明,数据仓库构建采用的技术路线可行,架构设计合理,分析主题 明确,对教育考试数据的再利用提供了有效的技术支撑;针对教育考试数据 的挖掘尝试对教育考试数据分析的全面开展有参考价值。 关键词数据仓库,关联规则,数据挖掘,教育考试 北京工业大学工学硕士学位论文 i i a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n tc o m p u t e rt e c 量1 n o l o g y ,d e 掣e eo fi n f o m a t i o no fr e c l l l i t s t u d e n te x 锄i n a t i o ni si n c r e a s i n g 1 1 1 eb e i ji n ge d u c a t i o ne x 锄i n a t i o na u t h o r i t y h a sc o l l e c t e dal o to fd a t ad b o u te x a m i n a t i o nt h r o u g ho f g a i l i z i n gv 撕o u sk i n d so f e x a m i n a t i o n t h ef a c ta b o u tm i d d l es c h 0 0 1a n de d u c a t i o nc a nb ei n f 宅r r e df o mt h e e x 锄i n a t i o nd a t a n 、析hp r o v i d ee x t i e m e l yu s e m lr e f e r e n c ea b o mt h ed e v e l o p m e n t o fe d u c a t i o na n dd e c i s i o n m a k i n gi nb e i j i n gb yu s i n go f t h ed r t a 7 i h i st h e s i sm a i n l yr e s e a r c h e sh o wt ob u i l de d u c a t i o nd a t aw a r e h o u s ea r l dm ek e y t e c h n o l o g ya b o u td a _ t am i n i n go fe d u c a t i o ne x 锄i i l 【t i o nb a s e do nt h er e q u i r e m e n t o fb j e e a t h em a i np r a c t i c e sa n dr e s u l t sa r e : f i r s t l y ,t ob u i l dt l l ee d u c a t i o ne x 锄i n a t i o nd a t aw a r e h o u s e t h eb u s i n e s ss i t u a t i o n a n dt h ec h 锄c t e r i s t i c so f b u s i n e s sd a t a 舶mb e i ji n ge d u c a t i o ne x 锄i n a t i o n s a m h o r i t ya r ea n a l y z e d t h es u b j e c to ft h ee d u c a t i o ne x a m i n a t i o nd a t aw a r e h o u s e i s p r o p o s e da c c o r d i n gt ot h er e q u i r e m e n to fd e c i s i o na i l a l y s i s ,a n dt h e n t h e a r c h i t e c n l r eo fe d u c a t i o ne x 撇i n a t i o nd a t aw a r e h o u s ei sd e s i g n e d ,w 1 1 i c hi n c l u d e s 4 l a y e r s :b u s i n e s s d a t a 1 a y e r ,d a t a w a r e h o u s e1 a y e r ,d so p e r a t o r l a y e ra l l d a p p l i c a t i o ns h o w i n g1 a y e r 7 1 1 l ed a t am o d e lo fd a c aw a r e h o u s ei sd e s i g n e d t h e d i m c u l t i e sa b o u te t la r ep r o p o s e d e x 仃a c t i o n ,t r a l l s f o m a t i o na 1 1 dl o a d i n go fda _ t a w a r e h o u s ea r ef i i l i s h e d s e c o n d l y ,t oa p p l yd a t am i i l i n gt ot h ea 1 1 a l y s i so fe d u c a t i o ne x 锄i 1 1 a t i o nd a t a t h e t e c l l i l o l o g ) ra b o u ta s s o c i a t i o nm l em i n i n gi sd e e p l yr e s e a r c h e d ac l a s s i ca l g o r i t l l i i l a b o u ta s s o c i a t i o nm l em i i l i n g ,a p r i o r ia l g o r i t h mi s a n a l y z e d t h em e t h o do f i m p r o v i n gp e r f b 硼a i l c ei sp r o p o s e dw i t hc o n s i d e r i n gt h er e q u i r e m e n to fe d u c a t i o n e x 锄i n a t i o nm i n i n g t h ed a t am i n i n go ne d u c a t i o ne x 锄i n a t i o nw a st e s t e d b y u s i n go ft h ea p r i o r ia l g o r i t h m i ns u n u n a r y ,t h et e c l l i l o l o g i e so fb u i l d i n gd a t a 、 ,a r e h o u s ea r ef e a s i b l e ,a n dt l l e a r c h i t e c t u r ei s r e a s o n a b l e ,t h ea i l a l y s i ss u b j e c ti s c l e a lt h ed a t aw a r e h o u s e p r o v i d e se a e c t i v et e c m i c a ls u p p o i r ta b o u tr e u s eo fe d u c a t i o ne x 锄i n a t i o nd a t a t h et e s to fd a t a m i n i n gp r o v i d e s r e f e r e n c et o a n a l y s i sw o r ko fe d u c a t i o n e x a m j n a “o nd a t a k e y w o r d sd a t a 、v i i e h o u s e ,a s s o c i a t i o nm l e ,d a t am i n i n g ,e d u c a t i o ne x 锄i n a t i o n 北京工业大学工学硕士学位论文 i v - 目录 目录 摘要i a b s t r a c t h i 第1 章绪论1 1 1 课题的背景及研究意义1 1 2 国内外研究现状2 1 2 1 国外研究现状2 1 2 2 国内研究现状3 1 3 课题的研究内容3 1 4 本文组织结构3 第2 章数据仓库与数据挖掘5 2 1 数据仓库5 2 1 1 数据仓库的定义5 2 1 2 数据仓库的体系结构6 2 1 3 数据仓库的模型7 2 1 4 从数据库到数据仓库7 2 2 数据挖掘8 2 2 1 数据挖掘的定义8 2 2 2 数据挖掘的过程8 2 2 3 数据挖掘方法9 2 3 本章小结1 0 第3 章教育考试数据仓库的构建1 1 3 1 业务需求分析1 1 3 1 1 业务现状1 l 3 1 2 业务数据分析。ll 3 1 3 主题分析1 6 3 2 数据仓库架构设计。1 7 3 2 1 建设目标与建设原则1 7 3 2 2 系统架构1 8 3 。3 模型设计2 0 3 3 1 模型数据结构2 0 3 3 2 模型概念数据结构设计2 2 3 3 3 模型逻辑数据结构设计一2 4 3 4 数据抽取、转换和装载2 7 3 4 1e t l 概述2 7 3 4 2e t l 设计2 7 北京工业大学工学硕士学位论文 3 5 本章小结2 9 第4 章关联规则挖掘算法研究与应用3 l 4 1 关联规则挖掘概述3l 4 2a p r i o r i 算法分析3 3 4 2 1a p rio ri 算法描述3 3 4 2 2a p rio ri 算法分析3 4 4 3 针对教育考试数据挖掘的改进一3 5 4 4 关联规则挖掘在会考成绩分析中的应用3 7 4 4 1 业务描述3 7 4 4 2 数据预处理3 8 4 4 3 成绩分析4 1 4 4 4 成绩挖掘4 3 4 5 本章小结4 4 结论4 5 参考文献4 7 攻读硕士学位期间取得的研究成果4 9 致谢51 第l 章绪论 第1 章绪论 1 1 课题的背景及研究意义 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,招生考试工作 信息化程度不断提高,产生和收集数据的能力也得到了迅速提高。北京教育考试 院每年通过对各级各类考试的组织,生成和汇集了大量的考生成绩,这些数据隐 含着北京市教育布局的特点、教育专业的发展趋向、社会化继续教育的发展趋向。 目前的系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中 存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏对教学过程 信息的深入发掘,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知 识贫乏”的现象。 信息技术的发展是人类社会发展和进步的标志。信息化教育是我国教育发展 的未来趋势。北京教育考试院是北京地区以公平、公正、公开为基本原则的各级 各类教育考试招生的权威机构,主要负责北京地区的高级中等学校招生考试、普 通高等学校招生考试、成人高等学校招生考试、高等教育自学考试以及面向社会 的非学历证书考试的管理和研究工作。其发展目标是“专业化、多功能、服务型 。 因此希望通过信息化建设,采用高新技术手段,改革管理方式,提高管理水平。 通过考试科目、考试内容、考试方式的深化改革,形成适应各级各类学校人才选 拔培养、适应各级各类学校学生相互衔接沟通的交叉开放的教育考试结构体系, 形成科学规范的的考试招生服务体系。更好地为考生服务、为教学服务、为社会 服务。 目前考试院已建设了高招、成招、自考、会考、中考的信息化系统。实现了 考试、招生过程的计算机化管理。各应用系统基本实现了网上咨询、网上报名、 网上录取、成绩发布、录取结果发布等网上服务。积累了大量的考生成绩、考生 基本状况、考生升学分布、录取分布等基本数据,这些数据隐含着各学校各专业 教育的真实现状以及学科教育的情况等大量有价值的信息。对教育考试所汇集的 海量数据的分析利用,将有可能对北京市教育的发展和决策提供极为有用的参考 价值和应用价值。过去,由于缺乏系统研究以及相应的基础建设,这些数据没有 及时转化为有价值的信息,在一定程度上造成了极大的资源浪费。因此只有通过 利用信息技术,对这些数据的科学统计分析,从学生的考试数据中提取有关教学 和学习的信息,将隐含于其中的教育过程反馈信息清晰化、明确化,改变教师和 北京工业大学工学硕士学位论文 学生不能及时得到反馈信息来调整教学和学习的状况,为教师和学生提供方便快 捷的教学反馈,更好地为政府的决策服务、为教育改革和教育发展服务,为改进 教学提供明确的方向和指导。 1 2 国内外研究现状 随着计算机科学技术的飞速发展,计算机及数据库技术在教育、商业、企业 及政府部门等各种领域得到了广泛应用,现在已经积累了大量的历史数据,这些 数据中隐藏着大量的可用信息。因此,如何有效地利用和处理大量的数据成为当 今世界共同关心的问题。为此,数据仓库技术应运而生。数据仓库是按主题组织 的、集成的、不同时间的、内容相对稳定的数据集合。使用数据仓库可以对历史 数据进行有效的管理。为了对历史数据进行分析,从中获得有用的知识,一种全 新的技术,数据挖掘应运而生n 1 。目前数据挖掘在金融、电信、零售( 如超级市 场) 等商业领域都很热门h 1 。 1 2 1 国外研究现状 数据挖掘技术在美国银行金融领域应用广泛。m e l l o n 银行使用数据挖掘软件 提高销售和定价金融产品的精确度,如家庭普通贷款。美国f i r s t a r 银行使用数 据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。金融事务需要 搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能 发现某个客户、消费群体的金融和商业兴趣,并可观察金融市场的变化趋势。商 业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对 帐户进行科学的分析和归类,并进行信用评估。预测准客户的需要是美国商业银 行的竞争优势。f i r s t a r 银行市场调查和数据库营销部经理发现:公共数据库中存 储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品中的原 因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。根 据消费者是否有家庭财产贷款、赊帐卡、存款证或其它储蓄、投资产品,将它们 分成若干组,然后使用数据挖掘工具预测何时向每位消费者提供哪种产品嫡。1 。 英国g u sh o m es h o p p i n g 零售公司是英国第二大零售商,每年寄出1 千4 百万 份时装目录。利用数据挖掘技术较精确地评估客户对商品目录内容的需求。在每 一个销售旺季到来之前做出了更精确的预测,使公司降低存货过量造成的费用, 订购足够数量受欢迎的目录提供更好的客户服务。在竞争r 益激烈的环境下继续 保持了盈利能力、市场份额和客户忠诚度。 加拿大s i m o nf r a s e r 大学k d d 研究组根据加拿大b c 省电话公司拥有的多年 第l 章绪论 的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又 有利于客户的优惠政策。 1 2 2 国内研究现状 国内学者也对数据挖掘的理论和应用进行了许多研究。1 9 9 3 年国家自然科学 基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相 开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技 术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所 对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据 立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科 院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京 大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发 现以及w e b 数据挖掘。国内发表的有关数据挖掘论文的数目近年来逐年快速上升, 这说明数据挖掘的研究近几年来在迅速加强。 目前教育数据的挖掘研究尚处在起步阶段,对考试数据利用的深度和广度都 很欠缺。只在学科建设、个人群体发展关系等方面有些研究。 1 3 课题的研究内容 本课题主要是应用数据仓库和数据挖掘技术对考试院多年积累的高中会考考 试数据进行挖掘研究,建立基本的应用模型。分析教育考试院业务的现状和业务 数据的特点,结合决策分析等的实际需求,确定教育考试数据仓库主题,在此基础 上,设计教育考试数据仓库的体系架构,完成业务数据到数据仓库的抽取、转换: 另一方面,研究数据挖掘中的关联规则挖掘技术,对其经典的挖掘算法一a p r i o r i 算法进行分析,针对教育考试挖掘的需求,研究改进措施,并对数据挖掘的结果 进行分析评价,总结出对工作有帮助的结论。提高教育考试数据的利用率,拓展 数据的利用范围,从而改善考试院的服务水平,拓展服务范围,为政府决策、教 育管理更好地提供支持。 1 4 本文组织结构 本文共分4 章,内容安排如下: 第1 章绪论。介绍课题的背景、意义,国内外研究现状及课题研究内容。指 北京工业大学工学硕士学位论文 出了对考试数据进行挖掘的必要性。 第2 章数据仓库与数据挖掘。对数据仓库理论进行了研究,分析了数据仓库 的体系结构及常用的数据仓库模型,然后分析了数据挖掘的过程,方法。 第3 章教育考试数据仓库的构建。对北京教育考试院的业务现状和业务数据 进行了分析,设计了数据仓库的系统架构,确定了数据仓库的主题。 第4 章关联规则挖掘算法研究与应用。分析关联规则挖掘中的a p r i o r i 算法 的特性,并针对其存在的问题,研究改进策略,并将关联规则挖掘应用于会考成 绩分析中。 第2 章数据仓库与数据挖掘 2 - 1 数据仓库 第2 章数据仓库与数据挖掘 数据仓库是近年i t 技术发展的结果,是在数据库已经大量存在的情况下,为 了进一步挖掘数据资源、为了决策需要而产生的。与传统的事物处理系统不同的 是,数据仓库是一种过程,它是对分布在企业内部各处的业务数据进行整合、加 工和分析的过程。 2 1 1 数据仓库的定义 数据仓库技术是一种比较新的应用技术,目前处于理论研究和应用探索阶段, 对于数据仓库的定义,现在大家比较认同的是1 9 9 3 年著名的数据仓库专家 w h i n m o n 在他的著作构建数据仓库中的描述:数据仓库是一个面向主题的、 集成的、稳定的、随时间变化的数据集合,用于支持管理决策 8 9 。 对于数据仓库的定义我们可以从两个方面来理解,首先,数据仓库用于支持 决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓 库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数 据,而且存放在数据仓库中的数据一般不再修改。数据仓库有以下四个特点: 1 、面向主题。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所 关心的重点方面。面向主题表明了数据仓库中数据组织的基本原则,是指数据仓 库内的信息是按主题进行组织的,而不像传统事物处理系统那样单一地按照业务 功能及性能要求进行组织。传统数据库的数据组织面向事务处理任务,各个业务 系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。一个主 题通常与多个操作型信息系统相关。 2 、集成的。集成是指数据仓库中的数据并不是对各个数据源简单的合成,而 是在对原有分散的数据库数据进行一系列的抽取、清理的基础上经过系统加工、 汇总、整理和转换等来消除源数据中的不一致,以保证数据仓库内的信息是关于 整个企业的一致的全局信息。面向事务处理的传统数据库通常与某些特定的应用 相关,数据库之间相互独立,并且往往是异构的。 3 、稳定的。稳定的是指数据一旦进入数据仓库以后,一般情况下将被长期保 留,因为数据仓库的数据主要供企业决策分析之用,所涉及的操作主要是数据查 北京工业大学工学硕士学位论文 询,修改和删除操作很少,通常只需要定期的加载、刷新。传统数据库中的数据 通常实时更新,数据根据需要及时发生变化。 4 、随时间变化的n 0 。1 2 1 。是指数据仓库中的数据随时间变化而定期更新。每隔 一段时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库中。 2 1 2 数据仓库的体系结构 一个完整的数据仓库结构一般由以下5 个基本层次组成n3 | ,如图2 1 所示: 曰 曰 囝 田 曰 璺毒 曰亡:卜删 教瓣蔓乖 :铆j 一膊务箍: ii 图2 1 数据仓库的体系结构 霸蠕工 凰歪调工曩 j 簟- 蠛蝴 圜,蝴强 j i ,g :蝥熬据窆糯工曩 圈i 一 匹璺。 f i g u r e 2 - la r c h i t e c t u r eo fd a t aw a r e h o u s e 各层次基本功能如下: 1 、数据源,是数据仓库系统的基础,是整个系统的数据源泉。通常包括企 业内部信息和外部信息。一个数据仓库可以有多个数据源,而且这些数据源可以 有多种不同的数据结构类型,可以是关系数据库,也可以是各种数据文件。 2 、抽取层,完成数据后端处理,是数据源与数据仓库间的数据接口层。它 的功能是针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题 进行组织。e t l 就是在这一层。 3 、数据的存储与管理,是整个数据仓库系统的核心。数据仓库负责存储分 析、决策数据:数据集市是面向特定应用的决策数据集合,它是数据仓库的子集。 4 、基于数据仓库的应用,一类是联机分析处理( 0 l a p ) ,主要用于分析历史 发展变化:另一类是数据挖掘( d a t am i n i n g ) ,主要用于预测未来趋势走向。 5 、数据展示,将应用结果,特别是分析、决策结果以多种媒体形式表示, 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于 数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对0 l a p 服务器, 报表工具、数据挖掘工具主要针对数据仓库。 一 广 第2 章数据仓库与数据挖掘 2 1 3 数据仓库的模型 维度建模中n4 1 ,常用的数据仓库模型有以下三种。 1 、星型模型 星型模型是一种由一点向外辐射的建模范例,中间有一单一对象沿半径向外 连接到多个对象。星型模型中心的对象称为“事实表 ,与之相连的对象称为“维 表”。对事实表的查询就是获取指向维表的指针表,当对事实表的查询与对维表 的查询结合在一起时,就可以检索大量的信息。通过联合,维表可以对查找标准 细剖和聚集。 2 、雪花模型 雪花模型是对星型模型的扩展,每一个点都沿半径向外连接到多个点。雪花 模型对星型的维表进一步标准化,它的优点是通过最大限度的减少数据存储量以 及把较小的标准化表联合在一起来改善查询性能。雪花模型增加了应用程序的灵 活性。 3 、混合模型 混合模型是星型模型和雪花模型的一种折衷模式,其中星型模型由事实表和 标准化的维表组成,雪花模型的所有维表都进行了标准化。在混合模型中,只有 最大的维表才进行标准化,这些表一般包含一列完全标准化的( 重复的) 数据。 2 1 4 从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、 批处理、决策分析等各种数据处理工作,主要划分为两大类:操作型处理和分析 型处理( 或信息型处理) 。操作型处理也叫事务处理,是指对数据库联机的日常操 作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注 重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析, 经常要访问大量的历史数据。传统数据库系统能很好的完成企业的日常事务处理 工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。 操作型处理和分析型处理的分离成为必然。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专 有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建 立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处 理数据库在企业的信息环境中承担的是r 常操作性的任务。数据仓库是数据库技 术的一种新的应用。数据仓库是为分析数据而设计,它的两个基本的元素是维表 和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义, 北京工业大学工学硕士学位论文 事实表里放着要查询的数据,同时有维的i d 。 2 2 数据挖掘 数据挖掘是从大量数据中寻找其规律的技术,数据挖掘是在对数据集全面而 深刻认识的基础上,对数据内在和本质的高度抽象与概括,它可以从数据库中的 大量原始数据中提取人们感兴趣的、隐含的、尚未被发现的、有用的信息和知识。 主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选 取和集成用于据挖掘的数据;规律寻找是用每种方法将数据中的规律找出来;规 律表示是用尽可能符合用户习惯的方式将找出的规律表示出来。 2 2 1 数据挖掘的定义 数据挖掘的概念是1 9 9 5 年在美国计算机学会a c m 会议上首次被提出的。数据 挖掘正处在变动与发展过程中,还没有形成一个统一的定义,简单的说数据挖掘 是从大量数据中提取或挖掘出有用的知识。 数据挖掘又被称为知识发现( k d d ) ,k d d 一词是1 9 8 9 年8 月在美国底特律召 开的第1 1 届国际人工智能联合会议的专题讨论会上首次提出的。 目前对于数据挖掘,大家比较认同的定义是:数据挖掘是从大量的、不完全 的、有噪声的、模糊的原始数据中抽取隐含的,以前未知的,潜在有用的信息和 知识的过程n 5 。2 1 1 。 2 2 2 数据挖掘的过程 数据挖掘过程一般需要经历确定挖掘对象、数据准备、数据挖掘、结果分析、 知识应用,过程中各步骤的大体内容如下乜2 哪! : 1 、确定挖掘对象 定义挖掘问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结 构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带 有盲目性,是不会成功的。 2 、数据准备 数据的选择:搜索所有与挖掘对象有关的内部和外部数据信息,并从中选择 出适用于数据挖掘应用的数据。 数据的预处理:研究数据的质量,为进一步的分析作准备,并确定将要进行 的挖掘操作的类型。 第2 章数据仓厍与数据挖掘 数据的转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建 立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3 、数据挖掘 选择合适的挖掘算法,对所得到的经过转换的数据进行挖掘。 4 、结果分析 解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到 可视化技术。 5 、知识应用 数据挖掘的结果经过业务决策人员的认可,才能在实际中得到应用,为使挖 掘结果得到应用,需要将分析所得到的知识集成到业务信息系统的组织结构中去。 2 2 3 数据挖掘方法 数据预处理后,就可以进行数据挖掘了,在数据挖掘过程中,数据挖掘方法 是最为关键的,目前常用的数据挖掘的方法有聚类、关联规则等。 聚类着重于发现数据集中数据的共性和差异,通过描述数据对象的一组属性, 按照类间相似度最小,类内相似度最大的原则,将无标识的对象划分成为不同的 类属。聚类分析在企业的应用极其广泛。企业通过聚类可以从消费者中区分出具 有不同特征的消费者群,并给出每一类群体的消费模式,从而为营销决策提供有 力的指导,例如正确地细分产品市场和客户,挖掘潜在顾客,提高顾客忠诚等。聚 类分析涉及到人类活动的方方面面,它帮助人们发现数据类的特征,在市场研究, 数据分析等许多领域发挥了巨大的作用。 关联规则是要发现数据库中变量和个体之间关系程度,也就是要发现大量数 据中项集之间有趣的关联或相关联系。在关联规则挖掘中,典型的例子就是购物 篮分析,该分析过程就是通过分析顾客所购买的不同商品之间的联系,来挖掘顾 客的购买习惯,并帮助销售商制定营销策略。a p r i o r i 算法是关联规则里一项基 本算法。是由r a k e s ha g r a w a l 和r a m a k r i s h n a ns r i k a n t 两位博士在1 9 9 4 年提出 的关联规则挖掘算法。关于这个算法有一个非常有名的”尿布和啤酒”的故事。关 联规则算法中有两个重要的参数支持度和置信度。支持度就是指x 项集和y 项集 中,同时发生x ,y 事件的概率。置信度就是指x 项集和y 项集中,x 事件发生的 概率下,y 事件发生的概率。 数据挖掘方法中除了前面讲到的聚类、关联规则外,还有许多其他方法,如 分类、统计分析、特征规则等。各种方法都从不同角度对数据挖掘进行了诠释, 显示了数据挖掘理论和方法的优越性和广泛的适用性。 北京工业大学工学硕士学位论文 2 3 本章小结 本章介绍了数据仓库的基本理论,以及数据仓库的体系结构和数据仓库的模 型,数据仓库与数据库的关系;并分析了数据挖掘的意义,数据挖掘的步骤和常 用方法,为后面章节数据仓库构建和数据挖掘打下了基础。 根据数据仓库构建的相关理论,结合教育考试数据仓库的实际需求,完成了 教育考试数据仓库系统的构建。教育考试数据仓库系统是建立在教育考试院现有 的业务系统的基础之上,构建分为需求分析、系统架构设计、主题分析、模型设 计、e t l 等几个过程。 3 1 业务需求分析 3 1 。1 业务现状 教育考试是我国选拔人才的重要方式,教育考试环境直接关系到选拔和培养 合格的人才,国家和北京市有关部门历来非常重视。北京教育考试院负责北京地 区各类教育考试组织和管理,近年来,考试院按照统筹规划和部署,已经进行了 一定程度的信息化建设,但各信息系统之间彼此隔离,形成信息孤岛,教育考试 资源无法有效的利用和共享。同时现有信息系统支持的业务面较窄,不能适应北 京教育考试院全面信息化的需求。因而,如何贯彻国家、北京市关于教育的一系 列方针政策,加强北京市各类考试和命题业务信息的汇总管理、查询统计、决策 支持、社会服务工作,保证其规范、安全、合理、可持续的进行是北京教育考试 院当前的一项重要任务。 目前北京教育考试院负责的考试有中招、会考、成人招生、普通高考、自学 考试等教育考试以及p e t s 、计算机等级考试等社会考试,所有的考试管理均实现 了计算机化管理。 3 1 2 业务数据分析 通过对考试院各个业务部门数据资源进行调查,对现存各个业务系统的数据 进行了分析,为数据仓库的建立打下了基础。 数据按照来源划分,可分为:中招数据、会考数据、成人招生数据、普通高 考数据、自学考试数据、p e t s 数据、计算机等级考试数据等。来自不同业务系统 的数据在数据规模、产生频度等方面有巨大差别,如表3 1 所示。 北京工业大学工学硕士学位论文 表3 1 业务系统数据特性 t a b l e3 1t h ep r o p e r t yo fd a t ai na p p li c a t i o n 业务系统 频度 每次规模 数据格式 数据起 ( 业务部门)始年限 中招1 年1 次 考生人数1 0 万 o r a c l e2 0 0 1 报名1 年1 次 新考生8 万;考试人数 高中会考2 0 万;考试科次3 0 6 0 o r a c l e 2 0 0 2 考试1 年2 次 万 成人招生1 年1 次考生人数1 2 万 o r a c l e 2 0 0 l 普通高考1 年1 次考生人数8 万 d b f 2 0 0 1 报名1 年1 次 新考生4 万;考试人数 自学考试1 0 万;考试科次2 0 4 0 o r a c l e 2 0 0 l 考试1 年4 次 万 p e t s 1 年2 次考生人数2 5 万 o r a c l e2 0 0 4 命题处1 年数次 j p g s q ls e r v e r2 0 0 2 数据按照描述的对象划分,可分为:计划信息、考生信息、志愿信息、成绩 信息和录取信息等。因为各个业务系统独立设计开发,并且不同的业务对数据的 要求各不相同,因此,同一类信息在不同的业务系统中存在数据不一致,在设计 数据仓库模型时需要综合考虑,并在进行e t l 时,进行数据结构的转换。 各类数据的含义如下: ( 1 ) 计划信息 计划信息用在招生考试业务中,用于记录各个招生学校的录取计划,如中招 系统、成人招生、普通高考等。主要数据项为: 计划类型 一计划数 一计划属性代码 计划性质代码 一层次代码 学制 _ 院校收费标准 计划年份 第3 覃敦百考试数据仓厍的构建 ( 2 ) 考生信息 考生信息用于描述每名考生的相关信息,每个业务系统中均涉及该类信息, 但在不同业务系统,考生信息的差异非常大,数据项数量和组成各不相同,甚至 采用不同的i d 去标示每个个体。考生信息的主要数据项为: _ 报名号 姓名 _ 证件类型代码 证件号码 - 性别 -出生年月 - 政治面貌 - 民族 _ 学历 毕业学校 毕业专业名称 _ 毕业日期 一职业 一职称 _ 工作单位 联系电话 通讯地址 _邮政编码 电子邮件地址 - 照顾类型 一 报考科类 ( 3 ) 志愿信息 志愿信息用在招生考试业务系统中,用于记录各个考生所填写的志愿,如中 北京工业大学工学硕士学位论文 招系统、成人招生、普通高考等。 主要数据项为: 考生i d 志愿1 一志愿2 一 志愿8 _ 调剂 ( 4 ) 成绩信息 成绩信息用于记录各个考生的考试成绩,每个业务系统中均涉及该类信息。 不同类型的业务系统采用不同的数据结构描述成绩,在招生类考试和p e t s 中,采 用非1 范式来描述,即用一条记录来表示一个考生的全部成绩;在过程性考试中, 如会考和自学考试,采用规范化的关系来描述,即一条记录表示一个考生的一科 成绩。 招生类考试采用的主要数据项为: _ 考生i d - 成绩1 _ 成绩2 _ 成绩n _ 成绩标记 非招生类考试采用的主要数据项为: 考生i d - 科目 一成绩 _ 成绩等级 成绩标记 一 , 第3 章教育考试数据仓厍的构建 ( 5 ) 录取信息 录取信息用在招生考试业务系统中,用于记录各个考生被录取的情况,如中 招系统、成人招生、普通高考等。 主要数据项为: - 考生i d 一录取专业 - 录取学校 _ 录取方式 _ 投档方式 - 投档次数 一录取费 一操作人员 一操作日期 经过对数据的分析,得到了不同业务系统与各类数据之间的对应关系,如表 3 2 所示。 表3 2 各类数据与业务系统的对照 t a ble3 2t h em a po fd a t aa n da p p l i c a t i o n 业务系统 计划信息考生信息志愿信息成绩信息录取信息 ( 业务部门) 中招 - 高中会考 - 成人招生 -jj 普通高考 00t 自学考试 p e t s- 经过对现存业务系统产生的数据进行分析,可以看出北京教育考试院的数据 具有下列几个特点。 ( 1 ) 面向业务系统 数据结构的设计针对某个业务系统的特定需求,与业务系统密切结合,不同 业务系统即使有相同的数据,因结构的差异,也很难直接共享。 北京工业大学工学硕士学位论文 ( 2 ) 种类较多 业务系统涉及的数据种类非常多,总体来看可以分为:计划信息、考生信息、 志愿信息、成绩信息、录取信息等,此外,不同系统还有大量的代码信息。不同 业务系统所产生的数据的种类各不相同。 ( 3 ) 冲突严重 因数据是面向不同业务系统的需求而设计的,业务系统的数据存在严重的冲 突。主要有结构冲突、命名冲突、标度冲突等。 3 1 3 主题分析 数据仓库中的数据是面向主题组织的。主题对应着企业中某一宏观分析领域 所涉及的分析对象,是针对某一决策问题而设置的。 在确定教育考试数据仓库的分析主题时,主要考虑了以下几个因素: 数据的现状,即有什么样的数据可供分析使用,数据是否完整,数据是否 可用; 决策的需要,数据分析的最终目的是为决策提供服务,在建立数据仓库之 前要明确哪些是目前比较敏感的问题,决策需要哪种类型的数据的支持; 实现的难度,数据仓库的建立是一个长期的工作,需要分步、分阶段完成, 前期优先选择易于实现的主题展开研究,便于及时看到效果。 目前,招生考试是社会关注的热点,招生考试的数据基础比较好,数据仓库 的分析主题选择招生考试中的考生、成绩和志愿。 ( 1 ) 考生主题 考生主题可以提供涉及考生属性的各类分析,如: 一各年度人数分布 _ 行政区域分布 _ 年龄分布 _ 考生类别分布 _ 考生科类分布 一考生身份分布 一 不同类型考试人数分布 以上各类信息的交叉分析 该主题的维度有: 一 , 第3 章教育考试数据仓库的构建 时间维度:考生报名时间,有年度和季两个粒度; 区域维度:考生所属的区域,有区县和学校两个粒度; 类别维度:应届、往届; 科类维度 身份维度 考试维度 志愿维度 理科、文科、综合; 团员、党员、民主党派、无党派、其它; 中考、高考、成人考试; 考生填报的第一志愿,包括院校信息,专业,身体等条件的特殊 要求,成绩要求,加面试要求。 此外还有年龄维度和性别维度。 ( 2 ) 成绩主题 成绩主题可以提供与成绩相关的各类统计分析,如: 各年度成绩统计 一不同学校
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 妇女家庭劳务合同模板(3篇)
- 竞业禁止协议补偿金测算与员工离职补偿机制研究
- 大型仓储物流货车驾驶员聘用及仓储管理服务合同
- 高效玉米供应链全程管理长期购销合作协议
- 离婚程序服务协议:从协议签订到离婚的全方位指导
- 细化版住宅小区物业管理法规制度政策实施合同
- 劳动合同签订与企业人力资源规划合同
- 住宅小区物业管理权转让及社区环境治理协议
- (正式版)DB65∕T 3837-2015 《农田土壤残膜调查技术规范》
- 旅游度假村住宿租赁合同终止及费用结算协议
- 住房供给调控预案
- 培训行业转介绍
- 文科物理(兰州大学)学习通网课章节测试答案
- 人教版高二数学(上)选择性必修第一册1.2空间向量基本定理【教学设计】
- catia考试图纸题目及答案
- pos机风险管理办法
- 2025年行业机器人边缘计算技术应用与场景分析
- 2025年安徽省公务员录用考试《行测》真题及答案
- 2025年加油站行业需求分析及创新策略研究报告
- 山河已无恙+吾辈当自强+课件-2025-2026学年高二上学期用《南京照相馆》和731上一节思政课
- 中国兽药典三部 2020年版
评论
0/150
提交评论