(计算机软件与理论专业论文)面向高考招生的智能数据分析系统研究.pdf_第1页
(计算机软件与理论专业论文)面向高考招生的智能数据分析系统研究.pdf_第2页
(计算机软件与理论专业论文)面向高考招生的智能数据分析系统研究.pdf_第3页
(计算机软件与理论专业论文)面向高考招生的智能数据分析系统研究.pdf_第4页
(计算机软件与理论专业论文)面向高考招生的智能数据分析系统研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)面向高考招生的智能数据分析系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向高考招生的智能数据分析系统研究 摘要 近年来,随着我国大众化高等教育的普及,高考考生数量的激增,给面向高考 招生的数据分析与管理工作带来了诸多问题。数据挖掘技术是一种从大量的数据集 中,提取隐含潜在的有用信息和知识的过程,为决策支持服务,并已得到广泛的应 用。本文在对山西省历年高考招生数据及数据挖掘方法进行分析的基础上,将数据 挖掘技术应用于面向高考招生的智能数据分析进行了研究,取得了较好的效果。主 要研究工作为: 一、在对现有高考数据管理方法深入分析的基础上,设计了面向高考招生的智 能数据分析系统,并给出了系统的功能模块、实现技术及运行环境等。 二、给出了一种基于支撑向量机( s v m ) 的招生人数智能数据分析方法。该方法 首先,通过非线性映射将考生信息向量映射到一个高维特征空间;然后,选择合适 的核方法尽量减小预测误差,并结合数据分布特征通过训练得到所选核方法相应的 参数;最后,基于上述思想开发出s v m 仿真子系统,对输入的各年度各院校各专业 计划招生人数、报考人数和实际招生人数作为输入变量,对下一年度招生情况进行 预测。 三、给出了一种基于粗糙集理论的高考单科成绩智能数据分析方法。该方法首 先,运用离散归一化法对高考单科成绩数据进行预处理;其次,利用信息熵给出条 件属性中哪些属性最大程度地改变了决策属性和分类,以此来确定哪些条件属性最 重要;最后,对某门高考招生课程成绩的各个部分进行了分析,得到对整体成绩影 响最重要的部分,从而可以进行客观的决策。 在上述研究开发的高考智能数据分析系统中,应用支撑向量机方法模拟了真实 的山西省高考招生数据,预测下一年度各院校的招生人数,从而为各大专院校制定 相关的招生计划提供参考依据;应用粗糙集理论对山西省高考考生成绩进行了分 析,从而为进一步完善高考成绩管理系统提供技术支持。 关键字:数据挖掘;高考招生;智能数据分析;粗糙集;支撑向量机 r e s e a r c ho n a n a l y s i so fi n t e l l i g e n td a t ai na d m i s s i o ns y s t e m m a jo r :c o m p u t e rs o f t w a r ea n dt h e o r y g r a d u a t en a m e k o n gx i a o b i n d i r e c t e db y :p r o f z h a n gj i 向:a s s o c i a t ep r o f z h a n gs u l a n a b s t r a c t i nr e c e n t y e a r s ,w i t ht h ef a c t t h a to u rc o u n t r y sh i g h e re d u c a t i o n p o p u l a r i z a t i o na n de x a m i n e eq u a n t i t yi n c r e a s i n gs h a r p l y , al o to fp r o b l e m f o rt h ed a t aa n a l y s i sa n dm a n a g e m e n th a v eb e e nb r o u g h ta b o u t d a t am i n i n g i st h ep r o c e s so fd i s c o v e r i n gi n t e r e s t i n gi n f o r m a t i o na n dk n o w l e d g ew h i c h c a nb ea p p l i e dt od e c i s i o nm a k i n gf r o ml a r g ea m o u n to fd a t as e t o nt h e b a s i so ft h ea n a l y s i so fm i n i n gm e t h o da n dt h eh i s t o r yd a t ao ft h ea d m i s s i o n i n f o r m a t i o n s y s t e m ,i n t h i s p a p e r , o n et e c h n o l o g yo fi n t e l l i g e n td a t a a n a l y s i s o r i e n t e d c o l l e g e e n t r a n c ee x a m i n a t i o ni n f o r m a t i o n s y s t e m i s r e s e a r c h e da n dg a i n e db e r e re f f e c t t h em a i nr e s e a r c hw o r ki sa sf o l l o w : 一、b a s e do nt h ed e e pa n a l y s i so fh i g h e re n t r a n c ee x a m i n a t i o nd a t a m a n a g e m e n t ,i n t e l l i g e n td a t aa n a l y s i ss y s t e mo r i e n t e dh i g h e ra d m i s s i o ni s d e s i g n e d ,a n df u n c t i o nm o d e l s ,r e a l i z a t i o nt e c ha n dr u ne n v i r o n m e n t ,e t ca r e i n c l u d e di nt h es y s t e m 二、am e t h o do fi n t e l l i g e n td a t aa n a l y s i so fh i g h e re x a m i n a t i o nr e c r u i t b a s e do ns v mi s p r e s e n t e d f i r s t ,t h r o u g h n o n l i n e a rm a p p i n g ,t h e i n f o r m a t i o nv e c t o ro ft h ee x a m i n e ea r em a p p e di n t oh i g hd i m e n s i o n c h a r a c t e rs p a c e s e c o n d ,t h ep r o p e rc o r ei ss e l e c t e dt or e d u c ep r e d i c a t ee r r o r a n dc o r r e s p o n d e n tp a r a m e t e r sa r ea c q u i r e dt h r o u g ho p t i m i z a t i o n f i n a l l y , s v ms i m u l a t i o ns y s t e mi sd e s i g n e da c c o r d i n gt ot h em e t h o d b yi n p u t t i n g t h en u m b e ro ft h ep r o f e s s i o n a ls c h e m ee n r o l m e n to fa l lt h ei n s t i t u t i o n sa n d t h ea c t u a ln u m b e ro fs t u d e n t sr e g i s t e r e df o rt h en u m b e ro fv a r i a b l e s t h e n e x ta n n u a le n r o l l m e n ti sf o r e c a s t e d 三、am e t h o do fi n t e l l i g e n td a t aa n a l y s i so fs o m eo n es u b je c ti nh i g h e r e x a m i n a t i o nr e c r u i tb a s e do nr o u g hs e tt h e o r yi sp u tf o r w a r d f i r s t ,b y m a k i n gu s eo ft h ed i s c r e t en o r m a l i z a t i o n ,s c o r ed a t ao fs o m es u b j e c to f t h e c o l l e g ee n t r a n c ee x a m i n a t i o na r ep r e t r e a t e d s e c o n d l y , t h ei m p o r t a n c eo f c o n d i t i o na t t r i b u t e si sd e c i d e db yt h ee x t e n tt oc h a n g et h ed e c i s i o n - m a k i n g p r o p e r t i e s a n dc l a s s i f i c a t i o nt h r o u g ht h ei n f o r m a t i o ne n t r o p y f i n a l l y , t h r o u g ha n a l y z i n gv a r i o u sp a r t so f s o m eo n ec o u r s e ,t h em o s ti m p o r t a n tp a r t w h i c ha f f e c t st h eo v e r a l ls c o r ei sa c q u i r e da n dc a nm a k ea no b je c t i v e d e c i s i o nm a k i n g b a s e do nt h ea b o v ei n t e l l i g e n td a t aa n a l y s i ss y s t e mo r i e n t e dh i g h e r a d m i s s i o n ,t h ea c t u a lh i g ha d m i s s i o nd a t ao fs h a nx ip r o v i n c ea r es i m u l a t e d t h r o u g ht h ea p p l i c a t i o no fs v m ,r e c r u i tn u m b e ro fn e x ty e a ri sf o r e c a s t e d , a n da c c o r d i n g l yp r o v i d er e f e r e n c ef o rt 1 1 eo t h e rc o l l e g e s s c o r eo fa d m i s s i o n s y s t e mi sa n a l y z e db yr o u g hs e tt h e o r ya n d t h em a n a g e m e n ts y s t e mo fh i g h a d m i s s i o ns y s t e mi sg r e a t l yi m p r o v e d k e yw o r d s :d a t am i n i n g ;h i g he n t r a n c ee x a m ;i n t e l l i g e n td a t aa n a l y s i s ; r o u g hs e t ;s v m 承诺书承话吊 本人郑重声明:所呈交的学位论文,是在导师指 导下独立完成的,学位论文的知识产权属于太原科技 大学。如果今后以其他单位名义发表与在读期间学位 论文相关的内容,将承担法律责任。除文中已经注明 引用的文献资料外,本学位论文不包括任何其他个人 或集体已经发表或撰写过的成果。 位2 0 鬻0 , e j c 删式够年f乒日 第一章绪论 第一章绪论 帚一早珀t 匕 近年来,随着我国大众化高等教育的普及,高考考生数量的激增,给面向高考 招生的智能数据分析与管理工作带来了诸多问题。考虑到数据挖掘技术是对庞大的 数据进行较高层次的处理,从中找出规律和模式,本文将数据挖掘技术应用于面向 高考招生的智能数据分析系统中进行数据分析,进而提取出隐藏在数据之中有用的 信息。 1 1 高考信息系统概述 1 1 1 研究背景 目前,每年参加高考的人数越来越多,已达到了千万级的规模,据教育部公布, 2 0 0 7 年全国普通高校招生报名人数约1 0 1 0 万名,比2 0 0 6 年增加了6 0 万名,面向 高考招生的数据分析系统也愈加庞大,包括了各种子系统和各类数据库,如成绩管 理、招生管理等,积累了大量的数据。管理人员只能通过简单的统计或排序等功能 获得表面的信息,由于缺乏信息意识和技术,隐藏在这些大量数据中的信息一直没 有得到应用。如何对这些数据进行重新利用,将现有的管理数据转化为可供使用的 知识,提高高中教育管理的决策性,提高高校招生管理水平和办学质量,是很多教 育部门正在考虑的问题。 随着数据库技术的广泛应用,数据库中存储的数据量急剧增大。数据库系统提 供了对这些数据的管理和处理功能,人们可以对这些数据进行分析研究。但面对如 此庞大的数据就需要进行较高层次的处理,从中找出规律和模式,以帮助人们更好 地利用这些数据进行决策和研究。数据挖掘( d a t a m i n i n g ) n 1 技术就是在这样一个背 景下产生的,它的宗旨就是在数据库中发现有用的知识。数据挖掘是从大量的、不 完全的、有噪声的、模糊的数据中,提取隐含在其中潜在有用的信息和知识的过程。 数据挖掘技术从一开始就是面向应用的,它对数据从微观到宏观的统计、分析、综 合和推理,指导实际问题的解决,发现事物之间的相互关联并做出预测,在科学研 究、市场营销、金融市场分析与预测、欺诈甄别、医疗保健、现代化教育和通信网 络管理等许多领域得到了广泛的应用。目前,数据挖掘已经成为计算机科学与工程 研究的一个热点。我国教育界也一直在探讨如何加快教育的现代化,信息化建设, 如何加强学生的素质教育,如何为考生提供更人性化的服务体现以人为本的现代化 教育精神。 面向高考招生的智能数据分析系统研究 1 1 2 高考信息系统下数据挖掘的意义 数据挖掘作为知识开发和创新的教学工具在国际上广泛地应用于金融、市场开 发、医疗诊断决策、交通管理和企业业绩评估等众多的社会信息化领域,以此提高 上述行业数据分析的可靠性和精确度,但数据挖掘在国内各个领域的应用都不太成 熟,目前达到理想状态的应用还很少,多数用户仍处于摸索阶段。 在教育考试领域,随着计算机的普及与发展,越来越多的考试的信息使用了计 算机进行处理和存放,大大减少了手工处理的工序,减少了存储的空间,提高了存 储的安全和便捷性。这样就存在了大量的各种考试的数据,如何根据不同考试的要 求和特征,找出这些考试数据中的必然联系和潜在的关系已经成为各种考试管理机 构的必然的需求。由于以前数据挖掘在教育考试系统中只是一个潜在的需要,没有 太多的人去重视它,因而它应用在教育考试系统中也没有太多的先例。 高考考生成绩是评估教学质量的重要依据,也是学生是否掌握好所学知识的重 要标志,同时努力提高学生学习成绩也是每一所学校的目标。影响学生的学习成绩 的因素很多,但传统的学生学习成绩分析无非是得到均值、方差、区别显著性检验、 信度、效度等,往往还是基于教学本身来考虑,其实即使在教学中还有一些不易察 觉的因素隐含其中,何况还有教学以外的因素影响学生学习成绩,这些都是需要进 一步分析,从而得出结论,供教学管理人员做出相应的决策。但这些信息无法从传 统的学生成绩分析方法获得,而可以通过从2 0 世纪9 0 年代中期兴起的数据挖掘技 术获得,以找到影响学生学习成绩的真实原因,来制定相应措施,提高教学质量和 效果。 另外,一般认为高考招生是国家高等教育政策调整的结果,其实也不尽然。高 考招生与国家政策虽然有着一定的相关性,但它本身却是一个非线性的、复杂的、 开放的系统,是诸多因素相互作用的结果。它的影响因素有哪些? 各因素间是否存 在关联? 哪些是原因? 哪些是结果? 是否存在着既是原因又是结果的情况等,我们 还不十分清楚。运用何种手段来研究中国高等教育的发展趋势,以及使在校大学生 数量的增长能更科学、更客观地反映中国的实际情况,一直是众多专家学者研究的 一个课题。但此前的一些研究表明,传统的分析方法存在许多弊端。因此,必须采 用一种新的科学方法。支撑向量机方法口1 就是这样一种新的方法,它具有非线性、 快速、并行分布处理、自学习、处组织、自适应等特点, 可以较为逼真地模拟真 实的高考招生系统,预测下一年各院校的招生人数,为各院校制定相关的招生计划 提供参考依据。 2 第一章绪论 1 2 数据挖掘技术 简单的说,数据挖掘是从大量的数据中提取或“挖掘”知识。数据挖掘应该 更正确地命名为“从数据中挖掘知识”。挖掘是一个很生动的术语,它抓住了从大 量的未加工的材料中发现少量金块这一过程的特点。 数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的 信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示 为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数据分析。 数据挖掘( d a t am i n i n g ) 2 j 也叫数据开采、数据采掘,就是按照既定的业务目 标从海量数据中提取可以解释为知识的规则( 或模式) ,包括关联规则、特征规则、 区分规则、分类规则、总结规则、偏差规则、聚类规则等。大多数据挖掘方法都基 于机器学习、模式识别、神经网络和统计学的试探( t r i e d ) 和测试( t e s t e d ) 。这些 技术对应的方法对于无论新手还是有经验的数据分析家都常常带有很大的迷惑性。 可以认为,数据挖掘方法主要有三部分组成:模型表示、模型评价和搜索。模 型表示是一种用于描述能够被发现的模式的语言。如果这种表示太受限制,再多的 时间和例子也不能够为数据产生一个精确的模型。对一个数据分析家来说,充分掌 握可能隐含在特定方法中的有代表性的假设是很重要的。同样,对一个算法设计者 来说,能够清楚地表达一个特定算法能做出什么样的有代表性的假设也非常重要。 注意,随着模型表示能力的增强,模型对于训练数据的过适应性( o v e rf i t t i n g ) 的 危险性也与之增加,从而导致它对未知数据的预测准确性降低。 模型评价标准是对一个特定模式( 模型及其参数) 满足k d d 过程目标的程度的定 量描述( 或适应性函数) 。例如,我们常常用模型对于测试数据的预测正确性来判断 其性能。描述模型可以通过其预测准确度、新颖性、可用性和可理解性的度量尺度 来评估。 搜索方法由两部分组成:参数搜索和模型搜索。模型表示和模型评价标准一旦 确定,数据挖掘问题就简化为纯粹的优化任务:从已选择的模型家族中寻找能够优 化评价标准的参数和模型。参数搜索时,算法必须在给定观察数据和固定的模型表 示的情况下,搜索能够优化模型评价标准的参数。模型搜索以循环的形式发生在参 数搜索方法之上,改变模型表示以便考虑整个模型家族。 1 2 1 数据挖掘技术产生 从数据中发现模式( p a t t e r n ) 的提法很多口1 ,如:知识发现( k d d ,k n o w l e d g e 面向高考招生的智能数据分析系统研究 d i s c o v e r yi nd a t a b a s e s ) 、知识提取、信息收割、数据挖掘、数据采集等。1 9 8 9 年在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨论会上首次出现了 k d d 这个术语。随后,在1 9 9 1 年、1 9 9 3 年和1 9 9 4 年都举办了k d d 专题讨论会,汇 集了来自各个领域的研究人员和应用开发者,集中讨论了数据统计、海量数据分析 算法、知识表现、知识运用等问题。随着参加会议人数的不断增多,从1 9 9 5 年开 始,每年都要举办一次k d d 国际会议。另外,从1 9 9 7 年开始,k d d 拥有了自己的专 门杂志k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g 。 k d d 方法应用于信息、决策支持和查询过程。各种不同的方法应用于发现不同 的知识,从而需要选择不同的技术。数据挖掘是近年来随着数据库和人工智能技术 的发展而出现的一个全新的信息技术,同时也是计算机科学与技术迫切需要解决的 重要课题。 1 2 2 数据挖掘的定义 数据挖掘的一种比较公认的定义是w j f r a w l e y 、p i a t e t s k y s h a p r i o 等人提 出的 4 。们:数据挖掘,就是从数据中获取正确、新颖、有潜在应用价值和最终可理解 模式的非平凡的过程。下面对一些概念作详细的解释: 数据:是一组事实f 的集合( 如关系数据库中的记录) ,它是描述事物有关方面 的信息,一般来说这些数据都是准确无误的。 模式:是一个用语言l 来表示的一个表达式e ,它可以用来描述数据集f 的某 个集f e 。只有当表达式e 比列举的所有f e 中元素的描述方法更为简单时,才可以 称之为模式。 过程:数据挖掘是一个多阶段的处理过程,它涉及数据预处理、模式提取、知 识评价及过程优化,该过程具有迭代的性质;而“非平凡的”是指其要有一定程度 的智能性和自动性。 有效性:是指发现的模式对于新的数据仍保持有一定的可信度,否则数据挖掘 就毫无疑义。 新颖性:经过数据挖掘提取出的模式必须是新的。 潜在有用性:是指发现的知识将来有实际效用,如用于决策支持系统里可以提 高经济效益。 可理解性:数据挖掘的一个目标就是将数据中隐含的模式能被用户理解,目前 它主要表现在简洁性上。 4 第一帝绪论 其中,有效性、新颖性、潜在有用性和可理解性综合在一起可称之为兴趣性。 基于广义的数据挖掘观点,典型的数据挖掘系统具有以下主要成分,如图1 1 所示。 清 图形用户界面 lt l 模式评估 知 t识 数据挖掘引擎库 1, t 数据库或数据仓库服务器 jlj l ! 与集成过滤 数据库数据仓库 图1 1典型的数据挖掘系统 ( 1 ) 数据库、数据仓库或其它信息库:这是一个或一组数据库、数据仓库、电子 表格或其它类型的信息库,可以对其进行数据清理和集成。 ( 2 ) 数据库或数据仓库服务器:根据用户的数据挖掘请求,服务器负责提取相关 数据。 ( 3 ) 知识库:领域知识用于指导搜索,或评估结果模式的兴趣度。 ( 4 ) 数据挖掘引擎:它是数据挖掘系统的基本部分,由一组功能模块组成,用于 特征化、关联、分类、聚类分析以及演变和偏差分析。 ( 5 ) 模式评估模块:通常它使用兴趣度度量,并与数据挖掘模块交互,以便将搜 索聚焦在有趣的模式上。 ( 6 ) 图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交 互,指定数据挖掘查询或任务,提供提示信息,帮助搜索聚焦。此外,它允许用户 浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式进 行可视化。 面向高考招生的智能数据分析系统研究 1 2 3 数据挖掘的功能 数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差分 析等陋 。 ( 1 ) 关联分析( a s s o c i a t i o na n a l y s i s ) 两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立起 这些数据项的关联规则。数据关联是数据库中存在的一类重要的、可被发现的知识, 它反映一个事件和其他事件之间依赖或关联。如果两项或多项属性之间存在关联, 那么其中一项的属性值就可以依据其他属性值进行预测。 例如,买面包的顾客中9 0 还会买牛奶,这就是一条关联规则。在商场中将这 两样物品摆放在一起销售,将会提高销售量。 在大型数据库中,这样的关联规则可以产生很多,这就需要进行筛选。一般用 “支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。 ( 2 ) 聚类分析( c l u s t e r i n g ) 聚类是把数据按照它们的相似性归纳成若干类别,同一类别中的数据距离较 小、彼此相似,不同类别中的数据距离偏大、彼此相异。聚类分析可以建立宏观的 概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。 聚类方法包括统计分析方法、机器学习方法和神经网络方法等。 在统计分析方法中,聚类分析是基于距离的聚类。这种聚类分析方法是一种基 于全局比较的聚类,它需要考察所有的个体才能决定类的划分。 在机器学习方法中,聚类是无导师的学习。此时距离是根据概念的描述来确定 的,又称为概念聚类,当聚类对象动态增加时,概念聚类则称为概念形成。 在神经网络中,自组织神经网络方法用于聚类。如a r t 模型、k o h o n e n 模型等, 这是一种无监督学习方法。当给定距离阈值后,各样本按阈值进行聚类。 ( 3 ) 分类( c l a s s i f i c a ti o n ) 分类是数据挖掘中应用得最多的任务。分类就是找出一个类别的概念描述,并 用这种描述来构造模型( 一般用规则或决策树模式表示) 。类别的概念描述代表着这 类数据的整体信息,也就是该类的内涵描述。 类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特 征的描述。辨别性描述是对两个或多个类之间的区别的描述。 分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的特性,经 过有关算法,为每一个类找到一种准确的描述或者模型,并使用这种类的描述对未 6 第一章绪论 来的测试数据进行分类。 ( 4 ) 预测( p r e d i c a t i o n ) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类 及特征进行预测。 典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线性 或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时 间的状态。 近年来,发展起来的支撑向量机方法实现了非线性样本的学习,能进行非线性 函数的判别分类也能进行预测,但分类一般用于离散数值;回归预测用于连续数值; 支撑向量机方法预测既可以用于连续数值,也可以用于离散数值。 ( 5 ) 时序模式( t i m e s e r i e sp a t t e r n ) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样, 它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。 在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比 ( 最小支持度阈值) 的规则。这些规则会随着形势的变化作适当的调整。 时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方法, 要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。 ( 6 ) 偏差分析( d e v i a t i o n ) 数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常 重要的。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观 测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 1 2 4 数据挖掘的对象 数据挖掘的对象主要是关系数据库。随着数据挖掘技术的发展,逐步进入到空 间数据库、时态数据库、文本数据库、多媒体数据库、环球网等。文字、音频、图 像、视频等多媒体数据己逐渐成为信息领域的重要表现形式。音频、视频的数据量 很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。 目前,对多媒体数据的处理只能在存取、编辑、集成、快进快退等基本操作上, 对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限性很大。目前兴起的 基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息, 7 面向高考招生的智能数据分析系统研究 己成为研究的热点。基于内容的音频、视频信息的聚类、分类、相似查询等数据挖 掘技术正在兴起。 1 2 5 数据挖掘的过程 数据挖掘是一个多阶段的过程。一般情况下,它可以分为三个主要阶段,即: 数据准备、数据挖掘、结果表达和解释。知识发现( k d d ) 过程是这三个阶段的反复 过程。 ( 1 ) 数据准备阶段 数据准备在整个数据挖掘过程中占的比例最大,通常达到6 0 左右。这个阶段 又可以进一步划分成三个子步骤:数据选择( d a t as e l e c t i o n ) ,数据预处理( d a t a p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。数据选择主要指从已存在的数据 库或数据仓库中提取相关数据,形成目标数据( t a r g e td a t a ) 。数据预处理对提取 的数据进行处理,使之符合数据挖掘的要求。它的主要工作有检查拼写错误,去掉 重复的记录,补上不完全的记录,推导计算缺失数据,完成数据类型转换,等等。 数据变换的主要目的是消除数据维数,即从初始特征中找出真正有用的特征以减少 数据挖掘时要考虑的特征或变量个数。 ( 2 ) 数据挖掘阶段 这一阶段进行实际的挖掘工作。首先是算法规划,即决定采用何种类型的数据 挖掘方法,如数据总结、分类、聚类、关联规则发现或序列模式发现等。然后,针 对该挖掘方法选择一种算法。而算法的选择直接影响着所挖掘模式的质量。完成了 上述的准备工作后,就可以运行数据挖掘算法了。这个阶段是数据挖掘分析者和相 关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。 ( 3 ) 结果表达和解释阶段 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出 来。对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无 关的模式要将其删除;对于不能满足用户要求的模式,则需要退回到上一阶段,如 重新选取数据、采用新的数据变换方法、设定新的参数值,甚至采用其他的数据挖 掘算法。另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化, 或者把结果转换为用户易懂的其他方式,例如把分类决策树转化为“i f t h e n 规则。 此外,有些学者在上述三个阶段的前后又增加了两个阶段,分别是:目标定义 8 第一章绪论 阶段( o b j e c t i v e sd e t e r m i n a t i o n ) 和知识吸收阶段( a s s i m i l a t i o no fk n o w l e d g e ) 。 目标定义阶段要求定义出明确的数据挖掘目标。目标定义是否适度将影响到数据挖 掘的成败,因此往往需要具有应用领域知识的人员和具有数据挖掘经验的技术人员 合作进行。而知识吸收阶段主要针对各个应用领域,例如商业公司的决策者将数据 挖掘新发现的一组关联规则应用到新产品的促销活动之中。 1 2 6 数据挖掘的方法和技术 根据数据挖掘的数据库类型分类,有如下几种数据库或数据源:关系型 ( r e l a t i o n a l ) 数据库、事务型( t r a n s a c t i o n a l ) 数据库、面向对象型 ( 0 b j e c t e d 一0 r i e n t e d ) 数据库、主动型( a c t i v e ) 数据库、空间型( s p a t i a l ) 数据库、 时间型( t e m p o r a l ) 数据库、文本型( t e x t u a l ) 数据库、多媒体( m u l t i m e d i a ) 数据库、 异质( h e t e r o g e n e o u s ) 数据库及互联网( w e b ) 等。 根据采用的数据挖掘方法分类,可粗分为:统计方法、机器学习方法、神经网 络方法和数据库方法。统计方法中,可以细分为:回归分析( 多元回归、自回归等) 、 判别分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析( 系统聚类、动态 聚类等) 、探索性分析( 主元分析法、相关分析法等) 等。机器学习中,可以细分为: 归纳学习法( 决策树、规则归纳等) 、基于范例学习、遗传算法等。神经网络方法中, 可以细分为:前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映射、竞争 学习等) 等。支撑向量机方法中,可以细分为:分类算法( 留一法等) 、回归算法等。 数据库方法主要是多维数据分析或o l a p 方法,另外还有面向属性的归纳方法。 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析 方法、模糊教学方法及可视化技术,以数据库为研究对象,形成了数据挖掘的方法 和技术。 数据挖掘的方法和技术可分为以下六大类: a 归纳学习法 归纳学习法是目前重点研究的方向。从采用的技术上看,分为信息论方法和集 合论方法。 ( 1 ) 信息论方法( 决策树方法) 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策树是一种 简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较 直观的,因而比较易于理解。该类方法的实用效果好,影响较大。由于该方法最后 9 面向高考招生的智能数据分析系统研究 获得的知识表示形式是决策树,故一般称它为决策树方法。这种方法一般用于分类 任务中。信息论方法中较有特色的方法有:i d 3 、i b l e 方法。 ( 2 ) 集合论方法 集合论方法是开展较早的方法。近年来,由于粗集理论的发展使集合论方法得 到了迅速的发展。这类方法中包括:概念树方法和粗糙集方法口3 。 b 聚类方法 聚类分析是直接比较样本中各样本之间的距离,将距离较近的归为一类,而将 距离较远的分在不同类中。它把一个给定的数据对象集合分成不同的簇,是一种无 监督分类法。其中较有特色的方法有:k - m e a n s ( k 一平均值) 、c l a r a 算法、b i r c h 算 法、c h a m e l e o n ( 变色龙) 算法和c l i q u e 算法等。 c 统计分析方法 这是利用统计学原理对数据库中的数据进行分析的方法,统计分析既是一门独 立的学科,也作为数据挖掘的一大类方法。统计分析方法包括有:常用统计( 如求 大量数据中的最大值、最小值、总和、平均值等) 、相关分析( 求相关系数来度量变 量间的相关程度) 、回归分析( 求回归方程来表示变量间的数量关系) 、差异分析( 从 样本统计量的值得出差异,来确定总体参数之间是否存在差异) 、判别分析( 建立一 个或多个判别函数,并确定一个判别标准。对未知对象利用判别函数将它划归某一 个类别) 、b a y e s 网络( 利用联合概率和b a y e s 公式所描述的各网络变量间的因果关 系来进行数据分析) 。支撑向量机口1 ( s u p p o r tv e c t o rm a c h i n e ,s ) 是近年来受 到广泛关注的一类学习机器,它以统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 为基础,具有简洁的数学形式、标准快捷的训练方法和良好的泛化性能,已 广泛应用于模式识别、函数估计和时间序列预测等数据挖掘问题。 d 仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法己经形成了独 立的研究体系,它们在数据挖掘中也发挥了巨大的作用。 ( 1 ) 神经网络方法 它是模拟了人脑神经元结构,以m p 模型和h e b b 学习规则为基础的,建立了三 大类多种神经网络模型( 前馈式网络、反馈式网络、自组织网络) 。 神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结构。神经网络 的学习体现在神经网络权值的逐步计算上( 包括反复迭代或者是累加计算) 。当需要 从复杂或不精确数据中获得概念比较困难的时候,利用神经网络技术特别有效。经 1 0 第一章绪论 过训练后的神经网络就像是具有某种专门知识的“专家9 9 9 因此可以像人一样从经 验中学习。 ( 2 ) 遗传算法 这是模拟生物进化过程的算法。它由繁殖( 选择) 、交叉( 重组) 、变异( 突变) 三 个基本算子组成。 这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经过若干 代的遗传,将得到满足要求的后代( 问题的解) 。遗传算法已在优化计算和分类机器 学习方面发挥了显著的效果。 e 可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例 如把数据库中多维的数据变成多种图形,这对于揭示数据中的状况,内在本质以及 规律性起到很强的作用。 可视化数据挖掘的目的是使用户能够交互地浏览数据及挖掘过程,提高数据挖 掘效果。可视化技术在数据挖掘的各个阶段都扮演着重要角色。如在数据准备阶段, 使用散点图、直方图等统计可视化技术显示源数据,可以对数据有个初步的了解, 为更好的选取数据打下基础。在挖掘阶段,用可视化形式描述各种挖掘过程,从中 用户可以看出数据从哪个数据仓库或数据库中抽取出来,怎样抽取以及怎样预处 理,怎样挖掘等。在表示结果阶段,用可视化技术使发现的知识更易于理解。 f 模糊数学方法 由于模糊性是客观的存在,而且系统的复杂性愈高,使精确化能力便愈低,这 就意味着模糊性愈强。这是z a d e h 总结出的互克性原理陋1 。 利用模糊集合理论可对实际问题进行模糊评判、模糊决策、模糊模式识别、模 糊关联规则和模糊聚类分析。 g 其它的方法 还有许多其它的方法如逻辑回归方法、关联规则方法、最近邻方法、文本采掘、 w e b 采掘、序列分析、h 1 f b r i d 等阳1 ,也常被一些特定领域广泛采用。 1 3 研究内容与论文结构安排 本文利用数据挖掘中的支撑向量机方法和粗糙集理论,提取面向高考招生的智 能数据分析系统的数据的特征属性,并根据系统特征属性生成预测模型和分类模 型。其研究的目标是,针对山西省高考招生数据,采用数据挖掘方法和手段,研究 面向高考招生的智能数据分析系统研究 开发面向高考招生的智能数据的分析系统,服务于教学管理部门和学生。论文结构 安排如下: 第一章绪论部分主要介绍了论文的研究背景和研究意义,同时介绍了数据挖 掘的基本知识,包括数据挖掘的过程、数据挖掘的任务、数据挖掘的分类以及数据 挖掘的常用技术和方法。 第二章对高考数据管理的必要性和研究现状进行了分析,通过研究目前高考 信息系统存在的不足,进而分析了高考招生信息系统智能分析的必要性。最后介绍 了面向高考招生的智能数据分析系统的组成、实现技术及运行环境等。 第三章支撑向量机方法在面向高考招生中的应用。利用支撑向量机方法模拟 高考招生系统,预测下一年各院校的招生人数,为各院校制定相关的招生计划提供 参考依据。 第四章粗糙集理论在高考成绩分析中的应用。介绍和探讨并应用粗糙集理论 对考生成绩库中的数据进行分析,找出影响考生的各种因素,使学生能够较好地保 持良好的学习状态,从而为教学部门提供了决策支持信息,更好地开展教学工作, 提高教学质量。 第五章总结了论文的主要工作,并对数据挖掘技术在高考信息管理中的进一 步研究进行了分析和展望。 1 2 第二章面向高考招生的智能数据分析系统 第二章面向高考招生的智能数据分析系统 本章首先对高考数据管理的必要性和研究现状进行了分析,通过研究目前高考 信息系统存在的不足,进而分析了高考招生信息系统智能分析的必要性。最后介绍 了面向高考招生的智能数据分析系统的组成、实现技术及运行环境等。 2 1 高考信息中数据管理的现状 目前,每年参加高考的人数越来越多,已达到上千万的规模,据教育部公布, 2 0 0 7 年全国普通高校招生报名人数约1 0 1 0 万名,比2 0 0 6 年增加了6 0 万名,高考 信息数据也就愈加庞大,各种子系统和各类数据库,如成绩管理、招生管理等,积 累了大量的数据。在教育考试领域,随着计算机的普及与发展,越来越多的考试信 息使用了计算机进行处理和存放,大大减少了手工处理的工序,减少了存储的空间, 提高了存储的安全和便捷性。但是管理人员只能通过简单的统计或排序等功能获得 表面的信息,由于缺乏信息意识和技术,隐藏在这些大量数据中的信息一直没有得 到应用。如何对这些数据进行重新利用,将现有的管理数据转化为可供使用的知识, 提高高中教育管理的决策性,提高高校招生管理水平和办学质量,是很多教育部门 正在考虑的问题。 高中教育是基础教育的最高阶段。高中教育办得好坏,对于提高整个基础教育 的质量,对于各类人才培养和提高国民素质,关系极大。高中教育与其它教育相比, 相对地更受到百姓大众的关心,每年的高考成绩更成为社会极为关注的焦点。这里 面有片面追求升学率的问题,但也有其合理的面。高中教育除了为当地经济建设 培养合格的劳动者之外,本来就担负着向高等学府输送高质量新生的任务。从这一 点来讲,重视高考成绩,无论对于社会还是学校,都是正常的,也是应该的。那么, 良好的高考成绩从哪里来? 高中教师的认真授课固然重要,那么如何找出具体影响 学生成绩的因素也很重要,从而能够进而发现学生学习中共性的问题。 近年来,尽管中国一直在扩大高等教育招生规模,但仍不能满足广大考生和家 长的迫切要求。从高等教育发展阶段来看,北京、上海、广州等城市先后步入高等 教育大众化阶段,但由于中国是一个农业大国,在广大的中西部地区高等教育的入 学率仍是比较低的;从全国范围的平均入学率来说,2 0 0 1 年也只达到1 3 3 左右。 据联合国教科文组织计,1 9 8 5 - 1 9 9 5 年,各国平均高等教育毛入学率已从1 2 9 上 升到1 6 2 ,与之相比,我们仍存在着一定的差距。那么高考招生制度的制定有何 根据呢? 一般认为高考招生是国家高等教育政策调整的结果,其实也不尽然。高考 1 3 面向高考招生的智能数据分析系统研究 招生与国家政策虽然有着一定的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论