(应用数学专业论文)基于web的数据挖掘在高考志愿分析中的应用.pdf_第1页
(应用数学专业论文)基于web的数据挖掘在高考志愿分析中的应用.pdf_第2页
(应用数学专业论文)基于web的数据挖掘在高考志愿分析中的应用.pdf_第3页
(应用数学专业论文)基于web的数据挖掘在高考志愿分析中的应用.pdf_第4页
(应用数学专业论文)基于web的数据挖掘在高考志愿分析中的应用.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(应用数学专业论文)基于web的数据挖掘在高考志愿分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学硕士研究生学位论文第l 页 摘要 随着数据库技术的飞速发展,在各个应用领域都存储了大量的数据,其 中包含了很多有用的信息,如何发现各种数据库中隐藏的、预先未知的信息, 是数据挖掘技术的关键所在,对它的研究,目前国内外己经取得了许多令人 瞩目的成就,并成功地应用到了许多领域,但在高考志愿分析中的应用尚处 于起步阶段。根据相关规定,有关高考志愿的相关数据和由此得到的挖掘模 型只能存放于招生办公室的专用服务器中,而各招生部门和考生却是一个潜 在的多用户群体。为了解决这个问题,需要将w e b 服务用于数据挖掘系统中 来,为用户提供基于w e b 的数据挖掘查询环境,并在系统设计中着力解安全 陛问题。 本文首先探讨了数据挖掘技术和w e b 服务安全技术的基础理论,并且采 用数据挖掘技术对河南省近几年的高考志愿相关数据进行分析,探索数据背 舌隐藏的信息与知识,以达到为志愿决策支持提供参考建议的目的。 在此基础上,提出了结合w e b 服务技术的数据挖掘系统模型,对数据挖 魔系统的体系结构和代价模型进行了深入的分析,并给出了它的解决方案。 阳应地设计并实现了一个高考志愿分析系统( g z z y d m ) 。该系统针对w e b 服务 安全机制中存在的安全性、性能及扩展性方面的问题,对w e b 服务的s o a p 俏息进行基于消息的签名和加密,加强了高考志愿数据的安全性及隐私性。 g z z y d m 系统根据高考志愿数据的特点,在对其进行预处理的基础上,根 曙考生的成绩、科类、报考的专业和学校等特点对高考录取影响情况进行分 类和预测。并通过使用o l ed bf o rd a t am i n i n g 数据挖掘平台的开放接口 实现系统对多种数据挖掘算法的支持,可以在系统中使用s l i q ,n a i v e ;a y e s d 等多种分类算法。 在数据挖掘技术在高考志愿分析的应用方面,本文主要的贡献是: ( 1 ) 将数据挖掘技术同w e b 服务技术结合,设计并实现了一个高考志 愿分析系统; ( 2 ) 通过对w e b 服务的s o a p 消息进行基于消息的签名和加密,保障了 畚愿数据的安全性及隐私性; 关键词:数据挖掘;w 曲服务安全;高考志愿分析 第f i 页河南大学硕士研究生学位论文 a b s t r a c t w i t hd a t a b a s et e c h n i q u ed e v e l o p e dr a p i d l y ,a l la p p l i e dd o m a i n ss t o r a g e s g r e a ta m o u n t so fd a t aw h i c hc o n t a i nag r e a td e a lo fu s e f u li n f o r m a t i o n ,h o wt o f i n do u tt h eh i d d e na n du n k n o w ni n f b r m a t i o ni sw h e r et h es h o ep i n c h e so fd a t a m i n i n gt e c h n i q u e t h er e s e a r c ho f d a t am i n i n gh a sr e a c h e ds i g n i f i c a n t a c h i e v e m e n ta n dh a sb e e na p p l i e ds u c c e s s f - u l l yi nm a n ya r e a s h o w e v e r , a p p l i c a t i o no fd a t am i n i n gi nt h ef i e l do fc 0 1 l e g ee n t r a n c ee x a m i n a t i o n m a n a g e m e n ti ss t i l la tt h ei n i t i a ls t a g e a c c o r d i n gt ot h er e l e v a n tp r o v i s i o n s ,t h e c 0 1 1 e g ee n t r a n c ee x a m i n a t i o n sw i l l sa n dt h em o d e lc a no n l yb ed e p o s i t e di nt h e h i g h e re d u c a t i o na d m i s s i o no m c e d e d i c a t e ds e r v e r a n dt h ee n r o l l m e n t d e p a r t m e n t sa n dc a n d i d a t e si sap o t e n t i a lm u l t i - u s e rg r o u p s t bs 0 1 v et h i s p r o b l e m ,w e bs e r v i c ew i l lb en e e d e df o rd a t am i n i n gs y s t e m ,t op r o v i d eu s e r s w i t hw e b b a s e dd a t am i n i n ge n v i r o n m e n ta n dt h es y s t e md e s ig ns o l u t i o n s s h o u l df b c u so ns e c u r i t yi s s u e s t h i sp a p e rd i s c u s s e st h eb a s i ct h e o r yo fd a t am i n i n ga n dw e bs e r v i c e s e c u r i t yt e c h n o l o g y ,a n da n a l v z e st h ed a t ao fc o l l e g ee n t r a n c ee x a m i n a t i o n s w i l l si n f 6 r m a t i o no fh e n a np r o v i n c ei nt h er e c e n ty e a rw i t hd a t am i n i n g t e c h n 0 1 0 9 y ,s o m ei n f o r m a t i o na n dk n o w l e d g ea r em i n e d ,i no r d e rt oa t t a i nf o r t h ew i l l sm a k ep 0 1 i c ys u p p o r tp r o v i d e sar e f i e r e n c es u g g e s t i o no fp u r p o s e o nt h ef o u n d a t i o no ft h er e s e a r c h ,t h ed a t am i n i n gs y s t e mm o d e lb a s e do n w e bs e r v i c ea n di t sc o s tm o d e li sp r o p o s e d ,a n dp e r f 0 r m sad e e pa n a l y s i so ft h e a r c h i t e c t u r ea n dc o s tm o d e l so fd a t am i n i n gs y s t e m a c c o r d i n g l y ,w ed e s i g n a n di m p l e m e n tad a t am i n i n gs y s t e mo fc o l l e g ee n t r a n c ee x a m i n a t i o n sw i l l s ( g z z y d m )b a s e do n 厂e bs e r v i c e b e c a u s et h ep r o b l e ma b o u ts e c u r i t y , p e r f l o r m a n c ea n de x p a n s i b i l i t yw h i c hi su s e di nt h es e c u r i t ym e c h a n i s mo fw e b s e r v i c e t h i ss y s t e mg i v e sam e t h o do fi m p l e m e n t i n gs i g n a t l j r ea n de n c r y p t i o n o fs o a pm e s s a g ei si l l u s t r a t e d ,s t r e n g t h st h es e c u r i t ya n dp r i v a c yo fd a t a t h eg z z y d ms y s t e mb a s e do nc h a r a c t e r so ft h ec 0 1 l e g ee n t r a n c e e x a m i n a t i o n sw i l l si n f o r m a t i o na n dt a k i n gp r e t r e a t m e n to ni t ,b yc h a r a c t e r so f g r a d e ,s u b je c t ,r e q u e s t e ds d e c i a l t v ,s c h o o la n ds oo na b o u te x a m i n e e ,i tc o u l d c l a s s i f ya n df o r e c a s tt h ec 0 1 l e g ee n t r a n c ee x a m i n a t i o n m a t r i c u l a t ei n f o r m a t i o n a n dt h r o u g ht h eu s eo fo l ed bf o rd a t am i n i n gp l a t f o r mf o rt h eo p e ni n t e r f a c e s y s t e mt os u p p o r tav a r i e t vo f d a t am i n i n ga lg o r i t h m s ,i nt h es y s t e mw ec a nu s e s l i q ,n a i v eb a y e sa n do t h e rd a t am i n i n gc l a s s i f i c a t i o na l g o r i t h m s i n t h ea s p e c t so fd a t am i n i n gi nt h ea n a l y s i so fc o l l e g ee x a m i n e e si n c o l l e g ee n t r a n c ee x a m i n a t i o n sw i l l s 。m a i nc o n t r i b u t i o no ft h i sp a p e ri s : 1 c o m b i n ed a t am i n i n gt e c h n o l o g yw i t h 色bs e r v i c e ,d e s i g n e da n d i m p l e m e n t e dad a t am i n i n gs v s t e mo fc o l l e g ee n t r a n c ee x a m i n a t i o n sw i l l s 2 t h r o u g ht h ei m p l e m e n t i n gs i g n a t u r ea n de n c r y p t i o no fs o a pm e s s a g e , 河南大学硕士研究生学位论文第1 ii 页 u s ew e bs e r v i c eg u a r a n t e e dt h es a f e t ya n dp r i v a c yo fw i l l d e c i d i n gd a t e k e yw o r d s : d a t am i n i n g ;w e bs e r v i c es e c u r i t y ; a n a l y s i so fc 0 1 l e g ee n t r a n c e e x a m i n a t i o n sw 订l s 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位中请。本人郑重声明:所呈交的学位论文是 苯人在导师的指导下独立完成的,对所研究酌课题有新备勺见解。据我所知,除 炙中特别加以说明、标注和致谢的地方外,论文中不包括其他人已经发表或撰 写过的研究成果,也不包括其他人为获得任何教育、科研机构的学位或证书而 陡用过的 了明确的 本人 j 解并同 中作 完全 国家 习书馆、科研信息辊构、数据收集机构和苓校图书馆等提供学位论文( 纸质文 k 和电子文本) 以供群焱检索、奎啄彭槲授权河赢炙学出于宣扬、展览学校 乒术发展和进行学术交流等j 舒锚曦。曩弧聪舞:鹦翥够州:缩印、扫描和拷贝等复制手 殳保存、汇编学住论文( 纸质文本和电子文本) 。 ( 涉及保密内容的学位论文在解密后适用本授权书) 谚一 学住获得者( 学位论文作者) 签名:兰叠垡 2 0 学位论文指导教师釜名: 2 09 孑年纩月( 谚日 河南大学硕士研究生学位论文第1 页 第1 章绪论 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一 届国际联合人工智能学术会议上。其起因源于现代信息社会发展不断 产生大量数据口,而利用目前的数据库系统虽然可以高效地进行数据的 录入、查询、统计功能,但无法发现数据中存在的关系和规则,无法根 据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手 段,导致了“数据爆炸但知识贫乏 的现象口3 。 在这样的应用需求背景下,数据挖掘( d a t am i n i n g ,d m ) h 1 作为知 识发现的核心技术迅速发展起来。k d d 的研究内容是如何自动地去处 理数据库中大量的原始数据,从中挖掘搜索出具有规律、富有意义的模 式。 在高考考试领域,随着计算机的普及与发展,越来越多的考试信息 使用了计算机进行处理和存放,大大减少了手工处理的工序,减少了存 储的空间,提高了存储的安全和便捷性。这样,就存在了大量的高考数 据,如何根据不同要求和特征,找出这些数据中的必然联系和潜在的关 系哺1 ,己经成为招生部门和考生必然的需求。但由于与高考相关数据的 敏感性与隐私性,对其进行挖掘不得不考虑到高考志愿数据的安全问 题。根据相关规定,有关高考志愿的相关数据和由此得到的挖掘模型只 能存放于招生办公室的专用服务器中,而各招生部门和考生却是一个潜 在的多用户群体。为了解决这个问题,需要将w e b 服务用于数据挖掘系 统中来,为用户提供基于w e b 的数据挖掘查询环境,并在系统设计中着 力解安全性问题。 本文正是基于上述背景,力求出构造一个基于w e b 的高考志愿分析 系统模型,并实现一个基于w e b 的数据挖掘系统。 1 1 研究的目的和意义 近年来在河南省高考信息化工程项目中的工作中积攒了大量的考 生数据,之间的存在的关系,为了能够满足招生单位及考生对数据成绩 特征的需求和进一步的研究大量考试数据之间的关系,我们把数据挖掘 技术应用在高考系统的考生志愿信息中,并通过使用w 曲服务访问来 第2 页河南大学硕士研究生学位论文 分析学生志愿与成绩之间的关系,在为高考单位和报名考生提供决策支 持的同时保证高考志愿数据和挖掘模型的安全。该研究的目的及意义可 归纳为以下2 点: ( 1 ) 将数据挖掘技术同w e b 服务技术结合m 3 ,设计并实现了一个 基于w e b 的高考志愿分析系统 目的:针对目前高考志愿分析领域中缺乏应用数据挖掘技术进行决 策支持的现象,采用数据挖掘技术对河南省近几年的高考志愿相关数据 进行分析,挖掘数据背后隐藏的信息与知识,以达到为志愿决策支持提 供参考建议的目的。同时因为根据相关规定,有关高考志愿的相关数据 和由此得到的挖掘模型只能存放于招生办公室的专用服务器中,所以采 用w e b 服务的方式来为用户提供关于高考志愿数据的查询分析支持。 意义:将数据挖掘和w e b 服务技术应用于高考志愿分析中,满足了 志愿数据和挖掘模型特殊的存储要求,实现了对高考志愿数据的数据挖 掘分析,为用户进行分析查询提供基于w e b 服务的环境。 ( 2 ) 通过使用w e b 服务提供服务以保障志愿数据的安全性及隐私 性 目的:对w e b 服务口1 的s o a p 随3 消息进行基于消息的签名和加密,保 证了高考志愿数据的安全性及隐私性。 意义:解决了w e b 服务在高考数据挖掘系统安全机制中存在的安全 性、性能及扩展性方面的问题,针对敏感数据的数据挖掘系统的安全性 得到保障。 1 2 相关领域的发展现状及趋势 1 2 1 数据挖掘技术的发展现状及趋势 目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具 的研究和开发。这些数据挖掘工具采用的主要方法包括传统的统计分析 方法、决策树、相关规则、神经元网络、遗传算法,以及可视化、0 l a p 联机分析处理等。 ( 1 ) 统计分析方法 统计分析方法是通过对总体中的样本数据进行分析得出描述和推 断该总体信息和知识的方法,这些信息和知识提示了总体中的内部规 河南大学硕士研究生学位论文第3 页 律,它是一门独立学科,也作为数据挖掘的一大类方法。 ( 2 ) 决策树 决策树蹲3 是建立在信息论基础之上,对数据进行分类的一种方法。 其包括i d 3 1 0 3 、i d 5 1 1 1 、c 4 5 1 2 3 、c 5 0 、s l i q 3 等算法。首先,通过一 批己知的训练数据建立一棵决策树。然后,利用建好的决策树,对数据 进行预测。决策树的建立过程可以看成是数据规则的生成过程,因此可 以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。决 策树方法精确度比较高,结果容易理解,效率也比较高,因而比较常用。 ( 3 ) 神经网络 神经网络n 4 1 建立在自学习的数学模型基础之上。它可以对大量复杂 的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式 抽取及趋势分析。神经网络系统由一系列类似于人脑神经元一样的处理 单元组成,我们称之为节点。这些节点通过网络彼此互连,如果有数据 输入,它们便可以进行确定数据模式的工作。神经网络有相互连接的输 入层、中间层( 或隐藏层) 、输出层组成。中间层由多个节点组成,完成 大部分网络工作。输出层输出数据分析的执行结果。 ( 4 ) 相关规则 相关规则5 3 是一种简单却很实用的关联分析规则,它描述了一个事 物中某些属性同时出现的规律和模式。相关规则分析就是依据一定的可 信度、支持度、期望可信度、作用度建立相关规则的。 ( 5 ) k n e a r e s t 邻居 邻居就是彼此距离很近的数据。依据”d oa sy o u rn e i g h b o r sd o ” 的原则,k n e a r e s t 邻居方法认为邻居数据必然有相同的属性或行为。k 表示某个特定数据的k 个邻居,可以通过k 个邻居的平均数据来预测该特 定数据的某个属性或行为6 i 。 ( 6 ) 遗传算法 遗传算法n 刀是一种基于生物进化论和分子遗传学的搜索优化算法。 它首先将问题的可能的解按某种形式进行编码,编码后的解称为染色体: 随机选取n 个染色体作为初始种群,再根据预定的评价函数对每个染色 体计算适应值,性能较好的染色体有较高的适应值:选择适应值较高的 染色体进行复制,并通过遗传算子,产生一群新的更适应环境的染色体, 形成新的种群,直至收敛到一个最适应环境个体,得到问题的最优化解。 ( 7 ) 联机分析处理 第4 页河南大学硕士研究生学位论文 联机分析处理n 引主要通过多维的方式来对数据进行分析、查询和报 表。它不同于传统的联机事物处理( 0 n l i n et r a n s a c t i o np r o c e s s i n g , 简称0 l t p ) 应用。o l t p 主要用来完成用户的事务处理,通常要进行大量 的更新操作,同时对响应时间要求比较高。而0 l a p 应用主要是对用户当 前及历史数据进行分析,辅助领导决策。 ( 8 ) 数据可视化 对大批量数据的展现也是数据挖掘的重要方面。数据挖掘的可视化 工具可以通过富有成效的探索起点并按恰当的隐喻来表示数据,为数据 分析人员提供很好的帮助。 在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也 陆续问世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用 的数据挖掘工具n 引。特定领域的数据挖掘工具针对性比较强,只能用 于一种应用:也正因为针对性强,往往采用特殊的算法,可以处理特殊 的数据,实现特殊的目的,发现的知识可靠度也比较高心0 | 。通用的数 据挖掘工具不区分具体数据的含义,采用通用的挖掘算法乜口2 2 3 3 处理 挖掘数据。 数据挖掘的研究是以应用为驱动的,数据挖掘领域今后的焦点和发 展趋势可能表现在以下几个方面: ( 1 ) 数据挖掘平台的标准化:数据挖掘语言的标准化将使数据挖掘 项目的系统化开发提供便利、并有助于各个数据挖掘系统和功能模块之 间的互操作,便于在企业中的培训和使用。也许将来数据挖掘语言会象 s q l 一样标准化和易于使用。 ( 2 ) 数据挖掘过程中的可视化方法:这个方面的研究可以使知识发 现的过程能够被用户形象的理解,也便于在知识的发现过程中人机交 互。 ( 3 ) 可伸缩的数据挖掘方法馏4 3 :传统的数据分析方法大部分都是基 于内存的,数据挖掘面对的是大数据量,因此如何有效的处理大数据量, 并且可以是交互式的,就成为研究的一个方向,一个好的数据挖掘算法, 其复杂度应该随数据记录数、属性数目数呈线性增长。 ( 4 ) w e b 挖掘:i n t e r n e t 目前已经成为巨大的、全球性的信息服务中 心,w e b 上存在有大量的信息,有关w e b 内容的挖掘,w e b 日志的挖掘,we b 结构的挖掘,己经成为当前和以后数据挖掘领域最重要的热点之一 【2 5 2 6 】【2 7 o ( 5 ) 复杂数据类型挖掘的新方法:目前,地理空间挖掘、多媒体挖 河南大学硕士研究生学位论文第5 页 掘、时序挖掘等复杂数据类型的挖掘己经取得了一些进展,但离实际应 用还有很大的距离,因此这一领域的研究也显得很重要。 ( 6 ) 数据挖掘中的隐私保护和信息安全二随着数据挖掘的发展,如 何能够确保隐私安全与信息安全,己经成为当前需要面临的一个重要问 题了,因此需要对这个领域进行研究。 ( 7 ) 分布式数据挖掘算法及分布式数据挖掘平台乜引:随着网络技术 的发展及企业、组织的全球化,企业或组织的数据信息可能分布在不同 物理位置上。对原有的一些集中式的算法进行分布式的改进,并构建高 效的分布式数据挖掘平台是一个具有挑战性的工作。 1 2 2 w e b 服务安全的发展现状及趋势 保护w e b 服务安全的最简单的一种方法是确保客户端与服务器之间 的连接安全,s s l ( s e c u r es o c k e t sl a y e r ,安全套接字层) 技术被广泛 采用。s s l 虽然能够在点对点( p o i n t t o p o i n t ) 的情况下为传输过程提 供消息完整性和机密性,但无法保障端到端( e n d t o e n d ) 的安全。 目前的解决方法是在消息层上引入安全机制,通过对s o a p 消息头扩 展实现的。w 3 c ( t h ew o r l dw i d ew e bc o n s o r t i u m ) ,i e t f ( t h ei n t e r n e t e n g i n e e r i n gt a s kf o r c e ) 以及o a s i s ( o r g a n i z a t i o nf o rt h e a d v a n c e m e n to fs t r u c t u r e di n f o r m a t i o ns t a n d a r d s ) 等错0 定了系列 的x m l 安全标准和w e b 服务安全的一系列标准。1 9 9 9 年,w 3 c 发布x m l 数字 签名工作草案。2 0 0 2 年,i b m ,微软和v e r i s i g n 公司制定了w e bs e r v i c e s 安全规范,并提交给0 a s i s 2 0 0 4 年,o a s i s 制订了o a s i sw s s e c u r i t y l 0 标准( w s s e c u r i t y 2 0 0 4 ) 作为正式官方标准w s s e c u r i t y 规范是现有 x m l 规范的一个集合,几乎包含了有关w e b 服务安全性的所有方面,并向 用户提供了充足的可扩展性能。 基于消息层的安全实现将成为下一代w e b 服务安全的主要实现方 案,这种基于消息层的安全实现方案可以被应用在任何新的传输协议之 上,适合w e b 服务应用的安全扩展。 1 3 研究内容概述 本课题始于河南省高考分布式志愿报名项目,在项目研究的过程 中,收集了大量的数据信息,目前这些数据还未能得到有效利用,只是 第6 页河南大学硕士研究生学位论文 一个待开发的“宝藏 。鉴于社会对高考发展的需求和日前高考数据管 理现状,如何在保证数据安全的情况下利用这些数据理性地分析高考各 方面工作的成效以及学生在志愿选择中的得失变得十分重要。高校扩招 的招生条件下,如何利用丰富的信息资源,采用数据挖掘技术,获得辅 助决策知识,为招生单位和考生提供志愿数据分析,是本文研究的主要 内容。 本文的工作主要由如下四部分组成: 1 、基于w e b 的挖掘模型的相关技术基础( 第二章) ; 2 、服务器端数据挖掘模型的设计( 第三章) ; 3 、w e b 服务模块的设计( 第四章) ; 4 、基于w e b 的数据挖掘系统的实现( 第五章) ; 第一部分:基于w e b 的挖掘模型的相关技术基础 本部分主要探讨基于w e b 的挖掘模型涉及的相关技术,对挖掘系统 使用的算法及w e b 服务的技术理论做基础性研究。 第二部分:服务器端数据挖掘模型的设计 进行有关如何构建服务器端的高考志愿数据挖掘模型的工作。 第三部分:w e b 服务模块的设计 对挖掘模块进行w e b 服务模块的设计与实现。对w e b 服务的s o a p 消息进行基于消息的签名和加密,保证了高考志愿数据的安全性及隐私 性。 第四部分:基于w e b 的数据挖掘系统的实现 使用前文开发的服务器端挖掘模型和w e b 服务模块针对高考志愿 数据开发相应基于w e b 的挖掘系统。 1 4 论文的主要贡献 在高考志愿的数据挖掘分析方面,本文主要的贡献是: ( 1 ) 将数据挖掘和w e b 服务技术应用于高考志愿分析中,满足了 志愿数据和挖掘模型特殊的存储要求,实现了对高考志愿数据的数据挖 掘分析,为用户进行分析查询提供基于w e b 服务的环境。 ( 2 ) 通过对w e b 服务通信进行基于s o a p 信息的加密和数字签名, 提高了基于w e b 的数据挖掘系统的安全系数。 河南大学硕士研究生学位论文第7 页 第2 章基于w e b 的挖掘模型的相关技术基础 本章主要探讨基于w e b 的挖掘模型涉及的相关技术,对挖掘系统使 用的算法及w e b 服务的技术理论做基础性研究。 2 - 1 数据挖掘与w e b 服务在高考志愿分析中的结合点 由于与高考相关数据的敏感性与隐私性,对其进行挖掘不得不考虑 到高考志愿数据的安全问题。根据相关规定,有关高考志愿的相关数据 和由此得到的志愿筛选规则只能存放于招生办公室的专用服务器中,而 招生部门和考生却是一个潜在的多用户群体。因为w e b 服务技术是基于 i n t e r n e t 的,一旦服务被部署在网络上,用户就可以通过s o a p 和w s d l 在任何地方使用。引入w e b 服务后,数据挖掘系统就可以只在w e b 服务器 为用户提供远程查询支持,查询用户无数据库和挖掘服务器的访问权 限,充分保障数据库服务器和挖掘服务器的安全。所以本文决定将数据 挖掘与w e b 服务技术相结合,开发志愿分析系统。 2 2 挖掘算法选择 分类算法基于数据集中的其他属性预测一个或多个离散变量,而高 考志愿数据训练集则恰好具有离散变量不连续的特点,所以我们在系统 中采用分类算法来对高考志愿数据进行分析。 分类算法的问题可描述为口0 3 :输入数据或称训练集( t r a i n i n g s e t ) ,是一条条的数据库记录( r e c o r d ) 组成的。每一条记录包含若干条 属性( a t t r i b u t e ) ,组成一个特征向量,训练集的每条记录还有一个特 定的类标签( c 1 a s sl a b e l ) 与之对应,该类标签是系统的输入,通常是 以往的一些经验数据。一个具体样本的形式可为样本向量: l y - ,p 2 ,一;引。在这里v i 表示字段值,c 表示类别。分类的目的是分析 输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一 种准确的描述或者模型。由此生成类的描述用来对未来的测试数据进行 第8 页河南大学硕士研究生学位论文 分类。尽管这些未来的测试数据的类标签是未知的,我们仍可以由此预 测这些新数据所属的类。我们所说的是预测,而不能是必然。我们也可 以由此对数据中的每一个类有更好的理解,或者说我们通过分类获得了 这个类更多的知识。 分类器评价或比较尺度主要有三种: ( 1 ) 预测准确度:预测准确度是用得最多的一种比较尺度,特别是 对于预测型分类任务,目前公认的方法是分层交互验证法。 ( 2 ) 计算复杂度计算复杂度:计算复杂度计算复杂度依赖于具体的 实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据库, 因此空间和时间的复杂度问题将是非常重要的一个环节。 ( 3 ) 模型描述的简洁度:模型的简洁度也成为模型的一个中的尺 度,模型描述越简洁则越受欢迎。例如,采用规则表示的分类器构造法 就比神经网络方法更受到数据挖掘人员的欢迎。 2 2 1 决策树分类 决策树( d e c is io nt r e e ) 学习是以实例为基础的归纳学习算法。它 着眼于从一组无次序、无规则的事例中推出决策树表示形式的分类规 则。它采用自顶向下的递归方式,在决策树的内部结点进行属性的比较 并根据不同属性值判断从该结点向下的分枝,在决策树的叶结点得到结 论。所以从根到叶结点的一条路径就对应着一条合取规则,整棵决策树 就对应着一组析取表达式规则。 一棵决策树的内部结是属性或属性集,叶结点是所要学习划分的 类。经过一批训练实例集的训练产生一棵决策树,决策树可以根据属性 的取值对一个未知实例集进行分类。使用决策树分类的时候,由树根开 始对该对象的属性逐一测试其值。并且顺着分枝向下走,直至到达某个 叶结点,此叶结点代表的类即为对象所处的类。 决策树归纳的基本算法是贪心算法,它是以自顶向下递归的各个击 破方式构造决策树。算法的基本策略如下: ( 1 ) 树以代表训练样本的单个结点开始。 ( 2 ) 如果样本都在同一个类,则该结点成为树叶,并用该类标记。 ( 3 ) 否则,算法使用称为信息增益的基于嫡的度量作为启发信息, 选择能够最好地将样木分类的属性。该属性成为该结点的“测试或“决 策属性。 ( 4 ) 对测试属性的每个已知的值,创建一个分枝,并据此划分样本。 河南大学硕士研究生学位论文第9 页 ( 5 ) 算法使用同样的过程,递归地形成每个划分上的样本决策树。 一旦一个属性出现在一个结点上,就不必在该结点的任何后代上考虑 它。 ( 6 ) 递归划分步骤仅当下列条件之一成立时停止: 给定结点的所有样本属于同一类。 没有剩余属性可以用来进一步划分样本。在此情况下,使川多 数表决这涉及将给定的结点转换成树叶,并用样木中的多数所在的类标 记它。替换地,可以存放结点样本的类分布。 分枝t e 吼一a t t r i b u t = a 没有样本。在这利,情况下,以样本中的 多数类创建一个树叶。 在树的每个结点上使用信息增益( i n f o r m a t i o ng a i n ) 度量选择测 试属性。这种度量称作属性选择度量或分裂的优劣度量。选择具有最高 信息增益( 或最大嫡压缩) 的属性作为当前结点的测试属性。该属性使得 对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性 或“不纯性”。这种信息理论方法使得对一个对象分类所需的期望测试 数目最小,并确保找到一棵简单的树。 决策树分类的算法有很多,1 9 8 6 年j r o s sq u i n l a n 提出了i d 3 算法。 这是国际上最早、最有影响力的决策树算法。许多决策树算法,如c a r t 、 c 4 5 及s l i q ,对于能全部装入内存的数据集非常有效。其中的s l i o 算 法是一种高速可调节的数据挖掘分类算法。它通过预排序技术,着重解 决当训练集数据量巨大、无法全部放入内存时,如何高速准确地生成决 策树。能同时处理离散字段和连续字段。其具有运算速度快,对属性值 只作一次排序;能利用整个训练集的所有数据不作取样处理不丧失精确 度;能轻松处理磁盘常驻的大型训练集适合处理数据仓库的海量历史数 据并更快的生成更小的目标树及低代价的m d l 剪枝算法的优点。 一般决策树中,普遍使用信息量作为评价节点分裂质量的参数。在 s l i q 算法中,我们使用g i n i 指标( g i n ii n d e x ) 代替信息量 ( i n f o r m a t i o n ) ,g i n i 指标比信息量性能更好,且计算方便。对数据集 包含n 个类的数据集s ,g i n i ( s ) 定义为: 锄= l 一e 灯 ( 2 1 ) p j 是s 中第j 类数据的频率。g i n i 越小,i n f o r m a t i o ng a i n 越大。如 果集合s 分成两部分s 。和s 。,那么该分割的g i n i 就是: 第10 页河南大学硕士研究生学位论文 俐础( s ) :堡兰塑坚幽2 掣型 ( 2 2 ) 一 。 拧 其中n 为集合s 的记录数,n 。为s ,的记录数,n :为s 。的记录数。 g i n l s p l i t ( s ) 越小,i n f o r m a t i o ng a i n 越大。最小g i n l 一s p li t ( s ) 就被 选择作为节点分裂的标准。 区别于一般的决策树,s l i q 采用二分查找树结构。对每个节点都需 要先计算最佳分裂方案,然后执行分裂。对于数值型连续字段( n u m e r i e a t t r i b u t e ) 分裂的形式a p ( c ii x ) ,1 j m ,j i ( 2 4 、) 即假定样本为类c ,的概率大于假定为其它类的概率。根据贝叶斯 定理, 粥旧= 警 ( 2 _ 5 ) 其中,p 指任意一个数据对象符合样本x 的概率,对于所有类 来说,它为常数。由公式可看出,只需要p ( x i e ) p ( e ) 最大即可。p ( e ) 为任意一个数据对象是类c 的概率,可以用p ( e ) = s s ( 其中s t 是类 c 中训练样本数,s 是训练样本总数) 计算。给定样本的类标号,假定各 属性值相互条件独立( 类条件独立) ,这样p ( xlc f ) 的计算可使用公式 第12 页河南大学硕士研究生学位论文 p ( xie ) = 兀尸呱ie ) 七= l ( 2 6 ) 概率p ( 五ic f ) 可以由训练样本估算:1 ) 如果a t 是分类属性,则 尸( 五ic i ) = & 墨其中s ;。是属性a 。上值为x 。的类c ;的训练样本数,s 。 是c ,中的训练样本数。2 ) 如果a 。是连续值属性,则通常假定该属性服 从高斯分布,用高斯密度函数计算。因而,对未知样本x 分类,样本x 被分类到类c ;,当且仅当 以xlc ) 尸( e ) 尸( xc ,) p ( xlc ,) ,1 j m ,j i ( 2 7 ) 朴素贝叶斯分类假定类条件独立,简化了计算。当假定成立时,与 其它分类算法相比,朴素贝叶斯分类是最精确的。但实际上变量间的相 互依赖情况是较为常见的。为解决这个问题,可使用贝叶斯信念网络描 述这种相互关联的概率分布。该网络能够描述各属性子集之间有条件的 相互独立,它提供了一个图形模型来描述其中的因果关系。贝叶斯分类 在处理大规模数据库时,表现出了较高的分类准确性和运算性能。它还 可为其它分类算法提供理论判定。但是,该算法没有直接的分类规则输 出。 2 2 3 神经网络分类 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题 提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决 具有上百个参数的问题。神经网络常用于两类问题:分类和回归。 神经网络就是一组相互连接的输入输出单元( 又称神经元) ,单元之 间的每个连接都与一个权重相关联。在网络学习阶段,网络通过调整权 重来实现输入样本与其相应( 正确) 类别的对应。由于网络学习主要是针 对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习。 神经网络训练完毕后,只要把数据输入到己训练好的神经网络输入端, 就可以从输出端直接得到分类结果。 神经网络分类过程可以分为训练和分类两个阶段。在训练阶段,首 先定义网络的拓扑结构,再对训练样木中的每个属性的值进行规范化预 处理,然后用神经网络对已预处理的输入进行学习。训练完毕后,用训 练好的神经网络对标识样本进行分类。 河南大学硕士研究生学位论文第13 页 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。 输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变 量,可有多个。在输入层和输出层之间是隐含层( 对神经网络使用者来 说不可见) ,隐含层的层数和每层节点的个数决定了神经网络的复杂度。 目前的神经网络模型很多,而反向传播模型( b p 模型) 是使用最多 的典型神经网络。 2 2 3 多种分类算法的比较选择 分类算法有很多种,遇到具体问题时应选择相对于算法。不同的算 法适用于不同类型的数据,下面的一些数据性质将会对算法的选择产生 影响:各属性以离散属性占优:各属性三以数值属性占优:每个记录的属 性数目较多:有多个非独立的目标属性:记录是变长的:有时间顺序的数 据。决策树可以很容易的用于离散型的属性:数据。但是当属性值较多 的时候,效果可能就会比较的差。如果限制分支的个数的时候,决策树 的效果还是不错的。 神经元网络需将离散属性转化成数值属性。对于数值属性占优的情 况,神经元网络将所有输入转化到0 1 之间。决策树可以通过分割数值 来处理。 如果记录中的属性数很多:神经元网络会受其影响。而决策树受其 影响的程度就比较的小。如果存在多个依赖变量,神经元网络是最佳的 选择。对于有时间顺序的数据,神经元网络对时间顺序的数据的处理能 力比较的好。决策树也能处理时间顺序,但是需要的数据准备相对较多。 n a i v eb a y e s 分类算法快速简单,只需一次遍历数据就可结束并得 到结果。但是该算法没有直接的分类规则输出。因此,通常在处理研究 时利用n a i v eb a y e s 来获得一个初步的结果。 根据高考志愿数据属性数多,数量巨大的特点,本文决定采用分类 算法中的s l i q 和n a i v eb a y e s 算法来对高考高考志愿数据进行分析。 2 3w e b 服务体系结构 w e b 服务是通过s o a p ( s i m p l eo b j e c ta c c e s sp r o t o c 0 1 ) 协议基于 w e b 实现的软件服务,它由一个w s d l ( w e bs e r v i c e sd e s c r i p t i o n l a n g u a g e ) 文件描述,并且使用u d d i ( u n i v e r s a l d e s e r i p t i o n , 第1 4 页河南大学硕士研究生学位论文 d i s e o v e r y a n d i n t e g r a t i o n ) 实现注册。w e b 服务是下一代i n t e r n e t 分布 计算的基本组成单元。w e b 服务并不追求代码的可移植性,而是要使分 布在i n t e r n e t 中的各种系统实现交互。它采用的是已被业界广泛接受的 通用开放标准( h t t p 和x m l 等) ,因此能够克服存在于各种对象模型、操 作系统和编程语言之间的差异。并且,它还强调应用程序间的通信和协 作,所以它对应用程序的集成具有重要意义。应用程序可以由多个w e b s e r v i c e s 构成,这些w e bs e r v i c e s 能够组合一起协同工作,而不必考虑 它们运行在哪里和如何实现。 s o a p 比c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e ) 和 d c o m ( d is t r i b u t e dc o m m o no b j e c tm o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论