




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于数据挖掘的学生就业管理 系统考试成绩任课教师陕西科技大学研究生考试试卷考 试科目 智 能信 息处理 与数据挖掘专 业 计算机应用技术学 号1606035考 生姓名李丰考 生 类别 学术 硕 士注意事项1. 试题随试卷交回;2. 试卷评阅后,一周内送交研究生秘书处保存;3. 考生类别为学术硕士、专业学位硕士、在职人员攻读硕士学位。摘要随着计算机的普及应用和升级发展,数据挖掘作为一个新兴的、多 学科交叉的应用领域,正在各行各业的以信息分析为基础的决策支持系 统活动中扮演着越来越重要的角色。数据仓库挖掘作为数据挖掘的一个重要研究分支,其主要目的是用 于发现数据集中项之间的相关联系,即关联规则。数
2、据挖掘是从大型数 据库中提取知识信息的主要手段,由于形式简单、易于理解,因此,数 据仓库挖掘已广泛应用各个领域, 用来检验行业内长期形成的知识模式, 或发现隐藏的新规律。随着我国教育改革的不断深入,高等教育得到了长足的发展。当前, 在各类学校中,学校的数据库建设已较完善,数据库中存储着大量的教 育教学信息。据调查,这些隐藏着大量教育信息的历史数据没有被很好 地利用,没有好好挖掘隐藏在这些数据中的教育规律。致使在一些学校 专业区分性不大,专业课设置没有明显的区分。毕业的学生却很难找到 适合本专业的工作。究其原因,除了课程设置不能跟上,学生的实际能 力不能被培养到实际用人单位所要求的标准等原因外,
3、还存在着很多隐 藏在背后的因。最终造成了学生在接受完四、五年教育后,良好素质没 有被开发,能力不够。而具有实际工作能力的学生被专业或某些未被发 现的因素所限制,本文研究从大量的学校教育信息中挖掘出正确的、可 靠的、可信的关联规则。本文利用数据仓库技术、 OLAP技 术、数据挖掘技术分析学校毕业生 就业数据。通过对已毕业学生的专业、生源地、成绩及就业时间等信息 进行联机分析与数据挖掘,从不同角度、不同层次寻找出学生就业与否 的内在原因,发现学生对学校专业设置的需求,从而达到为专业设置和 教育教学提供决策支持。AbstractAs computer being wildly used and up
4、graded, the data mining growing into a new rising and multi-disciplinary application field are playing a more and more important role in the information analysis of decision support system.Association mining is an important research branch of the data mining, and it aims at discovering the relations
5、hip among items in a data set. The data mining is the main measure of deriving knowledge from large databases. Because of its simple form and it can be easily understood, association mining has been successfully applied to many fields. It not only can test the knowledge modes exiting in the industry
6、, but also can find some new rules hidden.As education innovation in China being enhanced, higher education in been significantly developed.At present, in all kinds of schools,the school database has been well constructed and has stored enormous education and teaching information. According to some
7、researches, the historical data with a large number of educational information of historical data has not been well used or dig the education rules hidden in the database out. Consequently, the majors of a number of higher education schools have little distinction,and the course schedules have no cl
8、ear distinction.Graduates are hard to find suitable job according with their education experience.To analyze the reasons, besides current curriculum can not be kept up with the actual employersrequirement,there are also many hidden reasons,which result in lackness of students ability after three to
9、five-year education.However, some competent students have been constrained by majors or some undiscovered factors. The purpose of this article is to dig out correct,reliable and credible correlative rules from a large amount of education information.Based on data warehouse,OLAP technology and data m
10、ining,this thesis analyzes higher education school graduates employment data.Through student s major, student s location,education experience and employed time,on-line analysis and data mining has been carried out to find out that internal reason of employment status of the student from different as
11、pects and different levels and discover major arrangement requirements from the students,which could offer a decision-making support for course design and education method.目录摘要Abstract 第一章 引言1.1 研究的背景、目的和意义1.2 数据挖掘的含义1.3 国内外发展和研究现状第二章 学生就业管理系统数据仓库的设计与实现2.1 确定指导主题2.2 就业数据仓库建模第三章 数据挖掘在学生就业中的应用3.1 数据挖掘
12、应用流程3.2 数据挖掘应用流程 第四章 总结 附录 - 代码一 引言1.1 研究的背景、目的和意义 世界在进步,人类在发展,各项技术都在不断的发展和完善,当然数据库技术 也不会例外,储存在数据库中的数据量也在不断的增大,当然这也是得益于互联网 的出现,互联网的出现使人类的信息交流不再受到空间的限制,让所有人可以通过 互联网十分方便的交换各种数据信息。在互联网不断的发展过程中,人们拿到的数 据也像滚雪球一样,越来越大,大量数据的背后隐藏着许多重要的信息,人们通过 对其深入的分析,希望能从中得到那些十分重要或有价值的数据信息。数据库系统 并不能自动的找出十分重要或有价值的数据信息,这就孕育出来数
13、据挖掘。从这个 词的意思不难理解,人们拥有着大量的数据信息,要从大量的数据信息中找出隐藏 在其中的十分重要或有价值的数据信息,就需要不断的进行掘。在现在数据挖掘已 经被广泛的运用在各个领域,并且都取得的令人满意的效果。在我们国家教育改革的不断发展深入的过程中,高等教育也在大踏步的前进, 高等院校如雨后春笋般的在增长。随着教育信息化的推进,几乎所有学校的办公室、 教室都配有电脑,而且绝大多数的学校都建设有自己的校园网络,学校的所有数据 信息都能在网络上查询到。这些数据信息里面我们将其分为三大类:第一类是学校 的行政管理信息:如重要会议通知、教学简报、各种活动报道等;第二类是教学信 息:如课程安排
14、、任课教师情况、教学质量检查情况等;第三类是学生信息:如学 生的基本资料、每学期成绩、表彰获奖情况等。在这三类信息中学生信息本该最为 重要,但却得不到重视,只是在学期末寄发成绩单时才被使用。通过数据挖掘技术 所发现的专业、家庭经济状况、地域分布与就业的关系,合理的引导学生选择专业, 最终提高学生的就业率。从而对高等教育及其教学改革具有一定的指导性意义。1.2 数据挖掘的含义数据挖掘( data mining )又称数据库中的知识发现( Knowledge Discovery in Database,简称 KDD),比较公认的 定义是由 U.M.Fayyad 等人提出的:数据挖掘就 是从大量的、
15、不完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、 人们事先不知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概 念( Concepts )、规 则(Rules) 、规律(Regularities) 、模式 (Patterns) 等形式。数 据 挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘 出潜在的模式,为管理人员决策提供支持。1.3 国内外发展和研究现状 相应地,数据挖掘在国外商场、金融(信用评估,欺诈监测) 、电讯、科学、保险等 领域早已有不同层次的应用。数据挖掘在商业领域有丰富应用:客户关系 管理、欺 诈检测、供应链分析、医疗分析、文件分
16、析(文本挖 掘)、决策支持系统和财务分 析。而在政府方面的应用主 要有财务管理、人力资源管理、欺诈侦测、分析社会现 象、打击恐怖主义、处理人们对政府数据的访问。国内数据挖掘还是一个很新的研 究课题,并处于一个初步应用的层次,但它所固有的为企业创造巨大经济效益的潜 力,已使其很快有了许多成功的应用,具有代表性的应用领域有市 场预测、投资、 制造业、金融、通讯等,数据挖掘目前还在国家资助(975, 863,基金)的科研项目中有着重要的应用价值。我国数据挖掘研究与开发的总体水平相当于数据库技术在 20 世纪 70 年代所处的 地位,迫切需要类似于关系模式、 DBMS系统和 SQL查询语言等理论和方法
17、的指导, 才能使数据挖掘这项技术的应用得以普遍推广。预计在未来一段时间数据挖掘的研 究焦点可能会集中到以下几个方面:(1)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言;(2)寻求数据挖掘 过程中的可视化方法,使知识发现的过程能够被用户理解,也 便于在知识发现的过程中进行人机交互; (3)研究在网络环境下的数据挖掘技术 ( Web Mining ),特别是在因特网上建立 DM服务器,并且与数据库服务器配合,实现 Web Mining ;(4)加强对各种非结构化数据的开采( Data Mining for Audio& Video),如对文本数据、图形数据、视频 图像数据、声音数据乃
18、至综合多媒体数据的开采;(5)处理的数据将会涉及到更多的数据类型;(6)交互式发现;(7)知识的维护更新。1.4 数据挖掘的基本技术(1)聚类 /分割。聚类或分割是一种将数据分组方法类(或集群)是有着相似的模 式或特征。各专题组从数据确定,而不是依赖预定义类分类。零售商可以利用聚类 发现类似情况在他们的客户群存在,使他们能够创建和理解它们销售和市场的不同 群体。(2)关联分析。寻找大量数据中项集之间的关联或相关联系。例如通过对交易数据 的分析,我们可能得出 30%-40%购买纸尿布的男性顾客会同时购买啤酒这样的关 联规则。关联规则广泛用于购物篮或事务数据分析。(3)序列模式。序列模式分析和关联
19、分析类似,其目的也是为了挖掘数据之间的联 系,但序列模式分析的侧重点在于分析数据间的前后序列关系。序列模式分析描述 的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集, 挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。(4)人工神经网络和遗传算法。人工神经网络在数据挖掘中也扮演着非常重要的角 色。人工神经网络可通过示例学习,形成描述复杂非线性系统的非线性函数,这实 际上是得到了客观规律的定量描人工述。目前在数据挖掘中,最常使用的两种神经 网络是 BP网络和 RBF网络。二、学生就业管理系统数据仓库的设计与实现建立学生就业数据仓库首先要根据学生就业数据
20、仓库这个主题进行建模,主题 明确后,才能根据主题确定需要的表;建模完成后紧接着就是对就业数据仓库进行 设计,包括设计多维数据分析的事实表和维表;完成设计后就要加载数据,在这个 过程中要设计数据加载程序,包含将集成的细节数据转化成不同综合层次的数据综 合功能和将数据清洗、转化和集成的装载功能;最后进行数据质量评估。2.1 确定指导主题确定指导主题实际就是划分范围,根据范围选取数据明确分析目的。就业指导 分析关注的四个指导主题是成绩、专业、生源结构、就业时间的影响分析。1. 成绩影响分析。高等院校学生不仅在学校课程中学习文化知识,还要学习更 多的专业技能,提高学生的整体素质,为毕业后能尽快参加工作
21、、走向社会做好准 备。因此,学生在学校的表现和智力成果由德育成绩和智育成绩组成,包括平时成 绩和参加学校组织的技能比赛的获奖情况。在面临就业时,德育和智育成绩高低对 学生的就业就会产生一定的影响,这是值得分析的一个问题。通过考察智育、德育 等的因素,可以找出社会需要什么样的职业技能人才。2. 专业影响分析。雇主需要什么样的专业技能人才,在一定程度成为了高等院 校开设专业的一种向导。可以通过各专业的学生就业的形势的分析可进一步指导学 校对专业的设置。3. 生源结构影响分析。由于是全国范围的录取,所以学生会来自全国各地,每 个人的家庭经济条件都不一样。这些来自不同区域、不同类型的学生对他们就业区
22、域、就业岗位、待遇都有不同的要求。所以对生源结构的整体分析,可以为毕业生 实习、就业提供有意义的指导。4. 就业时间影响分析。在大环境的变动,同时影响到学生的就业率和就业质量。 所以对就业时间与专业的分析,很容易获得哪些专业易于就业提出指导性建议。2.2 就业数据仓库建模数据仓库就是将从不同数据源中提取出来的数据全部存储到数据仓库中,数据 存储的量很大,而且对数据查询的要求也相当高。一般的的数据建模都是从概念建 模、逻辑建模、物理建模这样的自上而下的建模方式。概念建模主要是以信息打包 的方式;逻辑建模的方式多采用星型建模方法和雪花建模方法;物理建模主要是以 3NF和星型建模方式。2.2.1 概
23、念建模概念模型是一个概念性的工具。服务于目标设计系统、收集信息等,在与用户 沟通的过程中来定义数据仓库需要访问的信息,包括当前、将来和历史相关的数据 信息。可以在需求分析阶段,确定操作数据、数据源以及一些附加数据,设计容易 理解的数据模型,有效地完成查询和数据之间的映射。在本项目中使用的信息包图 是概念模型中最常用的一种。超立方体也是一种常用的概念模型,但当维度超过三维后其直观性非常的差, 大大增加了数据的采集和表示困难,出于这种原因 Hammergren于 1997 年提出了信 息包图可以在平面上展开超立方体,它让超立方体的表示可视化了。信息包图方法 要先明确分析的主题,接着围绕这个主题装载
24、指标、维度、粒度等信息。指标是分 析主题的评估指标。而维度是用户访问评估信息的途径。粒度是维度中信息的详细 程度。维度表和事实表设计将会直接影响到数据仓库的响应时间和分析结果,所以 说数据仓库构建的关键问题是维度表和事实表的设计。维是最能反映用户的分析或 者观察对象的角度 , 而且它必须体现出数据仓库中数据粒度、数据的层次。要按既定 的分析主题组织事实表和维度表 , 下图建立的就业指导数据仓库概念模型就是用信 息包图方法。信息包图2.2.2 逻辑建模逻辑建模是数据仓库实施中的重要组成部分,从逻辑建模中能直观看出项目的 需求。逻辑模型就是要将明确的主题和维的信息映射到数据仓库中的具体的表格里 面
25、。星型模型和雪花模型都是常用星型模型。1、星型模型的建模理论是由中心一点向外扩散,中心对象是“事实表”,外面若干个对象是“维表” ,星型模型就是由“事实表”和若干个“维表”连接而成的。 事实表的特点主要是包含的数字数据能够进行汇总并提供有关各项动作的历史数 据。作为外键的相关维度表的主键被包含在每个事实表中的一个或多个部分组成的 索引中。星型模型能支持以决策者的想法和定义数据实体,满足面向主题数据仓库 设计的需求,而信息包图能提供完备的概念基础给星形图的设计。星形图包括维度、 指标和类别三个逻辑实体。指标实体是位于星形图中心的实体,给用户活动提供定 量数据,是基本实体和查询活动的中心。每一个指
26、标实体表示一系列相关事实,完 成一项指定的功能,代表一个现实事务的综合水平,只与每一个相关维度的一个点 对应。维度实体位于星形图的星角上,其作用是限制用户的查询结果,达到过滤数 据,减小访问范围的目的。2、雪花模型可以看做是增加了粒度层次的描述的星型模型,其中某些维是规范 化的,可把数据进一步分解到附加的表中。可以用多张表来描述一个层次结构复杂 的维来达到用户需要的效果。根据数据仓库应用中的易使用与高性能的思想,结合 本课题的设计需求,星型模型结构相对简单能利用位图索引提高查询速度,而雪花 模型结构较为复杂,更适合用于处理维层级复杂的模型,本项目选用星型模型作为 就业数据仓库逻辑建模的模型,如
27、下图所示 :就业数据仓库的星型模型2.2.3 物理建模逻辑模型在数据仓库中的实现就是数据仓库的物理模型,包括物理存取方式、 数据存放位置、数据存储结构以及存储分配等。逻辑模型实现物理模型的基础,在 进行物理模型设计实现时, 需要考虑因素有 :I/O 存取时间、 空间利用率和维护代价 从数据仓库上讲,实际存储的模式包括关系模型和多维模型两种。多维模型按照多 维来存储数据这样查询速度会非常快。因为多维存储需要大量的存储空间,所以在 大容量的情况下性能会下降。并且索引在多维存储框架中不好建立。因此多维存储 结构一般应用在数据量较小的,保存聚集数据的数据集市和 OLAP服务器中。在数据仓库中的大量数据
28、要进行分析,要将有用的数据从这些数据中查找出来, 物理模型中需要提供迅捷的查询速度是整个设计的关键所在,物理建模中索引技术、 减少表连接操作、预聚集技术和分割技术都可以提高数据仓库的查询速度。1 、索引技术是在数据库中以牺牲空间和索引维护时间为代价来加快表中信息检 索速度,因多维数据库本身就是为了检索而建立的一种存储模型,所以多维数据库 中索引技术并不是很重要,使用位图索引技术是数据仓库用来减少存储空间的一种 技术。2 、减少表连接操作可以减少系统资源的暂用量,从而达到加快数据仓库的查询 速度。因为数据仓库中维表和事实表的连接是可能存在的,所以要尽可能的减少表 的连接操作。3、预聚集技术是通过
29、预先聚集一些数据来加快分析的速度。预聚集技术在对需要聚集数据量大,聚集频率高时采用可以达到加快数据分析速率的效果。4、分割技术就是去除掉不使用的数据,从而来提高数据分析速率。数据仓库中 大量的数据并一定所有都能使用上,有一部分数据使用不上的数据,在进行分析时 需要将这些使用不到的数据进行分割,这样如果只分析那些有用的数据就可以加快 分析的速度。 根据本项目需要分析的主题,数据仓库的物理表结构如下:就业信息 事事实表、成绩档次维表、专业维表、地区维表、就业时间维表、就业状况维表、 单位性质维表,如下图所示:就业信息事实表成绩档次维表专业维表地区维表就业时间维表就业状况维表单位性质维表在完成数据仓
30、库的物理建模后,下一步就是建立数据仓库数据库,并建立事实 表和维度表,并在所有表中的主要字段上建立索引。使用 MS SQL Server 2008 关系 数据库管理系统作为数据仓库的物理存储,根据数据仓库物理建模,利用关系数据 库来构建数据仓库。要最终实现数据仓库除了完成就业数据仓库的设计,还要先进行数据的清洗、抽取、转换、加载三 数据挖掘在学生就业中的应用3.1 数据挖掘应用流程学生就业管理系统挖掘工具通过节点的连接以工作流的方式来实现数据挖掘过 程。它能支持跨行业数据挖掘标准流程( CRISPDM),本文的数据挖掘流程挖掘对 象为就业数据仓库,实施步骤流程如下图所示:数据挖掘实施步骤流程图
31、数据挖掘流程依据过程模型 CRISPDM可理解成这些步骤,首先进行问题理解 和提出,然后开始数据准备,数据准备完成后就进行建立模型,从而生成规则,最 后做出评价和解释。1 、问题理解和提出:分析、理解希望能从中发现学生就业与时间、成绩、生源 地、专业它们之间的联系。2 、数据准备:针对不同的分析目的,直接利用就业数据仓库,通过学生就业管 理系统挖掘工具前端处理工具,如增加记录选项(选择、抽样、汇总等等) 、字段选 项(类型、过滤等等)节点来抽取数据仓库中的一定数量的子集,建立数 据挖掘库。3 、建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型,选用学生 就业管理系统挖掘工具中的以改进后
32、的 Apriori 算法的多维关联规则模型、来进行 挖掘分析。4、评价和解释:对数据挖掘的结果进行评价,并能结合就业工作实际对结果进 行解释。3.2 基于关联规则的挖掘3.2.1 搜索单维频繁谓词就业信息事务表有较多维属性,如要找到这些属性所构成的频繁谓词集,先要 获得各维属性所全部包含的频繁谓词。利用 SQL语言直接对数据库进行操作的方式。开始利用 SQL 中的 Distinct 语句对经过数据预处理的就业信息事务表进行操 作,返回表里每个属性维包含的所有谓词。假设一个字段有重复的值,但是每个值 只被选取一次,这时可使用关键字 DISTINCT来做。SELECT DISDINCT字FROM就
33、业信息事务表 其中的字段名称是随选择的列不同而变化的量,不同的字段名称会返回不同 的值。接着扫描数据库(就业信息事务数据表) 。利用 SQL中非常有用的集合函数函数 COUN(T )语句对 Distinct 语句返回的每一属性值进行计数。用这个函数我们可以 得到一个表中有多少条记录。例如:对“性别”字段,分别调用以下SQL语句:COUNT(*)FROM就 业信息事务表 WHERE性 别 =“男”COUNT(*)FROM就 业信息事务表 WHERE性 别 =“女” 对所有字段都进行上述操作,如果返回的计数值与就业信息事务表中总事务数 的比值大于最小支持度 min_sup,则保留下来,否则从谓词集
34、表中删除。这样下来对 学生信息的每一维属性而言,保留下来的都是满足支持度的单维频繁谓词。最后在 此一维频繁谓词基础上,进行 K 维频繁谓词的挖掘,流程如下图所示:频繁谓词挖掘流程3.2.2 求取多维频繁项集因为该项目进行的是多维关联规则挖掘,那么项目的核心算法就是对多维频繁 谓词集的求取。最基本的多维关联规则算法是基于经典的 Apriori 算法改造而得的, 但大量候选频繁谓词集可能会在该算法中产生,这样就会降低算法性能。 我们对基本的多维关联规则算法和基于 Apriori 不产生候选的多维关联规则算法进 行了以下比较分析。1、基于经典的 Apiori 算法求多维频繁谓词得到一维频繁谓词后,为
35、了发现频繁 2-谓词集,需要将频繁 1- 谓词集进行连接 产生候选频繁 2- 谓词集,然后对其中的每个谓词集计数:若满足最小支持度则保留 为频繁 2- 谓词集,否则丢弃;为了发现频繁 3- 谓词集,需要将频繁 2- 谓词集进行连 接和剪枝;以此类推,为了发现频繁 K- 谓词集,就需要将频繁 (K-1)- 谓词集进行连 接和剪枝。上述算法在利用 Apriori 性质由频繁 K-谓词集求频繁( K+1)谓词集的过程中, 必须先产生频繁( K+1)候选谓词集。我们的数据库随时间的增长会越来越大、属性 维也会不断地增多,那么每次产生的候选集合的数量也会非常多,会给我们带来较 大的时间开销。本课题在下面
36、提出的算法就是针对这一个缺点,使用递归的方式直 接由短频繁模式生成长频繁模式,从而避免了大量候选谓词集的额外时间开销。这 样也无需 Apriori 算法中的剪枝步骤,能加大算法效率。改进后的 Apriori 算法流 程图如下图所示:改进后的 Apriori 算法流程图2、不产生候选的多维关联规则 Apriori 算法描述 流程图的核心是如何由频繁 K- 谓词项求频繁 K+1 谓词项,在这里是通过函数的 递归调用来实现的,整个过程如下:算法开始执行后,首先找出频繁一维谓词集, 然后在频繁一维谓词集的基础上,发现所有的频繁 K 维谓词集。例如,一维频繁谓 词取为“性别 -男”,那么二维谓词就取“性
37、别 - 男” “生源地 -德阳”。假设该二维 模式的计数值满足最小支持度,就继续取三维谓词: “性别 -男” “生源地 -德阳” “毕业成绩 - 高”;假设该二维模式的计数值不满足最小支持度,那么所有含有“性 别-男”“生源地 -德阳”的多维模式就都不会再被扫描,算法就由三维谓词转为对 二维谓词“性别 -男”“生源地 -成都”进行计数,再作像前面的判断。经过不断地 在频繁谓词末尾添加后缀判断,就能找出所有的频繁 K 维谓词集。3.2.3 产生强关联规则强关联规则流程图关联规则一般都是基于支持度和置信度框架的,发现频繁 K- 谓词集的过程,就 是找出所有满足最小支持度的频繁谓词项。然后我们就是要
38、在这些频繁谓词项的基 础上,通过满足最小置信度来生产强关联规则。强关联规则的流程图如上图所示。3.2.4 相关性分析通过前面的多维关联规则挖掘算法,我们能得到所有的频繁维谓词集,并能将 它们都作为一系列的强关联规则。然后对这些挖掘出的强关联规则使用相关度的概 念进行相关性分析。对于每一条多维关联规则,都会涉及到我们需要关心的某个属性维,将它作为 最后要输出规则的结论 (记为 B);而其他的属性维就作为最后要输出规则的条件 (记 为 A)。A B作为频繁谓词项, 其计数值在算法过程中就已经保存; 由 Apriori 性质, AB 的子集 A和 B必是频繁的,所以它们的计数值也已经在算法 过程中保
39、存。因此,我们通过公式 :corrA,BP(A B)P(A)P(B)就能判断每条规则的相关性。四、总结本文主要论述数据仓库的构建与数据挖掘技术及其应用。将通过对已毕业学生 数据信息(专业、生源地、成绩、就业时间)进行联机分析与数据挖掘,找寻出对 学生就业产生影响的原因所在,并达到为职业技术院校专业设置和教学提供决策支 持。主要完成了以下几方面的工作:1 、将现有的软件工具进行分析比较,选择较适用的数据仓库平台SQL Server2008 及学生就业管理系统数据挖掘工具。2、通过使用 SQL Server 2008 来建立就业指导数据仓库的设计与实现。3、在进行数据挖掘的时候使用了改进后的 Ap
40、riori 算法,这个改进的算法避 免了 Apriori 算法在数据量非常大的情况下给我们带来的较大的开销,提高了效率。4、进行数据的深入挖掘后得到规则,对得到的规则能做出较为合理的解释,说 明这样的数据挖掘是有一定的作用的,能提供给决策者较为准确的参考信息,希望 能在以后学院的发展中起到重要的作用。随着社会的不断发展,国家也日益重视高等院校的发展,高等院校的学生就业 方式也变的多元化、自主化,各个高等院校在日趋激烈的竞争中如何脱颖而出已成 为学校生存的关键所在。本课题的研究说明,就业数据仓库的建立为决策分析提供 了一定的基础,而将 OLAP及数据挖掘技术应用于就业指导领域的话,我们就能从就
41、业信息中发现各种潜在规则,以及发现就业率下降的原因所在。这将指导就业决策 人员进行就业策略地调整,科学的指导就业、合理开设专业、高效的开展宣传,最 终达到提高就业率和保证就业质量的目标。这些是对职业技术院校扩大规模、提高 办学质量具有重要的实践意义。参考文献1 陈志华 .Web数据挖掘在个性化网络学习系统中的应用研究 .20082 贺清碧, 胡久永. 数据挖掘技术综述.云南民族大学学报( 自然科学 版).2003,29(3):328-3303 刘红岩,陈剑,陈国清.挖掘中的数据分类算法综述 .清华大学学报 (自然科学版), 2002,42(6):727-7304 张银奎,廖丽,宋俊一数据挖掘原
42、理 .北京:机械工业出版社 .2003附录 根据总体设计数据访问层由两部分组成,第一部分设计成一个基础框架,通 过接口过过具体数据库;第二部分,设计相应的代码生成工具,完成实体类及管 理类的设计。为方便调用,基本框架被设计成类库的形式,类库名“ AgileWeb.Framework ”, 有关数据库访问的类文件均放在子空间 Data 文件文下。一、基础框架中重要的类1、定义定动程序定定( .NE T 支持的四种类型) public enum DatabaseTypeSQLServer, /SQL数据库OLEDB, /采用 OLEDB类型数据库Oracle, /Oracle 数据 ODBC, /
43、采用 ODBC类型数据库2、从 ADO.NET框架可以看出,针对各类数据库访问的类均要求实现相应的接 口,所有的 DataReader 从 DbDataReader继承,而 DbDataReader 的子类均要求实现 IdataReader 接口,利用这一特性,可以构建一个与数据库无关的BEDataReader。public class BEDataReader : IDisposable private IDataReader dr; / 接口 IdataReader 对象 dr public BEDataReader() public BEDataReader(IDataReader i_
44、dr)this.SetReader(i_dr); / 初始化 dr 对象 public void Close() this.dr.Close(); / 统计当前 D ataReader 对象的字段个数 public int FieldCount() int fieldCount = 0;if (this.dr != null) fieldCount = this.dr.FieldCount;return fieldCount;/ 以 object 返回当前 DataReader 对象所指记录的字段值,以字段序号为参数 public object Get(int index) return th
45、is.drindex;/ 以 object 返回当前 DataReader 对象所指记录的字段值,以字段名为参数 public object Get(string name) return this.drname;public bool Read()return this.dr.Read();/ 让 dr 去指向具体类型的数据库 DataReader 对象public void SetReader(IDataReader sdr) this.dr = sdr as IDataReader;/ 释放 dr 的连接对象public void Dispose() this.dr.Dispose();
46、3、 BEDataReader可以通过接口来完成对具体类型的 DataReader 类的调用,而具体 的 DataReader 对象必须由相应的命令对象来完成,而不同类型数据库的使用了不用 的连接对象, BEComman提d 供了对连接对象和命令对象的封装,执行数据库 SQL,返 回执行结果。命令对象连接对象 数据库名称 数据库类型,默认 SQL Server 是否是用数据库事务事务对象public class BECommandprotected IDbCommand Command; / protected IDbConnection Connection; / private strin
47、g CurrentDBName; / private DatabaseType DBType; / public bool hasActiveTransaction; / protected IDbTransaction Transaction; / / 默认的构造函数public BECommand() this.CurrentDBName = ; this.InitBECommand(, );/ 构造函数使用 SQL,作为参数public BECommand(string sql) this.CurrentDBName = ; this.InitBECommand(sql, );/ 构造函
48、数使用 SQL和 DBName作为参数public BECommand(string sql, string DBName) this.CurrentDBName = ;this.InitBECommand(sql, DBName);/ 命令对象开始事务操作public void BeginTransaction()try/ 获取事务对象 this.Transaction=this.Connection.BeginTransaction(); / 在命令对象上是用事务 this.Command.Transaction = this.Transaction;this.hasActiveTrans
49、action = true;catch (Exception exception) throw exception;/ 清除命令的参数对象public void Clear()if (this.Command != null) this.Command.Parameters.Clear();/ 关闭数据库的连接public void Close()try this.Connection.Close(); catch / 提交数据库事务 public void Commit()trythis.Transaction.Commit();catch (Exception exception) thr
50、ow exception; finallythis.hasActiveTransaction = false;执行非 Select 的 SQL语句public int ExecuteNonQuery()int num;trynum = this.Command.ExecuteNonQuery(); catch (Exception exception)throw exception;return num;/ 执行 Select 查询,返回 IDataReader 类型的对象 public IDataReader ExecuteReader()IDataReader obj2;try obj2
51、= this.Command.ExecuteReader();catch (Exception exception) throw exception; return obj2;/初始化 BEComman对d 象。private void InitBECommand(string sql, string DBName) string str = SQL;try/ 访问 Web.Config 文件中的数据库类型信息str = ConfigurationManager.AppSettingsDBType; catch/ 根据 str 的值确定当前数据库的类型if (str != null & str
52、 != SQL) if (str = ORACLE) this.DBType = DatabaseType.Oracle; else if (str = OLEDB) this.DBType = DatabaseType.OLEDB; else this.DBType = DatabaseType.ODBC;else this.DBType = DatabaseType.SQLServer;/ 让连接接口对象、命令接口对象指向相应实际类型的数据库访问对象 this.CurrentDBName = DBName;switch (this.DBType)case DatabaseType.SQLS
53、erver: /SQL Server数据库newthis.Connection = SqlConnection(dBConnectionString);this.Command = new SqlCommand(); break;case DatabaseType.OLEDB: /OLEDB数据库this.Connection = new OleDbConnection(dBConnectionString);this.Command = new OleDbCommand();break;case DatabaseType.Oracle: /Oracle 数据库 this.Connection
54、 = newOracleConnection(dBConnectionString);this.Command = new OracleCommand();break;case DatabaseType.ODBC: /ODBC 数据库 this.Connection = newOdbcConnection(dBConnectionString);this.Command = new OdbcCommand();break; this.Connection.Open(); this.Command.CommandText = sql; this.Command.Connection = this
55、.Connection;/ 回滚当前数据库的事务操作 public void Rollback() this.hasActiveTransaction = false;if(this.Transaction!=null)&(this.Transaction.Connection != null)try this.Transaction.Rollback();catch (Exception exception)throw exception;/ 为自定义的 BEComman对d 象提供参数设置,根据类型创建不同的参数对象 public void SetParameters(string name, object nvalue)IDbDataParameter parameter = null; /参数对象的接口引用tryswitch (this.DBType)case DatabaseType.SQLServer:parameter = new SqlParameter(); /SQL Server 参数对象 break;case DatabaseType.OLEDB:parameter = new OleDbParameter(); /
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年雄激素及同化激素项目规划申请报告
- 光电电路板基础知识培训课件
- 《密码学基础》课件第4章
- 慈溪无菌室施工方案
- 军训闭营式发言稿
- 2025版环保材料区域代理合作协议范本
- 二零二五年度建材电商平台合作合同范本
- 2025版捯短物流运输短期服务合同范本
- 二零二五年漫画角色形象授权与使用合同样本
- 二零二五年度婚前协议书:婚姻家庭财产分配与法律支持
- 第一章《空间向量与立体几何》单元综合检测卷(基础A卷)(解析版)
- 设计思维方法与表达(高职艺术设计)PPT完整全套教学课件
- 非麻醉患者镇静镇痛原则
- 港口陆域设施
- 模板施工方案技术交底
- 摊铺机使用说明rp953e-903e操作手册
- GB/T 1871.1-1995磷矿石和磷精矿中五氧化二磷含量的测定磷钼酸喹啉重量法和容量法
- GB/T 13880-1992半挂牵引车牵引座的安装
- GB 6675.12-2014玩具安全第12部分:玩具滑板车
- 食物中毒的急救治课件
- 电厂内业资料表格
评论
0/150
提交评论