




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-本文为网络收集精选范文、公文、论文、和其他应用文档,如需本文,请下载-基于粗糙集的关联规则挖掘在教师成长中的应用的论文本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意!摘 要 关联规则挖掘是数据挖掘中的一个重要 问题 ,在最近几年被广泛 研究 。本文将粗糙集 理论 及 方法 引入高校教师成长信息,通过属性约简降低属性纬数,然后基于粗糙集理论进行关联规则挖掘,得出了一些有益的结论,为拓展粗糙集的 应用 领域做出了有益的探索。 关键词 粗糙集;关联规则;教师成长;区分矩阵;属性约简 1 引言粗糙集理论(rough set)是由波兰数学家 在80年代初提出的一种处理模糊和不精确性问题的新型数学工具。利用粗糙集理论进行数据挖掘,重要的一点就是基于粗糙集理论的属性约简。通过约简操作降低属性的纬数, 总结 出适用于决策支持的知识规则,是粗糙集理论最重要的应用之一。 关联规则挖掘是数据挖掘中的一个重要问题,随着全球范围内数据库中存储的数据量迅速增大,数据间的关联规则往往过于庞大而难以 分析 ,如何有效的得到有意义的关联规则成为研究热点。本文以高校信息化为应用背景,将基于粗糙集理论的数据挖掘技术应用于高校教师成长过程,得到实际可用的关联规则,为管理者提供决策支持。 2 基本概念粗糙集理论的基本概念粗糙集理论将分类与知识联系在一起,认为知识源于有认知能力的主体的分类能力,并用等价关系形式化表示分类。 定义1:粗糙集理论中定义信息系统为一个如下四元组:s=(u,a,v,f),其中u=(x 1 ,x 2 ,x n )是对象集,即论域;a是属性集合,a=cd,且cd=,其中c为条件属性,d为决策属性;v为属性a的值域;f是uav的映射,它为u中各对象的属性指定唯一值。s又被称为决策表。 定义2:在信息系统s中,对于一属性集ia,可构造对应的二元等价关系。ind(i)uu|ai,有a(x)=a(y),称ind(i)为由i 构造的不可分辨关系。不可分辨关系实际上就是i上的等价关系。因此,针对属性集i上的不可分辨关系,u可划分为几个等价类,用u/ind(i)表示。 定义3:约简定义为不含多余属性并保证分类正确的最小条件属性集。假设条件属性集c的简约是c的一个非空子集 c,c和c必须满足以下两个性质: (1)ind(c,d)=ind(c,d),不存在c c有ind(c,d) =ind(c,d)。 (2)一个决策表可能同时存在几个约简,c的约简的集合记作red(c)。 这些约简的交集定义为决策表的核(core),core(c)=red(c)核中的属性是 影响 分类的重要属性。 定义4:信息系统s中关于属性集c的区分矩阵m(c)=(m ij )nn定义为: m(c)=(m ij ) n n 是代表了区分x i ,x j 的完整信息。 关联规则关联规则是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。 定义6:设i = i 1 ,i 2 ,i n 是项的集合。包含k个项的项集称作k项集。设d是数据库记录的集合,其中每个事务t是项的集合,且t i。设x是一个项集,事务t包含x当且仅当x t。 关联规则是形如x y的蕴涵式,这里x i,y i,且xy=。x称为规则的左部或规则的前提(简记lhs),y称为规则的右部或结论(简记rhs)。 度量规则的参数是支持度(support)与置信度(confidence)。支持度是指数据集中的实例同时包含条件属性与决策属性的共同概率,支持度揭示了规则的重要性。置信度表示实例在包含条件属性的前提下,也包含决策属性的条件概率,它揭示了规则的可信度。在粗糙集理论中支持度与置信度可以表示为: 其中p(x)表示是指x在数据d中出现的概率,其余雷同。support(x y)指x、y在d中同时出现的概率;confidence(x y)表示在x出现的前提下y出现的条件概率。如果得到的规则同时满足支持度不小于支持度阈值和置信度不小于置信度阈值,则该规则有意义。 3 基于粗糙集的关联规则挖掘模型本文应用基于粗糙集的关联规则的挖掘过程分为三步:数据预处理,属性约简与关联规则的挖掘,见图1。 (1)数据预处理:通过对高校人事数据的初始信息进行数据清洗,缺失值处理,转换及数据选择,获取初始信息表,且初始表转换为粗糙集形式,并明确条件属性集和决策属性; (2)属性约简:对条件属性进行约简,删除多余属性,用区分矩阵来完成约简和求核,在此基础上生成约简属性集; (3)关联规则挖掘:输入支持度阈值和置信度阈值,根据数据约简结果,利用粗糙集理论 文献 6中的算法,进行关联规则的挖掘。 图1 基于粗糙集的关联规则模型 4 基于粗糙集的数据挖掘技术在教师成长中的应用随着信息化在 社会 各方面的迅速普及,高校在近几年来已经掌握了大量的教师信息数据,并形成了相应的教师信息数据库。然而,面对如此海量的信息,高校管理者如何利用,如何从中发现对高校教师队伍建设有实际指导意义的 规律 ,特别是如何才能将人才的引进及培养与社会的需求正确结合?本文用数据挖掘技术在这方面做了一定的探索和研究,期望能得到一些有益的启示。 下面本文就以高校教师成长信息为例(本文以职称教授及副教授作为高校人才成长的标志,根据参加工作时间的长短作划分为成长的快慢),说明基于粗糙集的关联规则挖掘算法的实施过程。 根据上述构建的数据挖掘模型,利用启发式属性约简算法对高校教师数据进行约简。首先进行数据预处理,其次求出约简或近似约简,并在此基础上根据值约简等减少属性和个体数目,最后提取规则应用于新对象的分析和预测。 1)数据预处理 要用基于粗糙集的数据挖掘方法进行知识发现,就需要首先组织好数据表。本文以某高校教师数据,采用关系数据库模型,经关系数据库的导入及连接并进行抽象、离散化等预处理。将影响教师成长的因素:性别、 政治 面貌、专业、第一学历、最高学历、毕业学校、年龄、学历变动、现聘职称、教学能力和科研能力作为系统的条件属性c,而将教师的成长速度作为决策属性d。通过属性选择与处理后的信息表示如表1所示: 表1 属性离散化表示字段名称数据类型说明性别float(2)1-男,2女政治面貌float(2)划分为四个等级:1-党员、2-共青团员、3-群众、4民主党派第一学历float(2)分为四个等级:1-博士、2-硕士、3-本科、4-本科以下最高学历float(2)分为四个等级:同上毕业学校float(2)概化为三个等级:1-国外高校、2-重点高校、3-普通高校现聘职称float(2)分为两个等级:1-教授、2-副教授评定年龄float(2)1-31,35、2-36,40、3-41,45、4-46,50、5-大于50成长float(2)1-快、2-中、3-慢学历变动float(2)1-是、0-否专业float(2)划分为两类:1理科、2文科教学能力float(2)离散化为三个等级:1-高、2-中、3-一般科研能力float(2)离散化为三个等级:1-高、2-中、3-一般 以上划分等级的标准是根据以往实际经验和需要而确定,按表1的规则概化和离散化原始数据,得到预处理后的数据表如表2所示: 表2 预处理后的教师数据属性 ucd性别专业政治 面貌第一 学历最高 学历毕业 学校现聘 职称评定 年龄学历 变动教学 能力科研 能力成长12244322313332213322211322321132221123141112121212215123322131132227123433141233228223432231232 2)属性约简 core = 毕业学校,评定年龄, 教学能力,科研能力,第一学历,然后通过 计算 属性重要性,得到性别、专业和政治面貌几乎为零,即性别、专业、政治面貌和最高学历与本决策表的决策几乎无关可以省略。因此得到的约简为r=毕业学校,评定年龄, 教学能力,科研能力,现聘职称, 第一学历, 学历变动,最高学历。这样提高了后续规则提取的效率。 3)关联规则挖掘 根据上面得到的约简,通过属性之间的隐含关系来挖掘关联规则,给定支持度阈值5%,置信度阈值80%,可得到同时满足支持度阈值和置信度阈值的项目集生成的关联规则有: (1)(评定年龄 = 1)&(毕业院校 = 2)=(成长 = 1); (2)(第一学历 = 2)&(科研能力 = 1 )=(成长 = 1); (3)(最高学历=3) & (学历变动=1) & (科研能力= 3) = (成长速度= 3) (4)(最高学历= 1) & (教学能力= 2) = (成长速度= 1); (5)(最高学历= 2) & (教学能力= 3) = (成长速度= 2); (6)(毕业学校= 2) & (评定年龄= 1) & (科研能力= 3) =(成长速度 = 1); (7)(现聘职称= 2) & (第一学历= 4) & (最高学历= 3) =(成长速度= 3); (8)(第一学历= 3) & (毕业学校= 3) = (成长速度= 2); (9)(第一学历 = 2) & (学历变动 = 1) = (成长 = 1); 对以上规则的解释如下: 由第一条规则可知:毕业于重点高校的、第一学历是硕士的教师,评职称时在3035岁之间,有80%以上概率可以断定教师成长快;由第二条规则可知:学历为硕士,科研能力高,则可断定该教师的成长速度快;第三条规则说明如果通过进修最高学历才达到本科,有82%的几率断定教师的成长速度慢;第四条规则说明最高学历是博士,教学良好,则有92%的几率断定教师成长速度快;第五条规则说明最高学历是 研究 生且教学能力一般,则有85%的概率断定教师的成长速度适中;第六条规则说明毕业学校是重点院校、年龄在3135岁之间、科研能力低,即有81%的概率断定该教师成长快速;由第七条规则说明职称是副教授、第一学历是本科以下且最高学历是本科,则有82%的概率断定该教师成长速度慢;第八条规则表示第一学历是本科、毕业学校是普通高校,即有82%的几率断定该教师成长速度适中;由第九条规则可知:第一学历是硕士的、学历提高的教师,成长速度快。 由以上规则可以得出:第一学历、毕业学校、学历变动、最高学历、科研能力、教学能力及年龄对教师成长的快慢有显著 影响 。第一学历是硕士的教师,科研能力较高的教师,属于成长速度快的类型;而第一学历在本科及本科以下的教师,在4145岁才评上副教授,相对来说成长速度较慢(评为副教授的平均年龄是38岁左右);而最高学历是博士,教学能力良好的教师,成长速度快;重点高校及国外高校毕业的教师,参加工作时间为1014年职称就被评为教授或副教授(评定副教授参加工作的平均时间为16年),其成长速度显然高于普通高校毕业生。因此,如果学校希望教师能够快速成长,则在人才引进时就要限制引进教师的毕业学校和第一学历。 5 结束语粗糙集 理论 作为一种新型的数据挖掘工具,已经很好的体现了它的优势。本文简要介绍了粗糙集理论的基本知识, 应用 基于粗糙集理论的关联规则挖掘算法对教师信息数据实例进行 分析 ,挖掘出人才成长的相关要素,对高校人才引进与培养具有一定的指导意义。参考 文献1 wang jue,miao duoqian. analysision attribute reduction strategies of rough set j .journal of computer science & technology, 1998, 13 (2) : 189-193 2王国胤.rough 集理论与知识获取m .西安:西安 交通 大学出版社,2001 3han jiawei , kamber mining concepts and techniquesm . morgan kaufmann publishers,2001 4白秀玲,崔林,王向阳.一种基于关联规则挖掘的粗糙集约简算法j .计算机工程与应用, 2003;39(10) : 185186 5童舟,罗可.基于rou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版蔬菜采摘与快速运输一体化服务合同
- 2025房地产合同数据安全与隐私保护及合规检查合同
- 2025年度大型矿山资源承包开发合作协议
- 2025版汽车音响配件批发合作协议
- 2025房地产租赁权转租合同补充协议
- 2025年度政府公文翻译服务合同
- 2025版纺织品行业节能减排项目合同
- 2025版信息技术项目上岗服务合同书
- 2025年新能源充电站租赁合同及运营维护服务协议
- 2025年智能家居玻璃配件购销合同模板
- 定密管理制度
- 幕墙吊装方案计算书
- 绿豆芽成长记-A4打印版
- 3D打印技术教程
- 食材配送投标方案(技术方案)
- 佩戴腰围护理规范
- 建设工程质量检测人员考试:建设工程质量检测人员真题模拟汇编(共906题)
- 中国地理(第二版)赵济王静爱
- 【课件】等差数列的概念2说课课件-2022-2023学年高二上学期数学人教A版(2019)选择性必修第二册
- 前交叉韧带损伤PPT
- 水利工程建设单位管理工作报告
评论
0/150
提交评论