数据挖掘中聚类分析技术的研究与应用.doc_第1页
数据挖掘中聚类分析技术的研究与应用.doc_第2页
数据挖掘中聚类分析技术的研究与应用.doc_第3页
数据挖掘中聚类分析技术的研究与应用.doc_第4页
数据挖掘中聚类分析技术的研究与应用.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本文档下载自文库下载网,内容可能不完整,您可以点击以下网址继续阅读或下载:/doc/fadbb849e45c3b3567ec8bb2.html数据挖掘中聚类分析技术的研究与应用数据挖掘中聚类分析技术的研究与应用科技情报开发与经济文章编号:()年第卷第期收稿日期:数据挖掘中聚类分析技术的研究与应用刘艳霞(太原理工大学计算机学院,山西太原,;山西大同大学工学院计算中心,山西大同,)摘要:对数据挖掘中聚类分析方法的概念、功能及其算法做了深入研究,并将其应用于学生成绩数据管理,对某高职院校学生成绩进行了数据挖掘。关键词:数据挖掘;聚类分析;算法;教学管

2、理中图分类号:文献标识码:数据挖掘是计算机行业发展最快的领域之一。以前数据挖掘只是结合了计算机科学和统计学而产生的一个让人感兴趣的小领域,如今,它已经迅速扩大成为一个独立的领域。数据挖掘的强大力量之一在于它具有广泛的方法和技术,以应用于大量的问题集。数据挖掘是一个在大型数据集上进行的自然行为,其最大的目标市场应该是整个数据仓库、数据集市和决策支持业界。数据挖掘技术数据挖掘技术从传统意义上说是指数据的统计分析技术,数据统计分析技术的内容多种多样。数据挖掘中采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等。数据

3、挖掘中的现代挖掘技术按照其不同的技术特点,可以分为规则型、神经网络型、遗传算法型和粗糙集型等。数据挖掘过程有些人认为数据挖掘只是采摘和应用基于计算机的工具来匹配出聚类分析聚类的样本是用度量指标的一个向量表示。同类中的样本比属于不现的问题,并自动获取解决方案,这其实是一种误解。事实上,数据挖掘是一个反复的过程。合理的数据挖掘过程应包括以下步骤:同类的样本彼此具有更高的相似性。聚类算法尤其适/doc/fadbb849e45c3b3567ec8bb2.html合用来探讨样本间的相互关联关系,从而对一个样本结构做一个初步的评价。数据挖掘中经常采用的聚类

4、方法有:分层聚类、划分聚类、密度聚类、网格聚类和模型聚类等。数据收集数据收集是关于数据是怎样产生和收集的。数据收集完成后取样的分布是完全未知的,但我们要理解数据收集是怎样影响它的理论分布的。数据预处理数据预处理包括至少两个常见的任务:算法算法是划分聚类中较流行的一种算法,它是一种迭代的聚类算法,迭代过程中不断移动簇集中的对象,直至得到理想的簇集为止,每个簇用该簇中对象的平均值来表示。利用算法得到的簇,簇中对象的相似度很高,不同簇中对象之间的相异度也很高。算法的主要步骤为:()从个数据对象随机选取个对象作为初始簇中心;()计算每个簇的平均值,并用该平均值代表相应的簇;()根据每个对象与各个簇中心

5、的距离,分配给最近的簇;()转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数不再明显变化或者聚类的对象不再变化才停止。一般,算法的准则函数采用平方误差准则,定义为:()异常点检测。异常点是与众不同的数值,这些数值和大多数观察值不一致。一般来讲,异常点是由测量误差、编码和记录误差产生的,有时也来自于自然的异常值。对异常点有两种处理办法:一是把检测并最终去处异常点作为预处理阶段的一部分;二是寻找不受异常点影响的健壮性建模方法()比例缩放、编码和选择特征。模型评估选择并实现适当的数据挖掘技术是这一阶段的主要任务,通过建立几个模型,并从中选择最好的模型。解释模型和得出结论在大多数

6、情况下数据挖掘模型应该有助于决策,因此要对这种模型://doc/fadbb849e45c3b3567ec8bb2.html其中,是数据集中所有对象与相应类聚中心的均方差之和,为给(和均是多维的)。定的数据对象,为聚类的均值进行说明,使模型有用。出版社,:!第一作者简介:常春燕,女,年月生,年毕业于中北大学(硕士),助教,太原理工大学轻纺工程与美术学院,山西省晋中市榆次区,(责任编辑:戚米莎)刘独玉,罗彬基于的存储过程的研究与应用四郭琳浅谈在中调用存储过程四川职业技术学():川轻化工学院学报,院学报,():,:;刘艳霞数据挖掘中聚类分析技术的研究与应用本刊:

7、信息技术算法对于大型数据库是相对可伸缩的和高效的,算法的时间复杂度为(),其中为迭代次数。一般情况下结束于局部最优解。但是,/doc/fadbb849e45c3b3567ec8bb2.html算法必须在平均值有意义的情况下才能使用,对分类变量不适用,事先还要给定生成簇的个数,对噪声和异常数据比较敏感,不能对非凸面形状的数据进行处理。分为四大类:公共文科课程、公共理科课程、专业基础课程和专业课,将个学期的课程分别划归这四大类,再计算其平均值。因为体育课成绩与个人的身体条件有关,所以对其进行了剪枝处理。由于采用基于距离的数据挖掘技术,为便于计算,不

8、至于产生溢出,将百分制的计分采用简单的小数缩放技术进行标准化,之后便可将数据加载至挖掘库中(表),表有个字段:学生学号,字符型,长度为;:学生姓名,字符型,长度为;:公共文科平均成绩,浮点型;:公共理科平均成绩,浮点型;:专业基础课平均成绩,浮点型;:专业课平均成绩,浮点型。聚类分析在教学管理中的应用高职教学管理简介我国高职院校大多是从中等专业学校升格而成立的,所以在教学管理过程中仍部分延用中等专业学校的方法,如有关课程设置的问题中,按照教育部门的规定要设置若干门公共必修课(邓小平理论、外语、高等数学等)。另外,根据专业性质,设置门数不等的专业基础课及专业课,再有实习、课程设计和毕业实习和毕业

9、设计。在教学质量管理过程中,虽然对每位教师进行工作量、教学质量的评价,但由于专业性质的不同,仅根据学生的考试成绩不能正确评价教师的教学水平,还应该从多方面综合评价。的应用利用算法对表进行聚类分析,经过反复对照,最终将聚类数设置为,其中:类基本对应于学习成绩较差的一类学生,除公共文科外其他科目均不及格;类基本对应于公共理科成绩较差、其他成绩均为中等的一类学生;类基本对应于成绩均为最差的一类学生;类基本对应于专业课较差、其他成绩均为中等的一类学生;类基本对应于学习成绩较好的一类学生;类基本对应于专业基础课成绩较差、其他成绩为中等的一类学生;类基本/

10、doc/fadbb849e45c3b3567ec8bb2.html对应于成绩为中等的一类学生。实例数分别为高职教学管理的数据挖掘问题目前,高校毕业生的就业压力非常大,所以用人单位在选择毕业生时除了有一些相关的证书和教师评语外,也非常注重学生的在校学习成绩。教学管理部门对每个学生每学期的成绩加以记录,但并不对其以往的成绩进行统计,以致学生和学校对学生每学期成绩都没有总体上的认识,从而不能真正有针对性地提高教学质量。此外,由于近年某些行业技术的重大变革,相应的专业课需要做些调整,而两三年前制定的教学大纲明显过时。所以,适时发现学生的特点,给某些成绩非常差的学生提出预警,对特征相似的学生采取更为有效

11、的针对性培养方法,是教学管理者应该面对和解决的问题。,。从挖掘结果分析,该校学生的公共理科成绩普遍偏低。结语数据挖掘可以从大量的历史数据中提取出可信的、新颖的、有效的并能被人理解的模式和知识,数据挖掘是一种数据决策形式。将数据挖掘手段应用于教学管理,使得校方更能全面了解学生学习情况,并由此做出必要而有效的决策。参考文献数据准备数据选择本文所论及的数据挖掘,其数据来源于山西工业职业技术学院邵峰晶,与忠清数据挖掘原理与算法北京:中国水利水电出版陈治国,张春元基于聚类分析的学生等级制成绩评定方法电(责任编辑:戚米莎)北京:清华大学出版社,:;社,:脑知识与技术,():级名高职生前个学期的学习成绩,数

12、据以书面形式存在。为了保证数据的完整性和准确性,首/doc/fadbb849e45c3b3567ec8bb2.html先必须做好原始数据的选择和整理工作。学生的原始成绩每学期均有门考试或考查课,成绩均为百分制。数据预处理依据高职院校学生的数据规模,使用作为数据挖掘平台。经过对原始数据的整理,包括收集原始数据表并将其转化为数据库的基本表的形式,共个班级、张表,每个表对应于一张原始成绩单;将数据表中缺失值给予适当的补值处理;将非百分制课程成绩进行数据转换。第一作者简介:刘艳霞,女,年月生,年毕业于兰州大学计算数学及其应用软件专业,现为太原理工大学计算机学院级硕士研究生,讲师,山西大同大学工学院计算中心,山西省大同市矿区新平旺,建立数据挖掘库原始数据经过整理后,就可以加载到挖掘库中。以其中的一个班级(综采)的成绩为例进行说明。第一学期成绩单对应于表,其中包括门课成绩;第二学期成绩单对应于表,包括门课成绩和电工实习和综采电气实习,成绩为等级制;第三学期成绩单对应于表,包括门课成绩和地质课程设计,成绩为等级制。其他的班级情况与此个学期共计门课。类似。如果直接将个学期累计的课程加载到挖掘库中,数据的特征变量较多,分析结果时比较困难,难以寻找规律,所以,根据课程性质将其:,http:/www.wenk

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论