基于模糊集的分类方法在高校评教系统中的应用.doc_第1页
基于模糊集的分类方法在高校评教系统中的应用.doc_第2页
基于模糊集的分类方法在高校评教系统中的应用.doc_第3页
基于模糊集的分类方法在高校评教系统中的应用.doc_第4页
基于模糊集的分类方法在高校评教系统中的应用.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于模糊集的分类方法在高校评教系统中的应用摘要数据库中蕴藏着大量的信息,通过对其进行分析,可以令我们做出明智的决策。分类是一种数据分析的形式,可以用于提取描述重要数据类的模型。这种分析有助于我们全面地理解数据。传统的数据分类方法(如决策树分类器,贝叶斯分类器)大都采用基于规则的分类技术,这样分类系统有一个缺点,那就是对于具有连续性取值的属性,它们对其进行了陡峭的截断。为了对这种苛刻的阈值规则进行消除,本文介绍了一种基于模糊逻辑的分类方法,它允许对每个类定义“模糊”阈值或边界。对于某个给定的类成员,相对于使用类之间的精确截断来表示类别,模糊逻辑使用0.01.0之间的一个值来表示该类成员对于给定类别的隶属程度,从而达到更为精确的分类效果。关键词:数据挖掘 分类 模糊集 隶属度 决策支持一引言近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据装换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等。顾名思义,数据挖掘是探查和分析大量数据以及发现有意义的模式和规则的过程。分类是数据挖掘最常见的任务之一,包括考察一类新出现的对象的特征,并归类到已定义类中。分类的对象通常表示为数据库表或文件中的记录,分类工作包括向数据库添加一个新列,并给出某种分类代码。分类工作首先要有一个清晰定义的类,还要有一系列已分类实例。分类过程实际上是先建立某种模型,然后将其用于对未分类数据进行分类。例如贷款应用数据的“安全”或“风险”,销售数据的“是”或“否”,医疗数据的“疗法A”,“疗法B”,“疗法C”。这些类属可以用离散值表示,其中值之间的序没有意义。模糊集是模糊数学的理论基础,模糊集理论也称可能性理论,作为传统的二值逻辑和概率论的一种替代,它允许我们处理高层抽象,并且提供了一种处理数据的不精确测量的手段。模糊性是指存在于现实中的不分明现象。如“稳定”与“不稳定”、“健康”与“不健康”之间找不到明确的边界。从差异的一方到另一方,中间经历了一个从量变到质变的连续过渡过程。相对于经典集模型(所描述的事物本身的含义是确定的),模糊性的数学模型用于描述本身含义不确定的事物。模糊集反映了“亦此亦彼”的模糊性,不满足互补律。传统的以经典集为基础的基于规则的分类方法有一个缺点,那就是对于那些连续的属性,有着陡峭的截断。例如,考虑高收入人群的集合,定义月收入大于等于10000的人群为高收入人群,若是低于10000,则为非高收入人群。该规则可用伪代码描述为if(people.income10000) return high income; else return low income;如果该规则用于信用卡申请,那么在这样的规则下,对于一个月收入10001的人将申请到信用卡,而一个月收入9999的人将得不到申请,这种苛刻的阈值看来并不公平。换一种方式,我们可以将income离散化成分类的,如low_income, medium_income, high_income,然后使用模糊逻辑,允许对每个类定义“模糊”阈值或边界。模糊逻辑使用0.01.0之间的真值表示一个特定的值是一个给定类成员的隶属程度,而不是用类之间的精确截断。每个类表示一个模糊集。使用模糊逻辑,可以表达这样的概念:在某种程度上,9999元的月收入是高的,尽管没有10001元的收入高。二模糊集理论简介 模糊集理论最早于1965 年由Zadeh提出, 它可以用来处理不确定事件。作为对古典集合的扩展,在模糊集合中,论域X上的模糊集合A由隶属函数表示,对于任意的xX,都有唯一确定的隶属函数与之对应。则A可表示为:。设X为有限集,且,其中的元素对应的隶属函数为,则此时A可以表示为:。模糊集合的并,交,补运算以隶属函数之间的关系来确定。设A,B是论域X上的模糊集,记A和B的并,交运算分别为AB,AB,A的补集为,则它们的隶属函数可以表示为:,。对于模糊集合上的二元关系R(模糊关系),可以定义为论域U与论域V的笛卡尔乘积(UV)上的一个模糊子集,它的隶属函数R:UV0,1,(u,v)|R(u,v)确定了U中的元素u与V中的元素v的关系程度。设和分别是定义在UV 和VW上的两个模糊关系, 它们的合成运算结果为UW上的模糊集,其合成运算可表示为:(u,v)=其中表示取大运算,表示取小运算。三使用模糊集进行分类的方法设U=为待分类的全体,其中每一个待分类对象可由一组属性表征如下:=(,)对于中的每个属性域,可根据需要分类的类别(类别1,类别2,类别3)定义模糊集(,)。以中的属性对于模糊集的隶属度作为关系值,可得到如下属性类别模糊关系矩阵:类别1类别2类别n属性1属性2属性m根据所有属性分别在各个类别模糊集上的隶属度的和,按照最大隶属原则,可得出待分类元组所属的类别。四教师评教系统实例分析在本例中,采用如下表所示评教指标:序号指标内容权重评分等级1认真负责,要求严格20ABCD2重视课堂互动,耐心解答学生疑问20ABCD3内容充实,条理清晰,表达清楚20ABCD4教学组织有序,时间安排合理15ABCD5选用的教学方法和手段适合于本课程的学习15ABCD6我较好地掌握了本课程的内容,知识和能力得到明显提升10ABCD表格 1对于上述评教等级(A,B,C,D)可构造四个模糊集:,分别对应于A,B,C,D四个等级,在论域(0,100)上其隶属函数可定义如下: (0x100) (0x100) (0x100) (0x100)在经过学生打分评教后,数据库中可存在如下数据表:工号姓名课程指标1指标2指标3指标4指标5指标61张数电8075707578801张数电7478869078691张数电6968717958781张数电57 59516372601张数电6259946779561张数电8861679285841张模电8688859295881张模电6377646776651张模电6542536977781张模电8766737176731张模电7071817377541张模电7458705563652王物理7881978788622王物理6293866494892王物理7772648158782王物理9573899484822王物理7175717358582王物理9787838285743李英语918092 9181963李英语9775677891633李英语9788636862763李英语7465738986833李英语8689728088813李英语7889888184884赵高数6567666178694赵高数8897788787834赵高数4044536371764赵高数6190728567784赵高数8857 696471764赵高数838070677281表格 2上表为简化数据表,省略了每个元组的标识字段,对于每一门课程,存在多个打分情况,因此在进行评判之前,需要对同一门课程的多个评分情况进行处理。首先需要去除无意义数据,在本例中,认为任何一个指标低于40分的元组为无效评分数据,将其删除。随后对一门课程的所有评分情况取平均值,得到一门课程的最终评分情况。经上述步骤处理后的数据如下表所示:工号姓名课程指标1指标2指标3指标4指标5指标61张数电7267737875711张模电7467717177702王物理8080818078743李英语8781768182814赵高数717368717477表格 3根据上表中每个元组的各个指标数据可得出它们对应于A,B,C,D四个等级的模糊集:,的隶属度,定义普通集合U指标1,指标2,指标3,指标4,指标5,指标6,V,从而可以定义U,V上的模糊关系R,以各个指标相对于四个模糊集的隶属度作为模糊关系R的值,以第一条元组为例可得到下表:工号为“1”,姓名为“张”,课程为“数电”的元组的指标等级关系表: 指标10.720.850.970.69指标20.670.790.960.78指标30.730.860.960.67指标40.780.920.890.58指标50.750.880.930.64指标60.710.840.990.71表格 4根据各个指标属性对于,的隶属度进行求和,可以得出用于评判整个元组的指标,即:4.36 5.145.74.07根据最大隶属原则,可将此元组归类为C级,如下表所示:工号姓名课程指标1指标2指标3指标4指标5指标6评教等级1张数电726773787571C表格 5同理,可对“表格4”中所有元组根据其指标属性进行评级,此处不再赘述。五结语本文介绍了一种基于模糊集的分类方法,并以高效评教系统为例对该方法进行了具体说明。相对于传统的分类方法,使用模糊集分类法可避免对于具有连续性取值的属性的陡峭截断,因此该方法更具有科学性和合理性。在使用本方法进行分类时,关键在于用于表示类别的模糊集的隶属函数的确定,在本文所举的评教系统的例子中,使用100,85,70,55四个分数指标作为四个类别模糊集的核,以具体属性值相对于核的接近程度作为隶属度量。必须指出的是,隶属函数的确定既重要又比较复杂,需要针对具体的应用情况而定。因此,该方法的不足之处在于分类指标的不确定性,当采用不同的分类指标时(例如以95,80,65,50四个分数指标作为类别模糊集的核),可能会得到不同的分类结果,如何制定一套合理的分类指标,需要结合实际应用情况进行进一步的研究。使用该方法进行决策辅助时,具有一定的偏差是可以接受的。参考文献:1 (加)Jiawei H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论