数据挖掘在学生成绩管理中的应用(课设论文)_第1页
数据挖掘在学生成绩管理中的应用(课设论文)_第2页
数据挖掘在学生成绩管理中的应用(课设论文)_第3页
数据挖掘在学生成绩管理中的应用(课设论文)_第4页
数据挖掘在学生成绩管理中的应用(课设论文)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库技术在学生成绩管理中的应用数据仓库技术在学生成绩管理中的应用 摘要 摘要 本论文介绍了数据仓库 数据挖掘等基本概念性知识 在设计中通过将搜集来的学生成绩原始数 据进行清理 集成 变换等方法进行数据预处理后 建立学生成绩管理数据仓库 应用 SQL Server 2008 中的联机分析处理技术从不同的维度分析各种数据 建立决策树挖掘模型对学生成绩进行定性分析 并 对实验结果进行了分析和解释 关键词关键词 数据仓库 数据挖掘 维度 学籍管理 The Application of Data Warehouse Technology in the Management of Students Abstract This paper mainly introduce the data warehouse and data mining and other basic conceptual knowledge In the design of collected by the student achievement original data cleaning integration transform method for data pretreatment set up students performance management data warehouse application SQL Server 2008 of on line analytical processing technology from different dimensions to observe whether grades have influence factors establish decision making tree mining model student achievement of qualitative analysis and the experimental results are analyzed and explained used to guide the school the decision makers to make change the talent training scheme and guide students to learn more effectively Key words data warehouse data mining dimension schoolmanagement 第 I 页 目目 录录 1 引言 1 1 1 数据仓库的研究现状及发展趋势 1 1 2 数据挖掘技术在教育领域中的研究现状及意义 2 1 3 研究内容 3 2 数据仓库的数据组织 3 2 1 数据仓库 3 2 2 数据仓库的特点 3 2 3 学生成绩数据库的实施 4 2 4 学生成绩数据仓库的概念模型设计 4 2 5 学生成绩数据仓库的逻辑模型设计 5 3 数据预处理 10 4 数据仓库的建设与 的分析 11 4 1 OLAP 的概念 11 4 2 OLAP 的特性 11 4 3 OLAP 的基本活动 12 4 4 OLAP 的实现方式 12 5 数据挖掘 13 5 1 数据挖掘的概念 13 5 2 数据挖掘的任务 14 5 3 学生成绩的多维分析 14 5 4 进行多维分析 17 6 结论 19 第 0 页 1 1 引言引言 如今人们利用信息技术生产和收集大量的数据 给我们的生活提供了很大的方便 然而 要想高效地管理 组织这些数据并对其进行分析并不是一件易事 数据仓库和数据挖掘技术 在这方面得到了广泛的应用 数据挖掘能从存放在数据仓库中的大量数据中挖掘出隐藏的有 用知识 高校中存在着学籍管理 成绩管理等各种数据系统 在这些数据库中存储了大量的数据 学生成绩不仅对学生的学习效果和教师的教学效果具有检测作用 而且还能反馈教学活动 反作用于教师的教和学生的学 在诸多高校的教务数据仓库中的学生成绩记录非常庞大 一 般分为定量评价和定性评价 定量评价也就是我们平时所说的某门课程考了多少分 而定性 评价一般分优 良 中 差等四个级别 数据库是从定性的角度分析学生成绩 缺点就是得 到的结果不是很精确 而数据仓库是从定量的角度对学生成绩进行分析 能精确的得到各个 方面的数据 因此使用数据仓库和数据挖掘技术对学生成绩进行深层的分析 挖掘出隐藏在 数据背后的规律或模式 根据挖掘结构提出一些指导性建议从而更好的指导教师教学 提高 教学效率 提高学生的成绩 本文利用数据挖掘技术 以我校教务管理系统为研究背景 从教务处网站导出近几年的 学生成绩和教师 课程等各方面的信息数据 然后建立学生成绩数据仓库 并创建多维数据 集和维度结构 从不同的维度观察学生的成绩 得出一些对比性数据 最后应用数据挖掘技 术对学生成绩进行挖掘 得出定性评价 根据这些挖掘结果有针对性的提出一些改进教学质 量和提高学生成绩的措施 1 11 1 数据仓库的研究现状及发展趋势数据仓库的研究现状及发展趋势 数据仓库技术是 20 世纪 90 年代的一门新兴技术 它能有效地管理好数据 并对其进 行存储和组织 目前 数据仓库还没有一个统一的定义 著名的数据仓库专家 W H Inmon 对数据仓库概念有比较系统和全面的解释 他在其著作 Building the Data Warehouse 一书 中指出 数据仓库 Data Warehouse 是一个面向主题的 Subject Oriented 集成的 Integrate 相对稳定的 Non Volatile 反映历史变化 Time Variant 的数据集合 它 广泛应用于支持管理决策 显而易见数据仓库不仅仅是一个数据集合 还是一个决策支持系 统 目前 国外企业所建立的数据仓库应用系统给他们都带来了明显的经济效益 但是金融 第 1 页 业使用数据仓库只是完成简单的报表生成和日常业务分析 并没有对数据进行深入的挖掘分 析 显然这样没有发挥出数据仓库的应用价值 所以并不能给银行等金融业带来真正的经济 效益 现阶段我国的数据仓库分析技术还没有多少经验 使用数据仓库的关键是建立仓库模型 这 就对设计者提出了要求 他们必须对相关的业务非常熟悉而且还应具备相应的管理分析能力 数据仓库是一个很有发展前景的技术 数据仓库技术包括对数据的抽取 存储与管理 数据表现和方法论等方面 首先 要采用统一的数据结构即要统一信息系统的平台 数据仓 库技术未来的发展趋势 在数据抽取方面 将会在系统集成化方面得到飞速的发展 在数据 管理方面 数据库厂商将产生出数据仓库引擎 与数据库服务器同步发展 在数据表现方面 数理统计的算法和功能将应用到联机分析产品中 当数据模型建好以后 就要在其上建立应 用系统 进而在数据仓库上进行数据挖掘 构建决策支持系统 让所建的数据仓库发挥其 有用的作用 1 21 2 数据挖掘技术在教育领域中的研究现状及意义数据挖掘技术在教育领域中的研究现状及意义 随着国家对教育的重视 学校也开始寻找各种可以提高学生成绩的途径 根据不同考试 的要求 找出学生的考试成绩中潜在的联系已成为各级高校和教育部门的需求 把数据挖掘 技术应用到教育领域 通过对数据库中的大量数据 特别是学生的成绩数据 进行抽取 转 换 从中提取出对教学质量的改进有作用的数据 当前 数据挖掘技术在教育领域中的应用主要有以下几个方面 1 教学管理系统方面 把数据挖掘技术应用到教学管理中 建立教学管理挖掘系统 对其中的数据进行分析能得到传统的分析方法无法得到的潜在信息 因此学校可以利用这些 信息知道教学的进程从而提高教学质量 2 高校教学质量评估方面 通过对某一个院系学生的评价数据和授课教师的信息进 行数据挖掘 采用分类 聚类 决策树 关联规则等数据挖掘方法对学生成绩进行挖掘 对 挖掘结果进行分析 得出定性评价 找出影响教学质量的关键因素 为教学提供决策支持 3 网络教学方面 把数据挖掘技术应用到网络教学方面 对教学信息数据进行挖掘 产生有利于提高网络教学质量的信息点 使得网络教学工作得到顺利开展 数据挖掘技术中 的关联规则可以发现两门或多门课程中存在的先行后续的关系 学生成绩与课程设置顺序之 间存在的联系 从中可以找到影响学生成绩的原因 第 2 页 1 31 3 研究内容研究内容 在明确了我校教学管理系统的不足之后 试图将数据仓库和数据挖掘技术应用到教学管 理中 首先对教学系统中大量的学生成绩数据进行分析和处理 利用 SQL Server 2008 软件 中的挖掘算法以学生成绩为核心挖掘潜在的规律及模式 得到影响学生成绩可能原因 有针 对性地提出教学建议和课程安排次序 以帮助教育者制定教学计划 提高教学质量 本文主要介绍了数据仓库 数据挖掘等基本理论知识和关联规则 聚类分析等基本算法 运用联机分析处理技术和决策树算法应用于所建立的学生成绩数据仓库中 对学生成绩进行 深入挖掘 从教师 学生 课程等三个维度分析出学生成绩的规律性变化 2 2 数据仓库的数据组织数据仓库的数据组织 2 12 1 数据仓库数据仓库 如今数据库中存有大量的数据信息 必须对其进行存储 管理和维护 由于数据库管 理系统的局限性使得它很难满足人们的需求 DBMS 的缺陷主要表现为 数据量成几何级数 增长 数据来源不同的数据难以集成 访问这些数据时的响应性能不断降低 而应用决策支 持系统 它所需的数据必须经过提取 转换 过滤等预处理操作并与其他数据源整合 按主 题存放在数据库中 客户查询时访问的是中央数据库 因此要想使数据能更好地为用户服务 必须经过清洗 转换和加载 这些工作通常都在数据仓库中完成 2 22 2 数据仓库的特点数据仓库的特点 数据仓库主要有四个特征 面向主题性 集成性 不可更新性 随时间变化性 1 数据仓库是面向主题的 以前的操作型数据库中侧重的是联机事务 各项数据的应用逻辑是相互组合的 分离度 不高 数据仓库中的数据由于是面向主题进行组织的 所以能完整地刻画各项数据以及数据 之间的关系 2 数据仓库中的数据是集成的 数据仓库中的数据大多数都是来自不同的外部应用系统或者是本系统中不同的使用部门 我们一般把数据仓库中的数据分为外部数据和内部数据 外部应用系统的信息就叫外部数据 本系统中的信息就叫内部数据 这些内外数据的组织结构会有所不同 这就需要对不同的数 据源数据进行集成 目的是为了保持数据的一致性 我们所说的数据集成并不是对数据的简 第 3 页 单归类于合并 而是要经过数据组织结构的统一与综合 3 数据仓库中的数据是不可更新的 数据仓库中的数据记录的是日积月累的历史数据的内容 反映的是不同时间点的数据库 快照集合通过数据的统计 整合和重组而得出的数据 数据仓库数据的不可更新性并不意味 着不可以对数据进行更新操作 当我们要进行新的分析决策时 这时候就需要对数据进行更 新操作 把数据仓库中那些过时的数据删掉 并将近期的数据进行集成整合然后添加到数据 库中进而生成新的记录 这些修改和重组的任务是由数据仓库管理员定期后台实现的 最终 用户不允许参与 2 32 3 学生成绩数据库的实施学生成绩数据库的实施 新建一个数据库 命名为 学生成绩 然后根据前面的数据结构设计部分所设计的 11 个表结构建立各表 如图 4 1 所示 图 2 1 数据库模型 2 42 4 学生成绩数据仓库的概念模型设计学生成绩数据仓库的概念模型设计 概念模型设计阶段首先要界定系统边界和主要的研究内容 经过了解现今许多高校在学 生成绩数据库中对学生成绩仅仅是存储 查询等简单的操作 因此教师要想了解某一门课程 的信息并不是一件简单的事 教师希望从学生的考试成绩中知道用哪种教学方法或手段会对 学生的学习积极性得到提高 收到比较好的教学效果 还有学生学习这门课程会不会影响对 另一门课程的学习 应该怎样安排课程的先后顺序才能让学生学的更好 第 4 页 在学生成绩管理中有各种类型的的数据 先要对这些数据进行预处理 使它们符合教学 决策所需的数据 然后把学生成绩分析作为本论文研究的主题创建学生成绩数据仓库 并从 同一个班的不同门课程和同门课程在不同的专业与不同的教师教授下的效果比较进行分析研 究 2 52 5 学生成绩数据仓库的逻辑模型设计学生成绩数据仓库的逻辑模型设计 数据仓库的逻辑模型设计阶段包括实体关系建模和维度建模 实体关系建模是用 E R 图来表示用户需求 E R 图是用来描述实体和实体之间的联系 实体关系建模常常是用来为 单位创建一个复杂的模型 它在创建高效的联机事务处理的系统方面很有作用 星型结构模式由一个事实表和一组维表组成 每一个维表都有一个维度作为主码 所 有这些维度与事实表里的某一个维度相对应 成为事实表的外码 星型模型中的事实表里的 每一个属性都是维度表的外键 在这种模型中事实表是数据仓库的中央表 它包含有联系事 实表与维度表的数字度量值和键 还包含描述业务内部某一特定事件的数据 维表是用来描 述事实表中的数据 它包含创建维度所基于的数据 星型模型如图 3 1 所示 事实表 维度表维度表 维度表 维度表 维度表 图 2 1 星型模型 使用星型结构有很多好处 第 5 页 这些模型能直观的反映出用户的需求信息 这样就使得数据库的设计面向主题 能满 足用户的查询 以图的形式展现出这些信息 既直观又形象 因此很容易被用户理解 根据设计出来的这些模型 用户可以明确的知道对多维数据的访问路径 本课题以学生成绩分析为主的数据仓库主要包括学生信息 任课教师信息 课程信息 院系信息 专业信息和班级信息等 表 2 1 学籍异动事实表 第 6 页 表 2 2 成绩事实表 表 2 3 奖罚记录事实表 第 7 页 表 2 4 在校生事实表 表 2 5 毕业生事实表 第 8 页 表 2 6 星形表 列名数据类型列名说明 xnxqhvarchar 11 学年学期号 zcjmoney总成绩 xfmoney学分 xsmoney学时 kcbmvarchar 10 课程编码 xhvarchar 20 学号 kcxzcodeint课程性质编码 kcflcodevarchar 2 课程分类编码 khfscodeint考核方式编码 jsbhvarchar 10 教师编号 表 2 7 学生成绩事实表 XsCj 第 9 页 列名数据类型列名说明 xhvarchar 20 学号 xmvarchar 24 姓名 xbvarchar 2 性别 bjbhvarchar 10 班级编号 表 2 8 学生维表 Student 列名数据类型列名说明 jsbhvarchar 10 教师编号 jsxmvarchar 20 教师姓名 jsxbvarchar 2 教师性别 zccodevarchar 10 职称编号 表 2 9 教师维表 JiaoShi 3 3 数据预处理数据预处理 表 3 1 学生管理成绩表 把教务处的数据抽取出来后 通过还原数据库还原到 SQL Server 2008 中 从里面挑选 出有关学生 教师 课程信息等关联的表 共计 11 个 把这些表导入到学生成绩数据库中 本次研究课题必须保证所有的学生有课程平均学分绩 如该生办理了退学或者休学手续 则删除该生的所有信息 如该教师没有担任教学任务 则删除该教师的相关信息 第 10 页 例如我使用了如下 SQL 语句来删除无成绩的学生记录 Delete from Cj BjxsCJB where zcj is null 对数据进行筛选和连接 例如 1 在学生成绩 XsCj 事实表里我使用如下 SQL 语句 Insert into XsCj Select xnxqh zcj kcbm xf xs kcbm xh kcxzcode kcflcode khfscode jsbh from Cj XsCj where kcbm in select kcbm from Curriculum and xh in select xh from Xj YxjJbxx 2 在专业 ZhuanYe 维表里我使用的 SQL 语句如下 Insert into ZhuanYe Select zybh zymc yxbh from Major 3 在学生 Student 维表里的 SQL 语句是 Update Student set bjbh BanJi bjbh from BanJi where zybh in select zybh from BanJi Xj YxjJbxx where BanJi bjmc Xj YxjJbxx bjmc 4 4 数据仓库的建设与 的分析 数据仓库的建设与 的分析 4 14 1 OLAP 的概念的概念 联机分析处理是从信息数据的多种可能的角度进行观察分析以得到这些角度对度量值的 影响情况 我们把这些角度称之为 维 联机分析处理技术支持动态多维分析 所谓动态 多维分析是指跨维 在不同的层次选取成员进行计算和建模 在不同的时间段进行趋势分析 和预测分析 对数据进行切片和切块等多个方面对数据进行深入地分析 它还可以用于查询 底层的细节数据 通过旋转对不同维进行比较 OLAP 中的变量是指从现实系统中抽取出来 的用来描述数据的实际含义 人们从不同的角度来观察数据 这些角度就是维度 数据的某 一个维度有可能存在更细节化的描述 我们把它称作维的层次 维成员是维度中的一个取值 第 11 页 4 24 2 OLAP 的特性的特性 1 快速性 OLAP 能快速的对数据进行分析 基本上在 5 秒钟之内就能分析出用户的需求信息 之 所以反应这么敏捷是因为数据存储格式 高效的硬件设计等给它的快速运行提供了可能 2 可分析性 OLAP 系统可处理与应用有关的逻辑分析和统计分析 用户分析数据可以直接在 OLAP 平台进行 也可以与其他外部分析工具连接后进行 这里的外部分析工具包括时间序列分析 工具 成本分配工具 意外报警 数据开采等 3 多维性 进行多维分析的基础必须要多个维度 用户应在 SQL Server 里创建多维数据集和多维 视图 然后才能进行多维分析 在 OLAP 系统中 信息被描述成多维立方体 Cube 用户 根据所得的立方体进行切片 上钻 下钻 旋转等操作就能得到期望的分析结果 4 信息性 OLAP 能管理好大容量的信息 并且能够从这些庞大的数据里迅速及时的提取出用户 需求的信息 它是一个大的数据集市 因此管理和存储这么多的数据需要考虑数据的复制性 可利用的磁盘空间和数据仓库的结合度等方面 5 可视性 OLAP 系统支持可视化的用户界面 可以把数据以多种方式显示出来 比如电子表格 图表等 这样用户就可以直观简洁明了看到分析数据 4 34 3 OLAP 的基本活动的基本活动 1 钻取和卷起 钻取是指对应于某一维逐步向更细节层方向观察数据 卷起与钻取相反 这两个基本操 作给用户提供了足够灵活 多角度的数据观察 2 切片和切块 有时只用显示出用户感兴趣的数据 这时候就需要用到切片和切块 帮助用户从众多混 杂的数据中进行选择 3 旋转 第 12 页 4 44 4 OLAP 的实现方式的实现方式 有时候想要改变一个报告或页面显示的维方向以从不同的视角来观察数据 这时候就需 要用到旋转的方法 按照数据的存储方式 通常把 OLAP 分为基于多维数据库的 OLAP MOLAP 基于关 系数据库的 OLAP ROLAP 和混合型的 OLAP HOLAP 三类 1 MOLAP MOLAP 是基于多维数据库的联机分析处理 这种联机分析处理的核心是多维数据库技 术 它里面的数据以多维的方式来存储 使用多维数据库来组织数据 MOALP 工具以多维 数据库的形式将源数据 基础事实数据和导出数据存储在以多维数组为基本存储结构的多维 数据库中 多维数据库以多维的方式存储数据和显示数据 多维数据在多维数据库中是以 超立方体 的结构显示 再对 超立方体 进行切片 切块 旋转等操作产生多维数据报 表 多维数据库相比关系数据库而言 多维数据库占用的存储空间小而且数据的综合运算速 度高 但它也存在一些不可忽视的缺点 一是多维数据库系统缺乏标准 二是多维数据库需 要管理大规模数据 但它这方面的能力不够强大 因此它不适合用来处理大量的细节数据 MOLAP 的优点是能够非常快速地反应用户的查询需求 MOLAP 独特的多维数据库结构为 它的敏捷性提供了基础前提 2 ROLAP ROLAP 是基于关系数据库的联机分析处理 用户从客户端提交分析请求给 OLAP 服务 器 这些请求经过 OLAP 服务器被转换成 SQL 语句进行执行 OLAP 服务器再把执行结果 以多维视图的形式展现给用户 ROLAP 将多维数据库中的结构设计表分为 一种是事实表 主要是用来存储数据和外码维关键字的 另一种是维表 每一个维度至少要使用一个表来存 放层次 成员类别等信息 维表和事实表通过主键和外键联系起来 形成星型结构或雪花型 结构 ROLAP 与 MOLAP 相比 ROLAP 更加灵活 技术成熟 而且有现成的产品可以借鉴 开发过程快 风险也小 缺点在于处理用户的分析请求时所需的时间比较长 这是由于 ROLAP 要进行表连接和索引 这样就降低了系统的性能 3 HOLAP HOLAP 是以上两者的有机结合 被称为混合型的联机分析处理 这在联机分析技术能 够满足用户的各种请求 还附带 MDDB 和 RDBMS 供开发人员使用 在运行时把数据的查 询结果存入多维数据库中 操作型细节数据只能使用关系型数据库进行管理 而综合性的数 据则使用多维数据库来管理操作 HOLAP 结合了 MOALP 和 ROLAP 的优点 可以看成是 第 13 页 对 MOLAP 的一种改进 但是它的结构是相当复杂的 5 5 数据挖掘数据挖掘 5 15 1 数据挖掘的概念数据挖掘的概念 数据挖掘 Data Mining DM 是从大量的 随机的 不完全的 模糊的 有噪声的 数据中 提取出隐含在数据中的 隐藏的 但又有潜在使用价值的信息和知识的过程 因此 它是一种深层次的信息分析方法 数据挖掘出来的内容必须是需求者感兴趣的信息 因此数 据挖掘过程就是使用各种挖掘技术从大型数据库中提取出人们感兴趣的信息的过程 提取出 来的这些信息和知识用概念 规则 规律 模式等形式来表示 在高校中 我们可以使用数 据挖掘技术对学生的成绩进行全面地分析 找出学生成绩与其它各种因素之间隐藏的内在联 系 定性的从不同的角度精确地展现学生成绩 从而找出影响学生成绩变化的可能因素 进 而提出一些教学建议和改进措施 提高学生学习的积极性 让学习效果更好 5 25 2 数据挖掘的任务数据挖掘的任务 数据挖掘的主要任务是发掘数据仓库还没有被发现的知识 决策者明确需要了解的信息 我们可以直接使用查询 OLAP 技术或其它工具来得到 而有些隐藏的信息我们就不能直接 得到 因而就需要用到数据挖掘技术 在数据仓库中应用数据挖掘技术可从中找出有价值的 信息和知识 然后再利用这些信息和知识指导实际操作 数据挖掘的任务包括关联模式 聚类模式 分类和预测 偏差检测与时序模式 1 关联模式 关联模式是指数据项之间存在的关联规则 如果两个或两个以上数据项 重复出现的概率比较高 它们之间就可能存在某种关系 我们把这种可能的关系称之为关联 规则 2 聚类模式 按照相似度把数据归并成若干类 要求同一类别中的数据相似 数据间 的距离较小 不同类别中的数据相异 数据间的距离较大 我们把它称之为聚类 3 分类和预测 描述和区分数据的类或概念的技术成为分类技术 分好的类或概念模 型能够预测未知的对象类 4 偏差检测 分类中的反常实例和不满足规则的特例不能直接用于数据分析 需要经 过检查偏差 预测数据库中数据的某些异常问题 为后一步的改正做好铺垫 5 时序模式 时间序列模式是根据数据的发展趋势来预测将来可能出现的值 它是根 第 14 页 据时间序列查询出事件较高的发生概率来实现的 5 35 3 学生成绩的多维分析学生成绩的多维分析 在高校学生成绩管理中 影响学生学习成绩的因素很多 因此要进行综合分析 传统分析 无非是得到均值 方差 信度 效度和区别显著性检验等 往往还是基于教学本身 其实 还 有一些教学中不易察觉的因素和教学以外的因素影响学生学习成绩 这些都需要进一步分析 从而得出结论 供教学管理人员做出相应的决策 这些信息是无法从传统的学生成绩分析方 法中获得 但可以通过从20 世纪90 年代中期兴起的数据挖掘技术中获得 从而找到影响学生 学习成绩的真实原因 制定相应措施 提高教学效果 数据挖掘是一种决策支持过程 是深层次的数据信息分析方法 将数据挖掘技术应用于教学非 常有益 它可以全面地分析学生成绩与各种因素之间隐藏的内在联系 比如 经过对学生成绩 相关数据库系统的分析 数据挖掘工具可以问答诸如 哪些因素对学生的学习成绩可能有影 响 等类似的问题 这是传统方法无法达到的 通过数据挖掘分析 其结果可能给教学带来一 定的收获 在这里 提出采用数据挖掘中的分类算法 将大量的数据转化为分类规则 从而更 好地分析这些数据 第一步 确定挖掘对象及目标 清晰地定义出问题 认清数据挖掘的目的是数据挖掘的重要一 步 虽然挖掘的最后结果不可预测 但要探索的问题应是有预见的 第二步 数据采集 这是一个工作量较大 占据时间较多的阶段 教师需要在以往的教学实 践中 以各种途径收集数据信息 第三步 数据预处理 将教师收集到的不同的数据信息集成 并转换为一个分析数据模型 这一数据模型是针对算法而准备的 不同的算法可能需要不同的 分析数据模型 第四步 数据分类挖掘 分类挖掘的目的是为了建立一个分类模型 首先要选择合适的挖掘 算法 并使用合适的程序设计软件实现这一算法 接着对所得到的经过转换的数据进行挖掘 第五步 分类规则结果分析 这一步主要解释和评估分类结果 第六步 知识的使用 将分析所得到的知识集成到教师的教学环节中去 教师可利用所得知识 改进教学策略 进一步指导教学 5 3 25 3 2 属性约简属性约简 令M 为学生成绩分析基本数据表S 的差别矩阵 M 中的元素表示为Mij Mij 称为项 设M 中的项Mij 共有K 类 将每一类Mij 置于区分数组DA 中 da t 为DA 中的元素 对应每一 类Mij p t 表示每一类Mij 的个数 t 1 2 K C C1 C2 Cn 第 15 页 是S 中所有属性的集合 其中任一属性Cr C 令f Cr 是DA 中任一属性Cr 的属性频率 函数 则有f Cr f Cr C da t p t 其中绝对值表示集合中元 素的个数 算法描述如下 step1 cone U da t 1 R core step 2 Q da t da t R t 1 2 k B C R step 3 若Q 转step 6 否则 转step4 step 4 对所有Cr B 计算f Cr 并且令f Cv maxr f Cr 若同时有多个属性的f Cr 最大 选择与当前约简组合 数q 属性组合 最少的属性Cv 若同时有多个属性的组合 数q 属性组合 最少 则选择信息表中靠前的属性Cv step 5 R R Cv 转step2 step 6 对得到的约简 执行以下消冗操作 求得较佳约简 对区分数组DA 中的每个元素da t 只保留该属性约简中的属性 求出核 核即所求较佳约简即学生成绩分析约简数据表S 5 3 35 3 3 属性约简属性约简 值约简算法以属性值的重要性作为启发式信息 并以属性值核作为初始候选集合 之后 选 择重要性最高的属性值添加到候选集合中 判断当前候选集合是否为一个值约简 如此反复 直到找到一个值约简为止 输入 属性约简后的决策表S U C d V f n 个条件属性 用Ci i 1 2 n 表示 m 个记录 用Cik i 1 2 n k 1 2 m 表示第k 个记录的第i 个条件属性 其值用V ik表示 输出 值约简后的决策规则集RUL E step1 RUL E step2 对决策表 S 中的所有未被删除的记录进行考察 1 逐列判断 删除该列是否会发生冲突 若有冲突发生 则保留其原属性值 否则标记为 此时记录中未标记者即为属性值核 设属性值核对应的属性值集为Pk k 1 2 m 2 若仅由属性值核就能判断出决策或虽仅由属性值核不能判断出决策 但标记为 的数 目为1 则直接添加该条件属性值到候选集合中 并提取规则rk RUL E rk RUL E 删 第 16 页 除决策表中能够利用该规则作出正确决策的记录 对未被删除的记录进行考察 直到决策表 记录全部删除为止 1 Rk Pk 2 在Rk 外的条件属性值中找出一个属性值Cik V ik i 1 2 p p 为R k 外的 条件属性数 使得SIG Cik V ik 取得最大值 3 将Cik V ik 加入到R k 的尾部 Rk Pk Cik V ik 判断能否由Rk 得出决 策 若不能转到2 执行 4 从Rk 的尾部开始 从后往前对每个属性值Cik V ik进行判断 若 Cik V ik Pk 则 从Cik V ik 开始往前的属性值都是属性值核 跳出4 否则 逐一判断能否删除该属性值 而不影响决策 由此求出其最小集 跳出4 5 提取规则rk RUL E rk RUL E 删除决策表中能够利用该规则rk 作出正确决策的记 录 转去执行step3 step4 根据值约简输出对应的简化后的决策规则集RUL E 5 3 45 3 4 生成分类规则生成分类规则 利用粗糙集理论进行数据挖掘 其最大的优点就是可以直接提取分类规则 由于本例中主要 希望了解影响学生学习成绩的因素 因此 所提取的规则主要考虑分类为 Yes 的百分比规 则 所生成的分类规则如下 IF 平时成绩 较好AND 课堂学习效果 完全掌握 THEN 总评成绩较好的比率 100 IF 平时成绩 较好AND 课堂学习效果 基本掌握 THEN 总评成绩较好的比率 72 IF 平时成绩 较好AND 课堂学习效果 不够好AND课后上机时间量 4 THEN 总评成绩较好 的比率 67 IF 平时成绩 较好AND 课堂学习效果 不够好AND课后上机时间量 2 4 THEN 总评成绩 较好的比率 64 5 4 进行多维分析进行多维分析 第 17 页 图 5 1 从课程维度看学生成绩 1 从教师维度看学生的成绩 职称为 副教授 的教师所带课程的学生成绩平均分 为 76 6 讲师 的为 75 6 教授 的为 77 9 这些分数都差不多 由此可见教师的职 称对学生的成绩影响不大 2 从课程考核方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论