已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)贝叶斯网络分类模型在高职教育考试中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贝叶斯网络分类模型在高职教育考试中的应用研究 摘要 从海量数据中挖掘知识为决策支持和分析预测服务,已成为人们对信息系 统提出的新需求,但数据的处理和数据的提炼技术是匮乏的。起源于贝叶斯统计 学的贝叶斯网络以其独特的不确定性知识表达形式、丰富的概率表达能力、综 合先验知识的增量学习方法等特性表示了客体的概率分布和因果联系,成为当 前数据挖掘众多方法中最为引人注目的焦点之一,成为知识发现领域中的一种 重要的知识发现方法。本文主要是对基于贝叶斯网络及其分类模型的应用研究, 其主要内容如下: ( 1 ) 综述了数据挖掘技术的基本概念、数据挖掘中的几种分类方法及其应 用,然后结合高等职业教育的现状和学生特点讨论了高等职业教育中贝叶斯网 络的基本应用。 ( 2 ) 阐述了贝叶斯网络的理论基础。包括贝叶网络的概念及其性质特点、 贝叶斯网络的参数学习和结构学习。讨论了贝叶斯分类和贝叶斯网络分类方法。 根据理论知识的描述,用一个典型案例分析论证了贝叶斯网络模型,用k 2 算法 描述了完备数据的结构学习方法。 ( 3 ) 基于k 2 算法,借助m a t l a b 环境,通过机器学习构建了一个高等职业 教育中英语应用能力考试的贝叶斯网络分类器。 ( 4 ) 基于贝叶斯网络分类模型在高职教育考试中的应用研究。通过贝叶斯 网络分类工具和i d 3 算法分别完成了对分类模型的验证实验,并对实验结果进 行了比较分析。该模型充分利用了学生信息的先验知识,可为高职生今后实用 型英语学习指明方向,为学校的教育教学管理或改革提供决策支持。 关键词:贝叶斯网络;贝叶斯网络分类器;数据挖掘;k 2 算法;高等职业教育 r e s e a r c ho nb a y e s i a nn e t w o r kc l a s s i f i c a t i o nm o d e l sa n di t s a p p l i c a t i o ni nv o c a t i o n a lc o l l e g et e s t a b s t r a c t i t i sn e w l yr e q u i r e di nt h ei n f o r m a t i o ns y s t e mt h a tp e o p l es h o u l df i n d i n f o r m a t i o ni nt h eo c e a n so fd a t af o rp o l i c yd e c i s i o n ,a n a l y s i sa n dp r e d i c t i o n d e v e l o p e df r o mb a y e s i a ns t a t i s t i c s ,b a y e s i a nn e t w o r k sa r ec h a r a c t e r e db yt h e u n i q u e u n s t a b l ei n f o r m a t i o n e x p r e s s i o n ,r i c hp r o b a b i l i t ye x p r e s s i o n ,t h e i n c r e m e n t a ll e a r n i n gm e t h o dt h a th a sa b s o r b e dt h et r a n s c e n d e n t a lk n o w l e d g e ;m e a n w h i l e ,t h e ys h o wt h ep r o b a b i l i t yd i s t r i b u t i o na n dt h ec a u s ea n de f f e c tr e l a t i o n b e t w e e nt h eo b je c t s t h e r e f o r e ,b a y e s i a nn e t w o r k sa t t r a c tm o r ea t t e n t i o ni nt h e m e t h o d so fd a t am i n i n g ;a n di tb e c o m ea ni m p o r t a n tm a n n e rf o rk n o w l e d g e d i s c o v e r y t h i s d i s s e r t a t i o nm a i n l yd e a l sw i t hb a y e s i a nn e t w o r k s a n dt h e a p p l i c a t i o ns t u d yo ft h ec l a s s i f i c a t i o nm o d e l t h em a i ni d e a sa r ea sf o l l o w s : ( 1 ) t h i sd i s s e r t a t i o ni n t r o d u c e st h eb a s i cc o n c e p to fd a t am i n i n ga n di t s s e v e r a lc l a s s i f i c a t i o na n de v a l u a t i o nm e t h o d s a s s o c i a t e dw i t ht h ep r e s e n ts i t u a t i o n o fv o c a t i o n a le d u c a t i o na n dt h et r a i t so fv o c a t i o n a lc o l l e g es t u d e n t s ,i td i s c u s s e st h e b a s i ca p p l i c a t i o no fb a y e s i a nn e t w o r k si nv o c a t i o n a le d u c a t i o n ( 2 )i tn o to n l yi n t r o d u c e st h et h e o r yf o u n d a t i o n s ,c o n c e p ta n dn a t u r et r a i t s o fb a y e s i a nn e t w o r k s ,b u tt h ep a r a m e t e rl e a r n i n ga n ds t r u c t u r el e a r n i n go f b a y e s i a nn e t w o r k s a c c o r d i n gt ot h et h e o r yd e s c r i p t i o n ,i ta n a l y z e st h eb a y e s i a n n e t w o r k sm o d e l st h r o u g hat y p i c a lc a s e ;a n dp e r f e c t st h ed a t as t r u c t u r el e a r n i n g t h r o u g hk 2a l g o r i t h m ( 3 ) b a s e do nk 2a l g o r i t h ma n dw i t ht h eh e l po fm a c h i n el e a r n i n g ,i tb u i l d sa b a y e s i a nn e t w o r k sc l a s s i f i e rf o rv o c a t i o n a lc o l l e g ee n g l i s ha b i l i t yt e s ti nm a t l a b e n v i r o n m e n t ( 4 ) t h ea p p l i c a t i o ns t u d yi nv o c a t i o n a lc o l l e g et e s tb a s e do n b a y e s i a n n e t w o r k sc l a s s i f i c a t i o nm o d e l t h ev e r i f i c a t i o ne x p e r i m e n t sh a v e b e e nm a d e t h r o u g hb a y e s i a nn e t w o r k sc l a s s i f i c a t i o nt o o l sa n di d 3a 1 9 6 r i t h mr e s p e c t i v e l y t h ea u t h o rc o m p a r a t i v e l ya n a l y z e st h ee x p e r i m e n tr e s u l t s t h i sm o d e lm a k e sf u l l u s eo fs t u d e n t s i n f o r m a t i o nt r a n s c e n d e n t a lk n o w l e d g e ,w h i c hn o to n l yi n d i c a t e s t h ed i r e c t i o no fe n g l i s hl e a r n i n gf o rc o l l e g es t u d e n t s ,b u ta l s os u p p o r t st e a c h i n g , e d u c a t i o na n dm a n a g e m e n ti nv o c a t i o n a lc o l l e g e s k e y w o r d s :b a y e s i a nn e t w o r k s : b a y e s i a nn e t w o r k sc l a s s i f i e r ;d a t am i n i n g k 2a l g o r i t h m ;v o c a t i o n a lc o l l e g ee d u c a t i o n 插图目录 图1 1 分类模型的学习4 图1 2 分类模型的应用5 图1 3 神经网络分类模型图示6 图2 1 ( a ) 有向无环图1 7 图2 1 ( b ) 节点x 4 的条件概率表1 7 图2 2 警报网络模型1 9 图3 1 朴素贝叶斯分类结构示意图2 2 图4 1 输入1 0 0 0 个样本的k 2 学习图3 4 图4 2 输入2 0 0 0 个样本的k 2 学习图3 6 图4 3 输入5 0 0 0 个样本的k 2 学习图3 5 图5 1 于贝叶斯网络的英语应用能力考试预测模型3 8 图5 2 预测验证结果4 1 图5 3b n c 分类结果预测4 2 图5 4 基于i d 3 算法的决策树模型4 3 图5 5i d 3 分类预测验证。4 4 i l l 插表目录 表4 1 贝叶斯学习的分类情况表3 1 表5 1 徽工商职业学院学生信息部分原始数据3 9 表5 2 业归类3 9 表5 3 语应用能力考试学生预测模型的评价因素与指标4 0 表5 4 徽工商职业学院部分学生信息表4 0 表5 5 贝叶斯网络分类预测模型与i d 3 分类预测模型对比分析表4 4 附表1 1 分原始数据5 2 附表2 1 点s 条件概率表5 4 附表2 2 节点e 条件概率表5 4 附表2 3 节点b 条件概率表5 5 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得合肥工业大学 或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了 明确的说明并表示谢意。 学位论文作者签名:龟 羔乃 签字日期:沙7 年明哕日 , 学位论文版权使用授权书 本学位论文作者完全了解合肥工业大学有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授 权合肥工业大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:号乏萎乃 签字日期:撕7 年,二月) 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 签字b 期: 矿7 年肛月矽日 邮编 致谢 衷心感谢我的导师王浩教授在整个论文阶段给予的悉心指导和帮助。王老 师不仅学识渊博,治学严谨,而且思想开明,实事求是。在王老师的关怀和教 导下,我不仅学到了知识,更重要的是学到了思想,领悟到了许多为学的道理, 促进了我学业上的进步,促成了本论文的完成。 特别感谢胡学钢教授。从胡老师生动的授课开始,我就决定了选择数据挖 掘作为我的硕士论文的方向。同时,在本论文选题阶段,我多次听取了王老师 和胡老师共同组织的研究生交流学习讲座,使我深受启发,最终确定选题方向。 非常感谢侯整风教授、沈明玉教授及所有0 4 高校教师班的老师,正是他 们在这几年的时间里对我的谆谆教诲和无私帮助,才使我得以顺利完成学业。 同时,我也深深地感谢计算机与信息学院的姚宏亮老师,在我论文撰写过 程中姚老师给予我无私的帮助和许多有益的建议,使我受益匪浅! 衷心感谢我校领导、同事、朋友及曾经在一起奋斗过的同志对我学习的勉 励和帮助,平时的交流和探讨,使我消除了许多疑惑,开阔了视野,发现了自 己的不足,也学到了许多新知识;衷心感谢我的各位学长,是他们的研究成果 使我开阔了视野,尽快进入了课题研究的领域,我的论文才得以顺利完成,他 们的帮助将使我终生难忘。 最后,感谢所有对论文提出宝贵意见的老师和同学,感谢在百忙之中评阅 论文和参加论文答辩的各位专家。 作者:范生万 2 0 0 7 年1 2 月 1 1 数据挖掘概述 第一章概述 本文研究的问题是以数据挖掘技术为背景,在本节中将简单介绍数据挖掘 的基本概念、数据挖掘的步骤以及数据挖掘中的分类问题。 1 1 1 数据挖掘概念 数据挖掘( d a t am ir l i n g ,简称d m ) 被称为数据库中的知识发现( k d d , k n o w l e d g ed i s c o v e r ya n dd a t a m i n i n g ) ,是一个从大量数据中挖掘出令人感兴 趣的、有用的、隐含的、先前未知的、可能有用的模式或知识的过程。 数据挖掘是集多门学科的交叉学科,它汇集了不同领域的研究者,尤其是 数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人 员”1 。从理论上讲,数据挖掘可以在任何类型的数据上进行,包括数据仓库、 关系数据库、时间空间数据库、流媒体数据、w e b 数据、文本数据、各种多媒 体数据等。对于不同的数据源,可以采用不同的挖掘方法与挖掘工具,以改善 数据挖掘的效率和效果。根据挖掘任务数据挖掘可分为“1 : ( 1 ) 分类和预测 分类是一个找出描述并区分数据类或概念的模型( 或函数) ,以便能够使用 模型预测类标记未知的对象类。导出模型是基于对训练数据集( 即其类标记己 知的数据对象) 的分析。 ( 2 ) 聚类分析 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类是在事先 不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。要求是 在不同群组的数据之间要有明显差别,而每个群组内部的数据之间尽量相似。 聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类 技术主要包括传统的模式识别方法和数学分类学。 ( 3 ) 关联分析 所谓关联分析就是发现事物之间有意义的联系和规则。数据关联是数据库 中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种 规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析 的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数, 即使知道也是不确定的,因此关联分析生成的规则带有可信度。 ( 4 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述莱类对象的共同特征,后者 描述不同类对象之问的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 ( 5 ) 序列模式 序列模式”1 数据挖掘是与关联规则数据挖掘相类似的一个重要问题,但是 它更侧重于分析事物之| 日j 的盼后( 因果) 关系。正如哲学中的“联系”包含各 种联系:相似性、因果性等等。现在已经广泛应用于股市波动、生产流程动态 追踪、科学实验、医学疗程分析等方面。它强调的是数据之间在时间上的连贯 性。 ( 6 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找 观测结果与参照值之间有意义的差别。 1 1 2 数据挖掘的主要步骤 数据挖掘可粗略地理解为三部曲:数据准备( d a t a p r e p a r a t i o n ) 、数据挖 掘,以及结果的解释评估( i n t e r p r e t a t i o i la n de v a l u a t i o n ) 。一般可分为以 下几个主要步骤“”: ( 1 ) 数据收集 大量丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从做起。因 此数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可 以从数据仓库中得到。 ( 2 ) 数据整理 数据整理是数据挖掘的必要环节,由数据收集阶段得到的数据可能有一定 的污染,表现在数据可能存在自身的不一致性或者有缺失数据存在等等。因此, 数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理, 从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖 掘的顺利进行。 ( 3 ) 数据挖掘 利用各种数据挖掘方法对数据进行分析。 ( 4 ) 数据挖掘结果的评估 数据挖掘的结果有些具有实际意义,而另一些没有实际意义,或是与实际 情况相违背,这就需要进行评估。评估可以根据用户多年的经验,也可以直接 用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。 ( 5 ) 分析决策 数据挖掘的最终目的是辅助决策,决策者可以根据数据挖掘的结果,结合 2 实际情况调整竞争策略等。 总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。 1 1 3 数据挖掘中的分类问题 分类在数据挖掘中是一个非常重要的课题,目前在许多行业上已经使用。 分类的任务是找出一个类别的概念描述( 通常称之为分类器) ,它代表了这类数 据的整体信息,即该类的内涵描述,一般用规则或决策树模式表示。该模式能 够把数据库中的元组映射到给定类别集中的某一个。例如:可以建立一个疾病 诊断分类器,用于根据病症特征集自动判断该病症所对应的疾病,以帮助医生 诊断。 一个类的内涵描述分为:特征描述和辨别性描述o3 。特征描述是对类中对 象共同特征的描述;辨别性描述是对两个或多个类间的区别性描述。特征描述 允许不同类中具有共同特征;而辨别性描述对不同类不能有相同的特征。分类 就是寻找合适的辨别性描述的过程。 我们可以将分类模型抽象成用分类函数的形式来表示。这样一来可以用如 下规范化的形式来定义分类: 分类要学习的分类器就相当于一个函数f ( x ) ,它给需要分类的实例x 赋予 类标签c ,c ( j = 1 , 2 ,) ,实例x 由一组属性值a ,d :,埘。描述,c 是类变量集合, 取有限值。 从数据挖掘的不同角度可以得到不同的分类标准,通常有以下几种分类标 准:挖掘任务,挖掘对象,挖掘方法。 根据数据挖掘的对象分,有如下若干种数据源:关系数据库、面向对象数 据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗 产( 1 e g a c y ) 数据库,以及w e b 数据源。 根据挖掘方法可粗略的分为:机器学习法、统计方法、神经网络方法、数 据库方法等。 1 1 3 1 数据分类的过程 分类包括两个过程:分类模型的建立以及运用模型进行新实例分类。 ( 1 ) 分类模型的建立 通过分析由属性描述的数据库元组来构造模型。假定每个元素属于一个预 定的类,由一个类标签属性( c l a s sl a b e la t t r i b u t e ) 表示。对于分类,数据 元组也称为样本、实例或对象。为建立分类模型而被分析的数据元组构成训练 数据集,训练数据集中的单个元组称为训练样本。由于预先知道每个训练样本 的类别属性值,这个建立模型的学习过程属于有监督的学习。 通常,通过第一步的学习建立的模型用分类规则、决策树或数学公式的形 式表示。例如:给定一个顾客信用信息的数据库,通过分类算法学习得出分类 规则,根据这些规则,可以判断顾客信誉的好坏( 如图1 1 ) 。这样的规则就是 一种分类模型。以后就可以利用这个模型为其它顾客的数据进行分类。 区吣 图1 1 分类模型的学习 ( 2 ) 模型的运用 首先要评估模型的预测准确率。常用的评估手段是保持陋1 ( h o l d o u t ) 方 法。该方法使用类标签测试样本集,这些样本随机选取,并与前面使用过的训 练集相独立,即测试样本集完全不同于训练样本集。模型在测试样本集上的准 确率是指被模型正确分类的测试样本的百分比。对于每个测试样本,将分类模 型学习得出的预测类与已知的类标签相比较,如果相同,则表示分类成功。评 估过程中之所以使用与训练集相独立的测试集,是为了避免出现过分拟合的现 象。 如果通过测试认为模型是可以接受的,那么就可以利用这个模型对类标签 未知的数据实例或对象进行分类。例如:在通过分析现有顾客数据的基础上学 习得到的分类规则可以用于预测新的顾客的信誉度( 如图1 2 ) 。 4 图1 2 分类模型的应用 分类具有广泛的应用,包括信誉断定、医疗诊断、性能预测和选择购物等。 i i 3 2 几种主要的分类方法 数据挖掘领域中分类的方法很多,这里介绍几种常见的分类思想。 ( 1 ) 线性判别函数分类方法 我们知道,如果实际问题的决策面是线性的( 直线的或者超平面的) ,计算 和构造过程就相当简单。因此即使遇到的决策面不是线性的,我们也宁可牺牲 错误率最小这个最优原则,努力构造成线性函数。 线性分类法”1 的目标就是寻找一条直线:g ( x ) = w 7 x + w 0 ,这条直线能够 尽可能地将两类样本分开。f i s h e 线性判别函数是一个经典的判别方法。它的 核心思想是进行坐标变换,寻找能将样本尽可能分开的方向。考虑把n 维空间 的样本投影到一条直线上,形成一维空间。为了避免投影后不同样本混杂在一 起,不易区分,可以将直线转动,寻找一个方向使样本的投影尽量分开。也就 是说,使得类间差异尽可能大,类内差异尽可能小。 ( 2 ) 决策树分类方法 决策树”1 是较早应用于数据挖掘分类问题的一种方法。在数据量较大时, 决策树方法能较快地构造出分类器,其树型结构可以很方便地转化为s q l 语言形 式,以便用来更有效地访问数据库,且i f t h e n 规则可以很容易地从这种结构转 化中得到,因此这种方法引起了研究者的广泛兴趣。 绝大多数决策树分类方法分两步构造分类器:树的生成与树的剪枝。分类 方法的关键是在树的生成阶段找出合适的分拆准则。目前用得最多的是 o u i n l a n ”3 于1 9 8 3 年提出来的i d 3 准则和c a r t ( 分类与回归树) 准则。 ( 3 ) 粗糙集分类方法 粗糙集理论”1 是z p a w l a k 于1 9 8 2 年提出来的。这一理论从新的角度对知 识进行了定义,把知识看作是对论域的划分,认为知识是有粒度的。引入代数 学中的等价关系来讨论知识。该理论近年来主要被用于知识约简、知识的相关 性分析及分类挖掘。 粗糙集的基本理论是:在数据库中将行元素看成对象,列元素当成属性( 分 为条件属性与决策属性) 。等价关系r 定义为不同的对象在某个( 或几个) 属性 上取值相同,这些满足等价关系的对象的集合称之为等价关系r 的等价类。条 件属性上的等价类e 与决策属性上的等价类y 之间的关系分如下三种情形: 下近似:y 包含e ;上近似:y 与e 的交集非空;无关:y 与e 的交集为 空。对下近似建立确定性规则,对上近似建立不确定性规则( 含可信度) ,对无 关情况不存在规则。 ( 4 ) 概念格方法 概念格“们是基于二元关系构造的,它描述了对象和特征之间的联系,表明 了概念之间的泛化和例化关系,其相应的哈斯图实现了对数据的可视化。作为 知识的一种表示形式,它有助于挖掘概念间的各种规则。概念是把所感知事物 的共同本质特点抽象出来,并加以概括。概念都具有内涵和外延,基于对概念 的这种理解,r w i l l e “在1 9 8 2 年首先提出根据二元关系来构造相应概念格 ( 或g a l o i s 格) 的思想,也称为形式概念分析。其基本内容是以概念格中的每 个节点表示一个形式概念,其中概念的外延代表相应的一组对象,内涵则表示 这组对象所具有的公共特征( 属性) 。概念格所对应的哈斯图形象地揭示了概念 间的泛化和例化关系,反映出一种概念层次结构( c o n c e p th i e r a r c h y ) ,实 现了对数据的可视化。上述这些特性使得概念格成为数据挖掘领域一种颇受青 睐的分类工具。 ( 5 ) 神经网络分类方法 在数据挖掘领域,神经网络方法由于其结构复杂,且学习过程中的非线性 优化存在局部极小值等问题而研究得较少。最早正式将神经网络理论引入分类 领域的是h l u ,r s e t i o n o 及h l i u “2 1 神经网络模仿生物神经元对信息的传递 特性构建分层网络模型,可以用图形的方式说明其分类思想。图1 3 是一个三 层神经网络模型。数据属性从其中的输入层进入网络,输出层反应了对其分类 的预测信息。其中的每个点就是神经网络中的“神经元。 辕 f l 愆 一貉禽层 输入层 图1 3 神经网络分类模型图示 ( 6 ) 基于贝叶斯技术的分类方法 贝叶斯学派“3 川”6 7 1 形成于上世纪五六十年代,关于贝叶斯技术的研 6 究久盛不衰。八十年代,贝叶斯网络成功地应用于专家系统。九十年代以来, 贝叶斯学习一直是机器学习研究的重要方向。基于这种技术的分类方法是本文 介绍的重点内容,它以完善的贝叶斯理论为基础,这种分类方法有较强的模型 表示、学习和推理能力。本文后面的章节都围绕这一主题展开。 通过对常见分类方法的介绍可以加深对分类概念的理解,为分类方法的选 取提供支持。 1 1 3 3 分类方法的比较和评估 分类方法可以根据下列标准进行比较和评估“”: ( 1 ) 预测准确度:预测准确度是用得最广泛的一种比较尺度,特别是对于 预测型分类任务。常见的方法是n 交叉验证法( c v n ) 。 ( 2 ) 计算复杂度:计算复杂度依赖于算法的实现细节与硬件环境。在d m 中,由于操作对象是大型数据库,并且在实际应用中数据规模越来越大。因此 空间和时间的复杂度问题将是一个非常重要的环节。 ( 3 ) 健壮性:这涉及对于数据集中噪声数据或空缺数据的处理,它反应在 有噪声数据或空缺数据的情况下模型是否有正确分类的能力。 ( 4 ) 可伸缩性:大部分的分类算法是内存驻留算法,通常假定数据量很小。 算法的可伸缩性意味着对于海量数据而言是否具有有效的构造模型的能力。这 一点在硬件性能提高且数据规模不断扩大的情况下显得很重要。 ( 5 ) 模型的简洁度与可理解性:对于描述型的分类任务,模型描述越简洁 且越容易理解就越受欢迎。例如,采用规则表示的分类器比较简明好用,而用 神经网络构造产生的分类器则比较难以理解。 1 2 贝叶斯网络与贝叶斯分类概述 1 2 1 贝叶斯网络发展历史 贝叶斯统计源于英国学者贝叶斯( b a y e s ) 撰写发表( 1 7 6 3 年) 的一篇具 有哲学性的论文:关于几率问题求解的评论“a ne s s a yt o w a r d ss o l v i n ga p r o b l e mi nt h ed o c t r i n eo fc h a n c e s ”,后来发展形成了贝叶斯学派。基于有 向无环图的概率模型是由遗传学家s e w a l lw r i g h t 在1 9 2 1 年提出的。在认知科 学和人工智能领域中称之为贝叶斯网络( b a y e s a i nn e t w o r k s ,b n s ) 。贝叶 斯网络在二十世纪七十年代后期得到了初步的发展。业们小2 习 9 0 年代人们进一步研究可学习的贝叶斯网络,并应用于数据挖掘和机器学 习。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖了人工智能 的大部分领域,包括因果推理、不确定性知识表达、模式识别和聚类分析等。 并且出现了专门研究贝叶斯理论的组织和学术刊物网i s b a 。乜3 1 1 2 2 贝叶斯网络的优点 贝叶斯网络与数据挖掘中的其他知识表示的方法如规则表示、决策树、神 经网络等相比,具有以下优点”“: ( 1 ) 对于具有相关关系的多个输入变量的分类或回归问题,变量问的相关 性并不是标准的监督学习算法处理的关键因素,当这些变量有缺值时,它们的 预测结果就会出现很大的偏差。而贝叶斯网络则提供了较为直观的概率关联关 系。 ( 2 ) 贝叶斯网络和其它技术相结合能够进行因果分析。在数据分析中,因 果关系有利于对领域知识的理解,在干扰较多时,便于做出精确的预测。 ( 3 ) 贝叶斯网络能够使先验知识和数据有机的结合。先验信息或领域知识 在建模方面都起着重要作用,尤其是在样本数据稀疏或数据较难获得的时候。 贝叶斯网络用弧表示变量间的依赖关系,用概率分布表示依赖关系的强弱,将 先验信息与样本有机结合起来。 ( 4 ) 贝叶斯网络能够有效的避免对数据的过度拟合。 1 2 3 贝叶斯网络的应用 在近的几年中,贝叶斯决策理论的概念及其不确定性表示和计算技术己融 入到人工智能中不确定性处理的主流中。其所涉及的领域包括计算机视觉,自 然语言处理,机器人导航,规划,机器学习,以及利用贝叶斯技术构建和分析 软件系统。另外,贝叶斯网络和贝叶斯技术也已广泛地用于数据挖掘,并成为 知识发现领域中的一种重要的知识发现方法。 1 9 8 2 年,p e a r l 开始在人工智能方面用贝叶斯网络进行概率推理,分别对 树形网络和多树形网络提出了消息传递算法。此后,贝叶斯网络就越来越多地 被应用于许多专家系统,其中一个典型的例子是p a t h f i n d e r ,用来帮助进行“淋 巴节点”症状的诊断分析;另一个例子是c p c s b n 远程医疗系统,它有4 4 8 个节 点和9 0 8 条边,优于世界主要的远程医疗诊断方法。 在商业应用领域,以微软为代表的一批公司,己将贝叶斯网络应用于了自 己的产品中”。1 9 9 5 年,微软推出了第一个基于贝叶斯网络的专家系统,个 用于婴儿保健的网站研i c r o s o f to np a r e n t ( w w w o n p a r e n t i n g f l i s i l c o f l l ) , 使父母可以在线自行诊断婴儿的疾病。在微软的w i n d o w s 操作系统和o f f i c e 系列己经在很多方面融入了贝叶斯网络技术。 概括而言,目静,贝叶斯网络的应用主要表现在以下几个方面“: ( 1 ) 故障诊断( d i a g n o s e ) 。根据发生的故障特征,找出发生故障的原因, 根据经常发生的故障或系统现有的状态,进行实时监控和故障预防。例如,微 软视窗软件中的疑难解答,可以帮助用户解决所遇到的软硬件问题;工业上的 s 故障诊断( 如美国通用电气公司的a u x i l l a r yt u r b i n ed i a g n o s i s ) 、航天故 障诊断( 如美国航空航天局和p o c k w e l l 公司联合研制的d i a g n o s iso fs p a c e s h u t t l ep r o p u l s i o ns y s t e m s ) 。 ( 2 ) 专家系统( e x p e r ts y s t e m ) 。提供专家水平的推理,模拟人的智能, 解决专业领域内的实际问题。例如,贝叶斯网络在医学方面的应用。 ( 3 ) 规划( p l a n n i n g ) 。根据因果概率推理预测各类事件发生的可能性, 对于给定的目标一一省钱或省时,得到一个项目的规划。 ( 4 ) 学习( 1 e a r n i n g ) 。对学习提供帮助。帮助初学者快速掌握事件发生 的因果关系和规律。 ( 5 ) 分类( s o r t i n g ) 。使用贝叶斯网络进行聚类分析和分类。它在数据挖 掘和模式识别中具有重要应用。 现在贝叶斯方法和技术的应用领域不断地扩展,如基于概率因果关系的数 据挖掘、信息的智能检索、实时决策支持系统、语音识别和手写体的识别以及 智能a g e n t 和m a s 的建模等。 i 2 4 贝叶斯网络与贝叶斯分类 分类问题是人工智能中机器学习研究的一个重要问题,它在模式识别、故 障诊断以及数据挖掘等领域有着广泛的应用。 基于贝叶斯方法的分类模型则是一种概率模型,常可以借助有向无环图来 描述这种概率模型,因此也是一种图形模型。这种图型表示强调了模型结构的 独立性。在数据挖掘中,通常事先对数据模型的结构了解较少,因此选择比较 简单、灵活的模型结构或函数形式是有益的,而且较简单的模型具有更加稳定 和更易于解释的优势,也可以为更复杂的模型提供函数分量。基于贝叶斯方法 的分类模型就具有形式简单、易于解释,且可以很容易从不同的角度进行推广 等特点。 分类有规则分类( 查询) 和非规则分类( 有指导学习) ,贝叶斯分类是非规 则分类,是通过训练集( 己分类的实例集) 训练( 学习) 而归纳出分类器( 被 预测变量是离散的称为分类,连续的称为回归函数) ,利用分类器对没有分类的 数据进行分类。 贝叶斯分类具有如下三个特点: 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出 属于某一类的概率,具有最大概率的类便是该对象所属的类; 一般情况下在贝叶斯分类中所有的属性都潜在的起作用,即并不是一 个或几个属性决定分类,而是所有的属性都参与分类; 贝叶斯分类的对象的属性可以是离散的、连续的、也可以是混合的。 贝叶斯网络中,用节点表示变量,有向边表示变量间的依赖关系。当我们 9 在贝叶斯网络中把其中代表类别变量的节点作为根节点,其余所有变量都作为 它的子节点时,贝叶斯网络就变成了分类器。 学习并运用贝叶斯分类器时包括两个过程,一是对于每一特征节点找到除 根节点之外的所有父节点,也就是学习贝叶斯网络结构;二是在已知结构的基 础上获得上述参数的估计,即所谓的参数学习问题。从数据中学习网络的结构 和分布参数与纯贝叶斯网络学习过程不同的是,贝叶斯分类器所采用的往往是 满足一定限制条件的简化的结构形式。这是为了取得算法实现上的可行性。大 部分研究工作都集中在如何使分类器在限制框架内取得最优或次优的分类效 果。 1 3 研究的背景与意义 1 3 1 本文研究的背景 高等职业教育( 本文特指高职专科层次教育) 是我国高等教育的重要组成 部分,肩负着为社会和经济发展第一线培养高级实用型技术人才。高等职业教 育必须面向社会,以就业为导向,构建以技能培养为中心的高等职业教学模式, 以便学生毕业后能较快地适应工作岗位的需要。 在经济全球化过程中,我国经济结构发生了很大变化,对我国的职业岗位 结构产生了直接的影响。随着经济全球化的趋势进一步加强,教育国际化的特 征进一步明显,人才培养要满足经济全球化的需要,培养学生的质量标准必须 考虑国际竞争的需要,这也对学生的知识、能力结构提出了新要求,除了必要 的职业综合素质外,英语应用能力也成为必需的实用技能之一。 高等职业教育英语教学大纲规定:“培养学生掌握必须的、实用的英语 语言知识和语言技能,具有阅读和翻译与本专业有关的英文资料的一定能力、 听和说的初步能力,以及应用文体写作的实用能力,并为进一步提高英语的应 用能力打下一定的基础。”为了检验高等职业院校中学生的英语应用能力水平是 否达到了高等职业教育的要求,教育部批准实施了面向高职高专层次的全国高 等学校英语应用能力考试。该项考试以高职高专教育英语课程教学基本要求 为依据,既测试语言知识也测试语言技能,既测试一般性语言内容也测试与涉 外业务有关的应用性内容,能够较好地反映和评价高职高专学生英语学习的实 际水平。 从高职学生目前的整体英语情况来看,大多数同学都处于较低的水平,通 过什么方式来分析学生的实际状况,让学生清楚地认识自己,让教师全面的认 识教学对象,我们可以引入数据挖掘技术来进行分析。 数据挖掘是一门新兴的交叉学科,它在商业、金融业、证券业等方面都得 到了广泛的应用,在教育领域的应用还比较欠缺。把数据挖掘技术引入教育领 1 0 域,根据教育教学规律,对教学过程中或管理过程中产生的数据进行多层次、 全方位的分析,利用分析结果,可以帮助教育工作者们增强决策能力,提高教 育教学管理水平,进一步帮助毕业生提高社会竞争力、提高适应社会的能力。 数据挖掘中的贝叶斯公式可以利用观察到的某些数据得出后验概率,贝叶 斯网络结构具有形象化的表示特点,是解决不确定分类问题的有效工具,研究 主要集中在如何从数据中学习特征向量的分布、特征向量的相关性,从而获得 准确分类信息。贝叶斯网络的模型主要有:朴素贝叶斯分类器、贝叶斯网络分 类器、贝叶斯神经网络分类器等。根据贝叶斯网可以表达复杂的独立性关系, 可以直接以贝叶斯网作为分类器。分类器的建立过程,就是通过学习实例数据, 利用贝叶斯网的学习算法,建立所有属性变量和类变量构成的贝叶斯网的过程; 分类器的分类过程,就是利用贝叶斯网的推理算法计算给定属性变量的值时, 类变量的后验分布的过程。 由于英语学习中很多因素是难以直接评价的、是隐性的,测试英语应用水 平的“英语应用能力考试”的好坏除了受现有环境的影响,还有很多固有的因 素,如学生入学的英语水平、性别、生源地、专业等。因此我们可以用贝叶斯 网络理论,构建基于贝叶斯网络的英语应用能力考试预测模型来反映学与教的 情况,通过贝叶斯网络形象化地表示该模型中要素和知识点之间的相关性。 1 3 2 本文研究的意义 教育信息化是我国高等职业教育发展的未来趋势,重视教学过程的信息分 析是实现教育信息化的基础和条件。在高职信息化教育应研究中,研究如何基 于信息科学对教学系统中的各种信息进行处理,并将这些处理的结果有效地用 于完善教学系统的设计、控制和评价中。然而随着计算机技术和网络技术的发 展,高等职业教育信息数据的丰富一方面为我们教育教学提供有用的教育信 息,另一方面高等职业教育信息数据的不断膨胀导致我们面对大量的数据不知 何从,加上数据噪声的干扰进一步扰乱我们的视线。大量数据变为难于再访问 的数据档案,高等职业教育信息化也难于真正地、有效地进行。数据挖掘技术 在高等职业教育中的广泛应将对我国高等职业教育信息化的进程起着重要的推 进和支撑作用,为高等职业教育的发展提供强有力的决策支持作用。 ( 1 ) 数据特征化和数据区分在高等职业教育中的应用 数据特征化是目标类数据的一般特征或特性的汇总,而数据区分是将目标 类对象的一般特性与一个或多个对比类以外的一般特性比较。在高等职业教育 信息中,用汇总的、简洁的、精确的方式描述每个类和概念是十分有用的。这 种类或概念的描述称为类概念描述。对于教学决策者来说,教学过程反馈数据 和学生评价数据的特征化和区分具有重要意义。因为通过它教育决策者可以了 解教学的成效程度,以便对课程教学进行调控。通常教育决策者可通过数据库 查询他们所感兴趣的模式。例如,经过一段时期的教学,教师可能想知道哪些 学生经常通过教学网站进行学习,他们的学习活跃程度如何,他们的学习成绩 与这些因素存在什么关系等。教育者可通过数据挖掘技术进行统计上网学习的 次数与学生学习成绩的关系来发现更多的学生者的特征。数据特征和区分的输 出可以采用多种形式提供不同用户的需求,如拼图、条形图、曲线和多维表等。 ( 2 ) 分类和预测在高等职业教育中的应用 在高等职业教育系统中,对教育对象进行分类和预测是必要的。例如,对 学生就业的分类、对学生的成绩分类、对学生能力分类、对教师的教学水平分 类等。对于每一位学生的数据,对于每一位教师的数据,应如何决定其所属的 类别,这是一种分类的问题。分类分析( 教育中常称为判别分析) 是教育经典 统计方法之一。同样在教学过程中,对于学生以往的数据预测学生学习的趋势 能为教师进行调控教学提供重要的教学信息。尤其在网络教学中,教学主要是 通过网络课程来进行,对学生学习数据进行前期的预测显得尤为重要。 ( 3 ) 关联分析在高等职业教育中的应用 在高等职业教育信息的结构分析中,专业建设、高招录取、教学效果、就 业与对口升学、职业资格考试等每项信息的关联性分析可为学校的发展与决策 提供十分重要的依据。通过高等职业教育信息数据关联挖掘显然能为我们提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教师资格之小学教育教学知识与能力押题练习试卷A卷附答案
- 2025西安市购房合同
- 2025年农村自建房屋购买合同协议书
- 2025年智能POS终端销售合同样本
- 2025房产交易的合同范本
- 2025年合同在线上购买
- 幼儿园暑假培训内容
- 放射影像诊断技术分享
- 大肠息肉的监测流程
- 资产管理年度计划
- 2025年党史党建知识测试题库100题(含标准答案)
- 共享单车车体管理办法
- 金螳螂培训-精装修工程工艺标准要点图解183P
- 企业内物流培训课件
- 低压电工证考试题(附答案)
- 《安宁疗护》高职护理专业全套教学课件
- 医疗过错鉴定标准-洞察及研究
- 神经符号融合推理机制-洞察阐释
- 电气火灾培训课件
- 福建省春季高考2024数学试卷
- 数控技术课件模板
评论
0/150
提交评论