




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于文本分类的学习指导系统的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
济南大学硕士学位论文 摘要 当今世界,迅速发展的信息技术在教学中的应用已经成为满足学生自主学习、分 散学习的主要途径,特别是在高等学校学生逐年增加的今天,基于网络的学习指导系 统已逐渐显现出不可替代的作用。首先通过学习指导系统,可以随时解决学生在学习 中出现的难题,而且也不需要老师在线一一解答,这样既可以满足学生自主学习的需 要,也可以节省教师资源。其次通过该系统还可以针对学生学习中出现的问题,给予 相关的学习指导,提供相关资料( 包括论文、期刊、书籍等) 参考,使学生及时了解各 门学科的研究动态及热点,并能根据自己的喜好,根据各门学科的特点,正确把握研 究方向,获得更深入的学习。 由于学习指导系统后台数据库中杂乱存储着大量的、各个类别的文本信息,如果 不加以整理,将会大大增加用户等待信息反馈的时间,大大降低系统效率,而单纯的 依靠人工整理将会是一个艰巨的工程,所以本课题将文本分类算法应用于学习指导系 统中,提出了一套基于文本分类的学习指导系统的方案,并对相关算法进行了改进, 不仅能对原有数据库中的信息进行快速分类,而且当有新的文本信息导入补充数据库 时,也可以自动分类,不需要人工操作,最主要的是当用户发出问题请求时,该系统 能迅速对问题进行分类,锁定搜索范围,高效、准确的返回相关信息。 该方案的设计思想是: 第一,从教学平台的后台数据库中充分收集问题、答案及讨论等相关信息;从电 子图书馆中收集各门学科点击率高的、具有代表性的、适应当前研究热点的相关论文、 期刊等信息资料。 第二,收集的每个问题都对应着很多答案和相关的参考资料,将基于关键词的关 联规则用于文本的相似度计算中,为每个问题抽取出一个最优答案和最具价值的参考 信息,生成一个一一对应的问题答案对和一个一一对应的问题资料对,然后分别应用 改进的文本分类算法进行分类存储,最后形成一个可以直接用于系统开发的信息全面 的数据仓库。 第三,系统实现。 通过试验证明应用改进的文本分类算法使文本分类准确性有了很大的提高。并且 l 基于文本分类的学生学习指导系统的研究与设计 该系统具有智能性、自我更新性能,功能齐全,当用户发出请求时,系统能高效、正 确的反馈信息,满足学生自主学习的需要。 关键词:关联规则;文本分类;数据仓库;学习指导系统 i l 济南大学硕士学位论文 a b s t r a c t n o w , r a p i d l ye x p a n di n f o r m a t i o nt e c h n o l o g ya l r e a d yb e c o m e st h em a i nm a yi nt h e t e a c h i n ga p p l i c a t i o nt os a t i s f yt h es t u d e n t st os t u d yi n d e p e n d e n t l y s p e c i a l l yn o wt h e n u m b e ro ft h ec o l l e g es t u d e n t si si n c r e a s e dy e a rb yy e a r , t h el e a r n i n gg u i d a n c es y s t e m b a s e do nn e t w o r ka p p e a r sg r a d u a l l yt h eu n r e p l a c e a b l ef u n c t i o n f i r s tt h es y s t e mm a ys o l v e t h ep r o b l e m sw h i c ha p p e a ri nt h es t u d yf o rs t u d e n t s ,m o r e o v e ri ti sn o tn e c e s s a r yf o r t e a c h e r st oa n s w e rq u e s t i o n so n l i n e ,l i k et h i sa l r e a d ym a ym e e tt h en e e d so fs t u d e n t s ,m a y a l s os a v et h et e a c h e rr e s o u r c e s s e c o n d ,t h es y s t e mc a na i ma tt h eq u e s t i o no c c u r r e di n s t u d yt og i v es t u d e n t st h er e l a t e ds t u d yi n s t r u c t i o n s ,p r o v i d et h ec o r r e l a t i o nd a t a ( i n c l u d i n g p a p e r , j o u r n a l ,b o o ka n ds oo n ) t or e f e rf o rs t u d e n t s i ta l s oc 觚m r k et h es t u d e n t st o t m d e r s t a n dt h er e s e a r c ht e n d e n c ya n dt h eh o ts p o to fe a c hc o u r s et i m e l y t h es t u d e n t sa l s o c a nm a k es u r eo f t h ec o r r e c tr e s e a r c hd i r e c t i o na n do b t a i nam o r et h o r o u g hs t u d ya c c o r d i n g t ot h e i ri n t e r e s ta n dc o u r s e sc h a r a c t e r i s t i c b e c a u s em a s s i v e 、e a c hc a t e g o r y st e x ti n f o r m a t i o ni sd i s o r d e r l ys a v e di nt h ed a t a b a s e o ft h el e a r n i n gg u i d a n c es y s t e m ,a n di fn o tr e o r g a n i z i n gt h e s ei n f o r m a t i o n , i tw i l li n c r e a s e t h et i m eo ft h em e s s a g ef e e d b a c ka n dc u tt h es y s t e me f f i c i e n c yg r e a t l y b u ti tw i l lb ea n a r d u o u sp r o j e c ti fd e p e n d i n go nm a n u a ls o r t i n g ,s ot h ep a p e ra p p l i e st h et e x tc l a s s i f i c a t i o n a l g o r i t h mi nt h eg u i d a n c es y s t e m ,p r o p o s e st h ep l a nt h a ti st h el e a r n i n gg u i d a n c es y s t e m b a s e do nt e x tc l a s s i f i c a t i o na n dm a k e st h ei m p r o v e m e n tt ot h er e l a t e da l g o r i t h m t h e s y s t e mn o tc a no n l yc a r r yo nt h eq u i c ks o r tt ot h eo r i g i n a ld a t a b a s ei n f o r m a t i o n , m o r e o v e r , w h e nt h en e wt e x ti n f o r m a t i o ni si n d u c t e di n t ot h ed a t a b a s e ,i tm a ya l s om a k et h e a u t o m a t i cs o r t i n gf o rt h en e wt e x ti n f o r m a t i o na n dn o tn e e dt h em a n u a lc o n t r 0 1 w h a ti s m o s ti m p o r t a n c ei sw h e nt h eu s e rs e n d so u tt h er e q u e s t , t h i ss y s t e mc a ne r r r yo nt h e c l a s s i f i c a t i o nr a p i d l yt o t h eq u e s t i o na n dl o c kt h eh u n t i n gz o n e ,a tl a s tr e t u r nr e l a t e d i n f o r m a t i o na c c u r a t e l ya n de f f e c t i v e l y t h ep l a n sd e s i g nc o n c e p ti s : f i r s t ,c o l l e c t i n gq u e s t i o n s 、a n s w e r s 、d i s c u s s i o n sa n ds o m er e l a t e di n f o r m a t i o nf r o m l i i 基于文本分类的学生学习指导系统的研冗与设计 i i , i i i f t e a c h i n gw e b s i t e ;c o u c c t i n gt h er e l a t e di n f o r m a t i o no fa l lc o u r s e si n c l u d i n gh a v i n gt h e h i g l lc l i c kr a t e 、h a v i n gr e p r e s e n t a t i v e l ya n dp a p e r s 、j o u r n a l st h a ta d a p t c u r r e n tr e s e a r c hh o t s p o t sa n d s oo nf r o mt h ee l e c t r o n i cl i b r a r y s e c o n d ,c a e hq u e s t i o nt h a ti sc o l l e c t e do w n sm a n ya n s w e r sa n dt h er e l a t e dr e f e r e n c e s s ot h ei m p r o v e da s s o c i a t i o nr u l e sa l g o r i t h mb a s e do nk e yw o r d si sa p p l i e dt oc a l c u l a t et h e s i m i l a r i t yo fd o c u m e n t s t h eb e s ta n s w e ra n dt h em o s tv a l u a b l e r e f e r e n c ew i l lb e a b s t r a c t e df r o mt h em a n ya n s w e r sa n dr e f e r e n c e st oe v e r yq u e s t i o n t h eo n et 0o n eq a p a i r sa n dt h eo n et oo n eq rp a i r sw i l lb eg o t t e n f i n a l l yb yc a r r y i n go nt h ei m p r o v e m e n t t e x tc l a s s i f i c a t i o na l g o r i t h mt 0t h et e x ti n f o r m a t i o ni nt h ed a t a b a s e ,a ni n f o r m a t i o n c o m p r e h e n s i v ed a t aw a r e h o u s ei sf o r m e dt h a tc a nb eu s e di nt h es y s t e md e v e l o p m e n t d i r e c t l y t h i r d ,t h es y s t e mi sd e s i g n e ds u c c e s s f u l l y 。 t h ee x p e r i m e n tp r o v e st h a tt h et e x tc l a s s i f i c a t i o n sa c c u r a c ye n h a n c e sg r e a t l yb y u s i n gt h ei m p r o v e m e n tt e x tc l a s s i f i c a t i o na l g o r i t h m t h es y s t e mh a s t h ei n t e l l i g e n c e 、t h e s e l f - r e n e w a lp e r f o r m a n c e i t sf u n c t i o ni sc o m p l e t e w h e nt h eu s e rs e n d so u tt h er e q u e s t , t h es y s t e mc a nf e e d b a c ki n f o r m a t i o ne f f e c t i v e l ya n dc o r r e c t l y s ot h el e a r n i n gg u i d a n c e s y s t e mo a ns a t i s f yt h es t u d e n t s l e a m i n gn e e d k e y w o r d s :a s s o c i a t i o nr u l e s ;t e x tc l a s s i f i c a t i o n :d a t aw a r e h o u s e :t h el e a r n i n gg u i d a n c e 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出 重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律责任由本人承担。 论文作者签名:玺全望 日期:2 盟:么;! ! 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同意学校 保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借鉴;本人授权济南大学可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和 汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名: 纽垄 导师签名:日期:墨堕:笸坦 济南大学硕士学位论文 第一章绪论 1 1 课题背景、目的和意义 随着i n t e m e t 的发展与应用,智能化信息技术得到迅猛发展。网络成了人们获取 信息的有效工具,尤其是在教育领域中,信息技术在教学中的应用已经成为满足学生 自主学习、分散学习的主要途径,特别是在高等学校学生逐年增加的今天,基于网络 的教学平台已逐步显现出其不可替代的优势,传统的老师和学生面对面的学习辅导已 经不是师生交流的主要学习方式,通过网络使学生由听众变成了知识的主动索取者。 学习中遇到问题,及时借助学习指导系统寻求答案与帮助,已经是学生的学习生活中 不可缺少的方式。 但是传统的学习指导系统往往使用起来费时、给出的答案准确性也不高,无法提 供最及时、最具有针对性的帮助,远远不能满足学生自主学习的需要。尤其是随着学 校学生规模的不断扩大,学生索取知识的需求急剧增加,网络内容的不断丰富,一种 高效、便捷、准确且功能齐全的学习指导系统的出现已成为学校教育的迫切需要。 本课题研究的目的是利用现有的自然语言理解技术【1 1 ,充分利用网络资源,打破 传统的学习指导系统模式,通过机器处理来自动理解用户提出的自然语言描述的问 题,并自动返回答案,并能针对学生学习中存在的问题,给予学习指导。其中涉及到 的主要技术包括自然语言理解技术、文本分类技术】、关联规则【4 】与数据仓库技术f 5 】, 通过将这些技术完美的结合并应用到学习指导系统中从而最终实现抽取问题的智能 化、答案评优的智能化、信息匹配的智能化和数据维护的自动化的目的,使用户可以 更加方便的使用系统,管理员可以更加容易的管理系统,系统反馈信息更高效、更准 确。不仅减轻了教师的负担,而且更好地帮助学生学习,提高网络教学质量和效率。 在目前的网络教学模式中,研制开发一个高效、准确的学习指导系统意义尤为重 大,这是因为: 1 学习指导系统是学生进行系统学习的有益补充,同时也是学生巩固知识的重 要途径,学生在学习过程中会遇到各种各样的问题,及时有效的解答是促进他们学习 的基本需求,而网络则是满足这一需求的重要手段。 基于文本分类的学生学习指导系统的研究与设计 2 通过对学生所提问题的记录分析,可以统计出学生普遍存在的知识薄弱环节, 为教师进一步改进教学方法提供参考,成为辅助教学的有效工具。 3 在网络环境下的学习指导系统采用了友好的自然语言接口,学生可以轻松自 如地提问,及时解决学习过程中遇到的难题并给予学习指导,使网络教学真正起到辅 助教学的作用,对于网络教学方式在我国的进一步普及,具有不可估量的重大意义。 4 将功能良好的学习指导系统应用于国家大力发展的远程教学支撑平台中,具 有很大的社会价值。 5 为自然语言理解以及信息检索技术的应用发展提供了一个方向,可以推动该 技术领域的发展。本课题还为文本分类的应用提供了一个新的发展领域。 1 2 论文的组织结构 论文从结构上分为以下七个部分: 第一章,首先对课题研究的背景作了大体的介绍,阐述了课题研究的目的和意义, 并叙述了论文的组织结构和主要研究成果。 第二章,阐述了本课题所涉及的主要技术一文本分类,主要包括其概念,应用领 域,文本分类的过程以及文本分类涉及到的主要技术等。 第三章,讲述了数据仓库技术,包括数据仓库的定义、功能描述、体系结构及实 现步骤和工具等。 第四章,对关联规则算法进行了详细的介绍、研究与改进,提出了基于关键词相 关性的相似度计算方法并介绍了其在本课题中的应用。 第五章,在本章中对文本分类相关技术,包括分词技术、权重计算、文本向量表 示、特征提取、文本分类器设计等进行了详细的应用分析与实现,同时针对传统t f i d f 算法存在的缺点对其进行了改进,最后对改进的文本分类算法进行了测试与评估。 第六章,首先给出了学习指导系统中数据仓库的设计过程及相关算法应用方案, 并演示实现过程;然后列举了学习指导系统的主要功能,并对主要功能进行了演示。 第七章,总结全文,并对下一步的工作进行展望。 1 3 论文的主要研究成果 本课题提出了一种基于文本分类的学习指导系统的设计方案,跟一般的指导系 2 济雨大学硕士学位论文 统相比,该系统准确、高效。最终论文取得的研究成果主要包括: ( 1 ) 利用改进的关联规则算法和改进的文本分类算法将教学平台答疑系统后台库 中一对多的问题答案对整理成一个一一对应、分类存储的问题答案对。 ( 2 ) 利用改进的关联规则算法和改进的文本分类算法将答疑系统问题答案库中的 问题与学校电子图书馆中的电子资料信息( 包括论文、期刊、书籍等) 进行最有价值 的参考资料匹配,分类存储形成一一对应的问题资料对,并最终与( 1 ) 中的问题答案 对一起,生成直接用于系统开发设计的数据仓库。 ( 3 ) 改进关联规则算法,利用基于关键词的关联规则计算出关键词之间的相关性, 并以此为基础提出了基于关键词相关性的相似度计算方法,对文本之间的相似度进行 了计算。 ( 4 ) 通过对传统t f i d f 权重计算方法存在的不足之处进行研究,提出了改进的 t f i d f 公式,试验证明,该公式的应用,使文本分类的评估标准f 1 值大大增加,提 高了分类的准确性。 ( 5 ) 实现了一个回答自然语言提问,方便、快捷、功能齐全的学习指导系统,既 能回答学生的提问,又能对学生学习中存在的问题,有针对性的提供参考资料,对学 生的自主学习有了很大的帮助。 基于文本分类的学生学习指导系统的研究与设计 第二章文本分类 随着网络的迅猛发展,网上的网页、电子邮件、数据库、聊天室、论坛和数字 图书馆等电子文本成几何级数不断增长,处理这些海量数据的一个重要方法就是将它 们分类。当我们浏览一个网站查找信息时,如果网页凌乱的堆积在一起没有类别供我 们查找,会使我们很难找到自己所需的信息,所以现在大型网站都将网页分类,以方 便人们浏览。比如,y a h o o 就将网页放在一个巨大的层次分类结构中,通过组装维护 这些类别,可以帮助人们查找知识和信息。但是网页自己没有类别,单纯依靠人工分 类,工作非常的繁琐,而文本分类系统则可以帮助人们检查文本、判断文本所属的类 别。文本分类系统所采用的算法就是文本分类算法。 文本分类领域是一个活跃的科研领域,它经历了几个不同的发展阶段。最先文本 分类由作者自己标识。到1 9 6 4 ,m o s t e u e 和w a l l a c e 6 】在鉴别文章作者身份的工作中开 创了文本分类的新阶段,他们考虑单词,句子长度,功能词的频率和词汇的差异等特 征项。近期的文本分类具有更广泛的应用:分类新闻组文章【7 1 、网页分类【8 1 、自动学 习读者的兴趣【9 】、邮件过滤【1 0 1 1 1 j 等。 2 1 文本挖掘简介 文本挖掘【1 2 】( t e x tm i n i n g ,简称t m ) ,是数据挖掘的一个分支,用于基于文本 信息的知识发现。一般来说,文本挖掘和文本数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nt e x t u a ld a m b 嬲e ,简称k d t ) 被认为是具有相同含义的两个词,最早由 r o n e nf e l d m a n 等人提出: t h e p r o c e s so fe x t r a c t i n gi n t e r e s t i n gp a t t e r n sf r o mv e r yl a r g et e x tc o l l e c t i o n sf o rt h e p u r p o s eo fd i s c o v e r i n gk n o w l e d g e 其含义为:文本挖掘即文本数据库中的知识发现,是从大量文本的集合或语料库 中发现隐含的,令人感兴趣的,有潜在使用价值的模式和知识。 从文本挖掘的定义可以看出,文本挖掘就是从文本或文本集合中提取有用知识的 过程,而知识的表达方式是多种多样的,例如,可以是概念( c o n c e p t ) 、规贝i j ( r u l e ) 、 规律( r e g u l a r i t y ) 、模式( p a t t e r n ) 或约束( c o n s t r a i n t ) 等。按照文本挖掘的对象可把文本 4 济南大学硕士学位论文 挖掘分为:基于单文档的文本挖掘和基于文档集的文本挖掘。基于单文档的文本挖掘 对文本的分析并不涉及其它文本,其主要的挖掘技术有:文本摘要、信息提取( 包括 名字提取、短语提取、关系提取等) 。基于文档集的文本挖掘是对大规模的文本数据 进行模式抽取,其主要的技术有:文本分类、文本聚类、个性化文本过滤、文本作者 归属、因素分析等,而文本分类则是文本挖掘中一种最重要、最基本的挖掘方法。 2 2 文本分类的基本概念 简而言之,文本分类就是先根据已有的样例文本,从中找出能描述并区分文本 类别的分类器( 或规则、假设、模型) ,然后利用该分类器对新的未分类文本进行分类。 它的任务就是在给定的分类体系下,根据文本的内容自动地确定与文本关联的类别。 从数学的角度而言,分类的实质是一个映射的过程,它将未标明类别的文本映射到已 有的类别中,该映射可以是一一映射,也可以是一对多的映射。文本分类的映射规则 是系统根据己经的掌握的每类若干样本的统计信息,总结出分类的规律而建立的判别 公式和判别规则,然后在遇到新样本时,根据总结出的规则,确定文本相关的类别。 自动文本分类存在两个基本的假设【1 4 1 : l 、类名仅仅是符号标识而已,在分类器的构造过程中它不能提供额外的知识。 2 自动分类所使用的知识必须是内源性的( 即从文本中抽取出来的知识) ,而不能是外 源性的,即不能根据元数据,如文本的出版日期,文本类型,或来源出版物等来完成 分类任务。 2 3 文本分类的应用领域 1 自动标引 标引是通过一个或多个关键词来描述一篇文本的主题内容。对大型的文献集做标 引需要大量的人力物力,耗费巨大。如果让标引中的主题特征词当作类别,那么在一 定程度上自动标引就与文本自动分类相似,利用文本分类技术可以大大提高标引的效 率。 2 文本信息过滤 文本信息过滤( t e x tf i l t 睨 i n g ) 是指从大量的文本信息中寻找或去除特定的信息以 满足用户的需求。过滤系统首先根据用户的需求建立一个初始的用户模板( p r o f i l e ) , s 基于文本分类的学生学 - - - j 指导系统的研究与设计 然后判断文本信息是否有符合用户模板的文本,根据一定的评判标准将符合标准的文 本提供给用户,并根据用户的反馈来修改用户模板。它的应用很广泛,如垃圾邮件过 滤、选择性的信息服务、不良网址过滤等。 3 智能检索 早期,信息检索是一种职业化的行为,仅限于一些受过专业训练的人员,虽然随 着i n t e r a c t 的发展,搜索引擎发展的很快,但仍有很多缺陷,如有大量根据用户查询 关键字反馈的信息与用户需求毫不相干,特别是对于同义词、多义词的现象没有得到 很好的处理。利用文本分类技术来处理这些缺陷,改进相关度的计算方法有助于智能 检索的发展。 随着人类产生信息量的增多文本分类的应用也越来越广泛,并且随着文本分类 研究的不断深入及其应用领域的不断拓展,许多不同的学科和知识也不断被引入这个 领域,它们丰富了研究者们看问题的方法,同时也带来了更多的机遇与挑战。 2 4 文本分类相关技术介绍 2 4 1 向量空间模型( v s m ) 计算机没有类似人类的智能,人阅读完文章之后可以产生自身对文章的理解,而 计算机却没有这样的能力。为了便于计算机的处理,就要将文本表示为计算机可以识 别的格式。 目前文本的表示模型有多种:布尔逻辑型、向量空间型( v s m ) 、概率型和混合 型等。而信息处理领域最常用的就是向量空间模型。 向量空间模型( v e c t o rs p a c em o d e l ,简称v s m ) i s l 是由s a l t o n 等人在六十年代 末到七十年代初期提出的模型,近年来应用较多且效果好。v s m 是由一组规范化正 交特征词矢量所组成的向量空间,每一个文本映射为向量空间的一个点,向量间的距 离表示文本之间的相似度。通过这种模型可以将给定的文本以向量的形式表示在 v s m 中,从而将文本之间的相似性这一抽象的问题转化为具体的空间的点与点的距 离问题,通过计算出任意两个向量之间的近似程度,从而来反映所对应的文本间的相 似性。其主要思想就是把文本看作一个多维向量,把从文本选出来的一个特征词当作 向量的一维。即每个文本用d i 表示,特征项( 能够代表该文本内容的基本语言单位, 6 济南大学硕士学位论文 主要由文本中的词或者短语组成) 用t i 表示,则文本d i 可以用特征项集表示为 d ( t i ,1 2 ,, t n ) ,通常给每一个特征项赋予一定的权重w i ,表示其重要程度,则 d i = ( t l w i ;t 2 ,w 2 ;t n ,w 。) 为文本d i 的向量表示,t i 为特征项,w i 表示权重。 2 4 2 分词算法 在进行文本向量空间表示之前,首先要用中文分词技术对文本进行分词,这样文 本就可以变成词集,而将所有的词集作为文本的特征项。中文分词技术【1 6 1 属于自然语 言处理技术范畴,中文自动分词也是对汉语文本进行自然语言分析的第一个步骤,是 文本分类的关键技术之一。 现有的分词算法可分为三大类:基于字符串匹配的分词方法;基于理解的分词方 法和基于统计的分词方法。 一:基于字符串匹配的分词方法 基于字符串匹配的分词方法,又叫做机械分词方法,它是按照一定的策略将待分 析的汉字串与语料库中的词进行匹配,若在库中找到某个字符串,则匹配成功( 识别 出一个词) 。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹 配。常用的几种机械分词方法如下:( i ) 正向最大匹配法( 由左到右的方向) ;( i i ) 逆向最大匹配法( 由右到左的方向) ;( i i i ) 最少切分( 使每一句中切出的词数最小) 。 - - :基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后 续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的很小的一部分。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理 歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控 部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义 进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识 和信息。由于汉语语言知识的笼统性、复杂性,难以将各种语言信息组织成机器可直 接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 三:基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字如果同时出现的 7 基于文本分类的学生学习指导系统的研究与设计 次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反 映出词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们 的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个 阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字的组合频度 进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法 也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这 一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销 大。 分词后要使用停用词表( 存放语气词和连词、虚词等) 和高频词表( 在每个文 本中都可能出现的) 剔除对分类没有多大影响的词语。 2 4 3 权重计算 不同的特征项对文本的重要程度和区分度的影响是不同的,因此系统在对文本进 行形式化处理的时候,需要对特征项进行加权,下面对常用的加权函数【1 7 】进行详细介 绍。 ( 1 ) 布尔权重 布尔权重是最简单的一种加权方法,如果特征词出现次数为0 ,则其权重为0 , 如果特征词出现词次数大于0 ,则其权重为i 公式如下: 州,= 黜强亿1 , 其中形( d ) 表示特征词i 在文本d 中的权重,f ( d ) 表示特征词i 在文本d 中出现的 次数。 ( 2 ) 词频权重 该方法将特征词在文本中出现的频率作为权重。公式如下: 形( d ) = 斫( d ) ( 2 2 ) ( 3 ) t f i d f 权重 该方法的主要思想是:一是如果特征词i 在文本d 中出现的次数越多,它区分文 本类别属性的能力越强;二是含有特征词i 的文本数越多,则说明它区分文本类别属 8 所雨大学硕士学位论文 性的能力越弱。公式如下: 彬( 加斫( d ) x l o g 【+ 0 叫( 2 3 ) 其中斫( d ) 为特征词f 在文本d 中出现的频率,为文本集总数,刀,为含有特征 词i 的文本数。 但是t f i d f 权重计算法没有考虑到集合中文本长度的问题,考虑到文本长度对 权重的影响,还应该对权重公式做归一化处理,将各个特征词的权重规范到【o ,1 】之间, 公式如下: 圻( d ) l o g ( n + 0 7 0 1 ) 形( d ) = ( 4 ) 信息熵权重 州h 咄删聊 ( 1 + 击羹 半地c 警, 亿5 , 拭中击粪 半崦c 芈,卜鞭诽黼端韵椭就。 当分布极度均匀时熵等于1 ,说明它没有区分类别属性的能力。只在一个文本中 出现时熵等于0 ,说明它的区分类别属性的能力最大。 2 4 5 特征提取 文本经过分词处理以后,作为文本表示的向量空间的维数特别大,所以要经过特 征提取,降低维度,来提高检索的速度。对文本特征进行特征子集选择的算法一般是 构造一个评价函数,对特征集合中的所有特征进行分别评估,然后对全部的特征按照 其分值的大小进行排序,一般选取前n 个分值较高的作为特征构成特征向量空间,其 中n 是一个人为预定的整数。在文本分类中使用较多的特征选择方法【1 8 1 1 9 】包括文本 频率、互信息、信息增益、x2 统计量、期望交叉熵等 1 文本频率 特征项的文本频率( d o c u m e n tf r e q u e n c y ) 是指在训练语料中出现该特征项的文 本数。d f 方法基于如下假设:d f 值低于某个阈值的特征项是低频词,它们不含或含有 9 基于文本分类的学生学习指导系统的研究与设计 较少的类别信息,将这样的特征项从原始的特征空间中移除,能够降低特征空间的维 数,提高分类的精度。d f 方法形式简单,缺点也很明显。低频词可能包含更多有用的 信息,而高频词可能包含较少的信息。 2 信息增益 信息增益( i n f o r m a t i o ng a i n ) 在机器学习领域被广泛应用。对于特征词t 和文本 类别c ,用i g 考察文本类别c 中出现和不出现特征词f 的文本频数来衡量词条,对于文 本类别c 的信息增益。采用如下的定义式: m l mm l g a i n ( t ) = 一p ( q ) l o g 尸( q ) + ie t ) x p ( c , t ) l o g p ( c ii f ) + p o ) 尸( q t ) l o g p ( c , :i t ) i i = lli - i 1 = i j 一”一一( 2 6 ) 其中p ( c ,) 表示c i 类文本在语料中出现的频率,) 表示语料中包含特征词r 的文 本的频率,p ( c ,ir ) 表示文本包含特征词f 时属于c 。类的条件概率,p ( f ) 表示语料中不 包含特征词,的文本频率,p ( e ,i ,) 表示文本中不包含特征词f 时属于c ,的条件概率, m 表示类别数。 试验中可以对语料中出现的每个特征词都计算其信息增益值,从原始特征空间中 移除低于特定阀值的特征词,保留高于阀值的特征词作为表示文本的特征。当然,信 息增益方法也有缺点:当r 仅出现在一个类中时,即使f 在这个类中均匀分布,g a i n 的 值也很小,但这时f 对该类具有很强的代表性。 3 互信息 互信息( m u t u a li n f o r m a t i o n ) 在统计语言模型中被广泛采用,m i 越大,共现的程 度越大。如果用彳表示包含特征词r 且属于类别c 的文本频数,召为包含r 但是不属于 c 的文本频数,c 表示属于c 但是不包含,的文本频数,表示语料中文本总数,f 和 c 的互信息可由下式计算: m 力= l o g 器= l o g 等= l o g 丽a x n ( 2 7 ) 如果r 和c 无关( 即p ( t ,c ) = p ( t ) x p ( c ) ) ,i ( c ,) 值自然为0 。为了将互信息应用于 多个类别,与z 2 统计的处理类似,由下式计算f 对于c 的互信息: i a r o ( t ) 2 懈p o ) ,( ,q ) ”( 2 8 ) 其中m 为类别数。将低于特定阈值的特征词从原始特征空间中移除,降低特征空 间的维数,保留高于阈值的特征词。另一种方法是公式( 2 9 ) ,将特征词对各个类别 1 0 济南大学硕士学位论文 的平均,_ 阳( f ) 值作为它对所有类别的i a mo ) 值,但是它的表现不如( 2 8 ) ,平均 i a r a ( t ) 值的计算见下式: l 粥= p ( c ,) ,( f ,c j ) ( 杰9 ) 4 z 2 统计 z 2 统计方法度量特征词,和文本类别c 之间的相关程度,并假设f 和c 之间符合具 有一阶自由度的分布。特征词r 对于某类的z 2 统计值越高,它与该类之间的相关性越 大,携带的类别信息也越多,独立性也越小。令,彳,b ,c 的含义同上所述,d 是既 不属于c 也不包含t 的文本频数,若a d ba 为待分类文本集,b 为分类体系中的类别集合 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分 类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别 规则,确定文本相关的类别。 一个完整的文本分类过程总体来说是由训练过程和测试过程组成的,具体的实现 步骤主要包括以下几部分: 1 ) 获取训练样本集,训练样本集由一组经过预处理的文本特征向量组成,每个训练文 本( 或称训练样本) 有一个类别标号。 2 ) 特征项权重的计算,根据适宜的权重计算方法表示文本中各项( 经分词得到) 的重要 性。 3 ) 根据预处理的训练集( 已预知类别的文本) 学习建模,构建出分类器。 4 ) 最后利用测试集文本按一定的测试方法测试建立好的分类器的性能,并不断反馈、 学习,提高该分类器性能,直至达到预定的目标。 具体流程图如下: 基于文本分类的学生学习指导系统的研究与设计 图2 1 文本分类流程图 2 6 文本分类评估标准 训 练 过 程 测 试 过 程 准确、快速是文本分类系统的目标跚。在文本分类研究领域,当一个分类器建立 起来后,就要对其进行性能评价,下面介绍几种常用的评估标准。 1 召回率( r e c a l l ) 和准确率( p r e c i s i o n ) 因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射 的准确程度和映射的速度【2 9 1 。映射的速度取决于映射规则的复杂程度,而评估映射准 确程度的参照物是通过专家思考判断后对文本的分类结果( 这里假设人工分类完全正 确并且排除个人思维差异的因素) ,与人工分类结果越相近,分类的准确程度就越高, 这里隐含了评估文本分类系统的两个指标:召回率r ( r e c a l l ) 和准确率p ( p r e c i s i o n ) 对于某一特定的类别,召回率r 定义为被正确分类的文本数和被测试文本总数的 比率,即该类样本被分类器正确识别的概率。准确率p 定义为正确分类的文本数与被 分类器识别为该类的文本数的比率,即分类器做出的决策是正确的概率。 1 6 济南大学硕士学位论文 准确率和召回率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废, 因此,存在一种新的评估指标,f 1 测试值,其数学公式如下: f 1 :型生( 2 1 8 ) 2 宏平均( m a c r oa v e r a g i n g ) 和微平均( m i c r oa v e r a g i n g ) 宏平均和微平均【3 川都是用于评价分类器的整体表现。宏平均是将p r e c i s i o n ,r e c a l l 及f 1 标准在单个类别上的数值进行平均而得到。微平均是分类器在整个测试集上 做出的分类中正确的比率,即在整体上来平均。 1 7 基于文本分类的学生学习指导系统的研究与设计 第三章数据仓库 数据挖掘所依赖的数据来源多种多样,可以是常用的关系数据库,事务数据库, 文本数据库,多媒体数据库等,主要取决于用户的目的及所处的领域。目前,数据挖 掘的数据主要来自关系数据库和数据仓库,作为一个新兴的研究领域,数据仓库技术 发展的很快,许多大学和公司都正在这个领域内进行着广泛的研究,其中尤其以斯坦 福大学、m m 的a l m a d e n 研究中心、威斯康辛大学、微软和a t & t 的研究最具有代 表性【3 l 】。 3 1 数据仓库的定义 经过十余年的探索与研究,人们目前一致认为,数据仓库的鼻祖一美国著名的信 息工程学家w h i n n l o l l 博士于1 9 9 2 年在其著作( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书 中对数据仓库的特点描述是极其正确的【3 2 】。在该书中他说:“数据仓库( d a t a w a r e h o u s e ) 就是面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、非易失的( n o n - v o l a t i l e ) 、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 如何应对学习中的挫折与挑战话题作文5篇
- 时尚行业服装分类统计表
- 团队协作与沟通效率提升指南模板
- 2025-2030光传感网络在智慧城市中的规模化部署挑战
- 2025-2030光伏板清洁机器人无水化作业方案可行性报告
- 2025-2030儿童财商教育课程体系构建与市场需求匹配度报告
- 2025-2030儿童营养补充剂行业现状与政策环境分析报告
- 2025-2030儿童绘本出版行业市场发展分析与投资价值评估报告
- 2025-2030儿童科学启蒙教育市场现状与发展趋势研究报告
- 2025-2030儿童用药临床短缺现状与激励政策效果评估报告
- (完整文本版)无人机航拍理论试题库完整
- 厂房降租减租申请书
- 植入式静脉给药装置(输液港)-中华护理学会团体标准2023
- 小学数学集体备课活动记录表范文12篇
- 铝合金门窗安装监理交底
- 胸腹水常规检测标准操作规程
- 基本公卫生服务的项目组织管理灵石武佳波课件
- 电工职业技能竞赛技术规程
- 机电设备调试协议书
- 芪参益气滴丸课件
- 短视频编辑与制作(第2版)PPT完整全套教学课件
评论
0/150
提交评论