




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
声明尸i 刃 本人郑重声明: 1 、坚持以“求实、创新”的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和 取得的研究成果。 3 、本论文中除引文外,所有实验、数据和有关材料 均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人 或其它机构已经发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了 声明并表示了谢意。 作者签名:蔓、 基于智能文本分类技术的素材管理软件的设计与开发 摘要 本文就人们对大量文本资料和媒体素材缺乏有效的分类管理手段这一实际 问题出发,综合并借箍了前人在智能文本分类、多媒体数据库技术中的研究成 果,结合自身实际情况,就开发“基于智能文本分类技术的索材管理软件”进 行了探索和研究。全文首先讨论了课件本身的局限性,引出了“积件”的思想, 继而论述了建立基于税件恿憩的素材库的必要性。然后就如何实现对素材进行 高效率的分类和管理,提出了自己的看法,指出将人工智能技术运嗣于教学实 践中的可能淫、必要髓稻迫切往。f 本文第二章介绍文本分类和多媒体数据库中 的关键性技术,比较并总结这一壤域中的磷究动态。第三章中,详细介绍了较 牛熬浚计方案。在翦人磷究戏果上,予以剖辫,设计了一套无需词典支持、筒 单易行匏中文分溺积分类算法,开发了“文楼自动分类软件”,著对如何将这 一技术与多媒 本豢携蓐提结合,实现对媒体索材麴模糊查询秘智能分类等阔题 进行了援讨,绘出了软馋设计的总思路秘总方寨。这些愍路在髓后的第强章中 得到落实,包挺对已缀实现郝分的主要功能赍绍和其中关键性技术的实现方法, 最后分析了工作中存在的不足,以及凑待今后改迷的方匿。综上所述,本文是 在教育信息化过程碧,就教学信息素材的有效分类管理避 亍的一次有益的实践 探索和尝试。丁 关键词:囊动文本分类;中文沈词;多媒体数握摩;素材管理器 u s i n g a u t o m a t e dt e x t c a t e g o r i z a t i o nt e c h n o l o g y t od e s i g n e d u c a t i o n a lm a t e r i a lm a n a g e m e n ts o f t w a r e a b s t r a c t : c o n f r o n t i n gt h en e e do fe r i e c t i v ea p p r o a c h e st om a n a g eam a s so ft e x t sa n d m u l t i m e d i am a t e r i a l s t h ea u t h o r a t t e m p t s t o d m ,e l o p a ne d u c a t l o n a ! m a t e r i a ! m a n a g e m e n ts o f t w a r ew i t ha u t o m a t i ct e x tc l a s s i f i c a t i o na b i l i t y , b a s e do nt h er e s e a r c h a c h i e v e m e n t sd o n eb yo t h e rp e o p l e a n dt h ec r e a t i o n so ra d a p t a b l ea p p l i c a t i o n so fh i s o w n t h i sp a p e rf i r s td i s c u s s e st h el i m i t a t i o no f “e o u r s e w a r e ”t oi n t r o d u c et h e c o n c e p t i o no f “i n t e g r a b l e w a r e ”t h e n i t p u t sf o r w a r dt h en e c e s s i t yo fb u i l d i n gu p m a t e r i a ld a t a b a s e sb a s e do nt h ei n t e g r a b l e w a r ec o n c e p t i o n 。a t i e rt h a t 、t h ea u t h o r g i v e sh i sv i e w so nh o w t oc m e g o r i z ea n dm a n a g et h i sd a t a b a s e ,a n dt h e np o i n t so u t t h e p o s s i b i l i t y , n e c e s s i t y a n d u r g e n c y o f a p p l y i n ga i ( a r t i f i c i a li n t e l l i g e n c e ) t e c h n o l o g yi nt e a c h i n gp r a c t i c e ,l nt h es e c o n dc h a p t e r , t h ea u t h o ri n t r o d u c e st h ek e y t e c h n o l o g yo ft e x tc a t e g o r i z a t i o na n dm u l t i m e d i ad a t a b a s ea n dt h e ns u m su pt h e r e s e a r c hd e v e l o p m e n ti nt h i sf i e l d i nt h et h i r do n e t h ea u t h o ri n t r o d u c e st h ed e s i g no f p r 0 9 1 a mi nd e t a i l s w i 氇ar e f e r e n c eo fo t h e r s w o r k ,h ed e s i g n sas e to fc h i n e s e l a n g u a g es e g m e n t a t i o n a n d c a t e g o r i z a t i o na l g o r i t h m w i t h o u tt h e s u p p o r t o f d i c t i o n a r i e s 。t h u sh ed e v e l o p sa na u t o m a t i ct e x tc l a s s i f i c a t i o ns o f t w a r ea n ds u g g e s t s f u r t h e rs o l u t i o n st op r o b l e m ss u c ha sh o wt oa p p l yt h i st e c h n o l o g yt oam u l t i m e d i a d a t a b a s e a n dr e a l i z et h em e d i as e a r c hb a s e do nc o n t e x t sn o tk e y w o r d s w i 也t h a t t h e a u t h o rg i v e st h em a i np l a na n do v e r a l ld e s i g no fh i ss o f t w a r e a l lt h e s ea r er e a l i z e di n t h el a s tc h a p t e r , i nw h i c h t h ea u t h o ri n t r o d u c e ss o m eo f t h ef u n c t i o n sa l r e a d yr e a l i z e d t o g e t h e rw i t hi t st e c h n i c a 】d e t a i l s f i n a l l y , t h ea u t h o rs u m m a r i z e st h ed e f i c i e n c i e sj n h i sc u r r e n tw o r ka n dt h ew a yo ff u r t h e ri m p r o v e m e n t i naw o r d 、t h i sp a p e r , w i t ha i l i t sw o r k 。i sap r a c t i c a la n db e n e f i c i a le x p l o r a t i o ni nt h ee f f e c t i v ec a t e g o r i z a t i o na n d m a n a g e m e n to f t e a c h i n gm a t e r i a ld u r i n gt h ep r o c e s so f e d u c a t i o n a li n f o r m a t i z a t i o n 。 k e y w o r d s : a u t o m a t e dt e x tc a t e g o r i z a t i o n ;c h i n e s el a n g u a g es e g m e n t a t i o n ;m u l t i m e d i a d a t a b a s e ;m a t e r i a lm a n a g e m e n ts o f t w a r e 前言 一、背景 时至当代,以计算机和通讯技术的普及与应用为中心的科学技术的发展,可 以说跫入粪文明历程的又一里程碑。从1 9 4 6 年世界上第一台电子计算机诞生, 并且只应朋予军事科学、工程计算、数值统计、工业控制、信号处理等有限领域, 一直到它步入寻常百姓的家家户户,成为人类生活的必需品,这期间也只经历了 半个世纪。科技昂新月异静发展,不能不让我们为之惊叹。现在以计算机为依托 翡各穆支持程鼹务已经逐步渗透到社会生活的方方面鬣。教育,作为人类古老特 殊瓣一项产业,也芷发生罄一场静悄悄煞变革:在工、监社会矗三大步迈商知识经济 毒会的大环境中,在现代科学戆影嚷下,驮信息的焦瘦来研究教育所形成蠹勺戒果 曩蕊积累,逐濒形成了与传统熬教育磺究期平行的另一条线索。这就是被稼为教 育信息革命中先锋一教育技术。 我国的教育技术经历了无线电技术、豢视频媒体技术、计簿蛾技术三个发展 阶段。随着教育媒体的发展,音视频媒体技术向计算机技术发展的过程犍会加速, 数字化将是必然的趋势。多媒体技术、网络技术、卫星通讯技术将成为主体性技 术并在教育领域被广泛推广应用。其中。多媒体技术,特别是网络技术已成为 核心媒体披术;虚拟现实技术、人工智能技术等新技术将在实践应用领域中崭露 头角。教育技术正不断将新科技吸取转化为适合教育技术的新观念、新媒体,以 至促使教育观念、教学内容、教学方法、教育模式产生更大的改变,使现代教育 技术紧紧围绕素质教育这个中心,为创造型人才的培养创造更好的环境。 二、问题的提出 以多媒体课 牛开发与应用为核心的c a i 多娱体教学在我国已经有了较长一段 时间的发展,但发展状况并不尽如人意,主要表现在现有的课l 牛内容与实际教学 脱节,无法进入课堂,学校和教师在自己动手制作课件过程中的困难羹重。究其 原因,还得从课件本质谈越。“课件是在一定的学习理论指导下,根据教学目标 设计的,反映某种教学策略和数学内容的计算机软件。”1 具有教学策略上的主 观性、成品软件的集成性、适用范围的有限性、内容的固定性等特点。正是由于 课件自身的这些特点,决定了它在教学活动中使用范围窄,受到很大局限。只能 黎蚋野,坟谍盼到强体:我国学校课堂诤铎执李藉助教学鹩瓶发暴,电亿教育研究1 9 9 7 年 3 41 适用于某一特定的教学情境,无法适应干变万化的教学情况。于是人们提出“积 件”( i n t e g r a b l ew a r e ) 的概念。 “积件是由教师和学生根据教学需要自己组合运用多媒体教学信息资源的 教学软件系统”,它不只是在技术上把教学资源素材库和多媒体著作平台简单叠 加,而是积件库与积件组合平台的有机结合,其中积件库中的多媒体教学资料 库、微教学单元库、资料呈现方式库、教与学策略库、网上环境积件资源库,为 师生利用积件组合平台制作教学软件提供了充足的素材来源和多种有效途径。 有了积件,只是说有了信息素材,不等于就有了信息资源。因为通过各种渠 道和方法收集来的“信息素材”绝大部分不是可以马上使用而发挥价值,要经过 众多专业人员的分析、筛选、加工、整理和应用信启、技术的制作,提高其附加值, 贮存于数据库中,才能成为信息资源。信息是财富,但使信息成为以共享性和可 多次利用性为特征的信息资源还要有一个科学系统化过程。所以,只有建立基于 积件思想的多媒体素材库,刁能实现从信息到资源的转化。 遗憾的是,长期以来,我国重设备配置、轻信息资源开发的倾向尚未扭转, 再加上信息共享中的人为障碍和对信息市场的种种不必要的限制,这些因素都造 成我国多媒体素材资源整体匮乏,精品更是少之又少。笔者认为,基于积件思想 的多媒体素材库建设应该是今后很长一段时间内我国c a i 多媒体教学工作中的 重点。 在实际工作中,我们经常遇到这样的困难:原始的素材都是零散的、琐碎的、 甚至是不成形的,人们并不总是马上就要用到它们,但把它们直接存放在素材资 源库中显然又不太合适,于是很多的人的硬盘罩就这样杂乱无章的堆积着大量的 原始资料。久而久之,想从中查找到有用信息便会十分困难,甚至连自己是否拥 有该方面的素材都搞不清楚,更别说高效了。于是,我们不禁要问,有没有一种 方便快捷的素材管理软件,来帮助用户完成这些任务呢? 再者,网络资源再丰富, 毕竟比不上本地资源获取方便,所以说,小型的素材管理软件或个人素材库极具 实用价值和现实意义,它们是人们在工作、生活中不可或缺的好帮手。它们既能 独立完成相当部分素材的分类管理工作,同时又为大型的网络素材资源库的建 立打下基础,是资源由量变到质变积累过程中的必然过渡。 三、 课题研究目标与研究的方法 本课题就是从上述实际问题出发,通过大量的分析和调研,力求给出一个“个 人素材管理软件”的开发方案,通过实践性的工作和制作出的成品,达到方便他 丁更新,谒:什、积仆和多姒体素材庠的应_ l j 特性,河南教育学院学报f 臼然科。版) 第 。巷1 | l lj ,翦7 9 页 人,实现对素材高效管理的目标。 在理论的指导下,实践是最好的研究方法。在前期准备阶段,笔者先后查阅 了大量的文献和技术资料,包括自动文本分类技术、多媒体数据库技术等,进一 步熟悉w i n d o w s 平台下的软件开发流程。吸收了积件、系统论、信息论等最新的 理念,并将其在软件的设计中得以体现,最终初步实现了具有一定智能化水平的 文本分类和素材管理软件。 这里所谓的“智能化”,指的是基于内容而非关键字的分类技术,即“自动 文本分类技术”,它是人工智能研究在自然语言处理领域中的重要方向。中文文 本分类的过程一般是:对文本中进行切词处理等预处理,从中按照特定的算法提 取特征值,并计算特征值的权重,从而得到文本的特征向量表示;再通过分类器 把文本的特征向量与某类中训练文本的中心向量作比较,最后把文档划归到相似 度最高或相似度高出阂值的那一类。 由此我们知道,想要实现对文本的自动分类,就不得不对文本进行预处理, 从文本中提取特征向量。受客观条件的限制,笔者手边既没有现成的分词模块接 口,也没有合适的分词词典,自己收集整理分词词典显然又不太现实,如何解决 这一难题呢? 经过思考,笔者设计了个无需词典的简单易行中文文本抽词算 法,避开了中文分词的难题,当然如果有词典支持,效果会更好,这一工作将有 待今后完成。 在分类算法的选择上,笔者力求算法复杂度和分类效果之间的平衡,用尽量 简单的算法取得比较满意的分类效果。并提出自己的分类算法,作为对比和参考 方案。在文本分类系统中,笔者采用手工和自动分类相结合的方式。即自动分 类后,如果文本和类别有匹配,把文档划归到相似度最高的那一类,并给出分类 可靠度,否则转为用户手工分类。 本课题的研究重点是自动文本分类技术及其在素材资源管理中应用。笔者在 有限的时间内,以单机个人用户为例进行尝试,这对基于网络或多用户系统也同 样适用。 总之,本课题的研究是将自动文本分类技术应用于教育信息资源分类检索中 的一次具有探索性和建设性的尝试。受丌发时间和个人水平的限制,软件本身不 可避免的存在诸多不足和缺陷,有待改进的地方很多。但笔者认为,如果通过本 人的工作,能够为他人在将人工智能技术应用于教学实践提供些思路或使他们在 丌发类似的软件时能有所参考,那么本课题研究目的就达到了。 1 1 从课件到积件 第1 章课题的理论论证 以多媒体课件开发与应用为核心的c a i 多媒体教学在我国的发展已经有了较 长一段时间,其发展状况究竟如何? 北京崇文区电教馆对区内3 0 多所中小学校 进行c a i 调查显示:“辅助教学、学习的软件质量不高,内容与教学脱节是影响 今后发展的主要原因。”另据中国教育报对国家总督学、原国家教委副主任 柳斌的专访报道:“就各个学科来讲,我们没有形成一个全面开发的局面:就每 一个学科来讲,没有形成一个系统开发的局面。”。造成这一现象的原因是什么 呢? 笔者了解到:一些条件较好,起步较早的学校投入大量人力物力丌展c a i 教 学,在取得一定成绩的同时,也面临着这样的尴尬局面:一方面学校购买的许多 多媒体c a i 软件进入课堂的效果不如人意,表现在或与实际教学脱节,无法进入 课堂,暴露出软件制作者与使用者之间的不协调;另一方面,学校和教师在制作 课件过程中遇到许多困难。这问题引起教育界、软件界的开发者以及各方面有 识之士的高度重视。为了搞清它产生的原因,笔者认为首先还应该从课件本质特 征谈起。 “课件就其指导思想和制作过程来看,是编制者按某一思路设计制作的前后 连贯的有系统的教学软件。”2 具有以下特点: 1 课件具有教学策略上的主观性。课件与教学目标和教学策略密切相关,是编 制者备课思路与教学方法的具体体现。 2 课件具有软件成品的集成性。成品后一般不能由使用者来修改。 3 课件具有适用范围的有限性。这是因为课件总是针对的特定的适用对象,且 往往只在特定的教学时段内适用。 4 课件具有内容上的固定性。课件的内容总围绕某一教学目标和要求,如教科 书中的某一章节。 课件自身的这些基本特性,决定了它在教学活动中使用的范围窄,受到很大 1 郑小军王屹卢文华,论多媒体c a i 课什( 积什) 开发的模式 l 多姒体素材库( 积引库) 的规划与建设,电化教育研究2 0 0 0 年第9 期,第4 9 页 2 黎加厚,从课件,0 积件一我国学校课堂计算机辅助教学的新发展 是陵。无论多么优秀豹渫傅,只能适溺予菜一姆定豹教学l 主境,无法逐瘟子交万 化的教学情况。主要表现在它固化了教学的内容和策略、甚至固化了知识表达璺 现。正怒l 羹予谍俘这些先天固鸯豹不足,近年来,太们京实践的基础上,提出“积 件”( i n t e g r a b l ew a r e ) 的概念。 “积 牛是巍教贩鄂学生根据教学黉要自己缀合运期多媒体教学傧息资源的 教学软件系统”,它不只是在技术上把教学资源素材麾和多媒体著作平台简单叠 加,聪是积件霹与积件组合平台的有机结合,其中积件痒中的多媒体教学资料 库、微教学革元库、瓷料呈现方式库、教与学策略库、嘲上环境积件瓷源库,为 师生利用积件组合平台制作教学软件提供了充足的素材来源和多种有效途径。它 具有如下的祷点: 1 ,适用面宽广,能发挥人的主体性。积件将教学信息资源与数学思想、教法、 学习理论稳结合静主动权交给了筛生,成为大多数教筛稻学生教学活动静 工具。 2 积侔其有离度懿灵活性稻可重组瞧。使滔者可棂掇警己瓣褥要,攘敬章鬟 拳中 的内容。 3 获件与教誊季敝本无关注。穰 牟是以知识点为分类线索,这群,无论教材漂稳体 系如何变化,教材版本如何变化,积件都可被教师应用于当前教学活动中。 4 。萎元蛙与露积蛙。教学资源素摇念是基本,瓣加载遮赛约寒条传愈少,其重缝 的可能性就愈大。 5 。积件款内容可不凝进行更毅帮增添。积 孛黥素材来源_ 广泛,取材鸯易。剥翅 计算机多媒体技术,我们可以选取各种媒体的素材,如电视节目、录像带、光 盘、录音带、图片、照片、文字等,与教学教材有关的内容都可 乍为素材收 集下来。这样不但能扩大教学信息量,也能对积件不断更新和补充。 1 2 基于积件思想的素材库资源建设 有了积件,只是说有了信息素材,不等于就有了信息资源。因为通过各种渠 遒羊器方法收集泉的“倦怠素榜”绝大部分都不髓被马上篌焉露笈挥侩僮,要经过 众多专业人员的分析、筛选、加工、整理和应用信息技术的制作,提高其附加值, 跫存予鼗据瘁中,才筑霞兔毽感资溪。信息是魑富,键霞信息成秀戳共享性帮可 多次利用性为特征的信息资源还要有一个科学系统化过程。所以,只有建立基于 强馋瓣慧豹多戏体素材库,才缝实现扶信怠到瓷添载转纯。 于更辑,课t ! :、积件积多媒体索材库的府j ;| 特性,河南教育学院学报( 亡 然科学版) 第 。卷第lj 弼,第? 9 页。( 天丁积住的五个特点皆s l 了此文) 擘 遗撼豹是,长期以来,我溺重设备嚣置、辍售患资源开发数顿囱巍来扭转, 再加上信息共攀中的人为障碍和对信息市场的种种不必要的限制,这蟥因素都造 藏我国多媒钵素撼资源整体匮恶,精晶更是少之又少。笔者认必,基予积件思想 的多媒体素材库建设成该是今后很长段时间内我国c a i 多媒体教举工作中的 重点。 要解决这璺问题,单纯依靠鼓励学科教师,加快速度,多出成品,显然是不 够的。首先,豢材库的建设不是一件容易的事情,对教师的计算机技术要求愈, 设备投资也大,盲目动手,如巢质量得不蜀保证,且翁造成浪赞。另外,学秘教 师有自己的教学、科研任务,时间并不充裕。笔者认为,素材库的建设应该熏质 量,雨不是数豢,多磁精晶。掰益学秘教师亲自翻作辍易造成瀵复开笈、重复劳 动,非但没有效率,还造成了人力资源的浪费。更为合理的丌发方式怒由教育主 管部门统筹策划,由或肖实力的教育荤位橇褐整主露下建立大凝的丽络共享素枣孝 资源库,制定一系列的素材开发标准( 统一的标准是建库的前提) ,开列征集的 内容蕊国稻爨体要求,瑷诧标准对塌户疆交鹳豢栋避露分类、审核,实行有繁录 用。只有这样才能从根本上避免重复开发,重复劳动。即保证素材的制作水凇, 逐提嘉了开发嚣铡 睾蠢懿积极毪。 1 3 个人素材管理软件 原始的素材都是零散的、琐碎的、甚至是不成形的,人们并不总燕马上就要 用到它们,但把它们变接存放在网络资源痒中娃然又不太合适,于是很多的人的 硬盘曼就这样杂乱无帝的堆积着大量的原始资料。久而久之,想从中套找到有用 信息便会十分困难,甚至连自已是否搠有该方面的素材都搞不清楚,爨别说高效 查找了。予怒,我们不禁要闯,有没有一种方便侠穗的素誊孝管理软件,来帮勃 用户究成这些任务呢? 再者,网络资源爵丰富,毕竟及不上本氇爨潺来鹈获取方便,所以说,小鳖 的素材管理软件或个人素材库极具实嗣价值和现实意义,它们是人们在工作、生 活中不可或簸的鲟帮手。它们既能独立静完成糖当一部分素材的分类管理工 乍, 同时又为大型的网络索材资源库的建立打下基础,是资源由量变到质变积累过程 中静岿然过渡。 笔者认为,优秀的个人素材管理软件应该具备如下的特点:1 ) 便捷性。能 用最少步骤完成特定经务,如是动建立本地数据瘁,数爨捡索准确、方便。! ) 兼 容性。对不同格式、属性、大小的媒体都能兼容。3 ) 系统化。采用系统的分类 拓准和科学的管理手段,为 三| 廷入瘴具备条件。4 ) 高效性。除了麓完成资源管理 器所提供常舰认为以外,还提供多种商效实用的功能。如刘媒体素材或信息胍性 的批量操作。5 ) 智能化。在自动化的基础之上力求高水平的智能化,如实现划素 材自动分类和模糊查询等。 谈到自动分类,人们可能会想到离线m l j , f - i :收发软件( 如o u t l o o k 、f o x m a i j ) 的“过滤器”- g j 能,它让用户通过建立规则来对t t l l j f t :进行自动分类和筛选。这就 是一种自动化的分类方法,其本质是基于关键词的分类技术,它对文本资料或媒 体素材的分类整理同样适用。不过单纯靠这种分类手段有很多局限性。首先它不 符合人类的思维习惯:其次,它要求分类对象事先已经存在关键词表;最重要的 赴它不能判断基于同义词或棚关词的棚似内容。有没有“聪明”一、i 的的分类力 法呢? 答案当然是肯定的,这便是人工智能研究在自然语言处理领域中的自动文 本分类技术。 1 4 人工智能技术在教育领域的应用 一、应用的可能性 一谈到人工智能很多人都会马上联想的哪些十分i j u 沿的高科技领域,于是一 种商不可攀的敬畏心理山然而生。笔者认为大可不必,事实上人工智能简单的说 就是通过人工来实现智能。按照笔者的理解,即通过设计智能系统,来完成过去 只能山人脑完成的任务。人工钳能研究的对象都是f i 常生活中常见的,但还没有 被明确解决的问题。如:自然语言理解、物体识别以及处理常谚 性问题等。机器 处理这些问题的能力在某些方面不如人类。但反过来说,一旦题被解决,它也 就不i 耳属于人工智能的范畴。正如7 0 年代人们把文字以别看成是人工智能,随 着o c r 技术的普及,现在已经没有人这样认为了。这就况f 删人工智能其实并:j j _ 望而不可及,它研究的对象就在我们身边,很多的技术性问题解决只是个时川问 题,随着现代化进程的加速,已指闩可待了。 二、应用的必要性 鉴于以上的可能性我们没有理山回避人工智能。相反,笔者认为在当 m 乃至今后很长一段时划内,将人工智能技术与教学实际相结合,对促进教学改革, 捉高工作效率具有极其重要的意义。 随着当代课程改革的推进,很多人都提“减负”,学生需要减负,教师也需 要。我们都知道,仪作业和试卷批改这一项就花了教师相当一部分时间。然而仃 没有可能在不影响作业批改质量的前提下,节省一点老师的时间呢? 笔者认为足 这是可以实现的。作业或试卷般包括客观题或主观题两类。对于客观题,只需 让学生提交电子稿就完全可以让计算机批改,并将结果传给教师。对于主观题, 如作文,计算机的处理能力虽然有限,但仍可有所作为:当然前提还是要学生提 交电子稿。有人认为让学生用键盘输入,不利于学生书写、语言能力的培养,那 么折中的办法是让学生先手写后再通过o c r 系统来进行文字识别,这样做的好处 从另一个角度也可以说是以一种客观的标准来检验学生文字书写的规范性。教师 拿到电子稿以后,用计算机对其进行预处理,包括统计上交份数、给出缺交者名 单,将作业中所有类同部分归类。教师对同样的内容只需作一遍批改,并在批改 后给出学生成绩的分布情况,个人成绩发展指数等各项指标。经过上面提高系列 的自动化处理,教师在作业批改中的工作量已经降到最低限度,但批改的质量只 高不低。当然这早谈到的计算机辅助作业批改只是应用一个方面,实现做起来也 会有诸多现实中的困难,但不管怎么说,只有将计算机自动化乃至人工智能技术 应用到教学实践中,才能把最大限度地提高教师的工作效率,把“减负”落到实 处。 当f 我们都大力提倡研究性学习、自主探究,以此来培养学生发现问题、思 考问题、解决问题的能力。为了适应这一培养目标的要求,教师们迫切需要寻找 研究课题的切入点,人工智能领域的很多研究方向与实际生活紧密联系,同时又 需要跨学科知识的综合运用,所以说是发掘新课题,产生新思路,学习新方法的 聚宝盆。对这一领域的探索,需将理论知识与实际知识紧密联系,从提高教师的 自身素质和科研能力角度来说也大有裨益。 综上所述,未来的社会是信息社会,未来的主导技术是信息技术。未来的教 育技术是以信息技术为基础的教育技术。智能化是信息技术发展的重要方向之一 也是计算机辅助教学发展到一定程度的必然要求。实际上只有把人工智能技术应 用于教学中,才可能使计算机辅助教学真正实现因材施教,使教育跟上时代的 步伐。 第2 章关键性技术综述 本章较为详细介绍了自动文本分类技术的知u 7 景,内容主要是他人的研 究成果和这一领域的最新动态,它们足笔者本课题研究的丛础,在此所有对这些 工作做出努力的人们表示感跗。 2 1 智能文本分类技术 2 1 1 文本分类技术概述 文本分类是指根据文本的内容确定其所属类别的过程。早j l i j 的文本分类过程 主要是基于知识工程的分类方法,即山专业人员手工编写分类规则来指导分类。 9 0 年代以来,随着以互联网为代表的信息技术和通讯技术的迅猛发展,绝- 人多 数文字信息都丌始以数字化形式存在,并且其数量每天都在暴涨。在这种情况下, h 传统的人工分类方法不仅耗费了大量的人力资源而n 效率低下,这就使得川计 算机来代替人力进行文本自动分类显得尤为必要,山此一种全新的以机器学列为 基础的自动文本分类技术应运而生,也即智能文本分类技术。它的出现逐渐l ) ( 代 了原柬的知识工程分类方法,成为人工智能和信息处理领域的重要研究方向。下 丽我就剥其基本思想、原理及方法作一个简要的介绍。 首先,计算机并不具有人类的智能,人在阅读文章后,根据自身的知识背景 对文章产生一定的认识,而计算机不能。但这却不等于说计算机在这方面无能为 力,根据“贝叶斯假设”,假定组成文本的字或词在确定文本类别的作用上村i 互 独立,这样,可以就使用文本中出现的字或词的集合来代替文本,不言丽喻,这 将丢失大量关于文章内容的信息,但是这种假设可以使文本的表示和处理形式 化,并且可以在文本分类中取得较好的效果。 2 1 2 文本的表示 目前,在信息处理方向上,文本的表示主要采刚向量空i h j 模型( v s m ) 。f 句量 本章内容为他人的研究成果其中2 1 4 2 1 6 容源丁:庞剑锋h 东波自硕,丛- 向量空间模型的文本自动分类系统的研究与实现,计算机戍心研究,2 0 0 1 年第9 期,第2 3 页 ,跏l j 模型最早是i us a l t o n 莉lm c g i ll 在1 9 8 3 年针刈ms 空叫信息检索范例 ( v e c t o rs p a c ei n f o r m a t i o nr e t r i e v a lp a r a d i m g m ) 所提出的文档特征表示方 法。多年来由于其很好的实际效果,一直被广泛采j j 。 向量空间模型的基本思想是以向量来表示文本:( w 1 ,w 2 ,w 3 w n ) ,其r 1 w i 为第i 个特征项的权重,那么选取什么作为特征项| ! j i i ,一般可以选择字、硼或 硐组,根据实验结果,普遍认为选l 玟词作为特征项要优于字和词组,因此,要将 文本表示为向量空ml 1 1 的一个向量,就首先要将文本分词,山这些词作为向点 :| ! | q 维数来表示文本,最初的向量表示完全是0 、l 形式,即,如果文本中出现了该 同,那么文本向量的该维为l ,否则为0 。这种方法无法体现这个词在文本t fr 的 作用程度,所以0 、1 逐渐被更精确的词频代替,词频分为绝对词频和斗 l 对训频, 绝对硼频,即使用词在文本,1 ,出现的频率表示文本,相对词频为! j 二l 一化的词频, 其计算方法主要运用t f - i d f 公式, 1 前存在多种1 卜i d f 公式,一种比较普遍 的t f i d f 公式为: ( ,厅) :;丝坐堕丝丝垫! 竺 脚咖,厅) l o g ( n n ,+ 0 0 1 ) 2 其- h w ( t ,孑) 为词在文本厅r p 的权重,而t j ( ,厅) 为词f 在文本;7 。| 的渊频,为训练文本的总数,托为训练文本集。 ,出现t 的文本数,分母为9 一化因予。另外还存在其他的t f i d r 公式,例如: ( ,厅) _ ! ! 兰塑! 丝:型! 堕垡些丝! 脚l l + l o g :矿( ) ) l o g :( | v h t ) j 2 该公式叫】参数的含义与上式相同。 当然,上面所介绍的向量空f 1 ;i j 模型 t :- - 1 1 3 完美无缺,一个明显的缺陷是,山于 使用文本特征词作为向量,因此向量的维数很大,v a p r ik 等人根据统计学习理 沦提出的支持向量模型( s v m s ) 就是在原有向量模型基础之上的改进。 2 1 3 中文文本分词算法 我们都知道,英文中词与词之问l 自空格分丌,而中文则没有,于是如何f f | l 定 一个中文句子中到底包含t ? 日i i 些词,这是为我们在进行任何文档处理i j 口首先必须 解决的问题,这就是所谓的分词或切词。至于到底什么是词? 中文中到底有多少 个词? 语苦家们至今仍在争沦,我们就姑且不去细究吧。 基于统计的分词。这种方法首先切分出与词表匹配的所有可能的词,这种切 分力。法称为“全切分”,运用统计语吉模型和决策算法决定最优的切分结果。这 种方法的优点足可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决 于统计语言模型的精度和决策算法。需要大量的标注语料,并且分词速度也i 矾搜 索空删的增大而有所缓慢。 迄今为止,学者们提出了数十种分词方案,这些算法大致有两种思路:种 是基于舰则的分词( 即基于嗣表的分词) 。其中应最广泛的是最大匹配( m m ) 法。陔方法依据一个分词词表和一个基本的切分评估原则,即“长词优先”原则, 来进行分词。这种评估原则虽然在大多数情况下是合理的,但也会引发一些切分 错误。这种切分方法,需要最少的语吉资源( 仪需一个词表,不需要任何训法j 句法、语义知识) ,程序实现简即,丌发周期短,足一个简单实刚的方法。此 外,基于规则的分词算法还有:逆向最大匹配( r m m ) 、逐词历遍、最少分洲、 词频统计等。 另一种叫基于统计的分词( 即丛二t 二语料库的) 。它足利用涮语句予中的语法 和语义信息从大量的语料中找出汉字词组的结合特性来进行评价。如神经刚神经 元网络法。它们从不同角度模拟了人类的分词行为,使分词精度大大提高。这种 方法的优点是可以发现所有的切分歧义,解决歧义的方法很大程度上取决于统计 语言模型的精度和决策算法。缺点是需要大量的标注语料,并且分词速度也因搜 索空n - j 的增大而有所缓慢。 但山于汉语句子的复杂性和吲有的歧义性,是j n 在消除歧义和解决未登录 词分词等深入领域仍处于探索阶段。从目前看,任何一种单一的分词方案部无法 完美解决汉语分词问题。“人类的分词行为往往足在多种方法f i ! y l j 之下完成的。 因此,在一个系统t f ,将多种方案结合使用优势互补,将是汉语分词的必然趋势”。 大部分实际运用的分词算法都结合这两种思路,以基于规则分词为基础,辅以基 于统计分词来进行歧义处理,0 f f i c e 2 0 0 0 中文版t 1 ,的基本模块w b 2 0 0 0 就属 i 这 一类型。 目前国内在该领域处于领先地位的,是中国科学院计算技术研究所丌发的汉 语词法分析系统i c l c l a s ,该系统的有中文分词、词性标注、未登录词识别三大 功能。分词诉确率高达9 7 以上,未登录词识别召回率均高于9 0 ,其中中蚓人 名的识别召回率接近9 8 ,在2 0 0 2 年7 月6 日9 :0 0 一1 6 :0 0 中科院自动化所模式 识别国家重点实验室举行的9 7 3 机器翻译评测中获得了筇一名,笔者在试用厉觉 得效果的确令人满意。 就本课题而言+ ,笔者想要实现对文本的自动分类,就彳i 得不对文本进行预处 理,从文本中提取特征向量。受客观条件的限制,笔者手边既没有现成的分词模 块接口,也没有合适的分词词典,自己收集整理分词词典显然又不太现实,如何 刘挺王开铸,天于歧义字段切分的思考与实验,中文信息学报,j 9 9 8 j t z l 2 月 解决这一难题呢?经过思考,笔7 1 , 设计了一个无j “叫兆f j 0 简单易行z p 文文小拙 阔算法( 洋 s l l l 内容将在第三章中介绍) 。避丌7 x d - , i ;义分i l , j 的难题,当然如果有 词典支持,效果会更好,这一工作将有待今后完成。 2 1 4 特征值抽取算法 特征抽取是文本分类中的关键问题,它具有降低向量空叫维数、简化计算、 等作用。根据某个特征评分函数计算各个特征的评分,然后按评分值排序,选取 若干个构成文本的词汇,数量是相当大的,因此,表示文本的向量空间的维数也 相当大,可以达到) l j d 维,r lj l l :我们需要进行维数压缩的工作,这样做的目的主 要有两个,第一,为了提高程序的效率,提高运行速度,第二,所有几力个训汇 对文本分类的意义是不同的,一些通j 1 j 的、各个类别都普遍存在的词汇对分类的 贞i 缺小,在某特定类中出现比重大而在其他类中出现比重小的i q t e x , j 文本分类的 贞献火,为了提商分类精度,刈十每一类,我们应去除那些表现力不强的i qt i :, 筛选出t t + 刘该类的特征项集合,存在多种筛选特a l i 项的算法,如下所列: 根据词和类别的互信息量判断 根据词熵判断 根据k l 距离判断 词和类别的互信息量的其算法过程如下所列: 1 初始情况下,该特征项集合包含所有该类中出现的词。 2 对于骱吼计骊嗍婀信息鼬g ( 等 姚p ( l c ,) 2 i + 面z i :i 甄n ( w , d , ) ,p ( w i c j ) 为w 在c ,【嗍 的比重,为该类的训练文本数,n ( w ,d ,) 为测在矿i 的词频,l v i 为总词数,翌型( 彬,z ) 为该类所有词的涧频和。 而p ( w ) 同上面的计算公式相同,只是计算词在所有训练文本l - | _ | 的比重,其 中,为全体训练文本数。 3 对于该类中所有的词,依掘上面计算的互信息量f l l - j 芋。 4 抽耿一定数量的词作为特征项,具体需要抽取多少维的特征项,1 5 1 前无很好 的解决方法,一般采用先定仞始值,然后根据实验测试和统计结果确定最佳 值,一般移j 始值定在几千左右。 1 6 5 将俅类i i ,所有的洲练文奉,袱掘= n l i l d ( 的特征项,进行m 最维数瓜缩,梢简阳 量表示。 其他抽瞅特征项的算法,除判断函数上有所差别,主要过程类似。 2 1 5 分类器的构建 训练方法和分类算法是分类系统的核心部分,日f j h 存在多种基于向量空州模 型的训练算法和分类算法,例如,支持向量机算法、神经网络方法,最大平均熵, 力法,最近k 邻届方法和贝| 卟斯方法等等,本文以卜具体介绍三种分类算法: 简单向量距离分类法 该方法的分类思路十分简单,根据算术平均为每类文本集生成一个代表该类 的中心向量,然后在新文本来到时,确定新文本向量,计算陔向量与每类中心向 点 n u 的距离( 相似度) ,最后判定文本属于与文本距离最近的类,具体步骤如下: 1 计算每类文本集的中心向量,计算方法为所有训练文本向量简单的算术j l ,_ 均 2 新文本到来后,分词,将文本表示为特征向量 3 计算新文本特征向量和每类中心向量j 、j 的相似度,公式为: 旦 嘭* t ! i 一 、( 蔷m 崂) ( 荟m 吆) 其中,d 为新文本的特征向量,d ,为第类的中心向量,为特征阳量 的维数,为向量的第厅维。 4 比较每类中心向量与新文本的相似度,将文本分到相似度最大的那个类别- l 。 贝叶斯算法 该算法的基本思路是计算文本属于类别的概率,文本属于类别的几率等1 :文 本中每个词属于类别的几率的综合表达式,具体算法步骤如下: 1 计算特征词属于每个类别的儿率向量,( w 。,w :,w ,w 。) 其中,w 。= p ( fc ,) 的公式相同 裂掣盟一川揪式驯瓤信息量 矿| + 巴2 | ( 眠,d ,) 一一 2 赴新文本剑达| ”,根据特征词分词,然后按下埘的公式计算该文本c ,心r 类c 的几率: e ( c ,i 毋) n ( 帆1e ,;矿删 :p ( c ,1 舀) 兀o ( i c ,;矿h “ 其中,p ( c ji 百) = 急蒜,p ( c ,l 百) 为棚似含义,i c l 为类的总数 ( ,d ,) 为岷在d ,。内词频,7 为特征训总数。 3 比较新文本属于所有类的儿率,将文本分到凡率最大的那个类别。p 。 k n n ( k 最近邻居) 算法 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距 离最近( 最相似) 的k 篇文本,根据这k 篇文本所属的类别判定新文本所属的 类别,具体的算法步骤如下: 1 根据特征项集合重新描述训练文本向量 2 在新文本到达后,根据特征诃分词新文本,确定新文本的向量表示 3 在训练文本集叫】选出与新文本最相似的k 个文本,计算公式为: m k = l j ( 善w 2 蔷w 2 j 村“ 其中,k 值的五j 0 定目前没有很好的方法,一股采j h 先定一个初始值,然 后根 居实验测试的结果调整k 值,一般初始值定为几百到儿千之间。 4 在新文本的k 个邻届中,依次计算每类的权重,计算公式如下: p ( 哥,c ,) = 2 s i m ( y :,d ) y ( d ,c ,) d t k h “ 其中,j 为新文本的特征向量,s i m ( x ,a ) 为相似度计算公式,与上一步骤 的计算公式相1 司,而y ( 厅,c ,) 为类别属性函数,即,如果厅,属于类c , 那么函数值为l ,否则为0 。 5 比较类的权重,将文本分到权重最大的那个类别r ,。 除此以外,支持向量机和神经网络算法在文本分类系统中应用得也较为广泛 支持向量机的挂木思想是使j ”阳竹的线形分类器划分样本空间。划j :在当前柚征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年互联网企业校招面试常见问题与答案
- 2025年电梯安全管理制度
- 轻型钢结构安装与调试方案
- 屠宰场选址与环境影响评估
- 分布式光伏电力调度与优化方案
- 电商售后服务质量提升策略2025年研究报告:售后服务培训与发展
- 废弃矿井资源再利用技术产业政策环境与市场前景分析报告
- 2025年城市轨道交通建设与智能化运营优化研究报告
- 部编版人教版四年级语文上册课时分配计划
- 2025-2030年技术创新驱动的风电市场潜力分析报告:聚焦新能源应用场景
- 【MOOC答案】《学术英语读写》(华中科技大学)章节测验作业网课答案
- 2024(统编版)语文六年级上册 开学第一课 课件
- 招标代理服务服务方案
- 水磨石地面施工技术交底(工程科)
- 手拉葫芦室内钢梁吊装方案
- DB15T 2416-2021蒙餐 风干羊背子
- 中国文化概论 第1章 中国文化的历史地理环境课件
- 危险源登记检查及记录表
- 科研诚信课件
- 2021版特种设备目录
- 中南大学2021年《结构力学(下)》期末考试试卷
评论
0/150
提交评论