




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)中文邮件语料库建设.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
巾文邮件语料库建设卜文摘型 中文邮件语料库建设 中文摘要 目前,随着网络的发展,电子邮件已成为人们生活快速、便捷的重要通信手段 之,人们通过电子邮件的往来日益频繁,每天都要处理大量的邮件,所以迫切需 要对邮件进行分类处理。在另一方面,大量文本分类技术应用于邮件分类中,但目 前并未有公开的中文邮件分类语料库,实验者都是在自己收集的语料上做实验得出 结论。且分类算法的分类性能在某种程度上与训练语料库相关,好的或高质量的训 练语料库可能会导致分类器得到好的分类性能。 基于以上观点,本文通过对邮件分类、聚类等技术的研究,提出了建设一个多 类别、动态的、自动与手工相结合的中文邮件语料库系统。 首先,本文分析了现有邮件语料库的情况,结合语料库的基本知识提出了构建 中文邮件语料库的框架,并给出了邮件的处理流程。其次,面对一系列收集的m i m e 格式邮件,结合邮件的格式对邮件进行解析,提取出相应字段的内容。为了丰富语 料信息,以及更好地进行邮件的分类和聚类操作,对邮件进行了一系列的预处理。 再次,针对邮件的特点,在构造邮件表示模型时,从邮件头部字段抽取了一系列的 | i f | j 件特征用以分类。本文将最大熵模型用于邮件分类中,比较了多种特征组合方式、 特征数、迭代数、层次分类及直接分类的分类效果。根据实验结果选择合适的分类 改置。然后,本文描述了传统的文本聚类技术,并根据本系统的需要,提出了基于 可到达路径的聚类算法,实验表明该算法可以较好地对邮件进行聚类,减少用户的 人工干预。最后,在对邮件语料库进行属性描述后,采用语料添加算法来选择新的 邮件语料,从而保证整个语料库具有一定质量。 关键词:中文邮件语料库,邮件分类,最大熵模型,邮件聚类,语料添加 作者:李军辉 指导老师:钱培德 c o n s t r u c t i o no fc h i n e s ee m a i lc o r p u s a b s t r a c t n o w a d a y sw i t ht h eg r e a td e v e l o p m e n to ft h ei n t e r n e t ,e m a i lh a sb e e nb e c o m i n gm o r e a n dm o r ei m p o r t a n ti nh u m a n sl i f ef o ri t sc e l e r i t ya n dc o n v e n i e n c e w e bs u r f e r sa r e a c c u s t o m e dt oc o m m u n i c a t et h r o u g he m a i l s ,a n dh a v et od e a lw i t hb u l k so fe m a i l s e v e r y d a y t h e r e f o r e ,i ti su r g e n tt oc l a s s i f ye m a i l si n t of o l d e r sa u t o m a t i c a l l y o nt h e o t h e rh a n d ,am a s so ft e x tc a t e g o r i z a t i o n ( t c ) t e c h n i q u e s ,s u c ha sb a y e s ,k n n ,s v m , e t c ,a r ea p p l i e dt oe m a i lc a t e g o r i z a t i o n ( e c ) ,h o w e v e r , t h e r ei sn oo p e nc h i n e s ee m a i l c o r p u sa v a i l a b l eo nt h ei n t e r n e t ,a n dr e s e a r c h e r sh a v et oc o l l e c te m a i l st h e m s e l v e st od o e x p e r i m e n t s a d d i t i o n a l ,a sf a ra sac e r t a i ne ca p p r o a c hc o n c e r n e d ,i t sp e r f o r m a n c e v a r i a t i o ni sa c c o r d i n gt ot h eu s e dt r a i n i n ge m a i lc o r p o r a ,a n da ne x c e l l e n to n eo rw i t h “h i g hq u a l i t y ”m a yr e s u l ti ns a t i s f a c t o r yo u t c o m e f o rt h a tp u r p o s et h i sp a p e rp r o p o s e shw a yt oc o n s t r u c tac h i n e s ee m a f lc o r p u ss y s t e m w i t hd i v e r s i t y , d y n a m i cp r o p e r t ya n ds e m i - a u t o m a t i o n f i r s t l y , t h ep o p u l a re m a i l - c o r p o r aa r ep r e s e n t e da sw e l la st h ei n f r a s t r u c t u r eo fc o r p u s i si n t r o d u c e d a c c o r d i n gt ot h o s ea n a l y s e s ,t h i sp a p e rp r o p o s e st h es y s t e mf r a m e w o r ka n d s h o w st h ef l o wo fe m a i lp r o p o s a l s e c o n d l y , a sd o z e n so fe m a i l sw i t hm i m ef o r m a ta r e c o l l e c t e d ,c o m p l y i n gw i t hm i m ec r i t e r i o n ,t h e ya r ep a r s e da n df i e l d s i n f o r m a t i o n i s e x t r a c t e d a n das e r i e so fo p e r a t i o n sh a v ed o n ef o re a c he m a i lf o rt h ep u r p o s eo f p r o v i d i n g m u c hr i c h e r i n f o r m a t i o n ,a v a i l i n g t o g e tb e t t e rp e r f o r m a n c eo fe m a i l c a t e g o r i z a t i o n a n dc l u s t e r i n g t h i r d l y ,w h i l e c o n s t r u c t i n g e m a i lp r e s e n t i n gm o d e l , f e a t u r e se x t r a c t e df r o me m a i lh e a d e ra r ec o l l e c t e d m a x i m u me n t r o p ym o d e li sa p p l i e d t oe m a i lc a t e g o r i z a t i o n n o to n l yt h ec a t e g o r i z a t i o nr e s u l t sc o u r s e db ye m a i lf e a t u r e f i e l d s ,t h en u m b e r so ff e a t u r e sa n di t e r a t i o na r ep r e s e n t e da n dd i s c u s s e d ,b u ta l s o t h e p e r f o r m a n c eo fh i e r a r c h yc a t e g o r i z a t i o na n dd i r e c tc a t e g o r i z a t i o n i s c o m p a r e d ,s o a p p r o p r i a t es e t t i n g sa r ed o n ea c c o r d i n gt ot h ee m p i r i c a lr e s u l t s f o u r t h l y , t r a d i t i o n a lt e x t c l u s t e r i n gt e c h n i q u e sa r ed e s c r i b e da n dan e wa p p r o a c h ,n a m e l yc l u s t e r i n ga l g o r i t h m b a s e du p o nr e a c h a b l ep a t h ,i sp r o p o s e dt oc l u s t e re m a i l s ,a n dt h ee x p e r i m e n t a lr e s u l t s s h o wt h a tt h en e w a p p r o a c h i sf i tf o re m a i lc l u s t e r i n ga n dw i l lr e d u c em a n u a l i n t e r v e n t i o n l a r g e l y f i n a l l y , b a s e du p o nt h r e ec o r p u s - p r o p e r t i e s ,c o r p u s i n c r e m e n t a l g o r i t h mi su s e dt os e l e c tn e we m a i l sf o rt h ep u r p o s eo fm a i n t a i n i n ga “h i g h q u a l i t y c o r p u s k e yw o r d s :c h i n e s ee m a i lc o r p u s ,e m a i lc a t e g o r i z a t i o n ,m a x i m u me n t r o p ym o d e l , e m a i lc l u s t e r i n g ,c o r p u s - i n c r e m e n t 【 w r i t t e nb yl ij u n h u i s u p e r v i s e db yq i a np e i d e 9 5 7 1 6 s 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文 不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏 州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作 出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本 声明的法律责任。 研究生签名:荔竖旌日期:趟:坦 学位论文使用授权声明 苏州i 大学、中国科学技术信息研究所、国家图书馆、清华大学论 文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论 文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的 保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:盈缝盛日期: 碰:( = 。也 、 导师签名:张日 期:2 照业汐 巾文邮件语料库迎设第一章序言 1 1 课题背景 第一章序言 随着社会和互联网的不断发展,电子邮件( e m a i l ) 服务以其快捷、方便、高 效及免费等优点,在人们日常生活中扮演着越来越重要的角色,人们之间大量的交 流都是通过电子邮件的形式来进行的;然而也正因为其各种优点,它也愈来愈成为 一些不法分子利用的工具,最典型的例子就是不请自来的广告等垃圾信息。其次, 人们每天都要处理大量的邮件,而且一个电子邮件信箱所接收到的邮件信息通常五 花j i , f j 的,那么如何来区分其轻重缓急并为其归类处理呢? 在某个程度上,如果我 们能够让计算机自动地对邮件分类,那么这两个问题都迎刃而解。比如,如果计算 机能识别出广告邮件,那我们就免受广告邮件的干扰;如果计算机能区分私人信件 和工作信件,我们就能很快地分出轻重缓急继而有序地处理邮件。 假如把一封邮件看作一个普通的文本( 这里暂时忽视附件、部分邮件头字段等因 素) ,邮件分类自然隶属于文本分类的范畴。文本分类是自然语言处理的一个重要的 应用领域,国内外都有很多单位在进行研究,欧美在这个领域内占有很大的优势。 在中文文本分类上,香港和台湾的起步较早,水平相对要高一些,大陆在这方面起 步相对较晚,研究中所使用的方法比较单一,主要是基于向量模型的文档相似性比 较。从文本分类的方法来看,现有的文本分类技术主要采用三种类型的方法:基 于统计的方法,基于连接的文档和基于规则的方法,其中包括决策树、回归模型、 k n n 分类、贝叶斯方法、指导规则学习、神经网络和支持向量机等。通常地,过去 在文本分类方面的研究主要是提出新的文本分类方法来得到更好的分类性能( 准确 率和召回率) 。一旦某种新的分类方法被提出,将被应用于常用的文本语料库中,并 将其分类性能与现有方法进行比较。 在另一方面,对于某种具体的文本分类方法,其分类性能也随着训练文本语料 库的不同而不同,在某些情况下相差的结果会很大。这其中说明- - rr 2 】:a ) 分类性能 在某种程度上与训练语料库相关;b ) 好的或高质量的训练语料库可能会导致分类器 得到好的分类性能。 第一章序言 中文邮件语料库建设 以上的道理同样也适用于邮件分类领域。即在邮件分类领域,很难说哪种分类 方法是最好的,不同的用户引起的分类效果差异甚至要强于由分类方法引起的。与 一般的文本训练语料库不同,邮件有它固有的特殊性,合法的、真实的邮件往往涉 及到个人隐私,所以建立邮件语料库并不像普通文本语料库一样相对简单。 a n d r o u t s o p o u l o s 、j u s t i nm a s o n 等人【3 在邮件语料库的建设上做了不少卓有成效的工 作,他们一方面从公用的邮件列表或者新闻组里获取原始邮件加以分类整理,一方 面将可能涉及个人隐私的邮件加密( 比如用整数代替词汇,并且不公开这种对应关 系) 来隐藏邮件的真实性但是又不影响试验进行。目前,公用的邮件语料库主要是 英文邮件语料, 还未有公开的中文邮件语料【4 】,英文语料用于邮件过滤的包括: l i n g s p a m 、p u i 、p u l 2 3 a 等,这些可以在h t t p :w w w i i t d e m o k r i t o s g r s k e l i - c o n t i i g d o w n l o a d s 站点下载到。以p u l 为例,p u l 中包括了4 8 1 封垃圾邮件和 6 1 8 封合法邮件,共1 0 9 9 封。为了保护隐私,邮件中的每个词汇用唯一的整数来代 替。邮件中的附件、h t m l 标记都被剔除,同一天里收到的相同垃圾邮件也只保留 一个副本。另外,整个邮件语料分成数量基本相等的1 0 份。p u l 包含4 种进行了 不同层次预处理的语料:b a r e 、l e m m 、s t o p 、l e m ms t o p ,其中b a r e 是相对原始的 语料,l e m m 进行了词根还原处理,s t o p 去掉了停用词,l e m ms t o p 既进行了词根 还原,也去掉了停用词。用于邮件分类的英文邮件语料库有e n r o nc o r p u s 5 1 ,其收 集属于同公司1 5 8 名员工的共2 0 0 3 9 9 封邮件( 指整理后,整理前为6 1 9 4 4 6 ) ,邮 件根据用户进行组织,保留用户自定义的类别结构,用户的邮件数最少的只有几封, 最多的达l 万多封,用户制定的类别数也不等,故在进行邮件分类时,多是以用户 为单元。 在认真比较和研究了目前现有的英文邮件语料库及中文邮件之后,我们发现: ( 1 ) 公开的英文邮件语沸斗用途单一,要么只适用于邮件过滤,要么只适用于邮 件分类。 : ( 2 ) l i n g s p a m 等用于邮件过滤的语料大多数来自邮件列表或新闻组,都是面向 大众的,与现实用户关系不是十分密切。且对个人的邮件进行加密,不方 便使用者自定义规则。 ( 3 ) e n r o nc o r p u s 语料库以各个用户为分类单元,分类算法在不同的用户语料 上的分类效果有时会相差很大。且对邮件语料未做预处理。 巾文邮件语料库建设第一章序言 ( 4 ) 现有的英文邮件语料都是静态语料库,随着时间的推移,用户接收的邮件 在类别、风格上等都将会产生变化。 ( 5 ) 网上提供的邮件语料几乎都是英文语料,单纯的英文语料很难适合中文环 境。对收集的中文邮件,必须对其进行语料加工,且加工的深浅在一定程 度上也反映了整个语料库的价值。 ( 6 ) 不像e n r o nc o r p u s 的用户,很多邮件用户希望邮件系统会将邮件进行归类, 但用户并不会亲自将自己邮件进行归类,且随着时间的推移,先前接收的 邮件也可能被用户永久删除。 基于以上的考虑,本文致力于中文邮件库料库的建设,充分利用收集到的各类 邮件,通过对其加工处理构建一个具有一定质量的中文邮件分类语料库,构建的 语料库将是一个动态语料库,用户可以将收集的语料不断添加到库中,系统将对新 邮件分类并检测新的邮件类别。整个过程中,对用户提供友好的管理界面。构建后 的语料库将被应用于中文邮件分类系统模型中。 1 2 课题研究目标及相关问题 本文是面对人们频繁处理大量纷繁复杂的中文邮件这一现实问题,处理的对象 是收集的各类真实邮件。基于文本数据挖掘和自然语言处理技术,采用文本分类算 法、文本聚类算法、统计语言模型知识及结合邮件的特点,提出了构建一个中文邮 件语料库系统的方案及实现。课题主要解决以下几个问题: 邮件源码的解析及预处理; 邮件分类算法分析; 邮件聚类算法分析: 训练语料的属性分析; 邮件语料的添加算法。 1 3 论文的结构 第一章序言 论述论文的研究背景与意义以及论文的主要工作。 第一章序言中文邮件语料库建设 第二章语料库介绍及系统实现框架 介绍了语料库的一些基本知识,包括语料库概述、加工、管理、规范及应用等; 以及给出了本系统的实现框架及各个流程。 第三章邮件解析及预处理 介绍了电子邮件的基本知识,包括邮件的格式及邮件头信息;由于收集的邮件 都是未经过解析的m i m e 格式的源文件,故首先得对邮件进行解析。为使能更好地 进行邮件分类及提供更丰富的邮件信息,对解析后的邮件进行预处理,预处理工作 包括分词,字符转换,信息统计等。 第四章邮件分类技术及实现 首先介绍了邮件分类( 或聚类) 的预准备邮件的表示模型。邮件表示涉及 到邮件特征、邮件标引及特征选择等技术;其次介绍了邮件分类常使用的方法,基 于规则或基于统计等:最后详细介绍了将最大熵模型应用于邮件分类中,并给出了 实验结果。 第五章邮件聚类技术及实现 介绍了传统的文本聚类方法,并提出了基于可到达路径的文本聚类方法,并将 其应用于系统中。 第六章语料库属性及邮件语料添加算法 首先对语料库的属性进行了分析,然后根据语料库属性来选择性地添加新的语 料。 第七章总结与展望 总结全文,并展望下一步需要研究的工作。 巾文邮件语料库建设第二章语料库介绍及系统实现框架 第二章语料库介绍及系统实现框架 2 1 语料库基础知识 2 1 1 概述 顾名思义,“语料库”( c o r p u s ) 是语料的仓库或者语料的集合( 6 】,作为专业术 语的语料库指的是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、 可以被计算机程序检索的、具有一定规模的语料的集合【 。经过科学选材和标注、 具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察 和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、 应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往 能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型( 8 】:( 1 ) 异 质的( h e t e r o g e n e o u s ) 没有特定的语料收集原则,广泛收集并原样存储各种语料; ( 2 ) 同质的( h o m o g e n e o u s ) :只收集同一类内容的语料;( 3 ) 系统的( s y s t e m a t i c ) : 根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一 范围内的语言事实:( 4 ) 专用的( s p e c i a l i z e d ) :只收集用于某一特定用途的语料。 除此之外,按照语料的语种,语料库也可以分成单语的( m o n o l i n g u a l ) 、双语的 ( b i l i n g u a l ) 和多语的( m u l t i l i n g u a l ) 。按照语料的采集单位,语料库又可以分为语 篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行 ( 对齐) 语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语 词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语 言对比研究。 语料库建设中涉及的主要问题包括: ( 1 )设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、 可扩展性等。 ( 2 )语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本 第二章语料库介绍及系统实现框架 中文邮件语料库建设 描述,以及各类语料的比例以保持平衡性等。 ( 3 )语料的加工:包括标注项目( 词语单位、词性、句法、语义、语体、篇章 结构等) 标记集、标注规范和加工方式。 ( 4 )语料管理系统的建设:包括数据维护( 语料录入、校对、存储、修改、删 除及语料描述信息项目管理) 、语料自动加工( 分词、标注、文本分割、 合并、标记处理等) 、用户功能( 查询、检索、统计、打印等) 。 ( 5 )语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处 理语料的算法和软件工具。 2 1 2 语料库的加工、管理和规范 ( 一) 语料的加工 一个计算机语料库的功能主要与三个因素有关,一是语料库的规模,二是语料 的分布,三是语料的加工程度。规模的大小关系到统计数据是否可靠,语料的分布 涉及统计结果的适用范围,语料加工的深度则决定这个语料库能为使用者提供什么 样的语言学信息。 加工语料主要指文本格式处理和文本描述两项工作,前者是对采集的语料文本 进行整理,转成统一的电子文本格式,例如数据库格式、x m l 文本格式等。后者是 描述每一篇语料样本的属性或特征,包括篇头描述和篇体描述。篇头描述说明整篇 语料样本的属性,例如语体、内容所属的领域、作者、写作时间、来源出处等等, 篇体描述是在文本里添加各种语言学屙性标记,对于汉语书面语语料库来说,常见 的是词语切分标记、词性标记、专有名词标记,还有某些语法特征如短语标记、子 句标记,或语义信息标记,等等。对汉语书面语语料的加工一般是从词语切分、词 性标注,到语法、语义属性标注,按顺序进行。标注的信息逐步增多,语料加工的 深度也就逐渐增加。人们通常把没有篇体描述信息的语料叫做生语料。对汉语的生 语料只能以字为单位进行检索和统计。经过词语切分处理的语料,就能以词为单位 进行检索、统计和定量分析。如果还作了词性标记,那么可以获得的语言学信息就 更多了。语料的标注如果由人来做,当然能够保证准确性,但是人工标注对处理大 规模的语料显然不够现实。所以几乎每一个大规模语料库的加工都需要借助自动化 巾文邮件语料库建设 第二章语料库介绍及系统实现框架 的手段,词语自动切分、词性自动标注等就成为备受关注的语料加工技术。 ( 二) 语料库管理系统 经过科学选材和标注、具有适当规模的语料库,还应该有一个功能齐备的管理 系统,包括数据维护( 语料录入、校对、存储、修改、删除及语料描述信息项目管 理) 、语料自动加工( 分词、标注、文本分割、合并、语料对齐、标记处理等) 、用 户服务功能( 查询、检索、统计、打印等) 。其中数据维护部分主要涉及汉字字符处 理、文本处理、文件管理等计算机程序设计技术。语料自动加工部分的主要内容是 自动分词、各种语言学属性的标注技术。 ( 三) 语料库的规范问题 语料库的规范问题主要是对语料;0 u r 而言的。汉语语料库首先遇到的规范问题 是词语切分。我国9 0 年代初发布了国家标准信息处理用现代汉语分词规范( 标 准号为g b t 1 3 7 1 5 9 2 ) 。这个规范基本上采用暂拟汉语教学语法系统中的观点, 把词定义为“最小的独立运用的语言单位”。针对汉语语素、词和词组界限不够清晰 的问题,还特别提出了“分词单位”的概念。把“分词单位”定义成“汉语信息处 理使用的具有确定的语义或语法功能的基本单位”,并且用“结合紧密、使用稳定” 的原则作为判断分词单位的标准。这样做的目的是避免关于如何界定词的争论。但 是“结合紧密、使用稳定”的原则缺少可操作性,对于自动分词研究中的具体问题 常常难有定论。于是就有了根据规范制定一个词表,用“规范+ 词表”的办法指导 分词的建议。这样在9 0 年代中期和末期,分别提出了收词4 3 5 7 0 条的信息处理用 现代汉语常用词表和收词9 万多条的信息处理用现代汉语分词词表。其中后者 是在8 亿字的大规模语料库支持下,采用“串频”、“互信息”、“相关度”等计算统 计方法,依据定量的数据分析结果辨识“分词单位”的。与此同时,语言学家也参 与t n 定这个词表的工作,他们提出的各种语言学规则,从定性分析的角度与统计 数据相互作用,最后经过人工审定,确定了9 2 8 4 3 个词目,其中一级常用词5 6 6 0 6 个,二级常用词3 6 2 3 7 个,成为目前许多自动分词系统使用的词表。 北京大学的人民日报标注语料库是目前规模最大的汉语基本标注语料库。 在它的开发过程中,各种加工规范起了关键的作用。在这些加工规范中,有词语的 切分规范,主要规定把句子的汉字串形式切分为词语序列的原则;有现代汉语词类 及标记集规范,规定切分出来的词语、短语、标点符号的类别和标识符号;有切分 第二章语料库介绍及系统实现框架 巾文邮件语料库建设 和标注相结合的规范,规定语素构成合成词的方式( 重叠、附加和复合) ;有标注规 范,规定词性标注与词库的关系,主要解决如何在上下文环境里确定兼类词的词性: 还有收词7 万余条的词库现代汉语语法信息词典。加工大规模的语料是一项浩大 的语言工程。语料标注的准确性和一致性需要靠完善、合理的词库和严谨、实用的 加工规范来保证。人民日报标注语料库的加工规范和现代汉语语法信息词典 是语言学家和信息处理专家合作,在汉语语法研究的理论和方法指导下,根据汉语 信息处理的实际需要制定和开发的。在标注大规模语料的实践中,又得到了验证和 完善。 2 1 3 语料库在语言研究中的应用 在语言研究中,语料库方法是一种经验的方法,它能提供大量的自然语言材料, 有助于研究者根据语言实际得出客观的结论,这种结论同时也是可观测和可验证的。 在计算机技术的支持下,语料库方法对语言研究的许多领域产生了越来越多的影响。 各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究, 社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、 机器翻译、言语识别与合成等领域。我国在语料库的应用上还处于起步阶段,在计 算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息 和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 语料库与自然语言信息处理有着相辅相成的关系,大规模的语料库是用统计语 言模型方法处理自然语言的基础资源。然而统计语言模型本身并不关心其建模对象 的语言学信息,它关心的只是一串符号的同现概率。譬如n 元语法模型,它只关心 句子中各种单元( 比如字、词、短语等) 近距离连接关系的概率分布,而对于许多 复杂的语言现象,它就无能为力了。在统计语言建模技术最先得到成功应用的自动 语音识别领域,语料库的开发和建设受到格外的重视,标注语料库成为不可缺少的 系统资源,就是因为,要想改进n 元语法的建模技术,必须利用语料库引入更多的 语言特征信息和统计语言数据。同样,在书面语语言信息处理领域里,语料库提供 的语言知识也越来越多地用在统计语言模型方法中。除了词语自动切分、词性自动 标注、双语语料对齐等语料加工技术以外,人们还在语料库的支持下,建立有关语 巾文邮件语料库建设第二章语料库介绍及系统实现框架 法、语义的语言知识库,开发信息抽取系统、信息检索系统、文本分类和过滤系统 并且把基于统计或实例的分析技术集成到机器翻译系统里面。 2 2 系统实现框架 2 2 1 语料库的细分 我们把整个邮件语料库分成四部分,分别为临时邮件语料库( t e m pc o r p u s ) ,聚 类邮件语料库( c l u s t e rc o r p u s ) 。垃圾邮件语料库( t r a s hc o r p u s ) ,最终邮件语料库( f i n a l c o r p u s ) 。 临时邮件语料库( t e m pc o r p u s ) :用来存放最近新收集到的邮件。所有的邮件语 料最初都存放于此。 聚类邮件语料库( c l u s t e rc o r p u s ) :用某种分类算法对临时邮件语料库中的邮件 进行分类时,如果不能对某邮件进行类别细分( 即分至“其他”类别) ,即此邮件不 属于训练邮件语料库中的任何己定义的类别,则将此邮件转入聚类邮件语料库。当 聚类邮件语料库中的邮件达到一定数量时,可对其进行聚类。用户根据聚类结果判 断是否要往语料库系统中添加新的邮件类别。 垃圾邮件语料库( t r a s hc o r p u s ) :在此垃圾邮件并不指s p a m ,而是指在预处理 过程( 包括邮件解析和分词等) 出现异常的邮件,或在后面处理过程中被发现为某 一邮件副本的邮件。或者是由用户删除的邮件。 最终邮件语料库( f i n a lc o r p u s ) :其中存放的邮件语料都是经过预处理的,都已 正确分类( 采用自动分类或手工分类) 。构建一个好的最终邮件语料库也是整个语料 库系统的目标。在对临时邮件语料库中的语料分类时,此语料库将被作为训练语料 库。 四部分语料库对应的关系如图2 1 所示。 已正确分好类的邮件以及己正确聚好类的邮件按一定的算法添加到最新邮件语 料库中,算法会选择哪些邮件可以存入最终邮件语料库中,剩下的邮件将被转移至 垃圾邮件语料库中。另外,各语料库中的邮件可以由用户手工来进行迁出及迁入, 例如用户手工将一临时邮件语料库中的语料删除( 此步将会将此邮件迁入垃圾邮件 第二章语料库介绍及系统实现框架中文邮件语料库建设 语料库) 。 2 2 2 邮件语料库的管理 图2 1 语料库细分图 根据邮件语料库进行细分结构,显然可以将邮件语料库的管理分成四个部分, 分别为临时邮件语料库管理、聚类邮件语料库管理、垃圾邮件语料库管理和最终邮 件语料库管理。 前面已经说明所有的邮件语料最初都是进入临时邮件语料库的,那么可以为每 封邮件语料标记惟一的标识符,记为e m a i l c o d e 。在本系统中,邮件标识符格式为: 用户( 邮件上传者,通常为邮件的收件人,下同) 编号+ _ + 邮件流水号。例如标 识符为“1 22 6 ”表示此邮件对应用户的编号为1 2 ,并且为此用户的第2 6 封邮件。临 时邮件语料的组织是按照用户来进行的,即任一用户的所有邮件语料保存在同一文 件夹内,此文件夹名为用户名称。结构图如图2 2 所示。 中文邮件语料库建设第二章语料库介绍及系统实现框架 图2 2 用户结构图 为了便于判定各类邮件语料库包含哪些语料,我们在数据库中设置了 t e m p e m a i l 、f i n a l e m a i l 和c l u s t e r e m a i l 表,分别用来记录临时、最终、聚类语料库中 的邮件语料。前二个表中的字段一样,如图2 3 所示。c l u s t e r e m a i l 表多了f l a g 字段。 用于标识其中间分类为垃圾邮件( s p a r e ) 或非垃圾邮件( n o n s p a m ) 。 i 璺| 2 3 表结构图 说明:在表t e m p e m a i l 中,c a t e c o d e 为“0 ”时指对应邮件未分类,“1 ”时指 对应邮件不能分类,否则为类别编号。在表c l u s t e r e m a i l 中,c a t e c o d e 为“0 ”时指 对应邮件未聚类,否则为聚类编号。在表f i n a l e m a i l 中,c a t e c o d e 指对应邮件的类 别编号。由于任一封邮件只属于四类语料库中的某一类,故上面任意两张表中 e m a i l c o d e 字段不会有交集。邮件从一类语料库转至另一语料库中也就是相应记录 在数据库表中的删除和插入。 临时邮件语料库管理管理界面如图2 4 所示。 第二章谮料库介绍及系统实现框架 中文邮件语料库建设 图2 4 临时语料厍管理界面 在管理临时邮件语料库时,分四类情况,即未分类、不能分类、已分类( 按用 户目录结构) 和已分类( 按类结构) 。 在图2 4 中,点击自动分类按钮,则调用分类模型( 见第四章介绍) 来对己选 定的邮件进行分类,其分类结果只能为两种情况:1 ) 为训练模型中的某一类;2 ) 不为训练模型中的任一类( 即分至“其他类别”) 。第二种情况我们称之为不能分类。 用户也可以对选定邮件进行手工分类。不管以哪种形式对邮件进行分类,其分类结 果都必须反映到t e m p e m a i l 表中。点击图中的删除按钮,将会把邮件从临时邮件语 料库转到垃圾邮件语料库,并在t e m p e m a i l 表中删除相应记录。 上图中,切换至按不能分类查看,其界面与图2 4 相似,只是将自动分类按钮 变成转到聚类语料库按钮,其功能是将选定的邮件从临时邮件语料加转至聚类邮件 语料库。切换到按已分类( 类结构) 查看,其界面如图2 5 所示。 巾文邮件语料库建设第二章语料库介绍及系统实现框架 图2 5 临时语料库管理界面 选定图2 5 中的一个或多个类,点击加入最终语料库按钮,此时将会按调用邮 件语料添加算法( 见第六章介绍) ,添加算法会将邮件处理为两种结尾:1 ) 添加到 最终邮件语料库中:2 ) 添加到垃圾邮件语料库中。另外,需将邮件记录从t e m p e m a i l 表中删除,同时对第一种处理结果还必须在t i n a l e m a i l 表中插入一条记录。 聚类邮件语料库管理管理界面如图2 6 所示。 图2 6 聚类语料库管理界面 在管理聚类邮件语料库时,分两种情况,即未聚类和已聚类。 在图2 5 中,点击自动聚类按钮,则系统会自动对聚类邮件语料库中未聚类的 第二章语料埠介绍及系统实现框架 巾文邮件语料库建设 语料按照某聚类算法( 见第五章介绍) 进行聚类。用户也可以手工将选择的语料进 行聚类,或对其进行手工分类。不管以哪种形式对语料进行操作,其处理结果都必 须反应到数据库相应的表格。 最终邮件语料库管理管理界面如图2 7 所示。 2 2 3 邮件处理流程 圈2 7 最终语料库管理界面 新收集到的邮件语料首先经过解析及分词等预处理,然后对每封邮件进行向量 化,生成的向量文件由分类器进行分类,分类结果有两种可能:1 ) 归类成功,即将 邮件的类别判定为训练集中的某一类,此时将得到已归类邮件集;2 ) 归类失败。即 判断邮件的类别不属于训练集的任一类别,此时将得到待归类邮件集。待归类邮件 集将会被转移至聚类邮件语料库,由聚类器对聚类邮件语料库中的语料进行聚类, 此时将得到已聚类邮件集。已归类的邮件集或已聚类的邮件集将会按照一定的添加 算法将其添加到最终邮件语料库中。其摧个处理流程如图2 8 所示。 其中图2 8 中的每一步用户都可以进行干预,例如虽然分类器可能对某一邮件 归类失败,但用户可以对分类结果进行调整,即将归类失败的邮件归至某一类;同 样,用户也可调憨归类的结果,将邮件从a 类转至b 类。 4 巾文邮件语料库建设第二章语料库介绍及系统实现框架 2 3 本章小结 添加算法添加算法 l 匮垂一 图2 8 邮件处理流程图 本章开始对语料库基本知识进行了概述,介绍了中文语料库加工的一些基本问 题及其规范,并对语料库的管理及应用做了简单的介绍;本章后部分重点描述了构 建中文邮件语料库系统的框架,将整个邮件语料库划分为四个部分:临时邮件语料 库、聚类邮件语料库、垃圾邮件语料库和最终邮件语料库( 见图2 1 ) ;接下来,本 章给出了邮件处理的流程图( 见图2 8 ) ,从流程图可以看出,系统的主要相关技术 包括: 邮件解析器及预处理: 邮件分类器的构建: 邮件聚类器的构建: 邮件语料的添加算法: 本文其他章节将分别介绍这些技术。 第三章邮件解折及预处理 中文邮件语料库建设 第三章邮件解析及预处理 3 1 电子邮件基本知识 3 1 1 邮件的格式 为了让邮件能够顺利地在i n t e m e t 上传送,能够被不同的邮件服务器正确识别, 并且在各种各样的终端上显示出来,就需要遵循一定的格式。邮件的格式在r f c 8 2 2 中加以定义。在用户看来,邮件的结构是非常简单的,其格式9 】f 1 0 】一般为图3 1 所示。 图3 1 邮件基本格式图 其中l 4 行为邮件的信头( m e s s a g eh e a d e r ) ,6 1 0 行描述邮件要表达的内容, 称为信体( m e s s a g eb o d y ) ,第5 行是空行,根据r f c 8 2 2 的要求,信头与信体之间 必须加入一空行。 电子邮件由一个基本的信封( 定义在r f c 8 2 1 ) 、一些头字段、一个空行和消息 主体组成。每个头字段由一行a s c i i 文本组成,包括字段名、冒号以及字段值。 r f c 8 2 2 为信头定义了2 0 多个标准的字段,包括d a t a 、f r o m 、t o 、c c 等些必须 的字段和一些非必须的字段,另外,在信件的传输过程中,m u a ( 邮件用户代理) 巾文邮件语料库建设第三章邮件解析及预处理 和m t a ( 邮件传输代理) 还会在信头上加入一些路径信息,它们合在一起构成了收 到的邮件的信头部分。 按照r f c 8 2 2 的规定,邮件服务器只能发送a s c i i 码数据,那么非a s c i i 文本 信息,例如非英语文本、图片和程序是怎么发送给其他人的。为了支持各种非a s c i i 文本信息的传递,出现了一种对二进制数据进行编码的互联网标准:m i m e ( m u l t i p u r p o s ei n t e m e tm a i le x t e n s i o n s ,多用途互联网邮件扩展协议) 。m i m e 的报 文格式在r f c 2 0 4 5 和2 0 4 6 定义。m i m e 使二进制数据可以直接加到标准的r f c 8 2 2 邮件中,通过在邮件头中新增加的5 个字段来标识嵌入的二进制数据类型,处理 m i m e 邮件的软件必须能够处理5 个新字段。表3 1 介绍了这些新字段。 表3 im i m e 邮件头字段 字段描述 m i m e v e r s i o n所使用m i m e 的版本 c o n t e n t - t r a n s f e r - e n c o d i n g 将二进制数据编码为a s c i i 文本使用的编码方案 c o n t e n t i d 邮件内容的唯一标识 c o n t e n t d e s c r i p t i o n 邮件内容部分的生产简短描述 c o n t e n t - t y p e 编码数据中的内容类型 目前几乎所有的邮件服务系统都支持m i m e 标准,其中的两个关键字段是 c o n t e n t - t y p e 和c o n t e n t - t r a n s f e r e n c o d i n g 。 c o n t e n t t y p e 用于标记m i m e 邮件中包含的数据,m i m e 部分的数据通过该字 段中的两个不同的值类型和子类型来标识,格式为:t y p e s u b t y p e ;p a r a m e t e r s 。其中 类型参数t y p e 为内容的基本类型,子类型参数s u b t y p e 用来进一步定义内容类型, p a r a m e t e r s ( 以及前面的分号) 是可选的。 已定义的m i m e 顶级类型共有7 个,每个类型关联一组子类型,其数量在逐年 增长,下面是其中的5 个类型。 t e x t :t e x t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省莱西市2026届英语九上期末达标检测试题含解析
- 2026届北京市通州区九级九年级化学第一学期期中统考模拟试题含解析
- 2026届山东省滨州市名校化学九年级第一学期期末调研试题含解析
- 陕西省西安市高新二中学2026届英语九上期末经典模拟试题含解析
- 2025导游证现场考试备考试题及答案
- 2025年电力电缆安装运维工(高级)职业技能鉴定备考试题库(含答案)
- 河北省保定市2026届九年级化学第一学期期中质量跟踪监视模拟试题含解析
- 2026届吉林省辽源市东丰县小四平镇中学九上化学期中监测模拟试题含解析
- 2026届甘肃省张掖市甘州区九年级英语第一学期期末预测试题含解析
- 离婚协议图像资源集:60张精美图片素材合同
- 急性脑卒中课件
- 月度财务分析报告(3篇)
- 2025年10月自考15040习概押题及答案
- (人教版2024)八年级语文上册全册各课导学案(含答案)
- 2024年浙江省城市轨道交通行车值班员职业技能竞赛考试题库(含答案)
- 人教版九年级全册英语Unit 3大单元整体教学设计
- DL∕T 711-2019 汽轮机调节保安系统试验导则
- 《背影》阅读理解及答案4篇
- 合成生物学在生物技术中的应用
- 金属冶炼中的安全与职业健康
- 绿色建筑材料
评论
0/150
提交评论