




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)基于领域辞典的航空安全报告自动分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国民航人学硕士学位论文 摘要 随着民航事业近几年的飞速发展,如何进一步完善航空安全,成为航空各部门关注 的焦点。民航安全信息的收集、分析、传播则是改善航空安全的最有效手段之一。世界 各国和地区的民航界都非常重视民航安全信息的收集、研究和分析。 航空安全报告主要是民航从业人员包括飞行员、管制员、乘务员、机务维修人员、 保安人员以及其他相关人员针对涉及到航空器运行过程中的不安全事件或者当前航空 安全系统中存在的及潜在的矛盾和不足之处提交的不安全事件和安全隐患报告。航空安 全报告的自动分类在提高航空安全,减少安全隐患上有十分重要的作用。 论文主要研究文本分类技术及其在航空安全报告自动分类中的应用。在对航空安全 报告分类的研究现状和目前存在的问题进行系统和深入的探讨研究的基础上,本文主要 做了以下工作:使用全二分最大匹配法对航空安全报告进行分词预处理;基于分词预处 理结果,使用基于切分单元的最大匹配法生成航空安全词典;使用向量空间模型表示航 空安全报告;采用互信息方弦对高维向量空间模型进行特征提取;分别采用基于关联规 则的自动分类,k 近邻分类,贝叶斯分类等方法对航空安全报告数据进行自动分类;论 文最后给出了分别采用三种不同分类方法的分类结果对比。 实验证明,基于关联规则的自动分类的准确率高于k 近邻分类,贝叶斯分类方法, 领域词典的引入有助于提高分类准确率。在引入领域词典后基于关联的分类准确率大约 为7 0 ,贝叶斯分类方法对于小样本数据有很好的准确率,k 近邻分类效果最差,不适 于进行航空安全报告的分类。研究表明,借助文本分类的方法和技术对航空安全报告数 据进行分析,可以找出民航安全中存在的隐患规律,提高民航安全管理的科学性,具有 一定的应用前景。 关键词:航空安全报告;关联规则;领域词典;文本分词;文本分类 中国民航大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc i v i la v i a t i o nr e c e n t l yy e a r s ,h o wt oi m p r o v et h es a f e t y o fc i v i la v i a t i o nw i l lb et h ea t t e n t i o no ft h ea v i a t i o nc o m m u n i t y m o s t c o u n t r i e sa t t a c hg r e a t i m p o r t a n c et ot h ec o l l e c t i o n ,t h ea n a l y s i sa n dt h et r a n s m i s s i o no ft h ei n f o r m a t i o na b o u tc i v i l a v i a t i o ns a f e t y , w h i c hi so n eo ft h em o s te f f e c t i v em e t h o d st oi m p r o v et h es a f e t yo fc i v i l a v i a t i o n a v i a t i o ns a f e t yr e p o r ti sa v i a t i o ns a f e t yi n c i d e n t s i t u a t i o nr e p o r t ss u b m i t t e df r o mp i l o t s , c o n t r o l l e r s ,a n do t h e r s c o l l e c t i o na n da n a l y s i so ft h es u b m i t t e da v i a t i o ns a f e t yi n c i d e n t r e p o r t sw o u l dl e s s e nt h el i k e l i h o o do fa v i a t i o na c c i d e n t sa n da u t o m a t i cc l a s s i f i c a t i o no f a v i a t i o ns a f e t yr e p o r tp l a ya ni m p o r t a n tr o l e i ni m p r o v i n ga v i a t i o ns a f e t ya n dr e d u c i n g s e c u r i t yr i s k s t h i sp a p e rm a i n l yf o c u s e so nt e x tc a t e g o r i z a t i o na n di t sa p p l i c a t i o ni na v i a t i o ns a f e t y r e p o r t s o nt h eb a s i so fd i s c u s s i n gc u r r e n tc o n d i t i o na n de x i s t i n gp r o b l e m so fc i v i la v i a t i o n s a f e t yr e p o r tc a t e g o r i z a t i o n ,t h i sp a p e rm a i n l yi n v e s t i g a t e st h ef o l l o w i n gw o r k s :a c h i e v i n g c h i n e s ew o r ds e g m e n t a t i o np r e p r o c e s s i n go ft h ea v i a t i o ns a f e t yr e p o r t s ;g e n e r a t i n gt h e a v i a t i o ns a f e t yd i c t i o n a r yb ye m p l o y i n gt h er e s u l t so ft h e s e g m e n t a t i o n ;c l a s s i f y i n g a v i a t i o ns a f e t yr e p o r t sb a s e do nt h ea v i a t i o ns a f e t yd i c t i o n a r yb yu s i n gt h em e t h o d so f a s s o c i a t i o nr u l e s b a s e da u t o m a t i ct e x tc l a s s i f i c a t i o n ,k - n e a r e s tn e i g h b o rc l a s s i f i c a t i o na n d b a y e sr e s p e c t i v e l y ;d i s c u s s i n gt h ec a t e g o r i z a t i o nr e s u l t so fd i f f e r e n ta p p r o a c h e si nd e t a i l e x p e r i m e n tp r o v e st h a tt h ea u t o m a t i ca s s o c i a t i o nr u l e sf o rc l a s s i f i c a t i o no fa v i a t i o n s a f e t yr e p o r ta c h i e v eh i g h e ra c c u r a c yr a t et h a nt h ek - n e a r e s tn e i g h b o rc l a s s i f i c a t i o n ,b a y e s c l a s s i f i c a t i o nm e t h o d s ,w i t ht h ei n t r o d u c t i o no ft h ea v i a t i o ns a f e t yd i c t i o n a r y , i m p r o v e c l a s s i f i c a t i o na c c u r a c y o u rr e s e a r c hi m p l i e si ti sf e a s i b l et h a tf i n d i n go u tt h eh i d d e nt r o u b l e s r u l e so ft h ea v i a t i o nb yt h ea n a l y s i st ot h er e s u l t so ft e x tc a t e g o r i z a t i o no na v i a t i o ns a f e t y r e p o r t s ,a c c o r d i n g l yi m p r o v et h em a n a g e m e n to ft h ea v i a t i o ns a f e t ya n di ss u p p o s e dt oh a v e a g o o da p p l i c a t i o np r o s p e c t k e yw o r d s :a v i a t i o ns a f e t yr e p o r t s ;a s s o c i a t i o nr u l e s ;s p e c i a ld o m a i nl e x i c o n ;c h i n e s e w o r ds e g m e n t a t i o n ;t e x tc l a s s i f i c a t i o n l l 中国民航大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的硒究成果,也不包含为获褥中嚣琵航大学或其它教育机构的学位或证书面使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均融在论文中作了明确的说明并表示了谢意。 研究生签名:燧塞日期: 中国民航大学学位论文使用授权声明 中国民航大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印域其他复翎手段保存论文。本入电子文档的内容和 纸壤论文的内容裰一致。除在保密期内的保密论文外,允许论文被查阕_ 辩借阅,可以公布( 包 括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权中国民航大学研究生部办理。 研究生签名:旌 导舜签名:啦霉 期: 中国民航人学硕士学位论文 1 1 航空安全报告介绍 第一章绪论 航空安全报告主要是民航从业人员包括飞行员、管制员、乘务员、机务维修人员、 保安人员以及其他相关人员针对涉及到航空器运行过程中的不安全事件或者当前航空 安全系统中存在的及潜在的矛盾和不足之处提交的不安全事件和安全隐患报告,其收集 的主要目的是对报告信息进行处理与分析,及早采取预防措施,消除安全隐患,提高安 全科学管理。 早在2 0 世纪7 0 年代,美国开始建立航空安全报告系统,后来发展成为全球最早实 行的航空安全报告系统a s r s ( a v i a t i o ns a f e t yr e p o r t i n gs y s t e m ) ,并获得了很大的 , 成功。鉴于a s r s 的成功,英国、加拿大、澳大利亚、新西兰等国先后开发了适合于 其国情的保密性的航空安全报告系统,自1 9 9 9 年后我国的台湾、韩国和日本也建立了 保密航空安全报告系统。航空安全报告系统可获取大量的第一手航空安全资料,特别是 珍贵的人为因素资料,为制定有效的改正措施、开展研究工作以及制定宏观政策提供依 据。为尽快在世界范围内建立保密航空安全报告系统,上个世纪8 0 年代初在前a s r s 主 席提议下成立了国际航空安全保密系统组织i c a s s ( i n t e r n a t i o n a lc o n f i d e n t i a l a v i a t i o ns a f e t ys y s t e m ) ,致力于各国和地区的航空安全保密系统的建立,促进全世 界民航安全水平的提高。近年来,i c a s s 每年召开年会,各国与会者借此加强交流,推 广经验,研究对策,共同推进全球保密的航空安全报告系统的发展。国际民航组织也一 直积极推进此项工作,最新版的i c a o 公约附件1 3 特别建议各缔约国建立航空安全航空 安全报告系统。全球范围内的保密航空安全报告系统在提高航空安全水平方面起到了越 来越重要的作用。 1 2 航空安全报告自动分类的目的和意义 根据h e i n r i c h 金字塔理论( 如图卜1 ) ,大量的不安全事件和事故症候是严重事 故得以发生的温床。已经发生的事故和不安全事件恰好暴露了安全系统内部的缺陷,及 时收集已经发生的不安全事件和事故症候信息并对其进行挖掘分析是研究事故原因、发 现安全隐患和制定安全措旌的重要依据。 中国民航大学硕上学位论文 图1 - 1h e i n r i c h 金字塔理论示意图 错 航空安全报告自动分类的意义就是对报告集进行有序组织,把相似、相关的报告组 织在一起。传统的人工分类的做法存在许多弊端,需要专家参与指导,期间需要分类人 员具有较多的经验和知识,分类质量不一定有保证,而且周期长、费用高、效率低、不 易满足实际需要,而且存在分类结果一致性不高的问题。甚至同一个人,在不同时间做 分类也可能存在不同的结果。航空安全报告自动分类不需要过多依赖专业知识背景,效 率高,分析不受环境约束,较为客观公正,准确率高。通过自动分类可以对发生的不安 全事件和事故症候信息并对其进行挖掘分析,研究事故原因、发现安全隐患和制定安全 措施,航空安全报告的自动分类在提高航空安全,减少安全隐患上有十分重要的作用。 1 3 目前航空安全报告分类存在的问题 现在航空安全报告的分类需要大量飞行员、空管人员作为安全分析员,对飞行事故 征候及其他不安全事件进行深入分析,根据经验对飞行事故征候和不安全因素进行分 析,查出原因,提出改进措施。其分析不受环境约束,较为客观公正,收到的每份报告 要经过专人按一定的信息处理程序进行处理。但是,随着大量报告的收集,仅仅采用人 去分析,不仅耗费大量的时间和财力,同时也由于人为本身的因素可能是的结果产生一 定的误差,当数据量达到一定程度的时候,采用人力分析也成为不可能的事情旺1 。 现有的安全报告分类过程自动化程度较低,主要采用传统的数据库技术对结构化数 据进行简单的查询和统计,大量的关联分析和非结构化数据的分析工作需要分析专家花 费大量时间去完成。查询和统计可以发现简单的规律,但不能揭示数据内在的联系和潜 含的模式,而且,安全专家认为不安全事件报告中超过8 0 的有价值信息是隐藏在非结 构化数据( 事件经过的简要描述) 中,这一特征加剧了航空安全信息分析工作的复杂性。 人工分析不仅耗时耗力,而且其准确性严重依赖于分析人员的能力和经验。因此,尽管 2 中国民航大学硕士学位论文 航空安全报告包含大量有价值的信息,但对这些信息的进一步分析和挖掘应用仍面临很 大的技术挑战盯5 1 引。 1 4 论文的主要研究内容 文本自动分类是指将文本自动地分派到一个或多个预定义的类别中去。自动文本分 类技术的研究目标就是实现文本分类的自动化,以达到降低分类费用、改善分类性能( 如 提高分类精度和分类的一致性) 等目的。 针对航空安全报告目前面临的问题,论文主要研究基于文本挖掘的航空安全报告自 动分类问题。具体包括: 1 、研究文本数据的特征选择和特征表示问题,并提出适用于航空安全报告的特征 选择和特征表示方法: 2 、研究文本分词算法及其在航空安全报告预处理中的应用; 3 、研究领域词典构建方法,并提出针对航空安全报告自动分析适用的航空安全词 典构建方法; 4 、研究文本自动分类方法,并提出适用于航空安全报告的自动分类的算法。 1 5 国内外研究现状 1 5 1 文本自动分类研究现状 国外对于文本自动分类的研究开展较早,2 0 世纪5 0 年代末,美国i b m 公司鲁恩 ( h p l u h n ) 的一系列文章文献处理机械化编码和检索用的统计学方法等,对这一领 域进行了开创性的研究,提出了将词频统计的思想用于自动分类。1 9 6 0 年,m a r o n 发表 了关于自动分类的第一篇论文。随后,众多学者在这一领域进行了卓有成效的研究工作, 如k s p a r k ,g s a l t o n 以及r m n e e d h a m ,m e l e s k ,k s j o n e s 等。到1 9 6 4 年,m o s t e l l e r 和w a l l a c e 在鉴别文章作者身份的工作中开创了文本分类的新阶段,他们考虑单词、句 子长度、功能词的频率和词汇差异等特征项。到目前为止,国外的文本自动分类研究已 经从最初的可行性基础研究经历了实验性研究进入实用的阶段,并在邮件分类、电子会 议、信息过滤等方面取得了较为广泛的应用。其中较为成功的系统有麻省理工学院( m i t ) 为白宫开发的邮件分类系统:卡内基集团为路透社开发的c o n s t r u e 系统;自动分类稿件 的文本分类器;自动分类w e b 页的文本分类器;自动跟踪用户阅读兴趣的分类分析器等 等。这些系统大多数都建立在向量空间模型的基础上,看重解决特征项的选择和权重计 算方案、机器学习算法等等问题,以提高系统性能和效率口1 。 国内对于文本自动分类的研究起步比较晚,1 9 8 1 年,侯汉清教授对于计算机在文 3 中国民航大学硕士学位论文 本分类工作中的应用作了探讨,并介绍了国外计算机管理分类表、计算机分类检索、计 算机自动分类、计算机编制分类表等方面的概况。此后,我国陆续研究出一批计算机辅 助分类系统和自动分类系统。例如,广东省中山图书馆的莫少强开发的计算机辅助图书 分类系统( c - a b c ) 、清华大学吴军研制的自动分类系统、山西大学刘开瑛等人开发的金 融自动分类系统、东北大学图书馆的图书馆分类专家系统,上海交通大学王永成等研制 的基于神经网络优化算法的中文文本自动分类系统。近期研究中比较突出的是中科院的 中文文本智多星分类器,它采用多种分类方法。虽然中英文之间存在较大差异,无法直 接参照国外的研究成果,但是,随着中文信息处理技术特别是中文自动分词技术的日渐 成熟,以此为基础的中文文本分类技术的研究得到了飞速发展,在短短2 0 多年中完成 了从可行性探索到实用化阶段的转变。 1 5 2 文本自动分类技术在民航界的应用现状 国际民航界一直致力于将先进的信息处理技术和智能的数据分析方法应用到航空 安全信息分析中。美国联邦航空管理局( f e d e r a la v i a t i o na d m i n i s t r a t i o n ,简称f 从) , 美国国家航空航天局( n a t i o n a la e r o n a u t i c sa n ds p a c ea d m i n i s t r a t i o n ,简称为n a s a ) 为促进数据挖掘技术在航空安全信息分析中的应用,都先后成立了专门的研究小组从事 相关研究,同时也资助大学、科研机构从事安全信息的挖掘研究工作,并初见成效瞳1 。 m i t r e 研发中心的航空安全数据挖掘平台w o r k b e n c h 已成功应用于许多航空公司的安全 数据且被证明是高效的。m e g a p u t e r 研发中心的数据挖掘和文本挖掘平台p o l y a n a l y s t 憎也被成功用于i a t a 的安全趋势评估分析和数据交换系统安全事件报告分析,以发现结 构化和非结构化的数据中的有用模式和关联跚州朝嘲。 我国于2 0 0 4 年9 月1 6 日正式启动航空安全自愿报告系统( s i n oc o n f i d e n t i a l a v i a t i o ns a f e t y r e p o r t i n gs y s t e m 简称s c a s s ) ,s c a s s 是具有收集、分析和共享 民航安全信息功能;提供航空安全告警服务的航空安全信息系统,由它收集的报告即为 航空安全自愿报告( c o n f i d e n t i a la v i a t i o ns a f e t yr e p o r t s ) ,其主要是民航从业人员 包括飞行员、管制员、乘务员、机务维修人员、保安人员以及其他相关人员针对涉及到 航空器运行过程中的不安全事件或者当前航空安全系统中存在的及潜在的矛盾和不足 之处自愿提交的不安全事件和安全隐患报告,其收集的主要目的是对报告信息进行处理 与分析,及早采取预防措施,消除安全隐患,提高安全科学管理。目前航空安全自愿报 告系统依然处于数据收集和人力分析阶段,因此,采用数据挖掘技术对其进行深入分析 尚属空白。 4 中闺民航大学硕士学位论文 1 6 论文的组织结构 论文的其它章节组织如下: 第二章中文文本自动分类概述,重点讨论文本自动分类的主要概念、详细步骤以 及关键技术。 第三章航空安全词典的生成,重点介绍基于切分单元的最大匹配法的航空安全词 典的生成,文中给出了辞典构造的详细过程以及实验结果。 第四章航空安全报告自动分类研究,重点介绍航空安全报告的自动分类,文中分 别给出了采用基于关联规则的分类算法,朴素贝叶斯算法、k n n 算法等的航空安全自愿 报告的自动分类研究及实验结果。 第五章总结与展望,是对本文工作的总结与以及下一步工作的展望。 中国民航大学硕上学位论文 第二章中文文本自动分类概述 2 1 文本分类与文本自动分类 文本分类( t e x tc a t e g o r i z a t i o n 或t e x tc l a s s i f i c a t i o n ,缩写为t c ) 是根据给定 文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。这里 所指的文本可以是媒体新闻、科技报告、电子邮件、技术专利、网页、书籍或其中的一 部分。文本分类问题关注的文本种类,最常见的是文本所涉及的主题或话题( 如体育、 政治、经济、艺术等) ,也可以是文本的文体风格( 如流派等) ,或文本与其他事物( 如垃 圾邮件或成人网页等) 之间的联系( 相关或不相关) 盯1 。 到目前为止,绝大多数的文本分类工作还是由人工来完成的。无论是个人电子文本 的整理还是国际专利文献的分类,通常都离不开人的脑力劳动。特别是海量文本数据的 分类处理,更是需要大量熟练的相关领域内的专家参与其中。例如,美国国家医学图书 馆拥有数以百计的专业人员对图书馆购进的各种医学图书杂志进行编目和分类;而著名 国际网站y a h o o 雇佣的一百多名各个领域的专家,即使满负荷工作,也不能及时地对每 天象潮水般涌现在互联网上的新的网页进行阅读、标注和分类。 显然,传统的人工文本分类方式已远远不能满足当今社会发展的实际需要,研制与 开发能有效代替人工进行快速、准确分类的自动文本分类系统,研究和发展相应的自动 文本分类技术就显得十分迫切。 自动文本分类是指计算机将一篇文章自动地分派到一个或多个预定义的类别中去。 自动文本分类技术的研究目标就是实现文本分类的自动化,以达到降低分类费用、改善 分类性能( 如提高分类精度和分类的一致性) 等目的。 2 2 文本自动分类的类别 文本自动分类有两种基本类别: ( 1 ) 基于知识的( k n o w l e d g eb a s e d ) 自动文本分类。要研制一个适用于某个特定 领域的基于知识的自动文本分类系统,需要知识工程师和相关领域专家的通力合作。首 先,在知识工程师的大力协助下,领域专家试图用形式化的语言将自己进行文本分类时 所用到的知识或经验归纳出来,并表示为类似于“如果文本满足条件甲,那么该文本属 于类别a ”、“如果文本满足条件乙,那么该文本不属于类别b ”等分类规则的形式。 然后基于这些分类规则,建立起用于文本自动分类的专家系统。同其他专家系统一样, 用于文本自动分类的专家系统也面临着知识获取与知识表示这样一个瓶颈问题。基于知 识的自动文本分类方法又称基于规则的( r u l eb a s e d ) 的方法或符号技术( s y m b o l i c t e c h n i q u e s ) 。 6 中国民航大学硕士学位论文 ( 2 ) 基于学习的( 1 e a r n i n gb a s e d ) 自动文本分类。基于学习的自动文本分类系统 同样需要领域专家的有关知识和经验。与前者不同之处在于,此时领域专家不再需要详 细描述和解释他们是如何对文本进行分类的,而只需要根据他们掌握的有关知识或经 验,对给定的一些具体文本进行分类。这些被领域专家确定了类别的文本称作为带有标 号的样本( 1 a b e l e ds a m p l e s ) ,其所属类别称为其类别标号( c l a s sl a b e l ) 。带有标号的 样本蕴涵了领域专家掌握的有关文本分类的知识或经验,当其容量( 或样本个数) 相对于 类别个数而言达到一定程度时,利用机器学习技术即可从中自动提取出有关分类规则, 导出自动文本分类器。同基于知识的自动文本分类系统相比,基于学习的文本自动分类 方法可以大大缓解知识获取与知识表示问题。 2 3 文本自动分类的过程 如图2 1 所示,中文文本自动分类主要包括以下过程:首先对文本数据进行分词预 处理,经过分词处理后得到的是高维特征向量,要对高维特征向量进行特征选择处理, 然后选择一种特征表示方法来表示文本。然后使用训练样本对分类器进行训练,最后利 用测试数据对分类器进行结果评测口1 。 虱2 - i 文本自动分类过程 7 中国民航人学硕士学位论文 2 4 文本自动分类的关键技术 2 4 1 向量空间模型 1 、向量空间模型的概念说明 ( 1 ) 文档:泛指一般的文本或文本的片段( 段落、句群或句子) ,一般指一篇文章。 尽管文档可以是多媒体对象,但是在下面的讨论中我们只认为是文本对象,并且对文本 和文档不加以区别。 ( 2 ) 词语( 特征项) :文本的内容由一些特征项来表达,一般由文本所含有的基本语 言单位( 字、词、词组或短语等) 来表示,即文本可以表示为d o c u m e n t = d ( 1 。,i 。i 。) , 其中i 。表示各个词语。换句话说,由这些词语张开成一个向量空间,每一项表示一个维 度。 ( 3 ) 词语的权重:在一个文本中,每个特征项都被赋予了一个权重w 以表示这个特 征项在该文本中的重要程度。权重一般都以特征项的频率为基础进行计算的,比如采用 t f - i d f 公式表示。这样文本就可以表示为:d = d ( i 。,w 。,i :,w 2 i 。,w n ) ,简记为 d = d ( w 。,w 2 ,一,w n ) ,这时我们说项i 。的权重为w 。,其中1 k n 。 ( 4 ) 向量空间模型:给定一自然语言文本,我们可以把它用向量d = d ( i 。,w 。,i :,w 2 i 。,w n ) 表示,由于i 。在文本中既可以重复出现又应该有先后次序的关系,分析起来有一 定难度。为了简化分析,可以暂且不考虑i 。在文本中的先后次序并要求项之间是互异的。 这时可以把i 。,i :i 。看成是一个n 维的空间,w 。,w 2 ,w n 为相应的维上的值, 因此一个文本就可表示为n 维空间的一个向量,我们称d = d ( w 。,w 2 ,w n ) 为文本d 的 向量表示或向量空间模型。 2 、向量空间模型的优势 知识表示始终是知识处理的主要瓶颈之一,特别是在自然语言为研究对象的知识处 理和知识获取问题中更是如此。 向量空间模型在知识表示上有巨大的优势。在该模型中,文档的内容被形式化为多 维空间中的一个点,通过向量的形式来给出。也正是因为把文档以向量的形式定义到实 数域中,才使得模式识别和其他领域中各种成熟的计算方法得以采用,极大地提高了自 然语言文档的可计算性和可操作性副。 s a i t o n 等人于6 0 年代末提出了向量空间模型v s m ( v e c t o rs p a c em o d e l ) 的概念, 即使用向量表示文本,并成功应用于著名的s m a r t 系统中。该模型及相关的技术在文本 分类、自动索引、信息检索等领域得到了广泛的应用,向量空间模型己逐渐成为最简便 最高效的文本表示模型之一嘶巾。 8 中国民航大学硕上学位论文 众多学者的研究表明:向量空间模型是大规模语料库较好的表示模型,并且在大规 模真实文本处理方面( 例如,文本分类、文本检索和文本摘要) 具有强的优势。在向量空 间模型中,文本不再是字或词符号顺序连接的字符串,而成为了方便于计算机处理的向 量,语料库中所有的文本都统一在向量空间模型中,从而可以利用计算机快捷地处理它 们。虽然文本的向量化丢失了原先蕴涵的大量信息,但通过实践证明,在文本分类等文 本信息处理领域中,基于向量空间模型的信息处理系统仍然能够达到较高的性能汹1 。 2 4 2 自动分词 自动分词是基于字符串匹配的原理进行的;所谓自动分词方法,指的是汉字字符串 匹配的进行方式。 词是最小的能够独立活动的有意义的语言成分。然而,汉语文本中词与词之间却没 有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为 正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题吲。 1 、分词词典和切分规范 汉语的语素和单字词,合成词和短语之间没有清晰的界限。语言学界虽然对于词在 概念上有一个十分清晰的定义,即,“词是最小的能够独立活动的有意义的语言成分。 但从一些词典的编撰中,我们仍然可看出一些上述界限难以区分的问题。比如:“听见 “看见在很多词典中都有收录,但是有类似结构的“闻见却没有收录。在建立分词 系统词典时,仍然对于收词的标准难以把握,例如:“鸡蛋 是词,那么“鸭蛋、鹤鹑 蛋 是否也作为词收入词表? 至今为止,分词系统仍然没有一个统一的具有权威性的分 词词典作为分词依据。这不能不说是分词系统所面临的首要问题。除了分词词典,还有 一个概念值得我们注意,即“分词单位 。从计算机进行分词的过程来看,其输出的词 串我们称之为“切分单位 或“分词单位”。信息处理用现代汉语分词规范中对于 “分词单位也有一个定义:“汉语信息处理使用的、具有确定的语义或语法功能的基 本单位。包括本规范的规则限定的词和词组。 由此可见,信息处理中分词单位的定义 比传统意义上的词更宽泛些。这也就避开了理论上对于词的界定难以把握的困扰。分词 系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位 。 分词单位可以是同词表中词完全一致,也可以是包含未登录词识别以及一些词法分析的 切分单位,例如,一些人名、地名、机构名、外国人译名,应予以识别和切分。一些 动词和形容词重叠结构,如“高高大大”、“甜甜蜜蜜 等;一些附加词,如后缀,“亲 和性”、“热敏性”等:都可以作为分词单位予以识别和切分。因此,对于一个分词系 统而言,制定一个一致性的分词单位切分规范无疑也是个重要的问题。 2 、未登录词和领域词的识别 我们知道,词典中不能囊括所有的词。一方面是因为语言在不断的发展和变化,新 9 中国民航大学硕士学位论文 词会不断的出现。另一方面是因为词的衍生现象非常普遍,没有必要把所有的衍生词都 收入辞典中。特别是人名、地名、专业词等专有名词,在文本中有非常高的使用频度和 比例。而且由于未登录词和领域词引入的分词错误往往比单纯的词典切分歧义还要严 重。这就要求分词系统具有一定的未登录词识别能力,从而提高分词的正确性呻1 。 除了人名、地名的识别,我们认为,分词系统还需要有一定的词法分析能力,从而 解决衍生词和复合词等词汇平面上的问题,为进一步的中文信息处理提供坚实的基础。 3 、主要的分词算法 ( 1 ) 最大匹配法( m a x i m a lm a t c hm e t h o d 亦称删法) 其基本思想是这样的随1 ,假设自动分词词典( 或词库) 中的最长词条是i 个字,则取 被处理材料当前字符串序列中的前i 个字作为匹配字段,查找词典,若词典中存在这样 的一个i 字词,则匹配成功,匹配字段被作为一个词切分出来;如果在词典中找不到这 样一个i 字词,则匹配失败,匹配字段去掉最后一个字,剩下的字段重新进行匹配,如 此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词为止。这种分词方法, 在由北京航空学院等十多个单位协同进行的我国第一次大规模现代汉语词频统计工作 中,实现了我国第一个自动分词系统c d w s 。 ( 2 ) 逆向最大匹配( r e v e r s em a x i m a lm a t c hm e t h o d 亦称r m m 法) 其基本原理和法相同,不同的是分词切分方向。它从被处理材料的末端开始匹 配,每次取最末端的i 个字作为匹配字段,匹配失败则去掉最前面的一个字。舢法 要求配置逆序分词词典哺1 。 ( 3 ) 逐词遍历匹配法 它把词典中的词按照由长到短递减的顺序逐个搜索匹配整个代处理材料,直到把所 有的词都切分出来为止阳3 。 ( 4 ) 正向最佳匹配法和逆向最佳匹配法 最佳匹配法的出发点,是在词典中按词频的大小排列词条,以求缩短对分词词典的 搜索时间,达到最佳效果,从而降低分词的时间复杂度,以加快分词速度。实际上,这 是对分词词典预先进行的一种加工,也不是纯粹意义上的一一种分词方法嘲扣坩1 。 2 4 3 特征选择 文本自动分类问题的最大的特点和困难之一就是特征空间的高维性和文档表示向 量的稀疏性。在中文文本分类中,通常采用词条作为最小的独立语义载体,原始的特征 空间由可能出现在文章中的全部词条构成。而中文的词条总数有二十多万条,这样高维 的特征空间对于几乎所有的分类算法来说都偏大。寻求一种有效的特征抽取方法,降低 1 0 中国民航大学硕士学位论文 特征空间的维数,提高分类的效率和精度,成为文本自动分类中需要首先面对的重要问 题1 。 近年来在中文文本自动分类中使用比较多的特征抽取方法包括文档频率、互信息、 信息增益和z z 统计等。下面分别简单介绍一下这几种特征抽取的方法。 1 、文档频率 词条的文档频率是指在训练语料中出现该词条的文档数。采用文档频率作为特征抽 取是基于如下基本假设:文档频率值低于某个阈值的词条是低频词,它们不含或含有较 少的类别信息。将这样的词条从原始特征空间中移除,不但能够降低特征空间的维数, 而且可能提高分类的精度n 门n 2 1 。 文档频率是最简单的特征抽取技术,由于其具有相对于训练语料规模的线性计算复 杂度,它能够容易地被用于大规模语料统计。但是在信息抽取研究中却通常认为文档频 率值低的词条相对于文档频率值高的词条具有较多的信息量,不应该将它们完全移除。 2 、信息增益 信息增益在机器学习领域被广泛地使用。对于词条t 和文档类别c ,信息增益考察 c 中出现和不出现t 的文档数来衡量t 对于c 的信息增益。我们采用如下的定义式: ,g 一一。砟r ) l o g p ( c p ( f ) 。p ( c , l t ) l o g p ( c ;p ) + 币) 。徘, - ) l o g p ( c , f ) 其中,p ( c 。) 表示c ;类文档在语料中出现的概率,p ( t ) 表示语料中包含词条t 的文 档的概率,p ( t ) 表示语料中不包括词条t 的文档的概率,p ( c ;lt ) 自表示文档不包含词 条t 时属于c ;的条件概率,m 表示类别数n 3 1 。 3 、c h i 统计 c h i 统计方法度量词条t 和文档类别c 之间的相关程度,并假设t 和c 之间符合具 有一阶自由度的z 2 分布。词条对于某类的z 2 统计值越高,它与该类之间的相关性越大, 携带的类别也越多。令n 表示训练语料中的文档总数,c 为某一特定类别,t 表示特定 的词条,a 表示属于。类且包含t 的文档频数,b 表示不属于c 类但是包含t 的文档频 数,c 表示属于c 类但是不包含t 的文档频数,d 是即不属于c 也不包含t 的文档频数。 则t 对于c 的c h i 值由下式计算3 : z 2 0 ,c ) = 百丽两n * 面( a d 两- 酉c b ) 而2 中国民航大学硕t 学位论文 对于多类问题,分别计算t 对于每个类别的c h i 值,再用下式计算词条t 对于整个 语料的c h i 值,分别进行检验:z 一2 ( f ) = m a x :。z 2 0 ,c ,) 其中m 为类别数。从原始特征 空间中移除低于特定阈值的词条,保留高于该阈值的词条作为文档表示的特征。另一种 方法是将词条对于各个类别的平均c h i 值作为它对所有类别的c h i 值,但是它的表现不 如上式。 4 、互信息 互信息在统计语言模型中被广泛采用。如果用a 表示包含词条t 且属于类别c 的文 档频数,s 为包含t 但是不属于c 的文档频数,c 表示属于c 但是不包含t 的文档频数, n 表示语料中文档总数,t 和c 的互信息可由下式计算n 的: 脚一l 。g 西而a * n 如果t 和c 无关( 虽p e q c ) 一p ( f ) 宰p ( c ) ) ,i ( t ,c ) 值自然为零。为了将互信息应用 于多个类别,与c h i 统计的处理类似,由下式计算t 对于c 的互信 息:m 一( f ) 一m 觚三1 ,( f ,c ;) 其中i l l 为类别数。将低于特定阈值的词条从原始特征空间中 移除,降低特征空间的维数,保留高于阈值的词条n 们。 2 4 4 文本分类常用分类算法 文本分类可以用通用的数据挖掘的方法进行处理。下面介绍几种常用的方法: l 、人工神经网络: 它是采用感知算法进行分类,在此种模型中,分类知识被隐式地存储在连接的权值 上,使用迭代算法来确定权值向量,当网络输出判别正确时。权值向量保持不变,否则 进行增加或降低的调整,因此也称奖惩法。一般在神经网络分类法中包括两个部分训练 部分和测试部分,以样本的特征项构造输入神经元,特征的数量即为输入神经元的数量, 至于隐含层数量和该层神经元的数目要视实际而定。在训练部分通过对相当数量的训练 样本的训练得到训练样本输入与输出之间的关系即在不断的迭代调整过程中得到连接 权值矩阵。测试部分则是针对用户输入的待测样本的特征得到输出值即该样本的所属的 类n 5 1 。 2 、决策树: 决策树是被广泛使用的归纳学习方法之一。决策树是用样本的属性作为根节点,用 属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳 产生的。决策树的根节点是所有样本中信息量最大的属性。树的中间节点是以该节点为 中国民航大学硕士学位论文 根的子树所包含的样本子集中信息量最大的属性。决策树的叶节点是样本的类别值。决 策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根节点开始, 按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就 是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法,它排除噪音的强壮性 以及学习反义表达的能力使其更适合于文本分类。比较著名的决策树算法是i d 3 算法以 及它的后继c 4 5 、c 5 等。基本的i d 3 算法是通过自顶向下构造决策树的 1 5 1 。 3 、支持向量机: 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 最初是由v a p n i k 提出的,是一种相 对较新的机器学习方法。支持向量机的基本实现思想是:通过某种事先选择的非线性影 射把输入向量x 映射到一个高维特征空间z ,在这个空间中构造最优分类超平面。也就 是s v m 采用输入向量的非线性变换,在特征空间中,在现行决策规则集合上按照正规超 平面权值的模构造一个结构,然后选择结构中最好的元素和这个元素中最好的函数,以 达到最小化错误率的目标,实现了结构风险最小化原则n 射。 4 、规则推导: 从统计意义上对数据中的“如果一那么”规则进行寻找和推导。采用上述技术的某 些专门的分析工具己经发展了大约十年的历史,不过这些工具所面对的数据量通常较 小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统 中去了蚓。 中国民航大学硕士学位论文 第三章航空安全词典的生成 要对航空安全报告中大量的中文信息进行处理,首先需要对其进行自动分词。构造 一个好的字典,可以提高系统的模拟推理能力,以提高系统的性能,同时提高系统的效 率,在本章中将首先概述汉字编码系统和汉语词的特点,在此基础上构造了一种分词词 典,然后根据该分词词典进行了全二分快速分词处理。最后采用了一种领域词典构造方 法,利用现有比较成熟的分词技术和通用词典,对面向航空安全领域的大规模生语料进 行分词预处理,并根据领域词平均词长较长的特点使用基于切分单元的最大匹配算法, 实验结果证明该方法是行之有效的。 3 1 航空安全词典构造的基本过程 本文实现领域词典构造的基本思路是:首先人工收集一定数量的属于某领域的代表 性样本文献作为训练语料,利用通用词典对这些训练语料进行分词处理,得到切分文 档集;在此基础上,运用基于切分单元的最大匹配算法,统计出在每一篇切分文档中出 现次数大于1 的所有最长组合模式,作为候选领域词的集合;进一步利用规则对候选词 串集进行优化,过滤掉错误组合模式,生成领域词典;由于在识别领域词的同时会附带 生成少量的专有名词,如人名、地名、机构名等,所以最后还需要人工检验,从生成的 领域词典中去除这些词口1 。上述过程可以用如图3 - 1 所表示。 i 规则优化 图3 一l 航空安全词典构造基本思路 1 4 中国民航大学硕士学位论文 3 2 通用分词词典设计 对于不同的分词算法,都有其对应的分词词典。下面通过对汉字编码
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河北保定市雄安传媒有限公司招聘10人笔试参考题库附带答案详解
- 卸货平台安全培训课件
- 2025年度韩城矿业公司高校毕业生招聘86人笔试参考题库附带答案详解
- 2025年国网宁夏电力有限公司第二批招聘高校毕业生调剂笔试参考题库附带答案详解
- 2025山东威海市乳山鑫蜜客人力资源有限公司招聘书记员7人笔试参考题库附带答案详解
- 2025天津东疆综合保税区管理委员会招聘10人笔试参考题库附带答案详解
- 2025四川长虹新网科技有限责任公司招聘装调工等岗位31人笔试参考题库附带答案详解
- 2025人保财险嘉兴市分公司社会招聘3人(浙江)笔试参考题库附带答案详解
- 2025中国机械工业集团有限公司国机集团总部社会招聘19人笔试参考题库附带答案详解
- 地铁岗前安全培训课件
- 《构成设计基础》全套教学课件
- 项目初步验收汇报
- 2025年山东省济宁市电工等级低压电工作业(应急管理厅)真题(含答案)
- otc药品管理办法
- 康复医学科病历书写规范与质量控制
- 商用厨房设计汇报
- 战术搜索教学课件
- 教科版五年级科学上册第一单元《光》测试卷及答案(含四题)
- Linux操作系统基础任务式教程(慕课版)课件 任务4 使用Linux操作系统中的硬盘
- 自控系统报警管理制度
- 口腔服务5S管理
评论
0/150
提交评论