(计算机软件与理论专业论文)公安执法监督管理中的文本理解技术的研究及其应用.pdf_第1页
(计算机软件与理论专业论文)公安执法监督管理中的文本理解技术的研究及其应用.pdf_第2页
(计算机软件与理论专业论文)公安执法监督管理中的文本理解技术的研究及其应用.pdf_第3页
(计算机软件与理论专业论文)公安执法监督管理中的文本理解技术的研究及其应用.pdf_第4页
(计算机软件与理论专业论文)公安执法监督管理中的文本理解技术的研究及其应用.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕l 学位论文公安执i 去监督管理中的文本理解技术的研究及其应用 摘要 随着社会的开益信息化,人们越来越强烈地希望用自然语言同计算机交流。 自然语言理解是计算机科学中的一个富有挑战性的课题,是新一一代计算机的三大 突破i s 之一,汇受到世界各国广泛的重视,而文本理解属于自然语言理懈的应用 范畴。 当前,无论是商业企业、科研机构或者政府部门都需要处理大量的信息。如 何在这浩如烟海而又纷繁芜杂的文本中最大程度地解决信息杂乱现象,方便用户 定位信息、分流信息始终是信息处理的一大目标。本课题以公安执法领域中描述 案情的中文文本为研究对象,探讨采用自然语言理解中文本分类的方法,实现根 据文本的内容自动判别文本类别。 本文中描述了文本分类的基本原理,详细阐述了文本分类过程中各个阶段的 主要算法和技术,并对此作了一些比较。文中着重介绍了文本特征提取的改进算 法,并引入了信息提取中的常用技术潜在语义分析,实现文本向量空间的降 维,提高分类性能,并初步构建了一个法律文本自动分类系统。 关键词: 自然语音理解,文本分类,特征提取,文本理解,潜在语义分析 硕二匕学位论文:公安执法监督管理中的文本理解技术的研究及其应用 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h es o c i a li n f o r m a t i o nt e c h n o l o g y p e o p l e0 2 - es oe a g e rt o c o m m u n i c a t ew i t ht h e c o m p u t e rb y n a t u r a l l a n g u a g e n a t u r a ll a n g u a g e u n d e r s t a n d i n gi so n eo f t h em o s tc h a l l e n g i n gp r o b l e m si nt h ec o m p u t e rs c i e n c e ,a n di t i sa l s oo n eb r e a k t h r o u g ho ft h en e wg e n e r a t i o nc o m p u t e r m o r ea n dm o r ec o u n t r i e si n t h ew o r l da r ep a y i n ga t t e n t i o nt oi t sr e s e a r c h ,a n dt e x tu n d e r s t a n d i n gb e l o n g st ot h e a p p l i c a t i o n so ft h en a t u r a ll a n g u a g eu n d e r s t a n d i n g n o ws om a n yo r g a n i z a t i o n s ,n om a t t e rt h e ya r eb u s i n e s se n t e r p r i s e s ,r e s e a r c h i n s t i t u t e s ,o rg o v e r n m e n td e p a r t m e n t s ,a r ef a c i n gag r e a td e a lo fi n f o r m a t i o nt od e a l w i t h h o wt oh e l pt h eu s e r sl o c a t ea n dd e l i v e ri n f o r m a t i o ni so n eb i ga i mo f i n f o r m a t i o nm a n a g e m e n t t h er e s e a r c ho b j e c ti nt h i sp a p e ri st h ec h i n e s et e x tu s e dt o d e s c r i b et h ed e t a i l so fac a s e ,a n dw ed i s c u s s e dt h em e t h o d sf o rt e x tc l a s s i f i c a t i o ni n n a t u r a l l a n g u a g eu n d e r s t a n d i n g ,a n d r e a l i z e dt h et e x ta u t o m a t i cc l a s s i f i c a t i o n a c c o r d i n gt ot h ec o n t e n t s i nt h i sp a p e rw ed e s c r i b e dt h eb a s i cp r i n c i p l e so ft e x tc l a s s i f i c a t i o n ,m a i n a l g o r i t h m sa n dt e c h n o l o g i e si ne a c hp h a s eo ft e x tc l a s s i f i c a t i o n ,a n dt h e nm a d es o m e c o m p a r i s o n s w ei m p r o v e dt h ea l g o r i t h m o ft e x tf e a t u r ee x t r a c t i o n ,a n da l s o i n t r o d u c e dt h el a t e n ts e m a n t i ca n a l y s i su s e dt oi n f o r m a t i o ns e l e c t i o n ,w h i c hc a r t d e c r e a s et h ed i m e n s i o n s o ft e x tv e c t o r s p a c e a n di m p r o v et h ec l a s s i f i c a t i o n p e r f o r m a n c e ap r i m a r ya u t o m a t i cc l a s s i f i c a t i o ns y s t e mf o r t h e l e g a l t e x tw a s c o m p l e t e di nt h i sp a p e r w d r e nb y :l iw e n ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e dby:profw,angminf1van k e yw o r d s :n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,t e x tc l a s s i f i c a t i o n , f e a t u r ee x t r a c t i o n ,t e x ti n t e r p r e t a t i o n ,l a t e n ts e m a n t i ca n a l y s i s l l 独创性声明 璎叼8 9 9 6 9 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得南昌大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:縻夫 签字日期: :2 0 0 5 年5 月厅曰 学位论文版权使用授权书 本学位论文作者完全了解南昌土学有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权壹墨圭鲎可以 将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:夕象走 签字日期:2 1 7 巧年岁月罗日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名 立磊也 签字日期:2 卵r 年,月妒同 电话 邮编 坚主兰堡笙兰:竺塞垫堡些! 墅璺! 鲤茎查里竺楚查塑堡窒墨墨生里 第一章绪论 1 。1 课题提出的背景及其意义 当今社会是一个信息爆炸的时代,而语言文字是信息的首要载体。我们日 常工作中的信息,绝大部分是以语言文字表达、记载、传播和交换的。随着计 算机的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要 求的深度和广度越来越高,可以认为一个国家的语言文字的信息处理水平和处 理量基本上代表了这个国家进入信息社会的程度。中文信息处理技术作为一个 高新技术的重点,已经列入国务院批准的“国家中长期科学技术发展纲领”。 自然语言理解是研究计算机如何理解人类语言的学问,随着计算机功能、容量 和速度等的飞速发展,自然语言理解的研究正成为计算机科学界热门课题之一。 文本理解作为自然语言理解的一个重要的应用领域,近年来也受到了广泛的关 注。其研究成果也逐步从实验室走向了应用领域。 在前一阶段我们开发了公安网络执法监督管理系统。该系统主要是指公 安机关各执法部门充分利用计算机这一现代技术平台将案件的执法办案活动进 行数字化处理,所有案件从受理直至处结,全部实行网上操作。在项目的需求 分析阶段,用户提出现阶段法制科在办理案件中主要依靠办案人员的经验和对 相关法律条款的熟悉程度,同时办案人员对每类法律法规的熟悉程度也参差不 齐。中国不仅是世界上的人口大国,同时也是世界上的立法大国。现在已经有 包括宪法在内的重要法律法规3 0 0 0 多部,近几年更是以每周制定一部新法的速 度递增【2 】q 居于以上原因本课题提出采用自然语言理解中文本分类的技术,对 描述案情的文本进行分类,达到分流信息,减轻办案人员工作量的目的。因此 本课题具有较大的科研价值和现实意义。 1 2 文本分类的发展历史及应用前景 文本自动分类( t e x ta u t o m a t i cc l a s s i f i c a t i o n ) ,就是基于内容分析将文本自 动分配给预定的类别。 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 文本分类是自然语言处理的一个重要研究领域,但直到8 0 年代末,在文本 分类方面占主导地位的一直是基于知识工程的分类方法,即是由专业人员手工 编写分类规则来指导分类。它的主要思想是手工建造一个能进行分类决策的专 家系统。这类专家系统包括了些形如i f ( d n f 布尔表达式) t h e n 的规则。 这秘方法的典型例子是c o n s t r u e 系统【3 l 。 9 0 年代以来,随着信息存储技术和通信技术的迅速发展,大量的文字信息 开始以计算机可读形式存在,并且其数量每天仍在急剧增加。这一方面增加了 对于快速、自动的文本分类的迫切需求,另一方面又为基于机器学习的文本分 类方法准备了充分的资源 4 1 。在这种情况下,机器学习的文本分类方法逐渐替 代了知识工程的分类方法。在这种方法下,一般是通过归纳文本集的特征自动 创建一个分类器,如果系统被转换到不同的领域中,只需要通过机器学习,自 动地一个新的分类器,而不要求领域专家的介入。如y a n g 构造的近邻算法分类 器【1 0 。本文也是对采用基于机器学习的计算机自动文本分类方法进行研究。 近年来文本分类技术广泛应用于邮件过滤、文本倾向判定、网站监控、自 动文摘等方面,并取得了不少科研成果。例如中国科学院研究成功的w e bn e w s h u n t e r 智能系统能根据用户的喜好自动搜索新闻口”。 1 3 中文自动文本分类面临的困难 作为高新技术的研究热点,文本分类技术从理论的研究到产品的开发已经 走过了几十个春秋并取得了一定的进步。虽然各种新的文本分类修正算法不断 出现,但是对于中文文本分类的研究仍然难以达到理想的要求。这主要有以下 几点原因: 1 汉语作为一种意音文字是大字符集的语言,汉字总数超过五万个,即使是常 用汉字也达到了六七千个。汉语的书面语是按句连写的,词问无间隙,因此在 中文文本的处理中,首先碰到的问题是词的切分问题。而不同的切分方法可能 造成不同的理解,即通常所说的歧义切分。文本词语切分的好坏直接关系到后 续分类规则的提取。词语切分也是当前研究的热点之一。 2 汉语的语法研究尚未形成规范化,而且人们 - j 惯于约定俗成的语法。从理 想的角度来看,要对中文文本理解,需要将文本进行深入分析,产生句法、语 2 碗:芒学位论文:公安执法监督管理中的文本理解技术的研究及其应用 义和语段深层结构表示。为了达到这个目的,最少需要一个句子分析器,能够 将非受限的句子分析成为具有很好表达形式的句法和语义结构表示;需要一个 语段分析器,能够识别句子之间表达的角色、事件、状态,及其它们之间的关 系;还需要一个知识库能够包含文本中所涉及到的世界背景知识【5 】。而就目前 的研究水平面言,都缺乏这样的系统工具及知识库,并且在未来的一段时间之 内也不可能实现。 3 大规模真实语料库的建设。机器学习的一个重要前提是要求有足够的训练数 据来提取规律信息,而建设大规模的真实语料库需要较大的代价。国内外许多 研究机构花费大量的人力物力去构造规模大、分布范围广、加工深度较深的语 料库。例如,2 0 世纪7 0 年代的b i r m i n g h a m 语料库。本课题就法律领域构造 了一个居于真实案情描述的实验型语料库。 1 4 本文主要研究内容及论文组织结构 本文针对特定的法制领域研究构建一个具备优良性能的中文文本案情分类 系统。它能有效地在对测试文本理解的基础上,根据前期机器学习总结出的分 类规则,把待测试法律文本分成经济、民事、商务、刑事、行政五类,实现案 情文本信息的有效分流。其具体内容包括: f 1 1构建一个实验型法律繁隋文本语料库,并按3 :l 的比例分成训练集 和测试集。 f 2 1核心文本分类模型中类另特征的权重计算、特征向量空间降维、分 类算法的选择和改进。 ( 3 )设计与实现一个中文法律案情文本分类系统。 本课题主要考虑专门针对特定的法制领域,在用词上,法律文本强调用词 不仅要具体准确、简洁、严谨,还大量使用不带感情色彩的陈述句等,因此相 应的算法也要考虑以上这些特点。在课题研究中,选择使用c + + 语言进行程 序编写。 论文的内容安排如下: 第一章绪论主要概述了文本分类的概念、发展现状及其面临的困境a 第二章描述了文本分类的一般过程、基本原理及主要技术。 砸士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 第三章文本模型表示及预处理是文本分类的前提和基础,在这一章节中详 细描述了文本表示的几种模型,文本分词算法、去停留词( s t o pl i s t ) 及文本格式 的转换和文本模型的建立。 第四章介绍了文本特征子集的选取算法,其中重点描述了根据词和类别的 互信息量判定算法。在该章节中,提出一种改进的特征集筛选算法,简单实用。 同时为了删除噪声、提高分类器的性能,本文引入了认知科学当中的潜在语义 分析( l s a ,l a t e n ts e m a n t i ca n a l y s i s ) 方法,对文本空间进行二次降维处理。 第五章讲述了文本分类中常见算法,并着重介绍了支持向量机法( s v m , s u p p o r tv e c t o rm a c h i n e ) 、k 最近距离分类法( k n n ,k - n e a r e s t - n e i g h b o r ) ,并对实 验结果进行了对比和分析。 第六章简单描述了一个基于特定的法律领域的案情分类系统的实现,其中 应用到的技术已经在以上章节中作了详细阐述。 第七章是对论文工作的总结及未来工作展望。 4 硕士学位论文:公安执法监督管理中的文本埋解技术的研究及其应用 第二章中文文本自动分类概述 2 。1 汉语的计算机理解 2 1 1 汉语的特点及理解中的特殊问题 汉语是世界上最古老的语言之一,其语法理论与西方语言学理论有较大差 别,其本身也存在许多非常复杂的语言学问题,其特点包括:( 1 )汉语是大字 符集的语言。英语单词由2 6 个字母组成,而中文的汉字个数就超过5 万个。同 时汉语的词汇也极其丰富。( 2 )汉语可以分为五级语法单位:语素、词、短语、 句子和旬群,一般认为把第三级短语作为最基本的处理单元。 汉语理解中的特殊问题体现在:( i ) 汉语句子的歧义切分问题。中文文本实 际上是“字”的字符串,文章内的词与词之间没有任何区分字符,不同的切分 规则,常常会产生歧义,其歧义切分又可分为固有歧义和组合歧义。 ( 2 ) 未登陆词问题。其定义为汉语词典中未列入的词汇,它将是语言工程处理过 程中难以彻底解决的课题。( 3 ) 谓语的组成问题。汉语的谓语可以是动词、形容 词数词甚至是名词蟑j 。 2 1 2 法律文本的类型和特点 法律文本被列为特殊用途语言大类下独立的一类文本,这说明法律文本一 定有能够区别于其他文本的特征。 ( 1 ) 法律语言的用词必须符合法律语境,符合法律规范,用词不仅要准确、 规范,还要具有较强的概括性和包容性。具体地说,就是法律条文的用词强调 对法律术语的使用。法律术语具有词义单一性,每一个术语都表示一个特定的 法律概念,在使用时不能用其他词语代替,如“故意”不能用“存心”、“特意” 来代替;法律术语还具有对义性:许多术语都是成对出现,词义相互对立矛盾, 例如原告被告;甲方乙方。 ( 2 ) 在篇章策略上,由于法律语言用于制定和实施法律,其实用性使它具有 硕 学位论文公安执法监督管理中的文本理解技术的研究及其应用 不同于以审美愉悦为目的文艺作品,其法律性又决定了它主要以理服人而不必 以情感人,因此对生动描写和抒情是排斥的川。 2 2 文本分类问题描述 2 2 1 文本分类的定义及原理 从数学的角度来看,文本分类是个映射的过程,它将未标明类别的文本 映射到已有的类别中,用数学公式表示如下: f :a 手b 其中:a 为待分类的文本集合,b 为分类体系中的类别集合,f 为从a 到b 的映射关系,其规则是系统根据已经掌握的每类若于样本的数据信息,总结出 分类的规律性而建立的判别规则,当遇到新文本时,根据总结的规则,确定文 本相关的类别m l 。 文本分类系统是基于机器学习的过程,共分为两个阶段: 第一阶段,如表2 - i 第二列所示,表中c = c i ,c 。) 是预置的类别集合, d = ( d l ,d k ) 是训练集,其中i ) l l 练文本已经被领域专家手动预先分到各类c , 中。元素c a i j = i 表示文本d j 属于c i 类,否则不在c i 类当中。 表2 1 训练集测试集矩阵 类名训练集i 煲! f 试集 d l d k d k + l d s c 1c a l l c a l k c a l ( i 【+ 1 ) c a ! s c ; c a i l,c a ik c i t i 他+ 1 ) c a is c mc a m l c a r k c a m o r + 1 ) c a r s 该过程通过归纳训练集中每类文本的特征自动创建一个分类器。 第二阶段,应用第一步所产生的分类器,对测试集中的文本进行机器分类, 即表2 1 中第三列所示。这一步同时用来测试分类器的效果,把测试集中的每 一个文档都用机器的分类结果与领域专家的结果进行比较,就可以知道分类器 6 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 性能的好坏。一般的文本分类系统都有如图2 1 所示的结构 熊鞭勰燃渺删榔 ”1 “自动文本势类豢统示意留。鞭黔鬻g 翰、 镣。一f卜j 需 “j 、 7 i 刮黼u “j 知识工删目 i 叫“鐾划领域专家 、 b 候选类别系统决策 | 垂 、 经济案件属于 7 阻1 e l :i f ( ) e l s e 、 民事案件不属于 m l e2 :i f 0 e l s e 商务集件不属于 行政案件属于 l 礞黼 4黝出燃果 图2 - i文本分类系统结构示意图 2 2 2 文本分类的基本过程 文本分类算法主要有以下六步,本文将在后面的章节中详细进行讨论和研 究,并给出本系统所采用的方法及实现。 i 、 语料库( c o r p u s ) 的建立。这一步是一切中文信息处理的基础,是后 续工作的前提条件。语料库的研究早在2 0 多年前就开始,它们大 约有下列四种类型【i l j : ( 1 ) 异质的( h e t e r o g e n e o u s ) :尽可能广泛地接收各类材料而没有事先制 定任何选材原则。收藏的文本在格式和内容上各异,但存储格式与 原文本保持一致。 ( 2 ) 同质的( h o m o g e n e o u s ) :与异质的相反,即收录的文本在格式和内 容上保持统一,因此一般用于专业语料库。 ( 3 ) 系统的( s y s t e m a t i c ) :采用系统方法采集语料,使收藏的文本具有广 泛的代表性。 ( 4 ) 专用的( s p e c i a l i z e d ) :是指为特定目的服务的语料库。本系统构造了 一个实验型的法律文本专用语料库,其语料来源于网络,采用t x t , 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 训 格式文件存储,并按一定比例分为训练集和测试集。 文本的预处理。这一过程包括分词、文本格式的转换建立文本模型。 中文文本在计算机内部表示时,词与词之间并没有明显的切分标 志,因而自动分词已成为中文信息处理中的基础课题。在分词的基 础上把文本表示成类似关系数据库中记录的较规整的格式。本系统 采用了比较通用的基于向量空间模型的文本表示方法。 特征子集的提取。构造一个评价函数对文本中每个特征进行独立的 评估,这样每个特征都获得了一个评估分值,系统根据评估分值的 大小排序,选取出一定数量评估分数较高的特征项作为特征子集。 通常采用的评估函数有:词和类别的互信息量( m u t u a l i n f o r m a t i o n ) 、词频( t e r mf r e q u e n c y ) 、词熵( t e r me n t r o p y ) 等。针 对法律文本语料库的特点,本系统采用了一种改进的基于互信息的 评估方法,提取出了法律领域的特征子集。同时将每类中所有的训 练文本,根据该特征子集,形成精简文本表示形式。在这一步中系 统采用了l s i 方法对文本进行= 次降维,以加快分类速度。 对训练文档进行机器学习。该部分是分类系统的核心部分,目前存 在多种训练方法,例如支持向量机法( s v m ) 、最近邻居分类法 ( k n n ) 、神经网络分类法( n n e t ) 、贝叶斯法( n a i v eb a y e s ) 及其扩 展、决策树方法( d e c i s i o nt r e e ) 。本文主要讨论了s v m 方法和k n n 方法,并进行了对比实验。 图2 - 2 文本自动分类的一般过程 顷士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 5 、 对新文档进行分类测试。应用前一步总结的分类规则把测试文档指 派到己知的类别集合中。这是文本分类的应用实践过程,同时可以 用来检测分类器性能的好坏。本系统要求对测试集当中的法律文本 进行机器自动分类,分别指派到预先设置的( 经济、民事、商务、 刑事、行政) 类别集合中去。 文本自动分类的过程如图2 2 所示,本文研究构造的法律文本自动分类系 统也按照这一过程进行处理,在构造分类器时,为了减少语义空间的维数,在 一般流程的基础上进行了两次降维处理。 2 。3 文本分类器性能评价指标 因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志 是映射的准确程度和映射的速度。而后者与映射规则的复杂程度有密切关系, 而评估映射准确程度的参照物是通过领域专家思考判断后对文本的分类结果 ( 这里假设人工分类完全正确并且排除个人思维差异的因素) ,与人工分类结果 越近,分类的准确程度就越离。这里隐含了评估文本分类系统的两个指标:查 全率和查准率。理想状态下,希望能达到以下两个目标 1 l 】: ( 1 ) 能够将所有专家认为属于类c 。的文本全部归入该类,这称为查全率 ( r e c a l l ,又称为召回率,简写为r e ) : ( 2 ) 在分出的每类c 。中全部都为专家认为属于该类的文本,这称为查准率 ( p r e c i s i o n ,又称为精确度,简写为p r ) 。 而实际应用中很难达到以上要求,常常用这两个指标评价一个分类系统性 能的好坏,其分别定义如下: 查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其 数学公式表示如下: 查全率c 黜户翥纛瓣 q 一, 查准率是所有系统判断输出的文本中与人工分类结果吻合的文本所占的比 率,其数学公式表示如下: 9 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 查楠聃= 篙瓣 c z 刊 其中,查全率表征的是分类的完整性,其值属于 0 ,1 范围,意味着从测试 集中得到所有的正确类别的文本,查全率较低显示该分类系统漏掉了较多合法 文本,该指标主要测试系统的理解程度,我们希望没有被正确分类的文本越少 越好,因此查全率越接近1 ,分类器理解程度越深。查准率表征的是分类的正 确性,值同样落在1 0 ,1 区间,它用来保证分类结果集中的文本都是与其分类类 别相关的文本。查准率较低表示分类结果的有效性被大量不相关的文本降低, 该指标主要测试系统的准确程度,同理查准率越高,表示分类器分类准确度越 高。 以上两个指标分别指示了分类器性能的两个不同方面,根据实际显示:如 果查准率离,经验得到的查全率就可能很低【1 2 l 。因此查全率和查准率有一个折 衷,在实际应用中,两者必须综合考虑,不可偏废。因此,存在一种新的评估 指标fa 测试值,其数学公式表示如下: 几 1 比2 i 五孓 c z 吲 p r 、 r e 其中参数a 用来调整p r 和r e 的相对重要程度。很明显,如果a = 1 ,fa 等于p r ,如果a = o ,则fa 等于r e 。通常情况下取其折衷,让n = o 5 。 以上三个指标只用于分类器在单个类别上分类准确度的评价。 如果考虑多类分类情况时,又分为微平均和宏平均两种方式计算r e ,p r 和 fa 值。其定义如下: ( 1 ) 宏观平均值( m a c r o a v e r a g e d s c o r e ) :用于评价分类器的整体表现a 将 r e ,p r 和fa 标准在单个类别上的数值进行平均则分别得到它们的宏观平均值。 宏观平均值更多的受到稀有类剐( 包含实例较少,出现概率较小的类别) 的影响。 ( 2 ) 微观平均值( m i c r o a v e r a g e d s c o r e ) :也用于评价分类器的整体袭现, 它是分类器在整个测试集上做出的分类中正确的比率,即在整体上来平均。 评价一个分类器的好坏,除了需要考虑其分类准确度,还有分类效率的问 题。如果分类器的分类效率过低将导致其实用性较差,无法应付大数据集分类 1 0 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 的需要。分类器效率的评价包括训练效率和分类效率两部分。由于训练是一次 性的,所以对分类器分类效率的要求就更高。 在我们的实验中将列出分类结果的宏平均查全率、微平均查全率、宏平均 查准率和微平均查准率以及分类系统运行各个阶段所花费的时间。所有对文本 自动分类系统的研究都是使其轵着更准确、更全面、更快速方向提高。 硕士学位论文:公安执法监督管埋中的文本理解技术的研究及其应用 第三章法律文本预处理及文本模型选择 3 1 概述 语料库是由多个电子文本组成的文档集合,而从现在的研究水平来看,计 算机并非真正具有人的智能,从本质上讲,计算机只能识别0 和1 ,因此必须 将文本转换成计算机可识别的格式,即文本模型的建立。在对文档建模之前会 碰到一系列的问题:文本的分词处理、去停留词等,统称为文本的预处理。下 面分小节对这些问题进行详细阐述。 3 2 分词 3 2 1 什么是汉语中的基本处理单元 在中文信息处理中,词是最小的能够独立活动的有意义的语言成分l l 引,但 同时也有入提出,在汉语中没有词只有短语,这是因为【l l : ( 1 ) 汉语的词是可以拆开的,可扩展的。例如:革命革了次命。 ( 2 ) 有时词还可以调换位置,例如:理发理了好几次发,发理了。 对于这一问题,我们不做深入探讨,但是有一点是明显的,在汉语中,短 语在结构上比词要稳定些,由于在中文信息处理中“分词”这一概念已经被广 泛使用,为了方便描述,因此我们也不加区别统称为“分词”。 印欧语系的书写,词与词之间有空格,而中文文本在计算机内部表示时, 词与词之间并没有明显的切分标志,而中文信息处理的诸多重要领域都要求在 词这一平面上来进行,因而自动分词已成为中文信息处理中的基础课题,加上 这一问题本身所具有的难度,使其很难从根本上解决,所以在很长时间内它将 受到人们的关注 1 4 】。分词处理过程如图3 - 1 所示:其中输入的是连续的字符集 ( c i c 2 c 3 c 。) ,而输出的是汉语的词串( w l w 2 w 3 w m ) a 硕:l 学位论文:公安执法监督管理中的文本理解技术的研究及其应用 图3 - 1 文本自动分词系统示意图 3 2 2 分词中两个关键问题 分词算法是整个分词模块的核心,分词算法中最主要的是要解决以下两个 问题: 1 、汉语句子的歧义切分阀题。如前所述歧义切分属于意境语义分词问题, 又分为固有歧义和组合歧义。固有歧义是指根据不同意境出现的分词歧义。例 如:“物理学是一门基础科学。”和“物理学起来很难。”,这两个句子中均出现 了“物理学”,但是却有“物理学”和“物理学”两种不同的切分。组合歧 义切分是指某个字符串,它本身并不组成一个词,但是它在不同语境的条件下, 产生不同的组合切分。例如:“他具有非凡的才能”和“只有他在,工程才能如 期完成。”,这两个句子中出现的“才能”就存在组合歧义。 歧义切分是一个棘手的问题,但目前很难找到一个通用的办法来解决,只 能使用个性规则去个别处理。 2 、未登陆词识别问题。未登陆词( l 1 d 妇o w nw o r d ) 指当前词典中未列入的 词汇。造成未登陆词问题的原因很多,首先,词典中不可能包涵所有的词汇, 如人名、地名等;其次语言是不断发展演化的,文化新词也层出不穷。这一闯 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 题并不比歧义切分简单,有人做过实验,“一个经过人工分词的、含有1 5 0 0 0 个 词的法律语料库,其中竟然有3 0 的词没有登录在含7 0 0 0 0 个词条的词典里, 这个比例远远高于各种歧义字段在全文所占用的比例1 11 0 ”。 圩1 从以上分析可知,未登陆词识别问题将长期存在,很难彻底解决。 3 2 3 常用分词算法介绍 八十年代以来,国内先后提出了多个自动分词算法,这些算法思想可以分 为两大类:一类是机械分词,即按照一定的规则从待分词的文本中提取出系 列字串,依次与词典中的词条进行匹配,匹配成功则认为分出一个词,接着再对 剩余部分进行相同处理。另一种知识分词。利用有关词、句子等的句法和语义信 息或者从大量语料中找出汉字组词的结合特点来进行评价,以期找到最贴近于 原句语义的分词结果【1 6 。如近几年基于h n c ( h i e r a r c h i c a ln e t w o r ko f c o n c e p t s , 概念层次网络) 理论的分词是研究的热点之一。常用机械分词算法介绍如下: ( 1 ) 猢法( m a x i m u mm a t c h i n gm e t h o d ,最大匹配法) 的基本过程:假设 词典中最长的词由i 个字组成( i 一般取值为6 8 ) ,则每次从句子头上截取一个 长度为i 的字串,令它同词表中的词条依次匹配,如果词表中确有这样一个i 字 词,匹配成功,就把这个字串作为一个词从句子头上切分出去。然后再从句子余 下部分的头上截取另一个i 字字串,重复上述过程,直至句子被切分完为止。如 果在词表中找不到一个词条能同当前字串匹配,就从该字串尾部删去一个字,用 i 一1 字长的字串到词表中去查找,若匹配成功同样把该字串作为一个词从句子中 切分出去:若匹配失败,从该字串尾部删去一个字,再用i 2 的字串去词表中匹 配直至匹配成功。 ( 2 ) r m m 法( r e v e r s em a x i m u mm a t c h i n g ,逆向最大匹配法) 与方法 相对,该方法每次都是从后往前从待分词句子中取i 个词组成的词串,记为 ( c 。,c ,l ,c 。1 ) ,令它同词表中的词条依次匹配,如果词表中确有这样一个 i 字词,匹配成功,就把这个字串作为一个词从句子中切分出去。再接着从后往 前取。如果不存在这样的词,则把c 。从当前考察词串中删除,接着试探 ( c t 十l ,c t + i 1 ) 。 实验研究表明,r m m 法比法在实验中效果更好。但r 删法分词结果也并 1 4 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 没有达到理想的水平,但由于它的算法简单、效率较高,因此也被广泛使用。 另外还有一些分词算法,如最少切分法,最长次长匹配法1 7 1 ,最大概率分 词算法【1 8 j 等。在实际应用中较多地采用以机械分词为基础,辅以知识分词消歧 处理。 总之,汉语自动分词问题是中文信息处理中的“瓶颈”,它的最终解决依赖 于词法分析、句法分析、语旬分析等研究的深入,同时还依赖于神经网络、专 家系统等其他人工智能领域研究的发展。分词问题在近期内很难达到理想效果。 3 。3 去停留词 汉语中的词汇量及其丰富,而其中有一部分词,对文本的内容没有很大影 响,如很大一部分介词、代词、连词,它们一般只用来连接句子,或是表示说 话者的情感,对于文本分类并没有多大贡献,如“这”,“再有”,“因此”等。 对于这样的一些词,应把它从文本中去掉。具体做法是:把这些要删除的词放 在一个称为停留词表( s t o pl i s t ) 的文本中,扫描分词后的文档,如果其中某 个词语在s t o pl i s t 当中出现,则把该词清除。本文中采用的部分停留词表如 表3 - 1 所示: 表3 一l 本文所使用停留词表( 部分) 任何甚至于 当然 否则这以免 不外乎随时 等等 要不然一日至于 哪怕 反之首先 其次先前 进而 虽说 因此再有 诸如不单 本系统把停留词表存放在l a w s t o p l i s t t x t 文本文件中,可以根据具体需 求进行动态地增加。去停留词处理后,大约可以去除文档中4 0 一5 0 的“无用” 词汇【1 9 j ,减少冗余,便于后面的分类处理。 硕士学位论文:公安执法监督管理中的文本理解技术的研究及其应用 3 4 文本模型的建立 文本信息是由一系列的字、词、附加成分和标点符号等组成的“符号”集 合,它的结构复杂且规律性不强。为了便于计算机运算、处理和理解文本,需 要对复杂结构的文本进行必要的变换。根据“贝叶斯假设”,假定组成文本的字 或词在确定文本类别的作用上相互独立,这样就可以使用文本中出现的字或词 的集合来代替文本。不言而喻,这将丢失大量关于文章内容的信息,但是这种 假设可以使文本的表示和处理形式化,并且可以在文本分类中取得较好的效果。 在文本分词、去停留词、过滤掉所有的英文字符、数字字符以及标点符号 以后就可以开始对文本进行模型化处理了【2 l 】。文本模型表示方法主要有以下三 种: 1 、布尔模型( b o o l e a nm o d e l ) 布尔模型是一种传统的、简单和普遍使用的严格匹配模型。在该模型中, 它以文本是否包含关键字作为评判的依据,定义了一个二值映射函数 f :t 一 0 ,1 ) ,如果文本中出现了某个词,则文本向量的该维为1 ,否则没有出 现该词,该维则置为0 ,即: d o e = v a l u e ( t 1 ) ,v a l u e ( t 2 ) ,v a l u e ( t m ) ) ,其中 ,、f 1 ,t i 在d o c 中出现 、 豫缸8 ( 叫21 0 ,f l 未在d o c 中出现( 3 - - 1 d o c 表示文档,t i 表示词语 该模型有很大的缺陷,它没有词频( t e r mf r e q u e n c y ) 信息,不能体现词 在文本中的作用程度,因此也不能进行文档相关性大小比较。但由于它实现简 单、检索速度快,所以仍然得到应用,如著名的网站搜索引擎y a h o o 就采用了 布尔模型表示【2 孙。 2 、概率模型( p r o b a b i l i s t i cm o d e l ) 布尔模型将文档表示词条视为是相互独立的项,忽略了表示词条间的关联 性,而基于“贝叶斯概率论原理”的概率模型则考虑到了词条、文档间的内在 联系,利用词条间和词条与文档间的概率相依性进行信息检索。其中的二值独 立检索模型( b i r :b i n a r yi n d e p e n d e n c er e 扛i e v m ) 就是一种实现简单且效果 较好的概率检索模型。 1 6 硕l :学位论又:公安执法监督管理中的文本理解技术的研究及其应用 3 、向量空间模型( v e c t o rs p a c em o d e l ,简写为v s m ) 该模型把文档看作是由一组正交词语向量所组成的向量空间,又称为语义 空间,每个文档d o c 都表示为: v ( d e c ) = v a l u e ( t 1 ) ,v a l u e ( t 2 ) ,v a l u e ( t m ) ,其中v a l u e ( t i ) 不再是简 单的0 或1 ,它表示m 维坐标系中的坐标轴,并被赋值为与文档内容相关程度, 这样由( v a l u e ( t 1 ) ,v a l u e ( t 2 ) ,v a l u e ( t m ) 表示的文档向量就映射为维 语义空间中的一个点。 采用这种方法表示后,很容易计算出两个文档之间的相关程度,一种简单 的方法就是采用两个向量夹角的余弦表示,向量x 与y 的相似度为: s f ,嗄置即= c o s ( x , 均= 8 1 其中m 为向量空间的维数,即词汇的个数田】。 相似度计算如图3 2 所示, 图3 2 文本的向量空间模型及相似度 ( 3 2 ) 由于向量空间模型概念简单,把对文本内容的处理简化为向量空间中的向 量运算,弗且它以空间上的相似度表达语义的相似度,直观易懂,因此在本系 统中也采用v s m 方法来表示法律文本。 1 7 顿一卜学位论文,公安执法监督管理中的文本理解技术的研究及其应用 选择了v s m 作为文本的表示模型后,有一个问题:是不是把所有的在语料 库中出现的词语都参与文档的表示呢? 答案是否定的,文档表示是以一定的特 征项来代表文档的信息,用这些特征项来评价未知文档与类c i 相关程度,那么 选择哪些词比较适当,应该采用何种策略,这是我们下一章要具体讲述的。 硕士学位论文:公安执法监督管理中的文本理解技术的研究搜其应用 第四章文本特征提取 4 1 文本特征子集构造方法 4 1 1 概述 在v s m 中,将文本文档表示为一组词d o c = v a l u e ( t 1 ) ,v a l u e ( t 2 ) ,v a l u e ( t m ) ) 向量,而这些词并不是所有语料库中出现的词。考虑提高 效率和除去噪声的目的,在文档表示为可用于分类的表示形式之前,需要进行 特征选择,特征选择是从每一类文档的所有特征词中抽取那些能够反映和区分 此类文档与其它类文档的特征项,这一步是分类问题的关键。 通过分析应该注意到:常用词,例如“的”、“如下”、“其次”、“要不”在 各个文档中出现的频率很高,但是这些词对文档不起作用。对于这些词通过前 一步预处理中的去停留词已经过滤掉了。再考虑去停留词后的词语,对于一些 冷僻词在所有文档中出现的次数很少,它对文档不具有代表性,还有一些词在 所有文档中出现的次数都基本相同,区分性差,也不能作为特征词。因此,综 合上述分析,一个有效的特征项必须具备两个条件洲: 完全性,即该特征项能够确实表示文档内容 区分性,根据所选出的特征项的集合,能够将文档区分开来。 因此,对于文档中的词,也称为语义空间中特征项,应根据其在文档中的 重要程度,赋以一定的权值,最后根据权值大小排序,选取出一定数量的词作 为特征项集合。下面介绍几种常用的词语加权方法。 4 1 2 常见评价函数的构造 特征选取方法一般是构造一个评估函数,根据“贝叶斯假设”对语料库中 的词语进行独立评估,这样每个词语都获得一个评估值,又称为权值。然后对 所有的特征按照从大到小的顺序,选取出一定数量的词汇作为特征子集。下面 介绍一些常见评估函数方法盼2 6 12 7 1 : 1 9 硕士学位论文。公安执法监督管理中的文本理解技术的研究及其应用 l 、文档频率( d o c u m e n tf r e q u e n c y ,简称d f ) 文档频率是指在训练语料中出现该词语的文档次数,它是特征提取中 最简单的评估函数。采用d f 作为特征抽取评估函数基于如下基本假设:d f 值低于某个阈值的词条是低频词,它们不含或含有较少的类别区分度,通 常认为这种词对分类没有贡献,或者是噪声词语。将这样的词条从原始特 征空间中移除,不但能够降低特征空间的维数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论