




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)电信级智能网络信息过滤引擎的研究和应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 电信级智能网络信息过滤引擎的研究和应用 摘要 针对目前网络上存在的大量不良信息传播的状况,本文提出并实现了一种在电信主 干光纤通讯电缆上进行过滤网络信息的引擎。网络信息过滤引擎通过构造相关分类知识 库,利用智能信息处理技术( 自然语言处理) ,在理解网页内容( 而不是仅仅匹配关键词) 、 获取文本意义的基础上,对网页进行自动分类,利用分类结果,可以截获网络敏感信息, 并采取相应的控制、过滤措施。为了在高速网络环境中过滤网络信息,还设计实现了高 性能的数据包捕获和应用层协议分析的功能。整个过滤引擎涉及了自然语言处理技术( 主 要是分词理论和文本分类技术) 、高速网络处理技术( 协议分析和零拷贝技术) 等关键 技术。本文针对电信级智能网络信息过滤引擎的研究设计实现过程中遇到的问题和解决 办怯等方面来讨论相关技术和理论的研究和应用。 本文完成的主要工作如下: ( 1 ) 通过引入自然语言理解理论,提出基于u r l 分类知识库的u r i 智能分类库。凭借 u r l 智能分类库,把耗时的实时网络内容的分析过滤转化为u r l 的分类预处理,使高速网 络环境下的网络信息监控成为可能。 ( 2 ) 零拷贝技术的引入突破了传统数据包捕获技术慢的瓶颈,提升的性能不仅为千 兆网络信息过滤打好基础,还使得低配置的硬件设备也有可能被用于高速网络环境的处 理,节省了进行网络信息过滤的费用。 ( 3 ) 应用层协议分析功能的设计。浚功能模块对网络信息进行应用层级的语意理解, 从而实现基于应用层的内容过滤,而不只是对网络数据包进行简单的特征匹配来决定过 滤与否。 关键词:高速网络信息过滤自然语言理解零拷贝技术协议分析 型塑型塑望翌主型! 堕苎一 皇堕堡塑堂塑堑堕:垦丝鲨! ! 兰塑塑窒塑些旦 a b s t i 己a c t a i m i n ga tt h es i t u a t i o no fl o t so fi l l e g a li n f o r m a t i o ns p r e a di np r e s e n t n e t w o r k ,w ei m p l e m e n ta ni n t e l l i g e n tw e bi n f o r m a t i o nf i i t e re n g i n ew h i c hi s a p p l i e dt ot h et e l e c o mm a i nc o m m u n i c a t i o nc a b l e b yc o n s t r u c t i n g c a t e g o r y k n o w l e d g e b a s ea n du s i n gt h ei n t e l l i g e n ti n f o r m a t i o np r o c e s s i n gt e c h n i q u e ( n a t u r a ll a n g u a g ep r o c e s s i n g ) ,t h es y s t e mi sa b l et oi d e n t i f yt h ec o n t e n ta n d f i i t e rm e a s u r e sb a s e do nt h eu n d e r s t a n d i n go ft h ec o n t e n to ft h ei n t e r n e t i n f o r m a t i o i n ( n o to n l ym a t c h i n gt h ek e yw o r d s ) a n do b t a i n i n gt h em e a n i n ga n dt h e a t t ir u d eo ft h ei n f o r m a t i o n t of i i t e rt h ei n f o r m a t i o no ft e l e c o mh i g hs p e e d n e t w o r k ,w ea l s od e s i g n e da n di m p l e m e n tt h em o d u l eo fh i g hp e r f o r m a n c ep a c k e t c a p t u r i n ga n da p p l i c a t i o n1 a y e rp r o t o c o la n a l y z i n g t h ek e yt e c h n i q u e so ft h e e n g i d ei n c l u d et h en a t u r a l1 a n g u a g ep r o c e s s i n gt e c h n i q u e ,t h eh i g hp e r f o r m a n c e n e t w o r kt e c h n i q u e s ( p r o t o c o la n a l y z ea n dz e r o c o p yt e c h n i q u e ) ,a n ds oo n t h em a i nw o r k sf i n i s h e di nt h i sp a p e ra r el i s t e da sf o ll o w s : ( 1 ) b yi m p o r t i n gn a t u r a ll a n g u a g ep r o c e s s i n gt h e o r y ,ii m p l e m e n ti n t e l l i g e n t u r lc a t e g o r yl i b r a r yb a s e du r lc a t e g o r yk n o w i e d g e b a s e u s i n gt h i sw en e e dn o t a n a l y z ea n df i i t e ri n t e r n e ti n f o r m a t i o na tr e a lt i m e ,b u tj u s tc r e a t et h eu r l c a t e g o r yl i b r a r yb e f o r es y s t e ms t a r t s t h a tm a k e si tc a nb ea p p l i e dt of il t e r i n f o r m a t i o no fh i g hs p e e dn e t w o r k ( 2 ) t h er e s e a r c ha n da p p l i c a t i o no ft h ez e r o c o p yt e c h n i q u eo v e r c o m e st h e t r a d i t i o n a lp a c k e tc a p t u r et e c h n i q u e ss h o r t c o m i n g t h ep e r f o r m a n c em a k e s f i l t e rh i g hs p e e dn e t w o r k si n f o r m a t i o np o s s i b l e w ea l s oc a nu s en o r m a ld e v i c e s t op r o c e s sh i g hs p e e dn e t w o r ki n f o r m a t i o nb yu s i n gt h i st e c h n i q u ew h i c hd e c r e a s e s t h ee x p e n s e ( 3 ) t h em o d u l eo fa n a l y z i n ga p p l i c a t i o nl a y e rp r o t o c o lw a sd e s i g n e dw h i c h i sa b l et of i i t e ri n f o r m a t i o nb yi d e n t i f y i n gt h ec o n t e n tb u tn o tb ym a t c h i n gt h e k e yw o r d s k e yw o r d s :h i g hs p e e dn e t w o r k ,l n f o r m a t i o nf i l t e r i n g ,n a t u r a li a n g u a g e p r o c e s s i n g ,z e r o c o p yt e c h n i q u e ,p r o t o c o la n a l y z i n g 浙江大学硕士学位论文电信级智能网络信息过滤引擎的研究和应用 1 1 问题的提出 第一章绪论 以下为中华人民共和国信息产业部公布的截止到2 0 0 5 年3 月份的统计数据 指标名称 单位2 0 0 5 3 止累计到达比2 0 0 4 年末新增 互联网拨号用户万户 4 5 0 5 0 互联网专线用户 户 6 7 2 8 8 互联网宽带接入用户万户 2 8 3 3 1 3 4 8 4 其中:x d s l万户 1 9 4 9 72 4 7 4 由此可见,互联网在中国正处于爆破性发展的阶段,互联网已经成为人们生活和工 作中的一个不可缺少的组成部分。 随着w w w 的进一步发展,网络的规模日益扩大,提供的信息同益增多,其开放性 日益增强。网络,己经成为人们获取信息和自由交流信息的一个日益重要的途径。但也 就在此过程中,由于其资源没有统一的结构和管理,因此许多恶意和不健康的内容被引 入。这些敏感信息,成为用户获得有效信息的障碍,同时也会传播不健康的言论及思想, 并对社会产生相当的危害。 据有关机构调查显示,有3 4 6 的青少年网民承认自己曾经浏览过色情网站,有4 9 的人承认“经常”去看。很多青少年因此而荒废学业,成为“电子海洛因”的吸食者, 对身心健康造成了严重损害。而在不分年龄层次的网民调查统计中显示,9 0 以上的网 民因为缺少外界的约束力,加上自我控制能力比较弱、好奇等因素,曾经( 或频繁) 地访问 色情站点。随着国内入网的家庭p c 的增多,如何保障家庭的健康的上网环境的问题越来 越突出,因为这对于不太懂相关技术的父母而言,要做到这一点是很困难的。如何在这 种情况下给广大青少年营造一个健康的上网环境,这是一个摆在所有业内人士之间的一 个课题。 综上所述,互联网在带来丰富的有用资讯的同时,也在传播大量的有害信息。互联 网有害信息是指包括色情信息,反政府信息,宣扬封建迷信思想,传播邪教思想,散播 不实谣言等在内的对浏览者精神上造成危害的信息。为了防止互联网用户受到有害信息 的毒害,需要对用户在互联网上浏览的信息内容进行分析和过滤,阻止用户登录含有有 害信息的网址。 浙江大学硕士学位论文电信级智能网络信息过滤引擎的研究和应用 1 2 网络信息过滤系统的现状 i n t e m e t 的信息具有以下两个特点: ( 1 ) 信息分布无组织:i n t e m e t 的信息分布于全球的各个角落,且无严格组织,使得用 户获取信息时不知道在哪里才能找到所需信息。 ( 2 ) 数据半结构化:各种网络信息虽然采用了某种标记语言( m a r kl a n g u a g e ) ,但标记过 于简单、随意,并不能完整的描述网络信息,使得信息通常是模糊的。 所以对i n t e m e t 信息的监控存在一定的技术难题。目前已经有一定数量的针对网页信 息过滤与监控的产品存在,它们大都采用关键词匹配的方法,根据词形的一致,产生确 定的二值结果,从而决定对网页内容舍弃与否。因为它们没有对网页的内容进行语义分 析,而自然文本中存在大量同义词和汉语的切分歧义现象,因此,该方法不可避免的导 致漏配和错配的情况发生,亦即对网页会旋以不正确的舍弃,从而该方法的覆盖率和精 确性都有特提高,才能更好地应用于网页内容的过滤和监控领域。另一方面当前已有的 一些网络信息过虑产品和技术主要针对的大多都是单机版或者是企业版。他们监控范围 比较小,一般髓控的数量为一台或几台到几十台电脑,容易受管理人员设定规则的影响, 特别是单机版的信息过虑产品想要达到的效果不理想,因为网络监控过虑的对象和过虑 软件就在一台计算机或者一个局域网之内,容易受到使用者,也就是被监控对象的抵制, 甚至破坏,稍微懂一点技术原理的人甚至可以轻而易举的绕过相关监控产品的监控。 所以对互联网信息进行有效的过滤,关键是一方面要建立一套有效的有害网址的收 集、评估体系,建立统一的有害网址信息库和有害网址信息的下载接口规范,通过接口 规范使各种信息过滤软件产品依据统一的规定来过滤有害信息,实现互联网信息的有效 控制。另一方面,我们还应该从传统的监控思路中跳出来,尝试在电信级统一进行监 控,这样的好处一是有利于国家有关部门对整个i n t e m e t 环境的掌握和控制,比如对反党 反社会反人类、赌博、色情等信息的屏蔽,也有利于家长统一管理监控孩子的健康上网 环境的营造。在电信级过滤网络信息还能节省大笔的硬件和软件方面的费用,比较一下 每家每户都安装一个软件或者硬件装置来监控网络信息和只在电信的网络接入服务器上 安装一套装置这两种方式,就不难明白这其中的差别。 1 3 本文研究的内容和目的 针对前面提到的情况,本文研究的目的是在电信级主干光纤通讯网络上建立一套行 2 浙江大学硕士学位论文 电信级智能网络信息过滤引擎的研究和应用 之有效的网络信息过滤方案。为了达到这一目标,既需要对网络信息进行语义层的理解, 也需要一些高速网络处理技术。为此本文做了大量这方面的研究,最后设计并实现了电 信级智能网络信息过滤引擎,并讨论了它在电信部门的应用。 本文研究内容可以概括为: 1 ,自然语言处理技术的研究。借助于自然语言处理这一先进的有效的手段,能准确 有效的实现对网页信息在语义层的分析、过滤和监控。自然语言理解技术包括对汉语 自动分词和标注算法的研究。汉语自动分词是自然语言处理的基础。对网页的相关文 本部分进行自动分词和标注处理,是对敏感信息进行识别和监控的基础。 2 智能u r l 分类信息库的研究及建立。这是将网络信息提取与自然语言理解相结合 进行网上信息过滤至关重要的一步。该信息库中包含了对敏感信息的定义、描述与枚 举,完成对特定行业特定环境的敏感信息的判断、分析及析取。 3 高速网络数据处理技术的研究和应用。在电信千兆网络的条件下,对信息过虑技 术和架构都提出了不同于传统信息过虑技术的挑战。首先信息过虑系统的架设要对它 本身的网络和带宽不能带来明显的影响。其次它对性能的要求至少比传统过虑技术多 一个数量级甚至更多。 研究的难点在于: 1 如何应用传统自然语言理解的处理技术,对浩瀚的i n t e r n e t 信息分门别类,并把成 果应用到电信级的网络处理技术中? 2 如何在千兆电信主干网络上进行高速数据采集、分析、监控。 浙江大学硕十学位论文电信缅智能网络信息过滤弓l 擎的研究和廓用 第二章自然语言理解研究 要做到对网络信息进行监控首先要理解州络信息,刚络信息具有半结构化的特征, 僵对于机器来说,除了从网络信息的结构中得到一些有用信息,更重要的是还要能够理 解网络内容,这就涉及到自然语言理解的研究和应用。 2 。1 自然语言理解 21 1 自然语言理解的定义 自然语言理解,就是指如何让计算机能正确处理人类语言,并据此作出人们期待的 各种f 确响应。自然语言理解的研究分为书面语理解和口语理解。与口头语比较而言, 书面语比较规范,比较容易用机器处理。自然语言理解的研究不但要运用语言学中的词 汇、语法、句法、语用和语义学知识,而且还要涉及到大量的客观世界的知识以及与其 相关学科的知识。 自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的 关键。对于人工智能的研究来讲,为了使人1 = 智能系统史有效地获取人类知识,有更强 的学习功能,就必须具有相当高的人机时话能力,那么系统必须具有较强的自然语言议 s 0 和处理能力。实际上,自然语言处理和人工智能的多种领域( 如定理证明、闫题解答、 模式识别、机器博弈和机器人科学等) 的根本问题都是知识表达和利用问题。 自然语言理解不论是被应用于机器翻译、机器释义,还是被应用于人机对话或是信 息检索,都有着重j = 的实际意义。 2 1 2 自然语言理解实现的困难 本文根据自然语言理解理论和分词技术将自然语言理解中的词法、句法分析理论应 用到u r l 的分类技术中,实现机器对网络内容的理解。 通常所说的汁算机理解了某些事件,实际上是把这些事件的一种表示形式转换为另 一种表示形式,每种表示形式对应着组动作。为了得到关于理解的总体描述,通常将 语言看成是源语言和目标语言的二元组,两名存在着映射。理解自然语言之所以困难, 有二个黄要原因: 1 日标表示的复杂性。如语义的概念依存网表示。要从语句中提取这种表示的关键 1 目标表示的复杂性。如语义的概念依存网表示。要从语句中提取这种表示的关键 浙江大学硕士学位论文电信级智能网络信息过滤引擎的研究和应用 第二章自然语言理解研究 要做到对网络信息进行监控首先要理解网络信息,网络信息具有半结构化的特征, 但对于机器来说,除了从网络信息的结构中得到一些有用信息,更重要的是还要能够理 解网络内容,这就涉及到自然语言理解的研究和应用。 2 。1 自然语言理解 2 i 1 自然语言理解的定义 自然语言理解,就是指如何让计算机能正确处理人类语言,并据此作出人们期待的 各种正确响应。自然语言理解的研究分为书面语理解和口语理解。与口头语比较而言, 书面语比较规范,比较容易用机器处理。自然语言理解的研究不但要运用语言学中的词 汇、语法、句法、语用和语义学知识,而且还要涉及到大量的客观世界的知识以及与其 相关学科的知识。 自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的 关键。对于人工智能的研究来讲,为了使人工智能系统更有效地获取人类知识,有更强 的学习功能,就必须具有相当高的人机对话能力,那么系统必须具有较强的自然语言识 别和处理能力。实际上,自然语言处理和人工智能的多种领域( 如定理证明、问题解答、 模式识别、机器博弈和机器人科学等) 的根本问题都是知识表达和利用问题。 自然语言理解不论是被应用于机器翻译、机器释义,还是被应用于人机对话或是信 息检索,都有着重大的实际意义。 2 1 2 自然语言理解实现的困难 本文根据自然语言理解理论和分词技术将自然语言理解中的词法、句法分析理论应 用到u r l 的分类技术中,实现机器对网络内容的理解。 通常所说的计算机理解了某些事件,实际上是把这些事件的一种表示形式转换为另 一种表示形式,每种表示形式对应着一组动作。为了得到关于理解的总体描述,通常将 语言看成是源语言和目标语言的二元组,两者存在着映射。理解自然语言之所以困难, 有三个重要原因: 1 目标表示的复杂性。如语义的概念依存网表示。要从语句中提取这种表示的关键 浙江大学顺士学位论文 电信级智能网络信息过滤引擎的研究和应用 字就相当复杂,同时还需要更多相关的客观世界的知识。 2 映射的类型。对于源语言到目标语言表示的映射,一对一类型是最理想的。但现 实中,自然语言到目标语言表示的映射极难达到一对一的要求,这便提出了语义消岐的 要求。 3 成分间的交互程度。在语言中,每个语句都是由多个成分组成的,若每个成分 的映射与其他成分无关,那么,映射过程就比较简单。但实际上,自然语言中的成分交 互程度相当高,句子中改变一个成分,常常会大大改变句子的整体结构,这使得映射的 复杂程度大大增加。 自然语言的理解即计算机系统能够从用户输入的自然语言中抽取语义。而对于汉语 来说,句子分析是以自动分词为前提,以句法分析为基础。自动理解汉语的第一阶段就 是进行汉语的自动分词。汉语的书面形式却是连续的汉字串。所阻,理解汉语的首要任 务就是把连续的汉字串分割成词的序列。但是因为汉语的字与字之间连写,无切分特 征,所以汉语的自动分词难度很大,可以说,自动分词是中文信息处理领域继汉字输入 之后的又一个瓶颈问题,自动分词存在很大的困难: l 。 汉语对词的标准,词的定义不统一。 2 汉语的词与词之间没有明显的分隔界线。 3 汉语的书写单位是字,字不等于词,字也不等于词素,对于有的汉字来说, 可以是字也可以是词,而有些汉字只是词面不是词素,有些汉字只是词素的一部分。 4 , 汉语没有或者缺乏形态变化标志,不能从词本身找到词头、词尾和性、数、 格等变化作为分词标志。 5 , 汉语词组的构成方式与合成词中占很大比例的复合词的构成方式基本一 样,如都有主谓、偏正、联合、述宾、述补等方式。在遇到某种构成方式时,我们 很难辨别是词素与词素的合成词还是词与词合成的词组, 6 。 处理汉语要对语言及其结构形式化和规范化,但是语义的形式化和规范化 很困难,要准确切分一些句子,必须根据上下文语义信息,否则在不同语义环境中 会有不同的切分方式。然而如何在计算机中表示这种语义环境,对语义进行理解暂 时还不能解决。 ,人们在阅读中,脑海中存在着外部世界的知识模型,人们利用所具备的知识, 进行某种机能的推理,把视觉信号一字的序列转换成有意义的词的序列,进而达到 对句子的理解。如果要计算机模仿人们这种行为,也就是要求计算机具备智能化, 浙江人学硕士学位论文 电信级智能嘲络信息过滤引擎的研究和应用 这涉及到许多尚未解决的问题。 2 1 3 国外关于自然语言理解的研究 国外关于自然语言理解方面的研究起步较早,一些卓有成就的语言学家、逻辑学家 和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较为系统的 理论的方法。如:转换生成语法、依存语法、语义网络、蒙塔坞语法、扩展转换网络、系 统语法、格语法和语义网络理论、概念依存理论、境况语义学、语料库语言学等。近几 年来,在国际范围内掀起了语料库语言学( c o r p u sl i n g u i s t i e s ) 的研究热潮。语料库语 言学研究的是机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法、 语义分析以及具有上述功能的语料库在语言定量分析、词( 字) 典编撰、作品风格分析、 自然语言理解和机器翻译等领域的应用。另外还有许多计算语言学家或学者在总结前人 的经验与成果的基础上又提出了不少新方法、新理论和新思路,这为计算语言学的不断 发展作出了贡献。 2 1 4 汉语的特点及国内关于自然语言理解的研究 尽管国外在计算语言领域的研究开展得较早,成熟的理论框架也为数不少,开发的 实验系统也不计其数,但要把他们的理论完全应用到中文环境还有很多的工作要做。 汉语作为一种自然语言,有其自身的特点,而其中的有些特点使得它特别不适合运 用计算机进行处理。 相对于英语句子分析,汉语没有明确的语义块指示标记,词与词间不分写,词无明 显的形态标志,句子中语法分析结果往往与语义分析结果之间不存在一对应关系,语 法重“意合”、轻形式、以意驭形,各个分析层面上的歧义现象非常严重,这些特点, 大大增加了汉语句子理解的复杂度。特别是语义分析时的语义组合层次歧义和语义组合 关系歧义,是计算机难以处理的。 从8 0 年代开始,我国借鉴国外的自然语言语义理论,先后提出了一系列符合汉语特 点的语义分析方法和语义表示理论,在汉语自然语言理解方面取得令人瞩目的成绩: ( 1 ) 机器翻译:我国早在1 9 5 7 年就进行了机器翻译方面的研究。以冯志伟教授等为代 表的计算语言学学者早期在机器翻译研究方面做了大量的工作,并总结出不少珍贵的经 验和方法,为后来的计算语言学研究奠定了基础。 ( 2 ) 语料库研究:近年来,很多学者、科研人员在自动分词、自动建造知识库、自动 6 浙江大学硕上学位论文 电信级智能网络信息过滤引擎的研究和鹿用 生成句法规则、自动统计字、词、短语名子的使用及关联频率方面做了大量的工作。 ( 3 ) 概念层次网络理论:中国科学院的黄曾阳教授经历了长达8 年的探索和总结,在语 义表达方面归纳出一套具有自己特色的理论,提出了h n c ( t l i e r a r c h i c a ln e t w o r ko f c o n c e p t ) 概念层次网络理论。它是面向整个自然语言理解的理论框架。这个理论框架是 以语义表达为基础,并以一种概念化、层次化和网络化的形式来实现对知识的表达这一 理论的提出,为语义处理开辟了一条新路。 2 2 汉语自动分词算法分类 汉语自动分词系统的实现及效果依赖于分词理论与方法。目前国内已经公开报导的分 词系统所采用的方法基本上分为以下几类: l 词典匹配法:如最大匹配法、逆向匹配法、增字或减字匹配法、双向扫描法、二 次扫描法、逐词遍历法、部件词典法。 2 设立标志法:如切分标志法、统计标引法、多层次列举法。 3 词频统计法:如高频优先法、基于期望法、最少分词词频法。 4 联想词群法:如联想回溯a b 法、词链法、多遍扫描联想法、联想树分析法、无词 库法。 5 语义语用法:如邻接约束法、扩充转移网络法、综合匹配法、后缀分词法。 6 知识与规则法:如切词规则法、切分与语义校正法、规则描述切词法、生成测试 法、语境相关法、短语结构法、词语结构类比法。 7 人工智能法:如专家系统法、神经网络方法等。 2 3 基于词典的最佳前驱词算法的自然分词技术 最佳前驱词分词算法( m a xm a t c hm e t h o d ) 分词需要一个词库( 称为“底表”) ,分 词过程中就用文本中的候选词去和词库中的词进行匹配,匹配成功,则认为候选词是词, 否则就认为不是词。再利用统计算法求取每个词的最佳前驱词,这样句子从后向前得到 唯一的切分。 本文论述的方法是基于词典的分词方法。涉及到两方面的内容,即分词算法和词性 标注。 浙江大学硕士学位论文电信级智能网络信息过滤引擎的研究和应用 2 3 1 词库结构和分词算法 词库的结构如下: 逻辑子库逐词匹配算法 1 取一个句子s ,以标点符号为界限。 2 取该句串的首字w 。 3 用w 在索引文件中用二分法查找,以确定一个逻辑子库。 4 若( 3 ) 查找失败。则转( 6 ) 。 5 在逻辑子库中按顺序进行匹配。 6 匹配时,用词库中的当前词条的长度取正在处理的汉字串的左端的字串,同时 进行相等比较,若相等则成功转( 6 ) ,否则扫描下一个词条,直至成功或失败 转( 6 ) ,假设选出的词为w o r d 。 7 。若失败,则认为w 为词,从s 中去处w 后转( 2 ) 。 8 否则,调用歧义规则处理。输出词后对串取子串转( 2 ) 。 2 3 2 汉语分词规则的设计 1 规则的分类 按照分词系统的设计,分词子系统中的规则主要有: ( 1 ) 分词歧义消解规则 分词歧义消解规则再根据分词歧义类型分成两类: 1 )组合型歧义消解规则 2 )交集型歧义消解规则 ( 2 ) 未登录词规则 1 )人名规则 2 )地名规则 r 浙江大学硕士学位论文 电信级智能网络信息过滤引擎的研究和应用 3 )机构名称规则 4 )重叠词规则 5 ) 数值规则 6 )前缀规则 7 )后缀规则 结合内容过滤的实际,从工程角度考虑,本文对于规则的处理重点放在歧义消解规 则和专名规则。当然,忽视某些类别的规则,会带来问题,本文都将采用面向工程的替 代策略。这些策略虽不能完全解决问题,但可以解决经常出现的问题。 2 分词歧义消解规则 i 歧义的发现 a 组合型歧义的发现和标记。 组合型歧义的例子有:将来可以被切分为将来或将来 通过对词典进行分析的方法进行标记。分析以及标记的方法如下: a )若a b 为词典中的词条并且a 、b 同时也是词典中的词条,则 在分词词典中为词条a b 增加组合型歧义标记。 b )分词算法采用双向最大匹配法( f m m + b m m ) 。在算法执行过程中, 根据词典中有关标记对句子中出现组合型歧义之处进行标记。 例子:明天他将来北京。 b 交集型( 或连接型歧义) 的发现和标记。 交集型歧义的例子有:使节约可以被切分为使节约或使节约 通过检查正向匹配和逆向匹配结果是否一致的办法进行标记。标记步骤 如下: a )对待分词的输入句子分别利用正向最大匹配算法和逆向匹配算 法进行分词 b )比较分词结果,分词结果中不一致之处标记为发生交集型切分 歧义。 例子:待分词句子为:使节约粮食进一步形成风气。 ( 正向匹配结果) :使节约粮食进一步形成风气。 ( 逆向匹配结果) :使节约粮食进一步形成风气。 ( 标记结果) :使节约粮食进一步形成风气。 9 浙江大学硕士学位论文电信级智能网络信息过滤引擎的研究和应用 i i 歧义消解所利用的知识 目前可用于歧义消解的知识有,起义发生之处的词语、词类以及歧义发生之 处前面的一个词语以及后面的一个词语。 例子:明天他将来北京。对该句子中的歧义进行消解,可以利用的知识 有: 1 ) 歧义词段本身以及词类,即将来以及其词类副词( d ) 将、来以及它 们的词类副词( d ) 动词( v ) 2 ) 歧义发生处前一个词的词语本身和词类,即他以及它的词类代词( r ) 3 ) 歧义发生处后一个词的词语本身和词类,即北京以及它的词类名词 ( r 1 ) t i i 规则的格式及其含义 规则的一般格式为: 歧义字段结果字段条件 含义为若条件满足将歧义字段的标记情况修改为结梁字段 条什为若干属陡一值组合,目前属性有: w d 含义为歧义字段前后的词 p o s含义为歧义字段前后的词的词类 f m m w d 含义为歧义字段正向匹配结果中的词 b m m w d 含义为歧义字段逆向匹配结果中的词 f b t m p o s含义为歧义字段f 向匹配结果中的词的词类 b m m p o s含义为歧义字段逆向匹配结果中的词的词类 值的内容有:词语本身、词类标记以及i s w o r di s n o t w o r d 。其中i s w o r d i s n oc w o r d 只能作为w d 的值,含义分别为:歧义字段前后的词在词典中是合 法的词或不是词典中合法的词。 属性w dp o s 和取值之间可以有一个数字,如果为正,表示歧义字段之后的 某个词,如果为负,表示歧义字段之前的某个词。 f m m w db , m t w df n d p o sb m m p o s 四个属性及其取僮之间可以有一个数字, 表明歧义字段中词的索引。 ( 4 ) 长同优先以及i e 向优先:若歧义字段不能通过规则进行有效消解,对组合 型歧义保持最长的处理结果。对交集型歧义则保留正向切分结果。 浙江大学硕上学位论文电信级智能网络信息过滤引擎的研究和应用 ( 5 ) 通用规则和个性规则:通用规则适用范围较广,个性规则适用范围则较 窄。 ( 6 ) 例子 a b ca b cf m 删d2 i s n o t w o r d # 该规则是一条交集型歧义消解规则,正向匹配的结果为:a b c ,而逆向匹配 的结果为:a b c 规则的含义为:正向匹配结果中第二个词若不是词典中的合法词语,则切分结 果应该是逆向切分结果。 3 专有名词规则 ( 1 )专有名词规则分类 专有名词规则分为如下三类: ( 2 ) 人名识别规则 ( 3 ) 地名识别规则 ( 4 ) 机构名称识别规则 ( 2 ) 专有名词用字字典 为了有效识别上述三类专有名词,系统需要如下知识,姓名、地名、以及 机构名称用字字典。可以考虑逐步建立如下的专有名词用字字典: 1 ) 中国姓氏字典 2 ) 中国人名高频用字字典 3 ) 中国地名高频用字字典 4 ) 外国人名、地名高频用字字典 ( 3 ) 工程考虑 为了达到工程上的最好效果,目前准备采用的策略为,以专有名谢库为主, 识别规则为辅的开发策略,即目前应收集如下的词库: 1 ) 常用人名库 2 ) 常用地名库 3 ) 常用机构名称库 ( 4 ) 规则格式 要求在进行正向匹配和逆向匹配时,对于单音节词查以上各种知识库,即上 文中所说的各种字典,并对这些部分进行标记。例如,对于下面的句子,f m m 和b m m 浙江大学硕士学位论文 电信级智能网络信息过滤引擎的研究和应用 均给出下面的结果, 中国国家主席江泽民的讲话引起关注。 由于可以查到,江是姓氏用字,则对起进行标记,同样,泽和民分别 别标记为人名高频用字,同样进行标记。 所有专名都是根据这些标记触发的,例如,因为江被标记为姓氏用字,分 词程序会在此处调用专名识别规则。通常,专名尤其是人名,会被切分为若干 个单音节词的序列。并且外国人名字数会很多,因此识别规则参考的上下文应 该较大比较合适,可以作为识别依据的知识有所加的标记和词本身。 规则格式: 开始位置终止位置条件 开始位置终止位置指即将被判断为新词的各个单字的序号,这些序号是相 对与当前字( 词) 而言的。 条件同样是一组属性值组合。任何一个属性由两个部分组成,属性名和 一个序号或序号范围,可以出现的属性有 t a g 含义为某字的标记,即是否某字有姓氏标记、人名用字标记等 等。 w d 含义为字或词本身。 p o s 含义为词的类( 该属性主要用于词缀处理) 例如:下面的规则: 00t a g0 姓t a g 卜2 名# 规则的含义是若当前字有姓氏标记,且当前字后面的两个字有名字用字标记, 则将当前字作为一个词处理。 0lt a g l 姓t a g0 一1 名# 规则的含义是若当前字有人名用字标记,且当前字前面的分词单位有姓氏标 记,后面的字有名字用字标记,则将当前字和它后面的字作为一个词处理。 利用上述规则,可以将江泽民处理成江泽民 4 重叠词和数值规则 汉语中常见的词的重叠形式有a a b ba b ba b a ba a ,例如:高高兴兴高兴高兴红 彤彤张张,另外可以重叠的词多不是内容监控过滤感兴趣的词,因此从工程角度 出发,这部分可以暂时不作为分词原型程序刃:发阶段的重点。 浙江大学硕士学位论文 电信级智能网络信息过滤引擎的研究和应用 对于数值,一般不用规则,因为数值识别比较简单,可在程序中实现。 5 词缀规则 ( 1 ) 词缀字典 为了有效利用词缀识别未登录词,需要设立下面的字典 1 ) 前缀词典 2 ) 后缀词典 ( 2 ) 规则格式 要求在进行正向匹配和逆向匹配时,对于单音节词查以上词缀词典,并对这 些部分进行标记。例如,对于下面的句子,f m m 和b 删均给出下面的结果, 老李明天不上班。 规则格式可以和前面专名识别格式相同,下面是一个规则的例子。 0lw d0 老t a gl 姓# 含义是,若当前字是一个词缀,并且为老,当前字后面的字有姓氏标记, 则把两者合并成一个分词单位。 6 规则的调用顺序 由于在识别出新词后,有可能引起歧义,因此新词识别规则应先于歧义消解规则被 调用。规则调用顺序最好为: 1 )数值规则 2 )重叠词规则 3 )专名规则 4 ) 词缀规则 5 )歧义消解规则 2 3 3 词性标注 为提高标注正确率,我们将统计方法与规则方法相结合。对于兼类词的标注,先看 能否用规则处理。若能,则直接标注词性,从而利用了规则方法的高效性和高准确率。 否则再利用概率统计方法标注。其标注过程如下述算法所示: ( 1 ) 对待标注的文本( 已分词) ,首先查非兼类词典和兼类词典标上所有可能的词性。 ( 2 ) 取片断s e c t i o n ( 注意与c l a w s 算法的s p a n 不同) 。它包括了一个兼类词序列以 及序列前的若干非兼类词与序列后的一个非兼类词,如下图所示: 浙江人学硕士学位论文 电信级智能网络信息过滤引擎的研究和应用 w o r d lw o r d 2w o r d 3 w o r d i qw o r d i w o r d i + l w o r d jw o r d j + 1 t a g lt a 9 2t a 9 3 t a 舀i t a g i ,1 t a g i + i ,1 t a g j ,1t a g j 十 t a g i ,2 t a g i + l ,2t a g j ,2 t a g i ,3t a g j ,3 其中w o r d ,、w o r d 。、w o r d ,为兼类词,其余词为非兼类词。并且考虑到用户 规定的最大模式长度为w ,所以我们最多只取第一个兼类此前的w 一1 个非兼类词( i 茎w ) 。 ( 3 ) 若不存在s e c t i o n ,则算法结束。 ( 4 ) l _ 1 。 ( 5 ) 从( w o r d 。,t a g 。) 、( w o r d 。,t a g 。) 中构造模式,并用之匹配规则。 若匹配成功,则按规则给w o r d 。标注词性t a g + 。此时认为w o r d 已是非兼类词。 转( 2 ) ,重新选取s e c t i o n 。 ( 6 ) 若l i 一1 贝0l 卜l + 1 ,转( 5 ) 。 ( 7 ) 取有两个非兼类词所夹将类词序列作为s p a n ,如下图所示: w o r d ,lw o r d w o r d 。+ 1w o r d jw o r d j + l t a g 。一lt a g ,1t a g i + l ,1 t a g j ,lt a gj + l t a g 。2t a g ,+ 1 2 t a g j ,2 t a g 。,3 t a g 。,- ; 计算由词性标记组成的各路径的概率。按最大路径中的标记给w o r d w o r d , 标注词性。 ( 8 ) 转( 2 ) 。 2 3 3 1 词类标注规则学习过程 词类标注规则学习过程如图2 - 1 浙江大学硕士学位论文电信级智能网络信息过滤弓l 擎的研究和应用 图2 1 词类标注规则学习过程 2 3 3 2 词类标注规则学习算法 算法的最终输出是规则表p 2 。 数据说明 t a g l ,t a 9 2 ,t a g n 是所有可能发生兼类的词类标记,假定所有词类都可能和其 它词类发生兼类,即为所有可能的词类标记。 设定6 个数组 c o r r e c t p r e v i o u s : e r r o rp r e v i o u s : c o r r e c t n e x t : e r r o r n e x t : c o r r e c t b o t h 口 : e r r o rb o t h l 儿j : s s i z e 是训练语料s 中的词数 规则表p l 和p 2 略有不同,p 1 中除规则外,每条规则还有一个分值,分值是在 3 2 、3 4 和3 6 行加入的 3 2 、3 4 和3 6 行的规则格式参见本文档第三节“规则设计” c o r r e c t t a g ( w o r d ) 意义为词语w o r d 的正确标记,可以从经人工校对过的语料中获 得。 t a g ( w o r d ) 意义为词语w o r d 的当前标记,可以从训练语料s 中获得 1 用最大概率标注程序对训练语料s 迸行标注 浙江大学预士学位论文 电信级智能网络信息过滤引擎的研究和应用 计算标注准确率a 2 ;令a i = o 初始化最终规则表p 2 ,置为空 w h i l e a 2 一a 1 闽值d o 初始化规则表p 1 ,置为空 f o rf r o m _ t a g = t a g lt ot a g nd o f o rt o t a g = t a g lt ot a g nd o i ff r o mt a g = = t ot a gt h e nc o a t i n ( e 将所有数组元素置0 f o rw o r d = 1t oss i z ed o i f c o r r e c t t a g ( w o r d ) = = t o t a g a n dt a g ( w o r d ) 一f r o m t a gt h e n c o r r e c tp r e v i o u s t a g ( w o r d 一1 ) + + c o r r e c tn e x tlt a g ( w o r d + 1 ) j + + c o r r e c t b o t h t a g ( w o r d 一1 ) t a g ( w o r d + 1 ) + + i f c o r r e c t t a g ( w o r d ) = = f r o mt a g a n dt a g ( w o r d ) = = f r o m _ t a gt h e n e r r o r ( 一) + + _ p r e v i o u s t a gw o r d1 e r r o rn e x t t a g ( w o r d + 1 ) j + + e r r o rb o t h t a g ( w o r d 一1 ) t a g ( w o r d + 1 ) + + f o rt = t a 9 1t ot a g nd o c o r r e c t _ p r e v i o u s t c o r r e c tp r e y i o u s l t - e r r o r p r e v i o u s i t c o r r e c t n e x t l t j 2 c o r r e c t n e x t 【t j e r r o r n e x t l tj f o rt l = t a 9 1t ot a g nd o f o rt 2 = t a 9 1t ot a g nd o c o r r e c t - b o t h t 1 t 2 c o r r e c t b o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030中国电疗仪器行业市场发展分析及发展趋势与投资前景预测报告
- 2025至2030中国电动吸烟者行业产业运行态势及投资规划深度研究报告
- 2025至2030中国猪浓缩饲料行业发展趋势与发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国物流监控系统行业深度研究及发展前景投资评估分析
- 新舟60培训课件
- 井下开采安全培训课件
- 商业培训中的学习心理技巧
- 教育心理学与现代教学技术结合的学生动机研究
- 教育科技企业的社会责任与隐私保护
- 教育新生态面对挑战的创新与发展峰会邀请函
- 护理警示教育培训课件
- 2025年低压电工证考试试题及答案
- 2025至2030中国风电设备及零部件行业发展趋势分析与未来投资战略咨询研究报告
- 实践制作“龙骨水车”模型课件-沪科版八年级全一册物理
- 供应链计划员考试题库
- 华南理工大学强基校测面试题
- 2025年湖北省中考语文试卷真题(含标准答案)
- 儿童舞蹈课件模板
- 2024-2025学年湖北省荆州市八县高一上学期期末联考数学试题(解析版)
- 2025年投资学基础知识考试试题及答案
- 2025届江苏省如东县英语八年级第二学期期末统考试题含答案
评论
0/150
提交评论