(计算机软件与理论专业论文)基于gb18030的多语种全文检索系统设计与实现.pdf_第1页
(计算机软件与理论专业论文)基于gb18030的多语种全文检索系统设计与实现.pdf_第2页
(计算机软件与理论专业论文)基于gb18030的多语种全文检索系统设计与实现.pdf_第3页
(计算机软件与理论专业论文)基于gb18030的多语种全文检索系统设计与实现.pdf_第4页
(计算机软件与理论专业论文)基于gb18030的多语种全文检索系统设计与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于gb18030的多语种全文检索系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮 毡人学坝i :研究生学位论交 中文摘要 中文摘要 随着信息社会的不断发展,计算机网络应用的不断深入,互联网已经成为人 类获取信息的最重要途径之一。在信息爆炸时代,人们面对的烦恼不再是信息资 源的贫乏而是资源过剩甚至于泛滥。如何在信息海洋中找到准确有用的信息已不 是一个新的课题。全文检索技术因此应运而生。全文检索技术是将海量的非结构 化数据通过建立索引,检索的方式来迅速搜索定位要查找的信息。信息的内涵比 较大,这早特指计算机中的文本信息。即文字语言表达的信息。当提及到多语种 或者多文种文字信息时,人们不禁会想到实现世界上所有文字的统一编码 u n i c o d e 。然而,自2 0 0 0 年我国强制性标准g b l 8 0 3 0 推行之后,理论上要实现 多语种非u n i c o d e 不能用的论断就此推翻。本文对多语种全文检索中所涉及的关 键技术包括字符编码、汉语分词、索引架构、检索算法等进行了探讨和研究。为 了能够支持我国独立研制的编码字符集标准,实现在该领域计算机处理的自主 权,本文提出了利用g b l 8 0 3 0 为编码基础来设计与实现全文检索系统。使得多 语种信息处理不再依赖于u n i c o d e ,支持我国自主知识产权,也使得我国中文信 息处理技术更上一个台阶。本文主要分以下几部分内容: 一 常用字符编码的概述和g b l 8 0 3 0 特点的分析 = 多语种分词技术的概述和实现 三 以倒排索引为基础的c l u c e n e 架构的分析和内部代码剖析 四 如何利用c l u c e n e 架构来扩展实现基于g b l8 0 3 0 的全文检索组件技术。 五对基于g b l 8 0 3 0 的多语种全文检索系统的性能统计和效率评估。 关键词:多语种,全文检索,倒排索引,g b i8 0 3 0 ,c l u c e n e 。 南京邮i 乜人学坝l :i o f 究生学位论文a b s t r a c t a bs t r a c t w i t ht h ec o n t i n u o u sd e v e l o p m e n to ft h ei n f o r m a t i o ns o c i e t ya n dt h ea p p l i c a t i o n o fc o m p u t e rn e t w o r k ,t h ei n t e r n e th a sb e e nt h em o s ti m p o r t a n tm e d i af o rp e o p l et o s e a r c hf o ri n f o r m a t i o n i nt h et i m e so fi n f o r m a t i o ne x p l o s i o n ,w h a tp e o p l ew o r r yi s n o ta b o u tt h el a c ko fi n f o r m a t i o nb u ta b o u tt h eo v e r m u c hi n f o r m a t i o n h o wt os e a r c h f o re x a c ta n du s e f u li n f o r m a t i o nf r o mt h ei n t e r n e th a sn o tb e e nan e wt o p i co f c o m p u t e rs c i e n c ea n dt e c h n o l o g y t h et e c h n o l o g yo ff u l l t e x tr e t r i e v a le m e r g e sa st h e t i m e sr e q u i r e t h et e c h n o l o g yo ff u l l t e x tr e t r i e v a li su s e df o rs e a r c hf o rt h ee x a c t i n f o r m a t i o nf r o mm a s s i v ed a t a w h e nt h em u l t i - l a n g u a g ei n f o r m a t i o ni sm e n t i o n e d , p e o p l ec a n th e l pt o t h i n ka b o u tt h ec o d eo fu n i c o d e ,w h i c hc a nc o d ew o r l d w i d e l a n g u a g ec h a r a c t e r s h o w e v e r , s i n c et h ec o m p e l l e n tc h i n e s ei d e o g r a m sc o d e d c h a r a c t e rs e tf o ri n f o r m a t i o ni n t e r c h a n g e g b18 0 30i sb r o u g h ti n t oe f f e c t iv ei n2 0 0 0 , t h et h e o r yt h a tm u l t i - l a n g u a g ed a t ac a nb ed e a l to n l yb a s e do nu n i c o d ei sc a s td o w n t h i sp a p e rd i s c u s s e sa b o u ta l lp i v o t a lt e c h n o l o g i e sa b o u tf u l l - t e x tr e t r i e v a li n c l u d i n g c h a r a c t e rc o d i n g ,w o r d - c u t t i n g ,i n d e xa r c h i t e c t u r ea n ds e a r c ha r i t h m e t i c i no r d e rt o s u p p o r to u rs e l f - d e v e l o p e dc h a r a c t e rc o d i n gs t a n d a r d ,t h i sp a p e rb r i n g sf o r w a r da t h e o r yt h a tas y s t e mo ff u l l t e x tr e t r i e v a li si m p l e m e n t e db a s e do nc o d eo fg b 18 0 3 0 i nt h i sw a y ,m u l t i l a n g u a g ed a t aa n a l y s i sm a yn o tb ed e p e n d e do nu n i c o d e w em u s t s u p p o r to u ri n d e p e n d e n tk n o w l e d g ep r o p e r t yr i g h t i ta l s om a k e st h ep a c eo ft h e t e c h n o l o g yo fc h i n e s ei n f o r m a t i o na n a l y s i st os t e pf o r w a r d t h et e x tc a nb ed i v i d e d i n t ot h ef o l l o w i n gs e g m e n t s i f r e q u e n t l y u s e dc h a r a c t e rc o d ea n dt h ec h a r a c t e ro fg b 18 0 3 0 2 t h ed e s i g na n di m p l e m e n to f t h es y s t e mo f m u l t i l a n g u a g ew o r d c u t t i n g 3 t h ea n a l y s i so ft h ea r c h i t e c t u r ea n ds o u n dc o d eo fc l u c e n e 4 h o wt od e v e l o pt h ef u l l t e x tr e t r i e v a ls y s t e mb a s e do ng b18 0 3 0a n dc l u c e n e 5 ,t h es t a t i s t i ca n de v a l u a t i o no ft h ep e r f o r m a n c ee f f i c i e n c yo ft h es y s t e m k e yw o r d s :m u t i l a n g u a g e ,f u l l - t e x tr e t r i e v a l ,i n v e r t e di n d e x ,g b18 0 3 0 ,c l u c e n e 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:牡日期:二竿z 皇7 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:立l 幸刍一导师签 研究生签名:玉j 至导师签 南京邮f u 人学颂i :_ f i j f 究生学位论文 第一章绪论 1 1 研究背景与意义 第一章绪论 随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用,信息高速公路的 基础建设使得人们在获取信息方面的方式有所改变。二十一世纪的人类不再仅仅依赖于报 纸、广播和电视来传播和获取信息。互联网越来越成为人们相互交流和传播信息知识的重 要平台。在互联网上,电子文档的信息每天都在急剧的增加,通过网络人们可以很方便地 共享巨大的信息资源,但是网络资源的快速膨胀,也带了另一个问题。那就是在面对海量 信息的时候,人们如何获取对自身有用的信息。传统的方法是依靠人工的方法检索文章, 对信息进行筛选。但是,这种人工检索方法存在许多的弊端:耗费大量的人力、物力和精 力。网络信息的激增一方面增加了像全文检索这样对于如何有效获取有价值信息的迫切需 求。另一方面又为人类获取详尽具体的信息准备了充分的资源。全文检索技术正越发显示 出优越性,全文检索技术及其相关技术的研究是当前一项自订沿技术热点。 据c n n i c 第18 次中国互联网络发展状况统计报告( 2 0 0 6 年7 月发布) ,中国网民总 人数已达到1 2 3 0 0 力人。在网民获取信息的途径中,通过网络获取信息的占8 2 6 。而在 网民经常使用的网络服务功能这一项调查中,浏览新闻和搜索引擎同时占到6 6 3 ,遥居 第一位。这也证明了网络检索是网民迫切需要的最重要的功能之一。全文检索技术可以 帮助人们更有效、快速、准确地获取知识。功能强大,效率高的全文检索是未来互联网必 然需求之一。 1 2 中外全文检索的发展历史 全文检索技术最早出现于2 0 世纪5 0 年代。世界上出现的第一个全文检索是1 9 5 9 年, 美国匹兹堡大学卫生法律中心建成的法律情报检索系纠2 1 。1 9 7 3 年,美国米德公司面向公 众查询的收录有大量以法律、新闻、商业经济、政府出版物等内容为主的大型全文数据库 l e x i s 的投入使用,标志着全文检索领域的诞生。2 0 世纪8 0 年代以来,英文全文检索发 展得较为迅速和完善,早已成为国外文字型信息检索的主流。9 0 年代以前,搜索技术仅限 于特定的软件系统,如数据库。1 9 9 4 年,华盛顿大学的学生开发了w e b c r a w l e r ,成为互 第1 页 南京邮l u 人学硕i :_ 0 f 究生学位论文 第一章绪论 联网上第一个支持搜索文件全部文字的全文搜索引擎。1 9 9 8 年,斯坦福大学的l a r r yp a g e 和s e r g e yb r i n 开发了g o o g l e 。g o o g l e 的诞生改变了传统搜索引擎的定义,因为它不仅仅 能检索文字信息,还能支持多文档格式,地图股票词典等集成搜索,并支持多语言。据 o n e s t a t c o m 网站于2 0 0 3 年1 2 月2 2 同发布的统计结果,全球使用率最高的搜索站点非 g o o g l e 莫属,全球搜索引擎市场份额g o o g l e 占据5 6 ,y a h o o 占据了2 1 5 。随着搜索 技术的不断发展和更新,国外的搜索引擎市场竞争更加激烈,搜索引擎的技术更加先进。 我国全文检索技术的研究起步于2 0 世纪8 0 年代末,比国外的起步时间晚了整整三 十年。但是我国全文检索技术的发展速度却是惊人的。1 9 8 7 年丌始先后有经济同报全文数 据库、人民同报全文数掘库等几个重要的全文数据库投入使用。从8 0 年代术丌始我国丌 始研究国外全文数据库并结合汉字处理的特点,独立研究适合中文的全文数据库的丌发。 到了9 0 年代,汉字激光照排技术的发明和应用为全文检索技术奠定了技术基础。这就使 得全文检索的研究进入一个发展空间更高的阶段。二十世纪,全文检索在中国是一项萨待 全面崛起的技术。二十一世纪初,有关专家指出自动标引、全文搜索软件丌发、全文后控 词表以及超文本链接技术仍然是全文检索开发与设计技术研究的热点问题。与此同时,我 国的研究人员结合汉字自身特点,研究并提出适合中文的全文检索的各项技术和方案。目 前我国从事全文检索软件开发的专业科研单位已经能够提供相当成熟的解决方案和产品。 如北京的龙卷风科技和天津海量科技。他们的产品已经占据市场一定的份额。这也表明我 国全文检索技术已经进入到成熟的阶段,经过二十年的奋斗缩小了与国外的差距。目日订国 内常用的搜索引擎主要有g o o g l e 中国、百度、中搜等。 1 3 全文检索发展现状和趋势 目自仃,国内外全文检索技术都已经达到成熟应用的阶段。在国外,众多门户网站都有 搜索引擎功能,这些搜索引擎主要就是支持目录导航和全文检索。利用s p i d e r 或c r a w l e r 有选择地收集信息并自动分类,周期性更新数据存储。对检索结果进行算法优化和选择性 过滤,向用户提供查询的自然语言接口,支持海量数据管理和快速搜索。国外搜索引擎的 发展已经表现出很好的稳定性和成熟性。 在国内,由于全文检索技术的研究比国外起步晚,现还正处在发展阶段。由于汉语与 英语这两种自然语言的差异性很大,中文全文检索决不是英文全文检索的简单汉化过程。 中文全文检索的实现在基本原理上和英文差不多,但还是有很多技术上的差别和特殊性。 这些技术包括中文分词技术、中文摘要技术、汉字编码转换技术、中文信息过滤技术等。 第2 页 南京邮i 【1 人学顺i ? 研究生学位论文 第一苹绪论 自然语言的复杂性使得全文检索实现也变得复杂。近年来,面对国内中文信息处理技术的 空白和落后,我国政府加大投入了对中文信息处理的研究,同时由于市场的需要和经济利 益的驱动,不少科研单位和i t 公司加大了对中文信息处理方面软件的研究和开发,并推出 了许多商业化的应用软件。政府和民间的力量同时促进了科技的进步。如天津海量科技公 司的中文分词技术在国内赢得了很高的评价,也赢得了与微软合作的机会。北京龙卷风科 技公司的全文检索技术在业内获得了认可并成功服务于8 0 0 多商家和企业。同时国家信息 产业部和国家质量技术监督局不断更新汉字编码规范,从8 0 年代仅包含简体汉字编码的 g b 2 3 1 2 到包含繁体汉字编码的g b k 再到现在的g b l 8 0 3 0 ,每一次的编码规范更新都标志 着我国中文信息处理技术的进步。这些自然语言处理技术的进步为中文全文检索的发展奠 定了良好的基础。目前我国全文检索相对于其他检索系统的优势还是比较突出的。 1 ) 具有很高的查准率和查全率。由于全文检索可以对文本中的每个字或词甚至于 语句进行标记,在检索时可以渗透到每一级深度。而语义级别的过滤使得检索的结果更加 精确。 2 ) 可实现计算机自动标记。由计算机精确查询并自动标记目标字词句。提高了标记 速度。相对于以前人工标记提高了效率和准确率。 3 ) 功能灵活强大可扩展。可由以自订单一的单词或单字检索扩展到现在逻辑检索、模 糊检索和通配符检索。检索功能可以灵活扩展,更加符合人们的使用习惯。 4 ) 系统的通用性和可扩展性好。一个独立的全文检索模块可应用于b s 结构,也可嵌 入到c s 结构中。可当作单机使用也可分布式网络使用。具有良好的独立性,宜于扩展。 从以上的分析可以看出,无论是国内还是国外的全文检索技术都已经处在一个市场应 用的成熟阶段。简单的搜索功能的实现都已经变得非常容易。那么全文检索技术的发展是 否到此为止了昵? 答案是否定的! 事实上全文检索技术还要往更深的方向发展。具体包含 以下几点: 1 ) 向智能化方向发展。传统的全文检索一般都是通过字符串匹配来查找相应的结果。 这样的检索结果可能不会出现太大的错误,但是准确度却不会太高,垃圾信息冗余信息太 多。智能化的检索根掘用户的输入条件直接对索引文件进行多方位多角度的检索。它的检 索目标是自动根据用户的提示而搜索出相关的文档。如用户搜索“喜欢”这个词,如果源 文件中确实不存在这个词,那么包含“喜爱”这个同意词也可以作为检索结果。因为人的 记忆可能存在偏差,也许他要搜索的正是“喜爱”,而不是“喜欢”。智能化检索应该更多 以人工智能和自然语言处理技术为基础。目前基于文本的关键词智能检索的系统工作原理 是智能a g e n t ,它以用户需求为先导来进行信息搜索与信息加工,根据用户特定的需求和 第3 页 南京邮【i 人学倾i :研究生学位论文 第一苹绪论 以及在一段时间内的偏好为衡量标准来筛选信息,用户界面提供友好的自然语言查询。这 种智能化的检索方式将会大大提高检索效率,提高检索精度,是全文检索发展的必然趋势。 2 ) 向多媒体方向发展。传统的全文检索大多基于文本信息为内容。以前的操作系统和 应用软件比较简单。一般信息都是以文本为存储方式。随着互联网的普及和多媒体技术广 泛应用,信息资源己不仅仅局限于文本,而更多地以图像、音频、视频等多媒体形式出现。 多媒体信息检索成为继文本检索之后用户的迫切需求。多媒体信息检索大致可分为两类, 一类是基于文本方式的多媒体信息检索,即先用文本对多媒体进行标注,标注文字是对多 媒体语义内容的精确描述。然后对标注文字做索引。另一类是基于内容的多媒体信息检索。 它是对多媒体数据所蕴涵的物理的和语义的内容进行分析理解,以方便用户查询。其本质 是对无序的多媒体数据流结构化,提取语义信息,保证多媒体内容能被快速检索。对多媒 体信息分析要对蕴涵在多媒体数据流内的所有媒质特征进行分析。对这些媒质提取特征后, 就可以使用这些提取的特征来表征原有媒质,进而将连续的多媒体数据流分割成有语义信 息的单位,最后将这些语义单位识别分类成先自仃定义的模板类型,为它们建立索引。 3 ) 向运用知识库方向发展。传统的全文检索功能比较简单,对检索的关键词要求非常 严格,有可能因为用户在输入关键词时打了错别字或者记错名字而使得简单呆板的关键词 匹配查询结果为空或是冗余信息。因为计算机对自然语言的处理仅仅在语法这一层。计算 机无法深层次地从语义的层面上解决问题。而建立知识库就是为了赋予计算机智能的辨别 对与错的能力,使得电脑尽量像人脑一样思考问题。知识库的支持使得全文检索能够在对 蕴含在信息中的知识和知识关联进行分析的基础上,实现语义层面上的智能化检索。 1 4 搜索引擎分类 搜索引擎根据数据存储和实现原理不同大致可以分为三类:基于目录的搜索引擎、元 搜索引擎和全文检索搜索引擎p 】。目录式的搜索引擎是最早的一种实现方式,主要应用于 数据库索引中。这并不是严格意义上的搜索引擎,用户即使不通过关键词搜索直接通过目 录查找得到相应的信息。这种技术虽然已经过时,但是在某些数据库应用或者文件系统中 还是有应用价值的。元搜索引擎是建立在已有搜索引擎服务之上的一种搜索引擎。它通过 调用其他搜索引擎来完成检索任务。元搜索引擎具有结构清晰,搜索效率高,分御式功能 强大的优点。而目自仃我们常规意义上所说的全文检索搜索引擎是基于r o b o t 或s p i d e r 的搜 索引擎。它是特定适用于计算机网络上的搜索技术。其原理为由智能化的网络蜘蛛或网络 爬虫以某种策略自动在因特网上搜集信息,并对搜集到的信息建立索引并存放在数据库 第4 页 南京邮i 【1 人学硕i :o f 究生学位论文 第一章绪论 中,当用户输入关键词检索的时候,检索器根据用户查询要求检索索引数据库,查找匹配 的文档并将结果返回给用户。全文检索搜索引擎才是真正意义上的搜索引擎。 1 5 课题来源和本人工作 本文所涉及的课题来源于国家某部级重点项目。该项目是一个大型的数据智能挖掘系 统。在本项目中,对多语种信息处理是所有挖掘行为的前提和基础,是重中之重。部委领 导多次叮嘱我们要注重国家自主知识产权丌发,要研制中国创新型软件。因此我们决定用 g b l 8 0 3 0 为编码来实现多语种信息的处理。先后研发了多语种分词组件和多语种全文检索 组件。前者的部分功能又是后者实现的前提和基础,可谓一脉相承。在丌发全文检索的过 程中,我们利用现国际上流行的c l u c e n e 软件包作为工具进行开发。c l u c e n e 良好的架构组 织和优越的性能是我们学习和借鉴的目标。对c l u c e n e 的研究和丌发也能启迪我们的思路。 在本课题的研究过程中,本人所做的工作陈述如下:( 1 ) 研究各字符编码的特性,尤 其是g b l 8 0 3 0 编码的特性。( 2 ) 开发基于g b l 8 0 3 0 的多语种分词组件,编码实现。( 3 ) 研究和分析c l u c e n e 架构和内部实现,分析索引文件格式。( 4 ) 丌发基于g b l 8 0 3 0 的多语 种全文检索组件,编码实现。 1 6 本文组织 全文共分六个章节,内容组织如下: 第一章主要阐述了国内外全文检索的发展历史和现状。对全文检索搜索引擎的未来发 展趋势做了方向性的预测和概括总结。提出了利用g b l 8 0 3 0 为编码实现多语种全文检索的 想法。 第二章主要对字符编码技术分析和研究。分析了i s o i e c l 0 6 4 6 和u n i c o d e 体系结构和 编码方案。并对g b l 8 0 3 0 编码做了详细的研究。为后面章节论述的多语种分词和多语种全 文检索的实现做了很好的理论基础准备。 第三章主要对多语种分词技术做了详细的论述,除了对分词技术的理论进行全方位的 描述,还阐述了多语种分词组件的实现。多语种分词组件是多语种全文检索功能实现的前 提和基础。所以陔章既是一项技术难点,还是后面章节的铺挚。 第四章主要对现今国际流行的全文检索功能包c l u c e n e 系统架构和内部实现做了深入 的剖析和探索。尤其对c l u c e n e 的索引功能和检索功能做了详细的阐述。然后解析了索引 文件格式。对索引文件的内部存储和字节顺序做了详细的解释。更能显示c l u c e n e 的卓越 第5 页 南京邮i u 人学硕l :4 i j f 究生学位论文第一辛绪论 性能。也为第五章全文检索系统的实现论述了理论依据。 第五章是本文最关键的章节,是我们工作的重点描述,也就是论述了如何实现全文检 索系统。利用c l u c e n e 实现的基于g b l 8 0 3 0 的多语种全文检索。我们一年多辛勤劳动的结 果也就体现在该章节的最终实现上。 最后对我们实现的系统的性能和效率进行了实验,并给出相应的数据。并对下一步工 作的重点进行了展望。 第6 页 南京邮i 【1 人学顺l j 研究生学位论史第二章。,符编码技术及汉7 编码标准 第二章字符编码技术及汉字编码标准 2 1 字符编码概述 当计算机应用从单纯的数学计算延伸到信息处理时,字符编码这个概念必然要登上历 史舞台。因为文字是信息的载体,而字符是组成文字的最基本元素。遗憾的是计算机并不 像人一样能够认识各种各样的文字,它也不专属于哪个国度。没有人听说过这样的论断: 英国的计算机认识天生就认识英文,而中国的计算机天生就认识中文。通过制定字符编码 标准,在人类的自然语言和计算机内部之间建立沟通的桥梁。 计算机处理文字信息的最基本单元是字符,比如英文字符“a ”。其实计算机并不认识 字符“a ”。在计算机中,字符“a ”用特定的数字来表示,而计算机只认识用来表示“a ” 的这个特定的数字。字符编码就是指用特定的数字来表示某个字符。字符编码必须遵循一 定的标准和规范。通常一个编码字符标准有以下三个元素组成: 1 字符集合l 。例如:常用英文字符集合l 。= a ,b ,c z ,a ,b z ,+ ; 2 码值空间集合m 。例如:a s c i i 码值空间集合m 。= f 0 ,l ,2 2 5 5 ; 3 字符到编码值的映射f o 例如从英文字符到a s c i i 码的映射,厶q m , 码值空间中的值在计算机中可以用定长或变长的字节实现。一个字节可以表示无符号 整型数o 一2 5 5 ,就可映射到2 5 6 个字符。两种不同的字符编码标准在三个元素中必定有一 个元素是不同的。 由于最初在制订字符编码标准的时候,各个政府和厂家都以各自为标准,所以字符编 码种类繁多,既不规范也不完整。例如美国把a s c i i 编码作为美国国家标准,而i b m 的 e b c d i c 编码也是业内认可的编码。字符编码技术和编码字符集标准经过了长期的发展,人 们终于发现有两个难题需要克服。一是如何解决同种语言不同编码的兼容性;二是如何解 决不同语言编码的统一性。为了提高计算机的信息处理和交换功能,使得世界各国的文字 都能在计算机中处理,国际标准组织于1 9 8 4 年4 月成立i s o i e c j t c i s c 2 w g 2 工作组, 针对各国文字、符号进行统一编码,制定标准,但进展较为缓慢。在i s o 着手制订标准的 同时,软件制造商的协会( u n i c o d e o r g ) 也意识到迫切需要建立统一的编码规范来服务于软件 行业。1 9 8 7 年他们丌始制订u n i c o d e 标准,并广泛应用到计算机软件当中。此后两种编码 标准各自发展着,直到1 9 9 1 年,双方都认识到世界不需要两个不兼容的字符集。于是它 第7 页 南京邮f u 人学硕f :研究生学位论文 第一二章字符编码技术及汉宁编码标准 们丌始合并双方的工作成果,并为创立一个单一编码表而协同工作。从u n i c o d e 2 0 丌始, u n i c o d e 项目采用了与i s o1 0 6 4 6 1 相同的字库和字码。 2 2i s 0 i e c l 0 6 4 6 标准 从1 9 8 4 年起,国际标准化组织就丌始研究制订满足多文种信息处理要求的国际通用编 码字符集。1 9 9 3 年发布i s o i e c l 0 6 4 6 国际编码标准的第一个版本i s o i e c l 0 6 4 6 1 :1 9 9 3 , 名称为通用多八位编码字符集( u n i v e r s a lm u l t i p l eo c t e tc o d e dc h a r a c t e rs e t ,u c s ) 。之后不 断更新版本。最新的版本为1 0 6 4 6 3 :2 0 0 3 。 2 2 1u c s 的体系结构 i s 0 1 0 6 4 6 定义了通用字符集( u n i v e r s a lc h a r a c t e rs e t ,u c s ) 。u c s 是所有其他字符集 标准的一个超集。它保证与其他字符集是双向兼容的。i s 0 1 0 6 4 6 字符码的f 规形式为3 2 位( 简称位u c s 4 ) ,划分成4 个八位组分别为g o c t e t 、p o c t e t 、r o c t e t 、c o c t e t ,分别代 表编码结构中的组g r o u p 、平面p l a n e 、行r o w 、位c e l l 。i s 0 1 0 6 4 6 规定其字符码的b 3 2 必 须为0 ,因而整个编码空间可区分为1 2 8 个组,每一组由2 5 6 个平面所组成,每一个平面 由2 5 6 行所组成,每一行则包含2 5 6 位,为一个编码位置。除此之外,i s 0 1 0 6 4 6 还规定 每一个平面的最后两个编码位置保留不用。 i s 0 1 0 6 4 6 编码空问共有1 2 8 2 5 6 = 3 2 7 6 8 个平面,每个平面有2 5 6 2 5 6 - - 2 = 6 5 5 3 4 个编码位置。故共有2 0 多亿个码点可以使用,足以满足世界上所有自然语言文字字符的 编码需求。如图2 1 所示,在u c s 各平面中0 0 组o o 平面称为基本多语种平面( b a s i c m u l t i l i n g u a lp l a n e ,b m p ) 。b m p 定义了绝大多数常用字符。包括字母,音节,各种符号及 数字等。 第8 页 南京邮l u 人学倾i j 研究生学位论文第二帝7 符编码技术及汉! # 编码标准 图2 lu c s - 4 基本平面组图 被编码在1 6 位b m p 以外的字符都属于非常特殊的字符( 比如象形文字) ,且只有专家在 历史和科学领域旱才会用到它们。基本多语种平面已经能够满足普通使用需求。 u c s 的实现机制非常灵活,i s 0 1 0 6 4 6 指定了下列三种实现级别。各系统可根据字形的 复杂程度选择不同的实现级别。 级别l :不支持组合字符和h a n g u lj a m o 字符( 一种特别的,更加复杂的韩国文的编码, 使用两个或三个子字符来编码一个韩文音节) 。 级别2 :类似于级别l ,但在某些文字中,允许一列固定的组合字符( 例如,希伯来文, 阿拉伯文,孟加拉语,果鲁穆奇语,g u j a r a t i ,o r i y a ,泰米尔语,t e l u g o ,印埃纳德语, m a l a y a l a m ,泰国语和老挝语) 。如果没有这最起码的几个组合字符,u c s 就不能完整地表 达这些语言。 级别3 :支持所有的u c s 字符,例如数学家可以在任意一个字符上加上一个t i l d e ( 颚 化符号,西班牙语字母上面的) 或一个箭头( 或两者都加) 。 2 2 2is o 的编码方案 i s o 标准已经表示了所有可能字符并统一编码,码位就可作为字符在机器内部的表示。 i s 0 i e c l 0 6 4 6 使用两种标准形式的编码方案。分别是u c s 一2 和u c s - 4 。 u c s 一4 使用四个字节表示一个字符。四个字节分别就是该字符所在组号、平面号、行 号、位号。 u c s - 2 是双字节的编码字符集,对应于b m p 。由于b m p 特殊的位置,0 0 组和0 0 平面使 得处在该平面的字符的u c s - 4 的前两个字节都是0 ,所以省去前面的0 就变成了双字节。 第9 页 南京l i l i l u 人学硕i :研究生学位论文 第一二章,符编码技术及汉宁编码标准 u c s 一2 本质上是u c s - 4 的特殊情况。 除了i s o 的标准形式的编码方案,还有其他一些方案可以使用。主要是u t f 一8 、u t f 一1 6 和u t f - 3 2 等等。 2 3u n i c o d e 标准 u n i c o d e 未产生之前,编码标准繁多复杂,但却没有一种编码可以包含足够的字符。 也没有哪一种编码可以适用于所有的字母,标点符号,和常用的技术符号。这么多的编码 标准互相冲突。有可能是两种编码使用相同的数字代表两个不同的字符或者使用不同的数 字代表相同的字符。计算机总需要支持多种编码,当数据通过不同的编码和平台之间时有 数据损坏的危险。u n i c o d e 正是为了改变这一切而产生的。u n i c o d e 可以包含当今世界使 用的所有语言文字和其他符号,也足够容纳绝大多数具有历史意义的古文字和符号。不仅 如此,u n i c o d e 还不会和其它编码冲突。u n i c o d e 给每个字符提供了一个唯一的数字,不 论是什么平台,不论是什么程序,不论什么语言。 2 3 1u nic o d e 的编码格式 在u n i c o d e 标准中,编码空间的整数范围是从o 到i o f f f f ( 1 6 进制) ,共l ,1 1 4 ,1 1 2 个可用的码点。为了与已有的编码标准兼容,一些抽象字符可能会与多个分别编码的字符 关联。而在其他一些情况下,一个抽象字符可能会用两个( 或更多) 编码字符序列来表示, 如带重音符的字母。u n i c o d e 标准提供了三种不同的编码格式,使用8 位、1 6 位和3 2 位 编码单元,分别为u t f 一8 、u t f 一1 6 、u t f 一3 2 。 u t f - 3 2 是u n i c o d e 编码格式中最简单的一种。每个u n i c o d e 码点被直接表示为一个3 2 位的编码单元。四个字节的固定宽度的字符编码格式。每个u t f 一3 2 编码单元的值与u n i c o d e 本身码点的值完全相同。 u t f - 1 6 采用宽度可变编码格式。在范围u + 0 0 0 0 到u + f f f fl 日j 的码点使用一个单一的1 6 位编码单元表示:而在范围u + 1 0 0 0 0 到u + i o f f f f1 白j 的码点则使用一对1 6 位编码单元表示。 u + 0 0 0 0 到u + f f f f 范围内的字符是基本多语种平面中字符,该范围包含了目日订世界上所使 用的书写系统中的绝大多数字符,每个字符只需要一个1 6 位的编码单元,但对于增补字 符,u t f - 1 6 需要两个1 6 位的编码单元。 u t f - 8 采用8 位编码单元的变宽的编码格式。在u c s 范围从u + 0 0 0 0 到u + 0 0 7 f 之间的 字符被编码为字节o x 0 0 到o x 7 f ,与a s c i i 完全一致。所有大于u + 0 0 7 f 的u c s 字符被编 第1 0 页 南京邮电人学硕i :o f 究生学位论文 第- 二章符编码技术及汉,编码标准 码为一个多字节的串,从长度2 字节到6 字节不等。在这些变长的编码串中,第一个字节 的首几位为连续的二进制数1 。有n ( n p ( b c ) ,则切分成a b c 。这种方法的缺点是只考虑词频,出现频率较低的 词总是被错误地切分。 另外,如果考虑词的上下文的来考察词的概率分布,还有n 元文法、n - p o s 、决策树、 隐马尔科夫模型等方法。 3 2 3 基于理解的分词方法 这种分词方法是通过让计算机模拟人对语言的理解,建立语言模型来描述自然语言的 规律。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处 理歧义和未登录词的现象。为了理解中文语言处理,我国的的语言学家们建立了很多的语 言学资源,如北京大学的现代汉语语法信息词典等。目日,j - 研究比较成熟的是句法分析, 主要的语法理论基础有乔姆斯基( c h o m s k y ) 文法理论和特尼埃尔的依存语法、菲尔戈的 格语法、l a n g a c k e r 的认知语法等。然而,基于中文处理的复杂性,语法理论在实际中的 应用还是处于探索研究阶段,大多数时候依然只是作为一种辅助的手段来提高分词的准确 第2 l 页 蚺= 章多日种丹l q 技术 圭 33 多语种分词组什设计与实现 3 31 总体设计及功能描述 总体设计目标是: 1 ) 能f 确切分中文简体、繁体、英文、韩文、日文( 共5 种) 。 2 ) 对于上述5 种以外的文字如维、减文,若不能切分则分字,不能丢失信息。 3 ) 支持自定义词。用户可添加自定义词到词库,系统便可识别该词。 4 ) 夸平台编详使用,支持w l n d o w s 、u n ix 、l i n u x 。 j ) 可扩展性。对系统暂时不处理的字符区域,留有接门,以便将柬处理。 幽3 - 4 分词系统流料幽 第2 2 页 南京邮i 【1 人学硕i :研究生学位论文 第二三章多语种分词技术 3 3 2 具体实现 用c c + + 语言开发多语种分词程序。分词的主要算法是最大匹配算法。将词库装入内 存中,根据不同的语种查找不同的词库。遇到其他语种的时候原信息输出。并用结构体保 存每个词的信息,用于进一步的信息处理。由图l 可以看到文本是按照字节来处理的。由 于自定义词没有规律且字长变化很大,故先用自定义词匹配。如若匹配不成功则判断首字 节是否是a s c i i ,如果是则按照单字节来处理。处理的规则是如果是英文则英文原样输出, 其他空格隔丌。如果首字节不在a s c i i 编码范围之内,判断前四个字节是否在四字节的编 码范围之内。如果是,则取4 的倍数个字节来匹配:如果不是,则转向双字节区处理。 下面给出用m m 算法来实现的多语种分词的伪代码,由于源代码较长,这里不再给出。 参数p s r c 是指向源字符串的指针。返回值p r e s u l t 是指向结果字符串的栈指针。 c h i n 4 o r d s c g m e n i m m ( c o n s lc h a j 4 p s i c1 ; j :z n i : - :i c r * p r c ;u l t ;声返| f ;,j i t l 激 聃h i l tf 怂f f 越发一矗二碹。 睡;5 羹! 、 : 矗处理| ,j j t 艾列歼始 p l 蔓 :| , j t 欠! t ,j 巧:i r f 曩j i i ,奠 激 j , 为l 嗄颤l 城c o n l i l l l l c ,f | j ! 狲:跛f 卜t 设 ? 玻i l i 定义列绻墩 处跨 - | i j 。:扩,玢a s c i i i j ( m l s i g l l c do h m p s r c l i n d e x l 。1 2 8l 蜒,0 j 耖p s t 。c 黪p i ip r c s u l t : : j 处蟛蹦j 。:j ? j :;j0 x 9 1 o x l :f1 1 x 3 1 1 一o x 3 qo 、8 l 一 l x l i i :( ) x j 1 o x ) ? jl ! t ,:5 44 j j j 7l2 q 一2 5 44 8 - j 7 c | 、k :; lu n , , i g i l c d 。h dj j j p 、r 。l i n d e x l 。12 q & & ( u n i g u c dc h a r ) p 。c l i n d e x ll ,4 r & & f l l l i ,i 譬 r ( id 1 j r ) 1 1 l 。c li n d e x 。lr5 7 & & fu n s i g n e dc h a , p s r c li n d e x :l r i2 9 & u n s i g n e dr h ;l r ) f ) s k l i n d c x ,3 卜4 8 & ( u n s i :n c dc h a r ) p , , ;r c i i n d e x 3 l 。j 7 , ; i f ( 警 。疑2 。j ij 声俄板j 搬。,彳。编l 曩七列噬 f 犯l jj f 1 6 个一1 7 l j t 燕! ( 41 、十t 。,) , 疋j 力骧c o t l l i n l l c : 小j i 鲻i : 移:遵碱4 个,l i i 燕:l i 为i t 个l ,。厂: i ,i s ci j ,i 一i :一0 l t 乏l 介j i : c l s c 第2 3 页 南京邮i 也人学硕l :研究生学位论文 f 小珏j i ;j 呔7 。锔j i ;! 挺,档:j 疋;: ? 铨心! ,1 7 。;i j 0 、8 i o x f e :0 入4 0 0 x 7 co k zo x r i - o x f c :( j x r f j o x f e 董j 刍 :、擎 耷t 己、 l 殳 1 2 9 - 2 5 46 4 一i2 01 2 q 2 5 41 2 8 - 2 5 4 7 7 越:疆鼓+ r : jl j 、( c l ci l l ( u n s i g n e dc h a r ) p j j r c l i n d e x p 。1 6 1 & & ( u n , , i 、o n c dc h a r i p c l i n d e x l f r e ( s e g 2 ) ,则分法1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论