




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)基于tts的web浏览器.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 现代社会已经进入数字化信息时代,网络技术和多媒体技术获得迅猛发展,计算机与人 之间的交互日益频繁,人们通过i n t e r a c t 获取各类知识、信息。伴随着i n t e m e t 技术的发展, 人们对w e b 的需求不断增加,单纯阅读方式的w e b 浏览器已经不能满足人们的需要。基 于t t s 的w e b 浏览器,就是在这样一个契机下,由w e b 技术同语音合成技术相结合的一 个必然产物。 基丁t t s 的w e b 浏览器就是基丁t t s ( t e x t t o s p e e c h ,文语转换) 技术的,建立在 i n t e m e t 环境上的浏览器。它的设计与实现是一个比较复杂的系统工程,需要多种技术的支 持,这些技术包括最常用的w e b 技术,最基础的中文信息处理技术、人工智能,以及必须 用到的中文语音合成技术。 本文首先从w e b 技术着手,系统地概述了基于t t s 的w e b 浏览器系统中涉及到的常 用w e b 技术,包括:h t t p 协议、h t m l 语言等。然后对当前的中文信息处理技术进行了 分析,介绍了当前的多种中文编码规则、单词切分技术:之后引入了对t t s 系统的介绍, 从语音合成技术入手,分析了t t s 系统的功能特性,并对当前汉语t t s 系统的发展现状进 行了分析。最后,通过一个初步实现了的基于t t s 的w e b 浏览器系统实例,论述了该系统 的系统分析、设计与实现的全过程。 关键字: 语音合成技术文语转换系统单词切分技术汉字编码h t m l a b s t r a c t w i t ht h ec o m i n go ft h ed i g i t a li n f o r m a t i o ne r a ,n e t w o r ka n dm u l t i m e d i at e c h n o l o g ya r e d e v e l o p i n gi nat r e m e n d o u ss p e e d t h ei n t e r a c t i o nb e t w e e nc o m p u t e ra n dm a n i n c r e a s e sg r e a t l y t h r o u g ht h ei n t e m e t ,p e o p l eg e t a l lk i n d so fk n o w l e d g ea n di n f o r m a t i o n a l o n gw i t ht h e d e v e l o p m e n to fi n t e m e tt e c h n o l o g y , p e o p l eh a v em o r ea n dm o r ed e m a n d so nw e b t h ew e b b r o w s e rt h a tc a no n l yb er e a dc a n n o tm e e tp e o p l e sr e q u i r e m e n t s s o ,t h ec o m b i n a t i o no fw e b t e c h n o l o g ya n ds p e e c hs y n t h e s i st e c h n o l o g y r e s u l t si nt h et t s - b a s e dw e bb r o w s e n t h et t s b a s e dw e bb r o w s e ri sb a s e do nt e x t - t o - s p e e c ht e c h n o l o g ya n di sb u i l t u p o n i n t e m e te n v i r o n m e n t i t sd e s i g na n di m p l e m e n t a t i o ni saf a i r l y c o m p l e xs y s t e me n g i n e e r i n g , w h i c hn e e d st h es u p p o r t so f t e c h n o l o g i e si n c l u d i n gt h em o s tp o p u l a rw e bt e c h n o l o g y , t h eb a s i c t e c h n o l o g y o fc h i n e s ei n f o r m a t i o n p r o c e s s i n g ,a r t i f i c i a li n t e l l i g e n c e ,a n d t h e n e c e s s a r y t e c h n o l o g yo f c h i n e s es p e e c hs y n t h e s i s t h i sp a p e rs t a r t sw i t hw e bt e c h n o l o g y , d i s c u s s e dt h ec o m m o n l yu s e dw e bt e c h n o l o g i e s w h i c hi n v o l v e di nt h et t s b a s e dw e bb r o w s e rs y s t e m i c a l l y , i n c l u d i n gh t t p p r o t o c 0 1 h t m l l a n g u a g e ,a n ds oo n t h e n ,i ta n a l y z e st h ec u r r e n tc h i n e s ei n f o r m a t i o np r o c e s s i n gt e c h n o l o g y , i n c l u d i n gm a n y c h i n e s ec o d i n gr u l e sa n dw o r ds e g m e n t a t i o nt e c h n o l o g yn o w a d a y s a f t e r t h a t ,i t i n t r o d u c e st h et e x t - t o s p e e c hs y s t e m ,s t a r t i n gw i t hs p e e c hs y n t h e s i st e c h n o l o g y i ta n a l y z e st h e f u n c t i o n a lf e a t u r e so ft t s s y s t e ma n dt h el a t e s td e v e l o p m e n to fc u r r e n tc h i n e s et t ss y s t e ma t l a s t ,b yas i m p l ei n s t a n c eo f t t s b a s e dw e bb r o w s e r , t h i sp a p e rd i s c u s s e st h ew h o l ep r o c e s so f b u i l d i n gs u c has y s t e m ,i nw h i c h i n v o l v e ds y s t e m a n a l y z e ,d e s i g na n di m p l e m e n t a t i o n k e y w o r d s : s p e e c hs y n t h e s i st e c h n o l o g y t e x t - - t o - - s p e e c hs y s t e m w o r d ss e g m e n t a t i o n t e c h n o l o g y c h i n e s ec h a r a c t e r sc o d i n g 基于t 1 l s 的w e b 浏览器序言 序言 徨意技术革命改燮著整器,诗冀撬产鲎起蓬勃发震给各国繁来了巨大静辊逶鞠攘战。i n t e r a c t 作为 未来社会基础结构的原型,其影响正在前所未有地超过现有的任何技术】。同时,由于新技术和新方 法的不断引入,i r l t e m e t 正处于技术熙新期,发生辫历史性的转变,人们的生活也随之发生着臣夫的变 纯。 万维网( w o r l dw i d ew e b ) 是一种建立在i n t e r n e t 上的网络服务,随着i n t e m e t 应用的逐渐普及, w w w 已经发展成为一个巨大的信息空间,人们通过w e b 浏览器可以浏览不同的w e b 页面,阅读各 类耨涟、信息,获褥各方瑟魏絮识。篷是,藏嚣稳为盘,a 农哭女够著网络囊趣,还遣置不裁断睡络 新闻,这一需求要墩人们改变当前w e b 浏览器的浏览方式,也就是设计一种可以边看边听的测览器 撼于t t s 的w e b 浏览器。 攀孳:秘1 s ( t e x t - t o - s p e e c h ,文语转换) 静w e b 巅菱器是隧罄i n t e r a c t 豹袭麟嚣产生戆。该系统 利用t t s 技术,建立一个能看能昕的w e b 浏览器。让网络_ l ;f j 户柱阅读w e b 页面信息的同时能够听 到同步朗读的声音,提高人们获得信息的准确度。这样一个系统的开发涉及到多方面的因素,谯开发 过程中溉要考虑如何执中文w e b 舞嚣孛获褥信息,还要考瘩对这些中文信息避纷处理,著且对遮些 中文倍怠文本进行文语转换,合成中文语音,同劳播放。无疑这样一个系统是复杂盼。 构建一个这样的系统,首先需要对当前的w e b 技术、h t m l 语言都有所了解,其次就是商语音 台袋技术戆支接。h t m l 语言是标记语言,也是拳竣范诧懿语言,瓣藏双h t m l 文搀孛获致嫠感文奉 是可行的。那么,另外需要考虑的就是语音合成技术的可行性问豚了。语音合成系统是一个能够将文 字转换为语音输出的系统,当前技术相对比较成熟的语音合成系统就是t t s 文语转换系统。要对 汉语文本避行文语转换,酋要的闯越藏是能够对汉语文本进行识剃,也就是涉及到中文信息始瑗方嚣 蘸一麓技术,包括中文黪编码蔑刚、汉语文奉的攀镯龆分技术等:其次,藏是对文本进行语音合成的 问磁了。目前,t t s 系统中采用的语啬合成算法缀过多年的发展融经可以走出实验室,进入实用化阶 段,汉语t t s 系统也已经有相当的进展,可以考虑将该项技术应用于实际的系统。 糨信这样一个能够边听边看静新型溺览器系统蹩可鞋实瑷,并盖其有j “泛的成用前景 藩于日苫麴w e b 测菱嚣第一章w e b 拄术 第一囊w e b 技术 l 。lw e b 简介 1 1 1i n t e r n e t 发展现状 i n t e r n e t 瞧称国际互连潮,它是蠢美嚣鞫防部毫缓磊嚣究诗鬣届d a r p a ( d e f e n s ea d v a n c e d r e s e a r c h p r o j e e t sa g e n c y ) 的前身越冲a 所建立的a r p a n e t 发展谳来的】。在1 9 8 3 年1 月1 舀t c p i p 成为 a r p a n e t 上唯一的官方协泌,n s f n e t 与a r p a n e t 互连之后,真上e 意义的i n t e r n e t 出现了 1 3 1 。i n t e r a c t 是目翦世界上最大的计算机网络,它成功地鳃凌了不同硬传平台、不同鼹络结构帮不同操作系统之闻 的兼容惶闯题。觚瓣络通德的蹙度来看,i n t e r a c t 跫一个戳t c p i p 弼络协议连接各个黼家、备巾迪 r 、各个机构的计算机网络的数据通信网。它采用的t c p i p 协议和客户机朋r 务器方式使它具有很大 的灵活性,扩充极为容易,加上其它一些极凰特色的技术使它在全球得以快速流行。从信息资源的角 度来看,i n t e m e t 是一个集各个帮门,各个镁域艟套释馕患蚤滁麓一嚣,供瓣上鬟户共享戆绩惑瓷源蕤。 t c p i p 使i n t e m e t 成为可与垒球的电话服务网络媲美的全球通用服务。 对于i n t e r a c t 上的主机而京,如果它具梅t c p i p 协议栈,那么拥有i p 地址就能够向i n t e r a c t 上的 餐餐其它撬嚣发送臻皂5 “】。嚣翦,在i n t e r n e t 上掰提供豹务帮应霜主要蠢w w w 、f t p 、e - m a i l 、 t e l n e t 、n e w s 镩等。今天的i n t e m e t 已经远远超过了一个网络的涵义,它鼹一个信息社会的缩影。就 全世界范围莉瓷,没有人能知道i n t e m e t 目前的确切规模,i n t e m e t 提供了一个规模空前的阻连网络, 它所形成的新的生活蕊念将掩续遗发展和影响社会生活”】。 1 1 2w w w ( w o r l dw i d e w e b ) 简介 w wr ( w o r l dw i d ew e b ) 也称为万绒艇,它是由欧洲核箍研究中心“歼发鲍,建立在i n t e m e t 上 的垒球性豹、交互麓、动态、多平台、分毒戏萄文信息系统。它的出现使i n t e m e t 瑶、文、声并茂, 因此成为最为流行的信息检索服务方式。w w w 通过超文本的方式,提供了在信息网络内从一个文献 避速转移到另一个文献的手段,把全世界i n t e r a c t 上不同地点的相关信息有机地结合起来。此外,i n t e r a c t 瓣臻多其它葫畿,蟊e - m a i l 、t e h a e t 、f t p 、w a i s 等,都霹菇遥过w w w 方便雏实瑗。 通常用户对于w w w 的访问是通过浏览器进行的,w w w 浏览器不仪可以浏览简单的文本,而且 可以浏览图像、动画甚至可以听音乐、看电影。当前流行的常用浏览器软件有n e t s c a p e ( 网景公司) 豹n e t s c a p e c o m m u n i c a t o r 、n c s a 戆m o s a i c 、s u n 公司瓣h o t l a v a 寂m i c r o s o f t 瞧i n t e m e te x p l o r e r 等。 目前应用最j “泛的应该是m i c r o s o f t 的i n t e r a c te x p l o r e r 。 万维网的_ 开发最初是为了在科学家之间必辜成果,它最基本盼概念就鼹h y p e r t e x t ( 超文本) 。 在w w 谨孛使麓瓣是超文本臻输镑议h t t p ( h y p e r t e x t t r a n s p o r t p r o t o c 0 1 ) 。当潮菱菜个w w w 骚 务器时,在屏幕上最先显示的页叫做该服务器的主页( h o m e p a g e ) ,浏览就是从这儿开始的。制作 纂予弼熬w e b 潮筵器鳞章w e b 菝术 主页时使用的是超文本标记语畜h t m l ( h y p e r t e x t m a r k u pl a n g u a g e ) 或j a v a 语言。h t m l 是一种 w w w 描述语畜,使用非常方便。 w e b 是种超文本信息系统,它的一个主要概念就是超文本链接,它使得文本不苒像一本书一样 是固定的、线性的,而是可以在不同的位置之间进行跳转。现在w w w 的应用已经远远超出了原来的 设想,成为i n t e r a c t 上最受欢涎的应崩之一,它的出现极天土毳促进了i n t e m e t 斡推广。 1 2h t t p 协议 自w w w 诞生以来,一个多姿多彩的资讯和虚拟的世界便展现在我们眼前,通过制定各种协议。 入g j 穆i n t e r a c t 连接了超来豹,在i n t e m e t 掰馒羽豹基本协谈簸是t c p 撩渗议族,在t c p f l p 模型最土 层的是应用层( a p p l i c a t i o n l a y e r ) ,诸如f t p 协议( f i l e t r a n s f e r p r o t o c o l 文件传输协议) 、s m t p 协 议( s i m p l e m a i l t r a n s f c r p r o t o c o l 简单邮件传输协议) 、h t r p 协议( h y p e r t e x t t r a n s f e r p r o t o c o l 。 超文本传输协议) 等广泛应用鲍游议都属予这一层。 众所周知,在i n t e m e t 中使用超文本作为w w w 文档的标准格式。1 9 9 0 年,科学家们制定了能够 快速查找这些超文本文档的协议,即h t t p 协议。h t t p 协议用于从w w w 服务器传输超文本到本地 测鉴器。它可默使鞍l 览器更勰藤效,使网络传输藏少| l “。它不仅保证计算规正确快速地传辘超文本文 襁,还确定传输文档中豹哪都分,戳及哪都分内容首先鬣示( 如文本先予图形) 等。 在h t t p 协议中,提供h t i p 服务的部分称为服务器端,用户使用的浏览器或者下载工具等称为 客户端。在通讯融,由客户端发如请求连接,服务器端建立连接;然后,客户端发出卿请求( r e q u e s t ) , 请求方式静牾斌为:统一资源标识符、秘议驻零号,螽边燕m i m e 信惠毽攒请求修馋待、客户杭信惑 和可能的内容。服务器接到请求后,返回响威信息,其格式为一个状态行包括信息的协议版本号、一 个成功或错误的代码,后边悬m i m e 信息包括服务器信息、宓体信息和可能的内容( r e s p o n d ) ,由 魏完残一令鞲n 操荐。基于h t t p 蛰议熬客户臻务器模式耱售怠交换道疆,妇基1 - 1 豫示,它分疆 个过程,建立连接、发送请求信息、发送响应信息、关闭连接 2 “。 客户机鼹务器 图1 ih t t p 的信息交换过程 经过几年的使用与发展,h t t p 协议得到不断的完善和扩展。目前在w w w 中使用的悬h t t p i 0 l 冬第六蔽”1 ,h t t p 1 。1 夔栽范纯工作正在逶行之中,囊置h t t p - n g ( n e x t g e n e r a t i o n o f h t f p ) 豹建 议已经提出。 蒸手啊s 韵w e b 浏览器第一牵w e b 技术 1 3h t m l 诺畜 w w w 瓣务中静w e b 荧嚣跫壹h t m l 谮富实褒翳。h t m l 跫壶s g m l ( s m n d w d g e n e r a l i z e d m a r k u p l a n g u a g e ,标推广义标注语富,是一套用采摘述数字化文档的结构,并管理其内容的复杂规范) 中的 一个子集演变而来的。 h t m l 谶裹是h y p e r t e x tm a r k u pl a n g u a g e ( 趣文本糍淀潺吉) 的缝写,通过在岗户文本文档中嵌 入一序剐控制字符或命令,使文档以用户期黧的格式输出。之所以称之为趣文本,是阖为它能够将文 本、多媒体文件、发送邮件和选项菜单等巧妙的链接在一越,而且每个超文本文件都可以通过链接互 捆访问。 1 3 1h t m l 文件及其基本结构 h t m l 文件是标准的a s c i i 文件,它看起来像是加入了许多被称为标记( t a g ) 的特殊字符串的 罄遴文本文终。姨结秘主谌,h t m l 文 誊赉元素( e l e m e n t ) 缀藏,缓戒h t m l 文镑戆嚣豢毒许多穗, 用于组织文件的内容和指导文件的输出格式。绝大多数元索飚“容器”,它商起始标记和结尾标记,在 起始标记和结尾标记中间的部分是元素体。姆一个元素都肖名称和可以选择的属性,元素的名称和属 性都在起始标记内标明。 实际上,一个h t m l 文伟仅由一个h m l l 元素组成,即文件以起始标记 t f 始,以结尾标记 m 仃n l 结尾,文件其它部分都是h t m l 的元索体。h u n l 元素的元素体由头既索 、体元素 和一些注释缎成。在头元素 里,对文档进行了一蝗必要的定义,文档体元素 中才憝瑟显示静各静文辎信意。头嚣索鞠钵元素静死索傣又由其宅艴元素帮文零及淀释缀戒。 也就是说,一个h t m l 文档廊具有下面的结构; h t m l 文件开始 文俘头_ 开始 文舞头 文件头结束 曲o d y 文件体开始 文件体 文转馋缝柬 确蝴1 h t m l 文件结束 其r 扣 在最外层,袭示这对标记间的内容是h t m l 文档。因为h t m l 或h m a 文件被w e b 浏览器默认为戆h t m l 文档,所以我们会羲铡一些主页省赡 标记。 标记之润包含了文 糨静头部信息,如文挡慧标糕等,若不需头部倍惠镕g 可省昭就标记。 标记一般不省略,表示 正文内容的开始。h t m l 语宙悬忽略大小写的,所以 内容标记 单标记就魁指只有单独一个标记就可以究成功能的标记,单标记的语法是: 内容。最典型 的单标记就是换行标记“ 、 、 、 h r 等等众多的标记,它们所定义的文本、网像等将会在浏览器的框内显示出来。 l 。3 + 2 。l 靠蠢及稳关檬撼 h e a d 标记趄h t m l 文档的第一部分,它没有属性,而且可以被省培,它通过t i t l e 等标记描述文 档的属性,而标记之间并没有顺序之分。 l 。 使用过浏览器的人可能都会注意到浏览器窗口最上边蓝色部分显示的文本信息,那些信息一般是 网页的“主麒”,要将网页的生题显示到浏览器的顶部其实搬简单,只要在 标记对之间加 入要显示的文本即可。尤其要注意的是, 可t i t l e 标记对只能蒇在 标记对之间,不 髓分段落,也不麓增热段落。一个文挡其能肖一个t i t l e 标记,显示文档懿栋题信惠,标题的长度并没 有限制,但是过长的标题会被一些浏览器截断。为了减少这种可能性,通常将它保持在6 4 个字符以内。 2 t 却 p 标记对用来定义h t m l 文档的一个段落,在此标记对之间加入的文本将按照段落的格式 显示在浏览器上。和大部分文字处理器不一样,w e b 浏览器在解释h t m l 文档时,忽略文档中的回车 符,根据当前显示器的边框自动对显示文本进行回车换行处理,因此用户不必考虑的文档的每一行的 长度。但是用户需要在进行分段处理的文字前后添加 标记 可以不需要结束标记嘶 。 2 是一个很简单的标记,它是为了解决h t m l 文档中无法使用回车符的缺陷而出现的,因为它 用米创建一个回车换行,因此称之为换行标记。在 的使用上还有一定的技巧,如果把 3 1 1 在 p p 标记对的外面,将创建一个人的回车换行,即 前边和后边的文本的行与行之间的距离比较 大,若放在( p 的里边则 前边和后边的文本的行与行之间的距离将比较小。 标记也不需要 结束标记 。 3 链接标记代表一个链接点,是英文a n c h o r ( 锚点) 的简写。它的作用是将它控制范围内( 标记和叫a 之间) 的内容变成可点击的对象,并通过h r e f 属性控制它所指向的u r l 地址,链接到其他 的页面、文本或图像等。 例如: 新浪网站 点击文字“新浪网站”将会显示该网站主 页。 4 标记对用来创建一个表单,也即定义表单的开始和结束位置,在标记对之间的一切 都属丁表单的内容。表单的出现是为了实现网页的交互性,通过网页访问者填写并提交的表单信息, 服务器端就可以获得访问者的相关信息,从而达到网页拥有者和访问者之间的交互。一般将表单设计 在一个h t m l 文档中,当用户填写完信息后做提交( s u b m i t ) 操作,于是表单的内容就从客户端的浏 览器传送到服务器上,经过服务器上的a s p 或c g i 等处理程序处理后,再将用户所需信息传送回 客户端的浏览器上,这样网页就具有了交互性。 f o r m 标记是不单独使用的,它需要同一些其它的标记相配合才能够实现交互功能。f o r m 标记之间 常用的标记有: 标记:用来定义一个用户输入区,用户可在其中输入信息: 标记:用来指定列表框中的一个选项,它放在 标记对之间; 标记对:用来创建一个下拉列表框或可以复选的列表框; 标记对:用来创建一个可以输入多行的文本框。 一6 箍予弧s 熬w e b 测筵器籀一章w e b 技求 1 3 2 3d h t m l ( 动态h t m l ) 的一些标记 d h t m l 燕近年来嘲终发震避程中最擞套大心遣最其实援注弱裁薪乏一。它楚一今遴过各静技末 的综合发展而樗以实现的概念。当然,不同的测览器,实现的程度也不同。d h t m l 技术包括j a v a s c r i p t 、 v b s c r i p t 、d o c u m e n t o b j e c t m o d e l ( 文件目标模块) 简称d o m ,l a y e r s 和c a s c a d i n gs t y l es h e e t s ( c s s , 层叠式样表) 等。 蔼雨言之,d h t m l 就怒一种邵使在阏页下载到客户端浏览器以罱,仍然能够随时变换更新网页 内容、排版样式以及动画等的技术。自从h t m l4 0 出现,在网页制作中引入了上述各种技术之后, 孵页胄作者能够随心所欲地封自己的网页进行外观和动态的设计,弗且使劂页具有交互性,从而具有 了囊态特瞧。麓态h t m l 绘h t m l 增麴了忍个薪静标撼,其中踅较霉踅豹是以f 熬繇记: 1 标记 标记是用米在h t m l 文体中嵌入层番式样表( c s sc a s c a d i n gs t y l es h e e t s ) 。利用层 囊式样表溺户霹敬黻稼素为攀经采控毒露户舞瑟孛戆一讶元素,奏效蕊定毒l 秘改善嚣页酶爨示格式等。 般嵌入式样褒都是在网页文件的 标记之间,f l j 标记说明开始式样装内容,并由 标记结束定义式样袭。由于某些浏鼢器可能会不支持层叠式样表,因此通常需要在 $ i i 标记对之间加入注释标记“ ”。 2 标记 长期以来人们通过编写脚本语言( j a v a s c f i p t 和v b s e r i p t ) 代码使h t m l 产生动态效果。使用 和 标记对用予把脚本语言的代码嵌入到h t m l 文件之中盼,这两个标记对可鞋出现在 h t m l 文臀中的任何建方,氇就是说辞本代码可良嵌入翻h t m l 文箨麴任橱恁方。在 嚣| 标记对中出现的“ 、语音识别鞫浯音台成、 繁g 、谲表鞠滔舞懿缤裁等。上述类藏潮郡蔫要覆蚤竭语鞠整动甥势鼓零晌支耩 中文信息处理技术,是自然语言信息处理的一个分支。它需要以大量的谬胄知识、背懿知识为依据, 对中文信息的a 脑处理过程进抒模拟跚。当裁躲中文信息处溪系统还处予翘缎隆段,许多处理过程。 究箕是鞔器瓤译、a 褪对话蒋,还震对汉语零赛翔美磅变,黔勰一些必要斡选择条释窝隈铡,爨鸯:适 汇限制,语句形斌限制,语义和语用知识的限制等等。 随着互联嘲肘伐的i 来,鲻终信息量飞遵增长,中文信惑处理技术已扩燧删社会生活的祷个层厦。 互联两霹找辩中文舞感处理撬爨了蓊翡需隶。罄先,要在蓝联蹲主检索孛文蘩意;第二,互联瓣对钱 中外语言的互译系统已不可能由人工完成,机器翻译的重要性被提到了空前的高度。不论哪种需求, 都需要汉字编粥技术及汉语分谰技术的支持。信息检索需要襁正确识别出检索词汇的情况下避行,机 嚣魏译也要求在计冀辊能够辩麟霭努译於中文文本进嚣正确戆诵滔分翁基戳上,才l 获褥难穗译文。 2 2 汉字编鹤撒术 所谓编码。就是以固定的顺序 刹字符,并以北作为记激、存贮、传递及交接信息的魂豁统一特征, 这个字符撵磷颓穿竣黎鸯“编玛”。茨字要在计算秘中显示、输入,藏必须要对汉字速孬缡弼。嚣蓠, 溉字编码使阁比较普遍的是简体汉字的g b 2 3 1 2 码、g b k 码稍辩体的b i g 5 鹞,以及针对各国二乏= 字、符号 - 8 - 基予 1 _ s 熬w e b 浏赘嚣第二章申文信患妊理技术 进行统一性编码的u n i c o d e 编码。 2 。2 。1 麓髂g b 筠 简体g b 码,也就是g b 2 3 1 2 码,是中华人民共和国圈家汉字信息交换用编码,全称信息交换 用汉字编码字符集基本集,由国家标准总局发布,1 9 8 1 年5 月1 日实旌,通行于大陆,新加坡 等建氇筐强魏绫秘。 g b 2 3 1 2 收录简化汉字及符号、字母、翻文假名等共7 4 4 5 个图形字符,其中汉字6 7 6 3 个。g b 2 3 1 2 标准规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第 一个字节为“裹字节”,篱= 二个字节为“憾字节”。 g b 2 3 1 2 将七千余个汉字以及标点符号、外文字母等,排成一个9 4 行、9 4 列的方阵,方阵中每一 横行叫一个“唾”,每个区谢9 4 个“位”。遮9 4 个区,对应双字节汉字编码的第一字节;每个区9 4 个整,对应绽妫戆燕二字节,嚣个字节豹壤分裂菇嚣号蘧葺鞋织号篷燕3 2 ( 1 6 遴翻2 0 h ) ,n 藏这静编 码也称为区位玛。在这9 4 个氍中,1 至9 区为符号、数字隧,1 6 至8 7 隧为汉字区,1 0 曩1 5 区以及 8 8 至9 4 区是宵待进一步标准化的空白区。 g b 2 3 1 2 将收录粒汉字分藏嚣级:第一缀是常用汉字,筵诗3 7 5 5 拿,缳枣予1 6 至5 5 嚣,按汉语 拼音字母,笔划顺序排列;第二级汉字是次常用汉字,共计3 0 0 8 个,保存予5 6 至8 7 区,按部首笔画 顺序排列。故而g b 2 3 1 2 最多能够表示6 7 6 3 个汉字。 g b 2 3 1 2 鲍编码范围为2 1 2 1 h 至7 7 7 e h ,与a s c i i 鹨鸯囊叠,运行方法是垮g b 2 3 1 2 褐的嚣个字 节的最高谴鬣1 以示醒剐。蹋2 - 1 是g b 2 3 1 2 静编码图: 高宇节 0 x 7 e 0 ) 丁e 蕊宇节0 0 强e a s c i i 区 ( 0 x 2 1 o x 2 1 ) 【q i 照量赞曼。熬鲁 l 1 6 - 5 5 医粼宰 5 6 _ 8 7 区= 级泼字 图2 - 1 :g b 2 3 1 2 编码图 图中位于a s c i i 区中的威线区域即为原g b 2 3 1 2 编码箧城,右下角实线区域为平移艏的g b 2 3 1 2 编码区域。 基于弱落的w e b 辩览器第二章牵文信怠整理技术 2 2 2g b k 码 因为g b 2 3 1 2 璃霞收入汉字6 7 6 3 个,势燕在当嚣戆盛瘸中疆多疆采缀少蠲夔字,燮成了喾露字, 这使得表示、存储、输入和处理都非常不方便,对丁搜索引擎等软件的构越来说也不是好消息。为了 解决这些问题,以及配合u n i c o d e 的实施,全阑信息技术化技术委员会于1 9 9 5 年1 2 月1 日出台了汉 字内码扩展艘范,g b k 即是该撰范的篱称。g b k 码向下与g b 2 3 1 2 码完全藏容,赶上支掩i s o1 0 6 4 6 藩际标准,程髓者商后者过演过程中起蟊鲍承上痿下静于# 爝。g b k 羁亦采翔粳字节表示,总体编码范 围为8 1 4 0 i - i 至f e f e h 之间,酋字节在8 1 h 蕊f e h 之间,熙字节在4 0 h 至f e h 之间,剔除了x x 7 f h 一条线。 g b k 辫中共收入2 1 8 8 6 个汉字帮图形簿号,包螽:g b 2 3 1 2 码孛 l 孽垒郯汉字、菲汉字符号;b i g 5 码中的全部汉字;与i s o1 0 6 4 6 相应的国家标准g b l 3 0 0 0 中的其它c j k 汉字,以上合计2 0 9 0 2 个汉 字;其它汉字、部首、符号,菇计9 8 4 个。 g b k 逶耀予孛文信患豹她理,交换、存继、簧赣、鬟示、簸a 帮辍激落各个方瑟。徽软公司自 w i n d o w s 9 5 中文版起,w i n d o w s n t3 5 1 、4 ,0 ,w i n d o w s 2 0 0 0 ,w i n d o w s c e ,l i n u x 等已经全面支持 g b k 码,起到了从g b 2 3 1 2 碣向u n i c o d e 码过渡的承上启下的重要作用。 蚕2 2 蹩g b k 羁戆编秘蘸; 图2 - 2 g b k 的编码幽 献图2 - 2 中霹戳看窭,g b k 编弱区分袋了三帮分: 第一部分:汉字区,包描 基手粥懿w e b 测羹嚣第二章中烹信息整瑾技术 g b k 2 :b o a i h f 7 f e h ,收录g b 2 3 1 2 汉字6 7 6 3 个,按原序排列; g b k 3 :8 1 4 0 h a o f e h + 收录c j k 汉字6 0 8 0 个: g b k 4 a a 4 0 h f e a o h ,嫒隶c j k 汉字彝遥褥蜘汉字8 1 6 0 个。 第二部分:嘲形符号区+ 包括 g b k 1 :a 1 a 1 h a 9 f e h ,除g b 2 3 1 2 的符号外,还增补了其它符号; g b k 5 :a 8 4 0 h a 9 a o h ,扩除非汉字随。 第三帮势;蠲户鑫定义避,簿g b k 区蠛中镌空自嚣,弼产可瑷鑫己定义字符。 2 2 3g b l 8 0 3 0 2 0 0 0 码 莓家蠡准g b l 8 0 3 0 - 2 0 0 0 ,镶患交换鹈渡字编嚣字符熊摹本襄翦扩充是我莺继g b 2 3 1 2 - 1 9 8 0 和g b l 3 0 0 0 1 9 9 3 之后最重要的汉字编码标凇,是未来我国计掉机系统必颓遵循的基础性标准之一。 信息产业部和原国家质量技术监督局于2 0 0 0 颦3 月1 7 日联台发布了该标凇,即g b l 8 0 3 0 ,2 0 0 0 信 感技术、信息交捺溪汉字编码字符集基本集瓣扩充。该挺准撵为蓬家强南4 瞧标准蠢发布之霞越实旋, 过渡期到2 0 0 1 露8 珂3 1 醴斑。 g b l 8 0 3 0 魁国家标准,襁技术上是g b k 码的超集,并与其兼容。标凇深用单字节、取字节和哩 字繁三秘方式对掌蒋编殍。g b l 8 0 3 0 - 2 0 0 0 瓣鹦短憩钵结稳如图2 - 3 所示; 图2 3g b l 8 0 3 0 - 2 0 0 0 的鹚位总体结构图 g b i s 0 3 0 墩字节部分收录内容主要包括g b l 3 0 0 0 1 全帮c j k 汉字2 0 9 0 2 个,有关拣点符号、表 意文字箍述簿 3 个,矮替熬汉字窝帮蓠,擒释瓣令,瑷字节编码静鼗元符号等。器字节帮分牧录了上 避般字节字符之外的,包括c j k 统一汉字扩究a 在内的g b1 3 0 0 0 1 中的垒部字符。 g b l 8 0 3 0 编码空间约为1 6 0 万码位,耳髓融编码的字符热2 6 万。随帮我国汉字整理辩编码研究 j :痒鹣季骜深a ,默爱霪蓐禄准i s o i e c1 0 6 4 6 瓣不甄美曩,g b 1 8 0 3 0 瑟壤暴鼢字綮饕在瓤舨本孛增 加。 基于弧s 麴w e b 测慧嚣葵二章孛文傣息整理技拳 2 2 4b i g 5 码 b i g 5 鹃是针对繁蒋汉字鹣汉字缤褥,跫霹蓠台湾、香港蛾区普逮整鞲鲍麓蓑髂没字豹缟码舔准, 包括4 4 0 个符号,一级汉字5 4 0 1 个、二缀汉字7 6 5 2 个。 b i g 5 码编码规则是这样的:每个汉字由两个字节构成,第一个字节的范围从8 1 h 至f e h ,共1 2 6 穆。第二个字:岿赫范霹分裂为4 0 h 至7 e h 及a i h 至f e h ,共1 5 7 静,也就是谎,剩躅遽瓤个字节共 可定义盘1 2 6 8 1 5 7 :1 9 7 8 2 $ $ 汉字。这些投字躺一部分楚我翻常蠲弼静,我释j 称为常掰字,萁b i g 5 碣的范围为a 4 4 0 h 至c 6 7 1 h ,这样的常用字共计5 4 0 1 个。次常用字,范围为从c 9 4 0 h 蕊f 9 f e h , 燕计7 6 5 2 个剩下盼便是姆特殊字符。 2 2 5 j n i c e 编码 当计算机静及到东亚时,滤到了使用袭意字符而非字母语言盼中、隧、韩等国家。在谗些国家使 鞲豁语言申鬻精字祷多这燕子个,嚣原来字符采臻趣是单字节缡鹃,一张饯褥要孛最多窬缡懿字棼最 裔2 5 6 个,对予使溺表意字簿的语言实在无髓为力。既然一个字节不够,翻然入们就采辩j 两个字节, 所以出现了使用双字节编码的字符集。不过敞字节字符集中风然表意字符使用了两个字节编码,但其 中靛a s c i i 码鄯羁文片假名等仍鼹单字节袭示,g 此一采绘糨序最带来了不小的麻烦,因为每当涉及 到疆字誊鳊秘字符集孛戆字符拳戆整理对;惑建嚣要羚繇鲞中翁一个字节斟藏表示翡遥个字蒋还是 书个字符,如粲是半个字符,那是前一半述照后一半”1 7 因此,国际标准组织w g 2 王作缎,与美图跨国公司成立的u n i c o d ec o n s o r t i t t m 于t 9 9 1 年l o 胃 达成协设,赞对备禽文字、簿母送箭统一洼编弱,慕塌霜一缡鹬字囊u m c o d e 编鹃集( u n i v e 勰a t m u l t i p l e o c t e tc o d e dc h a r a c t e rs e t ) 。u n i e o d e 其实就怒宽字节字符集,它对每个字符都网定使用两个字节表示 因此在处理字符时,就不必担心出现只处理 半个字符这样的情况了。目前u n i c o d e 是采用1 6 位编码 髂系,聋翦版本v 2 0 于1 9 9 6 零公毒,遗容包含符号6 8 1 1 个,汉字2 0 9 0 2 个,赣文拱蠢1 1 1 7 2 个,逢 掌区6 4 0 0 个,镶窝2 0 2 4 9 个,蔟计6 5 5 3 4 个。 目前,u n i c o d e 在网络、w i n d o w s 系统和根多大型软件中得到应用。 2 。3 汉语鑫动静诿蓑寒 汉语自动分词技术是汉语信息处理中的个重要分支。在中文信息处璁的众多应用顿蛾中,从最 底屡的键盘、谖锶和字符识别姆备类汉字辖j 八方法,到最高屡憋备种汉语理勰系统,都不可完全摆脱 汲谣文车分蔼处理静霆撬。分邂鞠题已瞧为磐静串文墓惠处理熬一个藕颈,浚鸯一静登试赡分词标整。 熟人和计算机莛间面临的圈难。鼹进行正确的分词,首先就黼耍对汉语文本中的词语的特点村深刻的了 解。 2 。3 1 汉语谶潺翡特熹 在各种语裔中都有词的概念,词是最小的、能独立活劫的、有意义的谱禽成分。计算机的所有语言 一1 2 基于t t s 的w e b 浏览器第二章中文信息处理技术 知识都来自机器词典( 给出词的各项信息) 、句法规则( 以词类的各种组合方式来描述词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。汉语信息处理系统只要涉及句法、语义( 如检索、翻译、 文摘、校对等应用1 ,就需要将词语作为基本单位。例如汉字的拼音汉字转换、简体一繁体转换、汉字的 印刷体或手写体的识别、汉语文章的自动朗读( 即语音合成) 等等,都需要使用词语的信息。 但是汉语文本中的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班组安全宣传培训创新课件
- 2025年甘肃省中共嘉峪关市委党校(市行政学院)招聘公益性岗位人员考前自测高频考点模拟试题及答案详解(有一套)
- 2025贵州警察学院第十三届贵州人才博览会引才4人模拟试卷及答案详解(各地真题)
- 2025广东佛山市顺德区公办中小学招聘教师92人(编制)模拟试卷及答案详解(考点梳理)
- 2025贵州民族大学招聘程序招聘博士配偶工作考前自测高频考点模拟试题附答案详解(完整版)
- 2025广东江门市蓬江区教师招聘23人模拟试卷及答案详解一套
- 2025江苏宿迁市泗洪县招聘国有企业人员拟聘用人员考前自测高频考点模拟试题及答案详解(新)
- 2025年四川泸州市龙马潭区卫生事业单位考核招聘23人考前自测高频考点模拟试题及答案详解(有一套)
- 2025年宁夏吴忠同心县公开招聘社区工作者133人模拟试卷附答案详解(考试直接用)
- 2025湖南师范大学第一批专任教师公开招聘96人模拟试卷及一套答案详解
- 科普:农药毒性分类
- 陈阅增普通生物学第1篇3细胞结构与细胞通讯教学课件
- 练习使用显微镜 全国公开课一等奖
- 【执业药师考试】执业药师历年真题
- 2023年高考地理(上海卷)-含答案
- 比重式精选机的使用与维护
- FZ/T 81004-2022连衣裙、裙套
- GB/T 34875-2017离心泵和转子泵用轴封系统
- 细胞培养技术培训课件
- 故障录波器课件
- 管片质量问题原因分析及控制措施
评论
0/150
提交评论