(计算机应用技术专业论文)bs架构上藏文版式处理及输入法技术的研究.pdf_第1页
(计算机应用技术专业论文)bs架构上藏文版式处理及输入法技术的研究.pdf_第2页
(计算机应用技术专业论文)bs架构上藏文版式处理及输入法技术的研究.pdf_第3页
(计算机应用技术专业论文)bs架构上藏文版式处理及输入法技术的研究.pdf_第4页
(计算机应用技术专业论文)bs架构上藏文版式处理及输入法技术的研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北民族大学硕士学位论文 b s 架构上藏文版式处理及输入法技术的研究 摘要 全球性的网络化、信息化进程正改变着人们的生活方式,i n t e r n e t 技术应用以及电子 商务的飞速增长给人们生活工作的各个层面带来了深刻的影响。国家西部大开发战略的实 施,为西部的发展提供了空前的契机,西部藏族地区如何抓住机遇,更好地加速发展经济 是摆在我们民族院校科技工作者面前的一个课题。开发藏文网络应用系统可以有效地提高 藏族地区政府和企业的办公效率和工作质量,对藏族地区的经济发展具有一定的推动作用。 本文将主要探讨b s 架构上藏文版式处理及输入法技术的研究。 目前网络应用常用的结构有以下几种:1 ) c s 结构,2 ) c s + w e b 结构,3 ) b s 结构。 固为b s 结构是用户通过浏览器向分布在网络上的许多服务器发出请求,服务器对浏览器 的请求进行处理,将用户所需信息返回到浏览器。这种方式只需管理维护服务器,不需安 装任何客户端软件,只要有浏览器即可使用,因此b s 结构是目前网络应用最常用的一种 结构和技术。 藏文字符集为非系统字符集,当用户在客户端浏览藏文w e b 页面,进行藏丈信息的输 出输入时,必须有相应的藏文字体及藏文输入法的支持,否则输入无法实现,而输出则看 到乱码。这就意味着要使每个用户浏览到有意义的藏文信息,必须在每个用户的机器上安 装越要的藏文字库与藏文输入法。显然,这有悖于我们采用b s 结构的初衷。而本课题的 研究目的就是解决这一问题,即在客户端系统上无需安z - 4 纠 7 软件使可在i e 浏览器中显示 和输入相应的藏文字符,为开发b s 结构的藏文网络应用奠定基础。 关键词:a s ,藏文,排版,输入法 i i 西北民族大学硕士学位论文 s t u d yo nt i b e t a nf o r m a ta n di n p u tt e c h n o l o g y b a s e do nb ,ss t r u c t u r e g l o b a ln e t w o r ka n di n f o r m a t i o n i z a t i o ni sc h a n g i n gt h el i f e s t y l eo f p e o p l e t h er i s eo f i n t e m e t t e c h n o l o g ya n de b u s i n e s sa tv e r yf a s ts p e e db r i n g sp r o f o u n di n f l u e n c et oe v e r yf a c to f t h el i v i n ga n d w o r k i n go f p e o p l e t h ei m p l e m e n to fw e s td e v e l o p m e n ts t r a t e g yp r o v i d e su n p r e c e d e n t e dc h a n c ef o r w e s td e v e l o p m e n t h o wt oc a t c hh o l d o f t h eo p p o r t u n i t i e sa n dh o wt os p e e du pt h ee c o n o m i c d e v e l o p m e n ti nw e s tt i b e t a nr e g i o n si saq u e s t i o nf o rd i s c u s s i o nf o ro u rs c i e n c ea n dt e c h n o l o g ys t a f f i nc o l l e g e so f n a t i o n a l i t i e se x p l o i t i n gt i b e t a nn e t w o r k a p p l i c a t i o ns y s t e m c a ni m p r o v et h ew o r k i n g e f f i c i e n c ya n dq u a l i t yo f g o v e r n m e n ta n de n t e r p r i s e ,a n dc a np r o m o t et h ee c o n o m i cd e v e l o p m e n ti n t i b e t a nr e g i o n s t h et h e s i si sa b o u tt h es t u d yo nt i b e t a nf o r m a ta n di n p u tt e c h n o l o g yb a s e do nb s s t r u c t u r e t h e r ea r es e v e r a ln e t w o r ka p p l i c a t i o ns t r u c t u r e si nc o m m o nu s e :1 ) c ss t r u c t u r e i ti st h et r a d i t i o n a l m o d e c o m m o n l yi th a st w o l a y e r ,d a t a - b a s ea n dc l i e n t ,s o m et i m e si th a st h r e e l a y e ro rm u l t i l a y e rb y a d o p t i n gm i d d l e w a r eb u tw i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g ya n dn e t w o r k ,i tc a n n o tm e e t c u r r e n tn e t w o r ka p p l i c a t i o na n db er e p l a c e dg r a d u a l l y 2 ) c s + w e bt e c h n o l o g y f o rm a k i n gu pt h e s h o r t a g eo f c ss t r u c t u r e ,i ti n t r o d u c e sw e bt e c h n o l o g yo nt h eb a s i so f c st or e a l i z et e l e d a t a a c q u i s i t i o n b u ti th a sc e r t a i nl i m i t a t i o n ,f o re x a m p l e ,i tc a nn o ts o l v et h ep r o b l e m so f t i m e l yd a t a u p d a t ea n ds o f t w a r eu p d a t e 3 ) b ss t r u c t u r e t h eu s e r sc a ns e n do u tr e q u e s tt o1 0 t so f s e v e r s d i s t r i b u t i n go nt h en e t w o r kt h r o u g ht h eb r o w s e r a n dt h e nt h es e v e r sd e a lw i t ht h er e q u e s t sa n ds e n d t h er e q u i r e di n f o r m a t i o nt ot h eb r o w s e r w i t ht h em e t h o dt h en e c e s s a r yw o r ki si u s tt om a n a g ea n d m a i n t e n a n c et h es e v e r s ,a n dd on o tn e e dt oi n s t a l la n yc l i e n ts o f t w a r e ,a n dc a nu s eb yt h eb r o w s e r i ti s t h ec o m m o nt e c h n o l o g ya tp r e s e n t t i b e t a nc h a r a c t e rs e ti sn o n s y s t e m a t i cc h a r a c t e rs e t w h e nt h eu s e r sb r o w s et i b e t a nw e bp a g e sa n d i n p u tt i b e t a ni n f o r m a t i o na tc l i e n t - s i d e ,n e e dt h es u p p o r to f r e l e v a n tt i b e t a nf o n ta n di n p u tm e t h o d o t h e r w i s e ,c a nn o tr e a l i z et h ei n p u ta n dw i l lf i n dt h ec l o b b e ra so u t p u t t i n g t h a tm e a n st ol e te v e r y u s e rg e ts i g n i f i c a t i v et i b e t a ni n f o r m a t i o n ,t h ei n s t a l l a t i o no ft i b e t a nf o n t sa n di n p u ts o f t w a r e o b v i o u s l y ,i ti sa g a i n s tt h eo r i g i n a li n t e n t i o no f u s i n gb ss t r u c t u r e t h et h e s i sw i l ls o l v et h i sp r o b l e m ,t h a ti st os a y , t od i s p l a ya n di n p u tt i b e t a nc h a r a c t e r sw i t h o u t i n s t a l l i n ga n ys o f t w a r ea tt h ec l i e n t - s i d e k e y w o r d s :b s ,t i b e t a n ,c o m p o s i t i o n ,i n p u tm e t h o d 西北民族大学硕士学位论文 第一章绪论 全球性的网络化、信息化进程正改变着人们的生活方式,i n t e r n e t 技术应用以及 电子商务的飞速增长给人们生活工作的各个层面带来了深刻的影响。国家西部大开发 战略的实施,为西部的发展提供了空前的契机,西部藏族地区如何抓住机遇,更好地 加速发展经济是摆在我们民族院校科技工作者面前的一个课题。开发藏文网络应用系 统可以有效地提高藏族地区政府和企业的办公效率和工作质量,对藏族地区的经济发 展具有一定的推动作用。本文将主要探讨b s 架构上藏文版式处理及输入法技术的研 究。 目前网络应用常用的结构有以下几种:1 ) c s 结构,它是传统开发模式,一般以 数据库和客户端的两层结构实现,也有加入中间件的三层或多层结构,但随着计算机 技术的发展和网络的发展,它已经无法满足现在的网络应用:2 ) c s + w e b 技术,是为 了补充c s 结构的不足,在c s 基础上加入w e b 技术来实现对远程数据的获取,但存 在一定局限性,如数据及时更新、软件升级等问题就无法很好解决:3 ) b s 结构,用 户通过浏览器向分布在网络上的许多服务器发出请求,服务器对浏览器的请求进行处 理,将用户所需信息返回到浏览器。这种方式只需管理维护服务器,不需安装任何客 户端软件,只要有浏览器即可使用,是网络应用目前最常_ i = j 的一种技术。 藏文字符集为非系统字符集,当用户在客户端浏览藏文w e b 页面,进行藏文信息 的输出输入时,必须有相应的藏文字体及藏文输入法的支持。否则输入无法实现,而 输出则看n n l 码。这就意味着要使每个用户浏览到有意义的藏文信息,必须在每个用 户的机器上安装必要的藏文字库与藏文输入法。显然,这有悖于我们采用b s 结构的 初衷。而本课题的研究目的就是解决这一问题,即在客户端系统上无需安装任何软件 便可在i e 浏览器中显示和输入相应的藏文字符。 西北民族大学顾士学位论文 第二章开发藏文s s 系统面临的主要问题 2 1 藏文的字体显示问题 在w e b 页面上如何表现丰富藏文信息的问题在互联网发展之初就已经被提出,并 已经有了一些解决方案,主要有下面几种方式在w e b 页面上显示藏文 2 1 1 字体图像化 藏文信息在h t m l 页面中已经被描述成图像信息。i f f m l 页面通过超链接的方式把 图像信息插入到当前页面中,这种形式的文本信息与其他的图像信息没有任何区别, 如果文字信息有所调整或者要改变字体风格,必须重新生成图像,使得页面的制作过 程过于繁琐,且要使用专业的图像处理软件或者其他专用软件来完成,因此制作过程 不太可能自动实现,而目前也尚无此类自动化文字一图像转换软件。同时,当网站信 息量大的时候,制作工程浩大,因此这种方法难以大批量作业。 除了制作不便之外,这种方法还有其他一些缺陷: ( 1 ) 因为文本信息已经被图像化,所以这些信息不能被检索。但这些信息往往比较 重要,或者是网页的标题可能包含有重要的关键字,所以图像化之后的网页往往损失 了一些重要的信息。 ( 2 ) 增加了网络的传输量,毕竟图像信息的数据量要大得多。 ( 3 ) 当浏览器关闭了图像显示开关之后,页面上看不到这些信息。 ( 4 ) 藏文与汉文、英文不能同时进行混排。 2 1 2 字体下载技术 即将所需的藏文字体t t f 的字体文件( 或包含t t f 字体文件的e x e 安装文什) 上 传到服务器。并在w e b 页面h t i l 头描述信息中加入下载脚本( 或在页面中给予字库 链接) ,当i e 浏览器访问到这样的h t m l 页面时,执行下载脚本,从服务器上下载字 库。目前很多藏文网站大都引用这种方法。 但由于字库本身的大数据量增加了网络的传输量,且字体f 载安装涉及特定的计 算机技术,从而给非专业用户的使用带来一定的困难。 2 1 3w e bf o n t 技术 “w e bf o n t ”技术也可以用于在i n t e r n e t 上动态显示藏文,其核心包含两个组件: 记录器组件和播放器组件。记录器组件内置在b i t s t r e a mw e bf o n t 字体库制作工具 中,它把藏文字体中的字符记录一f 米,并保存在个被称为p f r ( p o r t a b l ef o n t r e s o u r c e ) 的文件中,p f r 文件是一个动态藏文字库文件,它仅存放适于显示的、低精 度但高压缩率的字体信息。 西北民族大学硕士学位论文 b i t s t r e a m 解决方案较好地克服了字体图像化方法的许多不足之处,而且由于它 的播放器已经内置在n e t s c a p ec o m m u n i c a t o r 浏览器之中,所以对于浏览器用户比较 方便。使用i e 浏览器的用户也可以通过下载个a c t i v e x 控制而得到较好的支持。 但是这种方案也存在一些难以克服的缺陷: ( 1 ) 字库与信息的分离。通常字库位于专门的字库服务器上,在w e b 页面中通过 “l i n k ”标记指向字库文件,虽然字库经过压缩,但对于大字符集字库,数据量仍然 不小。 ( 2 )由于制作p f r 文件时为了追求高压缩率,因而损失了字体精度,所以字型效果 不佳,也不能用作打印。 ( 3 ) b i t s t r e a m 解决方案对于大字符集字体的支持还不是很成熟。 以上三种方法都存在较大缺陷,无法适应现代网络技术发展和网页技术的发展, 无法担负开发b s 架构藏文系统的重任。因此需要找到一种新的方法来解决开发b s 架构藏文系统的基础问题,即如何使客户端浏览器显示藏文。 2 2 藏文的版式问题 藏文属于拼音文字,由4 个元音字母、3 0 个辅音字母以及因素符组成。在藏文排 版中,我们更注意因素符的排版,音素符相当于汉语中的标点符号,现代藏文中常见 的因素符有:引头符迎9 1 1 音节点单垂符1双垂符1 1四垂符1 1 1 1 聚宝垂 符丫蛇形垂符 等。 1 引头符“迫鲁1 1 ”必须出现在每篇文章题目的起始或者每本书名的起始位置。表 示文章及作品从这里开始,也起一个修饰作用( 预示写作能顺利完成) 。例如: 例1 :飞窖0 磊气困气r 毛1 q 茂。萄弓司3 司司q 1 稍萄0 因明入正论 书名 、 例2 :迫9 1 气 气气式1 - r j 气q 黾习1 q q 气刁司q 1 学佛的目的文章题 目 如果不加“毪9 h ”,我们就不知道文章是从何开始。在古藏文中,还有其他儿种写法, 在编辑藏文时须要多加注意,在此不再详述。 2 音节点“”加在每个音节之后,起划分音节的作用。每一个音节都由两个以上 的音缀,晟多时,一个音节由7 个音缀构成,如 q 蓟1 羽 7 2 4l56 3 七个成分中,7 是元音符号,其余的都是辅音字母,1 是这个音节的基字,2 、3 、 4 、5 、6 是加在基字的上、f 、前、后,以及最后的附加字母。 堕韭垦塑查兰堡主兰篁堡苎 藏语音节点“”,必须出现在每个音节之后,才能构成一个完整的音节;在排 版时,每行都是由完整的音节组成,每个音节不能拆分成两行书写。例如: 卜 这是正确的音节划分 + _ 此处错在音节点出现在 + _此处错在将音节拆分写在两行 当最末尾的一个音节不能完整书写时,则把该音节写在下一行,在该空位上用 几个音节点添补,如果需要添补的音节点较多而影响排版美观时,则把该行最后个 段旬符后的字向后移动适当距离进行最佳调节。 3 单垂符“1 ”出现在词语、短语或者句子末尾,相当于汉语中的( 、) ,( ,) ,( 。) , ( ! ) 。例如: 例l :气1 。可气1 ( 教师) 词语 例2 :弓1 气天1 慰习1 ( 马、牛、羊) ( 相当于顿号) 例3 :1 诮宦 羽。专1 1 可诮1 ( 雪域文化) 短语 肌1 甬弋。驷 。困鹌可髫羽晰q 1q 蕾f q l 习q 硝1 刚q 1 萄4 芦1 圳 司司11 对弋。q 茸1 羽。萄气q 1 霉q 每气q 11 萝 冈。气习1 q 司囟气。 喜1( 金蜂青春年少,芳华正茂,智慧聪明,胸怀豁达,未结新交,行止悠闲,爱好施舍。 句子 在一个词语、短语或者句子最后个音节的末尾出现“习1 ”、“一”、“1 ”时,不写单垂符 例1 :词语9 1( 羊) f f t j 2 :短语1 可气忑4 q 专4 q 茸q 。q 五习1 ( 永远安乐! ) 例3 :句子岗因多。萄气q 弋自1 。翟习1 羽q 茂5 j 彳。茸日嚣气4 司诮。q 气习1 q 茸 4 西北民族大学硕士学位论文 气+ 曩 + 气田q 司6 气可弼4 萄7 哥气息q 萝气q 五日1 ( 毫不犹豫拔刀向咒师头上砍去, 结果黑帽散落、辫子砍断、头上刮破一个小口。) 在一个词语、短语或者句子最后一个音节的末尾出现“ ”时,必须在“1 前加 个音节点“”,例如: 目习1 。习1 瑚司自 。1 ( 眼睛看见) 计算机排版时须注意“ ”的位置。如果“ ”出现在其所在的音节中间,虽在 音节末尾,但在句子中间时,不存在上述规则。例如: 气 4 萄硼黾气。q a 。金g 。萄气气司 剞习1 暑习1 5 j 。1 萝习1 羽黾1 困蓉 。1 专4 毒镧 芦 q 诮 q 两司司 珂。q 歹 导 。1 ( 我和白求恩同志只见过一面,后来他给 我来过很多信。) 4 烈垂符“w ”出现在一个自然段的末尾和诗歌中每行的结尾处,表示段或诗歌行的结束。 例如: q 气5 1 4 q 气q 司亘。r 萤气q 怠弩司q 4 号气1 1币 4 1 今弼萄弓习1 国气气。气 习1 q 。q 1 1 9 因露 。羁 。恕茂闰羽司帮q 气仅5 1 1 亘。气5 j 茸气蜀茂。习 、 一 气司雹q 圉。气刁 娟1 1 ( 开放百瓣莲花力士,若是巨人能有多好! 弱小蜜蜂如此遭 遇,噫嘻苍穹老天知否? ) 在自然段的末尾或者诗歌中每行的结尾处出现“习1 ”时,“1 1 ”只需要出现一个“1 ”; 在自然段的末尾或者诗歌中每行的结尾处出现“ ”时,须在“1 1 前加“。”。例如: 甍n 。q 茂。曩 冈弩 珂。萄r 黾习11 司司 珂气。目暑。叫 q 黾气q 1 气。户 1 1 蕞气。丐 。 自 气闰萤羽4 气羽。萤1 1 蔷q q 9 司剞司司q 习1 q 1 胬仅苜 嗣i ( 耕耘土地终归无盖,良田反成蝼蚁屠场。但今尚需从容等待,仓卒从事不能到头。 5 四垂符“1 1 1 1 ”出现在长篇文章的结尾,表示文章的结束。 酗。霭q 弓冈。3 司茂习1 q 。q 气习1 硐商1 1 三十颂通论至此完稿。 在一个长篇文章的末尾出现“1 ”时,“邢”只需要出现“1 1 1 ”。例如: 西北民族大学硕士学位论文 琴气 1 萄。商 q 豆弼q 亩q 。弓硐昌司。r 气五司。g 司霭1 4 q 度乏磊 、 一 气q 翎。9 。目强肉酮黾1 。害1 q q 气窝羽。q 。仅气羽0 。r 雪玛气习1 可气黾q 专。q 弋4 霉天舍1 1 1 1 ( 诗经疏释于1 9 8 2 年完稿,愿此功德众生安乐! ) 字母“q ”是一个长脚字母,其长脚本身起一个“1 ”的作用,因此,在末尾出现 “习1 ”时,需要出现一个“1 ”的时候,“1 ”是省略掉的;在需要出现“1 1 ”的 时候,只需在“1 ”后写一个“1 ”;依次类推,在需要出现“1 1 1 1 ”的时候,只需 在“1 ”后出现“1 1 1 ”。 6 聚宝垂符“宁”主要用来断句,藏汉大辞典解释:“藏文印刷体书籍的一句尾, 恰在一行的右端起首,不满三个字母者均该用“宁,作句符。其撮末一字为语终词, 及为颂歇句末尾者,则均用两个聚宝垂符”。 7 蛇形号“竿”,用于段落层次之首,但用此号后不能另行。 8 在中、西文跟藏文混排时,藏文字号应该比中、西文小一个字号搭配较为美观。 目前的w e b 页面显示藏文技术存在一个问题,藏文是以音节为单元的拼音文字, 而藏文字体库为大字节字库,在中文系统下视一个音肯点“。”为一个单个字符,浏 览器无法保证藏文音节的整体性,常常d j 现将“。”等音节点出现在行首,一个音节 上下断 如何解决藏文在w e b 页面的自动排版问题,使其版面符合上述藏文版式规则和习惯是 摆在我们面前的又一重要问题。 2 3 藏文输入法 目前几乎所有的系统要输入藏文就必须安装专门的藏文输入法,安装后使之成为操作 系统的一种输入法,这样就影响了藏文系统的推广和使用。研发一种通过浏览器w e b 页面 输入藏文,而在客户端不需安装任何程序的输入法也是开发b s 架构藏文系统所必需要解 决的问题。 6 亘j ! 垦堕查兰堡堂垡丝兰一 第三章解决以上问题的方法 3 1 藏文字体接口技术的解决方案 3 1 1 技术基础,字体对象文件和信息描述 针对m i c r o s o f t 推出的嵌入字体技术,本方案建立在m i c r o s o f t 提供的i e 基础之上, 利用i e 的a c t i v e x c o n t r o l 扩展特性以及w i n d o w s 系统对t r u e t y p e 字体的底层基础设施, 在应用层上实现了w e b 环境中藏文字体信息的输出,解决了开发b s 架构藏文系统的基础 难点。 3 1 2 字体信息统计 3 1 2 1 利用w e be m b e d d in gf o n t st o o i 工具 w e be m b e d d i n gf o n t st o o l 工具是m i c r o s o f t 推出的页面字体分析软件,对一个包含 藏文字体的w e bn n n n n 站进行分析处理,对所用的字体信息进行分类统计,形成字体 信息统计结果。 3 1 2 2 生成e o t 文件 根据统计结果生成e o t 文件,其为只包含当前页面中文字的压缩字库,供用户在客户 端浏览时建立临时字体对象,在内存中生成只包含当前页面文字的临时字库。在w e b 页面 取消h t t p 请求时,结束临时字库进程。 3 1 3 字体信息声明 3 1 3 1w e b 页面字体声明 对页面中藏文文本信息进行字体属性声明,如: f 。t 。t ,1 。= ”f o n t - f a m i l r :t i b e t b t :”飞9 1 1 胬 。q 专习1 羽雹葡天1 或在c s s 样式表中声明: f o n t f a m il y :t i b e t b t : 7 西北民族大学硕士学位论文 3 1 3 2 字体嵌入声明 在页面h t m l 头描述信息中加入下面的描述: ( s t y l e ) 并把e o t 文件也上传到指定的w e b 服务器的目录下面,文件路径要相符。 3 1 4 浏览器处理e o t 文件 当浏览器访问到这样的h t m l 页面时,它首先看到头描述信息中对字体的描述,根据 这些信息建立临时字体对象,供系统显示页面中文本信息之用。在“f o n t f a c e ”中指定的 s r c 为所生成的字体对象文件( 后缀名e o t ) ,必须放在指定的u r l 路径中,i e 支持此压缩 字库的自动下载过程。 3 1 5 字体嵌入支持 本方案解决了藏文字体在w e b 页面中的输入输出显示,避免了字体图像化方法的许多 不足之处,但遗憾的是,这种方法也要求t r u e t y p e 提供相应的支持,否则不可能嵌入到 w e b 页面中并生成相应的e o t 文件。目前许多西文字体均可以支持这种方案,但是绝大多 数的中文字体还无法使用这种方案。 本方法充分考虑了目前i n t e r n e t 市场上大量信息发布的需求,特别针对藏文信息的 高质量显示以及低数据量传输的特点,通过现有浏览器的基本扩展机制实现,并不需要浏 览器提供其他额外的支持。因此本方法也成为开发b s 架构藏文系统中解决字体问题的基 本方法,也是藏文网页脱字库显示的基础。 3 2 藏文版式问题的解决方案 3 2 1 设计原则 w e b 页面中的藏文排版应该遵循传统藏文的版式规则,保证藏文音节完整性。 ( 1 ) 行尾必须出现:“” “1 ”“1 1 ” “1 1 1 1 ”等。 西北民族大学硕士学位论文 ( 2 ) 行首不能出现:“” “1 ”“1 1 ” “1 1 1 1 ”等。 在w o r d 环境下,可由m i c r o s o f t 提供的v b a 函数对每行可以录入的字符数进行检测 判断。而在w e b 页中没有这样的功能,需要进行扩展,以满足设计网页时自动实现藏文特 殊版式要求。 在w e b 页面中为了精确控制字符位置实现藏文版式要求的排版,我们将对藏文字符的 输入采用定制规定宽度的文本输入框,显示页面也制定一定宽度的表格,从而正确显示藏 文版式。此种方式适合藏文w e b 页面的动态发布。在动态发布藏文网页的时候,文本框可 以采用h t m l 代码转换,在需要换行的地方敲击回车键而自动生成 标志,代码如下: 这样的文本框可以将回车键自动转换为 标签。如图: 采用此种方法应该注意: ( 1 ) 藏文字号规定大小之后不应随意改动: ( 2 ) 显示页面的表格宽度不应随意改动; ( 3 ) 输入文本框的宽度最好和显示页面的表格宽度保持致,以便于排版; ( 4 ) 显示页面的表格宽度最好不要超过显示器为8 0 0 * 6 0 0 分辨率下的i e 完全宽度,即一 般的7 7 8 像素,宽度应该设为7 7 8 像素以下为好。 3 2 。2w e b 页面藏文排版算法 第一步:分割 将要显示的藏文字符串以双垂符进行分割,将分割结果存入段落数组p a r a g r a p h 0 中, 再用循环将每一段落以单垂符进行分割,将分割结果存入词组数组w o r d ( ) 中。 第二步:生成符合排版要求的行 1 i = lh a n g = ”; 2 表格所能容纳的最大字符数= 表格宽度字体大小; 3 h a n g = h a n g + w o r d ( i ) ,判断l e n g ( h a n g ) 是否大于表格所能容纳的晟大字符数; 4 如果小于则i = i + l 转3 ; 9 西北民族大学硕士学位论文 5 大于时则用前i - 1 个数组组成一行,不足的字符数用空格补齐; 第三步:在行尾加换行标记 ,在段尾加段落标记 ,所有段落处理结束,排版结束。 理论上以上算法可解决w e b 页面藏文排版的要求,但在实际试验的时候发现,用以上 算法虽然可以正确处理藏文版式中行首和行未得字符要求,满足藏文排版的要求和习惯, 但是从美观角度看,效果比较差。主要是每行结尾无法对齐,甚至相差很大。 3 2 3w e b 页面藏文排版测试分析 为了找出上述算法显示效果不佳的问题所在,验证大量藏文文本信息,进行了w e b 页 面藏文排版试验分析,其数据结果如下: w e b 页面藏文排版试验数据统计表( 一) 应有个数实际个数剩余个数 表格宽度字体宽度备注 ( 单位:行)( 单位:行)( 单位:行) 2 0 054 03 91 2 0 0 63 33 2 1 2 0 082 52 41 2 0 0 1 0 2 01 9l 2 0 01 21 71 6 1 2 0 01 51 3 31 30 3 2 0 01 91 1l ol 表格内的藏文字体 2 0 02 0l o9l 2 0 02 1 g 581 5 不包含分词符( ) 2 0 02 298 1 2 0 02 48 371 3 结尾符( 1 、1 1 ) 2 0 02 5 871 2 0 02 77 4 7o 4 2 0 02 87 16 11 2 0 03 06 660 ,6 2 0 0 3 55 750 7 2 0 04 05 41 固定表格宽度,变化藏文字号大小,且不包含藏文音素符的藏文文本进行排版实验,每行 藏文字符的实际个数与理论个数之间的误差值 :l 。 w e b 页面藏文排版试验数据统计表( 二) 应有个数实际个数超过个数 表格宽度字体宽度 备注 ( 单位:行) ( 单位:行)( 单位:行) 2 0 054 05 21 2表格内的藏文字 2 0 063 34 19 l 自 儿。= l m ,、 1 0 西北民族大学硕士学位论文 2 0 082 53 27 体包含分词符( 。) 2 0 01 02 02 55 2 0 01 21 7 2 0 3 2 0 01 51 3 3 1 6 3 结尾符( 1 、1 1 ) 2 0 01 9 1 1 1 32 2 0 02 01 01 ll 2 0 02 19 5l ll _ 5 2 0 0 2 2 9 1 01 2 0 02 48 31 01 7 2 0 02 581 02 2 0 02 77 49一1 6 2 0 0 2 87 19一1 9 2 0 03 06 68一1 4 2 0 03 55771 3 2 0 04 0561 固定表格宽度,变化藏文字号大小,包含藏文音素符的藏文文本进行排版实验,在算法理 论中将分词符( ) 结尾符( i 、i ) 的理论字符宽度等同于单个藏文字符,每行藏文字符的 实际个数与理论个数之间的误差值无规律性变化,所以调整分词符( 。) 宽度为单个藏文字 符的1 4 ,在l 司定表格宽度,变化字体大小的环境下,再次进行排版实验。 w e b 页面藏文排版试验数据统计表( 三) 应有个数实际个数超过个数 表格宽度字体宽度备注 ( 单位:行)( 单位:行)( 单位:行) 2 0 05 4 0 4 00 2 0 0 6 3 33 4 1 2 0 082 52 5o 2 0 01 02 02 00 2 0 01 21 71 81 2 0 0 1 5 1 3 ,31 3 一o 3 2 0 0 1 9 1 11 2 1 表格内的藏文字 2 0 02 01 01 0o 2 0 0 2 l 9 51 0 0 5 体包含分词符( ) 2 0 0 2 2 91 01 2 0 02 48 39o 7 结尾符( 1 、1 1 ) 2 0 02 5891 2 0 0 2 7 7 48 0 6 2 0 02 87 17一o 1 2 0 03 06 67o 4 2 0 03 55 76o 2 2 0 04 05 6 l 经过大量藏文文本实验,发现音节点和单垂符的宽度为单个藏文字符宽度的四分之一 西北民族大学硕士学位论文 时,排版效果最佳。同时为了能使每行行未对齐,我们又修改了字库,分别增加了两个宽 度为四分之一字符和二分之一字符的两个空格,用以填充不足一个字符的空间。 3 2 4 藏文网页排版实现方案 3 2 4 1 藏文网页排版技术 寻找h t m l 的接口函数,即:移行规则程序与h t m l 的连接。有两种连接方式: ( 1 ) 在藏文输入页面中建一个 藏文规则 按钮调用移行规则程序,点击 藏文规则 项,完 成藏文移行规则; ( 2 ) 将移行规则程序生成 j s 文件、或 v b s 文件 既j a v a s c r i p t 或v b s c r i p t 脚本 格式, 并在页面h t m l 头描述中嵌入 ( 或 ) 语言中一并加载,在藏文调入过程 中,随时控制完成排版。 排版前后效果比较 譬警鬻“感鬻懋震紫繁雾攀鬻一毒斟 湍茹端鬻“鬻警鬻8 “”“8 一。! 崩 翩哼每盘口j m 辨馘曹艄- d j 日一0 强0 辑国愠8 霉胖镬置。o 蛳鞫眦肌m “q捌p 锄i 。 4 蛳黼怖触廿嘏腩黼矗p # 引硼 二 可百i 自茸5 。哥g 哪甑萝s 吖8 c 邓q 。q w 可q : 董可葛 冒疑督亘对哥苗 鸭可萝毛w 墨q 对莒对专w 卑气 铲鹌钮钾m 秆豫明妒朗 一种2 可哥解驴 4 一。专9 彳g 自叮。鲫寸寥q q b 一事 1 - 瞄一。鑫可鸭1 静 日弋1 气对埒| 1 i _ 嚣g 辞1 气 珂 僻 。嗣e 高气q 5 玎1 哪q “目 1 跚 ! 目封w 再气o 司可可日静马7 萄彳q l q 罨气号可萝i 。目肆气 v 蠢五怠9 8 1 气 1 茸e 弓 。羽 磊可q 哥q q 百研q 目耐q + 再彳 l ( 1 截每可q 茂哥1 五c w 可q 1 。q 吾彳雩可吖两1 邓司气1 o 。q 可可q 蔷q 交i q 习司通彳号可萝 日目可气1 可菁对 嚣1 气对葺帮吾嚣 a 耳q 五。鼍气邳q 五p 可8 芦 + 司碍q 垂珂, q 舒哥1 五 晕 。叫可q 1 q 亘气霉可吖可吖1 气1 五。 i 9 6 8 5 萌q 喜q 8 i 可a i l a3 。目可1 啭、 零 对彳甚 w 霄q 气1 气羽q 五侈可肆1 傅 耳目暂司气稍1 9 肾q q 碍哥q 气孽5 驷8 彳魄下舍1 r i 玎驷 再吓q 可可马鲁q 毫可s 髫可置r 身1 可o c 币可1 可气 。 马+ 3 茸a 硐黾百1 再可萝气萝q q 季气马q 呵封硐q 鼍五酮目五疙 氢对q 茸i 可孽每茸 哥套q q l 吖茁3 吖q 1 习c 基可气 q 玛g q 习五喜气营气萝q 交葑习t 茸毛气。d r 置耐书q q 五1 q 冀l 1 再可毛邵司固c c q 芎c 奄髫邓气 田,捌q 五5 可j 五8 3 啊哪啊1 吒响萝q q 氧目q w 抟q 黔。目习守驴 t ” 。 硼,j 。 焉一 q 茸q 季哥弓最7 菩 晕吾q 龟1 叫蔷彳s 司q 1 习宙气百l。 糍种z ,。 、 g 辊“掣j 黼 一一 。r h 。f 排版前排版后 3 3w e b 页藏文输入法实现 3 3 1 什么是输入法 世界上大多数语言是基于字母表的,一些字母的集合组成了单词。当在计算机中输入 这些语言时,用户通常是在键盘上键入相应的字符。但表意文字( 如中,日,韩等) 却不 能在键盘上找到相应的键,在这些语言中,文字象征实际的对象,如果想在计算机中输入 这些文字,就需要相应的输入法。对于表意文字,一般都使用基于发音的输入法。例如对 于中文,大多数文本输入法是首先在一个基于发音的字母表中输入字符,然后输入法查找 字典来找到可能的表意文字( 可能有很多) ,输入法然斤显示侯选串给用户选择。当然还 有些其它输入法,如五笔,郑码等。这些输入法的一个共同的特征是用户敲多个键来组 西北民族大学硕士学位论文 成一个文字( 或一组文字) 。 这些复杂的输入法一般都提供如下区域: 状态信息( s t a t u sa r e a ) :标志当前输入状态。 文本输入和编辑区( p r e e d i ta r e a ) :显示和处理相应语言的文本。 菜单或选择描述( a u x i l i a r ya r e a ) :可以修改输入法的一些配置。 文本输入和编辑区有如下类型: o n t h e s p o t :p r e e d i t 数据显示在客户程序窗口内。应用程序的数据要做相应的移动来 使p r e e d i t 数据显示在插入点。 o v e r t h e s p o t :输入法有自己的窗口来显示p r e e d i t 数据,输入法窗口位于当前插入点 的上面。 o f f t h e s p o t :客户程序提供窗口显示p r e e d i t 数据 r o o t - w i n d o w :p r e e d i t 数据显示的窗口是根窗口的子窗口( 即此窗口不依赖于任何其它 应用程序) 。 3 3 2w e b 页面藏文输入法原理 3 3 2 1w l n d o w s 藏文输入法原理 设计w e b 页面藏文输入法之前,有必要先理解w i n d o w s 藏文输入法的原理。w i n d o w s 本机藏文输入法是将输入的藏文字符外码按照一定的编码规则转换为藏文显示字符,进入 到目的地。藏文输入法与汉字输入法采用类似的原理机制,由操作系统的输入法管理器对 其进行统一管理:系统的键盘事件由w i n d o w s 的0 s e r e x e 应用程序接收后,u s e r e x e 在 将键盘事件传到输入法管理器( i m m ) 中,管理器再将键盘事件传到输入法中,输入法根据用 户编码字典,翻译键盘事件为对应的藏文,然后再反传到u s e re x e 中,u s e r e x e 再将翻 译后的键盘事件传给当前正在运行的应用程序,从而完成藏文的输入。 w i n d o w s 藏文输入法由三个窗口组成: 状态窗口( s t a t u sw i n d o w s ) 一显示当前的输入法状态( 藏文还是英文等信息) ; 编码输入窗口( c o m p o s i t i o nw i n d o w s ) 一显示当前击键情况; 藏文候选窗口( c a n d i d a t e sw i n d o w s ) 一列出当前编码的藏文,供用户查看。 3 3 2 2w e b 页面藏文输入法原理 本技术是利用w e b 页面编程技术,藏文的输入输出都是在w e b 浏览器上米实现,它不 归w i n d o w s 的输入法管理器管理。此输入法和w i n d o w s 本机藏文输入法原理的相同之处在 于:都具有键盘事件、编码字典等;差别在于系统的键盘事件不通过输入法管理器,而直 接对应用户编码字典,输入法再翻译键盘事件为对应藏文,然后将键盘事件传给w e b 浏览 器的文字编辑框中,这样就实现了w e b 页面的藏文输入。 键盘事件监控用户的按键,来预料用户可能需要的字符,并提供一张备选字符列表以 供用户从中选山所需字符,备选字符列表就是用户编码字典。在默认情况下,程序为用户 提供一个可以键入并选择备选字符的i m e 窗口。通过使用i m e 变换功能提供的定制接口, 西北民族大学硕士学位论文 w e b 输入法提供类似w i n d o w s 输入法中的输入法管理器i m m ( i n p u tm e t h o dm a n a g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论