已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)面向汉字教学的错字处理工具设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古师范大学硕士学位论文 中文摘要 “汉语热”现象及“孔子学院 的开办表明汉语正在走向世界,汉 语已经成为第二语言学习的重要选择。汉语性质独特,非汉字文化圈的 外国汉语学习者学习汉语难度极大,其中尤以汉字难学。汉字初学者极 易将汉字写错。汉字教学难的现状已经制约了国内语文教学和汉语国际 推广工作的进一步发展。不同初始特征的学习者在汉字学习过程中出现 的书写错误具有不同的规律。 但是,目前还没有基于大规模错字样本的书写偏误统计分析研究成 果为汉字教学提供指导和服务。主要原因是错字的计算机处理( 错字编 码、错字输入输出、错字检索统计等) 还存在很多困难。错字的编码问 题主要体现在u n i c o d e 预留的用户私有编码区无法满足规模不断膨胀的 错字需求,而且错字的编码由使用者自行定义,造成编码混乱,无法进 行交换和共享。使用现有的各种输入法向计算机系统中录入的汉字都是 标准字符集内的汉字,无法录入错字,只能以图片方式显示错字,不能 支持错字的检索和统计。因此,缺乏符合国际标准的错字编码方案和简 易有效的错字输入、管理方法是造成计算机难以有效处理错字信息的主 要障碍。 为了有效地解决计算机处理错字问题,本文重点完成了以下几方面 的工作: ( 1 ) 分析了汉语教学领域错字分类的研究成果,建立了一种适合计 算机处理、以字形为依据的错字分类方案。 ( 2 ) 以汉字字形特征为依据,基于u n i c o d e 国际标准,建立了一种 以正字为中心、范围可扩展的错字编码方案,即采用正字加表意文字变 体选择符组成的变体序列( i d e o g r a p h i cv a r i a t i o ns e q u e n c e s ,i v s ) 作 为错字编码的方案。这种方案使错字的编码统一到国际标准编码框架下, 并在编码层次与正字建立了关联,能够有效地表示和管理大规模错字。 ( 3 ) 采用o p e n t y p e 智能字体技术实现了i v s 模式的错字编码方案。 并使用专业字体制作工具设计完成了具有一定数量的宋体错字o p e n t y p e 内蒙古师范大学硕士学位论文 字库,为错字可以与正字一样进行计算机处理建立了基础,可在记事本 等软件中实现错字与正字同文显示、统一检索。 ( 4 ) 基于上述的错字编码方案和o p e n t y p e 错字字库,设计实现了 一个面向汉字教学研究人员、操作简便的o f f i c e 错字输入插件工具。使 用该工具可以向w o r d 、e x c e l 、p o w e r p o i n t 、a c c e s s 等软件中输入错字。 与内码输入方法相比,该方法极大地提高了输入速度,操作也更加方便、 简易,适合非专业人员使用二 本文的以上工作成果有效地解决了错字输入输出、检索、管理和共 享问题,为基于大规模错字样本的书写偏误定量分析建立了基础。这些 成果能够用于其它各种需要处理错字的应用领域,如在各类汉字书写评 测试题、汉字教学系统、汉字教学研究论文中输入处理错字等,对汉字 教学的理论研究和教学实践都具有重要的实用意义。此外,这些成果还 可以进一步推广用于处理古籍异体字、甲骨文、民俗拼合字等特殊汉字 领域,对利用计算机进行汉字历史文化研究将发挥辅助作用。 关键词:汉字,错字处理,u n i c o d e ,i v s ,o p e n t y p e 字体,o f f i c e 插件 a b s t r a c t c h i n e s ef e v e r a n d c o n f u c i u si n s t i t u t e l a u n c h e di n c h i n aa n d o v e r s e a si n d i c a t et h a tc h i n e s ei sw a l k i n gu pt ot h ew o r l d ,a n dc h i n e s eh a s b e c o m ea ni m p o r t a n tc h o i c et ol e a mas e c o n dl a n g u a g e b e c a u s eo ft h e u n i q u en a t u r eo fc h i n e s e ,t h ef o r e i g nl e a r n e r so f t h en o n - c h i n e s ec h a r a c t e r s c u l t u r a lc i r c l ea r ee x t r e m e l yd i f f i c u l tt o l e a r nc h i n e s e ,e s p e c i a l l yi nt h e c h i n e s ec h a r a c t e r s t h eb e g i n n e r sw h os t u d yc h i n e s ec h a r a c t e r sa r ee a s yt o m a k eam i s t a k e t h ed i f f i c u l ts i t u a t i o no ft e a c h i n gc h i n e s ec h a r a c t e r sh a s b e e nr e s t r i c t e di nc h i n e s el a n g u a g el e a r n i n ga n dt h ec h i n e s e sd e v e l o p m e n t o fi n t e r n a t i o n a lp r o m o t i o ni nt h ef u r t h e r i nt h ep r o c e s so fl e a r n i n gc h i n e s e c h a r a c t e r s ,t h ew r i t i n ge r r o ro c c u r sw i t hs o m er e g u l a r i t yi nd i f f e r e n ti n i t i a l c h a r a c t e r i s t i c so fl e a r n e r s t h e r ei sn ow r i t i n gs a m p l e sb a s e do nl a r g e s c a l et y p oe r r o r si ns t a t i s t i c a l a n a l y s i so fr e s e a r c hr e s u l t sp r o v i d eg u i d a n c ef o r t h et e a c h i n go fc h i n e s e c h a r a c t e r sa n ds e r v i c e s ;w h i c hm a i n l yd u et ot h a tw r o n g l yw r i t t e nc h i n e s e c h a r a c t e r si nt h ec o m p u t e rp r o c e s s i n g ( w r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s c o d i n g ,w r o n g l yw r i t t e n c h i n e s ec h a r a c t e r s i n p u ta n do u t p u t ,w r o n g l y w r i t t e nc h i n e s ec h a r a c t e r s s e a r c ha n ds t a t i s t i c s ,e t c ) s t i l l e x i s tm a n y d i f f i c u l t i e s t h ec o d i n gp r o b l e mi nw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s m a i n l yb er e p r e s e n t e dt h a tt h eu n i c o d ep r i v a t eu s e ra r e a c a nn o tm e e tt h e n e e d so fe x p a n d i n gt y p oa n dc o d i n gt y p o ,a n dt h ec o d i n ga r e ar a n g e db y u s e r s r e s u l t si nc o d i n gc o n f u s i o n ,s oi tc a nn o tb ee x c h a n g e da n ds h a r e d t h e c h i n e s ec h a r a c t e r su s i n gt h ee x i s t i n gv a r i e t yo fm e t h o d st oi n p u ti nc o m p u t e r s y s t e m sa r ea l lt h ec h a r a c t e r sw i t h i ns t a n d a r dc h a r a c t e r sw h i c hc a nn o ti n p u t w r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s ,w e c a no n l yd i s p l a yt h ep i c t u r e so f w r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s ,b u tc a nn o ts u p p o r tt h ew r o n g l yw r i t t e n c h i n e s ec h a r a c t e r s s e a r c h i n ga n ds t a t i s t i c s t h e r e f o r e ,t h el a c ko fc o d i n g 内蒙古师范大学硕士学位论文 s c h e m e sa n de f f e c t i v e i n p u tm a n a g e m e n tc o m p l i a n c e w i t hi n t e r n a t i o n a l s t a n d a r d so nw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r sa r em a j o ro b s t a c l e si n e f f e c t i v e l yd e a l i n gw i t hw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r si n f o r m a t i o n i no r d e rt o e f f e c t i v e l ys o l v et h e i s s u e so fc o m p u t e rp r o c e s s i n gi n w r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s ,t h i sp a p e rw i l lf o c u so np e r f o r m i n gt h e f o l l o w i n ga s p e c t s : ( 1 ) t h ep a p e rh a sa n a l y z e dt h er e s e a r c hp r o d u c t i o no fw r o n g l yw r i t t e n c h i n e s ec h a r a c t e r sc l a s s i f i e di nt h ef i e l do fc h i n e s el a n g u a g et e a c h i n g , e s t a b l i s h e daw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r sc l a s s i f y i n gf o r m u l aw h i c hi s s u i t a b l ef o r c o m p u t e rp r o c e s s i n g a n dw i t ha c c o r d a n c et oc h a r a c t e r s i n f o r m a t i o n ( 2 ) a c c o r d i n g t ot h ec h a r a c t e r i s t i c so fc h i n e s ec h a r a c t e r sa n d i n t e r n a t i o n a ls t a n d a r d so fu n i c o d e ,t h ep a p e rh a s e s t a b l i s h e d aw r o n g l y w r i t t e nc h i n e s ec h a r a c t e r sc o d i n gs c h e m ew h i c hi sb a s e do nt h ec o r r e c t c h a r a c t e r sa n dc a nb ee x p a n d e do nt h ea r e a ,a n du s et h ei d e o g r a p h i cv a r i a t i o n s e q u e n c e sa st h ec o d i n gs c h e m eo fw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s t h i s p r o g r a mm a k e sw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r sc o d i n gt ob eu n i f i e di n t o t h ef r a m e w o r ko fi n t e r n a t i o n a ls t a n d a r d sf o rc o d i n g ,a n da s s o c i a t e dw i t ht h e c o r r e c tc h a r a c t e r si nc o d i n gl e v e l s ,i ta l s oc a ne f f e c t i v e l ye x p r e s sa n dm a n a g e l a r g e - s c a l ew r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s ( 3 ) u s i n go p e n t y p ef o n tt e c h n o l o g y , t h ep a p e rh a sa c h i e v e dt h ei v s i n t e l l i g e n tm o d eo fw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r se n c o d i n gs c h e m e a n du s i n g p r o f e s s i o n a l f o n tp r o d u c t i o n t o o l ,t h ep a p e rd e s i g n e da n d c o m p l e t e da no p e n t y p ef o n tw i t han u m b e ro fw r o n g l yw r i t t e nc h i n e s e c h a r a c t e r so fs t a n d a r dt y p e f a c eo fc h i n e s e ,s ow r o n g l yw r i t t e nc h i n e s e c h a r a c t e r sc a nb ee s t a b l i s h e di nc o m p u t e rp r o c e s s i n gl i k et h ec o r r e c to n e s w r o n g l yw r i t t e nc h i n e s ec h a r a c t e r sc a na l s ob ed i s p l a y e da n ds e a r c h e di n n o t e p a da n do t h e rs o f t w a r el i k et h ec o r r e c to n e s ( 4 ) b a s e do nt h ea b o v ew r o n g l yw r i t t e nc h i n e s ec h a r a c t e r sc o d i n g s c h e m ea n do p e n t y p ef o n t ,t h ep a p e rh a sd e s i g n e da n di m p l e m e n t e da l l e a s y i n p u tp l u g - i nt o o l k i tf o ro f f i c et h a to r i e n t e dt ot e a c h i n ga n dr e s e a r c h i n g 内蒙古师范大学硕士学位论文 u s e r sc a nu s et h i st o o lt op u tw r o n g l yw r i t t e nc h i n e s ec h a r a c t e r si n t ow o r d , e x c e l ,p o w e r p o i n t ,a c c e s sa n do t h e rs o f t w a r e t h i si n p u tm e t h o dg r e a t l y i m p r o v e st h ei n p u t t i n gs p e e d ,a n d i ti sm o r ec o n v e n i e n ta n de a s i e rf o r n o n p r o f e s s i o n a l sc o m p a r e dw i t ht h ei n t e r n a lc o d ei n p u tm e t h o d t h ea b o v er e s u l t so ft h i sw o r ka r ee f f e c t i v e l ys o l v e dt h ep r o b l e m si n w r o n g l yw r i t t e f f c i i i n e s ec h a r a c t e r s i n p u t t i n ga n do u t p u t t i n g ,r e t r i e v a l m a n a g e m e n ta n ds h a r i n g ,a n de s t a b l i s h e daf o u n d a t i o nf o rw r o n g l yw r i t t e n c h i n e s ec h a r a c t e r s q u a n t i t a t i v ea n a l y s i sw h i c hb a s e do nl a r g e s c a l ew r i t i n g s a m p l e s t h er e s u l t sa l s oc a nb eu s e di n v a r i o u so t h e ra r e a st h a tn e e dt o h a n d l et h e w r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s ,s u c ha sv a r i o u st y p e s o f e v a l u a t i o n si nw r i t i n gc h i n e s ec h a r a c t e r s ,c h i n e s ec h a r a c t e rt e a c h i n gs y s t e m , p a p e r so nc h i n e s ec h a r a c t e r st e a c h i n ga n do t h e r s t h er e s u l t sh a v ei m p o r t a n t p r a c t i c a ls i g n i f i c a n c eb o t hi n t h e o r e t i c a lr e s e a r c ho n c h i n e s ec h a r a c t e r s e d u c a t i o na n dt e a c h i n gp r a c t i c e i na d d i t i o n ,t h e s er e s u l t sc a nb ef u r t h e r e x t e n d e dt oh a n d l es o m es p e c i a lc h a r a c t e r sp r o b l e m ss u c ha st h ea n c i e n t v a r i a n t s ,t h eo r a c l eb o n ei n s c r i p t i o n s ,t h ef o l kc o m b i n e d c h a r a c t e r sa n dt h e o t h e r i tw i l lp l a yas u p p l e m e n t a r yr o l ei nt h er e s e a r c ho fc h i n e s eh i s t o r ya n d c u l t u r e k e yw o r d s :c h i n e s ec h a r a c t e r s ,w r o n g l yw r i t t e nc h i n e s ec h a r a c t e r s p r o c e s s i n g ,u n i c o d e ,i d e o g r a p h i c v a r i a t i o n s e q u e n c e s ,o p e n t y p ef o n t , 0 伍c ea d d i n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果,尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含本人为获得内蒙古师范大学或其它教育机构的学位或证书而使 用过的材料。本人保证所呈交的论文不侵犯国家机密、商业秘密及 其他合法权益。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示感谢。 签名:奎_ ! 灰日期:2 。扣年1 5 1 月二日 关于论文使用授权的说明 本学位论文作者完全了解内蒙古师范大学有关保留、使用学位 论文的规定:内蒙古师范大学有权保留并向国家有关部门或机构送 交论文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容 和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:杏d ,友导师签名:南0i 氏 日期:2 0 o 年6 月z 日 第1 章绪论 第1 章绪论 1 1 研究背景 1 1 1 问题的缘由 随着中国综合国力的增强,世界各国普遍出现了“汉语热”现象,汉语逐渐成为 第二语言学习者的重要选择。“孔子学院”在世界多个国家的创办进一步推动了汉语 国际化进程,方块字正在走向世界。 汉语属于表意文字体系。汉字是汉语的书写符号,性质独特,尤其是在基本符号、 结构规则、书写方式等方面都不同于表音文字。对非汉字文化图的学习者来说,汉字 是他们学习汉语最直接也是最大的障碍。“汉语难学,汉字更难学”,“汉字识读难, 书写更难”等突出问题和普遍共识长期困扰着非汉字文化圈的外国汉语学习者。国 内语文教学和汉语国际推广工作者在教学实践过程中都发现:学习汉字是汉语学习的 瓶颈,汉语学习者初学汉字时极易将汉字认错、写错,然而不学好汉字就难以进一步 学习汉语拉。3 1 。汉字教学难的现状已经制约了国内语文教学和汉语国际推广工作的进 一步发展幢1 ,也在一定程度上制约了中华文明的传承和国际传播。 汉语教师只有对学习者在汉字学习过程中所出现的错误有一个较为全面的了解, 才能在教学过程中做到有的放矢,使学习者更快、更多地学会汉字,从而提高教学效 果。对外汉语教学和研究人员发现:不同母语、不同国籍、不同文化背景和不同年龄 段的学习者在学习汉字过程中出现的汉字书写错误具有显著的差异性,但学习者在汉 字书写错误中反映的汉字书写知识的形成和发展规律还不清楚口圳。初学汉语的外国 留学生没有汉字结构和笔画、笔向和笔顺的概念,更不知道汉字的读音,因而难以使 用现有的输入方面将汉字输入计算机,以至于无法利用计算机以及互联网的海量资源 方便地学习汉语晦1 。虽然有一些汉语教师和研究人员根据教学或专项研究的需要,对 汉语学习者的汉字书写原始错误字形进行了人工收集、整理,但是由于缺少支持错误 字形输入输出和有效管理的计算机软件工具,往往无法满足现实教学和研究需求,无 法对采集到的数据进行成规模的偏误统计分析,无法从错误字形样本中挖掘出有价值 的规律,也无法提炼出重要学术成果,严重制约了汉语教学研究的深入发展。 随着中文信息处理研究的深入,计算机汉字处理领域涌现出大量实用化的重大成 果,如汉字排版处理系统、汉字识别系统、超大汉字字符集、汉字激光照排系统、汉 字输入系统等。基于汉字标准编码和汉字字库的中文信息处理平台基本满足了中文信 息化的需求,极大地促进了我国信息产业的发展和社会信息化水平的提高。标准字符 内蒙古师范大学硕士学位论文 集内汉字( 包括简体字、繁体字和部分古籍字) 的输入输出问题已经得到解决。但是, 在汉字处理方面目前仍然存在诸多问题尚未得到很好解决。 1 1 2 应用需求与存在问题 ( 1 ) 错字处理和汉字教学 使用现有的各种输入方法向计算机系统中录入的汉字都是标准字符集内的汉字, 只存在将某个“正体字”误录为字符集内的另一个正体汉字的“别字 现象,不存在 “错字”问题。本文中的正体字指计算机标准字符集内的汉字和书写正确、规范的汉 字字形( 以下简称,正字) 。别字指使用有误的计算机标准字符集内汉字和书写形体 正确、规范但使用错误的汉字。错字指书写形体不正确、不规范的汉字字形。在实际 教学过程中,汉字教学和研究人员存在如下需求: 将学生书写的错字与正字一同方便地录入到同一文档中,实现正字与错字的 同文显示输出,从而丰富汉字练习与评测的试题类型。如在一份汉语评测试 卷中命制正字和错字的辨析题、改错题。 在存储有错字的电子文档或者信息系统中检索包含指定错字内容的信息。 利用计算机自动评阅汉字书写的正误,以及实现汉字书写网络化评测。 使用计算机对收集到的大规模错字样本进行有效管理,避免同一个错字存在 多个重复样本,保证错字信息的唯一性,同时也保证对收集到的错字样本不 漏管。 对错字进行定量分析和深层次处理,为汉字教学和研究人员使用信息技术手 段挖掘不同特征学习者( 不同母语、不同国籍、不同文化背景和不同年龄段 的学习者等) 在学习汉字过程中出现的深层次的错误规律提供支持。 但是,以上问题都没有得到很好解决,主要原因在于目前计算机系统还没有一种 编码方案和软件工具能够辅助使用者方便地进行错字输入输出和有效管理。 ( 2 ) 集外汉字的输入和处理 最新的u n i c o d e5 2 版本定义了1 6 个辅助平面( s u p p l e m e n t a r yp l a n e ) ,它们 与u n i c o d e 基本多文种平面( b a s i cm u l t i l i n g u a lp l a n e ,b m p ) u + o o o o u + f f f f 共 同构成了目前u n i c o d e 国际通用字符集( u n i v e r s a lc h a r a c t e rs e t ,u c s ) 的2 1 位编 码空间,即 u + 0 0 0 0 0 0 u + i o f f f f ,共1 1 1 4 1 1 2 个可用编码点。从表卜l 列出的主 要计算机标准字符集的收字数量可见,g b l 8 0 3 0 - 2 0 0 5 字符集收录7 0 2 4 4 个汉字,占 u n i c o d e5 2 己编码有形字符1 0 7 2 9 6 1 个的6 5 4 7 ,占目前u n i c o d e 通用字符集编码 1 t h eu n i c o d ec o n s o r t i u m t h eu n i c o d es t a n d a r dv e r s i o n5 2 【s l ,d e c e m b e r2 0 0 9 :5 5 7 5 5 8 2 第1 章绪论 空间的6 3 9 6 。 表i - i 主要计算机汉字标准字符集( - 7 库) 收字数量 字符集名称包含汉字( 字符) 数量 g b 一2 3 1 27 - 符集 6 7 6 3 个汉字( 涵盖简体字) ,7 1 5 个符号,总计7 4 7 8 个字符 b i g 一5 字符集1 3 0 6 0 个汉字( 涵盖繁体字) ,8 0 8 个符号,总计1 3 8 6 8 个字符 中u 韩( c j k ) 统一汉2 0 9 0 2 个、c j k 扩展a 集( c i ke x t e n s i o na ) 中的 g b k 字符集汉字5 2 个,共收录2 1 0 0 3 个简、繁体汉字、8 8 2 个符号,共计2 1 8 8 5 个 字符( 兼容g b 一2 3 1 2 字符集和b i g 一5 字符集的全部汉字和符号) g b k :2 1 0 0 3 个汉字、c j ke x t e n s i o na :6 5 8 2 个汉字,共计2 7 5 3 3 个汉 g b l 8 0 3 0 - 2 0 0 0 字符集 字( c j ke x t e n s i o na 中有5 2 个汉! 孑g b k 重复,不再霞复计算 g b l 8 0 3 0 2 0 0 5 ,即g b k 字符集:2 1 0 0 3 个汉字、 i s o i e c1 0 6 4 6u n i e o d ec j ke x t e n s i o na :6 5 3 0 个汉字、c j ke x t e n s i o nb :4 2 7 1 1 个汉字, 字符集共计7 0 2 4 4 个汉字 g b l 8 0 3 0 2 0 0 0 字符集:2 7 5 3 3 个汉字、c j ke x t e n s i o nb :3 6 8 6 2 个汉字, 宋体一方正超大字符集 共计6 4 3 9 5 个汉字 计算机国际标准字符集收字规模不断膨胀,但是仍然不能满足人名、地名、方言、 古籍用字的输入需求。而u n i c o d e 联盟也不大可能再为规模不断膨胀的汉字分配用 之不尽的编码点,更不可能为每个错字分配编码。各种键盘输入法和手写识别输入软 件只支持标准字符集内的汉字的输入,对于集外汉字、错字等都无法输入。现有造字 工具能够辅助制作汉字字模,进而输入集外汉字、错字,但是使用这种方法输入的汉 字既没有有效的管理方法,也无法被传输和共享。由此出现多方面的问题: 据2 0 0 6 年3 月1 6 日公安部新闻发布会介绍:在全国各地第二代身份证制发 过程中,遭遇4 6 0 0 个北大方正超大字库中没有、无法输入计算机的冷僻字 “难题”,致使全国有近百万个身份证因人名、地名用字是计算机字库中没 有的冷僻字而无法顺利发放。 在古籍数字化过程中,录入人员遇到计算机字库中没有的异体字时,往往用 同义的简体、繁体正字或者其它已收入字库的异体字来替代,这样就丢失了 大量古籍字的原貌信息,难以做到古籍文字的保真输入,无法满足古籍整理、 文字研究中针对汉字字形的各种研究需要,如对汉字字形历史演变规律的相 关研究就非常不利晴1 。另外,民俗研究中的拼合字、历史上曾使用现在已不 再使用的文字如“八思巴”文字等,都无法录入计算机,无法利用现代信息 技术手段进行研究。 在出版领域,各种电子出版物以至网络出版物中都有许多集外汉字。面对这 3 内蒙古师范大学硕士学位论文 些字,读者既无法输入复现,也无法检索。 以上这些问题严重地阻碍了汉语教学与国际推广、汉字学研究、数字化出版、历 史文化研究等多项事业的发展。 1 1 3 问题的解决现状 目前,处理错字、集外汉字的方法主要有两种:( 1 ) 对错字样本进行扫描,将错 字图片嵌入文本显示输出;( 2 ) 利用造字程序( 如t r u e t y p e 造字程序或f o n t c r e a t o r 等) 自定义错字字模,与输入法链接后实现显示输出。以图片方式显示错字的方法不 支持与常用汉字一样的检索和深层次加工处理,版面指令无法作用于错字图像,导致 文字排版烦杂,而且占用大量存储空间和网络流量;制作错字字模方法复杂,非专业 人员不经过训练很难熟练运用,同时自造错字占用的是用户预留编码区,可选择的编 码范围有限:c h i n e s eg b k 国标码为 a a a l a f f e , f 8 a 1 f e f e 和 a 1 4 0 a 7 a o 三 个段共4 6 3 6 个,u n i c o d e 编码为 u + e 0 0 0 一u + f 8 f f 共6 4 0 0 个,而且各个错字的编码 由字模制作者自行确定,随意性大,编码混乱,对大量错字的统一管理极为不利,更 无法共享。错字集是一个开放的集合,以上两种错字处理方法都不符合u n i c o d e 国际 标准,不支持以字形结构、部件、笔画等构字特征为基础的深层次分析处理,也不能 实现方便地输入、输出、检索、管理、交换和共享错字。 为满足出版需要,一些出版部门利用造字工具建立了自己的集外汉字表,但由于 没有基于汉字字形的自动比对工具和判断其同一性的有效方法,造成各单位间的集外 字无法有效管理,不能实现归并和共享,以致数字化图书只能各自使用独立的字库, 造成资源和空间的浪费晴1 。 错字、集外字处理问题没有得到根本解决,主要原因是缺乏符合国际标准、通用 且可扩展的错字处理方案,同时也缺少简单易用的错字处理工具。 1 2 错字处理研究综述 语言学界、汉字教学工作者和计算机领域的研究人员都对学习者在汉语习得过程 中出现的错字作了大量收集整理和研究工作。这些研究成果主要分为两大类:第一类 是从语言文字学角度,对( 留学生) 学习过程中书写的错字进行分类,基于错字分类 进行汉字书写偏误分析。第二类是利用计算机对错字进行处理。语言学研究人员建立 留学生错字语料库,基于语料库进行汉字书写偏误分析;汉字处理和自然语言处理研 究人员设计开发汉字字形形式化描述模型及汉字字形处理工具,利用计算机进行集外 字、错字处理,为汉字教学研究、错字书写偏误分析服务。 4 第1 章绪论 1 2 1 错字分类研究 第一类是对留学生错别字的错误类型进行整体归纳总结。张旺熹( 1 9 9 0 ) 从部件 与结构两方面将留学生的错字分为“部件混乱”( 如:铡) 、“部件错误”( 如:例) 、“结 构松散”( 如:刮) 、“结构混乱 ( 如:钼) 四类1 。杜同惠( 1 9 9 3 ) 把留学生书写汉字 方面的差错归结为“字素混淆( 如:汉) 、“字素易位”( 如:属) 、“字素遗失( 如:诫) 、 “笔画增损”( 如:酱) 、“笔画变形”( 如:剖) 、“结构错位”( 如:郯) 、“音同字错”( 如: 河一 何) 、“混音错字 ( 如:痕一 衡) 八类口1 。范可育( 1 9 9 3 ) 把外国学生书写汉字 的错误归结为“笔形错误”( 如:掭) 、“笔画增减错误”( 如:彤) 、“笔画配合错误” ( 如:t r o ) 、“部件增减错误”( 如:栩) 、“部件更换错误”( 如:够) 、“部件配合错误 ( 如:却) 、“笔画和部件综合错误”( 如:检) 以及“写别字”八类阳1 。并从中归纳出, 现代汉字以直线为笔画特征,以直角或锐角为转折处特征,以平面型为笔画分布和组 合特征。 第二类是按照国别对不同母语背景学生的错别字进行分类研究:例如,壬幼敏 ( 1 9 9 6 ) 认为:日本人书写中文汉字的错误可以归纳为“笔画增损”、“笔画变形”、 “习惯误记”、“会意字错”、“混音错字”以及“书写不正”六类旧1 ;尉万传( 2 0 0 4 ) 主要从历时的角度对东南亚华裔留学生初、中、高三个阶段的汉字偏误作了系统的对 比考察。将学生的汉字偏误分为三大类:错字( 记为c ) 、别字( 记为b ) 、不规范字 ( 记为a ) 0 0 。 第三类是关于汉字认知方面的研究:例如,程朝晖( 1 9 9 7 ) 通过对美国学生学习 汉字过程的观察发现,学习者在习得汉字时同样要经历汉语为母语的儿童习得汉字时 的三个阶段:( 1 ) 浑沌阶段;( _ 2 ) 清晰阶段;( 3 ) 模糊阶段1 。 上述错字分类研究成果分别以汉字的字形、读音特征为依据对错字进行了分类, 这些研究成果对汉字教学的理论研究和教学实践起到了不同程度的促进作用。但是, 这些分类或者是面向人的认知,即在错字的形体书写错误分类中参杂了人的认知因素 和音素特征;或者是对错字形体错误的分类不够细致,丢失了错字错误的详细信息, 均不适合于使用计算机对错字进行处理。 1 2 2 错字语料库建设 储诚志、陈小荷对北京语言大学“汉语中介语语料库系统”n 2 1 的基本设想到最终 的研制开发过程作了系统的介绍,具体包括语料抽样、语料加工和语料检索等部分。 预料加工过程中对文字预处理的规则是:原始语料中的非规范字,包括错字、别字、 内蒙古师范大学硕士学位论文 繁体字、异体字、拼音字( 以拼音代汉字) 、空缺字( 写不出来就空着不写的字) ,一 律标出相应的f 字:拼音字和拼音词相区别,拼音词保留原貌不做订正。在录入的时 候,为便于字词处理,一律用正字录入,同时为便于检索非】;9 1 范字,在对应的j f :字之 前加特殊标记。将错字扫描成图片存储学生汉字书写的原貌信息。在语料检索部分, 用户可用的功能有:用字情况检索;字频、字次统计:特定字出处查找;非规范字检 索和字形结构分析等。北京语言大学“外国学生错字别字数据库”课题组2 0 0 6 年研 制开发“欧美学生错字别字数据库”“”和“韩国留学生错别字语料库”“,对错字别 字进行标注后以图片形式存储于数据库r f l 供用户查看相关信息。利用扫描技术处理 原始书写字样,手工整理错字别字并录入数据库,虽然保留丁手写原貌但这种方式受 设备条件制约,费时费力,受书写者书写笔体影响,每个人书写的都不一样,难以从 中提取出反映错字别字根本错误特征的数据信息。 l1 2 3 汉字字形形式化描述及汉字字形处理工具“”。 汉字字形形式化描述方法使用“笔段网格”这种统一的模型描述一切可以想象到 的汉字字形( 包括错字、古籍异体宁、民俗拼合字) ,支持以汉字字形为特征的汉字 自动比对计算,可以满足以字形比对计算为基础的各种实际应用需要,如汉字教学研 究r r l 的错字描述及偏误定量分析、古籍字形捕迷及比对分析、数字图书馆中生僻字检 索等。笔段网格汉字描述模型使用太小相等的1 6x1 6 个小矩形组成的笔段网格方阵 柬描述汉字字形骨架,每个网格小矩形可包含8 种类型的笔段,见图卜1 。利用“汉 字字形处理工具”,用户可咀使用鼠标描画的方式输入任何想象到的汉字字形在输 八自定义字形时系统能够给出相应的正字作为参照字,可以对参| i 黾字中的笔段进行复 制、粘贴、移动、删除等编辑操作,如图卜2 所示。 图卜l 用格小矩形中的笔段类型 藤藤 i 型墅兰! 蔓i ! 兰堡墨= 倒 匝 ! l j 圈卜2 汉字字形处理工具描画的错字样例 第1 章绪论 汉字字形处理工具支持以汉字字形为基础的自动计算,能够提示自定义的字形是 否已经存在。用户自定义汉字字形最终以t r u e t y p e 字库格式存储于用户私有字库。 使用汉字字形处理工具,研发单位已经完成了国际标准基本字符集中2 0 9 0 2 个汉字的 输入工作,并输入了一批典型错字,建立了欧美留学生错字数据库。汉字字形工具有 助于解决国内及对外汉字教学一直以来存在的汉字难学问题,对于留学生汉字教学具 有极其重要的意义,也可用于典籍的文字保真输入、检索比对分析和出版。但是汉字 字形描述及处理工具线形化了汉字构形要素,以直线段来表达汉字,无法描述汉字的 书法和美学特征,遗失了汉字的优美弧线特征,描述的汉字字形不够美观。该方法描 述的错字同样使用u n i c o d e 用户私有区( p r i v a t eu s e ra r e a ,p u a ) 编码,也无法实现 和其它自造字
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京特色计算机采购制度
- 山西中医药大学《国际经济学》2025-2026学年期末试卷
- 沈阳音乐学院《旅游消费者行为学》2025-2026学年期末试卷
- 上海杉达学院《中医骨伤》2025-2026学年期末试卷
- 绥化学院《证券投资学》2025-2026学年期末试卷
- 唐山幼儿师范高等专科学校《现代沟通技巧》2025-2026学年期末试卷
- 四平职业大学《病原生物与免疫学》2025-2026学年期末试卷
- 锡林郭勒职业学院《物理药剂学》2025-2026学年期末试卷
- 上海欧华职业技术学院《护理管理学》2025-2026学年期末试卷
- 上海电影艺术职业学院《小学科学课程与教学》2025-2026学年期末试卷
- 2026年马鞍山师范高等专科学校单招职业适应性测试题库含答案详解(研优卷)
- (新教材)2026年部编人教版二年级下册语文 第7课 我不是最弱小的 课件
- 2026广东清远市清城区医疗卫生共同体总医院招聘编外工作人员42人笔试参考题库及答案解析
- 园林绿化工国家职业技能标准
- 智联招聘考试题库及答案
- 2025-2030中国风能回收市场投资建议及重点企业发展调研研究报告
- 2025上半年湖南能源集团招聘322人笔试历年常考点试题专练附带答案详解2套试卷
- 卫生院中层干部任用制度
- 前程无忧在线测试题库及答案行测
- 第15课+列强入侵与中国人民的反抗斗争(教学设计)-中职历史(高教版2023基础模块)
- 中医医疗技术相关性感染预防与控制指南
评论
0/150
提交评论