汉字输入技术与方法.doc

上传人：B*** IP属地：四川上传时间：2019-05-07 格式：DOC 页数：13 大小：118KB 积分：15 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三章汉字输入方法?文字录入是中文信息处理的第一步，它可以借助三种手段来实现，即键盘输入、汉字字形识别和汉字语音识别。?在这三种方式中，汉字的键盘输入是主流的输入方式，而汉字字形识别输入和语音识别输入是汉字输入发展的一个趋势，将来的输入技术将是一个多元化的格局。第三章汉字输入方法第一节汉字键盘输入?汉字的键盘输入可分为两种基本的形式：? 一是通过专用的大键盘来进行整字的输入，其效率低下，成本高，已经基本不用。 ? 二是通过标准的PC 键盘（小键盘）来进行输入，显然，要完成输入过程，就必须对汉字进行编码，因此小键盘的输入是一种编码输入。其效率高、成本低，已经成为主流的输入方式。第一节汉字键盘输入?如前所述，依据编码的思路不同，可将编码分为流水码、拼音码、拼形码、音形结合码四类。?每一种编码都有其特点，在键盘输入方面，目前的格局是职业打字员使用形码（如五笔字型），非职业打字员使用音码（如全拼），音码向智能化方向发展，相对形码而言优势越加明显。当前音码的主要不足是不能实现盲打。将音字转换从语句级拓展到篇章级可以解决盲打问题。因而可以肯定音码输入加智能转换，将成为未来键盘输入的主流。现在主要的问题在于如何提高转换精确度。第一节汉字键盘输入?汉字键盘输入系统是由编码层次和软件层次两部分构成，这两个层次互相补充，互为依托，构成完整的输入系统。从“高频先见”、“联想”到“自动识别重码字、词”，软件智能化的程度在不断提高。?赋予计算机一定的有关汉字、汉语的语法、语用知识，计算机可根据这些知识来取代原来需要人脑记忆的某些编码规则，辨别同音字和人工选定重码字、词或联想字、词。第一节汉字键盘输入?一、流水码的代表：内码输入法?内码输入法是Windows 内置的一种输入法，它支持区位码、GBK内码、UNICODE码三种方式的输入。第一节汉字键盘输入?区位码的前二位是区码，后二位是位码。区的编码是从 01-94，位的编码也是从 01-94。在区位码输入方式下，键入相应的区码和位码就可以输入一个汉字。汉字是从 16 区到 87 区，01 至 15 区是图形符号和字母。区位码输入支持信息交换用汉字编码字符集 - 基本集即 GB2312-80 的内码输入方式。内码编码的范围为：0xA1A10xFEFE。? GBK内码输入覆盖了汉字扩展内码规范 - GBK 中规定的全部汉字。? UNICODE码输入支持通用多八位编码字符集 (UCS) - 国际标准ISO/IEC10646.1-1993中规定的全部汉字。第一节汉字键盘输入? 可以输入所有的汉字，包括所有的符号，和内码一一对应，只要内码支持多少汉字，它就可以输入多少字。如在Office XP 的简体中文版中，可以达到对6 万多汉字的输入支持。 ? 对于不认识字的字也可以输入，可以通过偏旁部首对照表来进行? ?安装Office XP 简体中文版，Microsoft 在中文简体版Office XP及相应多语言包中，专门开发了超大字符集中文字体(宋体-方正超大字符集)及增强型区位码。 ?宋体-方正超大字符集字体包括了27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆，香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内，宋体-方正超大字符集共包括65,531个字符。?宋体-方正超大字符集中包括了6万4千多汉字,但是由于其中相当多的汉字读音很难确定，使得按拼音输入的方法难以实现。为此，微软公司专门扩展了原区位/内码/Unicode输入法，开发了增强型区位码。对于GBK中的汉字（即在Unicode 中U+4E00U+9FFF），用户可以继续按原来的方式输入（通过输入区位码，GBK内码或Unicode码）。但是对于扩展A的汉字只能通过输入Unicode码，对于扩展B只能通过输入一种4字节的Surrogate码。总之，通过增强型区位码用户不仅可以输入GBK的汉字，而且可以顺利输入扩展A及扩展B的汉字。?用户只需就要查找汉字在康熙字典（或汉语大字典）中相应的页码（康熙字典的xxxx.xxx或汉语大字典的xxxxx.xxx），并在搜索中将该页码字符串作为关键字进行搜索，找到相应的Unicode或Surrogate，然后激活增强区位输入法即可进行输入。 ?康熙字典页码格式为：xxxx.xxx 汉语大字典页码的格式为：xxxxx.xxx。这里特别要注明的是这里数据来源于1958年1月第一版的康熙字典。?这里小数点前为该汉字在字典中的页码，小数点后两位为该汉字在该页中的位置。如果最后一位为“0” 表示该汉字确实在该页内。如果后一位为“1”，则表示该汉字并不在该页中，此时数点后两位则代表按笔画数该汉字应该排在该页的第几个。第一节汉字键盘输入二、拼音类的输入法? 拼音类的输入法的使用用户众多，其突出的优点是易学，从Windows 内置的全拼、到智能ABC 、微软拼音、再到紫光拼音等，有一系列的优秀输入法。 ?1. 全拼输入法 ? 特点： ? 支持GBK 大字符集 ? 输入效率较低的输入法2.智能ABC输入法?智能ABC输入法（又称标准输入法）是中文Windows95/98中自带的一种汉字输入方法，由北京大学的朱守涛先生发明。它简单易学、快速灵活，受到用户的青睐。?A.内容丰富的词库 ?智能ABC的词库以现代汉语词典为蓝本，同时增加了一些新的词汇，共收集了大约六万词条。其中单音节词和词素占13；双音节占着很大的比重约有66；三音节占11；四音节占9；五九音节占1。词库不仅具有一般的词汇，也收入了一些常见的方言词语和专门术语，例如人名有周恩来等中外名人三百多人；地名有国家名称及大都市、名胜古迹和中国的城市、地区一级的地名，约2000条。此外还有一些常用的口语和数词、序数词。熟悉词库的结构和内容，有助于恰当地断词和选择效率高的输入方式。B. 允许输入长词或短句 ? 智能ABC 允许输入40 个字符以内的字符串。这样，在输入过程中，能输入很长的词语甚至短句，还可以使用光标移动键进行插入、删除、取消等操作。 ?C.自动记忆功能?智能ABC输入法能够自动记忆词库中没有的新词，这些词都是标准的拼音词，可以和基本词汇库中的词条一样使用。智能ABC允许记忆的标准拼音词最大长度为九个字。 ?D.强制记忆?强制记忆一般用来定义那些非标准的汉语拼音词语和特殊符号。利用该功能，只需输入词条内容和编码两部分，就可以直接把新词加到用户库中。允许定义的非标准词最大长度为十五字；输入码最大长度为九个字符；最大词条容量为四百条。 ?用强制记忆功能定义的词条，输入时应当以“u”字母打头。?E.中文输入中输入英文 ? 在输入拼音的过程中（“ 标准” 或“ 双打” 方式下），如果需要输入英文，可以不必切换到英文方式，只需键入“v” 作为标志符，后面跟随要输入的英文。例如：在输入过程中希望输入英文“windows” ，键入“v windows” ，按空格键即可。 ?F. 以词定字输入功能 ? 无论是标准库中的词，还是用户自己定义的词，都可以用来定字。用以词定字法输入单字，可以减少重码。方法是用“” 取第一个字、“” 取最后一个字。 G. 简拼与混拼相结合 ? 简拼的规则为取各个音节的第一个字母输入。对于包含zh 、ch 、sh （知、吃、诗）的音节，也可以取前两个字母组成。混拼输入是两个音节以上的拼音码，有的音节全拼，有的音节简拼。?H. 双打输入 ? 智能ABC 为专业录入人员提供了一种快速的双打输入。在双打方式下输入一个汉字，只需要击键两次：奇次为声母，偶次为韵母。下面列出了双打输入的声母和韵母的定义表，可以看出其使用规则并不复杂，只要记住各个键的含义就行了。 ? 复合声母和零声母定义表第一节汉字键盘输入? 智能 ABC 提供阿拉伯数字和中文大小写数字的转换能力，对一些常用量词也可简化输入。 “ ” 为输入小写中文数字的前导字符。 “ ” 为输入大写中文数字的前导字符。例如：输入“i3” ，则键入“ 三” ；输入“I3” ，则键入“ 叁” 。 ?J用户词库的备份 ? 如何备份自己所定义的词库呢？智能ABC 的用户词库存放在目录“C:WindowsSystem32” 下（假定Windows 安装在目录C: Windows 下），文件名是tmmr.rem 和user.rem 。如果我们要重新安装Windows ，就要先备份这两个文件，安装完毕后，再将这两个文件复制到目录“WindowsSystem32 ” 下，覆盖系统默认的同名用户词库文件。这样，即可保证在重新安装系统后，仍可使用原有的用户自定义的词汇。第一节汉字键盘输入?缺陷：不支持GBK大字符集。?3.微软拼音输入法? 微软拼音输入法是微软公司和哈尔滨工业大学联合开发的智能化拼音输入法，是一种以语句输入为特征的第三代输入法，许多对输入速度要求不太高，并且熟悉拼音的用户非常欢迎它。 Office2000 中文版中使用了2.0 版，Windows XP 中文版和Office XP 中文版安装了3.0 版，Office 2003 中文版使用了4.0 版。第一节汉字键盘输入?A.设置：? 单击微软拼音输入法状态条上的“ 功能设置” 按钮 ?B. 中文输入 ?微软拼音输入法2.0支持全拼或双拼输入方式（可在“属性”对话框中设置）。这两种输入方式都支持带音调、不带音调或二者的混合输入。输入法分别以数字键1，2，3，4代表拼音的四声，5代表轻声。输入的各汉字拼音之间无需用空格隔开，输入法能够自动分隔相邻汉字的拼音。如“这是”带音调输入为zhe4shi4，不带音调输入为zheshi。带音调拼音输入的字词准确率将高于不带音调的拼音输入。?微软拼音输入法2.0的输入结果为整句或词语。用微软拼音输入法输入一个词句时，可连续输入语句中各字的拼音，一个字的拼音输入结束不用敲空格或回车，待下一个字的第一个拼音输入，会自动将前一字的拼音转化为汉字。输入结果下面有一条下划线，表示当前句子还未经过确认，处于组字窗口的句内编辑状态。此时若发现句内有错字，应按左右方向键将光标移至错字前（候选窗口会自动弹出），按减号键或等号键（或单击候选窗口右端的翻页按钮）翻页，出现合适的字词后按数字键，即将输入错误或音字转换错误的字词替换掉。其中，候选窗口中蓝色（由输入法智能匹配）的字词可按空格键直接替换。整句输入、修改结束后需按Enter键加以确认。第一节汉字键盘输入?C.手写输入?微软拼音的手写识别引擎与市面上销售的各种输入手写笔不相上下。用微软输入法你可以使用鼠标直接在屏幕上书写，只要不是缺很多笔划，它都能识别出来。而且识别速度非常快。?D. 双拼输入 ?为了提高输入速度，用户可采用双拼输入，即用两个英文字母输入一个汉字。使用鼠标左键单击输入法状态窗口的全拼/双拼切换按钮，切换至双拼输入状态即可。有关双拼的定义，可参见下面的“双拼输入键位表” ?4.紫光拼音输入法?紫光拼音输入法是一个完全面向用户的，基于汉语拼音的中文字、词及短语的免费的输入法。特点：? 大容量精选词库，收录8 万多条常用词、短语、地名、人名以及数字，优先显示常用字词，而字词的使用频度（词频则从一亿七千万字语料中统计而来。 ? 支持GBK 大字符集，支持简繁体分别输入。 ?强大的用户自定制功能，用户可定制输入习惯、定制双拼编码、定制输入界面、定制模糊音设置、定制中文符号输入、以及定制输入法的智能特性。 ?兼容Microsoft Windows95/98/Me/NT/2000/XP中文版，兼容Microsoft Office、Internet Explorer中文版等系统和应用软件。 ?支持Windows系统的多用户特性，不同用户可以有不同的输入法设置和各自的词库。 ?可以备份并恢复用户词库，可以合并不同的用户词库中自定义的词。 ?用户可批量导入自定义的词和短语。 ?用户可以随时删除不再需要的词。 ?除了拼音外，用户使用最多的输入法就是五笔，但标准的86版的五笔并不好用，许多五笔爱好者开发出来了一些非常好用的五笔输入软件。?1.极点五笔?这是一个由杜志民设计的免费的五笔输入软件。?极点中文是一个完全免费的中文输入平台。所有编码集为az的输入法均可挂接到本平台上并同时具有以下功能：智能辨别编码、拼音，编码与拼音单字可同时录入(也可选用拼音词组录入)，或使用临时拼音；具自动造词、在线造词功能，所造词组可为任意字符；具手动、自动调序及在线删词功能；支持BIG5码输出，且具有简入繁出功能；具编码、拼音互查功能；清新的界面，随心所欲定制系统皮肤、外观；纯文本、全开放式码表，自由打造完全属于自己的输入法。?输入模式的切换：?极点的汉字输入模式有两种，其功能及应用场合如下：五笔临拼：此时状态栏显示“五笔字型”，遇有不会单字或词组时可按“；，”（分号和逗号）进入拼音状态，此模式适合高速盲打；五笔拼音（Ctrl+）：此时状态栏显示“五笔拼音”，遇有不会拆分或书写的单字或词组时可以直接用此字的拼音来录入，此模式不太适于高速盲打。?英文输入 ?用户可以通过以下几种方式输入英文字母：用右Shift键切换到英文输入状态，输入完后再按右Shift键返回中文输入状态；用鼠标点击状态栏切换到英文状态，输入完成后再次点击返回；如果要输入简短英文，如网址、邮箱地址等内容时，可以按“；”键切换到临时英文输入状态，输入完英文后按回车键字母上屏且返回中文输入状态；输入简短英文，且首写的英文字母为大写时，可按“Shift字母”来输入英文，按回车键字母上屏且返回中文输入状态；启用网络输入模式时，当用户键入 http 、ftp: 、bbs. 或 www. 时极点会自动切换到英文输入状态，输完后按回车返回中文。第一节汉字键盘输入? 实时造词 ? 极点具有强大的造词功能，提供了四种造词方法：在线造词、自动造词、高级造词和批量造词，同时也具备在线删词、删除自动造词功能。第一节汉字键盘输入?在输入过程中首先输入构成新词的字，接着按；进入快捷英文后输入“x(单引号)”再按一次回车键完成造词。其中 x 代表130的数字，含义为本次造词要包含的汉字个数。例1：所造的词为“五笔爱好者”，则输入“五笔爱好者”后按“；5”再按一次回车键即可；例2：所造的词为“君不见黄河之水天上来”，则输入“君不见黄河之水天上来”后，按“；6”，候选窗显示为“河之水天上来”，再用键把前面的“君不见黄”4个加上，回车。?在输入过程中首先输入构成新词的字，接着按“Ctrl=”组合键进入造词状态，造词窗口会提示用户最新输入的两个单字。通过按“”和“”两个光标键可增减构成词组的字，若要删除某个字，请用“”键将其移到最左端，然后按Delete键删除。最后按回车键将新词加入系统词库。所造的词组下次可以词组的方式输入。 ? 自动造词用户遇到一些专用人名、地名等词库中没有的专用词时，首先将其输入，再次输入时便可以词组的方式输入，因为极点已经自动将这些单字或词组合成新词组了。这些自动造的词会以红色（可在相应皮肤配置文件中自己设定）显示，想将某词加入用户词库时按“Ctrl 词的序号 ” 选择此词即可。 ? 高级造词极点的词组中可以包含任意字符，用“Ctrl ” 等造词方式实现此高级造词功能。 ?批量造词首先把要添加的词放在一个文本文件中，然后用鼠标右击极点状态栏，从【工具】【批量造词】的菜单项，之后按提示完成批量造词操作。极点对批量造词文件的要求：包含所造词组的文件必须是纯文本文件；每个词组单独为一行；每个词组的最大长度为200个汉字或400个半角字符；词组可以是任意字符，词组中包含空格时，请以“$20 ”代替空格，以“$13”代替回车。 ?GBK汉字输入极点中文可以通过以下两种方式中的任一种来输入GBK汉字（如：咩、唸、哋、咗、嚟、喎、啱、嗰、啲、冇、镕、堃等）：用鼠标右键点击极点状态栏，出现系统设置菜单，点击【输入法设置】，出现设置窗口，选中“输入出镕、冇等GBK难字”项。用户可随时按“Ctrl+M”进入GBK内码状态，输入GBK汉字。输入完成后可按“Ctrl+M ”返回到GB2312汉字输入状态。用鼠标左键点击极点状态栏，出现系统设置菜单，将鼠标移动到【输出设置】，选择【GBK】。?在五笔输入过程中难免遇到一些生僻难拆的汉字，那么在极点下如何输入这些汉字呢？很简单，直接键入此字的汉语拼音即可。如用户要输入“幢”字，但不知如何拆分，此时可键入“zhuang”并用“ ”翻页找到此字并可查得其五笔编码。如果下次遇到“幢”字但又忘记它的编码，没关系，键入“zhuang”后在汉字候选窗第一位的便是“幢 ”。 ? 五笔编码查出来了，那么如果遇到不认识的字怎么办呢？如“昱”字。同样简单，首先用鼠标把“昱”字涂黑或在编辑器中录入“昱”之后按“Ctrl+？” ，极点会弹出一个提示框，显示这个字编码为“juf”，读“yu4 ” ?2. 海峰五笔? 海峰五笔是有史以来支持的字符集最大、能打出的汉字最全、兼容异体字最多的免费通用输入法。 ? 在Windows 95 / 98 中，能够输入国家标准GB2312-80 、GBK 规定的全部汉字和偏旁，共计21004 个。 ? 在Windows NT/2000 中，能够输入国家标准GB2312-80 、GBK 、GB18030 规定的全部汉字和偏旁，共计27564 个。 ? 在Windows XP/2003 中，能够输入国际标准Unicode （包括CJK + CJK- 扩展A + CJK- 扩展B ）规定的全部汉字和偏旁，共计70275 个 ?2. 海峰五笔?支持CJK-扩展B汉字显示的字体：?1、简体中文版Microsoft Office XP及更高版本附带了宋体-超大字符集中文字体，支持上面提到的全部27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆、香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内，宋体-方正超大字符集共包括65,531个字符。换言之，它支持CJK-扩展A中的全部汉字和CJK-扩展B中的部分汉字。?2、繁体中文版Microsoft Office XP及更高版本则提供了支持超大字符集的细明体（MingLiU Ext-B 与 PMingLiU Ext-B），可以从已装有Office的电脑中单独找到该字体文件，复制到本机Windows系统下的Fonts文件夹中即可。需要注意的是，此字体全面支持CJK-扩展B中的42711字，但不支持CJK-扩展A中的6582字。 ?海峰五笔UNICODE超大字符集字体支持包：?完美结合了大陆与港台的数种主流字体，支持GBK、GB-18030、CJK-B各大字符集内全部简、繁体汉字的显示，通用于Windows 98/NT/2000/ME/XP/2003系统。安装此包之后，用宋体即可显示任何汉字。? 安装： ? 首先安装通用unicode 字库支持文件：unifonts.exe? 其次安装海峰五笔：SunWb.exe 第二节汉字的字形识别输入?一、字形识别输入基础?1. 概述 ? 汉字字形识别是模式识别的一个重要分支，也是文字识别领域最为困难的问题，它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科，是一门综合性技术，在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域，都有着重要的实用价值和理论意义。 ?2. 分类 ? 汉字字形识别技术可分为印刷体汉字识别和手写体汉字识别两大类，后者又可分为联机(on-line) 手写汉字识别和脱机(off-line) 手写汉字识别 ?2.分类?从识别的角度来看，多体印刷体汉字识别难于单体印刷体汉字识别，手写体识别难于印刷体识别，而脱机手写识别又难于联机手写体识别。?经过科研人员的努力，我国已有印刷体汉字识别和联机手写汉字识别的商品出售，目前已形成百家争鸣、百花齐放的局面，但是脱机手写汉字识别还处于实验室研究阶段。在脱机手写汉字识别领域，非特定人脱机手写汉字识别又难于特定人手写汉字识别。?联机手写体的输入，是依靠电磁式或压电式等手写输入板来完成的。在书写时，笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号，电信号可以串行地进入到计算机中。从这些电信号我们可以比较容易地抽取笔划和笔顺的信息。?3.发展?我国对印刷汉字识别的研究始于70年代末、80年代初，大致可以分为三大阶段：?(1) 第一阶段从70年代末期到80年代末期，主要是算法和方案探索。?(2) 第二阶段是90年代初期，中文OCR由实验室走向市场，初步实用。?(3) 第三阶段也就是目前，主要是印刷汉字识别技术和系统性能的提高，包括汉英双语混排识别率的提高和稳健性的增强。?同国外相比，我国的印刷体汉字识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持，经过科研人员十多年的辛勤努力，印刷体汉字识别技术的发展和应用，有了长足进步：从简单的单体识别发展到多种字体混排的多体识别，从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析，同时汉字识别率已达到了98%以上。?清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统?4.印刷体文字识别?与脱机手写体和联机手写体识别相比，印刷体汉字识别已经实用化，而且在向更高的性能、更完善的用户界面的方向发展。 ?印刷体文字识别的过程如图所示。原始图象是通过光电扫描仪，CCD器件或电子传真机等获得的二维图象信号，可以是灰度(Grayscale)或二值(Binary) 图象。 ?过程：?预处理包括对原始图象的去噪、倾斜校正或各种滤波处理。?版面分析完成对于文本图象的总体分析，区分出文本段落及排版顺序，图象、表格的区域；对于文本区域将进行识别处理，对于表格区域进行专用的表格分析及识别处理，对于图象区域进行压缩或简单存储。?行字切分是将大幅的图象先切割为行，再从图象行中分离出单个字符的过程。?特征提取是整个环节中最重要的一环，它是从单个字符图象上提取统计特征或结构特征的过程，包括为此而做的细化(Thinning)、归一化(Normalization)等步骤。提取的特征的稳定性及有效性，直接决定了识别的性能。?文字识别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。?后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。?印刷汉字识别技术主要包括：?(1) 扫描输入文本图象。?(2) 图象的预处理，包括倾斜校正和滤除干扰噪声等。?(3) 图象版面的分析和理解。?(4) 图象的行切分和字切分。?(5) 基于单字图象的特征选择和提取。?(6) 基于单字图象特征的模式分类。?(7) 将被分类的模式赋予识别结果。?(8) 识别结果的编辑修改后处理。?(4)、(5)和(6)，是印刷汉字识别中最为核心的技术。近几年来，印刷汉字识别系统的单字识别正确率已经超过95%，为了进一步提高系统的总体识别率，扫描图象、图象的预处理以及识别后处理等方面的技术，也都得到了深入的研究，并取得了长足的进展，有效地提高了印刷汉字识别系统的总体性能。二、扫描仪的使用? 扫描仪是以光学、机械、电子、软件应用等技术紧密结合的高科技产品，也是继键盘和鼠标之后的第三代主要的电脑输入设备。 ?作为印刷文字输入的扫描仪，一般采用平板式，如果量很大的话，还有自动走纸装置。?作为印刷文字输入为主的扫描仪，其和一般的扫描仪相比，有以下特点：?扫描速度快。如有的扫描仪的扫描速度每分钟可单面扫描50页，双面扫描90面，适用于数量巨大的文件管理应用。 ?具有自动走纸方式；?知识识别扫描对象。对图文混排的文档、对图像和文字分别采取不同的扫描方式，从而使图形文字都很清晰，省时有效。?动态调整临界值。对低对比度(背景、前景颜色接近)的图像(如手写体或不同粗细打印字体)，通过自动调整对比度，使背景颜色变浅，前景图像变得更清晰。?噪音控制。可以去除复印件或传真件中的细小黑点以提高OCR的识别能力。 ? 扫描仪是标准的Twin 设备，一般的扫描仪必须安装Twin 的驱动程序才能使用。 ? 在安装驱动程序后，一般的图像处理软件都可以调用扫描仪。 ?三、汉王OCR软件的使用? 在字形识别技术方面，汉王公司一直保持着领先的技术水平。其字形识别软件有很高的市场占有率。 ?三、汉王OCR软件的使用? 安装 ? 启动 ? 扫描 ? 识别 ?一、语音识别输入基础?语音是最为方便、快捷、自然的人际交流手段，采用语音作为人与计算机交互的手段，使计算机能像人一样，具有听、说和理解的能力，是计算机得以真正普及的基础，在其中所需的各种技术中，以语音识别技术最具挑战性，因而被国外众多媒体和专家评为21世纪前十年将对人类生活方式产生重大影响的十大科技进展之一。比尔?盖茨预测：“未来十年语音技术将成为主流。”中国互联网络中心也预测：“未来五年，中文语音技术领域将会有1300亿元的市场容量。”第三节汉字的语音识别输入? 语音识别的研究工作可以追溯到20 世纪50 年代AT&T 贝尔实验室的Audry 系统，它是第一个可以识别十个英文数字的语音识别系统。实验室语音识别研究的巨大突破产生于20 世纪80 年代末：一些小词汇量的识别系统具备了较高的识别率。同时，人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中。 ?汉语的语音识别和其他语言的语音识别在原理上基本相同。汉字是单音节文字，汉语中全部带单调的音节为1362个。汉语的语音比较规范，这比较有利于用计算机进行识别，但是，由于汉字字数较多，同音字多，加上方言众多，均会给机器进行识别增加难度。?语音识别的原理与其它模式识别的原理一样，也是采用匹配判别的方法。在系统中存有一套标准的语音样本，通过某种手段把被识别的汉字语音接收到系统，然后同标准的语音样本进行比较，用一定的准则进行判别，找出最逼近于被测语音的样本字作为识别结果。?量化处理是把语音源发出的语音接收下来，并转化为二进制数字。?端点确定，就是测出各个语音发生的起点和终点，把一个一个的语音区分开来，只有完成这一步骤后，才能实现对经过量化处理过的语音信号进行识别。?特征抽取是指抽取语音的特征参量，一是通过语音分析，把标准语音的特征部分提取出来，形成一个标准样音库，在识别时，把被识别语音与样音库的样音相

人人文库> 全部分类> 行业资料 > 机电工程

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

汉字输入技术与方法.doc

文档简介

温馨提示

最新文档

评论

汉字输入技术与方法.doc

文档简介

温馨提示

最新文档

评论

相关文档