数字文本处理的基础舒明全课件

上传人：q*** IP属地：贵州上传时间：2022-12-13 格式：PPT 页数：128 大小：1.28MB 积分：25 举报 版权申诉

已阅读5页，还剩123页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数字文本处理的基础

舒明全Email:mqshu@数字文本处理的基础1数字文本的概念

文本：通过文字、符号的形式表现、传递信息的方式。读者能通过阅读文本数据中的文字、符号获得信息，文本数据是学习、生活、研究资料的主要成分，主要载体形态为：图书、报刊、政府文献、会议论文、学位论文、单位论文、技术报告、产品说明书、网页等。数字文本：纸质的文本转换成计算机能识别的二进制文件，也称为文本数据资源。数字文本的概念文本：通过文字、符号的形式表现、传递信息的方2数字文本的特征提供和获取文本，需具备一定的文字和符号的识别、表达能力。文本数据是文档的主要组成部分。文本数据都有一个逻辑结构。文本是人和计算机交互的重要方式。数字文本的特征3数字文本的分类数字文本的三种类型：1．纯文字文本：使用字处理软件，通过录入、编辑、排版后生成，生成后的文本包含排版信息，显示效果受系统字库和软件平台的影响，在不同机器上显示会出现不同的效果，严重时还会出现乱码等现象。使用文本文字素材占用的字节数比较小，导入后设置字体、大小、颜色比较方便。2．图像文本：运用绘图工具软件(如Photoshop)生成，使用图像文本可提高多媒体作品的表现力，存储图像文本时可存为JPG、BMP、GIF、TIF等不同的格式，在作品中使用不会出现乱码，但所占的字节数要大于纯文本格式。3．动态文本：运用动画制作软件(如3DStudioMAX)制作，可根据作品的需要，设置不同的动作，具有很强的动感和三维立体效果，制作片头时使用的比较多，一般存储为动态的GIF和Flash格式，这两种格式所占字节数比较少，也可以存储为视频文件(如AVI、MPEG)，但所占用的字节数较大。数字文本的分类数字文本的三种类型：4数字文本的格式

文本格式的定义文本格式指用来对数据以及相关信息（包括结构、布局、压缩算法等）进行编码的软件算法。在文本数据的数字化过程中，很多公司和组织机构都根据需要制定了自己的数字文本格式，导致了多种数字文本格式并存的局面。数字文本的格式文本格式的定义5数字文本的基本格式

数字文本的基本格式：可编辑的文本格式网页文本格式电子资源文本格式数学文本格式数字文本的基本格式数字文本的基本格式：6可编辑的文本格式TXT格式(也称纯文本格式)

使用Windows操作系统的写字板、记事本和Word可查看这种格式的文件。优点：文件体积小；阅读不受限制。缺点：不能插入图片、图表等；不能建立超链接；不支持字体样式编辑。可编辑的文本格式TXT格式(也称纯文本格式)7CSV格式(纯文本文件)特点：它的数据项（对应于表格的列）之间用逗号隔开，各条记录（对应于表格的行）之间用“换行”和“回车”隔开。可以被任何文本编辑器调用，如记事本、写字板。默认打开方式是MSExcel，而MSExcel是和多种数据库相通的，因此，CSV本身也能被一般的数据库调用。优点：可用任何文本编辑软件编辑、修改；文件体积很小、便于携带。

CSV格式(纯文本文件)8DOC格式

使用MicrosoftWord或WordPerfectforWindows创建和打开的。优点：DOC格式可以在文件中嵌入图表、图片、数学公式，建立超链接等。缺点：由于文件中包含了字体信息、段落格式、文字色彩、页眉页脚等信息，文件体积相对纯文本文件较大。DOC格式保密，且不开放源代码，因此，其他公司的字处理程序都无法识别微软的文档。DOC格式文件版本向下不兼容。新版本的Office用了老版本不支持的新格式，所以Office的用户必须升级(即使你并不需要什么新功能)，从而提高用户成本。DOC格式9RTF格式是由Microsoft创建的，RTF文件的组成包含控制字、控制符以及表明文档属性的组。使用MicrosoftWord打开。优点：RTF格式文件容易识别。RTF格式文件可以在不同程序和同一程序不同版本之间传递数据，且它的格式信息不会丢失或破坏。RTF格式文件具有很强的编排功能，可以实现文字和各种插入对象的混排，文字也可以实现各式各样的格式编排。缺点：内容繁多。控制字太多，增加了文档编写的难度。RTF格式赋予作为控制符的字符特殊含义，使其作为文本出现时容易产生混乱。RTF格式

RTF格式是由Microsoft创建的，10WPS格式

香港金山公司开发的，也是我国唯一一套成熟的拥有完全自主知识产权的办公系统软件。

优点：兼容性强。可以与MSOffice的兼容，可以插入DOC格式文件的图形、表格和页眉等；WPSOffice2002可以读入和生成DOC格式文件；新老版本之间的上下兼容。WPS文档具有图文混排的功能。WPS格式技术先进。引入XML数据中间层；文字与代码的唯一对应关系，不会出现乱码现象；WPS格式文件可以适应126种语言；开放的数据接口。缺点：不能被微软公司的Office2000直接识别。

WPS格式香港金山公司开发的，也是我国唯一一套成熟的拥有完11

HTML格式

1989年诞生于欧洲核子研究中心，是Ｗ3Ｃ协会专为WorldWideWeb而设计的，专用于Web页的开发。可用专门的HTML编辑器或Frontpage、Dreamweaver等网页制作工具进行编辑，通过Navigator、InternetExplorer等浏览器显示文本、图形和其它的任何内容。

优点：简单和统一。

缺点：

①可重用性差；②信息交互的局限性；③扩展性差，无法支持精确查询；④处理能力差，影响效率；⑤固定的标签集合；⑥对特殊字符的支持不够

网页文本格式HTML格式

1989年诞生于欧洲核子研究中心，是Ｗ312SGML格式

通用标准标记语言的简称，是一种系统描述各类文献结构和内容以建立通用数字化文献的国际标准(ISO8879)，1986年首次公布。一个SGML文件由三部分组成：SGML声明、文件类型定义、SGML文档。优点：可扩展性好，可针对各种类型的文件结构制定出合适的标签集，扩展生成用来处理新数据格式的各种语言。可适应性强，SGML不专属于某一特定平台或特定应用系统，它可以在彼此不相容的系统间进行数据交换，而不会造成数据丢失。可重用性好，使它可应用于Web数据库和电子数据交换。缺点：它相当复杂且价格昂贵。不易在网上传送。SGML格式通用标准标记语言的简称，是13可扩展标识语言的简称，W3C于1998年初推出的一种用于标识数据格式的标识语言，是一个基于SMGL上的简单、灵活的文本格式，将SGML的丰富功能与HTML的易用性结合到Web应用中，保留了SGML的可扩展功能。主要有如下要素：Schema(模式)、XQL(基于XML的查询语言)、XSL(可扩展样式语言)和XLL(可扩展链接语言)。XML可在任何平台和操作系统上运行，具有以下特点：灵活简单，能把显示格式从文档中分离出来，另存放在样式表中。扩展性良好。具有自解释性。良好的共享性。强大的超链接机制。

XML格式

可扩展标识语言的简称，W3C于199814PS格式

电子资源文本格式Adobe公司于1985年开发成功的专门为打印图形和文字而设计的一种可编程打印控制语言。可用AcrobatAdobereader打开。优点：(1)输出的多向性⑵文件格式的可转换性⑶显示的灵活性⑷独立于设备(5)占用磁盘空间小(6)支持跨平台操作缺点：⑴使用不太方便。⑵只能利用有关浏览软件对PS格式文件进行浏览、查找、拷贝、打印等操作，而无法对已有PS格式文件进行编辑修改。PS格式电子资源文本格式Adobe公司于1985年15CAJ格式《中国学术期刊全文数据库》的专用格式，用中国学术期刊电子杂志社开发的专用“CAJ全文浏览器”才能打开阅读。优点：可原版原貌显示原文。缺点：与其它的格式互不兼容。

CAJ格式《中国学术期刊全文数据库》的专用格式，用中国学术期16VIP格式

维普公司系列数据库使用的是vip全文浏览器，它支持vip、tif、wp等格式文件。它可以在线阅读维普数据库原文，也可以阅读下载到本地硬盘的电子数据全文。

优点：可原版原貌显示原文。缺点：与其它的格式互不兼容。

VIP格式维普公司系列数据库使用的是vip全文浏览器，17IFR格式

北京书生公司开发的书生电子图书格式。目前书生电子图书分为基础扫描版、高级扫描版及全息版3种，用书生专用图像格式浏览。优点：具有全文检索功能，比较方便。缺点：版面效果一般。需专门浏览器阅读。文件体积偏大。只能联机阅读。IFR格式北京书生公司开发的书生电子图书18PDG格式

由北京世纪超星公司开发的，是一种扫描的图片格式，它必须用其专用阅读器软件——超星图书阅览器（SSReaser）才能阅读，已成为通用的数字图书格式之一。优点：电子图书数量大，种类齐全；缺点：必需用超星图书阅读器，扫描质量较差，文件体积偏大。PDG格式由北京世纪超星公司开发的，是一种扫描19CEB格式

专为中文电子安全文档而设计的文件格式，是一种“文字＋图像”的格式，能保留原有排版文件中有关字符、字体和色彩等的全部信息和原文件的版式、图片、数学公式、化学公式、表格、棋牌以及乐谱等内容能对文字、图片等内容进行很好的压缩，大大减小了对存储空间的需求。优点：完善的版权保护和加密控制。CEB格式专为中文电子安全文档而设计的文件格式，是20EBK格式

Voyager公司的MAC机（也有PC格式）读书软件格式。目前国内某些站点已经开始使用这种格式了。特点：先下载一个客户端软件，才能在软件指定的站点上登录后，才能下载图书。EBK格式Voyager公司的MAC机（也有PC格21

美国微软公司开发的软件MicrosoftReader的一种专有的文件格式，只能使用MicrosoftReader来阅读。优点：支持全屏阅读。没有滚动条，翻页全部使用点击页码来实现，像看一本真正的纸质书。缺点：不支持与HTML相关的各种技术，只是支持图片的浏览。对中文支持得不是很好。LIT格式

美国微软公司开发的软件MicrosoftReade22WDL格式

北京华康公司开发的一种电子读物格式，需要使用该公司专门的阅读器DynaDocFreeReader来阅读，可从该公司的网站免费下载。优点：较好地保留了原来的版面设计。可将电子读物下载到本地阅读。适当保护了作者和出版商的利益。压缩率都比较高。能与任何软件产生的文档兼容，可以跨平台使用。缺点：需要专门的浏览器制作该种格式的电子读物的软件DynaDoc生成器没有共享版本。WDL格式北京华康公司开发的一种电子读物格式，需要使用该公23TeX/LaTeX/CteX格式

数学文本格式Stanford大学DonaldE.Knuth在1977年5月开始设计的一个排版文件系统。强调数学文本的印刷是程序功能中不可分割的一部分。TeX系统是公认的数学公式排得最好的系统，美国数学学会推荐的非常适合于数学家使用的AMS-TeX以及适合于一般文章、报告、书籍的LaTeX系统。世界上许多出版社利用TeX系统出版书籍和期刊。美国数学学会（AMS）鼓励数学家们使用TeX系统向它的期刊投稿。已有中文版的CHINATeX。优点：⑴高质量的输出。⑵超常的稳定性。⑶TeX是可编程的。⑷高度的灵活性。⑸简单识别。⑹良好的通用性。⑺低廉的价格。缺点：⑴学习TeX比较困难。⑵难以调试。⑶TeX不是熟悉。TeX/LaTeX/CteX格式数学文本格式Stanfo24当然文本数据格式除了以上常用的格式以外，还有其他一些不太常用的格式，如OEB、WRI、TTZ、PPT、KDH、PDB、PRC、RB、SETEXT、CyberBook、RocketeBook（.RB）、PocketPC等。其它文本格式当然文本数据格式除了以上常用的格式以外，还有其他一些不太25文本格式的标准

标准来源：国外：美国Adobe公司开发的电子读物PDF文件格式，由于国外文本主要采用PDF文件格式，所以PDF文件格式是数字文本的事实标准。国内：我国数字图书馆标准规范建设项目的《数字资源加工标准与操作指南》规定文本采用PDF文件格式。我国教育部门的CALIS项目建设技术规范项目的《CALIS

文献资源数字加工与发布标准》也规定文本采用PDF文件格式。文本格式的标准标准来源：26文本的标准格式：

PDF简介：PDF是从页面描述语言PS发展而来，具有与PS几乎相同的页面描述能力和相似的描述方法。与PS不同的是，PDF除了能描述复杂版面外，还具有交互功能（如超链接和交互表单等）、页面随机存取及字体仿真描述等特性。该软件最新的版本是7.0，PDF格式的电子图书可以使用AdobeAcrobat来制作和编辑。PDF文件阅读需要AdobeAcrobatReader来阅读。文本的标准格式：PDF简介：27PDF文件结构分四个部分：标头：包含PDF文件版本信息。主体：描述所有页面中的各个元素。相互参照表：主体中查找所有页面中的各个元素。标尾：告诉软件或RIP，去哪儿寻找相互参照表。如果没有标尾，PDF格式文件则不能被任何软件或RIP处理。

PDF文件结构分四个部分：28PDF文件构成PDF格式文件由以下三个数据层构成：文件底层数据层：包括字体信息、交叉参考表等所有的控制文件的重要底层数据。文本图像数据层：包括文件中显示的所有文本、矢量图形和点阵图像数据。由于PDF文本图像数据层独立存在，用户替换页面内容时，可以只改变文本图像数据层的内容，而不会影响其他数据层内的相应数据，例如，不会改变字体、字号，能保留所有的页面链接，这在文档电子管理中是很重要的，能给电子出版带来很大的方便。附属信息数据层：包括文件书签和文件或页面链接等等所有的功能扩展数据。PDF文件构成PDF格式文件由以下三个数据层构成：29PDF文本示例PDF文本示例30

特点PDF是文本、矢量图形和点阵图像数据兼容的文件格式（简称文字＋图像）。PDF文件格式可以将文字、字型、格式、颜色独立于设备和分辨力的图形图像等封装在一个文件。可包含超文本链接、声音和动态影像等电子信息。PDF将其它格式的文件转变成文件格式时，并保留原文件的所有信息，包括字符、字体、版式和色彩；PDF是独立于各种平台和应用程序的高兼容性文件格式。

特点PDF是文本、矢量图形和点阵图像数据兼容的文件格式（简31优点PDF具有保持原文特性，页面独立性，多媒体链接等。文件的压缩倍率高，文件的尺寸很小，适于网络传输和光盘存储，具有高保真的印刷特性。Acrobat还具有密码保护功能，允许使用尽可能高的保密层次来给敏感的文件分配密码，以便控制对这些敏感文档的访问。PDF格式文件可以图文并茂地展现原书的原貌，显示大小可任意调节，阅读时给人赏心悦目的感觉，深受大众的青睐，已经成为电子出版领域事实上的工业标准。AdobePDF表单中的数据可以以标准的XML格式提交，将后端系统和PDF表单相集成。PDF文件创建了指定的搜索标准，即在AdobePDF文件中创建和嵌入元数据，这样可扩展文件查找的方式。优点PDF具有保持原文特性，页面独立性，多媒体链接等。32数字文本的处理流程

数字文本信息的特点是易于传播、所需存储空间小，使用范围广。现在的公文、文件、信函、报表、各种印刷出版物等绝大多数都使用文字的形式来记录，文本信息处理的应用范围非常广泛，从编辑文稿、建立文件档案资料、排版印刷到行政管理、办公室自动化，凡是需要用文字表达信息的应用场合，都可以利用文字信息处理技术。但是由于世界各国语言文字存在较大差异，交流的群体受到限制，文本信息处理一直在不断的开发和应用，可以利用计算机人工智能，在字、词处理的基础上增添语法和句法处理、书面和自然语言处理等新功能。数字文本的处理流程数字文本信息的特点是易于传播、33文本处理的实质先把文字信息数字化，即用一个固定的数码代表一个字母或文字。例如，在英文信息中，以26个字母作为文字信息处理的单位，因此要对26个字母逐个地确定代替它的数码。在汉字的情况下，一般是以一个整字作为文字信息处理的单位，因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时，就像处理数据一样对待。处理完毕后，再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能，使文字信息处理也能够分享计算机技术的这一独特优点，从而实现文字信息处理的高效化。文本处理的实质34数字文本的处理流程

从总体上看，数字文本处理大致包含如下三个过程：文本采集：通常是通过键盘把组成英文词汇的各个英文字母逐个地输入、全文扫描输入等。文本处理：包括编辑、格式转换等多种不同的处理要求。如在文稿的编辑操作中有对文字的增、删、改操作；有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中，有分类、合并、比较、排序、检索以及对齐等操作。这些种类的操作都可以通过预先编制相应的处理程序来实现。文本输出：文字信息处理完毕后，要把处理结果的代码信息转换成文字的形式输出，输出方式包括显示和打印，在显示时，文本制作人为了保护自己的知识产权，可设置对用户权限的管理。数字文本的处理流程从总体上看，数字文本处理大致包含如下三个35

从信息编码角度看数字文本处理，可抽象为下图所示的五层结构模型：

数字文本处理流程示意图从信息编码角度看数字文本处理，可抽象为下图所示的五层结构模36图示说明

外部码输入层：通过键盘、文字识别、语音识别等将文本信息输入计算机。外部码向内部码转换层：将外部码输入层信息转换成一致的内部码，供内部码处理层使用。内部码处理层：包括运算码、存储码、地址码、控制码、语音码等字符处理内部码。内部码向外部码转换层：将内部码处理层的结果，按照需要转换成相应外部码输出，供外部码输出层使用。外部码输出层：包括文字显示输出、文字印刷输出、语音合成输出、交换码输出等输出形式。

图示说明外部码输入层：通过键盘、文字识别、语音识别等将文37数字文本采集采集途径

数字文本的采集途径有输入和下载两种，其中输入又分为人工输入和自动输入。人工输入：键盘输入，即英文直接输入，中文输入采用拼音法、五笔输入法、郑码输入法、智能拼音法等，人工输入速度慢且劳动强度大，不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。

数字文本采集采集途径数字文本的采集途径有输入和下载两种，其38自动输入分为手写板输入法、语音输入法、扫描输入法。手写板输入法：利用压敏或磁感应等方法识别文字信号，被计算机接收后再在显示器中显示。语音输入法：利用语音识别手段将人们读书的声音通过麦克风输入计算机，由计算机分析判断整理出人们读出的内容，并用文字形式显示出来。扫描输入法：利用扫描仪、数码相机等外围设备将印刷型或手写体的文字转换为数字信号输入计算机，此方法输入的文字是以图像的形式出现的，再利用识别软件转换为人们常用的文本文字。自动输入分为手写板输入法、语音输入法、扫描输入法。39文本下载：下载分为电子资源下载和网页下载两种。电子资源下载：主要是下载数据库和网上的非网页文本，一般是原格式(如doc、pdf、pdg、caj等)文件下载。网上下载：主要是html格式的网页文本，采用复制、粘贴的方法转到Word、写字板、记事本中以便于编辑，采用此方法复制到Word时，可采用“选择性粘贴”—“无格式粘贴”的方式去掉粘贴过来的网页格式。文本下载：40主要有键盘、鼠标、麦克风、图形输入板和笔、Microtek扫描仪等。键盘：把汉字输入计算机的主要工具，目前主要是按汉字的字形或发音特征，或利用汉字的形、音特征相结合的编码方法将汉字输入计算机。麦克风：将人类自然语言转化为计算机能识别的文本信息的主要工具。图形输入板和笔：将人们的手写文本直接输入到计算机的主要工具。只有在微机配上图形输入板才能进行手写文本，以让机器自动识别转换为数字文本信息。Microtek扫描仪：目前常用的扫描仪是上海中晶科技有限公司生产的Microtek扫描仪，最新产品是MicrotekArtixScan2020彩色双平台扫描仪，分辨率为2000dpi×2000dpi、双镜头及恒温冷却系统，最大扫描幅面为A3。采集工具主要有键盘、鼠标、麦克风、图形输入板和笔、Mic41

采集软件数字文本的采集软件主要有：word、Windows附件的记事本：主要用于键盘输入和网上下载的采集过程。识别软件：分为文本识别软件和语音识别软件，文本识别软件有尚书和汉王等，其核心技术是OCR技术；语音识别软件有IBM公司生产的ViaVoice9.1和微软公司开发的语音大师3.6等。采集软件数字文本的采集软件主要有：42

文本识别是用电子计算机自动辨识印刷在纸上和录写在纸(或介质)上的字形，是一种文本处理中的高速、自动输入方式。文本识别技术可以分为印刷体识别及手写体识别技术，而手写体识别又可以分为联机与脱机两种。文本识别文本识别是用电子计算机自动辨识印刷在纸上和录写在纸43

文本识别的原理

根据匹配判别，抽取代表未知汉字模式本质的表达形式(如各种特征)和预先存储在机器中的标准汉字模式表达形式的集合(称为字典)逐一匹配，用一定的准则进行判别，在机器存储的标准汉字模式表达形式的集合中，找出最接近输入字模式表达形式，该表达形式对应的文字就是识别结果。文本识别的原理根据匹配判别，抽取代表未知汉字模44

文本识别的原理图

文本识别的原理图45OCR识别技术OCR，光学汉字识别的简称，是一种智能化的汉字输入方法，主要是对印刷体汉字进行识别，原稿上的印刷体汉字经光学扫描后，通过二值化处理(即模数转换行字切分等预处理过程)送入计算机，由程序把送入计算机的字模信息和原先存在计算机中的标准字模信息进行比较，判定和识别输入的汉字，这种方法的识别速度较高。对于一般质量的文稿，目前OCR产品的汉字识别准确率已达95％以上，个别系统可达98％以上，并可实现对中文、英文和数字符号的混合识别，基本进入实用阶段，并在不断发展之中。

OCR识别技术主要应用于扫描仪中，目前也有不少数据库公司将它嵌入自己的浏览器中，如：重庆维普、中国期刊网、书生和超星电子图书等。OCR识别技术OCR，光学汉字识别的简称，是一种智能化46印刷体文本识别印刷体文本识别的过程如：扫描：通过光电扫描仪获得的二维原始图像。预处理：对原始图像的去噪、倾斜校正或各种滤波处理。版面分析：对于文本图像的总体分析，区分出文本段落及排版顺序、图像、表格的区域，对于文本区域将进行识别处理，对于表格区域进行专用的表格分析及识别处理，对于图像区域进行压缩或简单存储。将大幅的图像先切割为行，再从图像行中分离出单个字符的过程特征提取：从单个字符图像上提取统计特征或结构特征的过程，包括细化、归一化等步骤。整个环节中最重要的一环，提取的特征的稳定性及有效性，决定了识别的性能。文字识别：从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。后处理：利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。印刷体文本识别印刷体文本识别的过程如：47印刷体文本识别的过程图注：圈内部分是印刷汉字识别中最为核心的技术

印刷体文本识别的过程图注：圈内部分是印刷汉字识别中最为核心的48手写体文本识别手写文本识别是只在微机配上图形输入板就可以进行手写文本，机器自动识别。手写文本是一种很方便的输入手段，不需要进行任何训练，可以随着思路书写，图形输入板方便编辑、修改，缺点是输入速度慢和不适应大量的文本输入。其识别过程如下：

手写体文本识别手写文本识别是只在微机配上图形输入板就可以进行49文本识别操作：尚书六号目前市场上销售的每一款Microtek扫描仪产品，都附赠了“尚书六号”文字识别软件。“尚书六号”突破了“尚书五号”只能对“黑白二色”图像进行识别的限制，可对彩色、灰度图像文件直接进行识别，同时支持更多的扫描文件格式(如TIFF、BMP和JPG)，完善了表格识别功能，各式各样的表格几乎都可以原封不动的由图片格式转变为可以自由编辑的文字格式，安装“尚书六号”完毕后，程序组图标里面会自动出现“尚书六号说明”，借助这本用户手册，即使是初学者也可以迅速掌握软件的使用。文本识别操作：尚书六号目前市场上销售的每一款Microtek50尚书六号的使用方法Step1：扫描图像文件

首先点击桌面上ScanWizard5软件的图标，进入Microtek扫描仪驱动软件的界面，直接进行扫描工作，而不需要启动其他的扫描程序或图像编辑程序，这样可以大大加快扫描进程。同时，注意将ScanWizard5软件切换到高级工作模式（如图1所示），以便于用户检查扫描仪工作时的分辨率。在文字识别时，推荐使用的扫描分辨率设定在300ppi，色彩模式可以选择“RGB彩色”或者“灰阶”，选择“扫描到”的文件格式是TIF或者JPG两者都可以，然后将扫描得到的文件保存在用户确定的目录下面。尚书六号的使用方法Step1：扫描图像文件51图1.图1.52Step2：打开尚书六号读取扫描好的图像文件。图2Step2：打开尚书六号读取扫描好的图像文件。图253Step3：被识别图片的预处理

包括倾斜校正和设定正确的识别区域两个过程。倾斜校正过程：如图3所示，按下工具栏的最下面的一个工具。按下“图像倾斜校正”工具后，会出现如图3所示的对话窗口：图3按下“是”按钮。系统就给予图片做水平的倾斜校正，做完后，结果图4：Step3：被识别图片的预处理包括倾斜校正和设定正确的识别区54图4注意：“自动倾斜校正功能”只能对原稿做±2.8度的倾角的校正，如果原稿的倾斜角度大于2.8度，系统会建议用户重新扫描稿件，以提高识别率。

图4注意：“自动倾斜校正功能”只能对原稿做±2.8度的倾角55如何正确设定识别区域，这是一个值得用户注意的地方：如下的“海尔”一文，实际是分成两个栏目，进行阅读的，所以我们在设定识别区域的时候，注意需要将这个特点表现出来，需要设定两个识别区域，如图5所示。如何正确设定识别区域，这是一个值得用户注意的地方：56对于一些文字稿件，中间有表格的时候，我们建议采用绕开的方式，进行识别区域的设定。对于一些文字稿件，中间有表格的时候，我们建议采用绕开的方式，57对于表格类的图片，为了将标题栏也能识别进去，我们建议采用如下的识别区域设定，特点是表格部分必须整个框选，同时标题作为一个单独的框选区域。

对于表格类的图片，为了将标题栏也能识别进去，我们建议采用如下58注意：在预处理的过程，要去除杂点和图像。如文稿中含有图像，OCR是不能识别的，如果有图像存在，会影响OCR的文字切分。可考虑使用“图像的块擦拭”工具将文档中的图像去除，同时将一些杂点，尽量的去除。

注意：在预处理的过程，要去除杂点和图像。如文稿中含有图像，O59Step4：开始进行识别

在开始“识别”的时候，注意识别的软件的设定值是否正确，默认值如下：

Step4：开始进行识别60注意：稿件是横排还是竖排，可选择编排格式按扭，以保持对应。

注意：稿件是横排还是竖排，可选择编排格式按扭，以保持对应。61Step5：识别结果的校对一般，OCR对不能完全确定的文字，会显示出兰或红色，需要用户确认。也要注意，在没有提示出错的地方，也会有可能出错。所以用户在校对时，可以通读一遍，来提高文字校对的效果。如果确实有错误，可在下图所示的界面内，通过操作系统提供的文字输入方法，修改错误。Step5：识别结果的校对一般，OCR对不能完全确定62Step6：结果保存识别校对完成后，存盘格式的选择文件保存的类型有四种，建议一般文本的识别，用户选择TXT格式。如果是表格识别，识别结果请选择“CSV”格式，用EXCEL能够打开。Step6：结果保存63思考题：1.文字、文本、文档、文件四者之间的关系是怎样的？2.我校图书馆主页上的数据库中有哪些文本格式？(至少列出四种)3.文本处理的实质及流程是怎样的？4.文本采集有哪几种途径？5.文本识别的本质是什么？6.使用尚书六号对文本识别有哪几步？每一步应注意哪些？思考题：1.文字、文本、文档、文件四者之间的关系是怎样的？64数字文本处理的基础

舒明全Email:mqshu@数字文本处理的基础65数字文本的概念

文本：通过文字、符号的形式表现、传递信息的方式。读者能通过阅读文本数据中的文字、符号获得信息，文本数据是学习、生活、研究资料的主要成分，主要载体形态为：图书、报刊、政府文献、会议论文、学位论文、单位论文、技术报告、产品说明书、网页等。数字文本：纸质的文本转换成计算机能识别的二进制文件，也称为文本数据资源。数字文本的概念文本：通过文字、符号的形式表现、传递信息的方66数字文本的特征提供和获取文本，需具备一定的文字和符号的识别、表达能力。文本数据是文档的主要组成部分。文本数据都有一个逻辑结构。文本是人和计算机交互的重要方式。数字文本的特征67数字文本的分类数字文本的三种类型：1．纯文字文本：使用字处理软件，通过录入、编辑、排版后生成，生成后的文本包含排版信息，显示效果受系统字库和软件平台的影响，在不同机器上显示会出现不同的效果，严重时还会出现乱码等现象。使用文本文字素材占用的字节数比较小，导入后设置字体、大小、颜色比较方便。2．图像文本：运用绘图工具软件(如Photoshop)生成，使用图像文本可提高多媒体作品的表现力，存储图像文本时可存为JPG、BMP、GIF、TIF等不同的格式，在作品中使用不会出现乱码，但所占的字节数要大于纯文本格式。3．动态文本：运用动画制作软件(如3DStudioMAX)制作，可根据作品的需要，设置不同的动作，具有很强的动感和三维立体效果，制作片头时使用的比较多，一般存储为动态的GIF和Flash格式，这两种格式所占字节数比较少，也可以存储为视频文件(如AVI、MPEG)，但所占用的字节数较大。数字文本的分类数字文本的三种类型：68数字文本的格式

文本格式的定义文本格式指用来对数据以及相关信息（包括结构、布局、压缩算法等）进行编码的软件算法。在文本数据的数字化过程中，很多公司和组织机构都根据需要制定了自己的数字文本格式，导致了多种数字文本格式并存的局面。数字文本的格式文本格式的定义69数字文本的基本格式

数字文本的基本格式：可编辑的文本格式网页文本格式电子资源文本格式数学文本格式数字文本的基本格式数字文本的基本格式：70可编辑的文本格式TXT格式(也称纯文本格式)

使用Windows操作系统的写字板、记事本和Word可查看这种格式的文件。优点：文件体积小；阅读不受限制。缺点：不能插入图片、图表等；不能建立超链接；不支持字体样式编辑。可编辑的文本格式TXT格式(也称纯文本格式)71CSV格式(纯文本文件)特点：它的数据项（对应于表格的列）之间用逗号隔开，各条记录（对应于表格的行）之间用“换行”和“回车”隔开。可以被任何文本编辑器调用，如记事本、写字板。默认打开方式是MSExcel，而MSExcel是和多种数据库相通的，因此，CSV本身也能被一般的数据库调用。优点：可用任何文本编辑软件编辑、修改；文件体积很小、便于携带。

CSV格式(纯文本文件)72DOC格式

使用MicrosoftWord或WordPerfectforWindows创建和打开的。优点：DOC格式可以在文件中嵌入图表、图片、数学公式，建立超链接等。缺点：由于文件中包含了字体信息、段落格式、文字色彩、页眉页脚等信息，文件体积相对纯文本文件较大。DOC格式保密，且不开放源代码，因此，其他公司的字处理程序都无法识别微软的文档。DOC格式文件版本向下不兼容。新版本的Office用了老版本不支持的新格式，所以Office的用户必须升级(即使你并不需要什么新功能)，从而提高用户成本。DOC格式73RTF格式是由Microsoft创建的，RTF文件的组成包含控制字、控制符以及表明文档属性的组。使用MicrosoftWord打开。优点：RTF格式文件容易识别。RTF格式文件可以在不同程序和同一程序不同版本之间传递数据，且它的格式信息不会丢失或破坏。RTF格式文件具有很强的编排功能，可以实现文字和各种插入对象的混排，文字也可以实现各式各样的格式编排。缺点：内容繁多。控制字太多，增加了文档编写的难度。RTF格式赋予作为控制符的字符特殊含义，使其作为文本出现时容易产生混乱。RTF格式

RTF格式是由Microsoft创建的，74WPS格式

香港金山公司开发的，也是我国唯一一套成熟的拥有完全自主知识产权的办公系统软件。

WPS格式香港金山公司开发的，也是我国唯一一套成熟的拥有完75

HTML格式

优点：简单和统一。

缺点：

①可重用性差；②信息交互的局限性；③扩展性差，无法支持精确查询；④处理能力差，影响效率；⑤固定的标签集合；⑥对特殊字符的支持不够

网页文本格式HTML格式

1989年诞生于欧洲核子研究中心，是Ｗ376SGML格式

通用标准标记语言的简称，是一种系统描述各类文献结构和内容以建立通用数字化文献的国际标准(ISO8879)，1986年首次公布。一个SGML文件由三部分组成：SGML声明、文件类型定义、SGML文档。优点：可扩展性好，可针对各种类型的文件结构制定出合适的标签集，扩展生成用来处理新数据格式的各种语言。可适应性强，SGML不专属于某一特定平台或特定应用系统，它可以在彼此不相容的系统间进行数据交换，而不会造成数据丢失。可重用性好，使它可应用于Web数据库和电子数据交换。缺点：它相当复杂且价格昂贵。不易在网上传送。SGML格式通用标准标记语言的简称，是77可扩展标识语言的简称，W3C于1998年初推出的一种用于标识数据格式的标识语言，是一个基于SMGL上的简单、灵活的文本格式，将SGML的丰富功能与HTML的易用性结合到Web应用中，保留了SGML的可扩展功能。主要有如下要素：Schema(模式)、XQL(基于XML的查询语言)、XSL(可扩展样式语言)和XLL(可扩展链接语言)。XML可在任何平台和操作系统上运行，具有以下特点：灵活简单，能把显示格式从文档中分离出来，另存放在样式表中。扩展性良好。具有自解释性。良好的共享性。强大的超链接机制。

XML格式

可扩展标识语言的简称，W3C于199878PS格式

电子资源文本格式Adobe公司于1985年开发成功的专门为打印图形和文字而设计的一种可编程打印控制语言。可用AcrobatAdobereader打开。优点：(1)输出的多向性⑵文件格式的可转换性⑶显示的灵活性⑷独立于设备(5)占用磁盘空间小(6)支持跨平台操作缺点：⑴使用不太方便。⑵只能利用有关浏览软件对PS格式文件进行浏览、查找、拷贝、打印等操作，而无法对已有PS格式文件进行编辑修改。PS格式电子资源文本格式Adobe公司于1985年79CAJ格式《中国学术期刊全文数据库》的专用格式，用中国学术期刊电子杂志社开发的专用“CAJ全文浏览器”才能打开阅读。优点：可原版原貌显示原文。缺点：与其它的格式互不兼容。

CAJ格式《中国学术期刊全文数据库》的专用格式，用中国学术期80VIP格式

优点：可原版原貌显示原文。缺点：与其它的格式互不兼容。

VIP格式维普公司系列数据库使用的是vip全文浏览器，81IFR格式

北京书生公司开发的书生电子图书格式。目前书生电子图书分为基础扫描版、高级扫描版及全息版3种，用书生专用图像格式浏览。优点：具有全文检索功能，比较方便。缺点：版面效果一般。需专门浏览器阅读。文件体积偏大。只能联机阅读。IFR格式北京书生公司开发的书生电子图书82PDG格式

由北京世纪超星公司开发的，是一种扫描的图片格式，它必须用其专用阅读器软件——超星图书阅览器（SSReaser）才能阅读，已成为通用的数字图书格式之一。优点：电子图书数量大，种类齐全；缺点：必需用超星图书阅读器，扫描质量较差，文件体积偏大。PDG格式由北京世纪超星公司开发的，是一种扫描83CEB格式

Voyager公司的MAC机（也有PC格式）读书软件格式。目前国内某些站点已经开始使用这种格式了。特点：先下载一个客户端软件，才能在软件指定的站点上登录后，才能下载图书。EBK格式Voyager公司的MAC机（也有PC格85

美国微软公司开发的软件MicrosoftReade86WDL格式

数学文本格式Stanford大学DonaldE.Knuth在1977年5月开始设计的一个排版文件系统。强调数学文本的印刷是程序功能中不可分割的一部分。TeX系统是公认的数学公式排得最好的系统，美国数学学会推荐的非常适合于数学家使用的AMS-TeX以及适合于一般文章、报告、书籍的LaTeX系统。世界上许多出版社利用TeX系统出版书籍和期刊。美国数学学会（AMS）鼓励数学家们使用TeX系统向它的期刊投稿。已有中文版的CHINATeX。优点：⑴高质量的输出。⑵超常的稳定性。⑶TeX是可编程的。⑷高度的灵活性。⑸简单识别。⑹良好的通用性。⑺低廉的价格。缺点：⑴学习TeX比较困难。⑵难以调试。⑶TeX不是熟悉。TeX/LaTeX/CteX格式数学文本格式Stanfo88当然文本数据格式除了以上常用的格式以外，还有其他一些不太常用的格式，如OEB、WRI、TTZ、PPT、KDH、PDB、PRC、RB、SETEXT、CyberBook、RocketeBook（.RB）、PocketPC等。其它文本格式当然文本数据格式除了以上常用的格式以外，还有其他一些不太89文本格式的标准

文献资源数字加工与发布标准》也规定文本采用PDF文件格式。文本格式的标准标准来源：90文本的标准格式：

PDF简介：PDF是从页面描述语言PS发展而来，具有与PS几乎相同的页面描述能力和相似的描述方法。与PS不同的是，PDF除了能描述复杂版面外，还具有交互功能（如超链接和交互表单等）、页面随机存取及字体仿真描述等特性。该软件最新的版本是7.0，PDF格式的电子图书可以使用AdobeAcrobat来制作和编辑。PDF文件阅读需要AdobeAcrobatReader来阅读。文本的标准格式：PDF简介：91PDF文件结构分四个部分：标头：包含PDF文件版本信息。主体：描述所有页面中的各个元素。相互参照表：主体中查找所有页面中的各个元素。标尾：告诉软件或RIP，去哪儿寻找相互参照表。如果没有标尾，PDF格式文件则不能被任何软件或RIP处理。

PDF文件结构分四个部分：92PDF文件构成PDF格式文件由以下三个数据层构成：文件底层数据层：包括字体信息、交叉参考表等所有的控制文件的重要底层数据。文本图像数据层：包括文件中显示的所有文本、矢量图形和点阵图像数据。由于PDF文本图像数据层独立存在，用户替换页面内容时，可以只改变文本图像数据层的内容，而不会影响其他数据层内的相应数据，例如，不会改变字体、字号，能保留所有的页面链接，这在文档电子管理中是很重要的，能给电子出版带来很大的方便。附属信息数据层：包括文件书签和文件或页面链接等等所有的功能扩展数据。PDF文件构成PDF格式文件由以下三个数据层构成：93PDF文本示例PDF文本示例94

特点PDF是文本、矢量图形和点阵图像数据兼容的文件格式（简95优点PDF具有保持原文特性，页面独立性，多媒体链接等。文件的压缩倍率高，文件的尺寸很小，适于网络传输和光盘存储，具有高保真的印刷特性。Acrobat还具有密码保护功能，允许使用尽可能高的保密层次来给敏感的文件分配密码，以便控制对这些敏感文档的访问。PDF格式文件可以图文并茂地展现原书的原貌，显示大小可任意调节，阅读时给人赏心悦目的感觉，深受大众的青睐，已经成为电子出版领域事实上的工业标准。AdobePDF表单中的数据可以以标准的XML格式提交，将后端系统和PDF表单相集成。PDF文件创建了指定的搜索标准，即在AdobePDF文件中创建和嵌入元数据，这样可扩展文件查找的方式。优点PDF具有保持原文特性，页面独立性，多媒体链接等。96数字文本的处理流程

数字文本信息的特点是易于传播、所需存储空间小，使用范围广。现在的公文、文件、信函、报表、各种印刷出版物等绝大多数都使用文字的形式来记录，文本信息处理的应用范围非常广泛，从编辑文稿、建立文件档案资料、排版印刷到行政管理、办公室自动化，凡是需要用文字表达信息的应用场合，都可以利用文字信息处理技术。但是由于世界各国语言文字存在较大差异，交流的群体受到限制，文本信息处理一直在不断的开发和应用，可以利用计算机人工智能，在字、词处理的基础上增添语法和句法处理、书面和自然语言处理等新功能。数字文本的处理流程数字文本信息的特点是易于传播、97文本处理的实质先把文字信息数字化，即用一个固定的数码代表一个字母或文字。例如，在英文信息中，以26个字母作为文字信息处理的单位，因此要对26个字母逐个地确定代替它的数码。在汉字的情况下，一般是以一个整字作为文字信息处理的单位，因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时，就像处理数据一样对待。处理完毕后，再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能，使文字信息处理也能够分享计算机技术的这一独特优点，从而实现文字信息处理的高效化。文本处理的实质98数字文本的处理流程

从信息编码角度看数字文本处理，可抽象为下图所示的五层结构模型：

数字文本处理流程示意图从信息编码角度看数字文本处理，可抽象为下图所示的五层结构模100图示说明

图示说明外部码输入层：通过键盘、文字识别、语音识别等将文101数字文本采集采集途径

数字文本采集采集途径数字文本的采集途径有输入和下载两种，其102自动输入分为手写板输入法、语音输入法、扫描输入法。手写板输入法：利用压敏或磁感应等方法识别文字信号，被计算机接收后再在显示器中显示。语音输入法：利用语音识别手段将人们读书的声音通过麦克风输入计算机，由计算机分析判断整理出人们读出的内容，并用文字形式显示出来。扫描输入法：利用扫描仪、数码相机等外围设备将印刷型或手写体的文字转换为数字信号输入计算机，此方法输入的文字是以图像的形式出现的，再利用识别软件转换为人们常用的文本文字。自动输入分为手写板输入法、语音输入法、扫描输入法。103文本下载：下载分为电子资源下载和网页下载两种。电子资源下载：主要是下载数据库和网上的非网页文本，一般是原格式(如doc、pdf、pdg、caj等)文件下载。网上下载：主要是html格式的网页文本，采用复制、粘贴的方法转到Word、写字板、记事本中以便于编辑，采用此方法复制到Word时，可采用“选择性粘贴”—“无格式粘贴”的方式去掉粘贴过来的网页格式。文本下载：104主要有键盘、鼠标、麦克风、图形输入板和笔、Microtek扫描仪等。键盘：把汉字输入计算机的主要工具，目前主要是按汉字的字形或发音特征，或利用汉字的形、音特征相结合的编码方法将汉字输入计算机。麦克风：将人类自然语言转化为计算机能识别的文本信息的主要工具。图形输入板和笔：将人们的手写文本直接输入到计算机的主要工具。只有在微机配上图形输入板才能进行手写文本，以让机器自动识别转换为数字文本信息。Microtek扫描仪：目前常用的扫描仪是上海中晶科技有限公司生产的Microtek扫描仪，最新产品是MicrotekArtixScan2020彩色双平台扫描仪，分辨率为2000dpi×2000dpi、双镜头及恒温冷却系统，最大扫描幅面为A3。采集工具主要有键盘、鼠标、麦克风、图形输入板和笔、Mic105

文本识别是用电子计算机自动辨识印刷在纸上和录写在纸(或介质)上的字形，是一种文本处理中的高速、自动输入方式。文本识别技术可以分为印刷体识别及手写体识别技术，而手写体识别又可以分为联机与脱机两种。文本识别文本识别是用电子计算机自动辨识印刷在纸上和录写在纸107

文本识别的原理

文本识别的原理图

文本识别的原理图109OCR识别技术OCR，光学汉字识别的简称，是一种智能化的汉字输入方法，主要是对印刷体汉字进行识别，原稿上的印刷体汉字经光学扫描后，通过二值化处理(即模数转换行字切分等预处理过程)送入计算机，由程序把送入计算机的字模信息和原先存在计算机中的标准字模信息进行比较，判定和识别输入的汉字，这种方法的识别速度较高。对于一般质量的文稿，目前OCR产品的汉字识别准确率已达95％以上，个别系统可达98％以上，并可实现对中文、英文和数字符号的混合识别，基本进入实用阶段，并在不断发展之中。

OCR识别技术主要应用于扫描仪中，目前也有不少数据库公司将它嵌入自己的浏览器中，如：重庆维普、中国期刊网、书生和超星电子图书等。OCR识别技术OCR，光学汉字识别的简称，是一种智能化110印刷体文本识别印刷体文本识别的过程如：扫描：通过光电扫描仪获得的二维原始图像。预处理：对原始图像的去噪、倾斜校正或各种滤

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数字文本处理的基础舒明全课件

文档简介

温馨提示

最新文档

评论

数字文本处理的基础舒明全课件

文档简介

温馨提示

最新文档

评论

相关文档