利用Word通配符替换功能实现汉英混排文档的提取_第1页
利用Word通配符替换功能实现汉英混排文档的提取_第2页
利用Word通配符替换功能实现汉英混排文档的提取_第3页
利用Word通配符替换功能实现汉英混排文档的提取_第4页
利用Word通配符替换功能实现汉英混排文档的提取_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中英文混排Word文档中分离中英文的编辑在工作中有时需要将中英文平行语料保存为独立文件,作为翻译记忆库或平行语料库的原始素材。由于原始本文编辑不规范,如中英文标点混用,以及某些特殊情况,如汉字段落以数字或符号开头,因此仅仅通过简单的替换指令无法完成分离工作,甚至会误删除文本。所以在中英文混排Word文档中分离中英文的编辑需要事先对原始文档进行细致的分析,再利用通配符设计替换指令。最大程度上简化编辑工作和误操作。以201年政府工作报告中英对照版文档为例(在百度文库下载)源文件字数统计:第一步:清除段落间重复段落标记(将两个和两个以上的段落标记,即回车符,只保留一个。多次操作,直到无替换为止。目的

2、是防止第二步替换操作时误删除汉字段落。)第二步:删除非汉字段落(仅操作一次以防误删除汉字段落):1、 清除段落中(两个回车键之间)所有以非汉字(除ASCII码1-127外还包含不间断空格(s)、短划线(=,)等符号开始的字符串;2、 如遇到以数字或英文符号开始的情况,检查第五个字符。如果为汉字,将保留该段落。以防止诸如以年代或数字开头的汉字段落被误删除。比如,以“2015年我国”开头的句子。)第三步:清除不间断空格(多次操作直到无替换为止)操作前:替换指令:操作后:第四步:清除段落间多余段落标记(将两个和两个以上的段落标记,即回车符,只保留一个。多次操作,直到无替换为止。)比较操作前后两次统计结果:操作后:中英文混排Word文档去除汉字编辑第一步:去除文中所有以汉字开头的段落;操作后:短中文段落未能去除。第二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论