版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于不同分词框架的学术论文翻译系统官新均1 陈珂2 苏旋3 邹权1,4(1 厦门大学信息科学与技术学院, 福建厦门, 361000 ; 2 广东石油化工学院计算机科学与技术系, 广东茂名 , 525000 ; 3 仟首网络科技有限公司, 上海 , 200000 ; 4 厦门大学深圳研究院, 广东深圳, 518000)摘 要 针对国内学者和研究人员在撰写英语论文时出现一些术语对应翻译不正确的情况,本文设计实现了基于术语词库框架的学术论文例句检索系统。由于该检索系统的查询关键字多为专业术语,如新词或未登录词,很难被普通分词方法有效分词,本文对此提出了一种自建专业术语词典树的方法,有效的提高了分词的
2、准确率,返回更为精准的检索结果。关键词:信息检索;机器翻译;分词框架中法图分类号: TP391文献标识码: A随着国内外学术交流的日趋频繁,国内学者和研究人员往往需要撰写英语论文,由于母语的不同,常常遇到某些专业术语翻译的障碍,为了保证学术论文的严谨性,需要查阅大量的资料和论文,这就为学术论文例句检索系统的出现产生了契机。而在相关例句的检索中,需要对文本信息进行切分。对于英文文本,单词用空格隔开,可以直接依据空格切分单词。不同于英文文本,中文文本是以连续的字符串的形式出现的,中间没有任何明显的分隔标志,需要对中文文本进行分词处理。国内自80年代后期,陆续提出了很多的中文分词方法,传统的分词算法
3、有:最大匹配法(MM法),逆向最大匹配法(RMM法),逐词遍历匹配法,正向最佳匹配法和逆向最佳匹配法,但时间复杂度普遍不理想。文献1曾对分词算法做出介绍并总结。自从90年代以来,又陆续提出了很多新的分词算法:文献2提出了基于首字Hash的分词算法,是对MM算法的改进;文献3也对MM算法提出了改进和实现方法,效果良好;文献4提出的近邻匹配分词算法可以描述为首字Hash+二字词的二分查找+近邻匹配,效果更优;文献5提出了双字哈希机制,在不提升时空复杂度的情况下,提升了分词速度;文献6提出了迭代式二元切分方法,在新词识别和歧义消解上有一定的进步;文献7提出了字词联合解码的中文分词方法,即结合基于字的
4、条件随机场模型和基于词的Bi-gram语言模型;而在SIGHAN国际中文分词评测(Chinese Word Segmentation Bakeoff)中,文献8-10基于字标注的分词方法体现出了优势,此后标注学习的思想更为流行(文献11-13),文献14对近10年提出的分词算法进行总结和展望。在对上述分词算法进行分析的基础上,发现上述算法在对未登录词汇和新词识别上效果有待提升,本文提出了一种新的分词框架,采用正向最细粒度迭代算法和自建术语词典树,提升了局部学科术语的识别能力,使得分词更为准确,从而提高了准确率。系统关键技术 项目基金:国家自然科学基金(61001013,61102136),福建
5、省自然科学基金(No.2011J05158),深圳市科技创新基础研究(JCYJ20120618155655087)*通信作者:zouquan 语料库数据国内知名的权威学术刊物网站提供了该期刊录用的论文的双语摘要,这些中英摘要往往简短且一一对应,是理想的数据来源。本文采用了部分计算机类论文的权威期刊网站如: = 1 * GB2 电子信息学报 = 2 * GB2 计算机科学与探索 = 3 * GB2 模式识别与人工智能 = 4 * GB2 软件学报 = 5 * GB2 自动化学报 = 6 * GB2 中国科学F辑 = 7 * GB2 计算机科学与技术通过爬虫技术,以及数据的预处理完成语料库数据的准
6、备。分词方法现有的知名中文分词项目有: (1)SCWS (2)IK (3)盘古分词 (4)Paoding(庖丁) (5)ICTCLAS(文献15),大致基于以下的分词思想: = 1 * GB2 字符串匹配分词 = 2 * GB2 理解分词 = 3 * GB2 统计分词。为了满足系统对学科术语和新词的识别和系统实际开发方便,本文采用根据字符串匹配分词的IK项目并自建专业术语词库,IKanalyzer采用词典分词,其分词算法称为“正向最细粒度迭代算法”,其词典以树结构存储,节点数据结构见表1。表1 词典树节点数据结构(类型为DictSegment)Tab.1 Data structure of t
7、erminologies trees node类型属性名称属性内容描述IntIntIntCharDictSegmentMapLIMIT_SIZENodeStateStoreSizeNodecharChildArrayChildMap常量,用以决定采用数组或映射结构节点状态,当前字符成词时为1,否则为0子节点个数节点储存的字子节点数组子节点映射举例说明,如词典中含有词汇:“中东”,“中上”,“中上层”,“中上等”,“中世纪”,这个词典的树状结构如图所示,见图1.图1词典树示例Fig.1 example of terminologies tree利用设计的词典树结合每个节点提供的信息,可实现正向细
8、粒度迭代匹配。算法1.正向细粒度迭代算法输入:待匹配字符串string输出:词元集合HitList定义:当前词元集合ListHitList = ;For i = 0 to string.length List = ; List NextLexeme(string, i); HitList HitList List;End For Return HitListNextLexeme(string, i)输入:待匹配字符串string,游标i输出:词元集合List定义:匹配状态status,包含前缀匹配(prefix match),成词匹配(complete match)和未匹配状态(unmatch
9、),其中前缀匹配和成词匹配并含在match状态中;词汇word ;List = ;c the ith character of the stringnode the root node of the treeDO search from the son-nodes of node; /*查找node的儿子节点中是否存在于目标字符相匹配的节点*/ IF there exists node, which nodechar = c status match ; ELSE status unmatch; End IF IF status = prefix match OR complete match
10、 c the character after c node node ; IF status = complete match word the nodechar sequences from the root node to node; /*从根节点到当前节点路径所形成词汇*/ List = List word; End IF ELSE IF status = unmatch Break; End IFWHILE status = matchReturn list 下面结合一个实例进行算法说明。举例说明,如待分词语句为“基于云计算”时:第一轮匹配,从“基”开始,“基”为前缀匹配,“基于”为成
11、词匹配,“基于云”不成词,输出“基于”,结束;第二轮匹配,从“于”开始,“于”为前缀匹配,“于云”不成词,结束;第三轮匹配,从“云”开始,“云”为成词匹配,“云计”不成词,输出“云”,结束;第四轮匹配,从“计”开始,“计”为前缀匹配,“计算”为成词匹配,输出“计算”,结束;第五轮匹配,从“算”开始,“算”不成词,结束;最终分词为:基于|云|计算,和理想分词“基于|云计算”有一定差距,究其原因,不难在模拟过程中发现若在第三轮匹配时避免匹配失败,则可以顺利得出理想的分词,这需要我们扩充词典树。但是,如果出于这个目的无限扩充词典树,那么这个词典树就会无限庞大,影响匹配效率,所以,需要有选择的扩充词典
12、树,本文将范围定为该专业的相关术语,即自建词库,然后添加到主词典中。为了自建专业术语的词库,需要搜集该专业所有相关的词汇。在百度百科的词条页面中,大部分的词条有开放分类,基于此,我们对百度百科的词条页面进行抓取。抓取完成后,逐条读取内容并抽取开放分类中含“计算机”,“数学”等相关专业的词条,整理成一个词库。这项工作的意义在于: = 1 * GB2 高利用率。抓取的百度百科词条丰富,可重复利用,制作成其他专业的词库。 = 2 * GB2 可拓展性强。相比互联网上已有的词库,可扩展成任意相关的词库,如“数据结构”在“计算机”分类下,可再以“数据结构”为特征进行实体抽取,使涵盖词汇更为丰富。将IK分
13、词开源包以及自建词库部署,可构成了一个新的分词框架,这样的分词框架可提高专业词汇的敏感度。在这种算法下,实现了最细粒度的分词情况的生成,但是分词过于细致,往往会出现非理想分词情况,需要做消除歧义的处理。消除歧义是中文分词中相当重要的部分,正确的分词能够有效的提高准确率,文献16给出了较为可行的解决方案,即对歧义字段进行最大正向匹配;文献17提出了基于子词的双层CRFs分词方法解决切分歧义的问题,利用子词提高了分词精度;文献18利用双字耦合度和t-测试差线性叠加进行歧义消解,简单而有效,而IKanalyzer做出基于统计做出的歧义消解,对于上述方法而言,尽管效果稍逊,但相对于花费的时间代价而言是
14、可取的。定义1.x为分词情景,P(x)是指:x为理想分词的概率。经过统计,有如下的歧义处理机制; = 1 * GB2 P(实际文本长度较长) P(实际文本长度较短) = 2 * GB2 P(词元个数较少) P (词元个数较多) = 3 * GB2 P(词元跨度较大) P (词元跨度较小) = 4 * GB2 P(逆向切分) P (正向切分) = 5 * GB2 P(各词元词长方差较小) P (各词元词长方差较大) = 6 * GB2 P(词元位置权重较大) P (词元位置权重较小)以上原则优先级依次递减,将所有带有歧义的词元(起始位置存在重叠)提取出来,将得到的序列组合按照以上原则排序,取出最
15、优序列,完成消除歧义操作。如将“中国人民”分词,有以下情况:“中国人民”,“中国|人民”,“中|国人|民”,“中国人|民”,取最优情况“中国人民”,完成歧义消解。该思路在统计学基础上能实现部分有效的消除歧义,但对真歧义情况还是有一定的缺陷。系统实现框架如图2,通过爬虫技术定时更新语料库数据和自建分词词库,通过Lucene架构实现全文检索功能,将实现程序部署至Tomcat服务器对外发布。图2 系统架构Fig.2 system architecture实验与演示实验设置系统语料(论文摘要)共14337条,每条作为一个文档,自建词库共添加新词36719个(语料和词库均可访问/guanxinjun/中
16、获取)。实验选用的分词器有添加自建词库的IKanalyzer,未添加词库的IKanalyzer以及Lucene的自带分词器StandardAnalyzer,实验分别用三种分词器建立索引,然后随机选取200个学科术语(来自自建词库)作为检索关键字,分别使用三种分词器进行检索分词,根据实验结果评价相关的指标。分词效果实验首先从自建词库中选取了100个学科短语,分别用三种分词器进行分词,发现不同的分词器下分词效果差异显著,列举10例予以说明,见表2表2 不同分词器分词效果Tab.2 results of different segmentation检索词IKanalyzer(含词库)IKanalyz
17、erStandardAnalyzer无线传感器网络图像融合网络传输协议并行技术定义性概念基于云计算问题检索系统用户界面设计模糊神经网络基于关联规则无线传感器网络图像融合网络传输协议并行技术定义性概念基于云计算问题|检索系统用户|界面设计模糊|神经网络基于|关联|规则无线|传感器|网络图像|融合网络|传输|协议并行|技术定义|性|概念基于|云|计算问题|检索系统用户|界面设计模糊|神经网络基于|关联|规则无线传感器网络图像融合网络传输协议并行技术定义性概念基于云计算问题检索系统用户界面设计模糊神经网络基于关联规则在所举实例中,前五例由于已添加至自建词库中,所以含添加自建词库的IKanalyzer
18、中被视作一词,不做细分,而普通的IKanalyzer则继续细分,后五例未添加到词库中,两种IKanalyzer的分词效果一致,而StandardAnalyzer的分词效果则是将检索词完全分割,与理想分词相差甚远。评价方法在信息检索中,准确率和召回率是反映检索效果好坏的重要指标,定义如下:定义2. 准确率,也称查准率,其概念公式:准确率(Precision) = 系统检索到的相关文件 / 系统所有检索到的文件总数定义3. 召回率,也称查全率,其概念公式:召回率(Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数实验中随机选取200个学科术语作为检索词,为避免实验误差,实验将20
19、0个检索词分为10组,计算每个检索词的准确率和召回率,取20个检索词的平均值作为一次实验结果。实验结果见图3,图4。图3 不同分词方法下的准确率Fig.3 Precision between different segmentation在10次试验中,IKanalyzer准确率均高于StandardAnalyzer,说明良好的分词效果能有效的提高准确率,而对于IKanalyzer而言,自建词库后的检索准确率在不同程度上优于普通的IKanalyzer分词的检索准确率。图4 不同分词方法下的召回率Fig.4 Recall between different segmentation在10次实验中,
20、添加自建词库的IKanalyzer召回率均高于另外两种分类器。通过两项指标发现,添加自建词库后的IKanalyzer在中文分词上效果更为理想,在本系统中体现为更准更全的优势。系统演示原型系统采用Java语言开发,以Tomcat作服务器,JSP和HTTP作为前台展示。首先,运行线下处理程序,构造索引,由于是离线作业,且数据量很大,在演示前已执行完毕。其次,开启Tomcat服务器,以接收并处理客户端查询请求。然后,登录学术论文翻译系统(Http:/:8080/phelp),在搜索框中输入想要翻译的词语(以“神经网络”为例),单击搜索按钮,即可返回搜索结果,如图5所示。图5 返回结果Fig.5 se
21、arch result结论中文分词是中文信息处理方面的基础,其准确性会直接影响计算机处理信息的准确性。本系统在自建的分词架构下提升了局部的检索效果,提供了写作便利。在后续的工作中,我们将进一步完成: = 1 * GB2 完善本系统界面,动态且高亮显示界面中鼠标所指的词语对应的翻译,提供更好的用户体验。 = 2 * GB2 利用本系统采用的自建词库的分词框架,建立其他类专业论文的翻译系统。 = 3 * GB2 在本文的研究基础上,将分词方法应用到其他领域,如检索推荐等。参考文献揭春雨, 刘源, 梁南. HYPERLINK /kcms/detail/detail.aspx?filename=MES
22、S198901000&dbcode=CJFQ&dbname=CJFD1989 t _blank 论汉语自动分词方法J.中文信息学报.1989(1):1-9.张国煊, 王小华,周必水. 快速书面汉语自动分词系统及其算法设计J. 计算机研究与发展,1993,30(1):61-65.陈桂林, 王永成, 韩客松, 等. 一种改进的快速分词算法J. 计算机研究与发展,2000.37(4):418-423.骆正清, 陈增武, 胡上序. 一种改进的MM分词方法的算法设计J.中文信息学报.1996,10(3):30-36.李庆虎, 陈玉健, 孙家广.一种中文分词词典新机制双字哈希机制J.中文信息学报.2003
23、,17(4):13-18.曹永刚, 曹羽中, 金茂忠, 等,面向信息检索的自适应中文分词系统J. 软件学报,2006,17(3):356-363.宋彦, 蔡东风, 张桂平, 等. 一种基于字词联合解码的中文分词方法J. 软件学报,2009,20(9):2366-2375.Sproat R, Emerson T. The 1st Int1 Chinese Word Segmentation BakeoffC/Proc. of the 2nd SIGHAN workshop on Chinese Language Proc. Japan: Association for Computational
24、 Linguistics, 2003: 133-143.Emerson T. The 2nd Int1 Chinese Word Segmentation BakeoffC/ Proc. of the 4th SIGHAN Workshop on Chinese Language Proc. Korea: Association for Computational Linguistics, 2005: 123-133.Levow G. The 3rd Int1 Chinese Word Segmentation BakeoffC/ Proc. of the 5th SIGHAN Worksho
25、p on Chinese Language Proc. Australia: Association for Computational Linguistics,2006: 108-117.Hai Zhao, Chang-Ning Huang and Mu Li. An improved Chinese word segmentation system with conditional random fieldC/ Proc. of the 5th SIGHAN Workshop on Chinese Language Proc. Australia: Association for Comp
26、utational Linguistics, 2006: 162-165.Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo. A maximum entropy approach to Chinese word segmentationC/ Proc. of the 4th SIGHAN Workshop on Chinese Language Proc. Korea: Association for Computational Linguistics, 2005: 161-164.赵海, 揭春雨. 基于有效子串标注的中文分词J. 中文信息学报,2007,21
27、(5):8-13.黄昌宁, 赵海. 中文分词十年回顾J. 中文信息学报,2007,21(3):8-15.Zhang HP, Yu HK, Xiong DY, Liu Q. HHMM-Based Chinese lexical analyzer ICTCLASC/ Proc of the 2nd SIGHAN Workshop. Japan: Association for Computational Linguistics, 2003: 184-187.罗志勇, 宋柔. 现代汉语通用分词系统中歧义切分的实用技术J. 计算机研究与发展,2006,43(6):1122-1128.黄德根, 焦世斗, 周惠巍. 基于子词的双层CRFs中文分词J,计算机研究与发展,2010,47(5):962-968.王思力, 王斌. 基于双字耦合度的中文分词交叉歧义处理方法J.中文信息学报.2007,21(5).Academic Paper Translation System Based on Different Word Segmentation FrameGuan Xinjun1, Chen Ke2, Su Xuan3, Zou Quan1,4(1 School of Information Science and Technology, Xiamen University, Xia
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江宁波市水务环境集团有限公司招聘16人笔试参考题库附带答案详解(3卷)
- 2025浙江丽水市水利工程运行管理有限公司招聘4人笔试参考题库附带答案详解(3卷合一版)
- 初中物理电磁感应现象在太阳能电池中的创新应用实践课题报告教学研究课题报告
- 2025年安徽省水电有限责任公司招聘2人(第五次)笔试参考题库附带答案详解(3卷)
- 2025夏店煤业公司面向集团内部公开招聘1人信息笔试参考题库附带答案详解(3卷)
- 2025商洛市商州区沙河子镇商洛陆港实业(集团)有限公司招聘笔试参考题库附带答案详解(3卷)
- 陈仓区2024陕西宝鸡市陈仓区就业见习人员招聘80人笔试历年参考题库典型考点附带答案详解(3卷合一)
- 吕梁市2024山西吕梁市城乡规划设计院招聘16人笔试历年参考题库典型考点附带答案详解(3卷合一)
- 北京市2024上半年北京门头沟区事业单位招聘79人笔试历年参考题库典型考点附带答案详解(3卷合一)
- 电商客服人员面试注意事项与参考题目
- 在线网课知慧《形势与政策(吉林大学)》单元测试考核答案
- 业主授权租户安装充电桩委托书
- 化工建设综合项目审批作业流程图
- 亲子鉴定的报告单图片
- 辽宁轨道交通职业学院单招《职业技能测试》参考试题库(含答案)
- 新概念二单词表新版,Excel 版
- 2023年陕西西安经济技术开发区招聘120人(共500题含答案解析)笔试必备资料历年高频考点试题摘选
- 第八讲 发展全过程人民民主PPT习概论2023优化版教学课件
- 篇12pmc窗口功能指令举例讲解
- GB/T 7332-2011电子设备用固定电容器第2部分:分规范金属化聚乙烯对苯二甲酸酯膜介质直流固定电容器
- GB/T 38658-20203.6 kV~40.5 kV交流金属封闭开关设备和控制设备型式试验有效性的延伸导则
评论
0/150
提交评论