计算语言学厦大应用语言学.ppt_第1页
计算语言学厦大应用语言学.ppt_第2页
计算语言学厦大应用语言学.ppt_第3页
计算语言学厦大应用语言学.ppt_第4页
计算语言学厦大应用语言学.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算语言学 一、计算语言学的定义:是利用计算计研 究和处理自然语言的学科。 n狭义:指的是通过建立形式化的计算模型,用计算 机分析、处理、理解并生成自然语言的学科。例: “有意见分歧” 算一算怎么切分合理 n是“有意 见 分歧” 还是 : “有 意见 分歧” ? n广义:包括狭义的内容;还包括利用计算机对语言 文字进行的各种定量化和精密化的研究。 n例1:中国红楼梦的作者:前八十回和后四十 回是不是一个人。 n例2:方言亲属关系的计量: 二、计算语言学的发展: n计算语言学的研究首先是从机器翻译开始的 。 n1、圣经创世纪中“巴比塔”的传说。 n2、17世纪中叶展开的“普遍语言”的运动, 旨在运用逻辑原则和图形符号的基础上,创 造出一种无歧义的语言。 n3、20世纪30年代,法国工程师提出了用机 器进行语言翻译的想法,并在1933年7月获 得了一项“翻译机”的专利,叫做“机械脑”。 n4、1946年,美国研制出第一台电子计算机, 人们开始用计算机进行翻译的尝试,当时采用 的是词对词的策略,所以翻译效果不理想。如 : nI dont know the boy who is waiting outside. n5、在1960年代初期,计算语言学曾因做机器 翻译的应用研究,受到各国政府的大力支持而 风光一时,然而一直没有满意的成绩。于是美 国政府委托国家科学院评估机器翻译的计划。 1966年该评估报告指出:当时的研究是没有希 望做好机器翻译的。 n6、人们在失败中得到启发,认为要搞好自动翻译, 必须在语言理论和计算机科学两方面下足功夫,其中 尤其语言处理理论的研究,人们认识到,如果计算机 无法理解自然语言,机器翻译等只能是空中楼阁。 n7、计算语言学的进一步发展 n音字转换:语音识别 n自动文摘:自动给出一篇或多篇文章的摘要 n信息检索:在海量的信息准确找到你所需要的信息 n信息过滤:从信息流中筛选出特定的的信息(信息安 全、突发事件) 三、计算语言学的学科分类:就理论研究来看,计算机 语言学还可以分为计算语音学、计算词汇学、计算语法 学、计算语义学、语料库语言学等不同的分支学科。 n(一)、计算语音学:研究如何用计算 机对语音信息进行处理,实现语音的自 动识别和合成。 n语音识别:机器通过识别和理解过程把 语音信号转变为相应的文本或命令的高 技术。 n语音合成:将可视的文本信息转化为可 听的语音信息。 n一般来说,完整的语音识别要经历三个步骤: n(1)、语音特征提取:目的是从语音波形中 提取随时间变化的语音特征序列。 n(2)、声学模型与模式匹配(识别算法): 声学模型通常将获取的语音特征通过学习算法 产生。在识别时将输入的语音特征同声学模型 (模式)进行匹配与比较,得到最佳的识别结 果。 n(3)、计算机对识别结果进行语法、语义分 析。明白语言的意义以便作出相应的反应。通 常是通过语言模型来实现。 清华大学电子工程系,非特定人汉 语连续语音识别系统的识别精度, 达到948,接近实用水平 语音识别 特定人 非特定人 大词汇量 小词汇量 孤立发音 连续发音 中小词汇量非特定人语音 识别系统识别精度已经大 于98 满足通常应用 的要求 一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语 音智能玩具。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游 、银行信息,并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。 5000词邮包校核非特定人连 续语音识别系统的识别率达 到9873。 n(二)、计算词汇学:研究如何用计算 机处理自然语言的词汇。 他笑了 桌子笑了 桌子搬走了。 n(三)计算语法学:研究如何用计算机 来分析自然语言的语法。这种研究在计 算语言学中叫做自动语法分析。 n花开了花钱了 (四)语料库语言学:语料库(corpus)亦称 语库或素材,是收集并科学地组织起来的 一套语言材料,这种材料是某种语言中自 然出现的,可以是书面的,也可以是口头 的。语料库语言学(corpus linguistics)是以 语料库中的语篇(text)语料为基础对语言进 行研究的一门学科。 四、汉字的信息处理 (一)、汉字与信息处理 笔、墨、纸、砚 甲、骨、金、木 泥、木印刷术;铅、打字机 磁、光、电子计算机 汉 字 面 向人阅读笔画书写 人机互动、编码输入 、自动识别 约公元1915 年汉字机 约公元 1050年 机械性质的整字书写 (二)、汉字输入 汉字输入 汉字键盘输入 汉字识别(OCR) 语音识别 印刷体:单体、多体 联机手写 脱机手写 1、汉字键盘输入 汉字形码输入 汉字音码输入 音形码|形音码输入 汉字键盘输入 王码五笔字型 郑码 T9笔画输入法 全拼,双拼,智能 ABC,微软拼音, 紫光拼音,智能狂 拼 极点五笔 五码智拼输入法 大众形音输入法 母字全能码 字词、词组句子;普通话地方拼音输入(广东拼音 ) 编码的优缺点(1) 形码的优点 按字型编码,重码率低,最多四码(不超过1万字,理 论上讲可以做到一码一字),适合专业录入员录入写 好的文本; 无需顾及读音,对讲不好普通话的人适用; 不认识的汉字照“样”可以输入。 形码的缺点 要记忆的东西较多,难学难记 ; 对字形不同人之间都会有不同的认识,易拆错。不同人之间都会有不同的认识,易拆错。 编码的优缺点(2) 音码的优点 与人的语音思维一致,边进行文章的构思边用音码输入 音码的码键就在英文键盘上,不需要改造键盘。 1958年以后出生的人,大多数学过汉语拼音,无需专门学音码 。 音码的缺点 汉字同音字太多,重码率高,输入速度受限; 不认识的汉字无法输入,甚至读不准也一样输入不了; 比如:ji有109个同音字: 几及急既即机鸡积记级极计挤己季寄纪系基激吉脊际汲肌嫉姬绩 缉饥迹棘蓟技冀辑伎祭剂悸济籍寂期其奇忌齐妓继集给革击圾箕 讥畸稽疾墼洎鲚屐齑戟鲫嵇矶稷戢虮诘笈暨笄剞叽蒺跻嵴掎跽霁 唧畿荠瘠玑羁丌偈芨佶赍楫髻咭蕺觊麂骥殛岌亟犄乩芰哜 2、汉字识别 电脑的汉字识别功能,是指用计算机对印刷在纸上和 手写在纸上汉字的自动辨识,它是中文信息处理中的 一项重要功能。 n一个实用的汉字识别系统由扫描器,计算机主机,显 示器,识别软件和字库等部分组成。 n工作过程:文稿,书刊等通过扫描器输入计算机,提 取识别特征后与字库进行比较,并把识别结果显示出 来。 n大陆和台湾地区的汉字识别研究都已经巧妙地解决了 单字印刷体汉字识别,多体印刷体汉字识别和特定手 写汉字识别。打印稿识别的准确率一般可达95%。 印刷汉字识别技术主要包括: n(1) 扫描输入文本图象。 n(2) 图象的预处理,包括倾斜校正和滤除干扰噪声等。 n(3) 图象版面分析和理解。区分出文本段落及排版顺序,图象、表格 的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表 格分析及识别处理,对于图象区域进行压缩或简单存储。 n(4)行字切分:图象的行切分和字切分。 n(5)特征提取:提取单字图象统计特征或结构特征。 n(6)文字识别:基于单字图象特征的模式分类。将被分类的模式赋予 识别结果。 n(7)后处理:识别结果的编辑修改后处理。利用词义、词频、语法规 则或语料库等语言先验知识对识别结果进行校正的过程。 n其中(4)、(5)和(6),是印刷汉字识别中最为核心的技术。 五、词语的信息处理 n(一)、自动分词的必要 n自动分词:让计算机把以字为单位的书面语流 串变为以词为单位的形式就叫做自动分词。 n 英语等西方语言的书面形式以空格作为词 与词之间分隔标志,而汉语的书面形式却是连续 的汉字串。 n 自动分词是汉语自动分析中的一项基础性 工作。中文信息处理的各个领域,无论是在词 频统计、情报检索、人机对话、机器翻译等方 面,都是在词的基础上进行的。 分词不当的例子: n在Google上输入“和服”搜索所有中文简体网页,总共结果 507,000条,前20条结果中有14条与和服一点关系都没有 。在第一页就有以下错误: n “通信信息报:瑞星以技术和服务开拓网络安全市场” n “使用纯HTML的通用数据管理和服务- 开发者- ZDNet .” n “陈慧琳心口不一化妆和服装自己包办” n “外交部:中国境外领事保护和服务指南(2003年版) .” n “产品和服务” n备注:现在已经好多了 n(二)、自动分词的方法:机械切分、智能切分、统 计切分。 n1、机械切分:运用简单的模式匹配技术的无条件切 分。 n(1)、正向最大匹配法:机器中存在一个词表,其 中词长的最大值是N;根据从前到后的顺序,首先选 取一个连续的文本中的前N个字符作匹配字段,如果 词表中有这个词,那么,就把文本中的这前N个字符 作为一个词处理,如果没有,那么匹配文本中的前N- 1个字符作为匹配字段如此下去,直到匹配成功 。 n例子:“我们应该开展计算语言学的研究”。词长是7 的切分。 n正向最大匹配法的缺点: na、 词表设计困难:目前对什么是词还没有一 个定论分词系统仍然没有一个统一的具有权威 性的分词词表作为分词依据。 nb、 如果N设计的过大,就会影响效率。 nc、 如果N设计的过小,就会影响正确性。 nd、 有些歧义不能解决。 n如:有意见分歧:正向最大匹配法的分词结果 是:有意/ 见/ 分歧/ ne:未登录词无法解决。 n(2)、逆向最大匹配法: n一般说来,逆向匹配的切分精度略高于正向匹 配,遇到的歧义现象也较少。统计结果表明, 单纯使用正向最大匹配的错误率为1/169,单 纯使用逆向最大匹配的错误率为1/245。 n逆向最大匹配法的分词结果是:有/ 意见/ 分歧/ n但是还是有些词是两种方法都不能解决: n结合成分子时 2、智能切分:模拟人的思维,采用词法、句法、 语义、语用等各种知识的有条件切分。 它通常包括三个部分:分词子系统、句法语 义子系统、总控部分。在总控部分的协调下,分 词子系统可以获得有关词、句子等的句法和语义 信息来对分词歧义进行判断,即它模拟了人对句 子的理解过程。这种分词方法需要使用大量的语 言知识和信息。由于汉语语言知识的笼统、复杂 性,难以将各种语言信息组织成机器可直接读取 的形式,因此目前基于理解的分词系统还处在试 验阶段。 3、基于统计的分词方法 :通过对大规模真实文 本的统计,让计算机自己判断什么是词,这样 就产生了基于统计的分词方法,又称为无词典 分词。这类方法分词的依据和主要思想是:词是 稳定的字的组合,因此在上下文中,相邻的字 同时出现的次数越多,就越有可能构成一个词 。 n但是也有缺陷,如:了解答题的方法、他想出 了解答的办法。 n(三)、自动分词的问题: n1、歧义字段 n(1)、交集型歧义字段:汉字串AJB被称作交 集型切分歧义,如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串 。 n例“结合成” :结合/成,结/合成 n让位移等于50厘米(让位移:让位/移、让/位 移) n这种歧义字段占全部歧义字段的以上。 n交集型歧义字段的消解: n伪歧义:虽然有歧义的可能,但是在真实的文 本中只有一种切分结果,如:挨/批评; 爱/国 家。这一种占约92.6。 n准歧义:通常只有一种切分结果:其/实质、 解除/了。占5.5。 n真歧义:经常有两种切分结果:应用于; 从小 学。占1.9%。 n因此可以把伪歧义的切分结果预先放到一张表 中,其歧义消解可以通过直接查找实现。 n(2)、组合型歧义字段:汉字串AB被称作多 义组合型切分歧义,如果满足A, B, AB同时为 词。 n他/站/起/身/来/。 n他/明天/起身/去/北京/。 n我一看他的/穿着/就直到他不是等闲之辈。 n她今天是穿/着/一身礼服出去的。 n你们/后天/再来吧 n到/家/后/天/就黑了。 2、未登录词的处理: 未登录词:词典中未列入的词汇。包括固有名词 、数词、时间词、专业及文化新词等。 吴立德4在他的书上讲:“一个经过人工分词的 、含有15,000个词的法律语料库,其中竟然有 30%的词没有登录在含70,000个词条的词典里 ,这个比例远远高于各种歧义字段在全文所占 的比例1/110。“因此在文本在计算机处理时, 把汉语未登录词从文本中摘出来可能比一般的 分词问题更重要。 n固有名词主要的是人名,地名,单位公司名。对西 方语言来说,头一个字母是大写的,比较容易识别 ,但是对于汉语就不容易。例如:“时间很快就过去 了。“。这里的“时间“可以是人名!他姓“时“,名为“ 间“。当然也可以是表示“光阴“的哪个时间,如何区 别相当困难。 n地名,一般都不会是词典中的词。如沈阳、沟帮子 、新民、苏家屯等。也可以出现在词典里,如著名 城市北京、上海。至于单位、公司名,那就复杂了 ,很难识别。我们只能通过局部自动识别方法来处 理。例如选取未等录词的特征、前后缀标志、出现 的频度、前后搭配的统计。 n未登录词的识别:人名 n如果不予处理,将导致为数可观的分词错误。 n 刘清楚楚动人.(例2) n 利用从左向右扫描的最大匹配法进行切分: n 刘 清楚 楚 动 人. 讨论:中文加个空格行不行? 八、机器翻译 n(一)、机器翻译在国外的发展 n1、草创时期: n(1)、20世纪30年代的机械翻译 n(2)、20世纪50年代计算机翻译 n(3)、20世纪60年代的ALPAC报告后的 萧条 n2、恢复期:20世纪70年代:开始注意句法和语义的 研究 n3、繁荣期:20世纪70年代末至今:开始商业化。 n机器翻译的繁荣期是以年加拿大蒙特利尔大 学与加拿大联邦政府翻译局联合开发的实用性机器翻 译系统TAUMMETEO正式提供天气预报服务为标志 的。这个机器翻译系统投入实用之后,每小时可以翻 译万万个词,每天可以翻译 篇天气预报的资料,并能够通过电视、报纸立即 公布。TAUMMETEO系统是机器翻译发展史上一个 里程碑,它标志着机器翻译由复苏走向了繁荣。 n美国在乔治敦大学机器翻译系统的基础上,进 一步开发了大型的机器翻译系统SYSTRAN,已 提供试用。例如,提供给美国空军的SYSTRAN 系统,词典有万千个词干形式和万 千个词组,可进行俄英机器翻译,每小时可 翻译万词;提供给美国拉特塞克(Latsec )公司的SYSTRAN系统,可进行俄英、英俄、 德英、汉法、汉英机器翻译,每小时可译 万万个词。SYSTRAN是目前应用最为广 泛、所开发的语种最为丰富的一个实用化机器 翻译系统。 n(二)、机器翻译在中国的发展 n我国是继美国、苏联、英国、之后第四个开展 机器翻译的国家。 n我国的机器翻译可以分作四个时期: n1、草创时期:19561966:主要是俄汉翻译 n2、停滞时期:19661975: n3、复苏时期:19751987: n1975年11月,在中国科学技术情报研究所设立了一个 由情报所、语言所和计算所等单位的工作人员组成的 机器翻译协作研究组,以冶金题录5000条为试验材料 ,制定英汉机器翻译方案并上机试验。1978年5月,在 计算所111机上进行抽样试验,抽样20条,达到了预期 的效果。 n19801985年,中国社会科学院语言所与军事 科学院合作开发了JFY翻译系统,这是全国 第一套全文翻译系统,主要用于军事科学用语 的翻译。 n 中国科学院和一些大学成立了课题组进行 机器翻译的研究 n4、繁荣时期:1987至今 n这一时期是以“译星1号”的问世为标志的,它 是我国第一个商品化的机器翻译产品。 n中科院软件所的“863”成果智能型英汉 机器翻译系统(即快译通)以470万美元的价 格卖给了香港权智集团。两次市场运作的成功 对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论