




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自然语言理解,上海交通大学计算机系 陈玉泉,联系方式,陈玉泉: 34204406 闵行电院3-525,参考文献,俞士汶主编(2003)计算语言学概论,商务印书馆 刘颖(2002)计算语言学,清华大学出版社 James Allen(1995), Natural Language Understanding The Benjamin / Cummings Publishing Company, Inc. 翁富良、王野翊(1998)计算语言学导论, 中国社会科学出版社 Christopher D. Manning and Hinrich Schutze(1999), Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge, Massachusetts,参考文献,刘开瑛、郭炳炎(1991)自然语言处理,科学出版社 冯志伟(1991)数学与语言,湖南教育出版社 冯志伟(1995)自然语言机器翻译新论,语文出版社1995年版。 姚天顺等(1995)自然语言理解一种让机器懂得人类语言的研究,清华大学出版社、广西科学技术出版社 冯志伟(1997)自然语言的计算机处理,上海外语教育出版社 俞士汶等(1998)现代汉语语法信息词典详解,清华大学出版社、广西科学技术出版社 陈小荷(2000)现代汉语自动分析,北京语言文化大学出版社,网络资源,ACL主页: NLP新闻组:comp.ai.nat-lang LDC: 中文自然语言处理开放平台: 计算所自然语言处理研究组: 北京大学计算语言学研究所: 中国语言文字网: linguitics_links.html,期刊,计算语言学外文期刊名.doc 中文期刊: 语言文字学 语言文字应用 中国语文 中文信息学报 当代语言学 现代外语,课程说明,上课:1-8周,4学时/周,32学时 考核:开卷考试,致谢,本课程讲义(包括后续各节)直接引用 了下面几位同行的课程讲义中的部分内 容,在此深表感谢! 刘群: 计算语言学 詹卫东: 计算语言学概论 白硕: 计算语言学 刘颖: 计算语言学 冯志伟: 机器翻译研究的历史和现状 依存语法在机器翻译中的应用,第一章 概论,问题驱动的学习,要了解一门学科,首先要知道这门学科所要解决的问题。只有了解了一门学科所要解决的问题,才能真正理解一门学科的内在逻辑,才能不仅知其然,而且知其所以然。在学习一门学科之前,不妨抛开这门学科的所有知识,直接面对这门学科所面对的最基本的问题,想一想如果要你来解决这个问题,你会用什么办法。然后在学习的过程中,不断地用你学到的知识来印证你所要解决的问题,才能深刻地理解你所学到的知识,真正做到融会贯通。,问题之一:自动翻译,自动翻译问题 人类最古老的问题之一:圣经上巴比伦塔的传说 计算机发明以来,几乎是人类首先想到的计算机的应用之一 困难比人们想像的大得多,至今没有找到理想的解决办法 是推动计算语言学研究的永恒动力 是计算语言学的终极目标 自动翻译研究,几乎触及到计算语言学研究的所有方方面面,问题之一:自动翻译(续),一个经典的例子(早期的英俄翻译系统): 源文:The spirit is willing , but the flesh is weak. 正确的译文:心有余而力不足 机器的译文:酒是好的,但肉是馊的 又一个经典的例子(一个笑话) 源文:How are you? 正确的译文:你好吗? 逐字翻译的译文:怎么是你? 源文:How old are you? 正确的译文:你多大了? 逐字翻译的译文:怎么老是你?,问题之一:自动翻译(续二),演示 Light英汉机器翻译系统 TransEasy汉英机器翻译系统 目前的水平: LogMedia:/ WordLingo:/ 看世界: 金桥译港:/,问题之二:自动问答,图灵测试 用于判断“机器是否具有智能” 一个封闭的小屋 屋外一个人 屋内依次进入一个人和一台计算机 屋外的人并不知道屋内的是人还是计算机 屋外的人向屋内的人和计算机提出各种问题 屋外的人根据回答来判断屋内是人还是计算机 如果判断不出来,那么可以认为计算机具有了智能,交谈,甲:听说吴妈打赢了阿Q。 乙:不错,阿Q确实被吴妈打败了。 甲:这个结果有些出人意料。 乙:阿Q是大意失荆州,怪不得别人。,A. M. Turing,我们可以期待,总有一天机器会同人在所有的智能领域里竞争起来。但是,如何开始呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,还有一种办法也应加以考虑,就是为机器配备具有智能的、可用钱买到的意识器官,然后,教这种机器理解并且说英语。这个过程可以仿效通常小孩子学话的方式进行。我不能确定到底哪个出发点更好,但应该都值得一试。 A. M. Turing, Computing Machinery and Intelligence, Mind Vol.59, 1950.阿兰. 图灵(英国数学家)计算装置与智能,关于语言,可以问些什么?,人用来交际的“语言”具有什么样的性质?这些性质又是如何影响交际过程的? 人用来交际的“语言”跟机器可以“理解”的语言有什么样的关系? 人是如何运用“语言”进行交际的? 人运用语言进行交际的过程是否可以描述为一个机械的过程? 什么叫做“理解”一种语言? ,其它问题,音字转换:语音识别、拼音输入 自动文摘:自动给出一篇或多篇文章的摘要 信息检索:在海量的信息准确找到你所需要的信息 信息过滤:从信息流中筛选出你所感兴趣的信息 信息抽取:从海量的信息中抽取出你所需要的(结构化)信息 ,定义,计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。,NLP/NLU/CIP,计算语言学(Computational Linguistics ) 广义的计算语言学几乎包括了与计算机(或计算机科学)和语言学相关的所有方面;狭义的计算语言学一般等同于自然语言理解(NLU),也就是通过建立形式化的计算模型来分析、理解和处理语言。 中文信息处理( Chinese Information Processing , CIP):又称汉语信息处理,是汉语的自然语言处理(NLP)。,计算语言学是三个学科的交叉领域,常规统计方法:其中A:统计语言学, B:机器学习,C:人工神经元网络,非常规方法: 其中D:模型论,情景理论 E:非单调逻辑,模糊逻辑,博弈论语义,似然推理,计算语言学与语言学,计算语言学的研究手段,计算语言学的研究手段是计算 计算的基础是冯诺依曼结构的计算机 计算的表现形式是算法 算法:一组有穷的操作规则 确定性:每一个步骤的结果都是确定的 可行性:每一个步骤可在有限时间内完成 输入:有输入 输出:有输出 有穷性:可在有限步骤内停止 算法和程序的联系与区别,计算语言学的研究对象,计算语言学的研究对象是自然语言 自然语言与形式语言的本质区别:歧义性 自然语言是一种符号系统 语言符号的特点(索绪尔) 任意性:语言符号的选择是任意的 线条性:语言符号的排列是线性的,语言、思维与客观世界,思维 自然语言 客观世界,语言的层面,语言研究的层面 语音 语法(包括词汇层和句法层) 语法研究要回答的问题是:一句话为什么可以这么说而不能那么说? 语义 语义研究要回答的问题是:这句话说了什么? 语用 语用研究要回答的问题是:为什么要说这句话?,语言的层面(续),语言各层面之间的关系 语言层面的划分反映了语言在不同层次上的规律性 语言的各个层面是互相交织密不可分的,语言层面的划分只是为了研究方便,对任何一个层面的研究都不能忽略其他层面所起的作用,语言在不同层面的歧义性,.语音层面:多音字,同音词 施氏食狮史(赵元任) 石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮,十时,适十狮适市,是时,适施氏适市,施氏视是十狮,拭矢试,使是十狮逝世,适石室,石室湿,氏使侍拭石室,石室拭,始食是十狮尸,始识是十狮尸,实十石狮尸,试释是事。,语言在不同层面的歧义性(续),语法层面 词法歧义 词性兼类:工作(动名兼类),在(动副兼类) 词语切分歧义:乒乓球拍卖完了,鱼在长江中游 句法歧义 结构歧义:张三和李四的朋友 组合关系歧义:观赏鱼,语言在不同层面的歧义性(续二),.语义层面 一词多义:后门,人大, I can can the can in the can. 结构语义歧义:吃饭,吃食堂,吃大碗 .语境层面 鸡蛋! 他去修车了。,汉语的特点,语言的分类 汉语:孤立语(分析语) 英语:屈折语 日语:粘着语 基本单位 汉语:汉字(单音节,不用空格分隔) 英语:词(多音节,用空格分隔) 词语形态变化 汉语:弱(重叠、离合) 英语:强(屈折),汉语的特点(续),语言的层次划分 汉语:不明显:字与词、词与语、语与句、句与段,都没有明确的界限 英语:明显:词、短语、子句、句子、段落之间界限分明 词类与句法功能的对应 汉语:多对多 英语:一对一,计算语言学的研究对象,从计算的角度来研究语言的性质 将语言作为计算对象来研究相应的算法,从计算角度研究语言,所谓从计算的角度来看语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。,例子,张三赶跑了李四 张三把李四赶跑了 李四被张三赶跑了 吴妈以前很喜欢阿Q的理论 * 吴妈把阿Q的理论以前很喜欢 * 阿Q的理论被吴妈以前很喜欢,语法规律,汉语中的一个基本句型是:P0: X 动词Y P0可以变换为“把”字句或“被”字句P1: X+把+Y+动词P2: Y+被+X+动词 有些时候P0可以变换为P1,P2;有些时候P0不可以变换为P1,P2;,将语言作为计算对象,所谓将语言作为计算对象来研究相应的算法,是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单位的识别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等,过程,S1:研究者以特定的方式对自然语言(NL0)的规律进行抽象,以计算机能够处理的形式来表述关于自然语言的规律得到语言知识K; S2:针对特定的语言知识表示形式,研制适合的分析和处理算法; S3:根据算法编制计算机可执行的自然语言处理程序P。这样的程序加上语言知识,加上计算机硬件系统,共同构成一个自然语言处理系统(NLPs); S4:用这样一个自然语言处理系统对自然语言NL0进行分析处理,根据反馈的结果调整原来的设计,改进NLPs。,计算语言学的应用领域,机器翻译(Machine Translation) 文本分类(Text Classification) 信息检索(Information Retrieval) 信息提取(Information Extraction) 语音合成(Speech Synthesis) 语音识别(Speech Recognition) 人机接口(Human-Machine Interface) ,计算语言学研究的基本方法,理性主义研究方法 基于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议书财产分割赡养费支付共同债务承担简易版
- 珠海住房公积金贷款提前还款及合同解除协议
- 离婚协议变更及婚姻财产分割调解执行合同
- 离婚协议履行保障合同:确保离婚协议执行到位的协议
- 租赁仓库押金合同范本(含货物存放及安全管理)
- 粮食加工厂租赁合同(含农产品溯源与质量监控)
- 塑料桶销售合同签订前市场调研与风险评估
- 私人宅基地房屋租赁附带农业技术研发与应用合同
- 2025合伙经营合同协议书范本
- 仓储物流成本分析-洞察及研究
- 部编版五年级上册语文教案1-6单元(表格式)
- GB/T 4798.5-2007电工电子产品应用环境条件第5部分:地面车辆使用
- GB/T 4513-2000不定形耐火材料分类
- 12YJ6 外装修标准图集
- GB/T 27664.3-2012无损检测超声检测设备的性能与检验第3部分:组合设备
- 阅读与思考(选学)为什么要证明课件
- HPLC高效液相色谱解读课件
- 中医诊断学望诊
- DN1000顶管施工方案
- 《外科学》第七节 直肠癌
- DB32∕T 2975-2016 水运工程建设管理用表
评论
0/150
提交评论