




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自然语言理解 上海交通大学计算机系 陈玉泉 联系方式 n陈玉泉: 34204406 闵行电院3-525 参考文献 俞士汶主编(2003)计算语言学概论,商务印书馆 刘颖(2002)计算语言学,清华大学出版社 James Allen(1995), Natural Language Understanding The Benjamin / Cummings Publishing Company, Inc. 翁富良、王野翊(1998)计算语言学导论, 中国社会科学出版社 Christopher D. Manning and Hinrich Schutze(1999), Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge, Massachusetts 参考文献 刘开瑛、郭炳炎(1991)自然语言处理,科学出版社 冯志伟(1991)数学与语言,湖南教育出版社 冯志伟(1995)自然语言机器翻译新论,语文出版社 1995年版。 姚天顺等(1995)自然语言理解一种让机器懂得人 类语言的研究,清华大学出版社、广西科学技术出版社 冯志伟(1997)自然语言的计算机处理,上海外语教 育出版社 俞士汶等(1998)现代汉语语法信息词典详解,清华 大学出版社、广西科学技术出版社 陈小荷(2000)现代汉语自动分析,北京语言文化大 学出版社 网络资源 ACL主页: NLP新闻组:comp.ai.nat-lang LDC: 中文自然语言处理开放平台: 计算所自然语言处理研究组: 北京大学计算语言学研究所: 中国语言文字网: linguitics_links.html 期刊 计算语言学外文期刊名.doc 中文期刊: 语言文字学 语言文字应用 中国语文 中文信息学报 当代语言学 现代外语 课程说明 上课:1-8周,4学时/周,32学时 考核:开卷考试 致谢 本课程讲义(包括后续各节)直接引用 了下面几位同行的课程讲义中的部分内 容,在此深表感谢! 刘群: 计算语言学 詹卫东: 计算语言学概论 白硕: 计算语言学 刘颖: 计算语言学 冯志伟:机器翻译研究的历史和现状 依存语法在机器翻译中的应用 第一章 概论 问题驱动的学习 要了解一门学科,首先要知道这门学科所 要解决的问题。只有了解了一门学科所要解 决的问题,才能真正理解一门学科的内在逻 辑,才能不仅知其然,而且知其所以然。在 学习一门学科之前,不妨抛开这门学科的所 有知识,直接面对这门学科所面对的最基本 的问题,想一想如果要你来解决这个问题, 你会用什么办法。然后在学习的过程中,不 断地用你学到的知识来印证你所要解决的问 题,才能深刻地理解你所学到的知识,真正 做到融会贯通。 问题之一:自动翻译 n自动翻译问题 n人类最古老的问题之一:圣经上巴比伦塔的传 说 n计算机发明以来,几乎是人类首先想到的计算机的 应用之一 n困难比人们想像的大得多,至今没有找到理想的解 决办法 n是推动计算语言学研究的永恒动力 n是计算语言学的终极目标 n自动翻译研究,几乎触及到计算语言学研究的所有 方方面面 问题之一:自动翻译(续) n一个经典的例子(早期的英俄翻译系统): n源文:The spirit is willing , but the flesh is weak. n正确的译文:心有余而力不足 n机器的译文:酒是好的,但肉是馊的 n又一个经典的例子(一个笑话) n源文:How are you? n正确的译文:你好吗? n逐字翻译的译文:怎么是你? n源文:How old are you? n正确的译文:你多大了? n逐字翻译的译文:怎么老是你? 问题之一:自动翻译(续二) n演示 nLight英汉机器翻译系统 nTransEasy汉英机器翻译系统 n目前的水平: nLogMedia:/ nWordLingo:/ n看世界: n金桥译港:/ 问题之二:自动问答 n图灵测试 n用于判断“机器是否具有智能” n一个封闭的小屋 n屋外一个人 n屋内依次进入一个人和一台计算机 n屋外的人并不知道屋内的是人还是计算机 n屋外的人向屋内的人和计算机提出各种问题 n屋外的人根据回答来判断屋内是人还是计算机 n如果判断不出来,那么可以认为计算机具有了智能 交谈 n甲:听说吴妈打赢了阿Q。 n乙:不错,阿Q确实被吴妈打败了。 n甲:这个结果有些出人意料。 n乙:阿Q是大意失荆州,怪不得别人。 A. M. Turing n我们可以期待,总有一天机器会同人在所有的智能领 域里竞争起来。但是,如何开始呢?这是一个很难决 定的问题。许多人以为可以把下棋之类的极为抽象的 活动作为最好的出发点,不过,还有一种办法也应加 以考虑,就是为机器配备具有智能的、可用钱买到的 意识器官,然后,教这种机器理解并且说英语。这个 过程可以仿效通常小孩子学话的方式进行。我不能确 定到底哪个出发点更好,但应该都值得一试。 A. M. Turing, Computing Machinery and Intelligence, Mind Vol.59, 1950.阿兰. 图灵(英国数学 家)计算装置与智能 关于语言,可以问些什么? n人用来交际的“语言”具有什么样的性质?这 些性质又是如何影响交际过程的? n人用来交际的“语言”跟机器可以“理解”的 语言有什么样的关系? n人是如何运用“语言”进行交际的? n人运用语言进行交际的过程是否可以描述为一 个机械的过程? n什么叫做“理解”一种语言? n 其它问题 n音字转换:语音识别、拼音输入 n自动文摘:自动给出一篇或多篇文章的摘要 n信息检索:在海量的信息准确找到你所需要的 信息 n信息过滤:从信息流中筛选出你所感兴趣的信 息 n信息抽取:从海量的信息中抽取出你所需要的 (结构化)信息 n 定义 n计算语言学(Computational Linguistics)指的是这样一门学科,它 通过建立形式化的数学模型,来分析、 处理自然语言,并在计算机上用程序来 实现分析和处理的过程,从而达到以机 器来模拟人的部分乃至全部语言能力的 目的。 NLP/NLU/CIP n计算语言学(Computational Linguistics ) 广义的计算语言学几乎包括了与计算机(或计 算机科学)和语言学相关的所有方面;狭义的 计算语言学一般等同于自然语言理解(NLU) ,也就是通过建立形式化的计算模型来分析、 理解和处理语言。 n中文信息处理( Chinese Information Processing , CIP):又称汉语信息处理 ,是汉语的自然语言处理(NLP)。 计算语言学是三个学科的交叉领域 常规统计方法:其中A:统计语言学, B:机器学习,C:人工神经元网络 非常规方法: 其中D:模型论,情景理论 E:非单调逻辑,模糊逻辑,博弈论语义,似然推理 计算语言学与语言学 语言学 计算机科学 教学对象 人 机器 理解依据 人类活动 说话环境 形式描述 情景知识 最基本语言条件 语感语料、加工平台 例句判断的 基本假设 单说分解过程中任意出现 : “合法合情合理” 计算语言学的研究手段 n计算语言学的研究手段是计算 n计算的基础是冯诺依曼结构的计算机 n计算的表现形式是算法 n算法:一组有穷的操作规则 n确定性:每一个步骤的结果都是确定的 n可行性:每一个步骤可在有限时间内完成 n输入:有输入 n输出:有输出 n有穷性:可在有限步骤内停止 n算法和程序的联系与区别 计算语言学的研究对象 n计算语言学的研究对象是自然语言 n自然语言与形式语言的本质区别:歧义性 n自然语言是一种符号系统 n语言符号的特点(索绪尔) n任意性:语言符号的选择是任意的 n线条性:语言符号的排列是线性的 语言、思维与客观世界 思维 自然语言 客观世界 语言的层面 n语言研究的层面 n语音 n语法(包括词汇层和句法层) n语法研究要回答的问题是:一句话为什么可以这 么说而不能那么说? n语义 n语义研究要回答的问题是:这句话说了什么? n语用 n语用研究要回答的问题是:为什么要说这句话? 语言的层面(续) n语言各层面之间的关系 n语言层面的划分反映了语言在不同层次上的 规律性 n语言的各个层面是互相交织密不可分的,语 言层面的划分只是为了研究方便,对任何一 个层面的研究都不能忽略其他层面所起的作 用 语言在不同层面的歧义性 n.语音层面:多音字,同音词 n施氏食狮史(赵元任) n石室诗士施氏,嗜狮,誓食十狮。氏时时适市视 狮,十时,适十狮适市,是时,适施氏适市,施 氏视是十狮,拭矢试,使是十狮逝世,适石室, 石室湿,氏使侍拭石室,石室拭,始食是十狮尸 ,始识是十狮尸,实十石狮尸,试释是事。 语言在不同层面的歧义性(续 ) n语法层面 n词法歧义 n词性兼类:工作(动名兼类),在(动副兼类) n词语切分歧义:乒乓球拍卖完了,鱼在长江中游 n句法歧义 n结构歧义:张三和李四的朋友 n组合关系歧义:观赏鱼 语言在不同层面的歧义性(续二 ) n.语义层面 n一词多义:后门,人大, nI can can the can in the can. n结构语义歧义:吃饭,吃食堂,吃大碗 n.语境层面 n鸡蛋! n他去修车了。 汉语的特点 n语言的分类 n汉语:孤立语(分析语) n英语:屈折语 n日语:粘着语 n基本单位 n汉语:汉字(单音节,不用空格分隔) n英语:词(多音节,用空格分隔) n词语形态变化 n汉语:弱(重叠、离合) n英语:强(屈折) 汉语的特点(续) n语言的层次划分 n汉语:不明显:字与词、词与语、语与句、 句与段,都没有明确的界限 n英语:明显:词、短语、子句、句子、段落 之间界限分明 n词类与句法功能的对应 n汉语:多对多 n英语:一对一 计算语言学的研究对象 n从计算的角度来研究语言的性质 n将语言作为计算对象来研究相应的算法 从计算角度研究语言 n所谓从计算的角度来看语言的性质,就 是要求将人们对语言的结构规律的认识 以精确的、形式化的、可计算的方式呈 现出来,而不是像其他语言学研究那样 ,在表述语言的结构规律时一般采用非 形式化的表达形式。 例子 n张三赶跑了李四 n张三把李四赶跑了 n李四被张三赶跑了 n吴妈以前很喜欢阿Q的理论 n* 吴妈把阿Q的理论以前很喜欢 n* 阿Q的理论被吴妈以前很喜欢 语法规律 n汉语中的一个基本句型是:P0: X 动 词Y nP0可以变换为“把”字句或“被”字句 P1: X+把+Y+动词P2: Y+被+X+动词 n有些时候P0可以变换为P1,P2;有些时候 P0不可以变换为P1,P2; 将语言作为计算对象 n所谓将语言作为计算对象来研究相应的算法, 是研究如何以机械的、规定了严格操作步骤的 程序来处理语言对象(主要是自然语言对象, 当然也可以是形式语言对象),包括一个语言 片断(比如词组、句子或篇章)中大小语言单 位的识别,该语言片断的结构和意义的分析( 自然语言理解),以及如何生成一个语言片断 来表达确定的意思(自然语言生成),等等 过程 nS1:研究者以特定的方式对自然语言(NL0)的规律 进行抽象,以计算机能够处理的形式来表述关于自然 语言的规律得到语言知识K; nS2:针对特定的语言知识表示形式,研制适合的分析 和处理算法; nS3:根据算法编制计算机可执行的自然语言处理程序P 。这样的程序加上语言知识,加上计算机硬件系统, 共同构成一个自然语言处理系统(NLPs); nS4:用这样一个自然语言处理系统对自然语言NL0进 行分析处理,根据反馈的结果调整原来的设计,改进 NLPs。 计算语言学的应用领域 n机器翻译(Machine Translation) n文本分类(Text Classification) n信息检索(Information Retrieval) n信息提取(Information Extraction) n语音合成(Speech Synthesis) n语音识别(Speech Recognition) n人机接口(Human-Machine Interface) n 计算语言学研究的基本方法 n理性主义研究
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025村级后备干部模拟考试题及答案
- 推拿联合几丁糖治疗早中期膝骨性关节炎的临床随机对照研究
- 钒氮合金工岗前评优考核试卷含答案
- 二次雷达机务员岗前诚信道德考核试卷含答案
- 基于水平多梭箱技术的段纬大提花计算机辅助设计系统核心算法的研究
- 飞机仪表电气系统装调工岗前理论技能考核试卷含答案
- 政策偏好调适视角下我国公共数据授权运营模式研究-基于政策文本的量化分析
- 信息通信网络施工员创新思维竞赛考核试卷含答案
- 宣纸书画纸制作工操作能力水平考核试卷含答案
- 第五单元 物质组成的表示教学设计-2025-2026学年初中化学八年级全一册人教版(五四学制)
- 女性私密健康与护理课程
- 2025至2030中国游戏陪玩行业市场发展分析及发展前景与投资报告
- 临床重点专科管理制度
- 交通事故和解协议范本
- 公司航测无人机管理制度
- 模具超寿命管理制度
- TSG D7004-2010 压力管道定期检验规则 -公用管道
- 2025北京九年级一模数学汇编:代数综合(第26题)
- 理想汽车考试试题及答案
- 2025既有办公建筑体检评价标准
- 集团人力资源管理制度汇编
评论
0/150
提交评论