版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,中文信息处理技术原理与应用(六),北京信息科技大学计算机学院 李宝安,2,第六章 汉语自然语言理解,汉语自然语言理解概述 自然语言理解国外研究现状 汉语自然语言理解与生成国内现状 汉语理解与生成的难点与问题 自然语言理解过程的层次 基于语法的汉语自然理解系统 基于语义的汉语自然理解系统 基于语料库方法和统计语言模型的汉语自然理解系统 汉语理解研究的应用前景与发展策略,3,汉语自然语言理解概述,语言的分类与自然语言 理解语言的过程 中文有没有文法,4,语言的分类与自然语言,语言大概可分为以下几种:动物本能语、自然语言(约定俗成语、法制语)、程序语言(比如机器语言、汇编语言、高级语言、函数语言
2、、面向对象语言)、形式语言(比如巴柯斯范式、逻辑语言)和抽象语言(比如数学语言)。 人们日常所使用的语言常称之为自然语言。 语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。,5,语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。 语言是一个符号体系,但与其他符号体系又有所区别。 语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等 语法是语言的组织规律 语言是音义结合的,每个词汇有其语音形式,6,7,怎样才算理解了语言呢?,(1)能够理解句子的正确词序规则和概念,又能理解不合规则的句子。 (2)知道词的确
3、切含义、形式、词类及构词法。 (3)了解词的语义分类以及词的多义性和歧义性。 (4)指定和不定特性及所有(隶属)特性。 (5)问题领域的结构知识和时间概念。 (6)语言的语气信息和韵律表现。 (7)有关语言表达形式的文学知识。 (8)论域的背景知识。,8,理解语言的过程,(1)接受或搜集有关信息; (2)分析它的内涵,以进一步地搜集信息以帮助其理解确切的含义; (3)抓住本质(主题/中心),可以进行变形复述(保义变换); (4)可以进行交流(人机对话)或再创造(摘要/机译/准确执行命令); (5)寻找其与其它话语之间的关系,从全局上把握之,以实现深层的理解; (6)进一步提炼并结合其它材料,进
4、行创新(深刻理解)。,9,中文有没有文法?,中文有文法。“没有规矩,不成方圆”。,10,关于中文信息是否要求分词,这个问题不能绝对化。 需要探究在什么样的应用场合,有些做了分词工作后使分析字句的结构问题容易些,有助于解决中文语言的理解。 但也有些情况适得其反,例如分词不当,反而会使人钻入牛角尖,不能很好地解决问题。,11,中文理解的单位,字、词、句、文都可以构成理解的单位,但其所包含的理解的范围和程度都很不相同。 从字到文,其理解的程度是逐步升高的,反过来则只能理解一些局部。 字、词、句、文都可以构成概念,但同样,它们中的每一个单位所构成的概念也是从简单到复杂的。 要研究中文语言理解,单靠对字
5、、词的理解显然是不够的,必须研究上下文,即语境的构造。,12,自然语言理解国外研究现状,机器翻译是自然语言理解最早的研究领域。40年代末期,人们期望能够用计算机翻译剧增的科技资料。美苏两国在1949年开始俄-英和英-俄文字的机器翻译研究。 70年代初期,对语言理解对话系统的研究取得进展。代表性的有伍兹(Woods)的LUNAR系统、威诺甘德(Winogand)的SHRDLU系统和香克(Schank)的MARGIE系统等是语言理解对话系统的典型实例。 到了80年代出现有突破性的进展。大约从1983年开始,国外自然语言软件进入了商品市场,标志着进入了一个新的起点,语言产业作为一种新的产业在世界上崛
6、起。,13,进入80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。其中比较著名的有美国的METAL和LOGOS,日本的PIVOT和HICAT,法国的ARIANE以及德国的SUSY等系统 口语理解研究促进人机对话系统走向实用化 近年来国外自然语言理解研究在广度和深度上都有相当大的发展,并继续沿着这两个方向发展。 最近兴起的语料库语言学以大规模语料为基础所进行的自然语言分析试验已震动自然语言理解和处理学界,成为另一股发展潮流,14,汉语自然语言理解与生成国内现状,五十年代中期,已开展俄文对中文的翻译工作,六十年代中期中断,其成果也是很初级的
7、。 八十年代初中科院计算所,北京语言学院研究所刘涌泉,刘倬等研究员开始研究中英文翻译系统。在国内第一次商品化的中英文翻译软件是由电子部中国软件总公司的董振东教授研发的“译星”系统,该系统以句译为主,水平在当时算是高的 九十年代中期,由中科院陈肇雄,黄河燕等研究员开发的翻译软件曾经在国内名噪一时,他们的翻译软件可以是句译,也可以扩大到成段或成篇的翻译。其句译的软件由香港一家公司支持配备了硬件,生产出批量上市的“快译通”产品,受到中学生、一些涉外公司企业雇员的欢迎。,15,直到1978年,中国国内才开始起步研究汉语理解,而且当时只有少数大学或研究所的少数人员在研究经费匮乏、研究设备短缺的困难条件下
8、进行分散式研究 八十年代中、后期情况有所好转。1984年成立了中国人工智能学会自然语言理解学会,中国中文信息学会自然语言处理专委会和计算语言学专委会也相继成立了。在国际上新一代计算机激烈竞争影响下,自然语言理解研究在中国也得到了应有的重视 90年代后期,随着Internet网络技术的普及和发展,中文信息处理技术开始渐渐复苏,并推动汉字信息处理及汉语理解技术的更快发展。 在自然语言理解的理论研究方面,也取得了不少的成果,初步形成了我国当前NLC方面的一些流派,并有自己的一套理论、模型和系统。,16,汉语理解与生成的难点与问题,采用目前的这种计算机体系结构来实现自然语言理解,汉语比英语具有更大的一
9、个困难是:英语是形合(merplotactic)语言,造句要求词的形态变化符合规则,注重句法平面。汉语是意合(semotactic)的语言,造句要求词的意义搭配符合情理,注重语义平面。 用计算机对汉语进行理解和生成,面对的困难和问题要比印欧语系的英语、俄语等多一些。除了自然语言理解研究面对的共性问题外,汉语理解和生成还有其他方面的的困难和问题。,17,汉语理解与生成的难点与问题,汉语量词特别丰富 汉语是词根语,采用连续书写形式,词与词之间没有自然界限,计算机理解汉语时要多一个步骤:自动分词。 大多数汉语词本身不能明显地表达语法意义,句法主要靠虚词和语序。 汉语的名词修饰名词十分自由,有时加“的
10、”,有时不加“的”, 连动式、兼语式是汉语的二种特殊形式的句型,印欧语或日语无直接对应句型,18,汉语理解与生成的难点与问题,汉语的构词法和造句法结构方式基本相同,且理论上汉语的结构可作任意扩展,结构与结构的组合很灵活,相互之间又缺乏明显的形式标记,使计算机分析时困难增多 汉语句子间界限不清,句中无主谓一致关系,而且缺略现象比较严重 语义和语用在表意文字汉语里有时比句法占有更重要的地位,但目前汉语理解时如何利用语义和语用这个问题尚未解决 汉语理解还必须面对汉语语言学研究落后这一现实,19,自然语言理解过程的层次,语音分析 词法分析 句法分析 语义分析,20,基于语法的汉语自然理解系统,汉语理解
11、系统的组成 一文本的输入 二文本预处理 三 计算机自动分词 四词法分析,21,基于语义的汉语自然理解系统,人们是如何理解语言的呢? 1人在理解语言时,不是等到听完上句话后,分清哪个是主语,哪个是谓语或宾语才开始理解的。 2人们在听话时,是一个词一个词地听取并理解的,当听完某个句子的最后一个词后,句子也就理解了,理解告成。 3理解一个句子有三个不同的层次,即 听了话; 懂了句子含义; 形成清晰的概念。,22,基于语义的汉语自然理解系统,概念实际上是一种深层语义,语义只限于语言学范畴内的东西,是不能独立于语种的,但是概念不受语种的限制,是在整个知识领域中定义的,它不单是更深层次的语义,而且可以将信
12、息交互中的语言放到更大的范围内去理解。 典型示例:中国科学院声学研究所研究员黄曾阳先生提出的HNC理论及其应用情况。 HNC是“Hierarchical Network of Concepts(概念层次网络)”的简称,它以概念化、层次化、网络化的语义表达为基础,因此称它为概念层次网络理论。,23,基于语义的汉语自然理解系统,有关汉语自然理解系统的方法问题或主流技术的讨论,可以说是众说纷纭。 黄昌宁教授(现任微软亚洲研究院高级研究员兼博士后工作站负责人)提出了有关语料库方法和统计语言模型的观点。,24,汉语理解研究的应用前景,既是新一代计算机的核心课题,又是知识产业的三大突破口之一 专家系统、数据库、CAD、CAI、MIS、OA系统,无一不需要用自然语言做人机界面 具有篇章理解和篇章生成能力的自然语言理解系统可用于专家系统、知识工程、自动机器翻译、情报检索、自动文摘、注释和编辑出版、CAI,办公室自动化、语言材料自动统计等领域 从知识产业的角度理解,自然语言软件具有相当重要的地位,25,发展策略,增加对汉语理解研究的投资 从系统工程的观点来考虑,应统一规划集中力量研究开发一部能够为各类汉语处理系统服务的现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师在校培训管理制度
- 输血规范培训制度
- 培训班老师坐班制度规定
- 学生干部培训管理制度
- 学校安全人员培训制度
- 新设备使用前培训制度
- 屠宰场人员培训制度
- 教育培训校长提成制度
- 少年宫辅导教师培训制度
- 培训机构疫情隔离制度
- 5年(2021-2025)山东高考生物真题分类汇编:专题17 基因工程(解析版)
- 2025年10月自考00610高级日语(二)试题及答案
- 新华资产招聘笔试题库2025
- 2025年中国潜孔钻机行业细分市场研究及重点企业深度调查分析报告
- 食品经营场所及设施设备清洗消毒和维修保养制度
- 2026年辽宁轨道交通职业学院单招职业技能测试题库必考题
- 老年人远离非法集资讲座
- 沙子石子采购合同范本
- 名词单数变复数教案
- 入团考试题库(含答案)2025年
- 国考题库文件下载及答案详解(历年真题)
评论
0/150
提交评论