俞士汶北京大学信息科学技术学院北京大学计算语言学研究所 ..._第1页
俞士汶北京大学信息科学技术学院北京大学计算语言学研究所 ..._第2页
俞士汶北京大学信息科学技术学院北京大学计算语言学研究所 ..._第3页
俞士汶北京大学信息科学技术学院北京大学计算语言学研究所 ..._第4页
俞士汶北京大学信息科学技术学院北京大学计算语言学研究所 ..._第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、俞士汶俞士汶北京大学信息科学技术学院北京大学信息科学技术学院北京大学计算语言学研究所北京大学计算语言学研究所 E-mail: E-mail: 2003 2003 年年 12 12 月月 11 11 日日中文信息处理应用基础研究课题研讨会中文信息处理应用基础研究课题研讨会综合型语言知识库的建设与利用综合型语言知识库的建设与利用 主要内容主要内容1.1.自然语言处理与语言知识库自然语言处理与语言知识库 2.2.北大现有的语言数据资源北大现有的语言数据资源3.3.关于综合型语言知识库的规划关于综合型语言知识库的规划 4.4.基于数据资源的语言知识挖掘基

2、于数据资源的语言知识挖掘 5.5.结语和谢词结语和谢词 语言知识库是自然语言处理系统不语言知识库是自然语言处理系统不可或缺的组成部分。可或缺的组成部分。 语言知识库的规模和质量在很大程语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败,度上决定了自然语言处理系统的成败,对于中文信息处理和汉语理解尤其如此。对于中文信息处理和汉语理解尤其如此。 面向自然语言处理的语言知识库也面向自然语言处理的语言知识库也是语言本体研究与语言教学的重要资源。是语言本体研究与语言教学的重要资源。 1.1.自然语言处理与语言知识库自然语言处理与语言知识库 2.2.北大现有的语言数据资源北大现有的语言数据资源

3、 (1 1)现代汉语语法信息词典)现代汉语语法信息词典(2 2)大规模现代汉语基本标注语料库)大规模现代汉语基本标注语料库(3 3)面向汉英机器翻译的)面向汉英机器翻译的现代汉语语义词典现代汉语语义词典 (4 4)面向跨语言文本处理的)面向跨语言文本处理的中文概念词典中文概念词典 (5 5)句子对齐的双语语料库)句子对齐的双语语料库 (6 6)多个专业领域的术语库)多个专业领域的术语库 (7 7)现代汉语短语结构规则库)现代汉语短语结构规则库 (8 8)中国古代诗词语料库)中国古代诗词语料库 (9 9)服务于语言知识库建设的各种工具软件)服务于语言知识库建设的各种工具软件(已产生广泛影响,传遍

4、世界各地)(已产生广泛影响,传遍世界各地)关于关于现代汉语语法信息词典现代汉语语法信息词典 现代汉语语法信息词典现代汉语语法信息词典是一部面是一部面向语言信息处理的大型电子词典。它按向语言信息处理的大型电子词典。它按照语法功能和意义结合的准则收录了照语法功能和意义结合的准则收录了7.37.3万余词语。依照语法功能分布的原万余词语。依照语法功能分布的原则,建立了词类体系,完成了这则,建立了词类体系,完成了这7.37.3万词万词语的归类。并在此基础上,分类描述每语的归类。并在此基础上,分类描述每个词语的各种语法属性。个词语的各种语法属性。引自中国工程院编引自中国工程院编2020世纪我国重大工程技术

5、成就世纪我国重大工程技术成就之第二项之第二项汉字信息处理与印刷革命汉字信息处理与印刷革命 暨南大学出版社暨南大学出版社20022002年第一版年第一版3131页页 2.2.北大现有的语言数据资源北大现有的语言数据资源 语法词典语法词典标注语料库标注语料库语义词典语义词典 概念词典概念词典 句法知识句法知识 语义知识语义知识 词库词库 短语规则库短语规则库日常用语日常用语 术语库术语库 专业用语专业用语 单语单语 平行语料库平行语料库 双语双语 古诗古诗古代汉语古代汉语现代汉语现代汉语 2.2.北大现有的语言数据资源北大现有的语言数据资源 语言知识库建设的基本理念:语言知识库建设的基本理念: (

6、1 1)规模要足够大)规模要足够大(2 2)质量是语言知识库的生命线)质量是语言知识库的生命线 (3 3)语言知识及其表述形式独立于信息处理系统)语言知识及其表述形式独立于信息处理系统 和实现算法和实现算法 (4 4)基于规则的方法和基于统计并举;)基于规则的方法和基于统计并举; 反过来,又促进了这两种方法的发展。反过来,又促进了这两种方法的发展。 2.2.北大现有的语言数据资源北大现有的语言数据资源 基于基础研究的自身发展规律和应用系统开发基于基础研究的自身发展规律和应用系统开发的需求,至少还有以下两件事要做:的需求,至少还有以下两件事要做:(1 1)关于综合型语言知识库的规划)关于综合型语

7、言知识库的规划 (2 2)基于数据资源的语言知识挖掘)基于数据资源的语言知识挖掘 这就是北大计算语言所请缨承担的这就是北大计算语言所请缨承担的“中文信息中文信息处理应用基础研究处理应用基础研究” 之子课题的任务。之子课题的任务。3.3.关于综合型语言知识库的规划关于综合型语言知识库的规划(任务(任务1 1) 3.1 3.1 开发综合型语言知识库支撑软件开发综合型语言知识库支撑软件 这个软件要提供统一的应用程序接口这个软件要提供统一的应用程序接口(APIAPI)和风格一致的友好的用户界面。支)和风格一致的友好的用户界面。支持数据挖掘和知识发现,充分展现语言知识持数据挖掘和知识发现,充分展现语言知

8、识库的价值和作用。这个软件还要能提供知识库的价值和作用。这个软件还要能提供知识传播和信息服务的机制,让语言知识库能够传播和信息服务的机制,让语言知识库能够为语言信息处理研究、产品开发以及传统的为语言信息处理研究、产品开发以及传统的语言学研究、语言教学提供支持。语言学研究、语言教学提供支持。 3.3.关于综合型语言知识库的规划关于综合型语言知识库的规划(任务(任务1 1) 3.2 3.2 不断扩充语言知识库,永葆活力不断扩充语言知识库,永葆活力 虚词对于汉语理解有重要作用虚词对于汉语理解有重要作用广义广义虚词知识库的建设虚词知识库的建设(刘云博士)(刘云博士) 增加词语的属性信息增加词语的属性信

9、息商务信息的特商务信息的特征词汇:征词汇:“景气景气”与与“不景气不景气”: 就业(就业(+ +) 失业(失业(- -) 增加(增加(+ +) 减少(减少(- -)搭配规则、否定(否定之否定)规则的应用搭配规则、否定(否定之否定)规则的应用 3.3.关于综合型语言知识库的规划关于综合型语言知识库的规划(任务(任务1 1) 3.3 3.3 开发应用系统,在应用中提高质量开发应用系统,在应用中提高质量 机器翻译机器翻译面向专著的汉英翻译系统面向专著的汉英翻译系统 信息提取信息提取网上命名实体之信息提取网上命名实体之信息提取 与服务与服务 海量新闻资料主题索引辅助编制海量新闻资料主题索引辅助编制(李

10、素建博士)(李素建博士)中国古代诗词辅助深层研究中国古代诗词辅助深层研究基于双语语料库的词典辅助编纂软件基于双语语料库的词典辅助编纂软件3.3.关于综合型语言知识库的规划关于综合型语言知识库的规划(任务(任务1 1) 3.4 3.4 不同语言资源之间不同语言资源之间“缝隙缝隙”的填补的填补(1 1)语义词典是语法信息词典的扩展,可)语义词典是语法信息词典的扩展,可以无缝对接;以无缝对接;(2 2)基本标注语料库与语法信息词典遵循)基本标注语料库与语法信息词典遵循同一语法体系,仍有同一语法体系,仍有“缝隙缝隙”;(3 3)中文概念词典)中文概念词典CCDCCD与语法信息词典、语与语法信息词典、语

11、义词典之间也存在相互覆盖率的问题。义词典之间也存在相互覆盖率的问题。 从语言数据资源挖掘出更多、从语言数据资源挖掘出更多、更深入的语言知识,是有普遍意义更深入的语言知识,是有普遍意义的应用,更加符合应用基础研究的的应用,更加符合应用基础研究的宗旨。宗旨。 从现有的语言数据资源可以获从现有的语言数据资源可以获取词汇、句法、语义、篇章、双语取词汇、句法、语义、篇章、双语 等不同层次、不同类型的语言知识。等不同层次、不同类型的语言知识。 今天只涉及词汇知识。今天只涉及词汇知识。 4.4.基于语言数据资源的知识挖掘基于语言数据资源的知识挖掘(任务(任务2 2) 词汇知识的挖掘词汇知识的挖掘(1 1)

12、词频统计词频统计(2 2) 分布均匀性计算分布均匀性计算(3 3) 词的概率属性描述词的概率属性描述(4 4) 词义消歧词义消歧 4.4.基于语言数据资源的知识挖掘基于语言数据资源的知识挖掘(任务(任务2 2) 已经在千万字量级的语料已经在千万字量级的语料库上得到库上得到带词性的词频统计带词性的词频统计(视切分单位为词语,基本上(视切分单位为词语,基本上是句法词)。是句法词)。 4.4.基于语言数据资源的知识挖掘基于语言数据资源的知识挖掘(任务(任务2 2) 词汇实例之一词汇实例之一: : 词频统计词频统计 4.4.基于语言数据资源的知识挖掘基于语言数据资源的知识挖掘(任务(任务2 2)词汇实

13、例之二词汇实例之二: :计算词频的计算词频的分布均匀性分布均匀性 (Distributed Consistency, DC)(Distributed Consistency, DC)221nFFFresnnFFFEn21EresDC 应用效果:汉语语法信息词典(高频词)的研制应用效果:汉语语法信息词典(高频词)的研制( 0DC=1 ) 4.4.基于语言数据资源的知识挖掘基于语言数据资源的知识挖掘(任务(任务2 2) 词汇实例之三词汇实例之三: : 词的概率属性描述词的概率属性描述动 词 副 词 助 词 词语 频度 不 没 很 在 正在 着 了 过 U 吃 3125 98 24 0 7 在 2

14、25 着 56 了 85 过 到 3058 2045 9 0 0 0 0 2454 了 122 过 发 2261 26 8 0 0 在 0 5 着 194 了 12 过 发展 21044 27 0 0 72 在 16 20 着 161 了 1 过 进 4429 38 7 0 1 2 15 584 了 0 过 进行 19826 32 1 0 70 在 193 79 着 3572 了 77 过 睡 289 7 7 0 0 在 0 9 着 5 了 9 过 说 34354 96 29 0 12 在 0 96 着 141 了 262 过 听 1667 44 4 0 2 在 0 74 着 210 了 21

15、 过 为 26838 76 0 否 0 0 0 0 2 0 想 4340 262 19 38 很 31 在 0 89 着 38 了 34 过 要 41148 364 8 0 0 在 0 0 着 2 了 2 过 有 60910 0 否 240 573 0 9 27 着 2739 了 316 过 走 7616 70 2 0 6 在 7 16 着 242 了 2 过 WSD(Word Sense Disambiguation)WTD(Word Translation Disambiguation)热点课题热点课题自然语言理解的必由之路。自然语言理解的必由之路。 基础:基础:(1 1)基本标注语料库)

16、基本标注语料库 (2 2)中文概念词典)中文概念词典CCDCCD目标:目标:(1 1)在一定规模的语料库中标出)在一定规模的语料库中标出 每个名词、动词在每个名词、动词在CCDCCD中的位置中的位置 (表征概念(表征概念词义)词义) (2 2)词义标注软件(规则、统计并用)词义标注软件(规则、统计并用)4.4.基于语言数据资源的知识挖掘基于语言数据资源的知识挖掘(任务(任务2 2) 词汇实例之四词汇实例之四: : 词义消歧词义消歧 自然语言处理领域,研究课题不胜枚举。自然语言处理领域,研究课题不胜枚举。除除“歧义、指代、省略歧义、指代、省略”等等,“隐喻(隐喻(MetaphorMetaphor)”也必须也必须面对。面对。 “铁公鸡铁公鸡”、“空手套白狼空手套白狼”、“不入虎穴,焉得虎子不入虎穴,焉得虎子” “ “郎平是中国女排的铁榔头郎平是中国女排的铁榔头” “ “打起黄莺儿,莫教枝上啼。啼时惊妾梦,不得到辽西。打起黄莺

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论