中文信息处理的资源建设.ppt_第1页
中文信息处理的资源建设.ppt_第2页
中文信息处理的资源建设.ppt_第3页
中文信息处理的资源建设.ppt_第4页
中文信息处理的资源建设.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文信息处理的资源建设,苗 传 江 2006年8月25日 北京师范大学,提纲,1.语言资源的重要性及其类型 2.语言资源建设是系统工程 3.关于语料库建设 4.知识库建设的基本问题 5.国内外知识库建设项目简介 6.HNC的知识库建设 7.语言资源建设的其他若干问题,1. 语言资源的重要性及其类型,重要性 各项技术和应用都离不开语言资源 语言资源制约语言信息处理的发展 语言资源对语言信息处理的竞争有决定意义,语言资源的类型 对言语的记录 对语言的描述 系统是否可直接调用? 基础型还是应用型? 服务于理解还是生成? 是否以语义描述为中心?,2. 语言资源建设是系统工程,系统性 理论方法不同,资源

2、可能不同。 资源建设应与系统实现密切配合。 例如词表建设(收“词”原则和词表的组织) 输入法软件的大“词”表 “类推词”:鸡蛋、鸭蛋、鹌鹑蛋、恐龙蛋 “异构词”:松花蛋、茶叶蛋、荷包蛋;煎蛋、蒸蛋;鱼蛋、泥蛋、驴粪蛋;笨蛋、坏蛋、蠢蛋 “临时词”:宇迷、保先 专业词:越位、点球、边裁;铲射、吊射、扫射、垫射,工程性 目标明确可行 规模达至应用 注重实际效用 “鸡蛋”应收入词表,而“鸭蛋”未必。,3. 关于语料库建设,语料库有什么作用? 应怎样加工语料库? 何谓“大规模”? 语料库怎么平衡? 现代汉语与语料库建设的当务之急 服务于现代汉语语言知识库建设 文本属性标注 语体、文体、体裁、领域、语域

3、 语料库工具的研发 查找例句,4. 知识库建设的基本问题,知识库:语言资源的子类 面向NLU 统计数据是知识库吗? 系统可直接调用 百科全书是知识库吗? NLU的基本目标是什么? 语言模糊的消解 意义的表示和映射,NLU需要哪些知识? 句法、语义、语用、常识、专业 ? 周杰伦在大陆的演出活动 周杰伦将在大陆举办个人演唱会 周杰伦个人演唱会将在北京首都体育馆举行 巡回演出第一站,周杰伦在广州火爆亮相 周杰伦前往西安参加义演活动 北京举办扶贫义演,刘德华、周杰伦等港台明星出席,各类知识分别起什么作用? 重要性的差别 主次之分:谁是统帅? 各类知识之间的关系:分立还是协同? 句法 = 语义 = 语用

4、 ? Colorless green ideas sleep furiously. (Chomsky) 所有的石头都死了。(邢公畹) 一树红桃个个青,满天下雨半天星, 三个和尚四面坐,不言不语唱真经。,知识怎样表示? 针对电脑的需要 如何构建知识库系统? 知识从哪里来? 语言材料和语言能力 怎样有效地利用知识?,5. 国内外知识库建设项目简介,Cyc Cycorp, Inc., the leading supplier of formalized common sense, based in Austin, Texas, founded by Douglas Lenat in 1984 Cyc

5、 technology, the worlds largest and most complete general knowledge base and commonsense reasoning engine Cycorps goal, to break the software brittleness bottleneck once and for all by constructing a foundation of basic common sense knowledge Whats common sense? what we normally consider consensus k

6、nowledge about the world. For example, Cyc knows that trees are usually outdoors, that once people die they stop buying things, and that glasses of liquid should be carried rightside-up. - Cyc sounds like psych.,Cyc will enable a variety of knowledge-intensive products and services. For example, Cyc

7、 can find the match between a users query for pictures of strong, adventurous people and an image whose caption reads simply a man climbing a cliff. Cyc can notice if an annual salary and an hourly salary are inadvertently being added together in a spreadsheet. When someone searches for Bolivia on t

8、he Web, Cyc knows not to offer a follow-up question like Where can I get free Bolivia online? Cyc-like common sense is a prerequisite for human-level NLU. Fred saw the plane flying over Zurich. Fred saw the mountains flying over Zurich. Its difficult to see how to resolve this syntactic ambiguity an

9、d reject nonsensical interpretations without relying on a large database of common sense.,Cyc Knowledge Base consists of terms and assertions which relate those terms CycL, the Cyc representation language, is a large and extraordinarily flexible knowledge representation language. It is essentially a

10、n augmentation of first-order predicate calculus (FOPC). Example (#$implies (#$isa ?A #$Animal) (#$thereExists ?M (#$mother ?A ?M) Size At the present time, the Cyc KB contains nearly two hundred thousand terms and several dozen hand-entered assertions about/involving each term.,WordNethttp:/wordnet

11、./ A lexical database for the English language English nouns, verbs, and adjectives are organized into synonym sets, each representing one underlying lexical concept. Different relations link the synonym sets. whose design is inspired by current psycholinguistic theories of human lexica

12、l memory. Synonym sets example board, plank and board, committee Which can serve as unambiguous designators of the two meanings of board. Relations examples ISA, HASA, Functions, e.g., instrument(knife, cut) products(hole, dig),EDR Electronic Dictionary http:/www2.nict.go.jp/r/r312/EDR/ a machine-tr

13、actable dictionary that catalogues the lexical knowledge of Japanese and English developed for advanced processing of natural language by computers composed of eleven sub-dictionaries, which include a concept dictionary, word dictionaries, bilingual dictionaries, etc.,FrameNet http:/framenet.icsi.be

14、/ The Berkeley FrameNet project is creating an on-line lexical resource for English, based on frame semantics and supported by corpus evidence. The aim is to document the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through comput

15、er-assisted annotation of example sentences and automatic tabulation and display of the annotation results.,HowNet(知网) 董振东、董强 一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 词条举例 W_C=买主 G_C=N mai3 zhu3 W_E=buyer G_E=N DEF=human|人:domain=commerce|商业,buy|买:agent=,6. HNC的知识库建设,HNC知识库建设的三条根

16、本原则: (1)把知识划分为概念、语言和常识三个层面,采取不同的知识表示策略和学习方式,并分别建库。 (2)语言知识库建设应将服务目标首先定位于自然语言五重或三重模糊的消解。 (3)词语知识库建设应以句类知识为核心。,HNC知识库的构成,语料库,常识及专业 知识库,语言知识库,概念知识库,配合应用需要,词语库、字库、小专家库,概念基元库、句类知识库,概念知识库 概念基元库 约3000个概念基元 句类知识库 57种基本句类及常见混合句类 句类知识举例 一般反应句 X20J = X2B + X20 + XBC X2B: p;pe. XBC = XBCB + XBCC = X10J,语言知识库 目前

17、只做了现代汉语知识库 词语知识库 59988词,64538义项 单字知识库 3363字,6930义项 与词语库相比,主要增加了构词知识,词语知识库示例 加入加入 1 v 1 v 2 v939192 v6420+v341 3 R112Y90*22J=RB2+RY+RB13 T2J=TA+T2+TB+T2C 4 !4 !114;!113 5 RB2:p;pe. RB1:pe.5 TB:Ph(j2). 知识项: 1概念类别 2HNC符号 3句类代码 4格式代码 5JK的知识 6E的知识 7角色及局部联想知识 词语知识库演示,语料库 示例 !0T21R411*22J+Cn 这天早上,|小学生们|都带着

18、|自己的暑假作业, !31T2bJ+Cn !31T2bY9*11J+Re 按地区|集合后,|整队走向|学校。 !2P01J+Cn 8:30|举行|开学式, !0X20J 校长|希望|SP10*21J+Ms 他们|以新的精神状态|开始|新的学习生活。 !0T2bJ 接着,他们|回到|各自的教室, !0D01J 班主任|不仅要确认|T2bS*11J 全班同学|是否到齐, !31T31J 还要询问|PS041*21J 他们的暑假生活|过得|是否充实愉快, !31T19J 观察和检查|X21J 他们|是否做好了|新学期的学习准备|, !31113T31Y30*21J 然后向他们|提出|新的要求。,标注内容: 句类句子的语义类型 语义块句子的下一级语义构成成分 句蜕语义块中包含的句子 特点: 语义层面 句子级 自上而下 例句: 李四被张三打断了腿。 中国对国有企业进行了产业结构调整。 李鹏总理对法国的支持表示衷心的感谢。 李小姐的办事能力|得到|张先生的赏识。 俄罗斯|反对|美国|攻打|伊拉克。 |都转移到了|国外。 |也减轻了。 这些话|

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论