版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语料库第1页,共52页。什么是语料库 语料库是语言材料的集合语料库的特点必须是真实语言环境中出现过的语言材料必须是以电子计算机为载体必须经过一定的分析、加工和处理第2页,共52页。语料库的类型1 按来源分类口语语料库书面语语料库按语言分类单语语料库双语语料库按加工分类生语料库熟语料库第3页,共52页。语料库的类型2按加工方式分单语原始语料库切分标注语料库句法树库语义标注语料库双语篇章对齐语料库句子对齐语料库词语对齐语料库结构对齐语料库第4页,共52页。语料库研究的历史第一代(197080年代)百万词级以语言研究为导向第二代(198090年代)千万词级词典编纂应用导向第三代(1990年代)超大规
2、模(上亿词级)标准编码体系深度标注/多语种NLP应用第四代(?)互联网作为语料库第5页,共52页。第一代语料库1 Brown语料库始建于1960年代初W.N.Francis和H.Kucera发起美国Brown大学建立世界上第一个根据系统性原则采集样本的标准语料库主要代表当代美国英语规模100万词次第6页,共52页。第一代语料库2LOB语料库始建于1970年代初由英国Lancaster大学著名语言学家Geoffrey Leech倡议挪威Oslo大学StigJohansson主持完成安装在挪威Bergen大学挪威人文科学计算中心规模于Brown语料库相当主要代表当代英国英语第7页,共52页。第一代
3、语料库3LLC语料库1960年代初,由Randolph Quirk主持收集2000小时的谈话和广播等口语素材并整理成书面材料由瑞典Lund大学J. Svartvik主持全部录入计算机1975年建成第8页,共52页。第二代语料库1COBUILD语料库建于1980年代以词典编撰为应用背景有英国Birminghan大学与Collins出版社合作完成规模达2000万词次基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评第9页,共52页。第二代语料库2 Longman语料库建于1980年代包括三个语料库LLELC语料库(Longman/Lancaster英语语料库)LSC语
4、料库(Longman口语语料库)LCLE(Longman英语学习语料库)目标是编撰英语学习词典,为外国人学习英语服务词典规模达5000万词次第10页,共52页。第三代语料库2 PennTreeBank(宾州大学树库)美国Pennsylvania大学1980年代末开始发起由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年完成了中文树库(第一版):10万词次,4185个句子第11页,共52页。第三代语料库1 ACL/DCI语料库美国ACL倡议发起收集语料范围广泛华尔街日报Collins英语词典Brown语料库PennTreeBank一些双语或多语文本
5、等既有已标注的语料,也有未标注语料制定了语料库文件的格式标注采用统一的SGML标注语言语料标注依照TEI(Text Encoding Initiative)标准 第12页,共52页。语料库的收集、整理和应用 第13页,共52页。语料的选取 Summers, Longman/Lancaster English Corpus: Criteria and Design, Harlow: Longman精品原则有影响力原则随机挑选原则高流通度原则典型性原则易于获得原则具有统计样本意义原则符合语言规范原则平衡性:主观性强第14页,共52页。语料库的加工语料库标注(Annotation)1)词性标记(Pa
6、rt-of-speech tagging)2)句法层次和范畴标记(Grammatical parsing)3)词义标记(Word sense tagging)4)篇章指代标记(Anaphoric annotation)5)韵律标记(Prosodic annotation)第15页,共52页。语料库加工工具 分类工具名称功能描述A. 文件处理工具文本过滤器将不同的文件格式转成为纯文本文件格式文本分类器自动判别文本领域语料库辅助校对工具及一致性检查工具按照语料库加工规范,对语料质量进行管理B. 语言处理工具分词与词性标注工具对语料进行词语识别,词性标记处理词义标注工具对词义进行标注浅层分析工具对语
7、块(chunk)进行标注句法分析工具对句子进行完全句法分析双语语料对齐工具对双语语料进行各个层级(段落、句子、小句、词的对齐加工第16页,共52页。双语语料库(Bilingual Corpora)加工 段落对齐句子对齐词对齐短语对齐第17页,共52页。双语句子对齐 基于长度(length-based)的对齐方法Gale & Church (1993)纯粹基于句子的长度来估计对齐可能性资源要求少,算法效率相对较高基于词(word-based)的对齐方法一般要依赖词典资源,算法效率相对较低 第18页,共52页。人民日报语料库1 北京大学、富士通公司、人民日报社共同开发含人民日报1998年上半年全部
8、文本(约1千7百万字)完整的词语切分和词性标注信息高准确率第19页,共52页。人民日报语料库2样例历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b /m 度/q 、/w 东经/b /m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 年/t 月/t 日/t 时/t 分/t 。/w 中国/ns 政府/nnt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳
9、定/an 。/w第20页,共52页。London-Lund英语口语语料库1 what a_bout a cigarette# ./*(4 sylls)*/*I wont have one th/anks#* -/arent you .going to sit d/own# -/m# -/have my _coffee in p=eace# -/quite a nice .room to !sit in (actually)#/*isnt* it#/*y/es#* -/转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55, 第
10、21页,共52页。London-Lund英语口语语料库2 第22页,共52页。语料库的编码体系 冯志伟,标准通用置标语言SGML及其在自然语言处理中的应用,载当代语言学1998年第4期。SGML(标准置标语言)/MarkUp/SGML/XML(可扩展的置标语言)/TR/REC-xmlTEI(文档编码计划)/CES(语料库编码标准)/Applications/index-co02.html 第23页,共52页。语料库检索 通常倒排表实现词语到文本的快速检索演示:语料库检索和集列(concordance)第24页,共52页。语料库检索(Demo) 第25页,共52页。语料库应用 支持自然语言处理应
11、用系统开发支持语言学研究和语言教学研究第26页,共52页。语料库对NLP的支持 基于大规模语料库的语音识别;基于大规模语料库的音字转换技术(中文输入);基于大规模语料库的自动文本校对技术;利用语料库训练HMM模型进行分词,词性标注,词义标注,等等;基于语料库的句法分析;基于语料库的机器翻译;基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;基于语料库的语言模型训练和语法模型评价;第27页,共52页。应用:词频统计与Zipf定律1998全年人民日报语料中频度最高的28个词(带词性)北京大学计算语言学研究所俞士汶教授提供第28页,共52页。齐普夫(Zipf)定律 齐普夫定律是
12、美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,频次最小的词等级为。若用f表示频次,r表示等级序号,则有f(r) = cr -,1, c是常数人们称该式为齐普夫定律。第29页,共52页。齐普夫(Zipf)定律 第30页,共52页。词语分布均匀度1998年人民日报语料库部分词语分布北京大学计算语言学研究所俞士汶教授提供第31页,共52页。词语分布均匀度:如何衡量? 熵?北大提出流通度公式:第32页,共52页。词
13、语均匀度Word POS Frequency DC中 f 44418 0.99989的 u 736812 0.99988在 p 154681 0.99985为 p 31394 0.99971等 u 35223 0.99970上 f 40645 0.99968个 q 35769 0.99968了 u 141789 0.99968能 v 19574 0.99966也 d 37295 0.99964从 p 26576 0.99960大 a 27858 0.99952和 c 147835 0.99951并 c 18585 0.99950Word POS Frequency DC都 d 24309 0.
14、99949人 n 36128 0.99949对 p 54411 0.99946不 d 62676 0.99942把 p 19989 0.99942是 v 138767 0.99942到 v 30611 0.99940记者 n 28324 0.99936地 u 28010 0.99935有 v 60901 0.99935一 m 90038 0.99934结束 v 3255 0.99931通过 p 8174 0.99928那些 r 1871 0.99928第33页,共52页。汉语语料库建设规范语料库分词和标注规范第34页,共52页。语料库建设规范选材规范文本描述规范加工规范体系构造规范第35页,共
15、52页。主要内容已有的相关内容语料库的加工规范的总原则结构化词表构造原则切分标注原则第36页,共52页。已有的相关研究成果 1信息处理用现代汉语分词规范 中国国家标准GB13715,1992年2信息处理用现代汉语词类标记集规范 教育部语言文字应用研究所 2002年第37页,共52页。已有的相关研究成果3现代汉语语料库文本分词规范 北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系 1998年4北大语料库加工规范: 切分、词性标注、注音 北京大学计算语言学研究所 2003年5資讯处理用中文分词标准 台湾计算语言学学会 ,1996年第38页,共52页。语料库加工规范的总原则 不矛盾性原
16、则:指切分标注时不能出现两可的情况,即可以同时适用两条或两条以上的规则的情况。完备性原则:指规范能够覆盖文本的全部,即不能出现没有适用的规则的情况。 第39页,共52页。词表原则切分标注一般都遵循一个原则词表原则把词表中已经收录的词语都作为一个分词单位,不再切分,所以几乎每一个规范的背后都有一个相应的词表。此外切分标注要做的事情主要就是未登录词的处理。未登录词包括词的重叠形式(如“点点头、高高兴兴”)、附加形式构成的词(用前后缀构成的词,如“阿明、花儿、人民性、大众化”)、离合形式的词(词的离合形式,如“睡了一觉、理了个发”)、合成数词(如“三千四百五十六”)、新词。新词主要是人名、地名等专有
17、名词和未收入词表中的一些低频词。 第40页,共52页。词表的构造原则(已有成果)孙宏林在谈谈汉语分词的标准(语言文字应用, 1997.4)中提出确定词表的优先顺序:单用标准扩展标准语义标准音节标准频度标准。孙茂松、张磊在人机并存,“质”“量”合一(语言文字应用, 1997.1)中,强调人的理性判断与机器的在“量”上的经验约定。孙宏林在现代汉语语料库分词中的若干问题(陈力为、袁琦:计算语言学进展与应用,1995)中,提出了指导分词的三个原则:词是一个句法语义范畴;词的划分是相对的;应该区分语料中的不同层次。第41页,共52页。词表与收词原则词表分为通用词表、专名词表和领域词表。通用词表又分为原子
18、词表、扩展词表 收词原则 高频原则 叠置原则第42页,共52页。叠置原则叠置原理是指复合成分的意义等于成分意义的组合。“复合”是指句法上的规则,“组合”是语义上的规则,这两者必须保持一一同构对应。凡是符合这个原则的就是复合结构“短语”,否则就是转指义、特指义,只能作为“词”。第43页,共52页。收词原则高频原则指收入词表的词必须首先是个高频词或高通用度的词。叠置原则指符合叠置原理的不收入到原子词表中,不符合叠置原理的才收入到原子词表中。如原子词表收录“白菜、小鞋”而不收录“白纸、大鞋”。第44页,共52页。关于词的定义及认定词是最小的能够独立运用的语言单位。“最小的”是以符不符合叠置原理作为标
19、准即凡是符合叠置原理的语言单位就是可分的,就不是最小的。第45页,共52页。词表的确定在确定通用词表时首先依据高频原则,确定要收录的词然后再依据叠置原则来确定这个词是收入原子词表还是扩展词表符合叠置原理的高频词收入扩展词表不符合叠置原理的高频词收入原子词表对于收入原子词表的高频词,在词表中要标注其词性对于收入扩展词表的高频词,依据系统对分词单位的定义,在词表中标注其处理方式 第46页,共52页。切分标注原则对登录词根据词表来进行切分标注具体是: 凡属于基本词表中的词,按词表给定的词性进行标注 凡属于扩展词表中的词,按词表提供的处理方式切分标注。对未登录词:见相应的规范 第47页,共52页。结构化标注方法结构化标注方法:对扩展词采取先
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑企业施工安全管理细则
- 钢结构喷涂设备维护方案
- 风力发电基础灌浆施工方案
- 防火建筑设备孔洞防火施工方案
- 风电土方开挖环保管理方案
- 美国次贷危机视域下商业银行信用风险管理的审视与重构
- 防火建筑风管穿墙防火施工方案
- 美国国内市场需求收缩对跨国公司海外投资战略的重塑与影响
- 美国337条款法律剖析:历史、实践与应对策略
- 罗格列酮在人鼻咽癌CNE-2细胞治疗中的双重功效探究
- 强制注销公司登记制度实施办法深度解读
- 影响酶促反应的因素实验
- GB/T 4772.1-2025旋转电机尺寸和输出功率等级第1部分:机座号56~400和凸缘号55~1 080
- 2025年福建二级造价师《土建工程》真题及答案解析
- HJ 610-2016环境影响评价技术导则 地下水环境
- 金属防火涂层性能研究分析报告
- 供水公司安全知识培训课件
- 2025年河北省沧州市小升初数学试卷
- DB32∕T 4298-2022 城市道路内汽车停车泊位设置标准(修订)
- 房屋市政工程生产安全重大事故隐患检查手册
- 移动通信原理与系统-课后习题答案
评论
0/150
提交评论