(论文)大规模平衡语料的收集分析及文本分类方法研究——中科院自动化所_硕士论文-导师宗成庆

上传人：Q*** IP属地：浙江上传时间：2019-07-10 格式：DOC 页数：91 大小：1.29MB 积分：15 举报 版权申诉

(论文)大规模平衡语料的收集分析及文本分类方法研究——中科院自动化所_硕士论文-导师宗成庆_第2页

(论文)大规模平衡语料的收集分析及文本分类方法研究——中科院自动化所_硕士论文-导师宗成庆_第3页

(论文)大规模平衡语料的收集分析及文本分类方法研究——中科院自动化所_硕士论文-导师宗成庆_第4页

(论文)大规模平衡语料的收集分析及文本分类方法研究——中科院自动化所_硕士论文-导师宗成庆_第5页

已阅读5页，还剩86页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

分类号分类号密级密级 UDCUDC 编号编号中国科学院研究生院中国科学院研究生院硕士学位论文硕士学位论文大规模平衡语料的收集分析及文本分类方法研究大规模平衡语料的收集分析及文本分类方法研究陈克利陈克利指导教师指导教师宗成庆宗成庆研究员研究员博士博士中科院自动化所中科院自动化所申请学位级别申请学位级别工程硕士工程硕士学科专业名称学科专业名称模式识别与智能系统模式识别与智能系统论文提交日期论文提交日期 20042004 年年 6 6 月月论文答辩日期论文答辩日期 20042004 年年 6 6 月月培养单位培养单位中国科学院自动化研究所中国科学院自动化研究所学位授予单位学位授予单位中国科学院研究生院中国科学院研究生院答辩委员会主席答辩委员会主席 Dissertation Submitted to Institute of Automation, Chinese Academy of Sciences in partial fulfillment of the requirements for the degree of Master of Engineering by Keli Chen (Pattern Recognition and Intelligence System) Dissertation Supervisor: Professor Chengqing Zong Collection and Analysis of Large-Scale Balance-Corpus and Approach to Text Categorization I 摘摘要要语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以语言事实作为依据，语言现象的复杂性决定了要全面的了解其特点必须有大规模语料库的支持，否则只能是无源之水，无本之木。尤其是随着统计模型在自然语言处理领域的应用，大规模语料库的作用更加突出，无论对于语言现象本身的研究，还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发，都具有非常重要的意义。同样，词典开发不仅是自然语言处理研究的基础性工作，也是字典编纂、语言教学等工作的重要环节。因此，本论文从事的大规模平衡语料的收集和分析工作，以及在该工作基础上开展的文本分类技术研究，具有重要的理论意义和实用价值。本文首先在欧共体项目（LC-STAR）的资助下，开展了大规模汉语平衡语料的收集与分析工作，其主要目的是建立一个反映现代汉语语言特点的、适用于汉语语言分析、语音识别和语音合成的汉语标注语料库，并以此为基础建立相应的信息词典。该工作主要包括：（1）在对大规模汉语平衡语料的收集方法进行调研和分析的基础上，收集并标注了规模达 3087 万字的汉语平衡语料；（2）以收集的语料为基础，建立了一个大规模（10 多万词）的现代汉语信息词典，词条标注信息包括词性、注音、词频和专用词的领域信息等。以上述工作为基础，我们对文本分类方法进行了深入的研究，主要创新包括：第一，在特征权重计算方面，通过对常见特征权重算法的分析和比较，提出了在 TF*IDF 算法中用 TF 的 n 次方代替 TF，并引入 DBV 变量的处理方法，使得该算法的 F1-Measure 测度分别提高了 45%。第二，类似于上面的处理方法，在 TF*IWF 算法中用 TF 的 n 次方代替 TF，并引入 DBV 变量，使得该算法的 F1-Measure 测度分别提高了 12.28。第三，在特征向量抽取方面，在 Rocchio 分类器上对常见的特征向量抽取方法进行了全面对比，然后提出了将 TF*IDF 算法用于特征抽取的处理方法，并通过实验证明，该方法在不同数目关键词下的分类效果均优于其它常见的特征向量抽取算法。关键词：平衡语料，语料库，文本分类，特征抽取 II AbstractAbstract Corpus and lexicon are important linguistic resource for Natural Language Processing. Linguistic research should be based on linguistic facts, and large-scale corpus is necessary for probing into linguistic research because of its complexity. Especially, along with wide application of statistical model in Natural Language Processing, large-scale corpus is playing a more important role. Large-scale copus is important to not only research of linguistic phenomena，but also system for Information Retrieval, Machine Translation, Text Classification, or Automatic POS-Tagging and so on. In addition, Chinese dictionary is the base of Natural Language Processing, as well as a necessary part of creation of Chinese characters dictionary and linguistic teaching. Therefore, the collection and analysis of large-scale balance-corpus in our work, on which text classification is based, has theoretic significance and utilitarian value. Our work supported by European Unions project of LC-STAR, which includes collection and analysis of a large-scale balance-corpus, aims to build a Chinese tagged corpus and an information lexicon for Speech Recognition and Speech Systhesis. The main work can be conluded as: (1) After investigating and analyzing the strategies for large-scale Chinese balance-corpus, we have collected and tagged a Chinese corpus consisting of 30.87M Chinese characters; (2) Based on the collected corpus, we have created a Chinese information lexicon consisting of 103192 words (including POS-tag, phonesization, wordss frequency and domain information for application words). We have done some research work on Text Classification based on all the above. Our inovation in Text Classification can be concluded as follows: 3About feature weighting, we have analyzed the advantages and disadvantages of common feature weighting algorithms, and introduced two improvements into TF*IDF which is among common feature weighting alogrithms. The two improvements are replacing TF with its nth root and introducing DBV into the expression. F1-M of classifier has been improved by 45%, so the effectiveness has been proved. 4Similarly, we have introduced the two improvements into TF*IWF feature weighting algorithm, resulting in 12.28% improvement of F1-M. III 5About feature extraction, we have compared several common feature extraction algorithms, and presented to introduce TF*IDF algorithm for feature extraction. Our comsequent expriments have proved this algorithm more effective than other ones. Keywords:Keywords: Balance Corpus, Corpora, Text Categorization, Feature Extraction IV 目目录录摘要I Abstract.III 第一章绪言.1 第二章大规模平衡语料的收集分析.3 2.1研究背景.3 2.2国内外语料库概况冯志伟，2000.3 2.2.1国内语料库概况.3 2.2.2国内语料库概况.4 2.3大规模平衡语料的收集分析.5 2.3.1通用语料的收集和通用词汇的抽取.5 2.3.2专有名词的收集.11 2.3.3专用词汇的收集.14 2.3.4注音.16 2.3.5词典形式.16 2.3.6大规模平衡语料的分析陈克利，2003.18 第三章基于大规模真实语料的文本分类方法.22 3.1已有的文本分类方法简介.22 3.1.1纯贝叶斯方法.23 3.1.2Rocchio 算法.24 3.1.3k 近邻算法25 3.1.4支持向量机算法（SVM）.25 3.1.5决策树算法.27 3.1.6其他分类算法.27 3.2特征向量的权重算法.28 3.2.1常用的特征权重算法常用的特征权重算法.29 .2特征权重算法的改进特征权重算法的改进.32 3.3特征向量的抽取.35 3.4评价函数.38 3.4.1微平均和宏平均微平均和宏平均.38 .2F-MeasureF-Measure.39 .3Break-evenBreak-even pointpoint Aas,Aas, 1999.199939 .411-point11-point averageaverage precisionprecision Taghva,Taghva, 20042004.39 3.5阀值函数.41 3.6实验.41 3.6.1实验：实验：TF*IWFTF*IWF 算法和改进后的算法和改进后的 TF*IWF*DBVTF*IWF*DBV 算法的比较算法的比较41 .2实验实验: : DBVDBV 和和 DBVDBV2 2的比较的比较.46 .3实验实验: : TF*IDFTF*IDF 算法和算法和 TF*IDF*DBVTF*IDF*DBV 算法的对比算法的对比47 .4实验实验: : 不同特征选取方法的对比不同特征选取方法的对比.51 第四章结束语.54 V 参考文献.56 绪言 1 第一章第一章绪绪言言语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以语言事实作为依据，语言现象的复杂性决定了要全面的了解其特点必须有大规模语料库的支持，否则只能是无源之水、无本之木。尤其是随着统计模型在自然语言处理领域的应用，大规模语料库的作用更加突出，无论对于语言现象本身的研究，还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发，都具有非常重要的意义。同样，词典开发不仅是自然语言处理研究的基础性工作，也是字典编纂、语言教学等工作的重要环节。因此，本论文从事的大规模平衡语料的收集和分析工作，具有重要的理论意义和实用价值。自动文本分类技术是在给定分类体系下，根据文本内容确定其所属类别 Kjersti et al., 1999。随着网络和信息时代的到来，人们获取信息的手段越来越丰富，可供选择的信息量也成指数级膨胀。数据量的增长一方面为人们进行各种活动提供了充分的信息资源，另一方面也增加了人们选择有用信息的难度，如何才能从浩如烟云的结果中找到自己需要的信息成为摆在人们面前一个新课题，最好的方式是让计算机以一种自动的方式代替人去搜索，而一个好的搜索系统，首先必须能对千差万别、来源各异的文本合理的分类和索引，这就是文本分类技术一个最重要的应用信息检索。自动文本分类技术是自然语言处理领域的一个重要课题。除了上面提到的信息检索以外，文本分类还应用在其他许多方面，如：信息过滤、文档索引、数字图书馆的分类和管理、词义消歧、主题识别、语料库建设、元数据生成等。本文主要包括三部分内容。第二章是大规模平衡语料的收集分析，主要介绍 LC-STAR 词典和语料建设项目，并以此为基础，比较和分析了不同领域的用词特点。这一部分又可以分成两大部分，第一部分主要是介绍与 LC-STAR 项目相关的语料收集和词典建设工作，包括通用语料的收集和各种词表（包括通用词表、专有名词、专用词表、总词表等）的抽取、词性标注、注音等一系列工作。第二部分依据生成的词表对不同词类在各领域的分布情况从两方面（词汇量和各种词类所占比例）进行了比较分析。 2 第三章是基于大规模真实语料的文本分类研究。根据第二章的分析我们知道不同领域各种词类的分布差别比较大，所以我们选取词作为文本分类的特征进行分类的研究。在这一部分，我们主要做了三方面的工作，第一部分介绍了现有的一些特征权重算法，比较了其优劣，并提出了我们的改进算法；第二部分介绍了现有的一些特征抽取算法，并在对这些算法分析后，提出了我们的特征抽取算法；第三部分设计了五个实验，对上述提到的算法进行了对比，从实验上证明了改进算法的有效性。最后一章对全文进行了总结。大规模平衡语料的收集分析 3 第二章第二章大规模平衡语料的收集分析大规模平衡语料的收集分析鉴于大规模平衡语料和大规模汉语词典的重要性，中科院自动化所参加了由 Sabanci 大学、IBM、UPC、RWT、NSC、NOK、SIE、AudiTech、Maribor 大学参加的涉及到 12 国语言的语料和词典建设项目（LC-STAR），该项目全称是面向口语-口语翻译技术的语料和词典建设。主要目的是建立一个符合现代汉语语言行为的，适用于语音识别和语音合成的汉语标注语料和信息词典。 2.12.1 研究背景研究背景本项研究的基础是中科院自动化所与诺基亚（中国）研究中心合作的欧盟项目(LC-STAR)(中文部分). 本论文的研究工作得到如下项目资助： 1国家自然科学基金项目“语音、图像与视觉计算” （项目编号： 60121302） 2欧共体国际合作项目（LC-STAR 项目） “面向口语翻译的词汇处理” LC-STAR(Lexica and Corpora for Speech-to-Speech Translation Technologies)(面向口语-口语翻译技术的词典和语料库建设) 是由欧盟发起的，面向 12 国语言的资源建设项目.其目的是为加泰罗尼亚语、芬兰语、德语、希腊语、希伯来语、意大利语、汉语、俄语、西班牙语、标准阿拉伯语、土耳其语和美式英语等 12 国语言，建立适用于语音识别、语音合成以及口语口语翻译的大规模标注语料库和信息词典(主要是词性和注音信息)。 2.22.2 国内外语料库概况国内外语料库概况冯志伟，冯志伟，20002000 最初的语料库的建设比较困难，需要大量的手工工作，随着计算机在语言学研究领域的广泛应用，这种状况才得以改变，尤其是近年来,国内外涌现出了很多标注详细、加工深入、适合用于语言学研究的大规模语料库。 2.2.1 国内语料库概况美国 Brown 大学建立的 BROWN 语料库，英国 Lancaster 大学与挪威 Oslo 大学与 Bergen 大学联合建立了 LOB 语料库。欧美学者利用这两个语料库开展 4 了大规模的研究，并对这两个语料库系统的部分语料进行了自动标注。此外比较著名的还有，London-Lund 口语语料库、AHI 语料库、OTA 牛津文本档案库、BNC 英语国家语料库、LDC 语言数据联合会、RWC 日语语料库、亚洲各语种对译作文语料库。 2.2.2 国内语料库概况国内早期的语料库建设规模比较小，不是机器可读的，比较大规模现代机器可读语料库的建设是从 1979 年开始的，早期的机器可读语料库有：汉语现代文学作品语料库（武汉大学，1979 年，527 万字）、现代汉语语料库（北京航空航天大学，1983 年，2000 万字）、中学语文教材语料库（北京师范大学， 1983 年，106 万字）、现代汉语词频统计语料库（北京语言学院，1983 年，182 万字）。其中北京语言学院的现代汉语词频统计语料库进行了语料切分和词频统计，共统计出 31159 各不同单词，统计结果编成现代汉语频率词典 1991 年，国家语言文字工作委员会开始建立国家级的大型汉语语料库，以推进汉语的语法、句法、语义和语用的研究，同时也为中文信息处理的研究提供语言资源，计划其规模将达 7000 万汉字。这个语料库在时间上、文化上、使用领域上都有限制。 1992 年以来，许多进行中文信息处理研究的机构都建立了自己的大规模真实文本语料库如：人民日报光盘数据库、北京大学计算语言学计算所、北京语言文化大学、清华大学、山西大学、上海师范大学、北京邮电大学、香港城市理工大学、东北大学、哈尔滨工业大学、中科院软件研究所、中科院自动化所、北京外国语大学日本学研究中心、台湾中央研究院语言研究所。下面重点介绍其中的几个语料库。北京大学计算语言学研究所与富士通公司合作建立了现代汉语标注语料库，加工了 2700 万字的人民日报语料库，加工项目包括词语切分、词性标注、专有名词标注。还有多音字注音。北大语料库的特点是：规模大：2700 万字的熟语料加工深：不仅做了切分和词性标注，而且部分语料还进行了短语结构分析，建立了树库，并对人名、地名和专有名词进行了短语结构标注。大规模平衡语料的收集分析 5 覆盖面广：涉及社会科学和自然科学多个领域正确率高：在自动加工的基础上进行了大量的人工加工，采用人机结合的策略，正确率达到了相当高的水平。北京语言文化大学建立了一系列中文语料库，（共约 5 亿字）共 10 个语料库，主要是从当代中国丛书、中华人民共和国年鉴、新闻出版报、人民日报、经济日报等书籍报刊中抽取的语料。清华大学也建立了现代汉语语料库：1998 年已达 1 亿汉字，现在生语料已达 7-8 亿字。他们还进行了分词技术的深入研究，编制了信息处理用现代汉语分词词表，作为分词重要的语言资源。对该语料进行了切分和标注，部分语料进行了语块库的人工标注。台湾中央研究院建立了平衡语料库和树图语料库，两个都是标记语料库，有一定的加工深度。语料库规模为 500 万字。中科院自动化所建立的面向旅游信息领域的口语对话语料库。社科院语言所建立的现代自然口语语料库冯志伟，2000。除上述语料库以外，国内外还有很多大学和研究机构建立了自己的语料库，这里就不再一一陈述。 2.32.3大规模平衡语料的收集分析大规模平衡语料的收集分析 LCSTAR 项目主要包括两部分任务：语料的收集和词表的抽取。我们收集了 3087 万字的通用语料，并进行了词性标注和注音，最后从这些语料中抽取了约 40000 个通用词汇。最终的词表包括三部分，除了上面提到的通用词汇外，还抽取了 50000 多个专有名词和 7000 多个专用词汇。词表中包括了词性、注音信息和专用词汇的领域信息，所有这些信息最终都包括在一部 xml 词典中。语料和词表的编码格式采用的是 GB2312 字符编码格式 2.3.1 通用语料的收集和通用词汇的抽取通用领域的确定为了确定通用领域的范围，我们对国内外一些著名的语料库进行了分析，这其中包括 the Surrey of English Usage（SEU） Corpus，the Brown 6 Corpus, the Longman/Lancaster English Language Corpus（LLELC），the British National Corpus (BNC)，以及清华大学的人工标注语料库 HanYu 等等。此外，对一些网站的材料也进行了统计和研究如：人民网 () 3 月 20 日至 3 月 26 日这一周之内的材料和内容的统计结果Hu, 2002：分类字数比例时政537,12112.1% 国际447,08310.1% 经济747,98716.8% 科教297,5084.4% IT255,3785.8% 军事246,7345.6% 文娱300,6596.8% 生活409,7709.2% 体育125,2722.8% 观点441,1119.9% 社会462,92510.4% 环保268,1556.1% 总计4,439,703100% 表 21 人民网语料统计结果联合早报网(.sg)的统计结果（3 月 20 日至 3 月 26 日）：分类字数比例国际/中港台/东南亚84,54015.4% IT26,4374.8% 本地157,66728.5% 言论81,90314.9% 体育32,2555.9% 娱乐16,0103.0% 大规模平衡语料的收集分析 7 财经123,99722.5% 金融信息27,8395.0% 总计550,648100% 表 22 联合早报网语料统计结果结合以上统计结果和 12 国合作伙伴的建议，下面这些领域被选择作为通用领域。领域子领域举例 C1. 体育/游戏C1.1.体育（特别事件）足球，羽毛球，田径，跳水，高尔夫球等 C2. 新闻C2.1. 国内国际大事重大国内国际事件 C2.2. 社论、社评专门报道、专门评论 C3. 财经C3.1. 商业，国际国内市场信息股票，贸易，汇率，货币信息，关于一些公司的信息等。 C4. 文化/娱乐C4.1. 音乐、剧院、展览、文化博览等关于音乐、演出、电影、戏剧、艺术、电视等的文章和评论。 C4.2. 旅游信息地区、景点介绍。 C5.消费信息C5.1. 健康关于健康的科普性文章 C5.2. 大众信息有关下岗职工的文章 C5.3. 消费知识手机手册、vcd 新技术简介 C6. 个人交流C6.1. 邮件、在线论坛、社评、电子科幻小说电子邮件、讨论区、短信等表 23 通用领域的划分通用语料的收集语料限制 8 因为语料结构和出现时间对最终抽取的词表有较大的影响，12 国合作伙伴最终讨论决定对对语料做如下限制：（1）语料结构：为了确保每个领域的语料都足够充分，至少 1M 词的领域语料是必需的。另外由于个人交流领域的语料收集起来比较麻烦，所以该领域的词的最小数量限制在 0.5M。通用词汇、专有名词和专用词汇之间尽量避免重复以获取较多数量的总词汇。如果重复出现，要增加词汇以保证最终得到不少于 10M 词条；（2）语料时间：为了提高词表的实用性，词表应充分体现近几年词汇使用的特点。所有语料都必须是 1990 年以后，而且至少有 50的语料在 1997 年以后Moreno, A. 2004。语料来源：最快捷，最方便的语料来源无疑是电子数据形式的语料：在线杂志、网站新闻、网上论坛、网上图书馆等。需要注意，无论什么来源的数据应当尽量避免“专业化词汇” 。具体来说，我们从以下几个网站得到了我们的通用语料：领域出版年媒体来源 C1. 体育/游戏2002 C2. 新闻2002 C3. 财经2002 C4. 文化/娱乐2002 C5. 消费信息2001,2002,2 003 , , , C6.个人交流2002,2003com 表 24 通用语料的来源网站语料规模领域语料规模（原始） C1. 体育/游戏20.1M C2. 新闻14.2M C3. 财经11.9M C4. 文化/娱乐9.89M 大规模平衡语料的收集分析 9 C5. 消费信息11.8M C6. 个人交流7.37M 总计75.26M 表 25 通用语料在各领域的分布通用词汇的抽取通用词汇是从收集的通用语料中抽取出来的，通用词汇是指除去了专有名词、各种标点符号、数字以后的词汇，通用词汇的抽取步骤： 1)网页下载与处理： a从以上网站下载网页 b半自动的移除网页中的“垃圾文字” （每个网页中都有一些“本报记者” ， “相关评论”等一些非内容文本）。 c确认领域语料是否充分。 2)自动分词与抽取词汇 a分词和词性标注。 b抽取词汇，同时统计出这些词汇在各领域和总的频率。 c从词汇表中移除数字、标点符号、和专有名词。 3)规则抽词计算词表（无词性）标记下的总数量（约 35000）小于 50000，采用规则辅助分词、人工校对的方法抽取了约 3000 个词： a观察语料，抽取规则 b检验每一条规则：用该规则从一段文本中抽取部分词汇，检验其正确率。剔除一些准确率较低的规则。最后得到共 39 条规则。 c用这 39 条规则从原始文本中抽取词汇，然后手工校正这部分词汇，最后得到 3534 个新增词汇。 d从原始语料中统计出这些词汇在各领域和总的频率。通用词汇的数量：最终收集的通用词汇的数量如下表所示 10 领域不同词条数目 C1. 体育/游戏27283 C2. 新闻30193 C3. 财经24316 C4. 文化/娱乐28482 C5. 消费信息27179 C6. 个人交流30157 总计38142 表 26 通用词汇的数量通用词汇的形式：词总体育/游戏新闻财经文化/娱乐消费信息个人交流的 1124287261676 211699 156988 150346 192932 150646 是 283576 705933912035205430524192653680 在 275370 838235949332817329953725328989 通用词汇的标注通用词汇主要包括两种标注信息：词性标注和拼音标注。标注步骤及说明如下。通用词汇的词性标注分词软件分词的同时也进行了词性的标注，所以抽取通用词表的时候，实际上可以抽取出两个词表，带词性的词表和不带词性的词表。但是由于我们的分词软件采用的是 973 的标注体系，不同于 LC-STAR 的标注规范，所以要将词性进行转换，值得庆幸的是，观察两者的词性定义后可以发现 973 的标注体系和 LC-Star 的体系有一个非常好的对应关系，所以只要我们建立一个词性转换大规模平衡语料的收集分析 11 对应表，就可以将词性标注转换称 LC-STAR 的标注体系。LC-STAR 的词性标记说明见附录 1。通用词汇的注音 a给词表标注汉语拼音 b手工校正多音字 c根据词性，校正词的注音 d建立拼音到 SAMPA-C 注音规范的转换表（注意：转音情况），将拼音转化为 SAMPA-C 的注音 e根据 SAMPA-C 注音后的词表反生成拼音注音并排序的词表，因为上述注音过程中手工校正了一些错误，所以为了保证词表的一致性，需要反生成拼音注音并排序的词表。封闭词汇集各种语言都有一些功能词如：代词、介词、连词等，它们构成了语言相对封闭的一个词汇集，所以叫做封闭词汇集。这些词经常出现在各个领域的语料中，但不是所有的功能词都能在语料中发现。所以有必要手工加入功能词。根据 LC-STAR 项目文件和汉语的特点，我们确定下面这些词类为汉语的功能词（括号中为对应的功能词的数量）：人称代词（26），物主代词（37），指示代词（49），前置词（介词）和后置词 3（186），连词（326），问答词（31），情态动词（21），量词（547）。郭先珍，2002，黄檗容，1997,刘丹青,2003, 吕叔湘，1996，张斌，2001. 2.3.2 专有名词的收集对于语音识别和语音合成系统来说,一个非常重要的问题就是如何处理各种语音系统中常见的专有名词。通常很难决定他们的发音，特别是对于一些外来的专有名词。而另一方面确定他们的准确发音,对于语音识别和语音合成系统来说又是必需的。因此,我们从各个领域收集了 57528 个专有名词，并对它们进行了注音和词性标注工作。 3 根据刘丹青的语言类型学和介词理论，汉语中的后置词是指某些方位词如：内、里、外等。 12 专有领域的确定专有领域的确定根据 12 国的讨论决定，最终确定主要从以下几个领域及对应的子领域来收集专有名词，见表 27。领域子领域举例 P1. 人名（姓和名）陈，刘，克利等 P2. 地点名词P2.1. 国内城市济南，合肥，攀枝花等 P2.2. 各国地理名词尼罗河，富士山，长江等 P2.3. 各国首都柏林，罗马，华盛顿等 P2.4. 国际著名城市纽约，上海，芝加哥等 P2.5. 国内著名的文化历史景点 4 山海关，长城，井冈山等 P2.6. 国内著名街道 5 长安街，南京路，王府井等 P2.7. 国家美国，日本，德国，南非等 P3. 组织机构名P3.1. 盈利和非盈利组织 P3.2. 国际国内公司诺基亚公司，可口可乐公司，一汽，世界卫生组织等 P3.3. 品牌名称可口可乐，雪铁龙，真维斯等 4 在总的国内地点比较少的情况下，应当在这一部分多增加一点国内的景点。 5 街道名称应当依照本国语言的特点来描述。大规模平衡语料的收集分析 13 表 27 专有名词的领域及子领域专有名词的收集专有名词的收集根据 12 个合作伙伴讨论决定，专有名词领域至少应当包括 45000 个词条，三个大领域每个领域的词条数目所占总词条数目的百分比均应限制在 10 - 50之间，当然三个领域词条数目之和应当等于总的专有名词数。词形相同的专有名词和通用词汇认为是两个不同的词条。专有名词的来源主要有以下几个方面：超星数字图书馆、网上黄页、世界地图集。专有名词收集时都选择该词最常用的形式，如“IBM”就保持这种形式，不会用其全称“International Business Machines” 。因为专有名词的收集面向的语音识别和语音合成，所以收集时尽量采用其口语性较强的形式，比如尽量采用用户手册上的公司名称，而不是证券市场上登记的公司名称。同样道理在线资源也比较适合用来收集。专有名词的标注专有名词的标注专有名词的词性标注专有名词收集的时候是分类收集的，所以其词性本身已经确定，不需要专门使用标注软件进行词性标注。专有名词的词性说明：PER（人名）；GEO（各国地理名词）；COU（国家）； CIT：（城市：国内城市、国际著名城市、各国首都）；STR（国内著名街道）； COM（公司组织：盈利和非盈利组织、国际国内公司）；BRA（品牌名称）； TOU（国内著名的文化历史景点）。专有名词的注音 A. 给词表标注汉语拼音 B. 手工校正多音字 C. 根据词性校正词的注音 D. 将拼音转化为 SAMPA-C 的注音：这是因为 SAMPA-C 的注音体系是为了便于国际交流，专门为汉语注音设定的一套注音符号。它与汉语拼音有一个完整的对应，根据对应表我们可以将拼音转化 SAMPA-C 的注音体系。其间需要增加对数字和括号的注音，同时还发现了词表的一些错误，需要手工校正。 14 E. 根据 SAMPA-C 注音后的词表反生成拼音注音并排序的词表 F. 设计了英语音标到 SAMPA-C 符号的对应表对专有名词中的外来词汇进行注音。（手工完成）专有名词的数量和形式专有名词的数量和形式最终得到的专有名词的数量如下：领域领域词数词数% % P1. 人名（姓和名） 2215638.4 P2.地点名词1993034.5 P3. 组织和机构名1561827.1 总计57704100 表 28 专有名词各领域词数及所占比例专有词表的形式：阿迪达斯BRA 阿库拉 BRA 阿勒锦 BRA 2.3.3 专用词汇的收集为了满足与“语音驱动”密切相关的几个应用领域的要求，我们收集了约 5000 个专用词，他们都与其所属的领域密切相关。有些词在书面语料中不常出现，但是对于真实的语音应用来说却是必需的。建立专用词表的目的就在于保证在最终的词典包含有这些词。词表主要包括两部分：数词和其他领域密切相关的专用词汇。数词由我们给出；其他词汇首先由合作伙伴从限定的应用领域中抽取，并以英语的形式给出词和词性，对于动词还会用英语给出例句和场景说明。我们的工作就是将这些词汇翻译成汉语词汇，并给出动词的例句。专用领域的确定专用领域的确定大规模平衡语料的收集分析 15 经过 LC-STAR 项目 12 国合作伙伴讨论最终将专用领域确定为 7 大领域、 47 子领域，共 5000 多个词条，具体见附录 2。专用词汇的来源专用词汇的来源数据源/媒体没有特别的指定，总的来说有下面几种：词典、技术文档、出版社提供的基本词汇，除此之外电子资源当然还是最方便的方式。数字应当是从词典或者其他资源中获取的，所有不能用组合规则得到的数字都应当包括在词表中。所有用于日期和星期的序数词都必须被提供。专用词汇的数量和形式专用词汇的数量和形式最终我们收集的专用词汇为 7521 个，包括每个词的领域信息、词性、例句（针对动词）、注释等，具体形式见表 29。 ID (领域名称)Nr . 英文术语词性翻译例子注释 meterNOM米 mileNOM英里 kilomete r NOM千米 a kilomete r NOM公里 poundNOM英镑 1.1.22to_readVER阅读阅读这条短信息 6.2.11text_onl y NP纯文本表 29 专用词表的形式说明：ID 领域代号，Nr 该条目在其所属领域的序号，英文术语术语的英语形式，词性词性，翻译术语的汉语翻译，举例对于动词术语需要列举 12 个例句，注释其他需要说明的专用词汇的形式说明：每一个词条都应当对应唯一的 ID 值，翻译的基础是每一行的“英文术语”栏。每个英文术语尽量翻译成一个汉语词汇，翻译结果存放在表中“翻译”栏。如果有英文术语对应的汉语词汇不止一个，为每个汉语词汇单列一行。采用领域内序号（Nr）后面按顺序添加字母的方式来区别不 16 同的翻译结果。例如 kilomete r NOM千米 akilomete r NOM公里如果某个词在目标语言中不存在，就用一个近似词或短语代替，如果这样的词也不能找到，那就在注释栏标记“NE” 。每个领域至少要有 500 个词条。需要为每个动词术语列举 12 个例句。专用词汇的标注专用词汇的标注专用词汇的标注同专有词汇的标注过程。 2.3.4 注音我们首先为每个词条标注了拼音，然后根据拼音到 SAMPA-C 符号的转换关系，将拼音转换成 SAMPA-C 注音符号。SAMPA-C 注音符号是专门针对普通话的发音特点设定的一套语音标注系统，其发音符号及对应的说明见附录 3。汉语中，每个音节单个出现的时候都有一个缺省音调。但是，在连续口语中，由于连续变调的影响，一个汉字的实际音调可能会不同于其缺省音调。连续变调指的是决定音调根据前后音节而变化的一组规则。最重要的规则是当两个上声相连时，前一个上声将变成阳平。例如： “五百”的实际发音应当是“wu2 bai3” 。这里“wu3”是缺省发音，因为后面跟的拼音也是上声，所以“wu”的发音变调为阳平。注音时可以注为：“wu32” ，这样缺省音调和实际音调都可表示出来。附录 4 列举出了常见的连续变调规则。根据 LC-STAR 成员讨论后，对注音做以下约定。音调标记采用以下形式：_0、_1、_2、_3、_4 分别代表轻音、阴平、阳平、上声、去声。连字号(-)也被用作音节标记。多音字首先标注出所有的读音，然后根据词性手工校正注音。（因为对应于不同的词性，词的注音是不同的）。外来词的注音。为了统一标注符号，我们建立了从英语音素到 SAMPA- 大规模平衡语料的收集分析 17 C 的对应表，从而外来词的标注也可以采用 SAMPA-C 标注体系，英语因素到 SAMPCC 音素的映射见附录 5。 2.3.5 词典形式最终我们将几部分词：通用词表（包括封闭词汇）、专有名词、专用名词，合并成一个总词数超过 10M 的总词表，并以国际上通用的数据交换格式 XML 文档的形式给出，当然词性、注音、和领域信息也是包含在这个词表中的。 XMLXML 格式说明格式说明因为 XML 标记语言具有清晰，明确，易读性强等特点，所以项目约定采用它来描述语言信息。采用 XML 标记语言也便于合作者之间的信息交流。使用的 XML 解析器应当能够处理任何 1.0 版本的 XML 文档和 UTF-16 编码。词典由很多“条目组”元素构成。 “条目组”指词表的一个类条目。每个条目组必须包含以下元素：正词法 0个或者更多的其他拼写形式一个或者更多的“条目”（复合词或者缩写词）子元素 “条目”指“类条目”的一个特定的语法/词形信息。每个条目必须包含以下子元素：词性以及相应的属性（汉语词汇没有属性）。在一个条目组中使用多个条目来表示多标记或者多属性。词形。指于对应于条目的一个词形的字符串，使用多条目来表示多词形的情况。注音。包括注音和音节标记。如果有多个发音，要表示在同一个条目组下的不同条目中。应用词。每个应用词都要指定一个“APP”标记。“APP”标记的结构如下： Subdomain_type1 No_of_entry 1 18 Subdomain_typeN No_of_entryN 复合条目包括下面这些元素：注音；两个或更多的相互联系的条目元素。每一个条目元素必须包含一个正字法和词性标注以及与词性标记相对应的属性。缩写：应用词中的缩写必须有“ABB”标注以及一个或更多的扩展标注。此外还要包括以下内容：该缩写实际的扩展形式。一个条目或者复合条目元素。属性：每个属性有一个预设值“NS”（没有指定），这个值在DTD文档中总是可选的。当指定语言中没有该属性时标注该属性为“NS”。附录 6 中是部分词条的逻辑结构及其对应的 XML 文件部分。词典划分词典划分根据项目要求，我们将词典分成两部分：专有词典和通用词典。这两部分需要进一步分成更小的容易处理的文件。而且划分必须建立在字母排序的基础上。通用词汇、专用词表中的 HLD 和 PUN 应当包括在通用词表中（从 LEXIC08LEXIC13）。专用词表中的专有名词、专有名词应当包括在专有词典中（从 LEXIC000LEXIC07）。这两部分词典中首先按照拼音排序，再把包含有外来词汇的词放在其他词的前面。 DTDDTD 文档描述文档描述文档类型定义（DTD）是为 XML 文档正式指定的语法。这种语法包括自动确认工作中规定的所有语言信息。LC-STAR 所有语言的词典使用共同的 DTD 文档，这个文档已上载到该项目的主页上。每个合作伙伴可以根据其语言的特点修改该 DTD 文档，建立复合自身语言特点的 DTD 文档。 DTD 文档（LEXICON.DTD）见附录 7。 2.3.6 大规模平衡语料的分析陈克利，2003 在 LC-STAR 项目的基础上，我们对收集的通用语料进行了用词特点的初步大规模平衡语料的收集分析 19 分析。分析的目的在于比较不同领域常用词汇量和各种词类使用频率的差异性，量化的分析各领域之间用词特点的不同。从而为基于内容的分类研究提供理论依据。语料和词表

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(论文)大规模平衡语料的收集分析及文本分类方法研究——中科院自动化所_硕士论文-导师宗成庆

文档简介

温馨提示

最新文档

评论

相关文档