




已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号 密级 编号 中国科学院研究生院 硕士学位论文 大规模平衡语料的收集分析及文本分类方法研究 指导教师 宗成庆 研究员 博士 中科院自动化所 申请学位级别 工程硕士 学科 专业名称 模式识别与智能系统 论文提交日期 20 年 6 月 论文答辩日期 20 年 6 月 培养单位 中国科学院自动化研究所 学位授予单位 中国科学院研究生院 答辩委员会主席 in of I 摘 要 语料库和 词典 是 进行 自然语言处理研究的重要资源。 语 言学的 研究 必须以语言事实作为依据,语言现象的复杂性决定了要全面的 了解其特点必须有大规模语料库的支持,否则只能是无源之水,无本之木。 尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出, 无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义。同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编纂、语言教学等工作的重要环节。因此,本论文从事的大规模平衡语料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要的理论 意义和实用价值。 本文首先在欧共体项目( 资助下,开展了大规模汉语平衡语料的收集与分析工作,其主要目的是建立一个反映现代汉语语言特点的、适用于汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立相应的信息词典。该工作主要包括:( 1)在对大规模汉语平衡语料的收集方法进行调研和分析的基础上,收集并标注了规模达 3087 万字的汉语平衡语料;( 2) 以收集的语料为基础,建立了一个大规模( 10 多万词 ) 的现代汉语信息词典,词条标注信息包括词性、注音、词频和专用词的领域信息等。 以 上述工作 为基础 ,我们对文本分类方法进行了深入的研究, 主要创新包括: 第一, 在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出了在 法中 用 n 次方代替 引入 量的处理方法 ,使得该 算法的 度分别提高了 45%。 第二, 类似于上面的处理方法,在 法中用 n 次方代替 引入 量,使得该算法的 第三, 在特征向量 抽取方面,在 类器上对常见的特征向量抽取方法进行了全面对比,然后提出了将 法用于特征 抽取的处理方法,并通过实验证明,该方法在不同数目关键词下的分类效果 均 优于其它常见的特征向量抽取算法。 键词: 平衡语料 , 语料库 , 文本分类 , 特征抽取 be on is of of is a is to of so In is as as a of of in on is s of a to a an be (1) we a (2) on we a 03192 s We on be as 3 we of F*is F BV of 5%, so we F*15 we to F*V 目 录 摘 要 . I .一章 绪 言 . 1 第二章 大规模平衡语料的收集分析 . 3 究背景 . 3 内外语料库概况 冯志伟, 2000 . 3 内语料库概况 . 3 内语料库概况 . 4 规模平衡语料的收集分析 . 5 用语料的收集和通用词汇的抽取 . 5 有名词的收集 . 11 用词汇的收集 . 14 音 . 16 典形式 . 16 规模平衡语料的分析 陈克利, 2003 . 18 第三章 基于大规模真实语料的文本分类方法 . 22 有的文 本分类方法简介 . 22 贝叶斯方法 . 23 法 . 24 k 近邻算法 . 25 持向量机算法( . 25 策树算法 . 27 他分类算法 . 27 征向量的权重算法 . 28 用的特征权重算法 . 29 征权重算法的改进 . 32 征向量的抽取 . 35 价函数 . 38 平均和宏平均 . 38 . 39 1999. . 39 12004 . 39 值函数 . 41 验 . 41 验: 法和改进后的 法的比较 . 41 验 : . 46 实验 : 法和 法的对 比 . 47 验 : 不同特征选取方法的对比 . 51 第四章 结束语 . 54 参考文献 . 56绪言 1 第一章 绪 言 语料库和 词典 是 进行 自然语言处理研究的重要资源。 语 言学的 研究 必须以语言事实作为依据,语言现象的复杂性决定了要全面的 了解其特点必须有大规模 语料库的支持,否则只能是无 源之水、 无本之木。 尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出, 无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义。同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编纂、语言教学等工作的重要环节。因此,本论文从事的大规模平衡语料的收集和分析工作,具有重要的理论意义和实用价值。 自动文本分类技术是在给定分类体系下,根据文本内容确定其所属类别et 1999。随着网络和信息时代的到 来,人们获取信息的手段越来越丰富, 可供选择的信息量也成指数级 膨胀。数据量 的增长一方面为 人们进行各种活动提供了充分的 信息资源, 另一方面 也增加了人们选择有用信息的难度,如何才能从浩如烟云的结果中找到自己需要的信息成为摆在人们面前一个新课题,最好的方式是让计算机以一种自动的方式代替人去 搜索,而一个好的搜索 系统,首先 必须能对千差万别、来源各异的文本 合理的分类和 索引 , 这就是文本分类技术一个最重要的应用 信息检索。 自动文本分类技术 是自然语言处 理领域的一个重要课题。除了上面提到的信息检索以外,文本分类还 应用在 其他 许多方 面,如:信息过滤、文档索引、数字图 书馆的分类和管理、词义消歧、主题识别、语料库建设、元数据生成等 。 本文主要包括 三 部分内容 。 第二章 是 大规模 平衡语料 的收集 分析,主要介绍 典和语料建设项目 , 并以此为基础 , 比较 和分析了不同 领域 的 用词特点 。这一部分又可以分成 两大部分,第一部分主要是 介绍与 目相关的语料收集和词典建设工作 ,包括通用语料的收集和 各种词表(包括 通用词表、专有名词、专用词表、总词表 等) 的 抽取、词性标注、注音等一系列工作。第二部分依据生成的词表对不同词类 在各领域 的分布情况从两方面 (词汇量和各种词类 所占比例 )进行了比较分析。 第三章 是基于大规模真实语料的文本分类研究 。 根据第 二章 的分析我们知大规模平衡 语料的收集分析和文本分类方法的研究 2 道不同领域各种词 类的分布差别比较大,所以我们 选取词作为文本分类的特征进行分类的研究。 在 这一部分 , 我们 主要做了三 方面的工作,第一 部分介绍了现有的一些特征权重算法,比较了其优劣,并提出了我们 的改进算法;第二部分介绍了现有的一些特征抽取算法,并在 对这些算法 分析 后 ,提出了我们 的特征抽取算法 ;第三部分设计了五 个实验,对上述提到的算法进行了对比,从实验上证明 了 改进算法的有效性。 最后一章 对全文进行了总结。 大规模平衡语料的收集分析 3 第二章 大规模平衡 语料 的收集分析 鉴于大规模平衡 语料 和大规模汉语词典 的重要性,中科院自动化所参加了由学参加的涉及到 12国语言的语料和词典建设项目( 该项目全称是面向口语要目的是建立一个符合现代汉语语言行为的,适用于语音识别和语音合成的汉语标注语料和信息词典。 究背景 本项研究的基础是中科院自动化所与诺基亚(中国)研究中心合作的欧盟项目 (中文部分 ). 本论文的研究工作得到如下项目资助: 1国家自然科学基金项目“语音、图像与视觉计算”(项目编号: 60121302) 2欧共体国际合作项目( 面向口语翻译的词汇处理” 面向口语 是由欧盟发起的,面向 12国语言的资源建设项目 兰语、德语、希腊语、希伯来语、意大利语、汉 语、俄语、西班牙语、标准阿拉伯语、土耳其语和美式英语等 12国语言,建立适用于语音识别、语音合成以及口语口语翻译的大规模标注语料库和信息词典 (主要是词性和注音信息 )。 内外语料库概况 冯志伟, 2000 最初的语料库的建设比较困难,需要大量的手工工作,随着计算机在语言学研究领域的广泛应用,这种状况才得以改变,尤其是近年来 ,国内外涌现出了很多标注详细、加工深入、适合用于语言学研究的大规模语料库。 内语料库概况 美国 立的 国 美学者利用这两个语料库开展了大规模的研究,并对这两个语料库系统的部分语料进行了自动标注。 大规模平衡 语料的收集分析和文本分类方法的研究 4 此外比较 著名 的还有, 语语料库、 料库、 津文本档案库、 语国家语料库、 言数据联合会、 语语料库、亚洲各语种对译作文语料库。 内语料库概况 国内早期的 语料库 建设规模比较小,不是机器可读的,比较大规模现代机器可读语料库的建设是从 1979年开始的,早期的机器可读语料库有:汉语现代文学作品语料库(武汉大学, 1979年, 527 万字)、现代 汉语语料库(北京航空航天大学, 1983 年, 2000 万字)、中学语文教材语料库(北京师范大学, 1983年, 106万字)、现代汉语词频统计语料库(北京语言学院, 1983年, 182万字)。其中北京语言学院的现代汉语词频统计语料库进行了语料切分和词频统计,共统计出 31159各不同单词,统计结果编成现代汉语频率词典 1991 年, 国家 语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的语法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达 7000万汉字。这个语料库在时间上、文 化上、使用领域上都有限制。 1992 年以来,许多进行中文信息处理研究的机构都建立了自己的大规模真实文本语料库如:人民日报光盘数据库、北京大学计算语言学计算所、北京语言文化大学、清华大学、山西大学、上海师范大学、北京邮电大学、香港城市理工大学、东北大学、哈尔滨工业大学、中科院软件研究所、中科院自动化所、北京外国语大学日本学研究中心、台湾中央研究院语言研究所。下面重点介绍其中的几个语料库。 北京大学计算语言学研究所 与 富士通 公司合作建立了现代汉语标注语料库,加工了 2700万字的人民日报语料库,加工项目包括 词语切分、词性标注、专有名词标注。还有多音字注音。北大语料库的特点是: 规模大: 2700 万字的熟语料 加工深:不仅做了切分和词性标注,而且部分语料还进行了短语结构分析,建立了树库,并对人名、地名和专有名词进行了短语结构标注。 覆盖面广:涉及社会科学和自然科学多个领域 正确率高:在自动加工的基础上进行了大量的人工加工,采用人机结合大规模平衡语料的收集分析 5 的策略,正确率达到了相当高的水平。 北京语言文化大学建立了一系列中文语料库,(共约 5 亿字)共 10 个语料库,主要是从当代中国丛书、中华人民共和国年鉴、新闻出版报、人民日报 、经济日报等书籍报刊中抽取的语料。 清华大学 也 建立了现代汉语语料库: 1998 年已达 1 亿汉字,现在生语料已达 7字。他们还进行了分词技术的深入研究,编制了信息处理用现代汉语分词词表,作为分词重要的语言资源。对该语料进行了切分和标注,部分语料进行了语块库的人工标注。 台湾中央研究院 建立了平衡语料库和树图语料库,两个都是标记语料库,有一定的加工深度。语料库规模为 500万字。 中科院 自动化 所建立的面向旅游信息领域的口语对话语料库。 社科院语言所建立的现代自然口语语料库 冯志伟, 2000。 除上述语料库以 外,国内外还有很多大学和研究机构建立了自己的语料库,这里就不再一一陈述。 规模平衡 语料的收集分析 目 主要包括两部分任务:语料的收集和词表的抽取。 我们收集了 3087万字的通用语料,并进行了词性标注和注音,最后从这些语料中抽取了约 40000 个通用词汇。最终的词表包括三部分,除了上面提到的 通用词汇 外,还抽取了 50000多个专有名词和 7000多 个专用词汇。 词表中包括了词性、注音信息和 专用词汇 的领域信息, 所有这些信息最终都 包括在一部 典 中 。 语料和词表的 编码格式 采用的是 符编码格式 用 语料 的 收集和 通用词汇 的 抽取 用领域的确定 为了确定通用领域的范围,我们对国内外一些著名的语料库进行了分析 ,这其中包括 以及清华大学的人工标注语料库 外 ,对一些网站的材料也进行了统计和研究如:人民网 (3 月大规模平衡 语料的收集分析和文本分类方法的研究 6 20日至 3月 26日这一周之内的材料和内容的统计结果 2002: 分类 字数 比例 时政 537,121 国际 447,083 经济 747,987 科教 297,508 55,378 军事 246,734 文娱 300,659 生活 409,770 体育 125,272 观点 441,111 社会 462,925 环保 268,155 总计 4,439,703 100% 表 2 1 人民网语料统计结果 联合早报网 (统计结果( 3月 20日至 3月 26日 ) : 分类 字数 比例 国际 /中港台 /东南亚 84,540 6,437 本地 157,667 言 论 81,903 体育 32,255 娱乐 16,010 财经 123,997 金融信息 27,839 总计 550,648 100% 表 2 2 联合早报网语料统计结果 大规模平衡语料的收集分析 7 结合以上统计结果和 12国合作伙伴的建议,下面这些领域被选择作为通用领域。 领域 子领域 举例 体育 /游戏 别事件) 足球,羽毛球,田径,跳水,高尔夫球等 新闻 国内国际大事 重大国内国际事件 社论、社评 专 门报道、专门评论 财经 商业,国际国内市场信息 股票,贸易,汇率,货币信息,关于一些公司的信息等。 文化 /娱乐 音乐、剧院、展览、文化博览等 关于音乐、演出、电影、戏剧、艺术、电视等的文章和评论。 旅游信息 地区、景点介绍。 健康 关于健康的科普性文章 大众信息 有关下岗职工的文章 消费知识 手机手册、 技术简介 个人交流 邮件、在线论坛、社评、电子科幻小说 电子邮件、讨论区、短信等 表 2 3 通用领域的划分 用语料的收集 语料限制 因为语料结构和出现时间对最终抽取的词表有较大的影响, 12 国合作伙伴最终讨论决定对 对语料做如下限制 :( 1)语料 结构:为了确保每个领域的语料都足够充分,至少 1外由于个人交流领域的语料收集起来比较麻烦,所以该领域的词的最小数量限制在 用词汇、专有名大规模平衡 语料的收集分析和文本分类方法的研究 8 词和专用词汇之间尽量避免重复以获取较多数量的总词汇。如果重复出现,要增加词汇以保证最终得到不少于 10M 词条;( 2)语料 时间 : 为了提高词表的实用性,词表 应 充分体现近几年词汇使用的特点。所有语料都必须是 1990 年以后,而且至少有 50的语料在 1997年以后 A. 2004。 语料来源: 最快捷,最方便的语料来源无疑是电子数据形式的语料:在线杂志、网站新闻、网上论坛、网上图书馆等。需要注意,无论什么来源的数据应当尽量避免“专业化词汇”。具体来说,我们从以下几个网站得到了我们的通用语料: 领域 出版年 媒体来源 体育 /游戏 2002 2. 新闻 2002 3. 财经 2002 4. 文化 /娱乐 2002 5. 消费信息 2001,2002,2003 2002,2003 2 4 通用语料的来源网站 语料规模 领域 语料规模(原始) 体育 /游戏 2. 新闻 3. 财经 4. 文化 /娱乐 5. 消费信息 6. 个人交流 计 2 5 通用语料在各领域的分布 大规模平衡语料的收集分析 9 用词汇 的抽取 通用词汇是从收集的通用语料中抽取出来的,通用词汇是指除去了专有名词、各种标点符号、数字以后的 词汇 , 通用词汇的 抽取步骤 : 1) 网页下载与处理: a 从以上网站下载网页 b 半自动的移除网页中的“垃圾文字”(每个网页中都有一些“本报记者”,“相关评论”等一些非内容文本)。 c 确认领域语料是否充分。 2) 自动分词与抽取词汇 a 分词和词性标注。 b 抽取词汇,同时统计出这些词汇在各领域和总的频率。 c 从词汇表中移除数字、标点符号、和专有名词。 3) 规则抽词 计算词表(无词性)标记下的总数量(约 35000)小于 50000,采用规则辅助分词、人工校对的方法抽取了约 3000个词: a 观察语料,抽取规则 b 检验每一条规则:用该规则从一段文本中抽取部分词汇,检验其正确率。剔除一些准确率较低的规则。最后得到共 39条规则。 c 用这 39 条规则从原始文本中抽取词汇,然后手工校正这部分词汇,最后得到 3534个新增词汇。 d 从原始语料中统计出这些词汇 在各领域和总的频率。 通用词汇 的数量 : 最终收集的通用词汇的数量如下表所示 大规模平衡 语料的收集分析和文本分类方法的研究 10 领域 不同词条数目 体育 /游戏 27283 新闻 30193 财经 24316 文化 /娱乐 28482 消费信息 27179 个人交流 30157 总计 38142 表 2 6 通用词汇的数量 通用词汇 的形式: 词 总 体育 /游戏 新闻 财经 文化 /娱乐 消费信息 个人交流 的 1124287 261676 211699 156988 150346 192932 150646 是 283576 70593 39120 35205 43052 41926 53680 在 275370 83823 59493 32817 32995 37253 28989 用词汇 的标注 通用词汇主要包括两种标注信息:词性标注和拼音标注。标注步骤及说明如下 。 通用词汇的 词性标注 分词软件 分词的 同时 也 进行了词性的标注,所以抽取通用词表的 时候 , 实际上可以抽取出两个词表, 带词性的词表 和不带词性的词表。但是 由于我们 的分词软件采用的是 973 的标注体系,不同于 标注规范,所以要将 词性进行 转换,值得庆幸的 是, 观察 两者的词性定义 后可 以发现 973 的标注体系和 体系有一个非常好的对应关系, 所以只要我们建立一个词性转换对应表,就可以将词性标注转换称 标注体系 。 性标记 说明 见附录 1。 通用词汇的 注音 a 给词表标注汉语拼音 大规模平衡语料的收集分析 11 b 手工校正多音字 c 根据词性 , 校正词的注音 d 建立拼音到 注意:转音情况) , 将拼音转化为 e 根据 因为上述注音过程中手工校正了一些错误,所以 为了保证词表的一致性,需要反生成拼音注音并排序的词表。 闭词汇集 各种语言都有一些功能词如:代词、介词、连词等,它们构成了语言相对封闭的一个词汇集,所以叫做封闭词汇集。这些词经常出现在各个领域的语料中,但不是所有的功能词都能在语料中发现。所以有必要手工加入功能词。 根据 们确定下面这些词类为汉语的功能词(括号中为对应的功能词的数量): 人称代词 ( 26), 物主代词 ( 37), 指示代词 ( 49),前置词(介词)和后置词 3( 186), 连词 ( 326), 问答词 ( 31), 情态动词 ( 21),量词 ( 547) 。 郭先珍 , 2002, 黄檗容 , 1997,刘丹青 ,2003,吕叔湘 , 1996,张斌 , 2001. 有名词的收集 对于语音识别和语音合成系统来说 ,一个非常重要的问题就是如何处理各种语音系统中常见的专有名词。通常很难决定他们的发音,特别是对于一些外来的专有名词。而另一方面确定他们的准确发音 ,对于语音识别和语音合成系统来说又是必需的。因此 ,我们从各个领域收集了 57528个专有名词,并对它们进行了注音和词性标注工作。 有领域的确定 根据 12国的讨论决定,最终确定主要从以下几个领域及对 应的子领域来收集专有名词,见表 2 7。 3 根据刘丹青的语言类型学和介词理论,汉语中的后置词是指某些方位词如:内、里、外等。 大规模平衡 语料的收集分析和文本分类方法的研究 12 领域 子领域 举例 人名(姓和名) 陈,刘,克利等 地点名词 国内城市 济南,合肥,攀枝花等 各国地理名词 尼罗河,富士山,长江等 各国首都 柏林,罗马,华盛顿等 国际著名城市 纽约,上海,芝加哥等 国内著名的文化历史景点 4 山海关,长城,井冈山等 国内著名街道 5 长安街,南京路,王府井等 国家 美国,日本,德国,南非等 组织机构名 盈利和非盈利组织 国际国内公司 诺基亚公司,可口可乐公司,一汽,世界卫生组织等 品牌名称 可口可乐,雪铁龙,真维斯等 表 2 7 专有名词的领域 及子领域 有名词的收集 根据 12个合作伙伴讨论决定, 专有名词领域至少 应当 包括 45000 个词条,三个大领域每个领域的词条数目所占总词条数目的百分比均应限制在 10 - 50之间,当然三个领域词条数目之和应当等于总的专有名词数。词形相同的4 在总的国内地点比较少的情况下,应当在这一部分多增加一点国内的景点。 5 街道名称应当依照本国语言的特点来描述。 大规模平衡语料的收集分析 13 专有名词和通用词汇认为是两个不同的词条。 专有名词的来源主要有以下几个方 面:超星数字图书馆、网上黄页、世界地图集。专有名词收集时都选择该词最常用的形式,如“ 保持这种形式,不会用其全称“ 因为专有名词的收集面向的语音识别和语音合成,所以收集时尽量采用其口语性较强的形式,比如尽量采用用户手册上的公司名称,而不是证券市场上登记的公司名称。同样道理在线资源也比较适合用来收集。 有名词 的标注 专有名词的词性标注 专有名词收集的时候是分类收集的,所以其词性本身已经确定,不需要专门使用标注软件进行词性标注。 专有名词 的词性说明: 人名 ) ; 各国地理名词 ) ; 国家 ) ;(城市: 国内城市、国际著名城市、各国首都); 国内著名街道 ) ; 司组织: 盈利和非盈利组织、国际国内公司); 品牌名称 ) ; 国内著名的文化历史景点 ) 。 专有名词的注音 A. 给词表标注汉语拼音 B. 手工校正多音字 C. 根据词性校正词的注音 D. 将拼音转化为 这是因为 门为汉语注音设定的一套注音符号。它与汉语拼音有一个完整的对应,根据对应表我们可以将拼音转化间需要增加对数字和括号的注音,同时还发现了词表的一些错误,需要手工校正。 E. 根据 F. 设计了英语音标到 手工完成) 有名词的数量 和形式 大规模平衡 语料的收集分析和文本分类方法的研究 14 最终得到的专有名词的数量如下: 领域 词数 % 人名(姓和名) 22156 19930 3. 组织和机构名 15618 计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年模具维修技师知识技能资格知识考试题与答案
- 装修市场专员培训
- 生产管理知识培训
- 资产采购管理培训课件
- 红旗车驾驶员培训:从盛夏酷热到金秋丰收的旅程
- 售后服务顾问培训体系构建
- 制定个人税务筹划的发展目标计划
- 运输合同终止协议范本
- 软件市场营销合同协议
- 活动赛事协议书
- 动态轨道衡电子称重仪及定量称重控制系统设计概要
- 2023年简明新疆地方史
- 2023-2024学年浙江省舟山市小学语文二年级下册期末自测模拟试卷
- GB/T 41995-2022并网型微电网运行特性评价技术规范
- 新生儿早期基本保健(EENC)指南要点解读课件
- 酒精中毒性韦尼克脑病与酒精戒断模板课件整理
- 国有企业薪酬专项审计报告
- 部门级安全教育试题
- 气象卫星云图图像识别课件
- 一建《建设工程项目管理》课件第4章质量控制
- 初中历史八年级《甲午中日战争》教学课件动态PPT
评论
0/150
提交评论