(模式识别与智能系统专业论文)大规模平衡语料的收集分析及文本分类方法研究.pdf_第1页
(模式识别与智能系统专业论文)大规模平衡语料的收集分析及文本分类方法研究.pdf_第2页
(模式识别与智能系统专业论文)大规模平衡语料的收集分析及文本分类方法研究.pdf_第3页
(模式识别与智能系统专业论文)大规模平衡语料的收集分析及文本分类方法研究.pdf_第4页
(模式识别与智能系统专业论文)大规模平衡语料的收集分析及文本分类方法研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(模式识别与智能系统专业论文)大规模平衡语料的收集分析及文本分类方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以语 言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规模语 料库的支持否则只能是无源之水、无本之木。尤其是随着统计模型在鲁然语言 处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象压身的研究, 还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究祁开发, 都具有非常重要的意义。同样,词典开发不仅是自然语言处理研究的基础性工作, 也是字典编纂、语言教学等工作的重要环节。医此,本论文从事於大规模平翁语 料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要 的理论惹义和实用价值。 本文首先在欧共体项目( l c s t a r ) 的资助下,开展了大规模汉语平衡语 半| 的发集与分析工作,其主要目的是建立一个反映现代汉语语言特点的、i 青e f _ 于 汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立一部 相应的信息词典。该工作主要包括:( 1 ) 在对大规模汉语平衡语料收集方法进行 调研和分析的基础上,收集并标注了规模达3 0 8 7 万字的汉语平衡语料:( 2 ) 以 收集的语料为基础,建立了一个大规模( 1 0 多万词) 的现代汉语信息词典,诟 条标注信息包括词性、注音、词频和专用词的领域信息等。 以上述工作为基础,我们对文本分类方法进行了深入的研究,主要创新包括: 第一,在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出 了在t f * i d f 算法中用t f 的r 1 次方代替t f ,并引入d b v 变量约: 理方法,使得该算法的f 1 m e a s u r e 溅度提高了4 5 。 第二,类似于上面的处理方法,在t f s l w f 算法中用t f 的n 次方代替t f , 并引入d b v 变量,使得该算法的f 1 m e a s u r e 测度提高了1 2 2 89 乱 第三,在特征向量抽取方面,在r o c c h i o 分类器上对常见的特征向量辔;:方 法进行了全面对比,然后提出了将t f * i d f 算法用于特征抽取的处理 方法,并通过实验证明,该方法在不同数目关键词下的分类效果均优 于其它常见的特征向量抽取算法。 关键词:平衡语料,语料库,文本分类,特征拍取 a b s t r a c t c o r p u s a n dl e x i c o na r e i m p o r t a n tl i n g u i s t i c r e s o u r c e sf o rn a t u r a l l a n g u a g e p r o c e s s i n g l i n g u i s t i cr e s e a r c hs h o u l db eb a s e do nl i n g u i s t i cf a c t s ,a n dl a r g e s c a l e c o r p u si sn e c e s s a r yf o rp r o b i n g i n t oi i n g u i s t i cr e s e a r c hw h i c hi sc o m p l e x e s p e c i a l l y , a l o n gw i t h 、i d ea p p l i c a t i o no fs t a t i s t i c a l m o d e li nn a t u r a ll a n g u a g ep r o c e s s i n g 、 l a r g e s c a l ec o r p u s i sp l a y i n gam o r e i m p o r t a n tr c l e l a r g e s c a l ec o p u s i si m p o r t :a n tt o n o to n l yr e s e a r c ho f l i n g u i s t i cp h e n o m e n a ,b u ta l s os y s t e m sf o ri n f o r m a t i o nr e t r i e v a l 、 m a z h i n et r a n s l a t i o n ,t e x tc l a s s i f i c a t i o n ,o ra u t o m a t i cp o s t a g g i n ga n ds o0 2 、i a d d i t i o n ,c h i n e s ed i c t i o n a r yi st h eb a s eo f n a t u r a ll a n g u a g ep r o c e s s i n g ,a sw e l la sa n e c e s s a r yp a r to fc r e a t i o no fc h i n e s ec l l a r a c t e r sd i c t i o n a r ya n dl i n g u i s t i ct e a z 1 i n g t h e r e f o r e ,t h ec o l l e c t i o na n da n a l y s i so fl a r g e s c a l eb a l a n c e c o r p u si no u rw o r k o n w h i c ht e x tc l a s s i f i c a t i o ni sb a s e d ,h a st h e o r e t i cs i g n i f i c a n c ea n d p r a c t i c a l v a l u e o u rw o r ks u p p o r t e db ye u r o p e a r lu n i o n s p r o j e c to fl c s t a r , , w h i c hi n c t v d e s c o l l e c t i o na n da n a l y s i so fal a r g e s c a l e b a l a n c e c o r p u s ,a i m st o b u i l dac z h :l e s e t a g g e dc o r p u s a n da ni n f o r m a t i o nl e x i c o nf o r s p e e c hr e c o g n i t i o na n ds p e e c h s y s t h e s i s t h em a i nw o r kc a nb ec o r t k u d e da s :( 1 ) a f t e ri n v e s t i g a t i n ga n da n a l y z i n g t h es t r a t e g i e sf o rl a r g e s c a l ec h i n e s eb a l a n c e c o r p u s w eh a v ec o l l e c t e da n d t a g g e da c h i n e s ec o r p u sc o n s i s t i n go f3 0 8 7 mc h i n e s ec h a r a c t e r s ;( 2 ) b a s e do nt h ec c 、1 1 l - ? 隐i c o r p u s ,w eh a v ec r e a t e dac h i n e s ei n f o r m a t i o nl e x i c o nc o n s i s t i n go f1 0 3 1 9 2w c ) r d s ( i n c l u d i n gp o s t a g ,p h o n e s i z a t i o n ,w o r d s f r e q u e n c ya n dd o m a i ni n f o r m a t i o nf o r a p p l i c a t i o nw o r d s ) v 强h a v ed o n es o m er e s e a r c hw o r ko nt e x tc l a s s i f i c a t i o nb a s e do na 1 1t h eg b o ,0 l r i n o v a t i o ni nt e x tc l a s s i f i c a t i o nc a l lb ec o n c l u d e da sf o l l o w s : 3a b o u tf e a t u r ew e i l g h t i n g ,w eh a v ea n a l y z e dt h ea d v a n t a g e sa n d d i s a d v a n t a g e s o fc o i i n n o nf e a t u r ew e i g h t i n ga l g o r i t h m s ,a n di n t r o d u c e dt w o i m p r o v e m e n t s i n t ot f 4 i d fw h i c hi sa m o n gc o m m o nf e a v a r ew e i g h t i n ga l o 蛳f h 2 n st k h v : i m p r o v e m e n t s a r er e p l a c i n gt fw i t hi t sn t hr o o ta n d i n t r o d u c i n gd b v i n t ot h e e x p r e s s i o n f 1 一m o fc l a s s i f i e rh a sb e e n i m p r o v e db y 4 5 s ot h e e f f e c t i v e n e s sh a sb e e np r o v e d 4 s i m i l a r i m w eh a v ei n t r o d u c e dt h et w oi m p r o v e m e n t si n t ot f + i w ff e a m r e v t e i g h t i n ga l g o r i t h m ,r e s u l t i n gi n1 22 8 i r r _ p r o v e m e n to f f l - m 5a b o u tf e a t u r e e x t r a c t i o n ,w e h a v e c o m p a r e d s e v e r a lc o i q a t i o nf e a t u r e e x t r a c t i o n a l g o r i t h m s ,a n dp r e s e n t e d t oi n t r o d u c et f 8 i d fa l g o r i t h mf e r f e a t u r ee x t r a c t i o n o u rc o m s e q u e n te x p r i m e n t sh a v ep r o v e dt h i s a l g o r i t h m m o r ee f f e e f t v et h a l lt h eo t h e l k e y w o r d s :b a l a n c ec o r p u s ,c o r p o r a ,t e x tc a t e g o r i z a t i o n ,f e a t u r ee x t r a c t i o n ,1 1 1 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。 签名:j 堑翌绰导师签名:二窒塑延l 日期:三竺! 二氐# 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自 动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅:可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:垫堑到导师签名 级良 日期:丝兰! ! 盟 堑宣 第一章绪言 语料库和词典是进行自然语言处理研究的重要资源。语言学的研究必须以 语言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规 模语料库的支持,否则只能是无源之水、无本之木。尤其是随着统计模型在自 然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本 身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的 研究和开发,都具有非常重要的意义。同样,词典开发不仅是自然语言处理研 究的基础性工作,也是字典编纂、语言教学等工作的重要环节。因此,本论文 从事的大规模平衡语料的收集和分析工作,具有重要的理论意义和实用价值。 自动文本分类技术是在给定分类体系下,根据文本内容确定其所属类别 k j e r s t i a ta 1 ,1 9 9 9 。随着网络和信息时代的到来,人们获取信息的手段 越来越丰富,可供选择的信息量也成指数级膨胀。数据量的增长一方面:为人 们进行各种活动提供了充分的资源,而且通过网络相当的便捷;另一方面:要 从浩如云烟的结果中找到自己真正需要的信息也越来越困难,除非能够以一种 自动的方式让计算机帮助去检索。而一个好的检索系统,首先最关键的是要对 来源各异、千差万别的文本进行合理的分类和整理,这就是文本分类技术一个 最重要的应用一信息检索。 自动文本分类技术是自然语言处理领域的一个重要课题。除了上面提到的 信息检索以外,文本分类还应用在其他许多方面,如:信息过滤、文档索引、 数字图书馆的分类和管理、词义消歧、主题识别、语料库建设、元数据生成等。 本文主要包括三部分内容。 第二章是大规模平衡语料的收集分析,主要介绍l c s t a r 词典和语料建设 项目,并以此为基础,比较和分析了不同领域的用词特点。这一部分又可以分 成两大部分,第一部分主要是介绍与l c s t a r 项目相关的语料收集和词典建设 工作,包括通用语料的收集和各种词表( 包括通用词表、专有名词、专用词表、 总词表等) 的抽取、词性标注、注音等一系列工作。第二部分依据生成的词表 对不同词类在各领域的分布情况从两方面( 词汇量和各种词类所占比例) 进行 了比较分析。 第三章是基于大规模真实语料的文本分类研究。根据第二章的分析我们知 厶塑摸堑遥魁盥蝗塞盆堑丛塞奎坌娄立法丛窒 道不同领域各种词类的分布差别比较大,所以我们选取词作为文本分类的特征 进行分类的研究。在这一部分,我们主要做了三方面的工作,第一部分介绍了 现有的些特征权重算法,比较了其优劣,并提出了我们的改进算法;第二部 分介绍了现有的一些特征抽取算法,并在对这些算法分析后,提出了我们的特 征抽取算法:第三部分设计了四个实验,对上述提到的算法进行了对比,从实 验上证明了改进算法的有效性。 最后一章对全文进行了总结。 点规拦壬煎迢抖曲9 堑塞佥堑 第二章大规模平衡语料的收集分析 鉴于大规模平衡语料和大规模汉语词典的重要性,中科院自动化所参加了由 s a b a n e i 大学、i b m 、u p c 、r w t 、n s c 、n o k 、s i e 、a u d i t e c h 、m a r i b o r 大学参加 的涉及到1 2 国语言的语料和词典建设项目( l c s t a r ) ,该项目全称是面向口语 一口语翻译技术的语料和词典建设。主要目的是建立符合现代汉语语言行为的, 适用于语音识别和语音合成的大规模标注语料库和信息词典。 2 1 研究背景 本项研究的基础是中科院自动化所与诺基亚( 中国) 研究中心合作的欧盟 项目( l c s t a r ) ( 中文部分) ( 本研究课题受到的资助情况见附录8 ) l 6 一s t a rr l e x i c aa n d c o r p o r a f o r s p e e c h t o s p e e c h t r a n s l a t i o n t e c h n 0 1 0 9 i e s ) ( 面向口语一口语翻译技术的词典和语料库建设) 是由欧盟发起 的,面向1 2 国语言的资源建设项目其目的是为加泰罗尼亚语、芬兰语、德语、 希腊语、希伯来语、意大利语、汉语、俄语、西班牙语、标准阿拉伯语、土耳 其语和美式英语等1 2 国语言,建立适用于语音识别、语音合成以及口语一口语 翻译的大规模标注语料库和信息词典( 主要是词性和注音信息) 。 2 2 国内外语料库概况 最初的语料库的建设比较困难,需要大量的手工工作,随着计算机在语言 学研究领域的广泛应用,这种状况才得以改变,尤其是近年来,国内外涌现出了 很多标注详细、加工深入、适合用于语言学研究的大规模语料库 冯志伟,2 0 0 0 。 2 21 国外语料库概况 美国b r o w n 大学建立的b r o w n 语料库,英国l a n c a s t e r 大学与挪威o s l o 大 学与b e r g e n 大学联合建立了l o b 语料库。欧美学者利用这两个语料库开展了大 规模的研究,并对这两个语料库系统的部分语料进行了自动标注。 此外比较著名的还有,l o n d o n l u n d 口语语料库、a h i 语料库、o t a 牛津文 本档案库、b n c 英语国家语料库、l d c 语言数据联合会、r w c 日语语料库、亚洲 各语种对译作文语料库、专门用于文本分类的r e u t e r s 2 1 5 7 8 语料。 奎趣攫王煎受型的噍篡金逝丛塞奎坌塞直鎏监盔 2 22 国内语料库概况 国内早期的语料库建设规模比较小,不是机器可读的,比较大规模的现代 机器可读语料库的建设是从1 9 7 9 年开始的,早期的机器可读语料库有:汉语现 代文学作品语料库( 武汉大学,1 9 7 9 年,5 2 7 万字) 、现代汉语语料库( 北京航 空航天大学,1 9 8 3 年,2 0 0 0 万字) 、中学语文教材语料库( 北京师范大学,1 9 8 3 年,1 0 6 万字) 、现代汉语词频统计语料库( 北京语言学院,1 9 8 3 年,1 8 2 万字) 。 其中北京语言学院的现代汉语词频统计语料库进行了语料切分和调频统计,共 统计出3 1 1 5 9 个不同单词,统计结果编成现代汉语频率词典 1 9 9 1 年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以 推进汉语的语法、句法、语义和语用的研究,同时也为中文信息处理的研究提 供语言资源,计划其规模将达7 0 0 0 万汉字。这个语料库在时间上、文化上、使 用领域上都有限制。 1 9 9 2 年以来,许多进行中文信息处理研究的机构都建立了自己的大规模真 实文本语料库如:人民日报光盘数据库、北京大学计算语言学计算所、北 京语言文化大学、清华大学、山西大学、上海师范大学、北京邮电大学、香港 城市理工大学、东北大学、哈尔滨工业大学、中科院软件研究所、中科院自动 化所、北京外国语大学日本学研究中心、台湾中央研究院语言研究所等。下面 重点介绍其中的几个语料库。 北京大学计算语言学研究所与富士通公司合作建立了现代汉语标注语料 库,加工了2 7 0 0 万字的人民日报语料库,加工项目包括词语切分、词性标 注、专有名词标注。还有多音字注音。北大语料库的特点是: 夺规模大:2 7 0 0 万字的熟语料 夺加工深:不仅做了切分和词性标注,而且部分语料还进行了短语结构分 析,建立了树库,并对人名、地名和专有名词进行了短语结构标注。 夺覆盖面广:涉及社会科学和自然科学多个领域 夺正确率高:在自动加工的基础上进行了大量的人工加工,采用人机结合 的策略,正确率达到了相当高的水平。 北京语言文化大学建立了一系列中文语料库,( 共约5 亿字) 共l o 个语料 库,主要是从当代中国丛书、中华人民共和国年鉴、新闻出版报、人 点塑拦垩煎受丝的! 随篡筮土丘 民日报、经济日报等书籍报刊中抽取的语料。 清华大学也建立了现代汉语语料库;1 9 9 8 年已达l 亿汉字,现在生语料已 达7 8 亿字。他们还进行了分词技术的深入研究,编制了信息处理用现代汉语 分词词表,作为分词重要的语言资源。对该语料进行了切分和标注,部分语料 进行了语块库的人工标注。 台湾中央研究院建立了平衡语料库和树图语料库,两个都是标记语料库, 有一定的加工深度。语料库规模为5 0 0 万字。 中科院自动化所建立的面向旅游信息领域的口语对话语料库。 社科院语言所建立的现代自然口语语料库 冯志伟,2 0 0 0 。 除上述语料库以外,国内外还有很多大学和研究机构建立了自己的语料库, 这里就不再一一陈述。 23 大规模平衡语料的收集分析 l c s t a r 项目主要包括两部分任务:语料的收集和词表的抽取。我们收集 了3 0 8 7 万字的通用语料,并进行了词性标注和注音,最后从这些语料中抽取了 约4 0 0 0 0 个通用词汇。最终的词表包括三部分,除了上面提到的通用词汇外, 还抽取了5 0 0 0 0 多个专有名词和7 0 0 0 多个专用词汇。词表中包括了词性、注音 信息和专用词汇的领域信息,所有这些信息最终都包括在一部x m l 词典中。 语料和词表的编码格式采用的是g b 2 3 1 2 字符编码格式 2 3 1 通用语料的收集和通用词汇的抽取 2 3 1 1 通用领域的确定3 为了确定通用领域的范围,我们对国内外一些著名的语料库进行了分析, 这其中包括t h es u r v e yo fe n g l i s hu s a g e ( s e u ) c o r p u s ,t h eb r o w nc o r p u s , t h e l o n g m a n l a n c a s t e re n g l i s hl a n g u a g ec o r p u s ( l l e l c ) ,t h e b r i t i s h n a t i o n a lc o r p u s ( b n c ) ,以及清华大学的人工标注语料库h a n y u 等等。此外, 对些网站的材料也进行了统计和研究,如:人民网( w w w p e o p l e c o m c i l ) 3 月 2 0 同至3 月2 6 日这一周之内的材料和内容的统计结果 h u ,2 0 0 2 : 3 返部分工作为胡f i 勒所做 一塞趣搓垩鱼受型的蝗篡筮蚯盈塞奎公篷直洼班巍 许娄半暂 比伸 时政5 3 712 1 12 1 国际4 4 7 0 8 3 l o 1 释济7 4 79 8 7 168 科封 2 9 75 0 844 i t2 5 52 7 858 茔喜2 4 67 3 456 文娱3 0 0 5 5 968 毕活4 0 9 7 7 0q 体盲t 2 5 2 7 228 观- 4 4 11 1 19 g 料套4 6 2 9 2 51 0 4 环保2 6 81 5 56 1 总计44 3 9 7 0 , 31 0 0 表2 一1 人民网语料统计结果 联合早报网( 业! :! i 业盟:! q 坐:i g ) 的统计结果( 3 月2 0 日至3 月2 6 日) : 抖拳字暂e k 柘4 围际中涨台东南听r 45 4 n1 54 i t2 6 4 3 748 本地15 76 6 72 85 言洽8 1 9 n 31 4 9 体畜3 2 2 5 559 樨乐1 r0 1 03 0 财绎 12 39 9 72 2 5 余融信赢2 7 8 3 950 黾 i -5 5 0 6 4 81 0 0 表2 2 联合早报网语料统计结果 厶坦拦垩煎适丝的蝗篡金蚯 结合以上统计结果和1 2 国合作伙伴的建议,下面这些领域被选择作为通用 领域。 领域子领域举例 c 1 体育游戏c 1 1 体育( 特别事件)足球,羽毛球,田径,跳 水,高尔夫球等 c 2 新闻c 2 1 国内国际大事重大国内国际事件 c 2 2 社论、社评专门报道、专门评论 c 3 财经c 3 1 商业,国际国内市场信股票,贸易,汇率,货币 息信息,关于一些公司的信 息等。 c 4 文化娱乐c 4 1 音乐、剧院、展览、文关于音乐、演出、电影、 化博览等戏剧、艺术、电视等的文 章和评论。 c 4 2 旅游信息地区、景点介绍。 c 5 消费信息c 5 1 健康关于健康的科普性文章 c 52 大众信息 有关下岗职工的文章 c 5 3 消费知识手机手册、v c d 新技术简 介 c 6 个人交流 c 61 邮件、在线论坛、社评、 电子邮件、讨论区、短信 电子科幻小说等 表2 3 通用领域的划分 2 ,3 1 2 通用语料的收集4 语料限制 因为语料结构和出现时间对最终抽取的词表有较大的影响,1 2 国合作伙伴 4 这一部分共收集标注3 0 8 7 万字语料其中1 8 3 0 万字的语料收集和9 0 0 多万字语料的词性标注工作为胡日 勒和用 三所做 点规焦王煎噩抖的蝗塞坌垄匠丛塞奎筮娄友洼受窒 最终讨论决定对对语料做如下限制:( 1 ) 语料结构:为了确保每个领域的语料 都足够充分,至少l m 词的领域语料是必需的。另外由于个人交流领域的语料i 发 集起来比较麻烦,所以该领域的词的最小数量限制在0 5 m 。通用词汇、专有名 词和专用词汇之间尽量避免重复以获取较多数量的总词汇。如果重复出现,要 增加词汇以保证最终得到不少于1 0 m 词条;( 2 ) 语料时间:为了提高词表的实 用性,词表应充分体现近几年词汇使用的特点。所有语料都必须是i 9 9 0 年以后, 而且至少有5 0 的语料在1 9 9 7 年以后 m o r e n o ,a 2 0 0 4 1 。 语料来源: 最快捷,最方便的语料来源无疑是电子数据形式的语料;在线杂志、网站 新闻、网上论坛、网上图书馆等。需要注意,无论什么来源的数据应当尽量避 免“专业化词汇”。具体来说,我们从以下几个网站得到了我们的通用语料: 领域出版年媒体来源 c 1 体育游戏 2 0 0 2w w w s i n a e o m c n c 2 新闻2 0 0 2w w s i n a c o m c n c 3 财经2 0 0 2w w p e o p l e c o m c n c 4 文化娱乐 2 0 0 2 w w w p e o p l e c o m o n c 5 消费信息2 0 0 1 ,2 0 0 2 ,2 w 、m s i n a c o m c n 0 0 3w w 9 9 9 c o l d e n , w w s e i e n e e t i m e s n e t c 6 个人交流2 0 0 2 ,2 0 0 3w 删c y 0 1 c o f l l 表2 4 通用语料的来源网站 厶趔拦煎造型曲蝗塞盆蚯 语料规模 领域语料规模( 原始) cl 体育游戏2 0 1 m c 2 新闻 1 4 2 m c 3 则经 1 1 9 m c 4 文化娱乐 9 8 9 m c 5 消费信息 1 1 8 m c 6 个人交流 7 3 7 m 总计 7 5 2 6 m 表2 5 通用语料在各领域的分布 2 3 13 通用词汇的抽取 通用词汇是从收集的通用语料中抽取出来的,指的是除去了专有名词、各 种标点符号、数字以后的词汇, 通用词汇的抽取步骤: 1 ) 网页下载与处理: a 从以上网站下载网页 b 半自动的移除网页中的“垃圾文字”( 每个网页中都有一些“本报记 者”,“相关评论”等些非内容文本) 。 c 确定领域语料是否充分。 2 )自动分词与抽取词汇 a 分词和词性标注。 b 抽取词汇,同时统计出这些词汇在各领域和总的频率。 c 从词汇表中移除数字、标点符号和专有名词。 3 ) 规则抽词 计算词表( 无词性标记下) 的总数量( 约3 5 0 0 0 ) 小于5 0 0 0 0 ,采用规 则辅助分词、人工校对的方法抽取了约3 0 0 0 个词: 盘趣攘王煎置抖的蝗塞佥盘盈塞查佥娄友洼婴宜 a 观察语料,抽取规则 b 检验每一条规则:用该规则从一段文本中抽取部分词汇,检验其正确 率。剔除一些准确率较低的规则。最后得到共3 9 条规则。 c 用这3 9 条规则从原始文本中抽取词汇,然后手工校正这部分词汇, 最后得到3 5 3 4 个新增词汇。 d 从原始语料中统计出这些词汇在各领域和总的频率。 通用词汇的数量:最终收集的通用词汇的数量如下表所示 领域不同词条数目 c 1 体育游戏 2 7 2 8 3 c 2 新闻 3 0 1 9 3 c 3 财经2 4 3 1 6 c 4 文化娱乐2 8 4 8 2 c 5 消费信息 2 7 1 7 9 c 6 个人交流 3 0 1 5 7 总计 3 8 1 4 2 表2 6 通用词汇的数量 通用词汇的形式: 词总体育游戏新闻财经文化娱乐消费信息个人交流 的1 1 2 4 2 8 72 6 1 6 7 62 1 1 6 9 9 1 5 6 9 8 81 5 0 3 4 61 9 2 9 3 2 1 5 0 6 4 6 是2 8 3 5 7 67 0 5 9 3 3 9 1 2 0 3 5 2 0 5 4 3 0 5 2 4 1 9 2 6 5 3 6 8 0 在2 7 5 3 7 08 3 8 2 3 5 9 4 9 3 3 2 8 1 7 3 2 9 9 5 3 7 2 5 3 2 8 9 8 9 2 3 1 4 通用词汇的标注 通用词汇主要包括两种标注信息:词性标注和拼音标注。标注步骤及说明 如下。 通用词汇的词性标注 分词软件分词的同时也进行了词性的标注,所以抽取通用词表的时候,实 叁型搓王煎妥型盟蝗篡盆扭 际上可以抽取出两个词表,带词性的词表和不带词性的词表。但是由于我们的 分词软件采用的是9 7 3 的标注体系,不同于l c s t a r 的标注规范,所以要将词 性进行转换,值得庆幸的是,观察两者的词性定义后可以发现9 7 3 的标注体系 和l c s t a r 的体系有一个非常好的对应关系,所以只要我们建立一个词性转换 对应表,就可以将词性标注转换称l c s t a r 的标注体系。l c s t a r 的词性标记说 明见附录l 。 通用词汇的注音 a 给词表标注汉语拼音 b 手工校正多音字 c 根据词性,校正词的注音 d 建立拼音到s a m p a c 注音规范的转换表( 注意:转音情况) ,将拼音 转化为s a m p a c 的注音 e 根据s a m p a c 注音后的词表反生成拼音注音并排序的词表,因为上述 注音过程中手工校正了一些错误,所以为了保证词表的一致性,需要 反生成拼音注音并排序的词表。 2 3 1 5 封闭词汇集 各种语言都有一些功能词如:代词、介词、连词等,它们构成了语言相对 封闭的一个词汇集,所以叫做封闭词汇集。这些词经常出现在各个领域的语料 中,但不是所有的功能词都能在语料中发现。所以有必要手工加入功能词。根 据l c s t a r 项目文件和汉语的特点,我们确定下面这些词类为汉语的功能词( 括 号中为对应的功能词的数量) :人称代词( 2 6 ) ,物主代词( 3 7 1 ,指示代词( 4 9 1 , 前置词( 介词) 和后置词5 ( 1 8 6 1 ,连词( 3 2 6 ) ,问答词( 3 1 1 ,情态动词( 2 1 1 , 量词( 5 4 7 ) 。 郭先珍,2 0 0 2 , 黄檗容,1 9 9 7 , 刘丹青,2 0 0 3 , 吕叔湘,1 9 9 6 , 张斌,2 0 0 1 23 2 专有名词的收集 对于语音识别和语音合成系统来说,一个非常重要的问题就是如何处理各 5 根据刘丹青的语言类型学和介词理论,汉语中的后置词是指某些方位词如:内、里、外 等。 点趣搓圣笾量整的蝗塞公摄毽塞奎坌粪友洼婴童 种语音系统中常见的专有名词。通常很难决定他们的发音,特别是对于些外 来的专有名词。而另一方面确定他们的准确发音,对于语音识别和语音合成系统 来说又是必需的。因此,我们从各个领域收集了5 7 5 2 8 个专有名词,并对它们进 行了注音和词性标注工作。 2 。3 。2 ,1 专有领域的确定6 根据1 2 国的讨论决定,最终确定主要从以下几个领域及对应的子领域来收 集专有名词,见表2 7 。 领域子领域举例 p 1 人名( 姓和名)陈,刘,克利等 p 2 地点名词p 2 i 国内城市济南,合肥,攀枝花等 p 2 2 各国地理名词尼罗河,富士山,长江 等 p 2 3 各国首都柏林,罗马,华盛顿等 p 2 4 国际著名城市纽约,上海,芝加哥等 p 2 5 国内著名的文化山海关,长城,井冈山 历史景点7等 p 2 6 国内著名街道8长安街,南京路,王府 井等 p 2 7 国家美国,日本,德国,南 非等 p 3 组织机构名p 3 1 盈利和非盈利组诺基亚公司,可口可乐 织公司,一汽,世界卫生 p 3 2 国际国内公司 组织等 6 这一部分工作由胡目勒完成。 7 住总的国内地点比较少的情况下。应当在这一部分多增加一点国内的景点。 8 街道名称应当依照本国语言的特点来描述。 点趣拦垩笾适盟的蝗塞坌堑 p 3 3 品牌名称 可口可乐,雪铁龙,真 维斯等 表2 7 专有名词的领域及予领域 2 322 专有名词的收集9 根据1 2 个合作伙伴讨论决定,专有名词领域至少应当包括4 5 0 0 0 个词条, 三个大领域每个领域的词条数目所占总词条数目的百分比均应限制在1 0 5 0 之间,当然三个领域词条数目之和应当等于总的专有名词数。词形相同的专 有名词和通用词汇认为是两个不同的词条。 专有名词的来源主要有以下几个方面:超星数字图书馆、网上黄页、世界 地图集。专有名词收集时都选择该词最常用的形式,如“i b m ”就保持这种形式, 不会用其全称“i n t e r n a t i o n a lb u s i n e s sm a c h i n e s ”。因为专有名词的收集面 向的语音识别和语音合成,所以收集时尽量采用其口语性较强的形式,比如尽 量采用用户手册上的公司名称,而不是证券市场上登记的公司名称。同样道理 在线资源也比较适合用来收集。 2 3 2 3 专有名词的标注 专有名词的词性标注 专有名词收集的时候是分类收集的,所以其词性本身已经确定,不需要专 门使用标注软件进行词性标注。 专有名词的词性说明:p e r ( 人名) :g e o ( 各国地理名词) ;c o u ( 国家) ; c i t ( 城市:国内城市、国际著名城市、各国首都) ;s t r ( 国内著名街道) ;c o m ( 公司组织:盈利和非盈利组织、国际国内公司) ;b r a ( 品牌名称) ;t o u ( 国 内著名的文化历史景点) 。 专有名词的注音 a 给词表标注汉语拼音 b 手工校正多音字 c 根据词性校正词的注音 9 这一部分兆收集号有名词5 7 7 0 4 个,其中5 0 0 0 0 个为胡日勒收集。 一 厶塑堪煎造料曲蝗篡盆! l 丘盈塞查筮娄直洼硒宜 d 将拼音转化为s a m p a c 的注音:这是因为s a m p a c 的注音体系是 为了便于国际交流,专门为汉语注音设定的套注音符号。它与 汉语拼音有一个完整的对应,根据对应表我们可以将拼音转化 s a m p a c 的注音体系。其问需要增加对数字和括号的注音,同时还 发现了词表的一些错误,需要手工校正。 e 根据s a m p a c 注音后的词表反生成拼音注音并排序的词表 f ,设计了英语音标到s a m p a c 符号的对应表对专有名词中的外来词 汇进行注音。( 手工完成) 2 3 2 4 专有名词的数量和形式 最终得到的专有名词的数量如下: 领域词数 p 1 人名( 姓和名)2 2 1 5 63 8 4 p 2 地点名词1 9 9 3 0 3 4 5 p 3 组织和机构名 1 5 6 1 82 7 1 总计 5 7 7 0 4i 表2 - 8 专有名词各领域词数及所占比例 专有词表的形式: 阿迪达斯b r a 阿库拉b r a 阿勒锦b r a 2 3 3 专用词汇的收集 为了满足与“语音驱动”密切相关的几个应用领域的要求,我们收集了约 7 0 0 0 个专用词,他们都与其所属的领域密切相关。有些词在书面语料中不常出 现,但是对于真实的语音应用来说却是必需的。建立专用词表的目的就在于保 证在最终的词典包含有这些词。 词表主要包括两部分:数词和其他领域密切相关的专用词汇。数词由我们 厶塑丝壬煎量刿的蜓塞坌逝 给出:其他词汇首先由合作伙伴从限定的应用领域中抽取,并以英语的形式给 出词和词性,对于动词还会用英语给出例旬和场景说明,我们的工作就是将这 些词汇翻译成汉语词汇,并给出动词的例旬。 2 33 1 专用领域的确定1 0 经过l c - s t a r 项目1 2 国合作伙伴讨论最终将专用领域确定为7 大领域、4 7 子领域,共7 0 0 0 多个词条,具体见附录2 。 2 3 3 2 专用词汇的来源 数据源媒体没有特别的指定,总的来说有下面几种:词典、技术文档、出 版社提供的基本词汇,除此之外电子资源当然还是最方便的方式。数字应当是 从词典或者其他资源中获取的,所有不能用组合规则得到的数字都应当包括在 词表中。所有用于日期和星期的序数词都必须被提供。 2 3 3 3 专用词汇的数量和形式 最终我们收集的专用词汇为7 5 2 1 个,包括每个词的领域信息、词性、例旬 ( 针对动词) 、注释等,具体形式见表2 - - 9 。 i d ( 领域名称) n r英文术语词性翻译例子 注释 1 i1 1m e t e rn o m米 1 1 ,1 2m i t en o m 英里 1 1 1 3k l l o m e t e rn o m千米 1 11 3 ak i l o m e t e rn o b i 公里 1 1 2 1 p o u n d n o m英镑 1 1 、2 2t or e a dv e r阅读 阅读这条短信 6 2 11 t e x t o n l y n p纯文本 表2 9 专用词表的形式 说明:i d 领域代号,n r 一该条目在其所属领域的序号,英文术语 0 这一部分工作由1 1 月目勒完成。 一一盔拯攥王衡造型曲蝗塞盆圭丘丛塞查筮娄友壁班宜 术语的英语形式,词性一词性,翻译一术语的汉语翻译,举例一对 于动词术语需要列举l 2 个例句,注释一其他需要说明的 专用词汇的形式说明:每一个词条都应当对应唯一的i d 值,翻译的基础是 每一行的“英文术语”栏。每个英文术语尽量翻译成一个汉语词汇,翻译结果 存放在表中“翻译”栏。如果有英文术语对应的汉语词汇不止一个,为每个汉 语词汇单列一行。采用领域内序号( n r ) 后面按顺序添加字母的方式来区别不 同的翻译结果,例如 1 3k il o m e t en o m千米 1 1l 3 ak il o m e t en o m 公里 如果某个词在目标语言中不存在,就用一个近似词或短语代替,如果这样的 词也不能找到,那就在注释栏标记“n e ”。每个领域至少要有5 0 0 个词条。需要 为每个动词术语列举l 2 个例句。 2 3 3 4 专用词汇的标注 专用词汇的标注同专有词汇的标注过程。 2 3 4 注音 我们首先为每个词条标注了拼音,然后根据拼音到s a m p a c 符号的转换关 系,将拼音转换成s a m p a c 注音符号。s a m p a c 注音符号是专门针对普通话的发 音特点设定的一套语音标注系统,其发音符号及对应的说明见附录3 。 汉语中,每个音节单个出现的时候都有一个缺省音调。但是,在连续口语中, 由于连续变调的影响,一个汉字的实际音调可能会不同于其缺省音调。连续变 调指的是决定音调根据前后音节而变化的一组规则。最重要的规则是当两个上 声相连时,前一个上声将变成阳平。例如:“五 百 ”的实际发音 应当是“w u 2b a i 3 ”。这里“w u 3 ”是缺省发音,因为后面跟的拼音也是上声, 所以“w l l ”的发音变调为阳平。注音时可以注为“w u 3 2 ”,这样缺省音调和实际 音调都可表示出来。附录4 列举出了常见的连续变调规则。根据l c s t a r 成员 讨论后,对注音做以下约定。 厶塑螳垩i 虹遮魁的蝗塞佥土丘 音调标记采用以下形式:一o 、_ 1 、2 、一3 、j 分别代表轻音、阴平、 阳平、上声、去声。 连字号( 一) 也被用作音节标记。 多音字首先标注出所有的读音,然后根据词性手工校正注音。( 因为对 应于不同的词性,词的注音是不同的) 。 外来词的注音。为了统一标注符号,我们建立了从英语音素到s a i p a c 的对应表,从而外来词的标注也可以采用s a m p a c 标注体系,英语因素 到s a m p c c 音素的映射见附录5 。 2 35 词典形式 最终我们将几部分词:通用词表( 包括封闭词汇) 、专有名词、专用名词, 合并成一个总词数超过i o m 的总词表,并以国际上通用的数据交换格式x m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论