会员注册 | 登录 | 微信快捷登录 支付宝快捷登录 QQ登录 微博登录 | 帮助中心 人人文库renrendoc.com美如初恋!
站内搜索 百度文库

热门搜索: 直缝焊接机 矿井提升机 循环球式转向器图纸 机器人手爪发展史 管道机器人dwg 动平衡试验台设计

   首页 人人文库网 > 资源分类 > DOC文档下载

2005 年度汉语词汇统计的分析与思考

  • 资源星级:
  • 资源大小:93.50KB   全文页数:8页
  • 资源格式: DOC        下载权限:注册会员/VIP会员
您还没有登陆,请先登录。登陆后即可下载此文档。
  合作网站登录: 微信快捷登录 支付宝快捷登录   QQ登录   微博登录
友情提示
2:本站资源不支持迅雷下载,请使用浏览器直接下载(不支持QQ浏览器)
3:本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

2005 年度汉语词汇统计的分析与思考

12005年度汉语词汇统计的分析与思考1苏新春杨尔弘厦门大学学报2006年第6期提要中国语言生活状况报告(2005)是迄今为止语料量最大,词种数最多,发布单位最为权威的调查数据。这是一份反映了新闻语言真实面貌的言语词性质的词表语文词是社会流通词语总汇中的主体,它有着高频性、高分布率、短小化的特点从高频词身上可以清晰地观察到社会发展社会文化。关键词2005年汉语词汇计量研究教育部、国家语委2006年5月22日在北京举行新闻发布会,首次以中国语言生活绿皮书的形式发布了中国语言生活状况报告(2005)。2调查报告分上下两卷,上卷为不同领域的语言面貌及语言热点问题,下卷为对报刊语言、有声语言、网络语言的统计数据。语言生活状况报告的公布,受到社会的广泛关注,出席发布会的新闻媒体达60多家。短短两个月,覆盖总语料80的581个汉字就编成了字典出版。3中国语言生活状况报告(2005)下卷的数据由国家语言资源监测与研究中心的平面媒体网络媒体有声媒体三个分中心采集。统计语料来自全国15家主流报纸、6家新闻网站、13家电视台、9家广播电台的语料。4总字符数达909,429,700个,来自报刊、网站、电台电视台的三类语料分别占到总数的59.3、37.3、3.4。语料单位共计892034个文本文件。对这份语料用分词软件进行切分,得到总字符串为489,240,995词次,减去标点、符号、纯西文分词等字符串后,得到416,090,995词次,将其概括为词种,为1,651,749个。整个20世纪,正式公布的关于汉语、汉字的各种统计,从来没有过如此大的规模。1986年出版的现代汉语频率词典,是我国第一部严格统计意义上的词表,统计语料是180万字,词种数31159条5。1990年出版的现代汉语常用词词频词典,统计语料是2500万字,词种数10万条6。国家语委研制的现代汉语通用语料库,容量达7000作者简介苏新春(1953)厦门大学中文系教授,江西南昌人。杨尔弘(1965)北京语言大学语言研究所教授,河北保宝人。1本次汉语词汇调查是中国语言生活状况报告(2005)的一部分内容。杨尔弘承担了数据汇总工作,苏新春承担了常用词的分析工作。苏新春主持国家语委十五科研规划的项目现代汉语通用词量及分级研究,本文即从通用词理论角度进行观察。本文曾在第二届国际汉语词汇研讨会暨第六届全国汉语词汇学研讨会大会报告。2中国语言绿皮书中国语言生活状况报告(2005)由商务印书馆出版,2006年10月。3常用汉字581,语文出版社,2006年7月。415家报纸为北京青年报、北京日报、北京晚报、法制日报、光明日报、广州日报、华西都市报、环球时报、今晚报、南方周末、人民日报、深圳特区报、羊城晚报、扬子晚报、中国青年报。6家主要网站为新华网、人民网、中华网、中国新闻网、新浪网、网易。13家电视台为中央电视台、北京电视台、上海电视台、上海东方电视台、凤凰卫视、广东电视台、天津电视台、安徽电视台、山东电视台、长沙电视台、重庆电视台、东方卫视、广州电视台,9家广播电台为中央人民广播电台、北京人民广播电台、北京交通台、海峡之声广播电台、深圳广播电台、广东新闻台、天津人民广播电台、上海东方广播电台和中山广播台等9家广播电台。5见现代汉语频率词典,北京语言学院出版社,1986年。XI。得到总词次131万条,常用词8548条。6刘源现代汉语常用词词频词典,宇航出版社,1990。得到词种十万条,书中分布的是一万条常用2万字,词种数约30万条7。可以说,中国语言生活状况报告中对现代汉字和汉语词汇使用现状的反映,是迄今为止语料量最大,词种数最多,发布单位最为权威的调查数据。对其中的词汇数据进行分析,将有助于我们对现代汉语词汇的概貌、构成、分布、特点等拥有更加深入、真实的认识,也会在诸多词汇理论问题上给予印证和启示。一、数据来源的分析在分析前有必要对数据来源做出一些分析。因为语料的不同性质与处理语料的不同工具与方法,将直接影响到数据结果。1.语料的性质由于报刊语言主要是新闻报道,网络语言主要是新闻网站,有声媒体中主要也是新闻内容,因此,语料中的新闻性、社会性、大众性表现得相当突出。当然它又缺乏了另一些不同类型语料的性质,如文学语言的活泼性、描绘性、口语性,科普语言的知识性、术语性,教学语言的基础性、叙述性。2.软件的分词特点大规模的语料处理,仅凭人工来处理是不可想象的。那么,使用何种软件软件的功能、性能如何都会影响到语料处理的结果。本次统计使用的是中国科学院自动化研究所的分词标注系统(下面简称zdhs),该系统在2004年度863中文信息处理与智能人机接口评测时,在8个参评软件中获得较好成绩。它的一个突出特点就是对命名实体有较高的识别率。所谓命名实体就是指包括人名、地名、机构名等在内的专用名词。本次统计出来的词种达160多万条,比其他软件所得词种数多出许多,主要就是多在专用名词上。我们作过一个对比试验,用zdhs和另一个分词系统bdy切分标注了2006年9月9日新浪网上的一篇1800字的新闻深圳试点公安专业化改革工作人员将分为三类,结果是对一般语文性词语切分都差不多,但zdhs多分出了不少人名、机构名,如公安专业化改革领导小组香港投诉警方独立检察委员会李锋李鸿忠刘应力谭国箱王穗明张思平等,而bdy则将它们分成了公安专业化改革领导小组、香港投诉警方独立检察委员会、李锋、李鸿忠、刘应力、潭国箱、王穗明、张思平。有了这样突出的专名提取能力,在9亿字的语料中,获得的词种数当然会多出许多。因为语料一旦被切碎,就会因零碎而被归并,词种数也就不可能随着语料总数的增加而增加了。3.对误差率的处理软件分词或是切错词,或是标注错,自然难免。那么会不会因为有了误差就不能或不敢得出正确的结论误差又会在多大程度上影响着正确结论的得出对误差该做何处理关键在于从什么角度来看待这些误差,以及采用什么样的对策。zdhs自带标注集是42类,但在实际分类中却出现了52类。单看标注类型,误差达20,但从词频来看,这多出的10类标注所包括的所有词频只占总词频的0.3。如尊敬有三种标注v/3497、vn/1637、per/8,即动词3497次,动名词1637次,人名8次,人名就属误标。从标注类型看,误差占了三分之一,可误频8次只占全词总频的0.16。大字更明显,出现了19种词性标注,前五种标注大体可以能得到认可A形容词(1071108),D副词(84148),N名词(25503),V动词(12426),ALOC(10606)8。可是其他14种,频次在1000次以上的只有两种,100至1000次的有4种,100次词。7国家语委现代汉语通用语料库,语言文字应用研究所。对核心库2000万字的统计,得到词种15万条对已精加工的4500万字语料的统计,得到词种24.8万条。据此估计,7000万字的词种数当在30万条左右。总量不会更大,当是受软件影响所致。8表示地名的省略3以下的有8种。这14种标注的词频合起来也只占120万次总频的0.75。可见讹误大都出现在低频范围。那些绝对低频,或是相对低频,从概率统计的角度来看,它们对整体数据性质的影响微乎其微,并不会妨碍我们的分析,不会妨碍我们对词的通常的意义、用法、功能的认识。二、一份反映新闻语言真实状况的言语性质的词表166万条词语包含着怎样的词语,9是需要我们首先弄明白的问题。根据标注,数量最多的前四种是人名613046条、组织机构名594913条、地名238989条、时间名99192条,分别占总数的36.9、14.5、35.7、6,占总词种数的93。这四类都是典型的专名,属于言语词的范畴。当然,里面有些很高频的词应当纳入语言词的范围,但它们在该类词中占的比例很低,不会影响到该类词的规模。如9.9万条时间词,词频为1次的就有5万条,词频为2次的有1.3万条,如十万点、十一秒、10月29日14时55分等。在词频为1万次以上的134条高频时间词中,目前、现在、今年、今日、昨天、今天、现代、去年、当时、下午、昨日、未来、上午等可属语言词,而2004年、2005年、一年、10年、一个月、5年、3年等则属言语词。时间词中绝大多数都是对具体时间单位的指称,属言语词。用这样的方法可以对人名、组织机构名、地名进行同样的观察。如人名中,词频在一千次以上的同姓者中出现了174个姓氏。一万次以上的有6个姓氏,王姓17711人,李姓17100人,张姓15431人,陈姓12791人,刘姓12385人,马姓10296人。实际语言生活中,人名是一个天文数字。13亿人就有13亿个名字,假设平均每个名字重复10遍,不相同的名字就有1300万个。现在可以来得出结论了,2005年度汉语词汇统计所得到的词表,是一份以言语词为主体的反映了语言使用真实状况的词表。言语词,就是指那些专指性强、重复率低、使用范围狭、稳定性差的词语。这与语言词的通用性强、复现率高、使用范围广、稳定性好的特点正好相反。这里所说的语言真实状况更准确地说应该是新闻语言的使用。新闻的构成要素是人事时间地点,四者缺一不可。新闻要新,因此,一条新闻报道,总会带来或新的人,或新的事,或新的时间,或新的地点。因此,人名地名组织机构名时间名在词语总表中大量出现,又是必然的了。认识清楚了2005年度汉语词语统计表的言语词性质,对于我们准确地分析、挖掘、利用这份宝贵的词汇统计材料有着重要意义。上世纪50年代以来,汉语词语表的研制一直没有停止过。限于历史原因和技术条件,前期主要是对常用词词表的研制。10从80年代开始,开始有了全词表的研制。在中文信息处理界,词切分、词标注的软件一般都带有大容量的词表,多在810万条之间。虽然它们的收词原则各不相同,吐纳的严格程度也不一样,但都希望有相当的覆盖面。孙茂松主持的中文信息处理用词表,收词规模在11万条左右,目前已经完成审定工作。这些工作主要是由中文信息处理界完成的,也主要服务对象也是自然语言处理。在语言学界,面向人,服务于语言教学等应用领域的研制工作也在进行着。现代汉语频率词典的8548条,和对外汉语词汇大纲的8822条,属常用词的范畴。现在研制的词表范围则较大,希望对整个现代汉语词汇面貌有所反映。如李行健主持的国家语委课题现代汉语通用词语研究,苏新春主持的国家语委课题现代汉语通用词量与分级研究,收词规模在6万余条。9上面说到调查结果的总词种数是1651749个。这是对词性标注作了归并处理的结果,即在多词性的词中,归并为一个词性,以高频者作代表。为了更好地说明问题,本文下面使用的数据是未作词性归并的数据。它们来自平面媒体的语料(占59.3)和网络媒体的语料(占37.3),不包括有声媒体的语料(占3.4)。由于前二者占总语料的96多,有着足够的代表性。它们的总词种数是1664085条,下面概言时以166万条称之。10刘英林,汉语常用字词的统计与分级,中国语文1992年第3期。4上述各种词表,它们的规模有着这样那样的差别,但在追求词语的稳定性、常用性、通用性上则是一致的。也就是说它们力求反映的是语言系统中的语言词。正是在这点上,它们与2005年度汉语词汇统计表有着巨大的不同。后者对语料对象中的词语是不分巨细、无一遗漏,一概收录在案。性质上的差异,与数量上的巨大差别,是有密切对应关系的。三、语文词语是整个词汇系统的基础与核心任何对真实语料的研究中,不管言语词在言语作品中占的比重有多大,起核心作用,充当基础成分的仍是语言要素。在这份年度词语总表中,同样是如此。语言词的主要成分就是通常所说的语文词语。下面是语文词语的几个特点。1.语文词语的高频性对反映语言的真正面貌与使用状况来说,词频反映的信息比词种数更为重要。词频显示出一个词的社会使用密度、人们的熟知程度,是一个词稳定性的重要标志。四类专名的词种数一共是154.6万,总频次是32364184次,平均词频20.9次。而只占词总数7的所有其他类,词数为117945条,总词频为381370418次,平均词频3232。二者的总词频相差11倍,而平均词频高达154倍。其他类共有38类。它们的划分除了根据词性外,还有基于语义与语用的考虑,如成语、习用语、缩略语、简称等。下面按人们在学习和研究中通常使用到的14种词类来做些分析,语文词语的高频特性会表现得更为突出。表1语文类词语的频次分布11词类符号词种占总词种的比例总词频占总频次的比例词类平均词频名词n456122.7409110002834024.1772193动词v186901.123128489677120.5204542动名词Vn94440.56751184044874.4481949形容词A36210.21759144153533.4843981数词Num23250.13971120586172.9155187区别词B21820.1311238976120.9421786副词D18090.10871260461366.29514398状态词Z11360.068263865090.093340代词R8310.04994172295694.16420734连词C2620.01574109808492.65441912拟声词O1900.01142278100.007146介词P1770.01064185518264.484104813助词u700.00421305921637.394437031语气词Y590.0035514150380.34223984叹词E330.00198156100.004473表中数字反映出来的某些现象值得特别的关注⑴规模大的词类开放程度高。数量上排在前三位的是名词、动词、形容词三类。它们数量大,频次高,占到总词频的48。加上vn类,则达52。它们构成了语言使用中的基本队伍。规模庞大的词类,大体属于开放性词类,它们的接攘地是那广袤无边的专名领域。许许多多的专名会随着语言使用的频次增加而慢慢进入语言词,首先进入的领域11表格中包括了动名词,故有15类。其实其他属于语文词的还有一些,如标了AN(名形词)、AD(副形词)、VD(副动词)。但这里只列前者,一是由于它的数量比较多,高达9000多条,其他的最多是1100条,最少的几百条。二是只有它是较为常见的一个类。5大体都集中于名、动、形等类。⑵封闭性词类的稳定性高。词数在几十至几百的,是数量上的小类。它们词数不多,但稳定性却很高。它们之间也有变动,但一般都不是直接来自于专名,而是来自于语文词语的内部它们变异的起因一般不是来自于社会现实的变化,而是源于语言内部的相互影响。⑶虚词的高频性突出。频次由高到低的前四位是助词、介词、连词、语气词,是虚词中的基本类,它们起着成句的关联作用。前面说到其他类词语的平均词频是3232次,名、动、形的平均词频大体上在这个线上下波动,而这四类虚词的平均词频,最低的2.3万,最高的43万次。频率的高低会直接影响到词语系列统计中的另一个数据累积覆盖率。词频,通俗地说,就是一个词在总语料中所占的比重。由低到高,或由高到低排列,还会产生另一个下游数据累积覆盖率。下面通过累积覆盖率可以很清楚地看到语文词语的高频特性。表2词语在总语料中的覆盖率分段情况12累积覆盖率词语数词频数语文词语语文词语比例1000036840.22348694.63上表数据显示⑴文本数愈多,所见词语愈少,语文词语所占比重愈大。⑵文本数10000是一个重要的界点,达到这个文本数之上的词语,语文词语占到约95,其效用与表5中的100000的词频相当。使用上的高频性,存在上的高分布率,这两个因素直接影响着一个词语的通用度。在词语的通用度统计上,频次与文本数是两个基础数据,其他数据都是经此而衍生出来。一个词的频次与总频次之比,构成了覆盖率,按一定顺序累加而构成累积覆盖率一个词的文本数(还可以是其他的单位)与总文本数之比,就构成了散布率。张普先生提出的流通度,就是再考虑上文本的发行量、发行范围等因素,而反映词语出现语境单位多少的文本数,仍是其中的基础数据。3.语文词语的短小化作为词语中的核心成分,语文词语具有词长比较短的特点。所有词语的平均词长为5.557个字节。分类统计则为语文词语2.298,人名3.399,机构名8.724,地名5.594,时间名7.768。这里统计出的语文词语的词长与已有的调查是相吻合的。14其他四类词的长度则体现出了它们的使用习惯和表达功能。前面说到语文词语在词频与文本散见度上有着明显优势,下表的统计则表明词长在词频与文本散见度上也呈现出明显的关联性。表现出词频数愈高,文本数愈高,词长愈短的趋势,即语文词语具有使用频率高、分布面广、词形较短的特点。表4词长与词频数、文本数的关系词频与词长文本与词长词频数词长(字符数)文本数词长(字符数)13参见现代汉语频率词典,北京语言学院出版社,1986年。前言,Ⅱ。14苏新春,关于〈现代汉语词典〉词汇计量研究的思考,刊世界汉语教学,2001年第4期7100001.85100001.82四、高频词的社会文化意义对这份年度词汇调查材料,人们还可以从语言与社会,语言与文化的角度来进行解读。语言与社会有着密不可分的关系。语言是社会的反映。如此庞大的语料,所包含的人文意义是极其丰富的。下面试分析一二。1.人名考察人名是词语中数量最多的一个类,它是对社会生活最直接的反映。一个高频的人名,往往代表着一个重要的社会事件、一个重要的文化信息。如佘祥林事件,掀起了一场法律风暴,顾雏军代表着我国经济体制改革的焦点与难点。在61万个人名中,频率最高的是刘翔、胡锦涛、布什三个名字。它们分别代表着中国在奥运会上的历史性胜利,及中国与美国两个大国政治。但当把考察的范围扩大些,就会发现社会舞台并不完全由政治人物占据着。把查询范围定在词频5000以上,或者出现文本数5000以上时,共检出人名138个。除了一些不太确定或从严应予排除的以外,如李某王某无极等,其他的可分为四类政治类、体育类、娱乐类、其他社会各界。政治类在里面占的份量并不大,只有16个。数量最大的是体育类,有71人。其次是文娱界,有8人,再次是社会各界类,只有寥寥6人。如下政治类胡锦涛、布什、温家宝、陈水扁、萨达姆、小泉、布莱尔、宋楚瑜、普京、赖斯、米洛舍维奇、安南、毛泽东、卢武铉、查尔斯、贾庆林体育类刘翔、姚明、朱广沪、谢亚龙、费德勒、舒马赫、奥尼尔、常昊、李昌镐、麦蒂、田亮、纳达尔、张宁、伍兹、罗纳尔多、裴恩才、威廉姆斯、杜威、金德、范甘迪、李玮峰、孙继海、郝海东、陈忠和、迟尚斌、陈涛、拜仁、丁俊晖、穆里尼奥、霍华德、阿隆索、郑智、詹姆斯、阎世铎、张海、休伊特、孙英杰、王海鸣、马刺、乔丹、李毅、董方卓、邓肯、布朗、亨利、彭帅、贝克汉姆、萨芬、弗格森、张怡宁、埃弗顿、莎拉波娃、杨一民、罗迪克、尤纳斯、刘德华、达文波特、范志毅、谢晖、安琦、阿加西、李铁、李娜、郭晶晶、王励勤、李世石、郎平、阿德里亚诺、施罗德、周鹤洋娱乐类成龙、金顺、紫玉、赵本山、杰克逊、周杰伦、李宇春、张艺谋其他各类史美伦、李敖、顾雏军、巴金、佘祥林、鲁迅考察这些人名,初看会觉得他们之间似乎缺乏可比性,这个人的知名度为什么能与那个人排在一起,似乎很难说清楚谁更重要。但当从类的角度来考察,就能清楚地感到,活跃在社会层面上的并不都是政治家,人们关心的也并不都是政治,而更多的是生活、文化、娱乐、休闲。体育项目那么多,几乎都能找到流行项目中的顶尖人物。体育名人那么多,体育项目那么多,NBA在这里似乎并不具有突出的优势。但当看完姚明,看完麦蒂,又看到范干迪时,就会发现,对中国人来说,姚明火箭队NBA之间,有着极大的互动。与姚明有关的NBA成员,也相应地得到了提升。这时才会真正明白为什么NBA的球探总会说到姚明的市场价值的含义了。对这些名人作更细致的分析,就会发现他们的名气颇有些不同。刘翔的词频有7万次,姚明是5.5万次,相差不远,但在文本数上,刘翔是2.5万个,姚明是0.85万个,少了1.6万个。可见,刘翔具有更多的社会名气、政治名气,而姚明则更多显示他仍是一位体育界的明星。巴金的词频是0.65万次,但文本数却是138个人名中的最后一位,只有747个文本数。这表明他的知名在广度上还有一定的局限,但8在那个范围中,却是非常响亮,最常为人们提及的名字。2.官职称谓词考察官职称谓词也是文化意味比较明显的一类词。现代汉语频率词典的词表,是一个纯粹的描写性词表,直接生成于语料。15在这个词表的8548条词中,表示官衔义长zhǎng的词22条。可分两类⑴部长、厂长、处长、村长、队长、会长、局长、科长、社长、首长、所长、县长、校长、院长、组长。多用于社会层面。⑵班长、连长、排长、营长、团长、师长、军长。后者除班长也常用于社会层面外,其他基本用于军队。它们能进入词表,显然是受到频率的统计语料的时代特征的影响。把家长包括在内,则一共是23条。而在本词表中,这23条都在其中,另增加136条。稍微分类,发现行政类最多,64条,如市长、省长、外长、司长、委员长军队类24条,如参谋长、支队长、总参谋长、中队长、旅长经济类17条,如董事长、行长、站长、船长、机长社会各界类13条,如秘书长、理事长、馆长、裁判长、台长司法类8条,如检察长、庭长、审判长、警长教育类7条,如园长、学长、教务长、课长家庭类3条,如兄长、户长、族长。在长字的所有同类词中,前10个高频词是家长、局长、董事长、部长、市长、校长、院长、秘书长、队长、会长,属新增的是董事长市长秘书长会长。董事长与市场生活中的经济实体,市长与中国当代国家体制中的城市化、市级管理体制,秘书长和会长与社会学术活动、行业活动的丰富及社团的活跃,都有着密不可分的联系。年度词汇报告,调查的是语言,反映的却是社会。语言反映社会,社会在语言的包融中存在着。语言学界一直主张对语言进行断代研究、封闭研究,这种定量研究不仅对语言内部的结构研究是必要的,对语言的社会性、人文性的研究也是必要的。2005年度词汇调查数据,就提供了这样一份宝贵的定量分析的材料。它值得人们深入地去挖掘、探索和思考。参考文献王铁琨主编,中国语言绿皮书中国语言生活状况报告(2005),商务印书馆出版,2006年10月。北京语言学院语言教学研究所,现代汉语频率词典,北京语言学院出版社,1986年。刘源现代汉语常用词词频词典,宇航出版社,1990。刘英林,汉语常用字词的统计与分级,中国语文1992年第3期。苏新春,关于〈现代汉语词典〉词汇计量研究的思考,刊世界汉语教学,2001年第4期苏新春,对外汉语词汇大纲与两种教材词汇状况的对比研究,刊语言文字应用,2006年第2期15苏新春,对外汉语词汇大纲与两种教材词汇状况的对比研究,刊语言文字应用,2006年第2期

注意事项

本文(2005 年度汉语词汇统计的分析与思考)为本站会员(我爱人人文库)主动上传,人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知人人文库网([email protected]),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

copyright@ 2015-2017 人人文库网网站版权所有
苏ICP备12009002号-5