




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s l s 摘要 随着计算机技术的飞速发展,词汇的计量研究在近十几年来逐渐成熟,人们更 多、更广的利用词汇计量方式来探索各领域的词汇规律与特点。基于现代汉语词汇 统计研究取得诸多的新成果,本文试图利用中文信息处理技术,对人教版全日制 普通高级中学教科书( 必修) 语文教材的词汇进行相关统计,并将统计结果与现 代汉语常用词表进行比较分析。同时,本文还对近十年的高考语文词语考查题中 的词语情况进行统计,并结合教材词汇统计结果及现代汉语常用词表进行比较 分析。 全文分为五个板块,分别是:语文教材词汇统计相关理论背景及研究现状介绍、 教材语料的相关介绍及词汇统计步骤、教材词汇统计数据分析及教材编写建议、高 考语文语言知识题统计分析及试题命题建议、利用分析报告对高中词语教学展开研 究。 本文将语文教材的统计研究同高考试题以及词语教学研究相结合,通过词汇计 量的方式,利用统计分析结果,找出紧密联系的三者之间所失衡的部分,以求得三 者的平衡发展。 关键词:人教版语文教材词汇统计 应用 a b s t r a c t b yt h er a p i dd e v e l o p i n go fc o m p u t e rt e c h n o l o g y , t h e r e s e a r c ho fv o c a b u l a r y s t a t i s t i c si sg e t t i n gm o r ea n dm o r em a t u r e ,a n dt h i st e c h n o l o g yi sm o r ef r e q u e n t l ya n d w i d e l yu s e dt oe x p l o r et h er u l e sa n dt h ec h a r a c t e r i s t i c so fv o c a b u l a r yi ne v e r yd o m a i n b a s e do nt h ep l e n t i f u lo u t c o m e so ft h er e s e a r c ho fm o d e mc h i n e s ev o c a b u l a r y , t h e c o m p a r i n ga n a l y s i s o ft h ev o c a b u l a r yb e t w e e n - p u b l i s h e db yp e p ( p e o p l e se d u c a t i o np r e s s ) a n d i st a k e no n i nt h em e a n w h i l e ,t h ec o m p a r i n ga n a l y s i so ft h ev o c a b u l a r y s t a t i s t i c sb e t w e e nt h er e c e n to n ed e c a d eo f a n d i s a l s od o n e t h i sa r t i c l ei sc o m p o s i t eo f5p a r t s ,t h e ya r et h ei n t r o d u c eo ft h eb a c k g r o u n da n d c u r r e n ts i t u a t i o no fs t a t i s t i c st h e o r yo fc h i n e s et e x t b o o k s ,t h ep r o c e d u r e so fv o c a b u l a r y s t a t i s t i c sa n dt h ei n t r o d u c t i o no fc o r p u so fc h i n e s et e x t b o o k s ,t h ep r o p o s a lo fh o wt o w r i t eab e t t e rt e x t b o o ka n dt h ea n a l y s i so ft h ev o c a b u l a r ys t a t i s t i c sf r o mt e x t b o o k s , v o c a b u l a r ys t a t i s t i c sa n dt h ep r o p o s a lo f t h eq u e s t i o n sa n du s i n gt h ea n a l y s tr e p o r tf o rr e s e a r c h i n gt h eh i g hs c h o o ll e c t u r i n g t h eu n b a l a n c e dp a r t so fl a n g u a g et e x t b o o k ,c e ea n dl a n g u a g el e c t u r i n ga r ea l s o d i s c o v e r e db yt h et e c h n o l o g yo fv o c a b u l a r ys t a t i s t i c s ,a c c o r d i n gt ot h er e p o r tw e 1 1f i n d a ne f f e c t i v ew a yo fk e e p i n gt h eb a l a n c e k e yw o r d s :p u b l i s h e db yp e p c h i n e s et e x t b o o k v o c a b u l a r y s t a t i s t i c s a p p l i c a t i o n 硕士学位论文 m a s t e r 。st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 能幽? 力 的法律结果由本人承担。 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同意华中 师范大学可以 作者签名 允许北京 兰k 一 蹀牡凝滞群麓鄹狲 导师签名: 么j2 版社出版的中国学位论文全文数据库f 将本人论文 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程 ,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程 中的 规定享受相关权益。回童途塞堡变压鲎卮;旦圭生;旦二生;旦三生蕉查! 作者签名: 日期:小 数 ,一绝 夕弓弘 j“a “ 名 夕 獬钞 师期 争日 为咿 引言 中学阶段的母语教育对学生的智力发展及能力拓展起到了至关重要的作用,中 学生在语言能力形成过程中最直接、最有效的来源是教育语言,它具有特定的内容、 规律及特点。近年来,我国的语文教育不断改革与发展,为了适应新的社会教育需 求,高中语文教育有了新的目标及更深刻的指导思想,即“普通高中教育是面向大 众的、与九年义务教育相衔接的基础教育。社会的发展对我国高中教育提出了新的 任务和要求。必须顺应时代的需要,调整课程目标和学习内容,变革学习方式和评 价方式,构建具有时代性、基础性和选择性的高中语文课程。高中语文课程要充分 发挥其促进学生发展的独特功能,使全体高中学生获得应该具备的语文素养,并为 学生的不同发展倾向提供更大的学习空间。语文课是高中语言教育的重要途径之 一,教师通过语文课围绕语文基础知识积累和语文综合实践能力培养两方面展开教 学。语文教材则是语文教学中重要的资源,它是教学之本,不但体现了国家的意志, 同时也承载了中华民族的文化。 在语文教学中,词语教学有着重要的意义,一个人丰富了字词就相当于丰富了 概念,同时也丰富了世界。高中生通过丰富词语来充实头脑以及形成对世界丰富的 主观认知,不仅是该阶段的任务,同时也是整个人生的追求。语文教材的用词状况 不但直接关系到语文教学的效果,同时还关系到学生语文综合能力的培养及拓展。 那么必须对教材中的用词状况有更加清晰、直观的认识,才能更好的为语文教学打 下基础。要了解词语的使用及分布情况,必须通过一定的统计手段完成,随着时代 的发展,我们现在所使用的词汇统计手段基本借助于计算机完成,也就是运用中文 信息处理技术进行汉语词汇统计研究。 近十几年来,许多研究人员对我国现有的部分语文教材进行过一定的统计研 究,主要体现在基础教育语文教材及对外汉语教材用字用词的计量研究,而尚未出 现针对高中阶段的语文教材的词汇统计研究。探究其因,我们发现由于语言基础知 识的教学是基础教育中的主要内容,也就是小学和初中阶段,人们认为学生通过基 础教育阶段的词语学习就足以打好了坚实基础,进入高中阶段后应该着重于语文综 合能力的培养,也就是更加突出语文学科的人文性。然而,如今的高中生普遍存在 阅读理解及遣词造句能力低下的问题,极大的影响了学生对选文的理解,并导致学 习、考试及日常生活中词语滥用现象,这都说明了现今的高中生其实仍然处于语文 词语匮乏阶段。显然,高中阶段语文教育的词语学习不容忽视,它不仅关系到学生 。教育部:普通高中语文课程标准( 实验) 硕士学位论文 m a s t e r st h e s i s 语文综合能力的发展,还关系到我们整个民族语言文化的传承。因此,高中语文教 材中的词语状况研究与分析是当务之急。 高中语文教材中的词汇是否满足高中生的语言需求,是否与高考语文试题中词 汇考察的范围同步,通过对这类问题的研究,我们可以对高中语文的词汇教学有一 个清楚的认识,同时还可以将中文信息处理技术及方法引进到词语教学的研究中, 推动语文教学的现代化。本文将运用中文信息处理技术统计分析高中语文教材中的 词汇,并利用这些统计数据来研究分析教材编写、高考试题的命题以及词语教学方 法,从而提出评价意见与建议,为高中语文教育带来崭新的发展环境。 2 硕士学位论文 m a s t e r 。st h e s i s 教材词汇统计研究 1 1 关于词汇统计方法 “对于一门科学来说,其成熟的一个主要标志就是研究方法的科学化、系统化。 早期的词汇统计大都直接统计词汇在文本中出现的次数( 或频率) ,使用的统计概 念有频次、频率、频度、频数等。 研究发现,单纯的将频次或频度作为选词标准 过于片面,词语出现次数多并不代表分布均匀,而频度对于范围较小的词语统计才 具有可靠性。之后相继出现“分布率”、“使用度” 的概念,分布率同频度相结 合考虑才具有合理性,因此也不能片面的把分布率作为选取常用词的唯一标准。“后 来,很多词语统计工作者都采用了分布率标准和频度标准双管齐下的选词方法。 然而采用这种双管齐下的方法,在实际应用上会遇到许多困难。最理想的途径是能 找到一种办法,把频度和分布率两者有机地结合起来,变二元数据为一元 数据,同时又能客观而合理地体现两者的作用。 接着,尹斌庸、方世增又提出了 “通用度的概念,“通用度已经兼顾到词语的分布率和频率两个方面,并且把两 者有机地结合起来了。频率、使用度、通用度都是基于静态语料统计的结果,为 强调语料的动态性,再后来张普提出了“流通度”的概念,并给了基于加权的流通 度的计算方法,即:流通度= 流通量流通密度流通空间流通率。 “各种统计方法都有各自的用武之地,词语的使用频次是最为基础的数据,但 就常用词的筛选来说,使用率和通用率的算法得出的结果更符合人们的语感;流通 度可以作为语料库选取语料的标准,但不宜作为选取常用词的标准。 当然,我们 并不能因此而否定某种统计方法,并定义其优劣,选择一个适合于自身研究的统计 方法才是最合理的。 1 2 教材词汇统计研究现状 。陈原:现代汉语定量分析,上海教育出版社,1 9 8 9 年。 o “分布率”指词汇出现的文本数与统计的文本总数的比率。 o “使用度”指一种将词的使用频率与词的分布进行综合考虑的统计方法。 回尹斌庸、方世增:词频统计的新概念和新方法,语言文字应用,1 9 9 4 年第2 期。 o “通用度”指词语在语言应用的各个领域里常用性的指标,也就是词语在语言应用的各个领域里通用的程度。 同 。 o 刘云:汉语词汇统计研究述评,汉语学习,2 0 0 9 年第1 期。 侯敏:语言监测与词语的定量研究,中文信息处理前沿进展中国中文信息学会二十五周年学术会议 论文集,清华大学出版社,2 0 0 6 。 3 硕士学位论文 m a s t e r st h e s i s 我国关于教材词汇统计的研究,是随着中小学语文教育及对外汉语教学的发展 而日趋增多。统计的对象主要是基础教育的小学、初中语文教材和对外汉语相关教 材。 在2 0 0 0 年,就出现了有关中小学语文教材的统计研究,该研究利用中文信息 处理技术开发了人教版、北京版两套九年义务教育课本的字词查询系统,该系统可 以从不同的角度对课本的汉字分布( 包括:频度、分布度、出现的先后顺序、常用 字覆盖率、字词之间的关联等) 做统计分析。2 0 0 6 年首届全国教育教材语言专题 学术研讨会中,有研究者报告了小学语文实验教材的文字状况统计,研究主要从字 量、整字、构词三个层面,进行了字种数统计、字的常用情况统计、文字频率统计、 笔画统计、部件统计、结构类型统计、构字类型统计等。随后也出现了对小学语文 教材常用词的相关统计研究,研究从人教版、北师版、江苏版三套小学语文改革实 验教材的低年级常用词使用状况进行了调查,通过相关数据的统计分析和比对,研 究发现三个版本教材的常用词在选取和构建上有很强的一致性,其共有常用词与社 会常用词也有很大的交叉,并得出这些共有词可以作为编写小学语文教学大纲儿童 必学词汇等级词表核心依据的相关结论。在2 0 0 8 年第二届全国教育教材语言专题 学术研讨会中,苏新春作了关于词汇统计法比较的研究报告,比较了频次、分布、 使用度三种统计法的特点,并分析了不同方法对统计结果的影响;与此同时,他还 对四套新课标语文教材的词汇统计研究结果进行了相关报告,并提出了若干初步思 考,该研究的详细调查情况收录于中国语言生活状况报告2 0 0 7 ) ) 中。此项研究是 目前针对我国基础教育语文教材最为全面、系统的调查研究,该调查选用了人教版、 苏教版、北师大版、语文版的小学和初中共9 个年级的教材,四套共计7 2 册,2 0 0 9 篇课文,并同时调查了四套语文教材中的用字、用词、基本句型等内容;在教材用 词调查方面,主要统计了分词单位总数、词总数、词种数、共用词种数、独用词种 数,使用的分词软件是中国科学院自动化研究所研制的分词标注系统。统计出分词 单位总数12 9 01 2 6 词次、总词次10 7 73 6 3 词次、词种数5 06 7 0 个、四套教材共用 词种数1 04 6 0 个。这项调查研究利用分布法提取了新课标语文教材30 0 0 基本词语, 将这些独立性强、凝固度高、概念明确的词语最终并编为“新课标语文教材30 0 0 基本词语表 。固 。李镗:中小学语文课文字词分布统计及戍用价值,语言文字应用,2 0 0 0 年第3 期。 o 欧阳晓芳:小学语文教材常用词统计分析及其价值,江汉大学学报( 人文科学版) ,2 0 0 7 年第2 期。 。国家语言资源监测与研究中心:中国语言生活状况报告2 0 0 7 下篇,商务印书馆,2 0 0 8 年,第4 4 9 - 4 6 2 页 4 硕士学位论文 m a s t e r st h e s i s 2 教材语料及其词汇统计步骤 2 1 语料来源介绍 作为我国的权威高中语文教材,人民教育出版社2 0 0 3 年6 月出版的全日制 普通高级中学教科书( 必修) 语文( 以下统称人教语文) 既贯彻了国家课程改革 的精神,又落实了高中语文课程标准的要求。它是根据教育部2 0 0 2 年颁布的全 日制普通高级中学课程计划和全日制普通高级中学语文教学大纲,在全日 制普通高级中学教科书( 试验修订本必修) 语文的基础上修订而成的。 人教语文体现高中语文的基础教育性质,在突出人文性的同时,充分注意语文 学科的工具性。从某一层面上看,语文基础知识包括语音、文字、词汇、句子、语 法、修辞、逻辑和标点八个方面,文言文包括字、实词、虚词、句式四个方面,文 学常识包括外国、古代、现代和当代四个方面,阅读和写作包括中心、选材、结构、 表达、语言、体裁六个方面等。人教语文同时也注重学生的学习能力及方法,其结 构日趋整合,即构建尊重学生个性差异、发展学生健康个性的教材体系。这一体系 有机地融合了语文内部的听、说、读、写的要求,同时紧密地联系了社会、生活和 其他学科知识,为多层次、多角度地培养学生的语文综合实践能力而设计编写。该 教材“在阅读教材中,兼顾写作、口语交际;在写作、口语交际教材中,兼顾阅读 教材与写作、口语交际教和配合,合编为一本书。 圆 语文学科本身具有工具性与人文性相统一的基本特点。语文学科的工具性和人 文性相互依存、相辅相成,形成语文学科的统一体。其人文性是内容,工具性是形 式,两者辩证统一,不可分割。我们知道,语言是交际的工具,用来表达感情、交 流思想、传递文化,那么语言掌握的最佳途径也就是通过语文的学习。语文教学承 担着学生学会用语言理解以及自我表达、学会用语言进行交际、学会对语言进行积 累。语文的价值不仅表现在工具职能上,同时还具有人文意义上的多重功能。然而, 与之前的旧教材相比较而言,新教材加入了许多有关人文以及人性的内容。教材的 人文性特质的增强,展现了对人性的尊重,并将更多的生活意义和人性价值赋予了 语文教育,这是对学生精神、物质生活关怀的具体体现。因此,该教材在兼顾“工 具性与人文性 学科特征的同时,力求突出对人文性理解。 从2 0 0 9 年下半年起,湖北省各所高中也进入了新课标的实施行列,所有的高中 国周刚:高中新旧语文教材对比初探,路桥教育网: h t t p :w w w 1 q e d u o r g a r t i c l e s h o w a r t i c l e a s p ? a r t i c l e l d = 2 3 5 5 ,2 0 0 6 年。 。人民教育出版社中学语文室编著:语文( 第一册) ,北京:人民教育出版社,2 0 0 3 年。 5 语文教材都更换为人教版普通高中课程标准实验教科书,本文之所以选用全 日制普通高级中学教科书( 必修) 语文教材作为研究主体,是因为该教材使用年 限长,使用范围广,对于本文研究近十年高考试题具有很高的参考价值,而新教材 使用年限不到一年,同时本届高中毕业生还未经过2 0 1 0 年高考的考验,新教材的 价值还未得到体现,因此前任教材是本研究最佳素材。 人教版高中语文教材的使用程度之高、范围之大广为人们所知,全国各地的中 学除了大部分地区使用人教版的教材外,有一些地区的中学还使用苏教版、粤教版、 语文版、上教版等出版的教材。据粗略统计,山东省及广东省少数地区的高中、海 南省及福建省9 0 的高中、宁夏6 0 的高中、辽宁省8 5 的高中和北京5 0 的高中 使用的是人教版高中语文教材,而安徽、天津、黑龙江、吉林、湖南、湖北等省基 本上全部使用人教版教材。 2 2 待统计语料的准备 按照本文的研究目的,我们所收集的语料素材,主要是人教语文教材中选文的 具体内容。准备工作是将选文内容输入到计算机系统的文本文件中并储存。存储在 计算机系统中的语料文件其原始形式可以是由不同的文字编辑器所创建的文档,那 么文件的数据格式也会存在一定的差异,目前比较流行的文件格式有:m i c r o s o f t w o r d 文档( 即d o c 格式) 、纯文本文件( 即t x t 格式) 、p d f 文件( 即p o r t a b l ed o c u m e n t f o r m a t 一p d f 格式) 、r t f 文件( 即r i c ht e x tf o r m a t _ n f 格式) 等等。为了满足人 们对不同文件的不同使用要求的需要,不同格式的文件其内容的显示形式、排版都 有相应的技术规格,然而这却给文件之间信息的交换带来了许多不便之处。一般来 说,为了便于计算机对语料进行字符处理,语料文件越纯粹越好,语料库中的多数 材料则采用纯文本文档格式( t x t ) ,t ) ( t 格式纯文本文件是包含极少格式信息的文 字文件的扩展名,它并没有明确的定义,通常是指那些能够被系统终端或者简单的 文本编辑器接受的格式。任何能读取文字的程序都能读取带有t x t 扩展名的文件, 因此,通常认为这种文件是通用的、跨平台的。该格式的文件中只保留单纯的文本 内容而不含别的信息,像w o r d 文件中就含有排版信息及宏命令等,所以w o r d 文 件不适合作为语料的存储文件。为了免除排版等其他信息,我们这里将使用t x t 文 档作为语料的存储文件,这也是本研究中使用软件所指定的语料文件格式。 2 2 1 语料的选取原则 语料选取最常用的是随机取样方法,即“通过随机采用一个或多个具体学科领 6 域里大量的现成语料( 如广播、报刊、书籍文献上的大段话语) ,来达到自然的覆 盖这些领域里常用词语和专门术语语言样本或某种结构模式的目的。”从某种意义 上说随机选取方式具有两点盲目性:其一,在随机的过程中会产生大量重复的相同 语料,造成语料存储量加大及进行字词频统计时误差的过度产生;其二,由于该种 选取方式所得的自然语料本身具有局限性,部分在实际的自然语言里存在着的结构 模式或规则不可避免被漏选,因此会导致收录的语料不够全面典型。介于随机取样 方式的缺点,定向编辑正好可以克服这方面的不足。定向编辑并不是简单、直接地 使用现成自然语料,而是根据特定的结构规则,从自然语料中有计划、有目的地选 用、编辑所需的语料,这种选取方式不但可以保证所选语料的全面典型,而且简明 经济。定向编辑的方法适用于某一特定领域或特定目的而建立的语料库其语料的选 取。这些因不同目的、不同种类、不同规模建立起来的语料库,都是作为反映自然 语言某方面或多方面特性的标志。因此,定向编辑方式进行语料选取的基本原则是 能够代表自然语言某种局部规则体系的特征,具有全面的模式及典型的语料。 本文主要对人教语文中词汇进行统计与分析,因此研究目的明确,所需要选取 的语料为教材中的现代汉语白话文内容,使用定向编辑方法选取语料而建立相应的 语料库是合理、可行的。 2 2 2 语料的选取范围 全日制普通高级教科书( 必修) 语文的全六册是本文语料收集的原始素材, 因为本课题所研究的主要是教材中的现代汉语词汇,我们将选取教材中的现代汉语 白话文内容作为被统计的语料,既不包括古诗词、文言文,同时去除教材中的说明 性文字及注释,只保留单纯的文章内容。 教材中语料的具体题材包括:中国现当代诗歌、外国诗歌、中国现当代散文、 外国散文、中国现当代小说、外国小说、中国现当代戏剧、外国戏剧、演讲词、序 言、杂文、科技文、随笔、中国古代白话小说、哲学论文及随笔、文艺学论文及随 笔、西方现代主义文学、科技论文、说明文、语言学论文。 语料素材的具体内容包括: 第一册:沁园春长沙、采桑子重阳、再别康桥、死水、赞美、错 误、致橡树、面朝大海,春暖花开、致大海、篱笆那边、我愿意是急流、 雨巷、预言、窗、孤独的收割人、豹在巴黎动物园、谈读诗与趣 味的培养、拥抱文学的骄子诗歌、荷塘月色、我的空中楼阁李乐薇、我 。曹剑芬:谈谈语料库的语样选取问题,计算语言学应用与研究,北京语言学院出版社,1 9 9 3 年。 7 硕士学位论文 m a s t e r st h e s i s 与地坛( 节选) 、花未眠、散文的艺术魅力、在马克思墓前的讲话、我有 一个梦想、在庆祝北京大学建校一百周年大会上的讲话、我的呼吁、 自序、胡同文化、 序言、 序; 第二册:祝福、边城( 节选) 、荷花淀、装在套子里的人、拿来主义、 我若为王、庄周买水、剃光头发微、南州六月荔枝丹、 导言、 神奇的极光、这个世界的音乐、咬文嚼字、读 、说“木叶 、 米洛斯的维纳斯; 第三册:记念刘和珍君、故都的秋、道士塔、泪珠与珍珠、灯下漫 笔( 节选) 、漫话清高、巴尔扎克葬词、美腿与丑腿、我为什么而活着; 第四册:药、项链、陈奂生上城、守财奴、林黛玉进贾府、林教 头风雪山神庙、失街亭、杜十娘怒沉百宝箱、雷雨、茶馆、罗密欧与朱 丽叶( 节选) 、三块钱国币; 第五册:人生的境界、人是什么、庄子:在我们无路可走的时候、孔 孟、我国古代小说的发展及其规、中国艺术表现里的虚和实、谈中国诗、重 新创造艺术天地、阿q 正传、变形记、墙上的斑点、等待戈多( 节选) 、 百年孤独( 节选) ; 第六册:数学与文化、熵:一种新的世界观( 节选) 、千篇一律与千变万 化、宇宙的未来、语言与文学、语言的演变、修辞是一个选择的过程、语 言是人类最重要的交际工具、红楼梦( 节选) 。 2 3 语料的词汇统计步骤 2 3 1 文本语料的词语切分 在语料选定之后,接下来的工作是对语料进行词语切分。如果是处理大规模的 语料,以人工手动切分方式处理的工作量是难以想象的,这时就必须运用计算机软 件对语料进行自动分词。软件中须有一套较完整的词表以用来匹配语料中的词语。 不同的分词软件,其功能及性能都会影响语料最终的处理结果。理想的词语切分软 件,首先要解决好两个问题:一是在一段能够切分出多个不同词汇的字串中,自动 选择一种正确或者最优的切分。例如在:“解放大道路面积水 ,该字段属于交集型 歧义字段,其中“解放、“放大、“大道”、“道路”、“路面 、“面积”、“积水”都 能独立成词,这就要求机器具备自动分歧能力。其二是软件内部的词表中所没有的 。人民教育出版社中学语文室编著:语文,北京:人民教育出版社,2 0 0 3 年。 8 词语的处理,也就是对未登录词语的自动识别。然而,如今汉语的自动分词技术距 离理想状态相差甚远,拥有不少难点尚未解决,其中包括:分词单位的确认、分词 算法的不完善、未登录词及人名地名的识别等。 本文选取的语料规模不大,因此采用适用于一般研究的词频统计软件进行处 理。基于软件所具备的不同功能,本课题将同时使用多个软件进行处理,以达到研 究的需要。所使用的软件包括由肖航先生自行开发的文本字词频率统计工具 ( m y z i c i f r e qv 1 0 ) 、武汉大学信息管理学院沈阳老师研发的r o s tc o n t e n t m i n i n g 内容挖掘软件、中国科学院计算技术研究所研制的汉语词法分析系统i c t c l a s ( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y ,c h i n e s el e x i c a la n a l y s i ss y s t e m ) 。 2 3 2 词汇的登记 词语切分完之后,下面将进行词汇登记。这一步骤已在本文所使用软件分词后 自动登记,因此我们看不到其处理的过程。词汇登记的原理是:“按顺序从分词后 的语料中取出一个词,将该词与词表中的词逐一对比,得到相匹配的数据就在该词 的计数单元上加1 ;若词表中没有这个词,该词自动列入词表末端,并生成一个新 的计数单元,并加l 。循环该步骤,直到读取整个语料为止,重新开始第二个词的 登记,以此类推。而在计算机中的词表并不是固定不可扩展的,它可以自动生成并 添加新单元数据,甚至生成一个新的词表。 2 3 3 词汇综合统计 在词汇登记完成后,软件开始对词汇进行综合统计并生成词频统计数据,在统 计过程中需要按照以下步骤: ( 1 ) 合并词表,计算出词语的词次及频率; ( 2 ) 通过累计,计算出词表中的总词条数; ( 3 ) 计算语料的的汉字总量; ( 4 ) 按词的频次高低排列造表; ( 5 ) 按词的使用度大小排列造表; ( 6 ) 计算汉语词汇总信息量。 在统计过程中需要说明的是,软件处理时只统计汉语词频,不计英文单词等; 词频统计速度较慢,每秒处理30 0 0 字左右;词的频次高低可以按照升序降序进行 排列;生成结果需要手动保存。 。林联合:汉语词汇统计的步骤和词汇使用度的计算,辞书研究,1 9 8 6 年第4 期。 9 硕士学位论文 m a s t e r st h e s i s 2 4 词频统计报告的生成 这里我们首先使用m y z i c i f r e qv 1 0 软件对文档进行处理,处理文档的范围是人 教语文全六册中现代汉语的选文内容,存储为“全六册t x t ”,所得到的统计数据包 括:序号、词语、出现次数、频率四个项目。统计结果在软件的窗口出现时,点击 “导出词频数据按钮,将会自动生成名为“# 词频统计# 2 0 1 0 宰t x t 的结果文档。 整个统计过程处理总字符数( 含空格与标点符号等) 约3 4 34 3 4 个,其中词语数1 8 9 1 3 4 个,出现不同词语个数2 12 9 8 个。下面我们将提取结果中前1 0 0 条词语,分四 组制表,每组有三个项目的数据:词语、词语频次及词语频率。 表2 1 :人教语文全六册词频统计示例表 词语频次频率 词语 频次频率 词语 频次频率 词语 频次 频率 的 1 15 0 7 6 0 8 4地6 3 9 0 3 3 7 9 相 3 6 7 0 1 9 4 就是2 6 1 0 1 3 8 ,i 了 39 7 8 2 1 0 3 3没有6 1 6 0 3 2 5 7 很3 6 5 0 1 9 3 2 5 9 0 1 3 6 9 是 25 0 01 3 2 1 8上6 1 50 3 2 5 2 尔 3 5 20 1 8 6 1 这个 2 5 80 1 3 6 4 他 23 7 41 2 5 5 2 要 6 0 30 3 1 8 8会3 3 90 1 7 9 2过2 5 60 1 3 5 4 我 23 2 61 2 2 9 8得5 9 90 3 1 6 7但3 3 80 1 7 8 7 被 2 5 40 1 3 4 3 在22 9 01 2 1 0 8而5 8 70 3 1 0 4拉3 3 70 1 7 8 2斯2 5 30 1 3 3 8 21 4 81 1 3 5 7把5 8 40 3 0 8 8做3 3 00 1 7 4 5多2 5 00 1 3 2 2 这 16 6 20 8 7 8 7 那 5 6 10 2 9 6 6 大3 2 9 0 1 7 4 十 2 4 90 1 3 1 7 你 14 5 6 0 7 6 9 8还 5 2 20 2 7 6 用3 2 9 0 1 7 4 几 2 4 10 1 2 7 4 也 13 8 00 7 2 9 6 什么 5 1 90 2 7 4 4 为 3 2 50 1 7 1 8才2 4 00 1 2 6 9 不 12 8 90 6 8 1 5种5 1 20 2 7 0 7却3 2 10 1 6 9 7给2 3 90 1 2 6 4 着12 3 00 6 5 0 3 由 4 8 90 2 5 8 5与3 1 90 1 6 8 7使2 3 9o 1 2 6 4 有11 5 10 6 0 8 6个4 7 50 2 5 1 1可以3 0 30 1 6 0 2走2 3 9 o 1 2 6 4 说 10 5 5 0 5 5 7 8看 4 7 10 2 4 9 昵 2 9 80 1 5 7 6 诗2 3 3 0 1 2 3 2 就 9 9 20 5 2 4 5 之 4 7 10 2 4 9 因为 2 9 40 1 5 5 4 道 2 2 60 1 1 9 5 来9 8 10 5 1 8 7到4 6 80 2 4 7 4好2 9 30 1 5 4 9起来2 2 60 1 1 9 5 和 9 2 30 4 8 8便4 6 10 2 4 3 7见2 8 80 1 5 2 3听2 2 60 1 1 9 5 人9 0 30 4 7 7 4自己4 3 60 2 3 0 5事2 8 8 0 1 5 2 3跫 2 2 5 0 1 1 9 又8 3 40 4 4 1他们4 2 00 2 2 2 1所2 8 8 0 1 5 2 3 再2 2 5 0 1 1 9 一个8 0 00 4 2 3 它 4 1 40 2 1 8 9 小 2 8 10 1 4 8 6已经2 1 90 1 1 5 8 她7 7 10 4 0 7 6两4 0 60 2 1 4 7 这样 2 7 7o 1 4 6 5不是2 1 70 1 1 4 7 我们7 6 00 4 0 1 8阿3 9 40 2 0 8 3知道2 7 70 1 4 6 5不能2 1 60 1 1 4 2 里7 3 90 3 9 0 7只3 9 40 2 0 8 3时2 6 40 1 3 9 6能2 1 20 1 1 2 1 去 7 1 8 0 3 7 9 6从 3 7 50 1 9 8 3 现在 2 6 4 0 1 3 9 6可是2 1 1 0 1 1 1 6 都 7 1 10 3 7 5 9对3 7 30 1 9 7 2 将 2 6 10 1 3 8 像 2 0 90 1 1 0 5 1 0 硕士学位论文 m a s t e r st h e s i s 3 人教版高中语文教材词汇统计分析 语文教材是学生最直接的语言知识获取载体,在语文教学体系中字词教学是最 底层、最基础的,因此语文教材是学生汉语词汇习得的关键,学生在掌握书面语系 统的过程中语文教材成为了学生学习的主要渠道,他们无论是在考试还是在日常生 活中都会很自然的掌握教材里的词汇并加以运用。据统计,我国九年义务教育的小 学生大致要掌握约30 0 0 40 0 0 个汉语词汇,初中生大致要掌握约50 0 0 , 、, 90 0 0 个 汉语词汇,而高中生则大致要掌握约3 00 0 0 - - 1 30 0 0 个汉语词汇。 我们可以将人教语文教材中的所有字词看作成一个相对独立的系统,从系统内 部来看,它体现了汉语的基本规律;从系统外部比较来看,它又具有自身的特质。 那么如何利用语文教材中的词汇系统将字词教学更好的展开、如何对语文教材词汇 系统的优劣进行评价、如何从字词教学的角度提高教材的编写质量并给出教材的编 写意见,针对这些问题,我们将利用统计报告分析人教语文教材编写的合理性。 3 1 教材词汇系统的分析与评估 3 1 1 高中阶段学生词汇量比较分析 根据我国现行基础教育的不同阶段,曾有研究者对母语教育词汇等级给出了一 定的划分建议,将词汇量习得分为三段和六级。三段包括义务教育的中低段也称为 小学段,义务教育的高段也称为初中段、高中段;每一段都分为基本级和发展级两 个水平标准,因此一共有六级。基本级是最低要求即合格标准,是为学生设定的词 汇习得的基本要求;发展级是该段的上位标准即优良标准,是为具有较好发展潜力 的学生设定的水平发展目标。数量标准二段六级以1 20 0 0 - 1 50 0 0 的词汇量为宜。 具体分配见下表: 表3 - 1 :我国现行基础教育词汇等级建议表 固定词汇 学段目标常用词新词语 古代诗 合计 成语谚语歇后语惯用语格言 文名句 基本级19 6 231 8 2 小学段 1 0 08 0 03 02 02 05 02 0 0 发展级 29 0 341 2 3 基本级 47 0 757 3 7 初中段 2 0 05 0 05 04 06 01 0 08 0 发展级77 6 387 9 3 基本级92 9 099 4 0 高中段 3 0 02 0 02 02 04 05 02 0 发展级1 24 9 91 3 1 4 9 o 赖华强:语文词汇定量研究:一个供讨论的标准,语言教学,2 0 0 7 年第2 期。 1 1 硕士学位论文 m a s t e r st h e s i s 由表3 - 1 的数据我们可以看到,建议高中生在高中阶段的基本级汉语词汇量为 99 4 0 个,而达到高中段最高级发展级所建议掌握的词汇量为1 33 4 9 个。据统计, 现在我国汉语词汇的总词种数已达到约:1 6 6 万余条,这么庞大的词汇系统,如果从 中抽取不到1 作为语文高中段等级词汇,那么这些词汇绝对不可能采取随机选取, 选词范围应主要定位于基本性、普遍性较好的现代汉语常用词。但像成语、谚语、 歇后语、惯用语、格言警句和古代诗词曲文名句这样的固定语汇普遍性好、表现力 强,也应当被选取进来。这样一来,词频统计成为最有说服力的选词依据,当然在 某些情况下还需要使用一定的人工筛选以及社会调查统计方法。 接下来我们谈谈关于高中段词汇量的定量依据及选取原则问题。词语的普遍性 好与否,其最有力的评判标准就是词频数据的高低,也就是一个词在总语料中所占 的比重。词语经过频率的统计,得出升序或者降序的排列,随之产生了一个下游数 据,即“累积覆盖率 。词语频率的高低会直接影响这个数据的值,而高频词又是 对该值影响程度最大的,其范围的大小是词语统计中最为人们关心的内容之一。一 个语料库的大小、词语频次的高低决定了高频词的范围选取。我们先来看词语在总 语料中的覆盖率分段情况,见下表: 表3 2 :词语在总语料中的覆盖率分段情况 累积覆盖率词语数词频数语文词语语文词语比例 5 0 6 5 79 13 5 46 2 79 5 4 3 8 0 54 0 391 4 950 3 99 3 2 6 9 0 1 51 3 6 20 5 41 37 2 09 0 6 4 5 6 0 0 8 2 0 0 0002581 2 0 0 1042370 2 0 0 2250450 2 0 0 3211354 2 0 0 4024451 2 0 0 520 4 19 4 2 0 0 6002590 2 0 0 7 002464 2 0 0 8 032290 2 0 0 9011770 总计 61 62 03 87 01 4 百分比 3 6 6 9 7 6 1 2 2 0 2 3 1 7 4 2 6 8 8 5 4 这里我们选择被分割词语中词序较高的作为参考词序,如“倜傥不羁 中倜傥 ( 3 31 7 0 ) 、不羁( 2 57 4 7 ) ,我们暂且认定该词的参考词序为3 31 7 0 ,并记录于表 4 2 中“ 3 00 0 1 的数据中。由该表的数据我们发现词序超过3 00 0 0 及超词表词共 占试题总词数的约5 0 ,词序在2 00 0 0 以下的词语占试题总词数的2 5 ;而在常用 词表60 0 1 - 1 30 0 0 分段中的词语只有1 6 条,约占试题总词数的9 7 6 。这1 6 条词 语分别是: 2 0 0 1 年:震撼、喧嚣、气概、辍学; 2 0 0 2 年:留恋、利害得失、质疑、变换、大意; 2 0 0 3 年:备受青睐; 2 0 0 4 年:烦躁、松弛; 2 0 0 8 年:归纳演绎、相辅相成、面容安详; 2 0 0 9 年:突如其来。 那么考题中的词语在教材词表中出现情况根据表4 1 所显示,出现率最高的是 2 0 0 0 年试题,1 6 条词语中有约8 条分布于教材词表中;最低的是2 0 0 6 年试题,只 有1 条词语出现于教材词表;十套试题中的词语在教材词表中的平均出现率只有约 2 1 ,而它们分布于常用词表6 0 0 1 1 3 0 0 0 分段中只有7 条,分别是: 2 0 0 1 年:气概( 1 03 1 2 ) : 2 0 0 2 年:留恋( 1 16 4 9 ) 、变换( 97 9 6 ) ; 3 1 2 0 0 4 年:烦躁( 1 1i l o ) 、松弛( 1 25 9 9 ) i 2 0 0 8 年:归纳( 8 4 5 8 ) 演绎; 2 0 0 9 年:突如其来( 1 02 6 6 ) 。 下面我们调查词语使用辨析题中的词语分布情况。 表4 3 词语使用辨析题的词语统计 汉语字形考查现代汉语教材统计 汉语字形考查试 现代汉语 教材统计 试题中的词语常用词表中结果中词题中的词语常用词表中结果中词 的对应词序语的序号的对应词序语的序号 2 0 0 0 年第4 小题2 0 0 1 年第4 小题 汗牛充栋 4 21 9 8 安步当车 5 31 0 4 淋漓尽致 1 5 4 8 6 1 56 9 0 颐指气使 3 16 9 7 洗心革面 3 9 0 0 1 车水马龙 1 95 1 3 1 2 0 5 1 左右逢源 3 56 2 2 蓬荜生辉 2 0 0 2 年第4 小题 2 0 0 3 年第4 小题 光怪陆离 2 79 3 1 捉襟见肘 2 31 5 1 雨后春笋 1 8 0 1 7 未雨绸缪 1 67 7 9 有口皆碑 2 89 7 4 自惭形秽 2 9 6 0 3 2 11 7 3 偃旗息鼓 3 35 9 5 如数家珍 2 1 0 1 1 2 0 0 4 年第4 小题 2 0 0 5 年第4 小题 相濡以沫 3 1 6 8 6 琳琅满目 1 5 4 3 1 差强人意 3 82 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阿克苏市2024-2025学年七年级下学期语文月考测试试卷
- 安徽省黄山市徽州区2023-2024学年高一上学期期末考试物理试卷及答案
- 安徽省蚌埠市禹会区2024-2025学年高一上学期期末考试思想政治试题含参考答案
- 2025 年小升初阳江市初一新生分班考试英语试卷(带答案解析)-(外研版)
- 广东历年(202511-202611)二级人力师论文题目和答辩真题答案
- 脑卒中后吞咽障碍患者进食护理的团体标准应用
- 社区燃气使用安全课件
- 统编版五年级语文上册第七单元拔尖测评卷(含答案)
- 北师大版四年级上册数学期末检测题(无答案)
- 广州房屋定金合同范本
- T/QX 005-2021加油站油罐机械清洗作业规范
- T/CECS 10226-2022抗裂硅质防水剂
- 人教鄂教版科学 四年级上册 第一单元 多样的动物 单元教学解读
- 2025年江西赣州市融资担保集团有限公司招聘笔试参考题库附带答案详解
- 2024-2025年第二学期学校国际交流合作计划
- 快递驿站合作合同协议
- 美国对全球加征关税
- 造口皮炎护理个案分享
- 街道文体中心管理制度
- 海铁联运集装箱码头共享堆场堆存模板设计研究
- 农业新质生产力:助力乡村振兴
评论
0/150
提交评论