




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
现代汉语词量与分级,思考,一、现代汉语的词量有多大? 二、包括哪些词语? 三、分几“级”合适?每级界限在哪? 四、词级划分依据的标准和方法?,当代最具影响力的两个常用词表: 现代汉语频率词典,8548条 对外汉语教学词汇大纲,8822条,“语法、语音是有系统的,词汇是一盘散沙。” 最初实践,对现代汉语词典的计量研究,近几年的实践: 现代汉语常用词表,商务印书馆,2008年11月 “对外汉语1500常用词”,见中国语言生活状况报告2006,王铁琨主编,商务印书馆,2007年8月。(收入国家汉办主编国际汉语通用课程教学大纲外语教学与研究出版社,2008年4月) “基础教育3000基本词”,见中国语言生活状况报告2007,王铁琨主编,商务印书馆,2008年11月。,一、现代汉语的词汇量有多大?,对词典的考察 对词表的考察 对大规模真实语料的考察,从词典来考察“词汇量”,1.现代汉语词典的词汇 规范型词典全面反映语言的词汇体系,就要对词语作全面收录,不因某些词语无需查检而不收。 规范型词典对民族共同语词汇的记录是全面的,但不是穷尽的(在理论上和实践上都是不可能的)。现汉是一部中型词典,它在收词上既是全面的,又有较强的选择性。选词的依据,主要不是看查考的需要,而是看词语在语言使用中出现的频率。 晁继周、单耀海、韩敬体:关于规范型词典的收词问题,见现代汉语词典学术研讨会论文集,商务印书馆,1996年版,第70、72页。,现汉词条61000: -单字条10700(4000) -方言词2600 -科技术语60000*0.2=12000 -书语词3800 =31900 从严计算,32000-40000之间。,在现汉的语文词周围存在一条宽阔的接壤词汇带: 1.方言词:现代汉语方言大词典共41卷,收41个方言点的词汇,平均每个点收词8000条,其总数达30万条以上。汉语方言大词典20万条 2.术语词、行业词:数十个学科、行业,以每个2000计,有数十万条。 3.新词语:近30年间,30000余条,每年约1000条。 4.文言词:辞源10万条,汉语大词典非现代词。,方言词与普通话词语的区分: 拇指 大拇指 大拇哥,行业词与普通话词语的区分: 招标、投标、竞标、发标、中标、得标 开标、唱标、流标、跑标、串标、围标 接听 主叫、被叫,新词语与普通话词语的区分 裸露、裸照、裸奔、裸泳、裸尸 裸戏、裸晒、裸聊、裸背、裸肩 /裸机、裸眼 / 裸捐、裸退、裸官,书语词与古语词的区分:,从词表来考察“词汇量”,从大规模真实语料来考察“词汇量”,结论: 从对词典的考察来看,属普通话词汇的语文词词量约6万左右。 从对词表和大规模真实语料来看,大概在8-10万左右。 确定词量的关键在普通话词汇与接壤词汇之间如何划界。,二、现代汉语词汇包括哪些词种,那么在6-8万的普通话词汇范围中,包括了哪些词语?试以下面三种为例: 现代汉语词典(63000/58000) 现代汉语语义分类词典(83000条/77000) 现代汉语常用词表(56008/55600),交集比较:,交集比较:,结论: 没有一种词汇集具有完全的“认同度” ;没有完整地包含它集或被它集所包含。 不同规模、不同性质、不同用途的词汇集都有着自己“独收子”。 参与比较的词汇集愈多,交集愈小,交集的“普遍性”愈突出。,三、划多少“级”合适?,拟建构“基本词集”: 第一级:3000条 第二级:8000条 第三级:30000条 第四级:60000 - 80000条 另有若干附属的专集,词级划分的参考因素:,分布-分布率: 使用-频率-覆盖率: 基础、重要的语义成分: 服务对象、使用范围: 作用与功能,结论: 广分布的词,并不等于高频词;高频率使用词,不等于广分布的词 母语学习者与第二语言学习者的不同; 基础教育学习者与社会使用者的不同;,普遍存在的词不等于使用中的高频词,普遍存在的词不等于使用中的高频词,四、词级划分依据的标准和方法,频次法 分布法 频级法 使用率 使用度 语义分布,分布法与频率法的对比,四套教材词语状况:,分布法与频次分的对比分析,思考一: 频次统计法有相当的误导性。频统计法只有在具有大致相当的分布情况下才具有较好的参考性。,思考二: 使用度统计法能在一定程度上冲淡频次信息的片面性,但它只适用于频次与分布差别不大的现象适用。对频次高分布窄的词语不能起到足够的校正作用,因为频次畸高的因素仍会严重影响到综合数值。,思考三: 词语的分布信息比频次信息有更好的参考价值。 分布统计法能更准确地显示词语的通用性、基础性、大众性。,频级法的使用,频级:在调查对象中相同频次的为一个频级。 频级统计法:根据频级调查词语常用度的一种调查方法。适用于大规模语料调查。特别是对于立足于特性不一、容量差异明显的多个语料库之间比较的大规模词汇统计。通常有升序,降序等。,现代汉语常用词表的 词频序号使用的是频级法,由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级就是同一语料库中的所有词语按频次数量的多少排列时体现出来的排位顺序。相同频次的为一个频级。,频级统计分两步施行。 第一步形成不同类型语料的频级:检测语料有“通用语料库”、“人民日报”、“文学作品”三种,这样每一个词语就有了三个不同的原始频级。 第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。 相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音的字母升序排列。,频级:相同频次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家政服务行业互联网化发展趋势与挑战研究报告(2025年)
- 艺术市场数字化转型路径:2025年数字化交易平台创新与风险控制研究
- 数字艺术作品创作、交易与版权保护2025年市场调研报告
- 工业互联网平台中区块链智能合约安全防护技术研究与应用案例分析报告
- 新能源2025绿色信贷政策执行效果与技术突破与市场前景报告
- 计划员培训课件
- 2025年康复医疗服务体系构建与运营模式创新案例研究报告
- 微视频创意制作 微视频创意制作 微视频创意制作-Creative Production of Micro Video -1756268747277
- 音乐版权与虚拟现实结合2025年创新应用报告
- 康复医疗服务体系构建与家庭护理服务融合运营模式研究
- 传统白酒生产项目商业计划书
- 2025年物流仓储行业当前竞争格局与未来发展趋势分析报告
- 西柏坡景点讲解
- 2025年教师资格证考试综合素质(中学)试题及答案
- 江苏省淮安市2024-2025学年高一下学期期末考试物理试卷(解析版)
- 《基孔肯雅热防控技术指南(2025年版)》解读课件
- 增强CT造影剂外渗课件
- 塑料的性能教学课件
- BMS基础知识培训课件
- 2025年广元市专业技术人员公需科目继续教育考试试题及答案
- 安徽省2022-2024年中考满分作文60篇
评论
0/150
提交评论