




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
齐普夫定律 济宁医学院 信息工程学院 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第一节齐普夫定律的理论基础 最省力法则第二节齐普夫定律的形成和确立第三节齐普夫定律的基本内容第四节齐普夫定律的发展第五节齐普夫定律的应用 几个基本概念词频 nr 自然语言中某一个单词在文献中或讲话中出现的次数 频次 不同的词汇在同一篇文献中出现频次的分布是不均匀的 词汇数 N 文献中出现的不同词的数量 即 文献中作者使用了多少个不同的词 词次数 N 文献的长度 总词量 包括同一词重复出现的次数 信息计量学 信息计量学 第一节齐普夫定律的理论基础 最省力法则 第五章文献信息词频分布规律 齐普夫定律 一 最省力法则 每一个人的运动 不管属于哪种类型 都是在一定道路上进行的 而且都将受一个简单的基本法则的制约 千方百计地选择一条最省力的途径 在各种运动中 人们也都有意无意地按照这个法则行事 齐普夫把这样一个他认为普遍存在的法则称为 最省力法则 thePrincipleofleasteffort A地 HumanBehaviourandthePrincipleofLeastEffort B地 信息计量学 第一节齐普夫定律的理论基础 最省力法则 语言文字是人们表达思想进行交流的工具 通过观察分析尽可能将语言中隐含的意义揭示出来 提高和强化语言的表达能力 是词频统计分析的目的所在 任何一种语言 其总词汇量可能很大 但通常使用的词汇却占其中较少一部分 即 常用词 一些很少被利用的词成为 冷僻词 对常用词的理解掌握 是学习一门语言的基础 以汉字来说 总数约有五六万字 但通常所用汉字却远远低于这个数 1000个汉字就能满足形成文献90 的需要 2400个汉字满足99 3800个汉字则满足99 9 五笔打字 这表明词汇出现的频率是有规律的 齐普夫定律就是研究文献词频规律的最重要的成果 第五章文献信息词频分布规律 齐普夫定律 二 最省力法则与词频分布规律 毛泽东选集 四卷合订本 1967年 总词量约66万 收录2775个汉字 文献中对词的利用 汉字中 目前人们使用的汉字约有15000个 国家文字改革委员会 语言文字工作委员会 统计 掌握2851个汉字可以满足99 的阅读需要 掌握5018个汉字可以满足99 9 的阅读需要 在语言交流过程中 省力法则 同时体现在说话人和听话人身上 多样化的力 说话人希望组成语言的词少 而且一词多义 以节省其精力 单一化的力 听话人认为最好是一词一义 使听到的词与其确切涵义容易匹配 便于理解 多样化的力 单一化的力 这两种力的平衡 使词频等级呈双曲线关系 信息计量学 信息计量学 第二节齐普夫定律的形成和确立 一 频率词典的出现 1898年 德国学者凯丁编写了世界上第一部频率词典 德语频率词典 这部词典是在内含110万个词汇的文集中 分别统计每个词汇出现的频次 并且按词频高低排列而成的 词典中的每一个词都有两个参数 出现的频次 排列的顺序 他们刻画了一个词在词表中的统计性质 词频字典的大量出现 引起了人们的研究兴趣 词频与顺序之间是否有关 规律是什么呢 第五章文献信息词频分布规律 齐普夫定律 南京高等师范到南京大学教授 杰出的现代儿童教育家我国近代教育家陈鹤琴 1892 1982 第一部汉语频率字典 语体文应用字汇 1928 从554478个汉字中析出4261个单字 江泽民为陈鹤琴先生雕像墓碑落成题词 学习爱国老教育家陈鹤琴先生的献身精神和创业精神 深化教育改革 为培育四有新人 振兴中华的大业而奋斗 我国词频统计工具 北京语言学院语言教学研究所采用人工与计算机相结合的办法 对近200万字的汉语语料进行词频统计 编制了 现代汉语频率词典 收词31159条 这是中国正式出版的第一部汉语频率词典 我国词频统计工具 信息计量学 二 艾思杜的发现 1916年 法国速记专家艾思杜在其从事的速记文字体系的改善研究工作中 观察到如下事实 假定有一个包括N个词汇的文集 N为充分大 若按这些词汇在文集中出现的频次n递减排列 以频次最高的词 其顺序定为自然数1 频次第二的词 其顺序定为2 依次类推 这样就得到一个词频表 艾思杜发现词频与词序之积大致为一常数k 即nr r k 第五章文献信息词频分布规律 齐普夫定律 第二节齐普夫定律的形成和确立 信息计量学 三 贡东的公式 1928年 美国贝尔电话公司的物理学家贡东发现如下公式 他根据前人关于词频的统计资料 以横坐标表示词的序号的对数lgr 纵坐标表示词的绝对频率的对数lgn 描绘了下图 贡东发现 lgr和lgn的分布关系接近于一条直线AB 第五章文献信息词频分布规律 齐普夫定律 C是否为一个常数 直线AB与横坐标的夹角为 经多次试验 45度 并提出了定量化公式 第二节齐普夫定律的形成和确立 信息计量学 第二节齐普夫定律的形成和确立 四 齐普夫的研究和齐普夫定律的确立 验证了贡东公式的正确性C不是一个常数而是一个参数 取值区间为 0 0 1 最省力法则 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第三节齐普夫定律的基本内容 一 齐普夫定律的文字表述 如果把一篇较长文章 约5000字 中每个词出现的频次统计起来 按照高频词在前 低频词在后的递减顺序 并用自然数给这些词编上等级序号 即频次最高的词等级为1 频次次之的等级为2 频次最低的词等级为D 若用Fr表示频次 r表示等级序号 则有 Fr r C式中C为常数 这里的常数并不是绝对不变的恒量 而围绕一个中心数值上下波动 另一种表达 相对频次 fr r c 第五章文献信息词频分布规律 齐普夫定律 信息计量学 二 齐普夫定律的图像描述1 横坐标表示词的等级序号r 纵坐标表示相应的频次Fr 第五章文献信息词频分布规律 齐普夫定律 第三节齐普夫定律的基本内容 信息计量学 二 齐普夫定律的图象描述2 对等级序号r取对数lgr作为横坐标对频次Fr取对数lgf作为纵坐标 第五章文献信息词频分布规律 齐普夫定律 第三节齐普夫定律的基本内容 信息计量学 三 齐普夫定律的一般数学形式 第五章文献信息词频分布规律 齐普夫定律 第三节齐普夫定律的基本内容 信息计量学 四 齐普夫定律的适用性 对于出现频次特别高的词和特别低的词 并不能完满地反映其分布规律 第五章文献信息词频分布规律 齐普夫定律 第三节齐普夫定律的基本内容 信息计量学 第四节齐普夫定律的发展 一 朱斯的修正 不仅C是一个参数 而且r的指数也是一个参数 其中 b C 0 对于r 1 2 3 D 参数b C要使 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第四节齐普夫定律的发展 二 芒代尔布罗的修正 提出了三参数序号分布规律 a b C三参数的含义如下 参数C与出现频率最高的词的概率的大小有关 参数b与高频率词的数量的多少有关 参数a与词的数量有关 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第四节齐普夫定律的发展 二 芒代尔布罗的修正 提出了三参数序号分布规律 其中 0 a0 C 0 对于r 1 2 3 D 参数b c要使 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第四节齐普夫定律的发展 三 低频词分布规律 齐普夫第二定律 齐普夫第二定律是阐述低频词频次与词数关系的一个定律 具体描述为 设In表示出现频次为n的词的个数 则In I1的大小与文献的长度无关 仅取决于频次n即 高频词与低频词的分界点n为 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第五节齐普夫定律的应用 一 编制词表 20世纪50年代出现了功能强大的标引方法 即叙词标引 叙词标引质量的优劣 查全率 查准率的高低 很大程度取决于叙词的选取 因此在叙词表的构造中 编制多大规模的词表 选用多少词 如何选词都是急需解决的问题 齐普夫定律为叙词的选择提供了依据 研究者通过齐普夫定律的词频分布方法 通过标引试验 找到被标引文献与叙词使用频率的分布特征 确定合乎需要的参数值 挑选符合标准的词编入词表 然后通过标引实践 再不断反复修改 使词表真正趋于规范和实用 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第五节齐普夫定律的应用 二 自动标引 美国IBM公司的卢恩于1958年提出了自动抽词标引的思想 即一篇文章中一个词的出现频率是这个词的重要性的有效测度 有效词在句中的相对位置提供了一种决定句子效果的优良的测定方法 将词按出现频率等级排列 以一定标准排除高频词和低频次 剩下的就是最能代表文献内容的词 基本步骤为 首先标识出组成文献的各个单词 利用停用词表排除文献中的非实义词 统计剩余各词的出现频率 采用一定的加权方法给每个词加权 权值超过一定阈值的词选作标引词 计算机编制文摘 首先决定出文献中的有效词 有效词在句子中的相对位置以及句子中所含的有效词数可被用来确定句子的重要性 符合一定标准的句子皆可选入摘要之中 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第五节齐普夫定律的应用 三 文档的组织 计算机检索首先要建立文献数据库 数据库中每一条记录代表一篇文献 每一条记录又分成几个描述文献特征的不同字段 它们所需的存储单元 必须实现估算出来 如主题字段 就应事先统计每篇文献的平均主题数 在具体检索中 又要建立关于某一特征的倒排挡 一个倒排挡的大小 取决于该特征字段内不同词的多少 以及每个词的出现频率 不管哪种倒排挡 词频出现都不会完全一致 但可以找出其中的规律 国外学者发现 入档词的出现频率近似满足 且A为常数 近似为0 1 通过计算可求出数据库所需的存储量 第五章文献信息词频分布规律 齐普夫定律 信息计量学 第五节齐普夫定律的应用 四 在科学评价中的应用 第五章文献信息词频分布规律 齐普夫定律 运用关键词计量分析的方法展示一个学科领域的研究动向 对2003 2007年医学信息学领域中五年中在 医学信息学 医学信息 中华医学图书情报杂志 等期刊中发表文献的关键词进行统计分析 归纳出近5年来该领域的研究热点 变化轨迹及研究动向 如 关键词词频分析透视医学信息学领域研究热点 五 齐夫定律在信息管理工作中的应用 最佳地理位置选择 使得使用者能以最省力的途径方便到达 设计图书馆 信息中心资料库的排架 教师二万词词书 词频法统计词汇的最重要的一部文献 美国教育学家桑戴克 EL Thorndike Teacher sWordBookof20 000Words选择出常用的词汇20 000个 依照每个词在这些文献中出现出现的频率分成20级 每级1000个词 用1 2 3 20来标记 6 25万字的儿童文学读物300万字左右的圣经和英国古典文学作品 30万字左右的小学课本 5万字左右的有关烹饪 缝纫 农艺 商业之类的著作9万字左右的新闻报纸5万字左右的书信 共41种不同的文献 六 英语单词的选择 根据Ogden在1967年版的EncyclopaediaBritanica中对BasicEnglish的定义 对于一个英语国家的成年人 应认识20000个单词 除语言专家外 普通人遇到的单词量一般不超过60000个 问题 假定这60000个单词在文献中出现的频次服从Zipf定律 那么一个人如果认识上述20000个常用单词 即当m 20000时 1 3 对英文读
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议解除后赡养费支付及财产分配执行协议
- 离婚协议签订前夫妻共同债务确认谈话笔录
- 创业孵化器租赁合同含中介及创业辅导服务范本
- 绿色金融公私转账借款及环境保护责任合同
- 离婚协议书:财产分割、债务承担及子女抚养权协议
- 养殖场土地租赁与农业科技园区建设合同
- 生物医药研发特殊劳动关系科研人员合作协议
- 矿山生态修复治理手册
- 职业教育专业实训教学标准制定
- 养殖业合作社运作制度
- 吊篮临时用电施工方案
- 《电机与变压器》全套教学课件
- 电能质量技术 绪论、第1章 电能质量概述
- 江苏省事业单位退休人员住房补贴政策
- 普通地质学-舒良树-各章作业习题及答案-
- 2025-2030中国小麦加工行业市场发展分析及发展趋势与投资前景研究报告
- 车间物流规划
- 肠系膜上动脉夹层护理查房
- 六项精进培训感悟
- 减盐减油知识课件
- 慈善基金会财务管理制度
评论
0/150
提交评论