《信息计量第七章》PPT课件_第1页
《信息计量第七章》PPT课件_第2页
《信息计量第七章》PPT课件_第3页
《信息计量第七章》PPT课件_第4页
《信息计量第七章》PPT课件_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章齐普夫定律,G.K.Zipf(1902-1950),美国哈夫大学著名语言学家和心理学家。1929年相对频率:语音变化的决定性因素1948年人类行为与最省力法则-人类生态学引论,2020/5/12,2,教学要求,了解词频统计的产生和发展了解Booth定律掌握Zipf定律的表述、数学模型及图像特征熟悉词频分布原理熟悉Zipf定律应用中的基本技术和方法,2020/5/12,3,主要教学内容,1词频统计的产生和发展2Zipf定律的表示3Zipf第二定律4词频分布原理5Zipf定律的应用,2020/5/12,4,第一节词频统计的产生和发展,一、几个基本概念1、词频(nr):自然语言中某一个单词在文献中或讲话中出现的次数(频次)。不同的词汇在同一篇文献中出现频次的分布是不均匀的。2、词汇数(N):文献中出现的不同词的数量。即:文献中作者使用了多少个不同的词。3、词次数(N):文献的长度,总词量,包括同一词重复出现的次数。,2020/5/12,5,二、字(词)典的收录和选择,中国最早的词典尔雅(汉代),按词的性质和意义排列,词目91706条、134万多字。第一部英语词典是R.考德莱编的字顺英语难词表。1928年成书的OxfordEnglishDictionary目前最新版本为20卷本第二版,收词超过50万条,引证例句250万条,几乎囊括了1150年以来见于文献的所有语词。,2020/5/12,6,汉语大词典(上海辞书出版社,1986年)共12卷,收词37万以上。,(一)文献中对词的利用,汉语大字典(四川辞书出版社,1986年)全四卷,收录单字约56000多个。,2020/5/12,7,毛泽东选集(四卷合订本,1967年)总词量约66万,收录2775个汉字。,(一)文献中对词的利用,2020/5/12,8,汉字中,目前人们使用的汉字约有15000个。,(一)文献中对词的利用,2020/5/12,9,国家文字改革委员会(语言文字工作委员会)统计:掌握2851个汉字可以满足99%的阅读需要;掌握5018个汉字可以满足99.9%的阅读需要。,(一)文献中对词的利用,2020/5/12,10,1981年的通讯用汉字字符集(基本集)及其交换码标准(GB2312-80)中确认“汉字基本字符”为6763个。其中,一级汉字3755个,二级汉字3008个。,(一)文献中对词的利用,2020/5/12,11,(二)词频统计工具,英国语言学家奥格登(CharlesK.Ogden)于1930年编撰了BasicEnglish:AGeneralIntroductionwithRulesandGrammar,Ifoneweretotakethe25,000wordOxfordPocketEnglishDictionaryandtakeawaytheredundanciesofourrichlanguageandeliminatethewordsthatcanbemadebyputtingtogethersimplerwords,wefindthat90%oftheconceptsinthatdictionarycanbeachievedwith850words.,2020/5/12,12,OGDENsBASICENGLISHWordList,OPERATIONS-100words(100个动作的词)come,get,give,go,keep,let,make,put,THINGS-400Generalwords(400个普通名词)account,act,addition,adjustment,THINGS-200Picturablewords(200个可画图的名词)angle,ant,apple,arch,arm,army,QUALITIES-100General(100个普通形容词)able,acid,angry,automatic,beautiful,black,QUALITIES-50Opposites(50个有反义词的形容词)awake,bad,bent,bitter,blue,certain,cold,2020/5/12,13,OGDENsBASICENGLISH,优点:简化语法、精简词汇,受到美国总统罗斯福、英国首相丘吉尔的支持与提倡,在一定范围内使用,但并未得到推广。问题:欲简(用词简单)则繁(表达冗长)。IheardItcametomyears,2020/5/12,14,频率词典(frequencydictionaries)按词出现频率的高低而编排的词典。世界上第一部频率词典德国语言学家凯丁(F.W.Keading)德语频率词典(1898年),110万个词的语言素材。美国教育学家E.L.桑代克(18741949)编写了教师两万词词书(1921)和教师三万词词书(1944)。做了大量的英语词汇的频率统计工作。,(二)词频统计工具,2020/5/12,15,南京高等师范到南京大学教授,杰出的现代儿童教育家我国近代教育家陈鹤琴(18921982)第一部汉语频率字典语体文应用字汇(1928),从554478个汉字中析出4261个单字。江泽民为陈鹤琴先生雕像墓碑落成题词:“学习爱国老教育家陈鹤琴先生的献身精神和创业精神,深化教育改革,为培育四有新人,振兴中华的大业而奋斗!”,(二)词频统计工具,2020/5/12,16,北京语言学院语言教学研究所采用人工与计算机相结合的办法,对近200万字的汉语语料进行词频统计,编制了现代汉语频率词典,收词31159条,这是中国正式出版的第一部汉语频率词典。,(二)词频统计工具,2020/5/12,17,2020/5/12,18,nrr=k或nr=kr-1,一、齐普夫的前期研究工作J.Estoup(艾思杜)的研究(1916)若将文献(文集)中出现的词汇(N)按其出现的频次(n)的高低做递减排序,并依次给予相应的等级序号(r),(r=1,2,3.,D),则等级序号(r)与相应的频次(nr)的乘积(nrr)大体上为一常数(k)。,第二节齐普夫定律的表示,2020/5/12,19,E.Condon(贡东)的研究(1928)取等级序号的对数(lnr)以及每个词出现频次的对数(lnnr)做图,发现存在线性关系。直线与横轴的夹角约为/4,即直线的斜率为-1。其数学关系可表示为:lnnr=tg(-/4)lnr+lnk,一、齐普夫的前期研究工作,2020/5/12,20,(一)齐普夫定律的表述设有一包含N个词(词汇数)的文献(N5000),统计其中每个词出现的频次(n),按频次递减的顺序等级降序排列,并用自然数给予相应的等级序号(r),则每个词的等级序号(r)与相应的频次(nr)之积为一常数。,二、G.K.Zipf的验证与Zipf定律,词频统计表,2020/5/12,22,以RondldE.Wyllys:EmpiricalandTheoreticalBasesofZipfsLaw(齐普夫定律的经验根据与理论基础)前两段作为词频分布的统计对象,该文如下:,IntroductionOneofthemostpuzzlingphenomenainbibliometricsand,morebroadly,inquantitativelinguisticsisZipfslaw.Asonecommentator,thestatisticianGustavHerdan,hasputit:“Mathematiciansbelieveinit(Zipfslaw)becausetheythinkthatlinguistshaveestablishedittobealinguisticlaw,andlinguistsbelieveinitbecausethey,ontheirpart,thinkthatmathematicianshaveestablishedittobeamathematicallaw.”LetusstartbyconsideringabasicformofZipfslaw.Supposeonehasanaturallanguagecorpus,e.g.,abookwritteninEnglish.Next,supposeonemakesafrequencycountofthewordsinthecorpus,i.e.,countsthenumberofoccurrencesofthe,and,of,etc.Finally,supposeonearrangesthewordsindecreasingorderoffrequencysothatthemostfrequentwordhasrank1;thenextmostfrequency,rank2;andsoon.,2020/5/12,23,对75个单词的出现频次的统计,高频词低语义词,nr,r,lnnr,lnr,nr=k/r,如果以等级序号r为横轴,词频nr为纵轴,其分布图形为一等轴双曲线。,如果以等级序号r的对数为横轴,词频nr的对数为纵轴,其分布图形为一直线。直线的斜率约为-1。,齐普夫定律的图像描述,2020/5/12,27,设N为总词次数,fr为等级为r的词出现的频率,则有如下关系fr=nr/N对于fr=cr-1,,(二)参数c值的推论,对于上式,当D(最末一级词的等级序号)比较大时,当取D为一定数值时,计算其对应的c值:Dc50000.11100000.10500000.091000000.08可以认为c0.1。但后经大量的研究证实,在词的中频区,c0,c0,r=1,2,3.,D)且满足对上式取对数,图像显示为一斜率为-b的直线。怀利斯(R.E.Wyllys)对8个不同样本的研究结果:-0.89600080.12%TOEFL词汇800082.3%,2020/5/12,64,第六节布-齐-洛定律分布一致性,2020/5/12,65,信息计量学的三大基本定律研究和发展的两个方面:一,对每一定律的内涵及经验公式的深入研究,从而获得更一般、更精确的定律表达式二,发现并深入研究三定律之间内在分布的一致性及其理论基础问题,2020/5/12,66,一、三定律的形式及特点,(一)布拉德福定律及其特点基本思想:将科学期刊按其刊载某学科论文数量多少,以渐减的次序进行排列,分为三个区,每一区中期刊所载相关论文数量基本相等的条件下,得出各区期刊数量比例为1:a:a2(a为比例系数)基本内容描述:文字表达与图象表达,2020/5/12,67,基本内容蕴涵三个基本特征:1,期刊是按刊载专业论文数量的多少进行等级排列2,期刊分三个区,核心区、相关和外围区(为了突出核心区而强调相关论文在期刊上的集中与分散)3,设定每一区中的相关论文数量基本相等,目的是通过同一标准来比较各区在期刊数量上呈现出的规律性等级排序是最基本的特征,2020/5/12,68,布拉德福定律数学表达式,布鲁克斯(B.C.Brooks)R(n)=kln(n/s)莱姆库勒(F.F.Leimkuhler)R(r)=alog(1+br)F(x)=ln(1+bx)/ln(1+b),相关论文累积数,等级排序的期刊级位,X为全部期刊中载文率最高的部分期刊的比率,X部分期刊中包含的相关论文对全部相关论文的比率,2020/5/12,69,(二)齐普夫定律及其特点,基本思想:按一特定文本中词出现的次数(词频)的多少,以渐减的次序排列起来,那么,词的序号r(词级)与词频fr的乘积具有近似恒等的关系fr=c/r(r=1,2,3.),2020/5/12,70,基本特点(是与其它定律比较的基础):1,词汇是按词出现的次数(词频)大小进行等级排列2,齐普夫定律的图象表达在利用对数变换处理后得到的是一条斜率为-1的直线,2020/5/12,71,推广齐普夫定律的有:,朱斯(M.Joos)Pr=cr-b或Pr=c/rb(词频大小由b决定)芒代尔布罗特(B.Mandelbrot)Pr=c/(r+a)b,第r级词之频率,级位r,2020/5/12,72,(三)洛特卡定律及其特点,基本思想:某一学科领域中,写若干篇论文的作者在整个学科著者群中占有一个固定的比例公式表达式:f(x)=c/x2反映科学论文在论文作者上集中与分散的分布现象,2020/5/12,73,基本特点:一,洛特卡采用频次排序的方法,即按某类作者出现的频次大小排位,而非按作者所写的论文多少来对作者进行等级排位二,论文在作者上的集中与分散程度只限于平方反比关系,即只给出了这种集中与分散程度的单一描述,2020/5/12,74,洛特卡定律的推广,鲍(M.L.Pao)f(x)=c/xa不同的a值能够反映出某学科领域中论文在作者集中与分散的确切程度,a值越大,集中与分散程度越高,2020/5/12,75,四、其它的分布形式及特点,特征值主体类别作者(发现人)文献数期刊布拉德福论文数作者洛特卡词频词汇齐普夫检出频率图书巴克兰德财富人巴泽尔姓氏人福克斯得分球员戴维斯种属威利斯,2020/5/12,76,二、布-齐-洛分布的一致性,描述文献中情报现象分布的三个定律,它们共同的基本特征有:1,每个定律都是在一个简单的函数范围内一个变量与另一个变量相关联2,三个定律都是采取将观察值以及所涉及的主体进行特殊排列而得到一相关模型3,三个定律都可以归结为反映某种主体与其所表现的特征之间的数量对应关系,2020/5/12,77,(一)布拉德福分布与齐普夫分布的一致性,1、同时具有上述三个共同的基本特征,同时都采用了等级排列技术2、它们的排序对象性质相同,都是对研究主体的排序,布拉德福分布以刊载论文多少对期刊进行排位,齐普夫分布以词频高低对词汇进行排队,2020/5/12,78,但是它们有不同的结论表达形式,原因如下:(一)布拉德福分布对排序好的主体(期刊)位次r进行了取对数转换处理(二)布拉德福分布对排序好主体的特征值(论文数)取累积和R(r)布拉德福分布反映的是特征值(论文)在主体(期刊)上的累积分布,而齐普夫分布所反映的则是特征值(词频)在主体(词汇)上的密度分布,他们之间的关系实际是一分布的积分表达形式和微分表达形式的转化,2020/5/12,79,数学过程表达R(r)=frdr将fr=c/r(r=1,2,3.)代入得R(r)=c/rdr=clnr则上式与R(r)=Kln(n/s)具有等价性Fr=R(r)则有fr=(Klnr)=K/r其与fr=c/r等价所以布拉德福分布与齐普夫分布具有一致性,2020/5/12,80,(二)齐普夫分布与洛特卡分布的一致性,齐普夫分布与洛特卡分布的表达形式不同,原因:1、排序对象性质不同,齐普夫分布以主体(词汇)为排序对象,而洛特卡分布以特征值(论文数)为排位对象2、排序的方法不同,齐普夫分布以主体(词汇)的特征值(词频)由大至小对主体进行排列,而洛特卡分布则以特征值(论文数)数量由小到大加以排列,2020/5/12,81,主题级位r与主体频率f(x)关系的函数式表达如下:r=f(x)dx(r是f(x)的累积形式)将f(x)=c/x2代入得R=c/x2dx=c/xX=c/r其与齐普夫分布等价同样,fr=c/r可转化为r=c/fr,求其微分得r=(c/fr)dfr=c/fr2则其与f(x)=c/x2等价所以齐普夫分布与洛特卡分布具有一致性,2020/5/12,82,(三)布拉德福分布与洛特卡分布的一致性,布拉德福分布与洛特卡分布的一致性不明显其对研究主体及特征值的处理方法上存在很大差异:布拉德福分布按主体(期刊)的特征值(论文)多少确定主体排列的级位,并对主题的级位作对数变换,对主体相应的特征值做累积和R(n)=kln(k/s)洛特卡分布按主体特征值(论文数)的自然数次序由小到大进行排列,并对主体进行频次统计得到f(x)=c/x2,2020/5/12,83,从数学上讲:布拉德福分布与齐普夫分布具有一致性齐普夫分布与洛特卡分布具有一致性则布拉德福与洛特卡等价,必定具有一致性(以齐普夫分布为中介),2020/5/12,84,情报学家费尔桑(R.A.Fairthorne)在分析了这一类现象的基本特征后指出信息单元(事项)与其信息源的概率密度服从经验双曲分布(empiricalhyperbolicdistributions)或负幂分布,表示为:,2020/5/12,85,负幂分布的实例事项(产物)来源发现研究者论文数期刊Bradford论文数作者Lotka词频词汇Zipf引文数被引者Heine检出频次图书Buckland句子的长度句子Hubert音素数词Hubert收入水平收入者Buzzell规模城市Bach规模商行Ijiri姓氏人名Fox,2020/5/12,86,三、布-齐-洛分布的机理分析和理论模型,(一)机理分析共同特征:都是研究主体特征在主体上集中与分散

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论