版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8讲定量分析(三)信息分析时间序列分析大学本科必修课程名人名言有什么东西与时间无关呢?一切都要接受时间的检验。上苍赐给世人的时间是无限的。究竟怎样赐给我们呢?是一下子就给我们一千年吗?不,是把时间均匀地分成一个个清新的早晨。
——爱默生学习内容时间序列的基本问题2. 时间序列的趋势分析和预测3. 时间序列的综合分析和预测1时间序列的基本问题时间序列的概念时间序列的编制原则时间序列的分类时间序列的构成要素时间序列的分解模型时间序列的分解方法一、时间序列
(timesseries)1. 同一现象在不同时间上的相继观察值排列而成的数列,称为时间序列(或时间数列)2. 形式上由现象所属的时间和数值两部分组成年份、季度、月份或其他任何时间形式时间序列的作用:描述社会现象的发展状态、趋势和结果;掌握社会现象的发展变化规律性;预测社会现象的发展方向和速度。二、时间序列的编制原则保证各期指标数值的可比性,是编制时间序列的基本原则。注意事项:1、时间长短应尽量统一。2、总体范围应一致。如行政区划、隶属关系3、计算口径应统一。计算方法和计量单位,如劳动生产率可按实物量或价值量计算。4、指标涵义和经济内容应一致。如国土法国民收入和国民法国民收入。时间序列平均数序列绝对数序列相对数序列时期序列时点序列三、时间序列的分类比例比率算术平均加权平均移动平均几何平均三、时间序列的分类绝对数时间序列一系列总量指标按时间顺序排列而成反映现象在不同时间上所达到的绝对水平按总量指标反映的时间状态不同,分为:时期序列:现象在一段时期内总量的排序时点序列:现象在某一时点上总量的排序2.相对数时间序列一系列相对数指标按时间顺序排列而成平均数时间序列一系列平均数指标按时间顺序排列而成三、时间序列的分类
时间序列平均数序列绝对数序列相对数序列时期序列时点序列连续时点间断时点间隔相等间隔不等间隔相等间隔不等三、时间序列的分类①连续时点序列:a.间隔相等的连续时点b.间隔不等的连续时点②间断时点序列:间隔在一个时间单位以上a.间隔相等的间断时点b.间隔不等的间断时点Y1Y2Y3YnY4Yn-1T1T2T3Tn-1Y1Y2Y3YnYn-1T1T2Tn-1四、时间序列的构成要素循环变动C(Cyclical)不规则变动I(Irregular)季节变动S(Seasonal)长期趋势T(Trend)四、时间序列的构成要素四、时间序列的构成要素趋势(trend)
也称长期趋势(Seculartrend)呈现出某种持续向上或持续下降的趋势或规律2.季节性(seasonality)也称季节变动(Seasonalfluctuation)现象在一年内随着季节的更换而引起的有规律变动周期性(cyclity)
也称循环波动(Cyclicalfluctuation)
从低至高再从高至低的周而复始的变动随机性(random)
也称不规则波动(Irregularvariations)偶然性因素对时间序列产生影响四、时间序列的构成要素平稳趋势季节季节与趋势五、时间序列的分解模型时间序列的构成要素长期趋势(T)季节变动(S)
循环波动(C)不规则波动(I)时间序列的分解模型乘法模型:Yi=T
i×Si×C
i×Ii加法模型:Y
i=T
i+S
i+C
i+I
i混合模型:Y
=T
·S
+I
或Y
=S
+T
·C
·I
五、时间序列的分解模型六、时间序列的分解方法线性趋势构成要素与测定方法
循环波动季节变动长期趋势剩余法移动平均法指数平滑法线性模型法不规则波动非线性趋势
趋势剔除法按月(季)平均法Gompertz曲线指数曲线二次曲线修正指数曲线Logistic曲线剩余法2、时间序列的趋势分析和预测一、时间序列的线性趋势二、移动平均法三、指数平滑法四、线性模型法一、线性趋势(lineartrend)现象随着时间的推移而呈现出稳定增长或下降的线性变化规律。测定方法:移动平均法指数平滑法线性模型法一、时间序列的线性趋势分析方法二、移动平均法(movingaverage)又称滑动平均法,是1884年由英国波因廷教授提出。是建立在算术平均的基础上,根据时间序列资料,逐项推移,依次计算包含一定项数的时间序列平均值,以反映长期趋势的方法。基本方法:每次在时间序列上移动一步求平均值,对原始无规则的数据进行修匀,消除样本中随机干扰成分,形成平滑曲线,突出样本规律。对原时间序列的波动起到一定的修匀作用,削弱了原序列中短期偶然因素的影响,从而呈现出现象发展的变动趋势。
二、移动平均法(movingaverage)设观测的时间序列为y1,y2……yt设移动间隔为
n(1<n<t),则n期的移动平均值为基本计算公式为:n的取值有两种特殊情况:(1)当n=t时,则(2)当n=1时,则二、移动平均法(例题分析)年份居民消费价格指数(%)n=3n=4n=51990103.11991103.41992106.6104.31993114.7108.2106.91994124.1115.1112.2110.31995117.1118.6115.6113.11996108.3116.5116.1114.11997102.8109.4113.1113.4199899.2103.4106.9110.3199998.6100.2102.2105.22000100.499.4100.3101.92001100.799.999.7100.3200299.2100.199.799.62003101.2100.4100.4100.02004103.9101.4101.3101.12005101.8102.3101.5101.42006101.5102.4102.1101.52007104.8102.7103.0102.6二、移动平均法n=3n=4n=5二、移动平均法:注意事项1、用移动平均法对原时间序列修匀,修匀程度的大小,与平均的项数多少有关。
2、移动间隔的选取原则如果现象的发展具有一定的周期性,应以周期长度作为移动间隔的长度若时间序列是季度资料,应采用4项移动平均若为月份资料,应采用12项移动平均二、移动平均法的简单预测将最近n期数据加以平均作为下一期的预测值
设移动间隔为
n(1<n<t),则
t+1期的移动平均预测值为预测误差用均方误差(MSE)
来衡量二、移动平均法预测(例题分析)二、移动平均法二、移动平均法(1)一次移动平均:基本公式递推公式n为移动跨度,t周期n的取值有两种特殊情况:(1)当n=t时,则(2)当n=1时,则二、移动平均法(2)二次移动平均基本公式:递推公式:二、移动平均法:计算实例周期数t原始数据yt(n=5)(n=5)周期数t原始数据yt(n=5)(n=5)16197468.865.52260107771.267.2436411767369.0846312807570.9256562.6138678.673.3266763.8149081.875.9277065.8159284.878.6486866.616??二、移动平均法:计算实例解:先从第5周期开始,由一次移动平均公式计算出第5周期的一次移动平均值;然后往下依次求出各周期的一次移动平均值,填人表中相应的位置。具体计算过程如下:二、移动平均线性模型的建立与预测移动平均存在滞后偏差,因此不能直接用于有线性趋势的时间序列预测,只能用于时间序列的简单预测。只所以计算一次移动和二次移动平均值,是因为需要利用滞后偏差的演变规律求出时间序列线性趋势中的平滑系数at和bt。设时间序列y1,y2,…,yt从某时期开始具有线性趋势,且未来时期按此趋势变化,则移动平均线性模型的一般形式为:二、移动平均线性模型的建立与预测二、移动平均线性模型的建立与预测根据移动平均值yt=Mt可得截距at和斜率bt,计算公式为:将at和bt代入时间序列的线性趋势方程得:注意:在移动平均法的实际应用中,n的取值非常关键,n越大对波动曲线的修匀效果越好,但对反应的灵敏度低,对趋势的反应滞后;若n值较小,对反应较为敏感,但修匀效果不显著。一、移动平均模型的建立与预测移动平均预测模型建立推导:式中at为截距,即yt的初始值;bt为斜率,表示一个单位自变量T的变化引起yt的变化量(相等),即相邻两个因变量之差相等,且差值为bt。二、移动平均模型的建立与预测二、移动平均模型的建立与预测根据一次移动平均计算公式有:二、移动平均模型的建立与预测化简整理后得:二、移动平均模型的建立与预测同理,根据二次移动平均计算公式有:二、移动平均模型的建立与预测二、移动平均模型的建立与预测例:某企业用电量的时间序列数据如表所示,根据表中数据计算一次移动平均和二次移动平均值,并建立移动平均线性模型预测2009年、2010年的用电量。解:(1)选择移动跨度n,根据对时间序列数据的观察,取n=5较好。(2)计算一次移动平均和二次移动平均值,依次填入表中。二、移动平均模型的建立与预测三、指数平滑法
(exponentialsmoothing)用过去时间数列值加权平均数作为预测值;观察值离预测时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑;有一次指数平滑、二次指数平滑等;与移动平均类似,指数平滑法也可用于对时间序列进行修匀以消除随机波动,找出时间序列的变化趋势。三、一次指数平滑
(singleexponentialsmoothing)只有一个平滑系数观察值离预测时期越久远,权数变得越小指数平滑的简单预测模型为
yt为t期的实际值
St为t期的预测值
为平滑系数(0<<1)三、一次指数平滑若以α代表时间序列各数据的权数,则原始时间序列数据的加权平均值可表示为:三、一次指数平滑若左右两边都乘以γ,则有α的取值反映了新旧数据所占的分配比例,对预测结果直接产生影响。因此,预测结果依赖于α。三、一次指数平滑三、一次指数平滑α的取值有两种极端情况:当α=0时,即平滑值保持不变;当α=1时,即平滑值等于最新的观察值。一般地,α越小,预测值趋向就越平衡,修匀效果越显著;α越大,近期数据所占比重越大,对时间序列数据的变化反映越灵敏,但修匀效果不明显。根据一般经验,α取值范围通常是0.01≦α﹤0.3。三、一次指数平滑第1期没有预测值S1,通常可设S1等于第1期的实际值,即S1=Y1第2期的预测值为第3期的预测值为三、一次指数平滑
(预测误差)St+1是t期预测值St加上用
调整的t期预测误差(Yt-St)预测精度用误差均方来衡量三、一次指数平滑
(
的确定)
取值对预测结果产生影响当时间序列有较大的随机波动时,宜选较大的
,以便能很快跟上近期的变化当时间序列比较平稳时,宜选较小的
取值时应考虑预测误差用误差均方衡量预测误差大小确定
时,可取几个值进行预测,然后选择预测误差最小的
值三、一次指数平滑
(例题分析)用Excel进行指数平滑预测第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项,选择【指数平滑】,然后确定第3步:当对话框出现时
在【输入区域】中输入数据区域在【阻尼系数】(注意:阻尼系数=1-
)输入值选择【确定】【例】对居民消费价格指数数据,选择适当的平滑系数
,采用Excel进行指数平滑预测,计算出预测误差,并将原序列和预测后的序列绘制成图形进行比较三、一次指数平滑
(例题分析)三、一次指数平滑
(例题分析)二次指数平滑2、二次指数平滑:是对一次指数平滑值再进行一次平滑,计算公式如下:三、指数平滑法计算实例习题:根据表中的所列的一组时间序列数据,分别取加权系数,计算一次指数平滑和二次指数平滑值。(1)一次指数平滑值的计算:(2)二次指数平滑值的计算:周期数t原始数据yt(α=0.3)(α=0.3)周期数t原始数据yt(α=0.1)(α=0.1)06161061611616161161616126060.760.926060.961.036461.761.136461.261.046362.161.446361.461.056563.061.956561.861.166764.262.666762.361.277065.963.677063.161.486866.564.586863.661.697468.865.897464.661.9107771.367.5107765.862.3117672.769.1117666.862.8128074.970.8128068.163.3138678.273.0138669.964.0149081.775.6149071.964.8159284.878.4159273.965.716??16??三、指数平滑法计算实例三、指数平滑线性模型的建立与预测指数平滑也存在滞后偏差,因此不能直接用于有线性趋势的时间序列预测,只能用于时间序列的简单预测。只所以计算一次移动和二次移动平均值,是因为需要利用滞后偏差的演变规律求出时间序列线性趋势中的平滑系数at和bt。设时间序列y1,y2,…,yt从某时期开始具有线性趋势,且未来时期按此趋势变化,则指数平滑线性模型的一般形式为:三、指数平滑线性模型的建立与预测三、指数平滑线性模型的建立与预测根据指数平滑值yt=Mt可得截距at和斜率bt,计算公式为:将at和bt代入时间序列的线性趋势方程得:三、指数平滑模型的建立与预测指数平滑预测模型建立推导:式中at为截距,即yt的初始值;bt为斜率,表示一个单位自变量T的变化引起yt的变化量(相等),即相邻两个因变量之差相等,且差值为bt。三、指数平滑模型的建立与预测三、指数平滑模型的建立与预测三、指数平滑模型的建立与预测三、指数平滑线性模型的建立与预测例:某企业用电量的时间序列数据如表所示,根据表中数据计算一次指数平滑和二次指数平滑值,并建立指数平滑线性模型预测2009年、2010年的用电量。解:(1)选择α=0.1。(2)计算一次指数平滑和二次指数平滑值,依次填入表中。三、指数平滑模型的建立与预测(3)计算平滑系数得出指数平滑线性预测模型。查表得=4.69,=4.91。指数平滑线性预测模型为:(4)预测2010年1月份的用电量。当T=1,可得:3.时间序列的综合分析与预测一.季节分析趋势分析周期分析不规则分析一、季节分析季节变动现象在一年内随着季节更换形成的有规律变动各年变化强度大体相同且每年重现“季节”不仅是指一年四季,而是指任何一种周期性的变化测定目的确定现象过去的季节变化规律,指导当前决策;消除季节因素,分析其他构成要素。一、季节分析
季节指数(seasonalindex)某一月份或季度的数值占全年月或季平均数值的相对数2.季节指数的计算方法月(季)平均法趋势剔除法一、季节分析月(季)平均法假定时间序列没有明显的长期趋势和循环波动季节指数计算计算同月(或同季)的平均数计算全部数据的总月(总季)平均数计算季节指数(S)
一、季节分析
季节指数计算(例题分析)【例】某啤酒生产企业2000—2005年各季度的啤酒销售量数据。试计算各季季节指数。
时间序列图形描述年份季度1234200025323726200130384230200229395035200330395137200429425538200531435441同季平均2938.8348.1734.5总季平均37.625季节指数0.77081.03201.28030.9169一、季节分析
季节指数计算(例题分析)一、季节分析
趋势剔除法:移动平均或指数平滑(或线性趋势)先将序列中的趋势T消除,再计算季节指数
季节指数计算计算移动平均趋势值(T)
或移动平均趋势值(T);从时间序列中剔除趋势值,即Y/T=S×I;将S×I重新按月(季)排列,计算季节指数(S)
季节指数调整。季节指数平均数不等于1时需调整一、季节分析季节指数调整若∑S≠1200%(或400%),则求调整系数:调整后的季节指数=原季节指数×调整系数(R)剔除趋势后的季节指数(例题分析)剔除趋势后的季节指数
(例题分析)一、季节分析分离季节因素将季节因素从时间序列中分离出去,以便观察和分析时间序列的其他因素特征。方法:将原时间序列除以相应的季节指数。结果:反映了在没有季节因素影响的情况下时间序列的变化规律。二、趋势分析二、趋势分析分离季节因素,时间序列中已无季节因素利用移动平均或指数平滑确定线性模型3.根据线性趋势方程计算各期趋势值线性趋势预测和最终预测值
(例题分析)季节性及其分离图趋势预测根据分离季节因素后的线性趋势方程预测2006年1季度销售量:季节调整后得最终预测值:最终预测值=趋势预测值×季节指数
=44.59×0.7922=35.32(万吨)同理,可预测2、3、4季度销售量2006年各季度最终预测值
(例题分析)实际值和最终预测值图三、周期分析三、周期分析周期因素的特征从低到高再从高至低周而复始变动;涨落相间、交替波动,不同于趋势因素T;变化无固定规律,变动周期多在一年以上且周期长短不一,不同于季节因素S;时间长短和波动大小不一,且常与不规则因素I交织在一起,很难单独描述和分析。
三、周期分析
(剩余法)
先消去季节因素S,求得无季节时间序列再将结果除以季节因素分离后的趋势值T,求含有周期因素C及不规则因素I的时间序列最后将结果进行移动平均(MA)
,以消除不规则波动I,即得到周期因素值CC=MA(C×I)三、周期分析三、周期分析随机波动作业一:移动平均线性趋势预测周期数t原始数据yt(n=5)(n=5)周期数t原始数据yt(n=5)(n=5)16197468.865.52260107771.267.2436411767369.0846312807570.9256562.6138678.673.3266763.8149081.875.9277065.8159284.878.6486866.616??根据表中时间序列数据建立线性趋势预测模型并预测第16期值周期数t原始数据yt(α=0.3)(α=0.3)周期数t原始数据yt(α=0.1)(α=0.1)06161061611616161161616126060.760.926060.961.036461.761.136461.261.046362.161.446361.461.056563.061.956561.861.166764.262.666762.361.277065.963.677063.161.486866.564.586863.661.697468.865.897464.661.9107771.367.5107765.862.3117672.769.1117666.862.8128074.970.8128068.163.3138678.273.0138669.964.0149081.775.6149071.964.8159284.878.4159273.965.716??16??作业二:指数平滑线性趋势预测根据表中时间序列数据建立线性趋势预测模型并预测第16期值某商场过去4年的空调销量如下表所示,试利用时间序列综合分解预测第5年各季度的空调销量(仅考虑季节因素S和趋势因素T)。作业三:时间序列综合预测明白了吗?THANKS97第9讲
定量分析方法(四)
信息计量学方法知行合一、经世致用CentralSouthUniversity知行合一、经世致用CentralSouthUniversity98信息+计量计量对象:信息(事实或现象描述、数据、知识)计量标准:计量单元(物理、信息、知识单元)
计量内容:数量特征与规律、数据处理计量方式:计量方法、工具、模型(如何计量)计量应用:不同领域和对象的数量特征与规律、
定量描述与分析(文献、科学、网络)99内容提纲
1信息计量基础
2信息计量定律3引文分析4网络计量5科学计量引子1978年,美国著名科学家、科学学和文献计量学家普赖斯曾说过:引文之于文献计量学胜于货币之于经济学。知识产生知识与同钱生钱。普赖斯奖—计量学领域的最高奖;引子汤森路透每年公布诺奖预测名单。自2002年以来,已成功预测了近半数据以上诺贝尔奖得主。该奖项通过对WebofScience中科研论文及其引文遴选出在化学、物理学、生理学或医学、以及经济学领域全球最具影响力的研究人员。遴选依据:发文量、被引量、影响因子(篇均被引)、热点论文、顶尖论文(TOP1%、TOP千分之一)。ESI指标:一流高校、一流学科。引子诺贝尔奖获得者预测1961~1975年间诺贝尔奖获得者被引证次数:162位中最高的是L.D.Landau18888,最低的是J.H.Jensen79。只有6位低于200次,平均为2877次。一般学者50次1961~1975年间引文数最高的250位中,42位(17%)诺贝尔奖,151位(60%)为国家科学院院士。1967年引文数最高的50人中,6位获诺贝尔奖,后又有6人获奖。信息计量基础1.1三计学、五计学及其他1.2信息计量学的概念1.3信息计量学的研究对象1.4信息计量学的研究内容1.5信息计量学的发展史1.6信息计量的方法与工具1.7信息计量学的主要应用1031信息计量基础1.1三计学、五计学及其他20世纪60年代以来,在图书馆学、文献学、科学学和情报学领域相继出现了3个类似的术语:
Bibliometrics、Scientometrics、Informetrics,分别
代表着三个十分相似的定量性的分支学科,即文献计量学、科学计量学和信息计量学(情报计量学)20世纪80年代之后,由“三计学”又相继出现网络计量学、知识计量学并拓展为“五计学”。文献计量学和科学计量学是三计学、五计学的基础,三计学和五计学的主要对象是文献信息的计量,随后扩展到非文献信息的计量(如网络、数据、知识、事实等)。学科名称起止年代提出者国家书目计量学(StatisticalBibliography)1922-1969年休姆(E.W.Hulme)英国文献计量学(Bibliometrics)1969年至今阿伦•普里查德(AlanPritchard)英国科学计量学(Scientometrics)1969年至今纳利莫夫和穆利钦科苏联信息计量学(Informetrics)1979年至今奥托•纳克(OttoNacke)德国网络信息计量学(Webometrics)1997年至今阿曼德(T.C.Almid)丹麦知识计量学(Knowmetrics)1998年至今刘则渊中国1.1“三计学”与“五计学”及其他1.2信息计量学的概念信息计量学原称“情报计量学(Imformetrics)”,由德国学者昂托·纳克(OttoNacke)教授最先提出。1980年9月,在德国法兰克福召开的第一次情报计量学(含科学计量学)研讨会,纳克教授在会上提出了“情报计量学”,并进行了宣传。其目的在于试图用以概括数学在情报学领域的应用。纳克教授:情报(信息)计量学是采用定量方法来描述和研究情报(信息)的现象、过程和规律的一门学科。邱均平教授:信息计量学分为广义信息计量学和狭义信息计量学。前者主要探讨以广义信息论为基础的广义信息计量问题(信息是用来减少或消除系统的不确定性的东西-香农),信息科学界认为信息是可以度量(计量)的,通常以系统不确定性的变化程度来度量信息,信息计量的关键在于认识信息计量原理和方法以及确定信息计量标准。1.2信息计量学的概念1948年香农在《通信的数学理论》中提出:一个系统所接收
的“信息是能够用来消除不确定性的东西”,奠定了广义信息计量的基础(概率信息)。维纳在1948年发表的《控制论》和1950年著作《人当作人来使用/人有人的用处》中拓展了信息的概念,提出了信息量的定义和计算公式。香农、维纳、费希尔3位美国数学同时提出了单位信息量度量的基本思想。1964年卡尔纳普提出了语义信息及度量问题(前为语法信息)。查德1965年、1968年发表《模糊集合》和《通信:模糊算法》,提出模糊数学可用于信息处理,模糊集合可以反映信息语义。1968年贝里斯和高艾斯提出对信息的量和质(信息效用)进行计量,1978年夏尔马把“量-质”统一量度推广为广义有效信息。1.2信息计量学的概念狭义的信息计量学(情报计量学)主要研究情报信息(文献情报、文献信息)的计量问题,主要是应用数学、统计学等定量方法来分析和处理信息过程中的矛盾,从定量的角度分析和研究信息的动态特性,并找出其内在规律。信息计量学(Informetrics)是采用数学、统计学等各种定量方法,对社会化的信息交流过程中的信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计,以便揭示社会信息交流过程的数量特征和内在规律的一门新兴学科。1.3信息计量学的研究对象20世纪90年代,巴克兰(Buckland)对信息的概念进行了较为全面的解释,认为信息有三种含义:信息作为过程(过程信息)、信息作为知识(知识信息)、信息作为事物(事物信息)。信息作为物事(事物信息)包括实物(Object)、事件(Events)、数据(Data)、文本(Text)、文献(Documents)。信息计量学的研究对象大于科学计量学和文献计量学(核心是文献),目前计量的核心是事物信息的数量。信息科学家塔格·萨克利夫(TagneSutcliffe)认为,原来部分地被包括在信息中的信息的定义和测度也属于信息计量学。1.3信息计量学的研究对象文献信息可计量的特征书目特征:文献量、期刊、相关论文、论文数、作者等引文特征:引文量、年代、语种、学科、国家、被引(作者、期刊、论文、国家)、耦合、共引、自引等收录特征:书目、文摘、索引、数据库收录量词频特征:出现频次其他特征:阅读量、借阅量、馆藏量(利用和保障率)、读者量、流通量、拒绝量等信息可计量的特征:物理特征和内容特征,量、质和价值特征,关系和网络特征。信息的数量、结构与关系信息的数量信息计量单位:广义(比特)、狭义(文献单元、信息单元、
知识单元、数据单元、知识基因、元知识、知识元、元概念)信息载体单元量:物理量(文献计量、专利计量、网络计量)信息内容单元量:内容量、知识量、思想量(知识计量)信息的结构信息载体的物理结构:文献结构-链式、线性信息内容的逻辑结构:知识体系-网络信息的关系时间、空间(分布)、逻辑(数理)、共现、引证、链接1.3信息计量学的研究对象1.4信息计量学的研究内容基本问题:概念、对象、内容、发展史、学科关系、方法、工具、应用五大定律—信息增长定律:指数增长、逻辑指数增长、分级增长模型—信息老化定律:半衰期、普赖斯指数、负指数增长模型—布拉德福定律:信息集中与分散分布定律、期刊与载文量—洛特卡定律:生产率定律、平方反比定律、作者与发文量—齐普夫定律:齐夫定律、词频与等级引文分析—引文结构分析:时间、文献类型、语种等;—引文分析指标:影响因子、被引频次、被引率等;—引证关系分析:引文链、引文网络、链接分析等。网络环境下的信息计量研究:网络计量学、替代计量学历时定律共时定律首创了文献统计方法,并在一些学科领域进行了文献计量分析,拉开了文献计量学的序幕。1.5信息计量学的发展史萌芽时期(1917年-1933年)以文献统计调查为基础,归纳出具有普遍指导意义的结论,取得了许多重要的理论成果,奠定了文献计量学的理论基础。。奠定时期(1934年-1960年)结合文献工作实际,着重开展应用研究。文献计量学确立为一门独立的分支学科。发展时期(1964年-1978年)情报学出现了专有的计量研究领域,信息计量学逐步发展成为一门独立的科学学科。确立时期(1979年以后)1.5信息计量学的发展史1980年,[德]OttoNacke(纳克),首次提出了“Informetrics”,用以概括数学方法在情报学领域的应用。1987年,B.C.Brookes,提议将“Informetrics”加入到ISSI举办的国际学术研讨会的名称中。“Informetrics”开始出现在会议论文集的标题中,标志着这一学科被正式承认。1.5信息计量学的发展史1.6信息计量学的工具与方法信息计量工具(1)WebofScience(WoS):SCI、SSCI、A&HCI及其他①SCI即科学引文索引(ScienceCitationIndex);②SSCI即社会科学引文索引(SocialSciencesCitationIndex);③A&HCI即艺术与人文引文索引(Arts&HumanitiesCitationIndex)。④ESI即基本科学指标数据库(EssentialScienceIndicators);⑤EI即工程索引(EngineeringIndex);⑥ISTP即科技会议录索引(IndextoScientific&TechnicalProceedings);1.6信息计量学的方法与工具(2)国内常用数据库⑦CSCI即中国科学引文索引(ChinaScienceCitationIndex);⑧CSTPC即中国科技论文与引文数据库(ChineseScienceandTechnologyPaperandCitationDatabase);⑨中国科学引文数据库(ChineseScienceCitationDatabase,简称CSCD);⑩CSSCI即中文社会科学引文索引数据库(ChineseSocialScienceCitationIndex);还有中国引文数据库(ChineseCitationDatabase,简称CCD)。1.6信息计量学的方法与工具(3)信息计量软件①MATLAB(MatrixLaboratory):是Mathworks公司开发的集计算、图形可视化和编辑功能于一体的功能强大、操作简便、易于扩充的语言,是国际上公认的优秀的数学应用软件之一。其系统的强大功能是由其核心内容(语言系统、开发环境、图形系统、数学函数库、应用程序接口等)和辅助工具箱(符号计算、图象处理、优化、统计和控制等工具箱)两大部分构成。②SAS(StatisticalAnalysisSystem):中文译名为统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976年创立SAS公司。SAS系统具有十分完备的数据访问、数据管理、数据分析功能。在国际上,SAS被誉为数据统计分析的标准软件。③SPSS(StatisticalPackagefortheSocialScience):中文译名为社会科学应用软件包,是世界上著名的统计分析软件之一。它和SAS(StatisticalAnalysisSystem,统计分析系统)、BMDP(BiomedicalPrograms,生物医学程序)并称为国际上最有影响的三大统计软件。④文献计量和可视化软件:SATI、Bibexcel、Citespace、VOSviewer、Ucinet等。1.6信息计量学的方法与工具信息计量方法统计分析法:包括两个部分,一是信息计量的一些专业统计术语。比如馆藏量、流通量、引文量、时差系数和词频分析等;二是数理统计。主要包括随机样本、抽样分布、参数估计、假设检验、回归分析、方差分析和聚类分析等。数学模型分析法:数学模型是用某种数学语言描述系统的结构和行为而构造出来的,它除了从宏观的角度模拟出系统的结构和运动规律外,主要是从微观上、从量的方面描述出系统的结构、联系以及运动规律。引文分析法:利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以便揭示其数量特征和内在规律的一种文献计量分析方法。计算机辅助信息计量分析法:包括计算机辅助信息计量软件的设计与开发工作,实现了套录资料重组建库以及多种资料统计分析功能;计算机辅助计量分析方法的建立和成熟,标志着我国信息计量研究的方法体系已基本形成,并日趋完善。阅读资料2.1马太效应2.2文献增长定律2.3文献老化定律2.4布拉德福定律2.5洛特卡定律2.6齐普夫定律2.7布-齐-洛的一致性:信息计量对象的集中与分散分布规律“当前,已发表文章的增长、老化和离散规律,理所当然地被视为标志科学文献发展的最根本的规律。”([苏]米哈依洛夫)2信息计量定律2.1马太效应:《新约全书·马太福音》:谁若有,就给他,并不断增加;而谁没有,则连已有的都要被夺走(用以描述社会中的评价和奖励机制)。SCI中80%的引文集中在15%~20%的期刊中等,即信息产生和分布中的“马太效应”(MatthewEffect)。马太效应也称为:二八定律、累积优势分布定律、集中与分散分布定律、成功产生成功原理。2信息计量定律表现形式:富集与贫集现象。描述了优势和劣势的积累过程:一经存在有优势,这种优势就会不断加强,反之若处于劣势,则这种不利条件也会继续加剧。积极作用:信息管理(重点关注核心资源和对象),突出优势。负面影响:不利于人才成长,特别是年轻人;马太效应描述信息对象的优势和劣势过度积累,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,走入极端,使信息工作者因循守旧、不思进取,不求变革创新,按经验和简单的规则从事复杂多变的信息管理工作(双向评价:作者选期刊,期刊选作者)。2信息计量定律2.2文献增长定律科学文献增长(GrowthofScientificliterature)随着时间的推延文献数量的增长情况。实例:美国《化学文摘》的增长情况:第一个100万篇32年(1907—1938),第二个100万篇18年,第三个100万篇8年,第四个100万篇4.75年,第五个100万篇3.3年……2信息计量定律科学知识量的急剧增长是科学文献激增的主要原因其他原因:社会、教育、材料和加工技术等因素第一次翻番从公元初一1750年历时1750年第二次翻番从1750年一1900年历时150年第三次翻番从1900年一1950年历时50年第四次翻番从1950年一1960年历时10年科学知识量的翻番情况2信息计量定律科学的发展同前一代人遗留下的知识量成比例。(恩格斯)文献增长:“似乎没有理由怀疑任何正常的、日益增长的科学领域内的文献是按指数增加的,每隔大约10年到15年时间增加一倍”;“每年增长约5-7%”。(Price,《巴比伦以来的科学》,1961)普赖斯曲线:文献指数增长模型100200300400tF(t)2信息计量定律指数曲线的存在,显然具有普遍性和长期性。(Price)德里克.普赖斯(DerekJohndeSollaPrice,1921-1983),英国著名科学史家、科学学家、情报学家。1946年获伦敦大学实验物理学博士学位,后在新加坡拉费尔斯学院任教。1954年,获剑桥大学科学史博士学位。1962年,任美国耶鲁大学科学史客座教授,后任该校医学和科学史系主任。1976年,荣获国际技术史学会授予的达芬奇奖;1981年,荣获国际科学社会研究学会授予的贝尔纳奖;1983年,被遴选为瑞典皇家科学院国外院士。在他去世后不久,《Scientometrics》设立“普赖斯纪念奖”;美国耶鲁大学设立“普赖斯科学学奖”。一生共发表论著240多件,主要有:《巴比伦以来的科学》(SciencesinceBabylon,1961);《小科学,大科学》(LittleScience,BigScience,1963);《科学论文网络》(NetworksofScientificPapers,1965)。普赖斯为科学计量学和文献计量学的发展、为科学学的成长作出了重要的贡献,并在许多交叉领域都取得了显著的成就。2信息计量定律2信息计量定律“指数增长规律”反映了事物“持续生产自我”的过程。当一个量在一个既定的时间周期中,其百分比增长是一个常量时,这个量就显示出指数增长。只有当事物的“持续增长率”为常数时,才满足“指数增长规律”。持续增长率=总量增加速度/总量F(t)=aebt
(a>0,b>0)F(t):时刻t的文献累积量;t:时间(一般以年为单位);a:条件常数,即统计的初始时刻(t=0)的文献量;e:自然对数的底(e=2.7183……,有时可近似地取为2);b:时间常数,即持续增长率。2信息计量定律文献翻倍时间d130d=ln2/b≈0.693/b“翻倍时间”与“持续增长率”成反比。F(t1)=aebt1,F(t2)=aebt2F(t2)=2F(t1),得出d=t2-t1增长到K倍所需的时间ΔTΔT=lnK/bF(t1)=aebt1,F(t2)=aebt2F(t2)=KF(t1),得出⊿T=t2-t12信息计量定律问题:设某一时刻,某一学科的文献量为10000件,文献年增长率为10%,那么10年以后的文献量是多少?100年以后呢?2信息计量定律2信息计量定律(1)问题一:文献增长量的计算。(2)问题二:文献增长翻番时间的计算。(3)问题三:文献采购经费的计算。(4)问题四:文献收藏空间的计算。2信息计量定律求解:(1)(2)根据文献指数增长模型:
F(t)=aebt
设初始时间t0的文献量为:F(t0)=aebt0
经过t1时间后文献量为:F(t1)=aebt1
设文献翻番时间为:d=t1-t0
经过t1时间后文献量翻一番则有:
F(t1)=2F(t0),即aebt1=2aebt0
两边取自然对数则有:㏑2+bt0=bt1∴d=t1-t0=㏑2/b2信息计量定律(3)采购经费计算:设某高校图书馆每年需采购全部新增图书的0.1%,以平均每本书30元计算,大约需要多少购书经费?计算初始时间、10年后和100年后图书馆的图书采购经费。(4)文献收藏空间计算:设平均每本书占用空间长30cm,宽20cm,厚5cm,估算图书馆每年需增加多少陈列书架(高2米,宽1米,厚0.5米,分五层)。科学文献增长的指数型规律终将成为逻辑型。(Price,《小科学,大科学》,1963)文献逻辑增长模型[苏]弗·纳里莫夫&格·弗莱杜茨首次提出了文献信息的逻辑增长模型。某个时期,指数增长变为逻辑曲线增长。
2信息计量定律
F(t)=k/(1+ae-kbt)(k,a,b>0)F(t):t年的文献累积量;k:当t→∞时文献的累积量,即文献累积量之最大值;a,b:条件参数yF(t)ABTt0k/2F(t)ABLna/bkt0k2信息计量定律从哲学层次来看,文献逻辑增长规律具有必然性和合理性。恩格斯指出:“宇宙的运动是在有限地循环上的无限地发展。”从研究实践来看,大量实证结果证明了逻辑增长规律的正确性。D.J.Frame等人发现:1965~1975年间的“煤的气化”方面的文献,其增长曲线就能很好地符合逻辑曲线增长模型。2信息计量定律科学文献逻辑增长的原因:科学文献的“持续增长率”随着文献数量的增加而减小。(持续增长率=总量增加速度/总量)线性增长模型:F(t)=a+bt(a,b>0)
F(t):时间t时的文献累积数,一般指t年的文献累积数;b:单位时间内的文献增长量,一般指年增长量;a:初始时刻的文献数量。年增长量为常数。2信息计量定律“我们将从文献指数增长的过去,迎向线性增长的未来。”(Rescher)2信息计量定律每篇文献对科学进步所做的贡献都具有相同的价值吗?“在计数时,存在一个根本性的问题,即把《物理学评论》与《布加勒斯特制革者协会年报》都当作具有同等重要意义的一个期刊计量单位……。”
(Price,《巴比伦以来的科学》,1961)“根据科学工作者发表论文的多寡来评价他们的劳动效率,给我们带来了很大的害处,科学工作者们都致力于尽可能多地发表文章,结果导致在科技文献中充斥着为数不少水平不高甚至质量低劣的文章。”(Burnal)2信息计量定律“出版物的数量增长与其质量有关,不同质量的出版物的增长速度是不相同的。”([美]Rescher
,《科学的进步》)质量等级指标λ:λ=1:起码是常规文献(实际代表了全部文献)λ=¾:起码是有意义的文献λ=½:起码是重要的文献λ=¼:起码是非常重要的文献λ=0:第一级(头等重要的)文献分级指数增长模型表达式一:F(t):时刻t的文献累积量;t:时间(一般以年为单位);a,b:条件常数;λ:质量等级指标F(t)=[aebt]λ
(λ=1,¾,½,¼)ln(aebt)
(λ=0)2信息计量定律计算例题:设某一时刻,某一学科的文献量为1,000,000件,请计算各级别文献的数量。λ=1(全部文献):1,000,000(件)λ=¾(有意义的文献):31,623(件)λ=½(重要的文献):1,000(件)λ=¼(非常重要的文献):32(件)λ=0(最重要的文献):14(件)2信息计量定律分级指数增长模型表达式二:F(t):时刻t的文献累积量;t:时间(一般以年为单位);a,b:条件常数;λ:质量等级指标F(t)=aλeλbt
(λ=1,¾,½,¼)lna+bt(λ=0)2信息计量定律“最重要的文献”遵循“线性增长规律”;其余等级的文献遵循“指数增长规律”,且等级越高(λ越小)的文献增长越慢。λ级文献的持续增长率:bλ=b·λb为文献总数(λ=1)的“持续增长率”,(λ=1,¾,½,¼)λ级文献的翻倍时间:
dλ=ln2/bλ=ln2/(b·λ)=d/λd为文献总数(λ=1)的翻倍时间,(λ=1,¾,½,¼)
计算例题:设某一学科文献量的年增长率为10%,请计算各级别(λ=1,¾,½,¼)文献数量的翻倍时间。λ=1(全部文献):6.93(年)λ=¾(有意义的文献):9.24(年)λ=½(重要的文献):13.86(年)λ=¼(非常重要的文献):27.72(年)2信息计量定律科学学和科学史研究以科学文献数量增长规律来模拟科学技术的发展过程。情报研究掌握科技发展动态,进行科学预测的可靠手段。文献信息管理科学文献的数量及未来的增长趋势是文献工作重要的决策依据。2信息计量定律文献增长定律的主要应用2.3文献老化定律文献老化的理解“文献内容逐渐变得过时”(becomingoutofdate)“文献被使用得越来越少”(Somethingislessandlessused)文献老化的类型文献老化:科学文献随其“年龄”的增长,失去了作为科学情报源的价值,以及因此越来越少被科学家和专家们利用的过程。([苏]米哈依洛夫)情报老化:情报的有效价值随时间流逝而衰减的现象。(M.B.Line&A.Sandison)2信息计量定律文献老化的衡量指标半衰期(Half-Life):某学科正在利用的全部文献中较新的一半是在多长一段时间内发表的。1958年,[英]J.D.Bernal,在《科技情报传递:用户分析》一文中首次提出:某学科已发表的文献中有一半已不再使用的时间。1960年,[美]R.E.Burton&R.W.Kebler,在《一些科技文献的“半衰期”》一文中改进半衰期:某学科正在利用的全部文献中较新的一半是在多长一段时间内发表的。也被称为“中值引文年限”(MedianCitationage)。2信息计量定律1944年,[美]C.F.Gosnell,在《大学图书馆中文献老化问题》一文中正式提出。×100%=被引文献总量≤5年的被引文献数量Pr普赖斯指数(Price’sIndex):不老于5年的引文占全部引文的比例1971年,D.J.Price首次提出。2信息计量定律文献信息老化的主要原因:科学技术的发展所带来的科学知识的更新。1970年,[英]B.C.Brookes,提出了文献老化的“负指数模型”。科学文献的被引用数量随时间的推移而衰减的过程服从负指数规律。负指数模型表达式:C(t)=Ke-at
(k>0,a>0)t:文献的出版年龄(一般以年为单位);C(t):出版年龄=t年的文献的被引用次数;e:自然对数的底(e=2.7183……);a:文献的老化率(又被称为“相对衰减率”);K:常数,随不同学科而异。实质:已发表了的科技文献的价值将在某一时间范围内均匀地减少。(“相对衰减率”为常数)2信息计量定律半衰期简易计算生物化学文献引文分布表总引文量An=80005An/2=40002.5A4=37331<An/2A5=43866>An/2则:i=4半衰期T2信息计量定律半衰期简易计算方法设i为引文年龄,某学科的引文中第i年的引文量为ai,i=0,1,2,…,n。令:A0=a0,A1=a0+a1,…,An=a0+a1+…+an,An为总引文量总存在一个i,使得:
Ai≤An/2<Ai+1则半衰期T一定落在区间[i,i+1]内假设各年度引文量随时间均匀分布,令T=i+b(0<b<1)
则有:
2信息计量定律科学学和科学史研究文献信息管理指导剔出陈旧、无用的文献,优化馆藏为制定合理的文献工作原则提供依据用于评价文献指导阅读来揭示科学技术的发展过程和规律。文献老化定律的主要应用2信息计量定律2.4布拉德福定律:文献集中与分散分布定律1934年,[英]S.C.Bradford,在《专门学科的情报源》(SourcesofInformationonSpecificSubject)一文中首次提出了定量描述文献分散规律的经验定律。假设:任何一学科的绝大部分专业文献都集中于少数的相应专业期刊内,但是同时也散布于其它的相关期刊中。其散布的态势则与该学科研究范围的大小有关。2信息计量定律布氏定律区域表示法(ZonalExpression)
——又称为“文字表示法”(VerbalExpression)假设一定时间内(通常为一年)共有N种期刊刊载了某学科的论文(简称为“相关论文”)K篇,将这N种期刊按照所载“相关论文”的数量降序排列,然后,将该序列划分为三个区,使得每个区所包含的”相关论文“的数量相等(即“K/3篇”),则各区的期刊数量满足下列关系:
n1:n2:n3=1:a:a2
(a>1)n1,n2,n3分别为“各个区的期刊数量”,显然n1+n2+n3=N;a为“布拉德福常数”(或称“比例系数”)。三个区分别称为:“核心区、相关区、外围区”2信息计量定律分区期刊载文数量(篇/年)应用地球物理学润滑期刊数量论文数量期刊数量论文数量核心区x>494298110相关区4≥x围区1≥x258404127152计算实例:布拉德福的统计数据(1934年)结论:n1:n2:n3≈1:5:52图像表示法(GraphicalExpression)
——又称为“经验表示法”(EmpiricalExpression)假设一定时间内(通常为一年)共有N种期刊刊载了某学科的论文(简称为“相关论文”)K篇,将这N种期刊按照所载“相关论文”的数量降序排列,然后,以期刊累积数量的对数(lgn)为横坐标,以相应的“相关论文”累积数量(R(n))为纵坐标作图如下:AlgnR(n)CB0核心区相关区外围区(经典)布拉德福分散曲线2信息计量定律1948年,[英]B.C.Vickery,发表论文正式提出了“布拉德福分布”和“布拉德福定律”的概念,并提出了自己的修正和补充,为该定律的确立和发展作出了重要贡献。推论:期刊的分区数目是任意的。假设:一定时间内(通常为一年)共有N种期刊刊载了某学科的论文(简称为“相关论文”)K篇,将这N种期刊按照所载“相关论文”的数量降序排列,然后,将该序列划分为m个区,使得每个区所包含的”相关论文“的数量相等(即“K/m篇”),则:维氏公式:n1:n1-2:n1-3:…:n1-m=1:V:V2:…:
Vm-1
(V>1)ni为第i区的期刊数量,n1-i为“第1区到第i区的期刊累积数量”,即:n1-i=n1+n2+
…+ni,(i=1,2,3,…,m);V为“维氏(分散)系数”。2信息计量定律“(布拉德福)没有用数学公式的形式去表现。结果,由于这个疏忽,使人们认识到该定律的重要意义,整整多花了20年时间。”([英]B.C.Brookes,1969)1968年,[英]B.C.Brookes,首次提出了布拉德福定律的数学表达式,并在1969年进行了修正,最终确立了“布鲁克斯公式”。2信息计量定律布鲁克斯公式:R(n)=α:等于载文量最多的期刊的载文量R(1);(一般随统计年限的增加而增大)β:等于“曲线部分”的曲率;(大小与核心区的期刊数量有关,且总小于1,在较短时间(二至五年)内可视为常数,但在较长时间里将会发生变化)n:期刊按载文量递减顺序排列的等级序号,即期刊累积数;R(n):对应于前n种期刊的相关论文累积数;C:核心区的期刊数,即曲线拐点对应的n值;N:样本期刊总数;K:等于“直线部分”的斜率;(可用实验方法求得,当N足够大时,K=N×ln10
)s:等于“直线部分”反向延伸与横轴交点的n值;(大小与所属学科、专业范围有关,在学科范围较窄时,s≤1,s越大,说明专业研究范围越宽。此外,也与学科发展阶段有关。而且,C值与s值相关)2信息计量定律1967年,[美]Q.V.Groos,指出布拉德福曲线中存在“格鲁斯下垂”(GrossDroop)-统计不全(学科交叉、统计工具、期刊变化)。AlgnR(n)CB0(经典)布拉德福分散曲线lgnR(n)CB0DA(现代)布拉德福分散曲线2信息计量定律布氏定律的主要应用:确定核心期刊;用于文献检索:估计全检某专业论文和相应期刊总数;根据检索要求,估计被检期刊的最小数量;计算检索效率和评价检索工具的完整性。指导读者利用期刊(确定核心期刊);指导期刊订购工作(确定核心期刊);考察专著的分布(确定核心出版社);动态馆藏的维护(确定核心期刊和确定核心读者);学科幅度的比较和学科的重叠程度(比较核心区);2信息计量定律布氏定律用于测定核心期刊的方法区域分析法:根据具体情况将这些期刊分成若干个区(一般为3个区),使每个区的文献数量大致相等。这时,第一区的期刊即为该学科(或专业)的核心期刊。
分区期刊载文数量(篇/年)应用地球物理学润滑期刊数量论文数量期刊数量论文数量核心区x>494298110相关区4≥x围区1≥x258404127152实例:布拉德福的统计数据(1934年)2信息计量定律图像分析法:将所得数据累计,得到两组数据:“期刊等级n”和“论文累积量R(n)”;其次,用lgn作横坐标,R(n)为纵坐标作图,绘制出布拉德福曲线;然后,找到曲线部分与直线部分的交点C,其横坐标为lgnc,则nc为核心期刊数;最后,列出排在前面的nc种期刊,即为该学科(或专业)的核心期刊。lgnR(n)CB0DA布拉德福曲线lgnc2信息计量定律期刊数每种期刊的载文量期刊等级n论文累积数量R(n)126112611259252012203740…………1134101953…………14024776834534110117368计算实例:A.Pope的统计数据(“情报学”)lgnR(n)CB0DA布拉德福曲线lg10N=1011,R(N)=7368;nc=10,R(nc)=1953
2信息计量定律布氏定律用于图书情报机构期刊订购问题:任何一个信息机构的经费都是有限的,不可能将某一学科领域的全部文献采购齐全,只能订购其中一部分。以期刊为例,如果想要获得某一领域所有期刊论文的f份额,需要订购多少种期刊才能达到要求呢?求解:设n种期刊所载论文占该领域总论文数的f份额,则有:R(n)/R(N)=f(如果忽略学科系数)那么,N㏑n/N㏑N=f,则n=Nf
(可以推广至有学科参数S的情形n=S(N/S)f当N为某一给定数值时,可分别求出f=1/2,f=1/3时的期刊种数和订购经费。2信息计量定律从布拉德福分布中抽出n种载文率最高的期刊由于布拉德福分布中的N、S已知,对于确定的学科、专业来说可求得n。若N=600,S=1.5,P%=50%时,则n=30,若P%=76%,则n=90。也就是说,要搜集该学科50%的论文,只要订购相关论文载文量最高的30种期刊就够了。2信息计量定律假设某一学科领域有500种期刊,现要求收藏该领域中相关论文数量的一半,即f=1/2,若S=5则应订的期刊数量为:即订购载文率最高的50种期刊便可满足要求。若每种期刊的平均年度订费为11元,则订50种期刊需550元。反之,如果知道订费和期刊数量,利用上式同样可以求出其论文比例。2信息计量定律2.5齐普夫定律——文献中的词频分布规律1932年,哈佛大学的语言学专家齐普夫在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为齐普夫定律。它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。乔治·齐普夫(GeorgeZipf)指出,使用最多的英语单词“the”占到了人们所有会话量的7%,排名第二的“of”的使用频率正好是“the”的一半,依此类推,第100个最常用单词的使用频率是“the”的百分之一。齐普夫定律暗示,在任何序列中,后继者的价值会定量地减少。2信息计量定律2信息计量定律1935年,齐普夫出版《动态语言学导论》,对词频分布规律进行了系统研究,初步确立了“齐普夫定律”。1949年,出版《人类行为与最省力法则——人类生态学引论》,系统论述了“最省力法则”,奠定了“齐普夫定律”的理论基础,标志着该定律正式形成。最省力法则与词频分布规律说话者以只用一个词表达所有概念为最省力(“单一化的力”);听话者以每个概念都用一个词表达为最省力(“多样化的力”);“单一化的力”与“多样化的力”取得平衡,使自然语言词汇的频次分布呈双曲线。齐普夫第一定律文字表述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年“童心护航 健康童行”六一儿童健康关爱系列活动方案
- 新形势下种子批发行业顺势崛起战略制定与实施分析研究报告
- 新形势下口腔高值耗材行业顺势崛起战略制定与实施分析报告
- 2025-2030年智能矿业数据分析行业跨境出海战略分析研究报告
- 2023-2028年中国PCB样板行业开拓第二增长曲线战略制定与实施分析报告
- 妇护电大试题及答案
- 2026年新版建设工程合同协议含工期条款
- 2026届成都市九年级物理中考二模原创仿真模拟试卷(含答案详解与评分标准)
- 护师考试专业试题及答案
- 2026年核医学技术员模拟试卷
- 专题提升Ⅰ 杠杆平衡问题(解析版)
- 现代西班牙语A1课后翻译
- 《碳排放管理体系建设与评价指南》
- 装配式建筑装饰装修技术 课件 模块一 装配式装修概述
- FZ∕T 93043-2012 棉纺并条机行业标准
- 高铁火车工作原理
- MOOC 英国小说-南京大学 中国大学慕课答案
- 《旅游法规》课件-第25讲 旅行社责任保险分析
- MOOC 隔网的智慧-乒羽两项-西南交通大学 中国大学慕课答案
- JTT327-2016 公路桥梁伸缩装置通用技术条件
- 高中化学选择性必修3 教材习题答案
评论
0/150
提交评论