信息资源分布_第1页
信息资源分布_第2页
信息资源分布_第3页
信息资源分布_第4页
信息资源分布_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息资源分布第一页,共六十六页,2022年,8月28日2023/1/181第二章信息资源分布§2.1信息资源的集中与分散规律§2.2信息资源随时间的分布规律§2.3信息资源在空间上的分布规律第二页,共六十六页,2022年,8月28日2023/1/182§2.1信息资源的集中与分散规律2.1.1信息资源分布的马太效应2.1.2布拉德福定律2.1.3齐夫定律2.1.4洛特卡定律2.1.5普赖斯定律第三页,共六十六页,2022年,8月28日2023/1/183§2.1信息资源的集中与分散规律2.1.1信息资源分布的马太效应马太效应:R·默顿(美国)引用圣经《新约全书·马太福音》中的一段话“……谁若有,就给他,并不断增加;而谁没有,则已有的都要被夺走”。信息资源产生和分布中的马太效应少数出版社成为某类图书的权威出版机构核心期刊的形成少数作者成为某一领域的核心作者少数网站集中了大量用户传递功能强的词汇被经常引用这种信息分布的“富集”与“贫集”的现象是人类社会特有的选择机制支配的结果。第四页,共六十六页,2022年,8月28日2023/1/184§2.1信息资源的集中与分散规律由马太效应引起的信息富集分布表现为核心趋势和集中取向。核心趋势:是信息生产主体的主动期望与采取实际步骤的结果。如高产作者群体的形成、期刊信息密度增大、高频词汇的确立等集中取向:主要是社会选择和影响的结果,信息生产者基本上处于被动状态。如一篇论文多次被引、一个网站被众多用户点击等。第五页,共六十六页,2022年,8月28日2023/1/185§2.1信息资源的集中与分散规律信息分布富集现象的积极意义:突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。马太效应的不足:马太效应描述的信息资源的优势和劣势过度积累,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,因循守旧,不思进取。所形成的信息分布富集优势仅仅是表面的、外在的。核心信息源是马太效应优势积累的结果,但过分注重核心信息源,会忽略分布在其他信息源中有价值的信息。马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播。第六页,共六十六页,2022年,8月28日2023/1/186§2.1信息资源的集中与分散规律2.1.2布拉德福定律信息资源的离散分布是信息资源的重要属性,它表现为信息的内容单元以不同方式从不同角度分布于各种载体中,信息资源的离散分布具有复杂的机理,本质上是由信息的生产和利用决定的。产生背景:一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。根据科学统一性原则,每一学科都或多或少地与其他任何一门学科相关联。第七页,共六十六页,2022年,8月28日2023/1/187§2.1信息资源的集中与分散规律2.1.2布拉德福定律英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradford’sLawofScattering),简称为布拉德福定律或布氏定律:“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的‘核心’部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1∶a∶a2的关系(a>1)。”这就是布拉德福定律的区域表述形式。设第一区(核心区)所涉及的文章n1种期刊;第二区(相关区)包括n2种期刊;第三区(外围区)包括的n3种期刊。那么,3个区中的期刊数量成下列关系:

n1:n2:n3=1:a:a2(a>1)

式中:a—布拉德福常数,或称比例系数。

第八页,共六十六页,2022年,8月28日2023/1/188§2.1信息资源的集中与分散规律两个学科的期刊分区表:(1)将刊物按刊载相关主题文章的载文量多少的递减顺序排列(2)将表中的科学期刊按其登载论文数量的大小,期刊分为包含同等数量论文的三个区。相继各区的期刊数成等比数列其中:9:59:258≈1:5:25第九页,共六十六页,2022年,8月28日2023/1/189§2.1信息资源的集中与分散规律布拉德福定律的图形描述:如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是一段上升的曲线BD。第十页,共六十六页,2022年,8月28日2023/1/1810§2.1信息资源的集中与分散规律布拉德福分散曲线R(n)CBDNlgnR(N’)COAR(N)n1R(n1)N’布鲁克斯用下述模式来表示布拉德福定律:R(n)=αnβ(曲线部分)(1≤n≤C)(2-1)R(n)=klg(n/s)(直线部分)(C≤n≤N)(2-2)曲线上BD部分只是近似地满足(2-2)式。论文累积数期刊累积数的对数第十一页,共六十六页,2022年,8月28日2023/1/1811在式中:R(n)——相关论文累积数。n——杂志等级排列的序号(级)。α——第一级杂志中的相关文章数R(1)。也就是载文章最高的杂志中的相关文章数。C——“核心区”中的杂志数量。N——等级排列的杂志总数。k,s——待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得。当N足够大时,k≈N。β——参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,β总小于1。式(2-1)和(2-2)就是布拉德福定律的图形表述形式。§2.1信息资源的集中与分散规律第十二页,共六十六页,2022年,8月28日2023/1/1812以应用物理学期刊为例:§2.1信息资源的集中与分散规律第十三页,共六十六页,2022年,8月28日2023/1/1813§2.1信息资源的集中与分散规律布拉德福分散曲线:第十四页,共六十六页,2022年,8月28日2023/1/1814§2.1信息资源的集中与分散规律布拉德福定律的数学描述令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量,则有:

r1=m1/p1,r2=m2/p2,r3=m3/p3划分区域使得:r1p1=r2p2=r3p3=m1p2/p1=r1/r2=a1p3/p2=r2/r3=a2

令a1=a2=a,

则p2=a1p1,p3=a2p2=a1a2p1

于是p1:p2:p3=1:a:a2…………(2-3)第十五页,共六十六页,2022年,8月28日2023/1/1815§2.1信息资源的集中与分散规律布氏定律的维克利解释将杂志分区的数目推广到n>3的普遍情形。设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,…,nm有如下关系:

T1:T2:T3:…:Tm=1:b:b2:…:bm-1…………(2-4)其中:b为维氏分布系数

Ti=ni(i=1,2,…,m)为前i个区的杂志数量

Tm=n1+n2+n3+…+nm=N,N为杂志总数第十六页,共六十六页,2022年,8月28日2023/1/1816§2.1信息资源的集中与分散规律布拉德福定律的两个基本要点:一是频次等级排序,形成主体来源(期刊)的有序目录;二是确定相关论文在主体来源中的分布规律。布拉德福定律的具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但所揭示的都是论文在期刊中的分散规律。20世纪60年代,人们从不同的角度和侧面提出了许多经验分布公式和理论模型,使布拉德福定律取得了很大发展,但也存在很多问题。对布拉德福定律进行严格检验,比较各公式的优劣,寻找更为规范的精确的数学模型;其次要深入研究布氏分布的机理,寻找科学的统一的理论解释;再次,进一步分析和研究其适用条件及局限性,大力开展应用研究。布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究基本上是空白。第十七页,共六十六页,2022年,8月28日2023/1/1817§2.1信息资源的集中与分散规律2.1.3齐夫定律齐夫定律的研究内容任何文集或文献中不同词汇的使用有什么特点?它们在文献中出现的频次有没有一定的规律?如果有规律,其表现形式应当是怎样的?齐夫定律正是要回答这个问题。齐夫定律的表述如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:

fr=c…………(2-5)

式中c为常数。上式称为齐夫定律。第十八页,共六十六页,2022年,8月28日2023/1/1818§2.1信息资源的集中与分散规律词频分布示例rfLgrLgf140000.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69第十九页,共六十六页,2022年,8月28日2023/1/1819§2.1信息资源的集中与分散规律齐夫词频分布曲线:如果建立f与r的直角坐标系,用横坐标表示词的等级序号,纵坐标表示出现频次,就得到一条双曲线。f25020015010050300r132564第二十页,共六十六页,2022年,8月28日2023/1/1820§2.1信息资源的集中与分散规律

齐夫定律的对数曲线:如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:

lgr+lgf=lgc图中的虚线表示理想化形式。齐夫定律的修正:一般地,斜率为b的任一直线可表示为:

blgr+lgf=lgc这一直线由图中的实线表示。如果将其改写成(2-5)式的形式就得:

frb=c…(2-6)

取b=1,(2-6)式与(2-5)式相同,因此可以将(2-6)式看做是对齐夫定律的修正。LgfLgr第二十一页,共六十六页,2022年,8月28日2023/1/1821§2.1信息资源的集中与分散规律齐夫分布的其他形式齐夫定律是一个纯粹的经验定律,仅仅使用了一般的统计方法,其过于简单的形式和结论对于出现频次特别高的词和特别低的词都不能完全满足。其适用范围具有一定的局限。朱斯双参数等级分布:美国学者朱斯指出,在(2-6)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为:

f(r)=cr-b…………(2-7)式中,b>0,c>0,对于r=1,2,…,n,式(2-7)就是朱斯的双参数等级分布定律。f(r)表示r位词出现的频率(或概率)。第二十二页,共六十六页,2022年,8月28日2023/1/1822§2.1信息资源的集中与分散规律曼德尔布罗三参数分布:数学家曼德尔布罗运用信息论原理和概率论方法来研究词频分布,用三参数修正了齐夫定律,使齐夫定律更具有一般性和普遍意义。曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较。设r为词的顺序,f(r)为第r个词的频率,m(r)为第r个词的词长。这时平均词长为:

L=Σf(r)m(r)当给定的熵值最小或当L最小时,应有:

H=-Σf(r)lgf(r)=常数,以及Σf(r)=1。根据这些条件,曼德尔布罗从理论上提出了三参数分布公式:

f(r)=c(r+a)-b………(2-8)第二十三页,共六十六页,2022年,8月28日2023/1/1823§2.1信息资源的集中与分散规律(2-8)式中,0≤a<1,b>0,c>0。a,b,c为参数,具有如下意义:①参数c与出现概率最高的词的概率大小相关或者说与f(1)有关。当a=0,b=1时,c=f(1)。②参数b与高频词数量的多少有关,对于r<50的高频词,b是r的非减函数,随着r的增大,参数b并不减少。③参数a与词的数量n有关,由于a的选择自由较大,此公式更为灵活,更能够在各种条件下与测定的统计数据拟合。第二十四页,共六十六页,2022年,8月28日2023/1/1824§2.1信息资源的集中与分散规律

齐夫定律和朱斯的修正式可以看作曼德尔布罗的特例。齐夫定律是对自然语言词汇统计所得到的规律。研究表明,人工语言及人工语言语词构成的集合同样满足齐夫定律。齐夫定律具有广泛的应用,在信息系统建设、词表管理和控制、自动标引、信息存贮与检索方面都取得了许多应用成果。通过词频分布来揭示信息的分布规律则是齐夫定律在理论上的重要开拓。第二十五页,共六十六页,2022年,8月28日2023/1/1825§2.1信息资源的集中与分散规律2.1.4洛特卡定律洛特卡定律是关于信息生产者分布的规律。信息生产者在信息生产过程和生产结构中呈现何种规律?这种规律对信息资料分布有何影响?1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院学报》上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。第二十六页,共六十六页,2022年,8月28日2023/1/1826§2.1信息资源的集中与分散规律洛特卡选择美国《化学文摘》和德国奥尔巴赫《物理学史一览表》为数据源研究科技工作的论著数量分布。他统计分析了《化学文摘》1907~1916年10年累积索引中的部分作者,即姓氏以字母A和B开头的6891位作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。《物理学史一览表》包括了1900年前物理学领域内出现的1325位物理学家及其论著,取其全部数据进行统计。第二十七页,共六十六页,2022年,8月28日2023/1/1827§2.1信息资源的集中与分散规律

洛特卡定律的图形描述:洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即lgx和lgyx)作图,两组数据都是直线(如图所示)。图中虚线表示《化学文摘》数据,实线代表《物理学史一览表》的数据。用最小二乘法计算拟合直线的斜率,近似为-2。LogyxLogx10532151253010020第二十八页,共六十六页,2022年,8月28日2023/1/1828§2.1信息资源的集中与分散规律洛特卡定律的数学描述:根据洛特卡分析,在论文数x和作者数yx之间存在下列关系:xnyx=c……………(2-9)

式中,yx

是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。具体到洛特卡统计的实例,指数n近似为2.0,则:

yx=c/x2……………(2-10)

通过变换得到:

=……………(2-11)第二十九页,共六十六页,2022年,8月28日2023/1/1829令f(yx)=,实际表示写x篇论文的作者出现的频率,C=,表示作者取样总数的比例,这样式(2-11)可以写成:

f(yx)=……………(2-12)此即为平方反比分布。两边求累计和得:1==§2.1信息资源的集中与分散规律第三十页,共六十六页,2022年,8月28日2023/1/1830§2.1信息资源的集中与分散规律即:=1根据黎曼函数的计算方法可知:

C*2/6=1

于是,C=6/2=0.6079第三十一页,共六十六页,2022年,8月28日2023/1/1831根据平方反比分布,所有撰写一篇论文的著者的比例刚刚超过60%。《物理学史一览表》数据中,共有1325位作者,写一篇论文的为784人,占总数的59.2%《化学文摘》中,姓氏以A开头的作者共1524人,写一篇论文的为890人,占57.7%。洛特卡定律是对两组数据统计的推广、是对信息生产的一般理论估计,而不是一个精确的统计分布,因而有其局限性。在洛特卡之后,许多学者采用不同的工具进行了数据研究,获得了与洛特卡定律相同的结论,只是n和c是更为一般的参数而不是常数。§2.1信息资源的集中与分散规律第三十二页,共六十六页,2022年,8月28日2023/1/1832§2.1信息资源的集中与分散规律2.1.5普赖斯定律受洛特卡定律的启示,普赖斯提出了核心生产者分布的“平方根定律”。即在某一特定领域中,全部论文的半数是由该领域中全部作者的平方根的那些人撰写的。该定律可表示为:

=(2-13)

式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产作者发表的论文数;N为该学科领域全部作者总数。m可由下式确定:=(2-14)第三十三页,共六十六页,2022年,8月28日2023/1/1833§2.1信息资源的集中与分散规律如果规定发表了n篇论文的作者人数为a(n),则发表n≤N≤n’篇论文的作者人数为:A(n-n’)=a(n)+a(n+1)+…+a(n’)

=……………(2-15)a(n)名作者一共发表的论文为p(n)=n·a(n)同理,发表了n≤N≤n’篇论文的作者总共发表的论文数为:P(N)=P(n-n’)=na(n)+(n+1)a(n+1)+…+n’a(n’)

=……………(2-16)

第三十四页,共六十六页,2022年,8月28日2023/1/1834§2.1信息资源的集中与分散规律若P(1→nmax)/2=P(m→nmax)=P(1→m),则有:

=(2-17)其中,a(n)=,a(n)是频数。因此,P(1→n)=由调和级数和的公式可得:P(1→n)=c(lnn+0.577+…+εn)第三十五页,共六十六页,2022年,8月28日2023/1/1835§2.1信息资源的集中与分散规律

化简得,m=0.749(nmax)1/2

式子表明,撰写0.749(nmax)1/2篇以上论文的作者所发表的论文数等于论文总数的一半。高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方根的0.749倍。另一方面,

K===

这个式子表明了高产作者人数同全体作者人数的比例关系。第三十六页,共六十六页,2022年,8月28日2023/1/1836§2.1信息资源的集中与分散规律

普赖斯定律仅仅是在洛特卡定律基础上提出的一种假说构想,洛特卡定律中指数n不等于2的情况同样影响着普赖斯定律。普赖斯定律的意义在于它简洁地描述了信息按生产者能力的分布情况。洛特卡定律、普赖斯定律和其他一些描述文献信息生产者分布的规律都揭示了少数信息生产者生产了大量信息的规律和特点。第三十七页,共六十六页,2022年,8月28日2023/1/1837§2.2信息随时间的分布规律2.2.1指数增长律1.普赖斯曲线2.生长曲线2.2.2逐渐过时率第三十八页,共六十六页,2022年,8月28日2023/1/1838§2.2信息随时间的分布规律研究信息在时间轴上的动态分布规律可以揭示信息资源的增长与老化,把握信息量的变化,对信息实施动态管理。随着社会经济和科学技术的高度发展,信息的爆炸式增长不断影响着人们对信息的利用和吸收,描述信息的增长规律成为学术界和实际工作者关注的重要课题。第三十九页,共六十六页,2022年,8月28日2023/1/1839§2.2信息随时间的分布规律2.2.1指数增长律1、普赖斯曲线(1)研究对象和研究方法

1944年,F.赖德就对美国大学图书馆藏书作了调查统计,他以丰富的数据证明,全美主要大学图书馆的藏书平均每16年递增1倍。继赖德之后,普赖斯对信息的爆炸式增长进行了深入研究。1665年在法国创办了第一本期刊,1750年增加至10种,1800年增至100种,1850年为1,000种,1900年为10,000种,目前已近10万种,几乎是每50年增加10倍。其次,根据《化学文摘》、《生物学文摘》、《科学文摘》近几十年的数据,也可发现同样的增长趋势。第四十页,共六十六页,2022年,8月28日2023/1/1840§2.2信息随时间的分布规律F(t)1001019001950t1665100001000180017501850普赖斯曲线如果以文献量为纵轴,以历史年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律。第四十一页,共六十六页,2022年,8月28日2023/1/1841§2.2信息随时间的分布规律(2)普赖斯曲线的描述通过对曲线分析,普赖斯最先注意到文献增长与时间成指数函数关系。如果用F(t)表示时刻t的文献量,则指数定律可表为下式:

F(t)=aebt…(2-22)

式中:a是统计的初始时刻(t=0)的文献量;

e=2.718;

b表示持续增长率。人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即

t′=(ln2)/b……(2-23)

式中:t′为文献量翻倍时间,b为持续增长率。第四十二页,共六十六页,2022年,8月28日2023/1/1842§2.2信息随时间的分布规律(3)普赖斯曲线的实例说明例如,在某一初始时刻,文献量a=10000件,增长率为10%,那么10年后文献量将是:

F(10)=10

000

e0.1*10

=27

183(件)100年以后的文献量将是:

F(100)=10

000

e0.1*100

=220

264

660(件)文献量翻一倍的时间是:

t′=

ln

2/0.1=0.693/0.1=6.93(年)从统计实例、对1952~1982年间世界图书增长情况和1907~1977年世界化学论文数量的统计分析来看,文献的指数增长定律具有一定程度的正确性和普遍性,并获得了学术界承认。第四十三页,共六十六页,2022年,8月28日2023/1/1843§2.2信息随时间的分布规律(4)普赖斯曲线的内在机理文献信息(或者信息)指数增长的内在原因是由于社会信息流的传播和影响的结果。人们接受新思想、新信息的概率会随着时间的推移而增大。这是因为掌握新思想和新信息的人数本身是按指数增加的,他们必然要从事知识信息的生产和传播,这就必然引致信息量指数增长。如果一个人接受新思想、新信息的概率随时间按固定比例增大,则有:

解此方程得:

lnN=bt+C,则:N=ecebt

令ec=a,则N=aebt,正好与(2-22)式相同。第四十四页,共六十六页,2022年,8月28日2023/1/1844§2.2信息随时间的分布规律(5)普赖斯曲线的修正实际的统计发现,不同时期、不同级别、不同质量、不同学科领域的文献信息增长态势是不一样的。勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大。勒希尔认为,文献的数量与其质量有关。他定义λ(0≤λ≤1)为文献的质量级别,则不同级别上的文献量为[F(t)]λ。他给λ的具体值如下:

λ=1:至少是一般文献(实际代表所有文献)λ=3/4:至少是有意义的文献

λ=1/2:至少是重要的文献

λ=1/4:至少是非常重要的文献

λ=0:第一流的文献,文献数量为lnF(t)。第四十五页,共六十六页,2022年,8月28日2023/1/1845§2.2信息随时间的分布规律如果文献总数为100万件,根据勒希尔定义的质量级别,则有:

1000000:至少是一般文献(即文献总数)

31623:至少是有意义的文献

1000:至少是重要的文献

32:至少是非常重要的文献

14:第一流的文献如果文献量翻倍时间为t′,那么质量为λ级的文献数量翻倍时间将是t′/λ。于是当人们力图提高文献质量时,指数增长减慢,对于第一流的文献(λ=0),指数增长规律完全破坏,并且每一周期仅有一常数增量。在这种情况下,文献的增长函数是线性的,即:第四十六页,共六十六页,2022年,8月28日2023/1/1846§2.2信息随时间的分布规律对于前述例子,b=0.1,文献总量翻一倍的时间为6.93年,那么对各个质量级别的文献而言,文献量对应的翻倍时间是:

9.24年——至少是有意义的文献(λ=3/4)

13.86年——至少是重要的文献(λ=1/2)

27.72年——至少是非常重要的文献(λ=1/4)

对于第一流的文献(λ=0):

第四十七页,共六十六页,2022年,8月28日2023/1/1847§2.2信息随时间的分布规律2、生长曲线(1)生长曲线的描述

普赖斯指出,考虑物质的、经济的、智力的及时间的影响和限制,文献信息的增长更趋近于生物的生长曲线(LogisticCurve),即最初生长或繁殖很快,随着时间推移,其生长速度越来越慢,以致几乎不增加了。其方程为:

F(t)=k/(1+ae-kbt)…………(2-25)式中:F(t)代表时刻t的文献量,k为文献增长的最大值。第四十八页,共六十六页,2022年,8月28日2023/1/1848§2.2信息随时间的分布规律生长曲线生长曲线表明,在文献增长的初始阶段,它是符合指数增长规律的,但它不能始终保持指数增长的势头,当文献增至最大值的一半时,增长率开始变小,最后缓慢增长,并以k为其极限。F(t)tK/2(lna)/kb第四十九页,共六十六页,2022年,8月28日2023/1/1849§2.2信息随时间的分布规律(2)生长曲线的应用生长曲线在描述科学文献增长规律时,取得了一定成功。如果单独就某一具体学科领域内文献的增长而言,生长曲线极好地描述了它们的增长规律。一般来说,在不同的阶段科学文献增长的态势是不同的。学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短。学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,增长率变小,曲线变得平缓,文献寿命相对变长。某一知识领域的研究取得重大进展后进入相对成熟的阶段。内容上更新的文献又将进入一个新的急剧增长时期(如指数增长)。然后又进入一个稳定时期。第五十页,共六十六页,2022年,8月28日2023/1/1850§2.2信息随时间的分布规律文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,呈现出错综复杂的格局。一般说来,对不同的领域,描述其文献增长的生长曲线中各个常数(a,b和k)也是不相同的。但生长曲线仍有其局限,由(2-25)式可知,当t→+∞时,

F(t)

→k,这表明当科学发展到一定阶段时,文献的增长率为零,而文献总量达到了不可逾越的最大值。这意味着某个年代之后,再也没有新的文献产生,这显然是不符合实际的。

第五十一页,共六十六页,2022年,8月28日2023/1/1851§2.2信息随时间的分布规律(3)普赖斯曲线与生长曲线的局限性利用指数曲线和生长曲线来研究文献增长、预测未来文献总量必然会有局限。这是因为:学科差异性:指数增长定律的产生,首先是普赖斯分析研究物理学文献数量的增长时提出的,然后把这一结果扩大到科学期刊和其他类型的出版物上,绘制了普赖斯曲线。把对文献某一方面、某一历史阶段的研究成果,推广到文献的全部领域,根据是不充分的。缺乏系统分析:利用上述二曲线对文献增长所作的预测,依据的是预测学中的趋势外推法。文献作为传播信息这一复杂系统中的子系统,其增长规律受到许多因素的影响和制约,只有利用系统论的观点对其作系统分析,才能得到比较符合实际的结果。第五十二页,共六十六页,2022年,8月28日2023/1/1852§2.2信息随时间的分布规律2.2.2逐渐过时率1、文献老化的表现文献中所含信息仍然有用,但现在已被包含在更新的其他论著中;文献中信息仍旧有用,但现在正处于一个人们对其兴趣下降的学科;文献中的信息仍旧有用,但为后来的著作所超越;信息不再有用。2、文献老化的衡量标准文献半衰期:某学科领域现在尚在利用的全部文献中的一半是在多长一段时间内发表的。普赖斯指数:即某一学科领域内,对发表年限不超过5年的文献的引用次数与总的引用次数之比值。一般来说,普赖斯指数越大,半衰期就越小,文献老化的速度越快。第五十三页,共六十六页,2022年,8月28日2023/1/1853§2.2信息随时间的分布规律3、文献信息老化曲线用纵坐标表示现在正被利用(引证)的文献的被引量,横坐标表示时间,我们可以绘制出文献的老化曲线。相应的方程可表示为:

C(t)=ke-at…………(2-26)式中:C(t)表示发表了t年的文献的被引次数,k是常数,随学科不同而异,a为老化率。被引证次数C(t)0.5出版年龄tt1t2t3第五十四页,共六十六页,2022年,8月28日2023/1/1854§2.2信息随时间的分布规律4、文献信息老化的影响因素文献增长。文献的增长和老化是一个事物的两个方面,它们从不同的侧面来描述科学的发展,阐明科学知识的修正率。因此,文献的老化,首先是与文献的增长联系在一起的。

学科差异。世界上93%~98%的科学杂志引用寿命为20年左右,但并不是所有这些学科的文献老化速率都大体一致,相反,彼此之间差异甚大。学科发展阶段的差异。即使是同一学科,不同的时期或阶段,文献的半衰期不尽完全相同。信息环境和需求。不同信息用户对文献的需求是不同的,因而信息利用者的需求及所处的信息环境的研究十分必要。第五十五页,共六十六页,2022年,8月28日2023/1/1855§2.3信息资源在空间上的分布2.3.1信息的扩散与分布1.信息扩散的多向对称性2.信息传递的密度递减法则2.3.2文献信息资源分布格局第五十六页,共六十六页,2022年,8月28日2023/1/1856§2.3信息资源在空间上的分布2.3.1信息的扩散与分布1、信息扩散的多向对称性信息扩散的多向对称性是指信息在传递或扩散过程中,如果信息源S所处的外围介质(包括自然介质、社会介质)是同质均匀分布的话,则S的信息传递就成一种各向对称结构。多向对称的形式:传递速度对称:信息自信源出发经历相同的时间,其传播的距离相同。传递内容对称:信息向各个方向传递时,只要信息提供者发出的信息是相同的内容,则传向各方的信息内容是一样的;传递空间(或距离)对称:主要指社会空间的一致;传递的信息强度对称:信息沿各个方向上单位时间所传递的信息量或是每次传递时信息在各个传递方向上的数量特征是相同的。第五十七页,共六十六页,2022年,8月28日2023/1/1857§2.3信息资源在空间上的分布多向对称性原则的适用条件是同质均匀分布的外部介质,当这一条件不成立时,也就导出了一些新的信息扩散规律。这就是多向对称的引申原则,具体包括:①信息传递的拓扑原则(信息栈拓扑图)拓扑原则是指信息从S传递至R时,如果是均匀介质环境,则S—R是最直接、最快速的传递。但若是非均匀介质条件下,S—R信息流就要出现拓扑变换,即在传递过程中会出现种种“信息栈”来传递信息,因为信息介质的每一次改变都要经过一次转换,都要经过“信息栈”予以变换。第五十八页,共六十六页,2022年,8月28日2023/1/1858§2.3信息资源在空间上的分布信息栈拓扑图

S

R

均匀介质

S

R

第五十九页,共六十六页,2022年,8月28日2023/1/1859§2.3信息资源在空间上的分布②多路传递法则多路传递法则,又称多通道原则,它是指在S至R的信息传递过程中,除了S与R的直接沟通之外,还可以通过其他的通道,经过或不经过信息栈而将信息传递给接受者R。多路传递法则的理论基础:

a.信息是可以分享的;

b.信息是可以分栈传递的。第六十页,共六十六页,2022年,8月28日2023/1/1860§2.3信息资源在空间上的分布2.信息传递的密度递减法则信息传递涉及到时间和空间两个方面,因此,衰减也就发生在这两个方面。从空间方面来说,设S为信息源,并设其在t时刻以声音向外传递信息。信息是以各向对称形式发送的,呈圆周对称形状。如果以声音的压强为信息特征,显然,压强大,则信息被感受的可能性就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论