版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
3信息交流
本章聚焦于信息分布,研究对象为文献信息。我们将从两个维度展开研究,纵向维度关注信息随时间变化的分布动态,借此可以洞察信息在不同时间段的演变趋势,了解信息产生和传播的时间规律。横向维度则考察信息在不同载体和领域的分布状态,这有助于我们掌握信息在多样化环境中的扩散情况。
在研究过程中,我们会介绍一些文献信息分布的主要经典定律。这些定律是前人通过大量观察和统计得出的,具有很高的权威性和实用性,能为我们理解信息分布提供重要的理论支持。
在掌握了这些理论知识后,我们会对网络环境下信息资源的分布进行初步探讨。随着互联网的飞速发展,网络已成为信息传播的重要平台,网络环境下的信息分布有着独特的特点和规律,与传统文献信息分布存在差异。对其进行研究,有助于我们更好地适应数字化时代的信息传播模式,提高信息利用的效率。
信息产生与分布中的马太效应具有多种表现和作用形式。从核心趋势来看,会形成高产作者群体。在学术领域,一部分作者凭借自身能力、资源和机遇,发表大量高质量论文,逐渐形成高产作者群体。他们的作品不断涌现,在学术圈的影响力也越来越大,吸引更多资源和关注,进一步巩固其高产地位。
马太效应还会使期刊信息密度增大。优质期刊会吸引更多高质量论文投稿,随着优质论文不断汇聚,期刊的信息含量和学术价值大幅提升,进而吸引更多读者和作者,形成良性循环。
高频词汇的确立也是马太效应的体现。在某一领域的研究中,一些特定词汇因频繁出现而成为高频词汇。这些高频词汇代表着该领域的研究热点和重点方向,随着研究深入,它们的使用频率会越来越高,逐渐在学术交流中占据主导地位。
从集中取向方面看,一篇论文多次被引和一个网站被众多用户点击,都体现了马太效应。被引次数多的论文会被更多人关注和引用,访问量高的网站也会吸引更多用户,进一步扩大其影响力。
信息分布的富集现象,虽然在一定程度上有积极意义,能够突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,进而降低信息管理成本,提高信息利用效益。然而,其带来的负面影响也不容小觑。
聚焦于核心信息源时,会忽略分布在其他信息源中有价值的信息。这就如同只看到了冰山一角,而错过了隐藏在水下的巨大信息宝藏。很多时候,那些被忽视的信息源中可能蕴含着独特的、创新的知识,因为过度关注核心信息源而被埋没。
马太效应青睐名人、拒绝新人的习惯势力,更是严重限制了新思想、新知识和新信息的产生及传播。新人往往缺乏足够的知名度和资源,即使他们有新颖的观点和想法,也很难在信息传播的舞台上崭露头角。而名人则因为已有的声誉和影响力,更容易获得关注和资源,这就形成了一种恶性循环,不利于信息领域的多元化和创新发展。
信息的离散分布作为信息的重要属性,体现为内容单元以多元方式、从不同角度分布于各类载体。这一现象并非偶然,有着复杂的内在机理。
从本质上来说,信息的生产与利用决定了其离散分布。信息生产过程中,不同的生产者有不同的知识背景、研究方向和表达习惯,会使信息以多样的形式产生,自然地分散在不同载体中。而信息利用方面,用户的需求千差万别,为满足不同需求,信息会被以不同方式整理、存储和传播,进一步加剧了离散分布。
认识信息离散分布规律意义重大。它有助于我们在信息的海洋中更精准地定位和获取所需信息,避免大海捞针式的低效劳动。也能让我们更合理地组织和管理信息资源,提高信息服务的质量和效率。总之,把握这一规律,能让我们在信息的生产和利用中更加得心应手。
在信息内容的离散分布规律研究中,布拉德福定律是一项重要成果。布拉德福在长期观察与统计某学科领域相关论文在期刊中的分布后,发现其存在不均匀性,且有明显的集中与分散规律,进而提出了“布拉德福分散定律”。
该定律的区域表述形式具有深刻意义。当把科学期刊按刊载某学科主题论文数量递减排序,就能区分出载文率最高的“核心”部分和后续包含同等数量论文的区域。核心区和后继各区的期刊数成1∶a∶a²(a>1)的关系,这一比例关系揭示了论文在期刊中的分布模式。
这意味着在众多期刊中,少数核心期刊集中了大量相关论文,而其他大部分期刊载文量相对较少。此定律为我们筛选核心期刊、获取关键信息提供了理论依据,有助于提高信息获取的效率和精准度,让我们能更有针对性地从期刊中挖掘有价值的研究成果。
现在我们来深入探讨布拉德福定律,当前展示的是应用地球物理学论文的布氏分布表格。布拉德福定律是信息离散分布规律中的重要内容,它揭示了某一学科领域相关论文在期刊中不均匀的分布特征。
这个表格呈现的数据,是布拉德福定律的具体应用体现。通过对应用地球物理学论文在不同期刊上的分布进行统计和分析,我们能更直观地看到论文的集中与分散规律。从表格里,我们可以推测出哪些期刊是该学科领域的核心期刊,即载文率高的期刊,它们就像信息的富集地,包含了大量该学科的重要论文。
布拉德福定律的意义在于,它为我们获取和利用信息提供了指引。让我们在面对海量的期刊资源时,能够快速找到核心的信息源,提高信息获取的效率。而且,它也有助于我们对期刊进行科学的评价和管理,明确不同期刊在学科领域中的地位和作用。总之,这个布氏分布表格是理解布拉德福定律的重要实证依据。
布拉德福分散曲线是研究信息离散分布规律的重要工具。当以期刊按载文量递减排列时顺序号n的对数为横坐标,以1至n号期刊所载论文的累积数为纵坐标,绘制出的曲线就是布拉德福分散曲线。
这条曲线由三部分构成,先是上升曲线AC,这表明在开始阶段,随着期刊顺序号的增加,论文累积数增长较快,说明少数载文量高的期刊集中了较多论文。接着是直线CB,意味着在这一区间,期刊载文量的增加与论文累积数的增长呈现出一种稳定的线性关系。最后是下垂曲线,这表示随着期刊顺序号进一步增大,论文累积数的增长逐渐变缓,说明后续期刊的载文量较低。B.C.布鲁克斯用特定模式来表示布拉德福定律,而布拉德福分散曲线则直观地展示了该定律所揭示的论文在期刊中的分散规律。它让我们能更清晰地看到信息在期刊中的分布情况,为我们研究信息的离散分布提供了重要的可视化依据。
布拉德福定律有两个关键要点。其一,通过频次等级排序,形成主体来源也就是期刊的有序目录。这就如同给众多期刊排了个队,让我们能清晰知晓哪些期刊在某学科领域的载文量处于前列,为我们获取相关信息提供了明确的指引。其二,确定相关论文在主体来源中的分布规律。这能帮助我们了解论文在不同期刊中的分散情况,知道哪些期刊是该学科论文的集中地。
该定律采用的具体方法包括区域分析和图形描述。虽然这两种方法得出的数值不同,但它们殊途同归,揭示的都是论文在期刊中的分散规律。这就好比从不同角度去观察一个事物,最终都能让我们对其有更全面的认识。
不过,布拉德福定律也存在一定局限性。它主要聚焦于宏观层次的信息,即文献的离散分布。然而,对于微观层次的信息,也就是内容单元分布的研究,几乎还是一片空白。这意味着我们在运用该定律时,不能完全依赖它来解决所有关于信息分布的问题,还需要进一步探索微观层面的信息分布规律,以完善我们对信息离散分布的认知。
在信息分布规律的研究中,齐夫定律是一个重要的发现。当我们面对一篇较长的文章,大约5000字以上,把其中每个词按照出现的频次进行递减排列,高频词排在前面,低频词排在后面,并且用自然数给这些词编上等级序号,出现频次最高的为1级,其次是2级,以此类推,直到D级。
这里用f表示词在文章中出现的频次,用r表示词的等级序号,就会发现存在这样一个关系,式中c为常数,这就是齐夫定律。齐夫定律揭示了文章中词汇出现频次和等级序号之间的内在规律。它告诉我们,在语言表达中,词汇的使用并不是随机的,而是有着一定的分布模式。高频词在文章中占据着重要的地位,它们的出现频次和等级序号之间有着稳定的数学关系。这一定律对于研究语言的结构、信息的传递以及文本的分析都有着重要的意义。它让我们能够从一个新的角度去理解语言文字背后隐藏的规律,也为我们在信息处理、文本挖掘等领域的工作提供了理论基础。
前面我们提到了齐夫定律,即把较长文章中的词按出现频次递减排列并编号,频次与等级序号满足一定数学关系。现在来看齐夫定律在坐标系中的呈现。当建立f与r的直角坐标系,以纵坐标表示词的等级序号,横坐标表示出现频次时,会得到一条双曲线。这一曲线形态实际上反映了词频分布的一种规律,体现出高频词和低频词之间的数量关系差异。
而当我们对等级r与频次f都取对数时,神奇的事情发生了,原本的双曲线变成了一条直线。这种转变意义重大,它让原本复杂的词频分布规律变得更加直观和易于分析。直线形式能帮助我们更清晰地洞察词频与词的等级序号之间的内在联系,也为进一步深入研究语言的结构和使用规律提供了更便捷的途径。这一数学表达式所揭示的规律,在信息检索、自然语言处理等诸多领域都有着重要的应用价值。第12页
上一页提到齐夫定律,若将较长文章中每个词按出现频次递减排列并编号,出现频次与等级序号有特定关系,用数学式表达,建立直角坐标系后能得到双曲线,取对数则变为直线。而本处的词频分布表进一步展示齐夫定律的具体呈现。
词频分布表是研究齐夫定律的重要依据,它详细记录不同词汇的出现频次,为验证定律提供数据支撑。通过分析表3.2中的数据,能深入了解文章中词汇的分布模式。比如能发现高频词和低频词的数量差异、等级序号与频次的具体对应关系等。这有助于我们更精准地把握齐夫定律在实际文本中的体现,进而拓展到对信息分布规律的研究。因为词汇作为信息的载体,其分布规律能反映出信息在文本中的组织和传递方式。所以,这个词频分布表是深入探究齐夫定律以及信息分布规律的关键一环。第13页
我们现在来深入了解齐夫定律相关的曲线。这里呈现了齐夫词频分布曲线和齐夫词频对数分布曲线。先看齐夫词频分布曲线,它以词的等级序号r为纵坐标,以出现频次f为横坐标。从图中给出的数值,像频次f有250、200等不同数值,等级序号r有1、3等,我们能看到它们之间的对应关系。这反映出在一篇文章里,不同等级序号的词有着不同的出现频次,高频词和低频词在文章中的分布是有规律的。
再看齐夫词频对数分布曲线,当我们把等级r与频次f都取对数后,原本的双曲线变成了直线。这一转变意义重大,它让我们可以用更简洁的直线方程来描述词频分布规律。图中的虚线代表理想化形式,一般而言,斜率为b的任一直线可用来表示这种对数分布关系。这两条曲线从不同角度展示了齐夫定律,帮助我们更清晰地认识到文章中词的出现频次与等级序号之间的内在联系,为我们研究信息分布规律提供了重要的工具和视角。第14页
信息生产者在信息生产过程和结构中所呈现的规律,以及这些规律对信息分布的影响,是一个极具意义却又充满挑战的课题。研究这一课题,就如同探索一座神秘的宝藏迷宫,虽困难重重,但宝藏的价值却难以估量。
以科学信息生产为基础来研究此问题,是因为科学信息生产是信息领域的重要组成部分。科学研究产生的大量信息,从研究成果的发布到知识的传播,都与信息生产者的行为规律密切相关。通过对科学信息生产的研究,我们能够更深入地了解信息生产者在不同环节中的作用和表现。
例如,不同的科研人员在论文发表数量、研究方向等方面存在差异,这些差异背后的规律对于信息在学术界的分布有着深远影响。掌握了信息生产者的分布规律,我们就能更好地预测信息的流向和分布,为信息的有效传播和利用提供依据。在当今信息爆炸的时代,这对于推动学术进步、促进知识共享具有重要意义。第15页1926年,统计学家洛特卡完成了一项意义非凡的研究。他经过大量统计和分析,在美国著名学术刊物《华盛顿科学院学报》发表了“科学生产率的频率分布”论文。这一成果不仅是学术探索的结晶,更开启了对科技工作者生产能力及贡献研究的新征程。
当时科技发展日新月异,科技工作者的成果对社会进步影响深远,但缺乏量化研究。洛特卡敏锐捕捉到这一空白,通过统计发表论著情况,试图揭示科技工作者的产出规律。他深知,只有深入了解科技工作者的生产能力,才能更好评估其对科技进步和社会发展的贡献。
该研究为后续研究奠定了基础,为衡量科技工作者的贡献提供了科学依据,也让我们能更清晰认识科技发展的动力源泉。洛特卡定律的提出,如同在科技研究的海洋中点亮了一盏明灯,指引着后来者不断探索前行。第16页
洛特卡为研究科技工作的论著数量分布,精心挑选了美国《化学文摘》和德国奥尔巴赫《物理学史一览表》作为数据源。他对《化学文摘》1907-1916年10年累积索引中,姓氏以字母A和B开头的6891位作者进行了统计分析,详细列出了发表过1篇、2篇,直至346篇论文的人数。这一数据选取并非随意为之,而是为了尽可能全面且有代表性地反映科技工作者的论著发表情况。
对于《物理学史一览表》,洛特卡取其全部数据进行统计,该表涵盖了1900年前物理学领域内出现的1325位物理学家及其论著。这种全面的数据收集方式,能让我们更清晰地看到物理学领域科技工作者的论著分布规律。
洛特卡如此严谨地选择数据源和进行数据统计,为后续研究科技工作者的生产能力以及对科技进步和社会发展的贡献奠定了坚实基础,让我们能够从这些数据中探寻到更深层次的规律和意义。第17页
洛特卡对科技工作者论著数量分布进行研究,以论文数(x)和作者数(yx)的对数为横、纵坐标作图,两组数据均呈直线状。其中,图中虚线代表《化学文摘》数据,实线代表《物理学史一览表》数据。
通过最小二乘法计算拟合直线的斜率,近似为-2。这一结果意义重大,它揭示了论文数与作者数之间存在着某种特定的规律。从数学角度看,斜率为-2表明两者之间呈现出一种较为稳定的数量关系。
这一规律有助于我们理解科技工作者的生产能力分布情况。若斜率稳定为-2,意味着在科技领域,论文产出数量与作者数量之间存在着可预测的模式。这对于评估科技工作者的贡献、合理分配科研资源等方面都具有重要的参考价值。例如,科研管理部门可依据此规律,更好地规划科研项目,激励更多科技工作者产出高质量论文。第18页
洛特卡定律是信息生产者分布规律中的重要内容。洛特卡通过研究发现,论文数x和作者数之间存在特定关系。式中,是发表了论文x篇的作者数,n和c是对应于典型数据集合估计出的两个常数,n的数值在2上下波动。这一关系揭示了作者论文产出的分布模式。
经过变换得到新的公式,令实际表示写x篇论文的作者出现的频率,是新的常量,表示作者取样总数比例。通过积分运算得出C=0.6079,即60.79%。这意味着按照平方反比分布,所有生产一篇论文的著者的比例刚刚超过60%。
以《物理学史一览表》数据为例,共有1325名作者,写一篇论文的为784人,占总数的59.2%。从绝对数来看,生产2篇论文的作者大约是生产1篇论文作者数的四分之一,生产3篇论文的作者大约是生产1篇论文作者数的九分之一,以此类推。洛特卡定律展示了信息生产者在论文产出上的规律,对研究科技工作者的生产能力和贡献具有重要意义。第19页
在洛特卡定律的研究进程中,当令一个表达式实际表示写x篇论文的作者出现的频率时,同时引入一个新的常量表示作者取样总数比例,由此可以得到一个新的公式。随后对这个公式两边进行积分运算,这一数学操作是深入探究洛特卡定律的关键步骤。通过严谨的积分计算,最终得出C的值为0.6079,也就是60.79%。
这一结果意义重大,按照平方反比分布理论,意味着所有生产一篇论文的著者的比例刚刚超过60%。这一数据直观地反映出在科学信息生产领域,大部分作者的产出论文数量集中在一篇。以《物理学史一览表》的数据为例,1325名作者中写一篇论文的有784人,占总数的59.2%,这与理论推导的结果高度接近,进一步验证了洛特卡定律的科学性和可靠性。第20页
洛特卡定律中提到的平方反比分布,揭示了论文产出与作者数量之间的一种有趣规律。依据这一分布,生产一篇论文的著者比例刚刚超过60%,这意味着在学术研究领域,大部分作者的产出集中在较低水平。以《物理学史一览表》的数据为例,1325名作者中写一篇论文的有784人,占总数的59.2%,这一数据与理论比例较为接近,进一步验证了该定律的可靠性。
从绝对数角度来看,生产多篇论文的作者数量与生产一篇论文的作者数量存在一定的比例关系。生产2篇论文的作者大约是生产1篇论文作者数的四分之一,生产3篇论文的作者大约是生产1篇论文作者数的九分之一,以此类推,生产n篇论文的作者大约是生产1篇论文作者数的n的平方分之一。这表明随着论文产出数量的增加,作者数量呈急剧下降趋势。
这一规律反映出学术研究的难度和门槛。撰写一篇论文相对较为容易,因此大部分作者能够达到这一水平;而随着论文数量的增加,所需的研究能力、时间和精力也大幅提升,能够达到这一水平的作者自然就越来越少。这也提醒我们,在学术评价中,不能仅仅以论文数量来衡量一个学者的能力和贡献,还需要综合考虑论文的质量和影响力。第21页
普赖斯定律揭示了特定领域中论文产出与作者数量的关系。该定律指出,在某一特定领域里,全部论文的半数是由该领域全部作者平方根数量的那些人撰写的。这一规律反映出在学术研究中成果产出的不均衡性,少数高产作者贡献了大量论文。
普赖斯定律用公式(3-13)表示,其中n(x)代表撰写x篇论文的作者数,I=nmax是该学科规定时期内最高产的作者数,N为该学科领域全部作者总数。而m可通过公式(3-14)确定。
这一定律对学术研究的评估和资源分配有着重要的意义。它提醒我们在评价学术成果时,不能只看作者数量,更要关注高产作者的贡献。同时,在资源分配上,可以考虑向高产作者倾斜,以提高学术研究的效率和质量。此外,对于那些想要在学术领域取得突出成就的人来说,普赖斯定律也提供了一个努力的方向,即成为高产作者。第22页
研究信息在时间轴上的动态分布规律意义重大,它犹如一把精准的手术刀,能够深入剖析信息的增长与老化过程。信息如同有生命的个体,在不同的时间阶段会展现出不同的特征,而通过科学高效的理论模型,我们可以像绘制生命轨迹图一样,清晰地刻画信息随时间推移所呈现出的趋势。
这一研究的实际价值在于,可以帮助我们准确把握信息量的变化。信息量并非一成不变,它会受到各种因素的影响而起伏波动。了解其变化规律,我们就能在信息的海洋中找准方向,避免被信息的洪流淹没。
基于对信息变化规律的把握,我们可以对信息实施动态管理。这意味着我们不再是被动地接受信息,而是主动地根据信息的发展态势进行调整和优化。在当今信息爆炸的时代,有效的信息管理能够让我们在海量信息中筛选出有价值的部分,提高工作和决策的效率,从而在激烈的竞争中占据优势。总之,研究信息对时间的分布规律是信息时代的必修课,它将为我们带来更高效的信息利用和更明智的决策。本章先以文献信息为对象,从纵向(随时间变化的分布动态)和横向(在不同载体和领域的分布状态)来研究信息分布的特征和规律,介绍一些文献信息分布的主要经典定律。在此基础上,对网络环境下信息资源的分布进行初步的探讨。3信息分布3.1.1马太效应的表现和作用形式核心趋势高产作者群体的形成期刊信息密度增大高频词汇的确立集中取向一篇论文多次被引一个网站被众多用户点击3.1信息产生与分布中的
马太效应信息分布的富集现象突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。核心信息源忽略分布在其他信息源中有价值的信息马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播3.1.2马太效应的负面影响信息的离散分布是信息的重要属性,它表现为信息的内容单元以不同方式从不同角度分布于各种载体中,信息的离散分布具有复杂的机理,本质上是由信息的生产和利用决定的。3.2 信息内容的离散分布规律布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradford’sLawofScattering)布拉德福定律的区域表述形式:如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的‘核心’部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1∶a∶a2的关系(a>1)。3.2.1布拉德福定律表3-1应用地球物理学论文的布氏分布3.2.1布拉德福定律如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。BR(n)DNLogenR(N’)COAR(N)n1R(n1)N’图3-1布拉德福分散曲线3.2.1布拉德福定律布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线。B.C.布鲁克斯用下述模式来表示布拉德福定律:布拉德福定律有两个基本要点:一是频次等级排序,形成主体来源(期刊)的有序目录;二是确定相关论文在主体来源中的分布规律。
具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但它所揭示的都是论文在期刊中的分散规律。
布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究则基本上是空白。3.2.1布拉德福定律如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:
式中c为常数。上式称为齐夫定律。3.2.2齐夫定律如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:3.2.2齐夫定律RfLgrLgf140005.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69表3.2词频分布3.2.2齐夫定律f25020015010050300r132564LgfLgr图3.2齐夫词频分布曲线图3.3齐夫词频对数分布分布曲线图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为3.2.2齐夫定律信息生产者在信息生产过程和生产结构中呈现何种规律,这种规律对信息分布有何影响,这是一个意义重大而又很难的课题。本节将以科学信息的生产为基础来研究和回答这一问题。3.3信息生产者分布规律
1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院学报》上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。3.3.1洛特卡定律洛特卡选择美国《化学文摘》和德国奥尔巴赫《物理学史一览表》为数据源研究科技工作的论著数量分布。他统计分析了《化学文摘》1907~1916年10年累积索引中的部分作者,即姓氏以字母A和B开头的6891位作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。《物理学史一览表》包括了1900年前物理学领域内出现的1325位物理学家及其论著,取其全部数据进行统计。3.3.1洛特卡定律洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和logyx)作图,两组数据都是直线(如图所示)。图中虚线表示《化学文摘》数据,实线代表《物理学史一览表》的数据。用最小二乘法计算拟合直线的斜率,近似为-2。LogyxLogx10532151253010020图3-4洛特卡分布曲线3.3.1洛特卡定律根据洛特卡分析,在论文数x和作者数之间存在下列关系:式中,
是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。通过变换可以得到下面的公式:3.3.1洛特卡定律令,实际表示写x篇论文的作者出现的频率.是新的常量,表示作者取样总数比例,这样可以写成:两边积分得:
于是,C=0.6079=60.79%3.3.1洛特卡定律按照平方反比分布,所有生产一篇论文的著者的比例刚刚超过60%。例如在《物理学史一览表》数据中,共有1325名作者,写一篇论文的为784人,占总数的59.2%。如果取绝对数,则可表述为:生产2篇论文的作者大约是生产1篇论文作者数的(即)生产3篇论文的作者大约是生产1篇论文作者数的(即)生产n篇论文的作者大约是生产1篇论文作者数的3.3.1洛特卡定律在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的。该定律可表示为:
(3-13)
式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数。m可由下式确定:
(3-14)
3.3.2普赖斯定律研究信息在时间轴上的动态分布规律可以揭示信息的增长与老化,用科学高效的理论模型来刻画信息随时间的推移所表现出来的趋势,把握信息量的变化,对信息实施动态管理。3.4 信息对时间的分布规律(1)普赖斯曲线如果我们以文献量为纵轴,以历史年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律。这就是著名的普赖斯曲线。3.4.1指数增长律F(t)1001019001950t1665100001000180017501850图3-5普赖斯曲线
通过对曲线分析,普赖斯最先注意到文献增长与时间成指数函数关系。如果用F(t)表示时刻t的文献量,则指数定律可表为下式:…………(3-22)式中:a是统计的初始时刻(t=0)的文献量;
e=2.718;b表示持续增长率。
人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即…………(3-23)式中:t′为文献量翻倍时间,b为持续增长率。3.4.1指数增长律实际的统计发现,不同时期、不同级别、不同质量、不同学科领域的文献信息增长态势是不一样的。勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大。勒希尔认为,文献的数量与其质量有关。他定义λ(0≤λ≤1)为文献的质量级别,则不同级别上的文献量为[F(t)]λ。他给λ的具体值如下:λ=1:至少是一般文献(实际代表所有文献)λ=3/4:至少是有意义的文献λ=1/2:至少是重要的文献λ=1/4:至少是非常重要的文献λ=0:第一流的文献对于第一流的文献(即λ=0),文献数量为lnF(t)。
3.4.1指数增长律(2)生长曲线
普赖斯指出,考虑物质的、经济的、智力的及时间的影响和限制,文献信息的增长更趋近于生物的生长曲线(LogisticCurve),即最初生长或繁殖很快,随着时间推移,其生长速度越来越慢,以致几乎不增加了。其方程为:
……(3-24)
式中:F(t)代表时刻t的文献量,k为文献增长的最大值。3.4.1指数增长律F(t)tK/2Lna/kb图3-6生长曲线3.4.1指数增长律一般来说,在不同的阶段科学文献增长的态势是不同的。学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短。学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,增长率变小,曲线变得平缓,文献寿命相对变长。某一知识领域的研究取得重大进展后进入相对成熟的阶段。内容上更新的文献又将进入一个新的急剧增长时期(如指数增长)。然后又进入一个稳定时期。文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,呈现出错综复杂的格局。一般说来,对不同的领域,描述其文献增长的生长线中各个常数(a,b和k)也是不相同的。3.4.1指数增长律
利用指数曲线和生长曲线来研究文献增长、预测未来文献总量必然会有局限。这是因为:①指数增长定律的产生,首先是普赖斯分析研究物理学文献数量的增长时提出的,然后把这一结果扩大到科学期刊和其他类型的出版物上,绘制了普赖斯曲线。把对文献某一方面、某一历史阶段的研究成果,推广到文献的全部领域,根据是不充分的。②利用上述二曲线对文献增长所作的预测,依据的是预测学中的趋势外推法。文献作为传播信息这一复杂系统中的子系统,其增长规律受到许多因素的影响和制约,只有利用系统论的观点对其作系统分析,才能得到比较符合实际的结果。3.4.1指数增长律文献老化的表现
文献信息的老化一般指这样四种情形:文献中所含信息仍然有用,但现在已被包含在更新的其他论著中;文献中信息仍旧有用,但现在正处于一个人们对其兴趣下降的学科文献中的信息仍旧有用,但为后来的著作所超越信息不再有用文献半衰期
所谓文献的半衰期,是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发表的。3.4.2逐渐过时律普赖斯指数
普赖斯指数,即某一学科领域内,对发表年限不超过5年的文献的引用次数与总的引用次数之比值。一般来说,普赖斯指数越大,半衰期就越小,文献老化的速度越快。3.4.2逐渐过时律
用纵坐标表示现在正被利用(引证)的文献的被引量,横坐标表示时间,我们可以绘制出文献的老化曲线。相应的方程可表示为:
C(t)=ke-at
………(3-26)式中:C(t)表示发表了t年的文献的被引次数,k是常数,随学科不同而异,a为老化率。被引证次数C(t)0.5出版年龄tt1t2t3图3-7文献信息老化曲线3.4.2逐渐过时律文献老化的影响因素
(1)文献增长。文献的增长和老化是一个事物的两个方面,它们从不同的侧面来描述科学的发展,阐明科学知识的修正率。(2)学科差异。世界上93%~98%的科学杂志引用寿命为20年左右,但并不是所有这些学科的文献老化速率都大体一致,相反,彼此之间差异甚大。(3)学科发展阶段的差异。即使是同一学科,不同的时期或阶段,文献的半衰期不尽完全相同。(4)信息环境和需求。不同信息用户对文献的需求是不同的,因而信息利用者的需求及所处的信息环境的研究十分必要。3.4.2逐渐过时律在本节中,我们将主要根据该领域相关研究论文的成果,从信息内容分布、信息生产者分布和时间分布三个方面来探讨网络信息的分布规律。3.5网络应用:
网络信息资源的分布规律3.5.1网络信息内容的分布规律通过一些工具性网站2003年5月1日-3日中“网络经济”这个条目命中的网页数量的集中与分散分布发现,其分布的近似曲线与布拉德福分布曲线比较接近。图3-8以“网络经济”为主题的网页的布氏分布曲线网络信息资源内容分布仍然满足集中与分散规律,但分散的趋势较文献信息的趋势更加明显。台湾学者蔡明月于2002年5月5日至7日,利用google搜寻引擎,以“电子图书馆or数字图书馆or数字博物馆”,并配合设限网域site:tw的检索策略,查寻台湾地区建立的有关数字图书馆主题的网页。最后共得5850个网页,其中907个为商业(.Com)机构所制作,4259个为教育(.Edu)网站,政府(.Gov)单位制作的有387个,网络事业(.Net)单位制作了23个;另外246个是由组织机构(.Org)所制作,最后个人(.Idv)制作的网页亦有28个。图3-9为根据统计数据所绘制的“数字图书馆”网页之布拉德福分布图,其横轴为单位排名之自然对数,纵轴为累积的网页数。3.5.1网络信息内容的分布规律可见,其分布曲线与典型的布拉德福分布图颇为相近。首先,排名前十名的网站形成一非线性的曲线,继之为一线性的区域,当排名超过55左右之后,网页累积之曲线斜率开始变小,形成一尾端下滑的偏垂区段。位于曲线部分前十名的网站则形成所谓的核心网站。图3-9以“数字图书馆”为主题的网页(台湾地区)的布氏分布曲线3.5.1网络信息内容的分布规律选择校园BBS来研究网络生产者的分布规律武汉大学珞珈山水BBS(2003年5月5日)发文3307篇,作者1171人根据普赖斯定律,生产者开根号的人数生产信息总数的一半,即的人要发文1653篇3.5.2网络信息生产者的分布规律发文篇数作者数累积篇数累积作者数%数据点斜率7717710171-3.84858119930.256-4.09350124940.342-1.95341337270.598-2.81638141080.683-1.74837144790.767-4.344311478100.854-6.081281506110.939-0.932262558131.11-2.545251583141.196-1.895231606151.281-0.823213669181.537-2.005202709201.708-2.160192747221.879-1.865182783242.05-1.613174851282.391-2.683163899312.647-1.681153944342.904-1.6751441000383.245-1.6071251060433.672-0.8031181148514.355-1.9601071218584.953-1.3269121326705.978-1.784881390786.661-0.9187161502948.027-1,39866+1538+100+8.54+-表3-3珞珈山水BBS部分发文情况(2003年5月5日)3.5.2网络信息生产者的分布规律实际的结果34位作者仅只发文944篇,还不足总数(3307篇)的1/3BBS中生产者的分布不如科学文献分布那么集中在蔡明月的研究中,她继续采用“数字图书馆”网页的数据样本,进一步利用洛特卡定律与普赖斯定律检验网页生产力分布。5850个网页共由392个单位所制作,其中174个单位只生产一个网页,占全部单位数的44%。超过100个网页的单位有11个,所制作的网页共计2889个,约占全部网页的50%。即有关数字图书馆一半的网页是由这些单位生产的,其中前9个单位均为教育机构,另外2个分别为商业与政府机构。3.5.2网络信息生产者的分布规律根据普赖斯定律,全部“数字图书馆”的网页制作机构为392个,开根号得19.8个。换言之,最多产的20个单位所制作的网页应达全部网页的半数,即2925个;实际上,前20个单位制作的网页总量为3589个,占所有网页的61%。此外,根据数据,只生产一个网页的单位占全部单位的44%。此数值与洛特卡原始定律中发表一篇文献的作者人数约占全部作者数之60%,有颇大的差异。利用最小平方差的方法求得洛特卡定律中的直线斜率值为-0.7,与洛特卡原始定律之n值(-2)差异亦相当大。因而数据样本中,“数字图书馆”网页制作单位的生产力分布与普赖斯定律和洛特卡定律都不相符。3.5.2网络信息生产者的分布规律推论
上面分析的BBS的情况可能并不能代表网络信息资源生产者的频率分布,而且所选数据也不够完整。但就此所得到的新的结论是:著者的集中程度比传统文献低,著者分布更加广泛而且相对均衡。而这一点却与蔡明月关于“数字图书馆”网页生产者分布的结论恰好相反。比较分析这两个研究,“数字图书馆”的主题更加专业化,对于生产者的要求较高,而BBS的发文要容易很多,生产者的门槛相对降低。由此我们可得到的推论是,网络条件下的信息生产表现出不同的规律,生产者的分布与信息内容的专业化程度密切相关,信息专业化程度越高,则生产者的集中程度就越
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年南京特殊教育师范学院单招综合素质考试必刷测试卷及答案解析(名师系列)
- 基于机器学习的网页数据质量分析
- 2026年山东科技职业学院单招职业适应性测试必刷测试卷带答案解析
- 2026年南充科技职业学院单招职业技能测试必刷测试卷附答案解析
- 2026年上海师范大学单招职业适应性测试必刷测试卷带答案解析
- 2026年山西体育职业学院单招综合素质考试题库及答案解析(夺冠系列)
- 地热能环境友好型应用
- 房屋改造补助协议书
- 房屋权益出售协议书
- 房屋租转让合同范本
- 【MOOC答案】《学术英语读写》(华中科技大学)章节测验作业网课答案
- 吉林银行笔试题目及答案
- 矿山机电设备制造毕业实习报告范文
- 大学生职业生涯规划范文
- 消化道早癌内镜下诊断
- 设计的优化建议
- 基于循环经济理念的医疗器械废弃物管理策略-洞察及研究
- 2025至2030中国电力线载波通信芯片行业发展趋势分析与未来投资战略咨询研究报告
- 新生儿低血糖疑难病例讨论
- 如何数胎动教学课件
- 墨子介绍教学课件
评论
0/150
提交评论