




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,引文分析,共词分析,魏昱,科学研究的前沿代表了科学发展的难点,热点和发展趋势。从海量科技信息中发现研究前沿是科技创新的关键任务之一。因此,如何科学、准确地把握研究前沿成为科研人员和管理者关注的焦点。科学家们提出了各种方法和技术来探索研究前沿,其中引文分析和共词分析是最常见的。引文分析是指运用各种数学、统计和逻辑方法,对科技期刊、论文、著作等各种分析对象的引文或被引现象进行分析和研究,以揭示其数量特征和内在规律,达到评价和预测科学发展趋势的目的。近年来,主要研究对象或热点集中在“引文网络”、“自引和自引率”、“共引分析”、“影响因素”和“引文分析与统计中的错误”。在引文分析中,引文网络受到学者们的高度重视。在国外,引用被视为信任的原型。他们认为引用实际上代表了虚拟环境中的一种信任。当甲引用乙的文章时,甲认为乙的观点是支持的,而乙引用的内容是经过协商批准的,这同时也影响了乙的思维。因此,引文网络系统可以被视为信任系统,而引文索引可以被视为推荐系统-推荐具有更多引文的文章。引文网络中,存在大量的同引和耦合。共引(或共引)是指两个或多个文献被一个或多个后续文献共同引用,如图5和图6所示,后续文献8和8同时引用。引用它们的论文数量,即共被引用的程度,被称为共被引用的强度。耦合意味着两个文档一起引用一个或多个文档,如图2和4一起引用1所示。耦合的文档之间总是有一种或另一种连接,连接的程度称为耦合强度。引文网络的结构有:引文网络是静态的。不允许在任何现有节点上添加新的单向箭头或随意删除现有的单向箭头,因为一旦发布了文档,其引用将保持不变。(2)引文网络中的引文是单向的,即只有后面的文献才能引用前面的文献,而前面的文献不能依次引用后面的文献;(3)引文网络中的引文不能自引,引文也不能自引。在引文分析中,自引主题只能是作者、期刊、主题、机构等。(4)在引用网络中有一个固定的引用时间,即在文献a中有一个固定的引用文献b的时间,这个固定的时间正好是文献a的发表时间,文献a的发表时间必须在文献b之后,如图3、8和8所示,所以没有8个引用文献8或8引用文献8;(5)引文网络中引文间的引文呈现主题集中,因为引文间的正式引文和文献出版的质量控制基本上来自同一科学领域或密切相关的领域。常见的引文网络计量指标可分为四类:引文量特征计量指标:引文量;(2)引文分布特征测度指数:平均引文数、自引数与自引率之比、被引次数与引文数之比;(3)期刊(论文)影响测量指标:被引数、共引数和耦合数,期刊影响因子是年度指标;(4)衡量文献老化规律的指标,如:衰减系数等,自引和自引率,自引和自引率的研究是引文分析的内容之一。目前,国外大多数研究是关于期刊自引和自引率的。一般认为,期刊的高自引率有助于改善其影响因素。一些研究人员还研究了移除期刊自引对影响因素的影响,并认为可以使用未移除影响因素的数据。也有研究表明期刊自引与自引率和影响力之间存在负相关因此,可以通过一组文档之间的共被引关系形成共被引网络,网络中节点之间的距离可以反映它们的主题内容的相似性和相似性。共被引分析方法始于small于1973年提出的基于文献的共被引分析,但是共被引的概念可以扩展到与文献相关的各种特征对象,以形成各种类型的共被引概念,例如词共被引、文献共被引、作者共被引、期刊共被引、主题共被引和类别共被引。自1973年提出以来,共被引分析已成为引文分析中一种潜在的有效分析方法。它不仅可以用来揭示科学结构的发展状况甚至变化,还可以用于前沿分析、领域分析、科研评价等,从而为宏观科技决策提供预先支持,为科技规划和评价提供依据。共被引分析的一般过程和共被引分析方法的一般过程可以概括为分析领域中明确分析对象的选择、共被引矩阵的形成、共被引数据的处理和聚类分析以及多维尺度结果的分析和解释。该方法的演化过程主要基于分析过程中分析对象的选择和聚类方法中参数的修正。选择对象搜索数据构建矩阵聚类分析/多维尺度分析/计算战略坐标分析结果,国内外学者几乎都按照统一的方法模式进行共被引分析,即第一步是构建共被引矩阵;第二步,将矩阵转化为相似系数矩阵,大多数方法是皮尔逊相关系数法。第三步是集群和MDS。这基本上是每个人的默认方法,在我国许多相关的教科书和论文中也广泛使用。自2003年以来,科学计量学学者开始讨论共被引分析方法。重点讨论皮尔逊相关系数是否适用于共被引分析,以及如何得到共被引矩阵的对角线值。麦凯恩将其设置为默认值,这也是影响最广泛的对角线确定方法。阿尔格伦和其他人认为,他们应该使用自己被引用的实际次数。怀特建议使用最大值来确定对角线值。邱俊平等人认为,根据同引原则,从邻近矩阵的定义来看,怀特的建议更为正确。共被引矩阵原本是一个邻近矩阵,用于检查对象之间的相似性和相似性,但研究目标是选择作者、论文、期刊、学科等。具有特殊意义。从这个角度来看,我们自然认为我们与自己有着最密切的关系,所以它应该是作者和其他作者最经常引用的。表达式可以是最大值。然而,我们相信为了突出我们与自己的密切关系,我们可以使用最大值L来突出它。因此,我们通常更喜欢怀特公式,但我们可以进行适当的调整。皮尔逊方法只是一种度量变量相似性的方法,以便更好地发现变量之间的关系,许多方法可以代替它。我们相信平方公里距离是取代它的最佳方式。原因如下:皮尔逊相关系数矩阵本身确实存在问题。它不适用于转换具有0-模的矩阵,尽管White等人反复强调共同引用的矩阵不应具有0-模,并给出了许多例子。然而,我们认为这仍然是不普遍的,这是不可避免的遇到0-模块,特别是在我国的研究人员。在此,我们再次确认,Ahlgren等人提出的相似性度量的两个必要条件(注)是非常正确的。虽然它是为相似性度量而提出的,但它的原理对于非相似性度量也是正确的。我们用直角坐标距离测量法来满足两个必要条件。根据SQUARE DEUCHIDENDISTANCE公式,可以看出,即使在矩阵后增加0模,D(X,y)的值也保持不变,这表明SQUARE DEUCHIDENDISTANCE测量方法具有良好的稳定性。(1)对于相似性度量,变量A和变量b的相关系数s(A,b)不能向后减小注意:在战略坐标中,x轴是向心的,表示域间相互作用的强度,y轴是密度,表示域内内部连接的强度。以向心力和密度为参数绘制的二维坐标是战略坐标,通常可以表示一个域内的子域结构。各种方法的综合分析。例如,在研究前沿和热点分析时,共被引分析的结果与文献耦合、共词聚类、词频统计等方法的结果进行比较。在揭示科学结构时,将共引分析与共词分析相结合,分析结果会更加准确可靠。b .新技术的持续整合。从最初使用多维尺度技术进行降维,现在使用PFNETS来代替皮尔逊相关系数,并引入自组织映射技术、自组织映射技术和潜在语义索引技术。随着各种技术的发展,同引分析不断与其他学科的新技术相结合。可以说,我吸取了许多人的长处。扩展到网络结构研究。在网络环境下,网站的链接关系类似于文档的引用关系。因此,共被引分析方法可以移植到网络站点的共被引研究中(或称为WebColinkAnalysis,WCA),它反映了网络本身的结构和网络中知识的结构。继续探索共引分析中的一些细节。这包括相似性计算方法的优化以及如何为合著者引用所有作者。影响因子是科学信息研究所期刊引用报告中的一个数据项。也就是说,一个期刊在头两年发表的论文的引用总数除以该期刊在头两年发表的论文总数。这是国际公认的期刊评价指标。含义:该指标是一个相对的统计值,可以克服大小期刊中不同文章造成的偏差。一般来说,影响因素越大,学术影响就越大。IF值计算方法(以1992年为例)a=1992年所有引文(指定数据库中的记录)b=1990年和1991年1992年发表论文的引文数c=1990年和1991年在一个期刊上发表的所有论文的总和d(期刊1992年的影响因子)=b/c,例如,2005年一个期刊的影响因子的计算1。2004年被引用的文章数量:48 2004年发表的文章数量:1872。2003年发表的文章被引用的数量:128。2005年发表论文的引用总数:1764篇。2003-2004年发表的文章总数:3415篇。该杂志2005年的影响因子:0.5161=176341,引文分析与统计中的误差,引文分析因其独特的科学评价功能而受到高度赞扬。然而,随着应用的深入,越来越多的人开始质疑引文分析的有效性和可靠性。因为引文分析的对象和引文分析的方法本身都有一些错误的成分。尽管引文分析和统计误差的研究并不十分流行,但它却伴随着SCI的发展。虽然专著相对较少,但在许多利用引文数据进行研究工作的文献中,或多或少都有对引文分析中的缺陷和错误的分析和研究。许多文件也使用善意的提醒或警告来提醒读者谨慎使用引用数据。目前,在中国最常被讨论的错误引文和错误是错误引文和漏引。共词分析方法利用文献集中词汇对或名词短语的共现来确定文献集所代表的主题之间的关系。人们普遍认为,同一文档中出现的词对越多,两个主题之间的关系就越密切。因此,通过计算出现在同一文档中的一组文档的主题词的频率,可以形成由这些词对的关联形成的共词网络,并且网络中节点之间的距离可以反映主题内容的相似性。共词分析就是基于这一原则,以文献主题词为分析对象,运用包含系数、聚类分析等多种统计分析方法。以将许多分析对象之间复杂的共词网络关系简化为由数值和图形直观表示的过程。共词分析的过程,1确定分析的问题,2确定分析的单位,3选择高频词,4用统计方法分析共词分析的结果,5分析共词分析的结果,1确定分析的问题,运用共词分析的基本原理,可以总结出研究领域的研究热点,横向和纵向分析领域,学科的发展过程和特点,以及领域或学科之间的关系等。不同的问题有不同的分析过程,采用不同的数学测量方法。一些学者选择文献中的关键词和关键词作为共词分析的基本单位。在共词分析中,利用数据库管理软件和SPSS统计软件进行识别和统计。对于计算机来说,同义词不同的词在统计过程中被视为两个完全不相关的词,这极大地干扰了统计分析的结果。因此,要分析的词最好是受控的和统一索引的主题词。只有这样,共词分析方法才能利用文章中词对的共现频率来反映文章中包含的概念。主题词是标准化的检索语言,它严格控制和规范文档中同一个概念的同义词、同义词、多义词和不同的书写形式,使每个主题词都有明确的含义,从而准确检索并防止误检和漏报。例如,表达相同概念的不同书写形式如白细胞介素2、白细胞介素2、IL2和白细胞介素2被标准化为“白细胞介素2”。关键词属于自然语言范畴,不受同义词库的规范和控制。例如,“白细胞介素2”的概念可以用不同的形式表达,如白细胞介素2、白细胞介素2、IL2、白细胞介素2等。主题词和关键词的最大区别是主题词已经被标准化了。为了简化统计过程,减少低频词对统计过程的干扰,常用词分析通常选择高频主题词作为分析对象。常用词分类方法对高频词的数量选择没有统一的意见。如果主题范围太小,就不能真实地反映主题知识点的构成。如果话题范围太大,会给共词分析过程带来不必要的干扰。域值用于表示高频字分割的频率值。高频词的域值越高,高频词的数量越多。高频词的阈值是高频词的频率之和,占所有频率之和的比例。确定高频词主要有两种方法。一是结合研究者的经验来平衡所选单词的数量和单词的频率。这种方法具有一定的主观性。另一种是结合zipf第二定律来帮助确定高频词的界限。共词分析中的统计方法共词矩阵的计算是共词分析中的重要步骤。在此基础上,不同的统计方法被用来揭示共词中的信息。常用的分析方法包括:聚类法、相关法、词频法、突发词监测法等。借助数据挖掘中的聚类分析方法,通过数学运算分析共词关系网络中词与词之间的距离,将相近的主题词组合在一起形成概念相对独立的聚类,使得聚类内属性的相似度最大,聚类间属性的相似度最小。共词关联分析关联规则是描述事物中项目同时出现的知识模式。更具体地说,他们通过定量数据描述了项目a的外观对项目b的外观有多大的影响。基于这一原则,共词关联分析通过关联统计的方法揭示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外贸居间合同协议书范本
- 短视频推广委托协议合同
- 承包打地基工程合同范本
- 公开拍卖活动委托协议书
- 教育局书架定制合同范本
- 邻里房屋纠纷赔偿协议书
- 西藏跟团旅游免责协议书
- 订货协议书范本模板模板
- 新能源电车出租合同范本
- 产品代工合同解除协议
- 某体育公园可行性研究报告
- T-CCSAS 050-2024 化学化工实验室化学品安全操作规程编写指南
- 《生态学园林》课件
- 幼儿园教学主任培训
- 展会主办项目合同范例
- 装饰装修工程施工方案(完整版)
- 11YG301钢筋混凝土过梁(完整)
- 游戏陪玩行业社交化平台设计与推广策略
- 人教版初中全部英语单词表(含音标)
- 燃气市场风险分析报告
- 2024年山东省泰安市义务教育教师课程标准应用能力大赛初赛语文学科试题
评论
0/150
提交评论