




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DNA理论发展的引文网络的连通性研究,CONNECTIVITY IN A CITATION NETWORK:THE DEVELOPMENT OF DNA THEORY 潘现伟 2011.11.03,主要内容,1、研究背景 2、资料 3、方法和结果 4、验证结果 5、结论,研究背景,1955年,Garfield提出了引文网络的概念 1965年,Price 对其进行了更深入的研究 1979年,Garfield提出:引用(citation)能准确清楚地反应一个学科的结构,不需要任何解释,并且不受术语变化的影响。,研究背景,尽管引用也存在一些问题,(比如自引,负引用,装饰门面和政治上出于奉承的引用),但是引用率与同行评议之间存在着极强的相关性。 通过分析论文和期刊之间的引用关系可以绘制某领域的知识结构并能明确其界限,可以研究多个领域之间的相互关系,建立科学思想的发展史 目前引文研究的作用主要可以分为两大类: 1、评价论文或期刊的绩效和重要程度 2、分析引文网络的结构,研究背景,引文网络研究常见的是研究论文或期刊的相似性,公认的衡量指标是文献计量学耦合和同被引强度 结构均衡和规则均衡是根据论文在网络中所处的位置来研究论文的相似性,也可作为引文网络研究的方法 这些方法的共同点是着重于论文本身极其分区,在引文网络中研究的对象是节点,研究背景,网络结构的分析,不管是引用,被引用,文献耦合或同被引,方法都是对网络节点进行聚类,引用网络提出以后,大多数研究也都是针对网络中的节点进行的,测量的指标也是关于节点的 指标 基于上述分析,本文采用了一种完全不同的方法来分析有向网络的连通性,这种方法重点在连接节点的链接(Link)上,而非节点本身。,资料,Garfield等总结了关于DNA理论研究的40个里程碑事件,并根据事件的先后顺序及引用关系构建出了引用网络图。 本研究的分析对象为40个里程碑事件的引用网络图-DNA理论网络图。 引文网络的特殊性: 1、网络的节点不是一篇论文,而是由数篇文章总结的科学事件 2、网络图中的箭头表示有用信息的流向,不是真正意义上的引用,本研究将其视为引用关系。,资料,资料,每一个事件都被分类到一个学科分类中:核酸化学(NC)、蛋白质化学(PC),遗传学(G)和微生物学(M),具体分类如下图:,方法和结果,本研究采用的算法是: 深度优先搜索算法 穷举搜索算法,方法和结果,找出网络中的弱连通子图 首先确定引用网络中是否存在明显的子图,有向图的弱连通性可以通过均衡网络和执行深度优先搜索来检测 很明显,该网络的子图为:,方法和结果,强连通子图和分类(sorts) 深度优先搜索也可以找到强连通子图和环路。 如果有向图也是一个有向非循环图(DAG),那么可以用深度优先搜索算法进行查找。这种排序是一种拓扑排序,DAG的拓扑排序并不是唯一的。 该网络中包含一个循环-32和33号节点。这两个事件在时间上是重叠的,引文网络是很接近DAG的。 去除32到33号节点的链接,将其转换为一个DAG,去除链接的理由是Watson and Crick的研究被Ochoa引用了,而Komberg仅仅引用了Ochoa。,方法和结果,对于改变后的网络, 链接代表被引用的关系, 这种网络形式是以时间 为导向的,代表了引文 网络中的影响类型和依 赖关系。右图是该 网络的拓扑顺序:,方法和结果,如果节点B依赖于节点A,那么节点B出现在节点A之后 图2是从根节点3开始的网络核心的依赖(引用)结构:,方法和结果,连通性和路径长度 另一种检验网络连通性的方法是计算节点对间的路径距离,常用来分析连通性的是最长路径 本研究中计算最长路径的算法是穷举搜索算法。,方法和结果,简单来讲,穷举搜索算法就是找到了网络中所有可能的搜索路径,记录每个节点对的最大距离。 该DNA网络中最大路径距离是10,整个网络的节点对是676,其中6个节点对的最大路径距离是10,包括两个从根节点开始的搜索路径,从根节点到其他节点的最长路径如表3所示:,方法,方法和结果,最长路径矢量与DAG拓扑排序非常接近。比较图2中的拓扑排序,发现仅节点15和节点30的最长路径距离与预期的顺序不同,这两个的距离与表4中的拓扑排序值仅仅相差1个链接。 图2提示节点15和节点33可以与其他节点互换位置,以期达到预期的距离,然而,这种改变将会使其他的节点远离预期的顺序。,方法和结果,网络连通性和搜索路径 作者提出了基于搜索路径遍历数的链接连通性的方法。采用这个方法,我们做了三个假设 首先,假设我们从图1中提取的子图是代表从节点3到节点22的所有可能路径,如图3. 其次,如果子图中有N个节点,存在N(N-1)个可能的子图连接网络中所有直接相连的节点对,图3中,19个节点对有直接链接和路径,因此,我们构建了连接这些节点的子图:,方法和结果,最后,为了计算每个链接的遍历数,我们构建了连接这些节点对的所有子图的邻接矩阵。 这些矩阵根据相应的行和列进行堆栈。我们要得到的遍历数就是映射到一个垒栈上的连接节点对的所有链接的映射数。 生成的映射矩阵包括了每个链接被遍历的次数,也就是我们所需要的遍历数。我们称这种方法是节点对映射计数(node pairprojection count (NPPC))方法。,方法和结果,最高遍历数是10的链 接是5-12.这说明通过 这个链接能连接所有 的节点对。绕过几个 节点的链接如3-21产 生的遍历数较少。 遍历数反映了搜索路 径中链接前后的连通性。,方法和结果,另外两个计算遍历数的方法都是基于穷举搜索算法。如上所述,这种算法查找网络中从根节点开始所有可能的搜索路径。 链接被所有可能的搜索路径遍历的次数是衡量该链接重要性的一个简单的方法。我们称这种方法为搜索路径链接计数(search path link count(SPLC))方法。图3利用SPLC计算后的结果如下:,方法和结果,第三种方法也是基于所有从根节点开始的搜索路径。这种方法计算搜索路径上的所有节点对。 因此,在路径中间的链接的遍历数就高于在路径两端的链接,因为“内部”链接比“外部”链接参与更多的节点对。 我们称这种方法为搜索路径节点对(search path node pair(SPNP))方法。这种方法得出的 结果如下:,方法和结果,方法和结果,对DNA网络来说,三种方法的结果分别是: 方法 链接 遍历数 SPLC 27-32 328 SPNP 22-27 1178 NPPC 27-32 152 这三种方法找出了网络中两个遍历计数最高的链接。22-27链接连接的是Chargaff 研究和 Watson and Crick的研究。 27-32链接连接的是Watson and Crick 研究和 Ochoa的研究。,方法和结果,这些遍历数的一个重要的用处是发现引文网络的主要路径。我们可以利用遍历数找到反映网络最大连通性的搜索路径。 对每个节点,我们选择路径上遍历数最高的后继链接作为输出链接。重复多次后,我们就能找到网络中的最常用路径。 这种链接选择技术是优先搜索算法的一个实例,这种优先体现在以遍历数为标准进行的搜索。我们认为这条常用路径就是该领域内的主流研究。,方法和结果,DNA网络中,遍历数优先搜索跟先前的三种计算遍历数的方法确定了相同的搜索路径。DNA网络的主要路径包括以下研究:,方法和结果,方法和结果,网络的主要路径 上面的分析得出的主要路径是从节点3开始的。表5给出了将网络中每个节点都作为根节点时的主要路径。,方法和结果,在这40个节点中,31个节点有输出链接,因此这31个节点可以进行这样的分析。 表5显示,当考虑到节点特异性的主要路径时,仅仅4个节点会产生主要路径,这四条路径不参与始于节点3的的主要路径,其中两条甚至与网络主体部分弱连通关系都没有,他们是节点1和节点2。剩下的节点24和节点35分别与终节点28和38直接相连。主要路径上的节点没有与这些节点相连的。 事实上,所有始节点的主要路径最后都聚合到以节点3开始的主要路径上了。 引文网络的连通性与文献主流研究是一致的。,验证结果,一、引文重要性 DNA由Miescher (节点3)在1869年首次发现,因此该节点应该在主要路径上:符合 Asimov (1963)认为节点20是很关键的,Garfield 等(1964)构建的权重模式中,节点20节点权重值最高,应该在主要路径上:符合 Watson 和Crick (节点 27)和 Wilkins共享了诺贝尔奖,Ochoa (节点32)和Komberg (节点33)共享了诺贝尔奖。这些诺贝尔奖得住的研究应该在主要路径上:符合 Garfield等(1964: Appendix II)对每个节点事件给出了节点权重值。始于最高权重值,止于终节点。最高权重值的节点权重指数降序排列为:节点20,节点32,节点22,节点21,节点36,节点27和节点40。这些有最高节点指数的事件应该在主要路径上:符合。,验证结果,二、优势领域的Q分析 表2根据研究的领域将40个里程碑事件进行了分类,现在,我们构建了矩阵A,表2中对号的值设为1,错号的值设为0。采用Atkin(1977)的系统方法学对该矩阵进行分析。 每个研究领域转变为包含内容的单纯的事件集合,每个事件用其包含的研究领域来表示。每个研究领域变成了一个单体(simplex),共同组成了一个单体家族。 相似的,每个事件是由其内容领域组成的单体,共同组成了一个集合。这些单体形成了双重单体复合体。,验证结果,我们分析的是研究领域的集合。 研究领域矩阵A的转置矩阵为A,AA的结果生成了一个4*4的矩阵,表达了研究领域重叠的程度。 重叠的是包含两个研究领域的事件数,被称为普通面(common face)。 Q分析对普通面的连接结构进行了探索,结果如表6所示:,验证结果,表6的a部分显示了共面矩阵的结果。 核酸化学出现在26个里程碑事件中,蛋白质化学出现在12个事件中,遗传学是11个,微生物学是4个。 对角线下的数字是同时涉及两个领域的事件数。因此,出现核酸化学的26个事件中,6个与蛋白质化学共同出现,5个与遗传学共同出现,相似的,核酸化学与微生物学共同出现在3个事件中。 对共面矩阵中逐渐变小的值又进行了Q分析。给定一个q值,在Q分析中出现的复合体形成等价类。 q=26-13,只有一个等价类-核酸化学;q=12,有两个独立的等价类-核酸化学、蛋白质化学;q=11-7,有三个独立的等价类-核酸化学、蛋白质化学、遗传学;q=6,有两个等价类-(核酸化学、蛋白质化学)、遗传学;q=5,。,验证结果,表6的c部分显示的是,当q=5和q=3时单个等价类的内部关系。 q=5时,核酸化学是主要领域,连接着蛋白质化学和遗传学 q=3时,核酸化学又作为核心出现了,分别连接其他三个领域,其他三个领域没有直接的联系。 很明显,核酸化学是DNA研究的核心,事实上,主要路径上的所有事件内容都涉及核酸化学。,同等方法的比较,作者通过引文聚类分析和社会网络中的对等分析对DNA网络进行了补充分析,结果与 作者采用深度优先算法得出的结果一致,验证了这种新方法的正确性,结论,作者对DNA理论研究的引文网络进行了多种方法的分析 1、首先对网络进行了分类排序,根据节点的依赖关系形成主要节点集,包含了主要路径上的所有节点。 2、进行了最长路径的分析,利用这种方法找出了与上述相同的节点集。 3、介绍了利用遍历数测网络连通性,将有最高遍历数的节点形成集合,该节点集与前两种方法得到的相同。用优先搜索算法确定了从节点3开始的主要路径。 4、生成了所有可能的主要路径,这些路径趋向于聚合到一条路径,就是主要路径。,结论,其他研究学者用了完全不同的方法,已经确定了主要路径上的事件是DNA理论发展过程中的重大事件,因此,我们采用网络搜索技术进行的连通性分析与其他学者的分析是完全一致的。 总之,三种不同的方法在DNA网络结构上得出了相同的结论,更为重要的是,在这个热门领域发展的社会过程上,结论也是一致的。,谢谢大家 !,后面内容直接删除就行 资料可以编辑修改使
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国兔肉项目创业计划书
- 中国黑番茄项目创业计划书
- 中国桑寄生科项目创业计划书
- 中国康复辅具项目创业计划书
- 中国鹅雏项目创业计划书
- 中国毒蛇养殖项目创业计划书
- 个性化学习路径设计与跨文化适应性-洞察阐释
- 乙烯生产试题及答案
- 卡通春节传说启发幼儿的想象
- 蔡欢与张伟离婚协议书及财产分割及债务处理执行协议
- (高清版)DB33∕T 1205-2020 通风与空调工程施工质量验收检查用表标准
- 沈阳铁西区工业遗产保护利用研究
- 语文课堂教学技能教程知到课后答案智慧树章节测试答案2025年春杭州师范大学
- 智研咨询发布:2025年中国爬壁检测机器人行业市场发展环境及前景研究报告
- 2025年湖南长沙医疗健康投资集团有限公司招聘笔试参考题库含答案解析
- 电梯施工方案对重反绳轮
- 基于电磁感应原理的旋转设备转速精确测量技术研究
- 辐射工作人员培训、体检及保健制度
- 女装基础知识
- 预防性侵家长会
- 建筑施工安全风险管理制度
评论
0/150
提交评论