科学知识图谱方法及应用.ppt_第1页
科学知识图谱方法及应用.ppt_第2页
科学知识图谱方法及应用.ppt_第3页
科学知识图谱方法及应用.ppt_第4页
科学知识图谱方法及应用.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六科学知识图谱方法及应用 课程考核 相关的课程论文 6月1号前交信息管理学院336办公室 包括学号 姓名 联系方式 引言 对学科 领域 主题 过去 现状 前沿 热点 趋势的把握可通过什么方法手段 引言的重要性 文献是记录有知识的一切载体文献是科学交流的主要途径与手段了解领域历史 现状热点 前沿趋势选题 寻求切入点和突破点寻求新的研究方法和有力的论证依据避免重复劳动网络环境 大数据 如果说我比别人看得更远些 那是因为我站在了巨人的肩膀上 我不知道在别人看来 我是什么样的人 但在我自己看来 我不过就象是一个在海滨玩耍的小孩 为不时发现比寻常更为光滑的一块卵石或比寻常更为美丽的一片贝壳而沾沾自喜 而对于展现在我面前的浩瀚的真理的海洋 却全然没有发现 牛顿 目录 知识可视化概述 知识图谱绘制方法 知识图谱绘制工具 CiteSpace简介与操作 知识图谱应用案例 知识 语言 文字 肢体 其它 图像 1 知识可视化概述 一图展春秋 一览无余 一图胜万言 一目了然 大连理工大学教授刘则渊 知识可视化实质 知识 可视化形式 图解 促进 传播创新 百闻不如一见 一图胜万言 纽约大学心理学专家吉米 布洛诺 JeromeBruner 在实验中发现 人们能记住10 听到的东西 30 读到的东西 但是却可以记住80 看到的东西 1 知识可视化概述 1 知识可视化概述 科学计算可视化 VisualizationinScientific Computing 数据可视化 Datavisualization 信息可视化 知识可视化 知识域可视化 InformationVisualization 术语是由斯图尔特 卡德 约克 麦金利和乔治 罗伯逊于1989年创造出来的 美藉华人陈超美1999年率先发表了该领域的第一部专著 信息可视化 创办了国际期刊 Informationvisualization 1 知识可视化概述 知识可视化发展时间很短 正式起源于2004年 M J Eppler和R A Burkhard共同发表论文 knowledgeVisualization TowardsaNewDisciplineanditsFieldsofApplication Eppler认为 知识可视化主要研究视觉表征的使用 主要目的是改进两人或多人间知识的创造与转移 知识可视化是指能用来构建和传递复杂观点和内容的所有图形手段和方式 1 知识可视化概述 1 知识可视化概述 此外 在科研写作中也需要绘制图表 呈现知识 关于 概念图 的概念图 主題 思考的主题 思维导图 用于放射性思考 阅读下面黑体的词汇 然后立刻闭上眼睛 持续30秒 思考它 水果 2 知识图谱概述 基本概念 知识是一个内涵非常丰富的概念 知识广泛存在于社会各个领域 科学知识图谱广义上包括 生物的基因图谱 教育教学中的认知地图 探索太空的天体图 描绘地形的GIS 模拟人脑的神经网络图 各种金属图谱等 科学知识图谱是以科学知识为对象 显示学科的发展进程与结构关系的一种图形 具有 图 和 谱 的双重性质与特征 2 知识图谱概述 基本概念 2 知识图谱概述 基本概念 较形象 定量 客观 真实地显示学科结构 热点 演化与趋势 是学科基础研究新视角 知识图谱可发现 描述 解释 预测和评价科学知识 对图书情报学科具有更重要意义 也有助于信息检索 信息分类与信息服务等 耗时 费力 难以重复 较主观盲人摸象 2 知识图谱概述 基本概念 2 知识图谱概述 基本概念 上世纪50年代 加菲尔德创制SCI 并以编年体形式手工绘制引文网络图谱 随后 文献耦合 Kessler 1963 科学引文网络 Price 1965 同被引 Small 1973 共词 Callon 1983 引文可视化 White 1998 相继提出基本原理是分析知识单元 科学文献 科学家 关键词等 的相似性及测度 采用不同的方法和技术绘制不同类型的图谱 科学学 科学计量学 应用数学 计算机科学 信息科学 科学知识图谱 2 知识图谱概述 发展历程 传统的科学图谱以简单的二维 三维图形 如 柱形图 线性图 点布图 扇形图 平面图等 表示科学统计结果 文献摘要或关键词纪录比例图 X论文增长趋势线型图 2 知识图谱概述 发展历程 1987年 美国基金会发表研究报告 科学计算中的可视 开始长期资助科学可视化 scientificvisualization 研究 1987年 著名计量学家克雷奇默创立 三维构型图谱 threedimensionalconfigurationmap 之后出现 多维尺度图谱 multi dimensionalscalingmap 20世纪20 30年代英国人类学研究提出 社会网络分析图谱 socialnetwortanalysismap 卡尔提出 自组织映射图谱 self organizingmap 实例 某学科期刊高频关键词共词网络2个知识群 实例 某学术群体知识图谱 2 知识图谱概述 发展历程 PFNET算法根据经验性数据 对不同概念或实体间联系的相似性或差异程度做出评估 然后引用图论中的基本概念或原理生成特殊的网状模型 1990美国心理学家斯克沃斯兹恩巴克提出 寻径网络图谱 pathfindernetworkscalingmap PFNET 将数据以及数据间关系表达成一个图 图中节点表示数据 线表示数据间关系 运用较小生成树法及复杂连接删除算法 删除网络中大部分连接 保留最重要连接 最大限度简化网络 2 知识图谱概述 发展历程 用克林伯格跳变算法和共生词分析法和图示技术 研制主要主题和复杂趋势的发现地图 印第安纳大学KetanKMane和泊尔纳提出 PNAS主题爆炸图谱 用以发现主要主题和复杂趋势 网络中各节点代表高频词和爆炸词节点大小代表该词达到最大爆炸水平颜色代表词常用和达到最大爆炸水平的年代 2 知识图谱概述 发展历程 利用地理信息系统的可视化信息 地理地图的自然组织框架 构建隐含大量信息的可视化主题地图 有维斯 J Wise 等提出 信息地图 informationlandscape 应用案例 期刊文章的数量与资助基金间的动态关系图谱 2 知识图谱概述 发展趋势 随计算机处理能力日益提高 文献数字化 知识图谱工具在模拟人类信息分析等方面 可帮助人类进行某些领域的判读 搜索 决策 预测 IN SPIRE发现工具可整合交互式信息可视化与询问功能 利用专利分析工具形成的专利知识图谱 论文的最小生成树图谱 最小生成树导航图谱 3 科学知识图谱的绘制方法步骤 3 1样本数据获取 主要数据来源 WebofScience科学文献数据 SCI SSCI 专利文献数据 德温特创新索引DII国际会议文献数据 CPCI 另外还有Scopus ScienceDirect L国内数据库 CNKI CSSCI CSCD 万方等网络数据源 GoogleScholar arXiv CiteSeerX 3 2样本数据清洗 基于文献数据库进行知识可视化的质量 合理性和可靠性很大程度上依赖于所用数据的精确性和全面性 不准确或不全面的数据往往造成不精确甚至错误的结果 即使目前最权威 公认质量最高的WoS 也存在数据著录格式 如人名和地名的不统一 和遗漏的问题 改正字符错误 统一或增补分时段有代表性的抽取 3 3选择知识单元 知识单元是知识处理的基本单位 关键词 题名 作者 机构 刊名 分类号 学科等等 目前也扩展到摘要 参考文献和全文 多种结合 3 4构建知识单元关系 1 说明科学知识和情报内容的继承和利用2 标志科学的发展 耦合 文献共被引分析是计量文献之间关系的一种新方法 即2篇文献共同被1篇文献引用 这2篇文献就构成共引关系 共被引频率定义为这2篇文献一起被引用频次 马沙科娃 斯莫尔 苏联 美国 CR2001 NYTIMES1226 B2 AMPSYCHASS 1994 DIAGNSTATMANMENT DEPHLTHHUMANSE 1999 MENTHLTHREPSURGG USBURCENS 2000 STF3ADEPCOMMBURCBLAZERDG 1994 AMJPSYCHIAT V151 P979EATONL 2001 NYTIMES1116 A1FOTHERGILLA 1999 DISASTERS V23 P156FULLERTONCS 1999 AVIATSPACEENVIRMD V70 P902GINEXIEM 2000 AMJCOMMUNPSYCHOL V28 P495GOENJIANAK 2001 AMJPSYCHIAT V158 P788GREENBL 1990 JAPPLSOCPSYCHOL V20 P1033HANSONRF 1995 JCONSULTCLINPSYCH V63 P987HARVEYAG 1999 JCONSULTCLINPSYCH V67 P985KAWACHII 2001 JURBANHEALTH V78 P458KESSLERRC 1995 ARCHGENPSYCHIAT V52 P1048KILPATRICKDG 1987 CRIMEDELINQUENCY V33 P479MADAKASIRAS 1987 JNERVMENTDIS V175 P286MAZURECM 2000 AMJPSYCHIAT V157 P896NORTHCS 1999 JAMA JAMMEDASSOC V282 P755ORTEGAAN 2000 AMJPSYCHIAT V157 P615POLEN 2001 JNERVMENTDIS V189 P442RESNICKH 1999 JANXIETYDISORD V13 P359RESNICKHS 1993 JCONSULTCLINPSYCH V61 P984ROTHBAUMBO 1992 JTRAUMASTRESS V5 P455RUBONISAV 1991 PSYCHOLBULL V109 P384RUEFAM 2000 CULTURALDIVERSITYE V6 P235SHAHB 1997 SUDAANUSERSMANUALSHALEVAY 1998 AMJPSYCHIAT V155 P630SHALEVAY 2000 JCLINPSYCHIATS5 V61 P33SHERBOURNECD 1991 SOCSCIMED V32 P705SHOREJH 1989 JNERVMENTDIS V177 P681TUCKERP 2000 JBEHAVHEALTHSERR V27 P406 documentco citation authorco citation journalco citation ACA DCA JCA 3 5数据分析 数据标准化 为便于可视化 对简单地频次计算的单元数据 标准化常常通过数据间的相似度测量 主要有两大类 一是集合论方法 Set theoreticmeasures 包括Cosine Pearson Spearman Inclusion指数和Jaccard指数 二是概率论方法 Probabilisticmeasure 主要有合力指数 AssociationStrength 和概率亲和力指数 ProbabilisticAf nity 因子分析以较少几个因子描述许多指标或因素间关系 即把较密切的变量归在同一类 每类变量成为一个因子 以少量的因子反映原资料中大部分信息 主成成分分析其它聚类分析 多维尺度分析通过低维 2维 空间反映作者 文献 间的联系 利用平面距离来反映作者 文献 间的相似程度 在科学知识图谱中 聚集高相似性的作者 文献 形成科学共同体 学科前沿 用中间位置反映作者 文献 与其他作者 文献 的联系越多 说明学科位置核心程度 3 6数据分析 简化分析 3 6数据分析 简化分析 自组织映射图 SOM 模拟人的神经中枢网络 采用无导师学习的分类方法 能把任意输入信息变换到二维离散网格上 并尽可能地保持原知识的拓扑有序结构 3 6数据分析 简化分析 寻径网络图谱 PFNET 模拟人的记忆模型和联想式思维方式 建立知识单元间最有效连接的路径 经过较复杂的模型运算删除网络中大部分连接 只保留最重要的 目的是将复杂大型的网络进行最大程度的简化 聚类分析 Cluster 潜在语义分析 LatentSemantic ForceDirectedPlacement FDP 三角法 Triangulation 最小生成树法和特征向量法 Eigenvector 等 3 7知识可视化 知识图谱需要将处理后的知识在人机界面中 进行有效 精确地展示 知识单元及其关系可以通过不同模拟来可视化展示 例如几何图 战略图 冲积图 主题河图 地形图 星团图 簸幅图等等 例如主题河图 ThemeRiver 可视化中 用河流做隐喻来描述文献主题随时间的变化 主题的变化随着外部事件的时间线索而显示出来 主题河由术语的频次支流组成 支流的宽度依据术语在不同时间段上出现频次的不同而发生变化 2 8知识图谱解读 在知识图谱的解读过程中 常常需要对图谱进行相应操作 包括浏览 放大 缩小 过滤 查寻 关联和按需移动等 解读主要从以下几方面着手 网络分析 历时分析 空间分析 突变检测 社会网络分析 据今日美国2006年的报道 911以后 美国国家安全局从AT T Verizon BellSouth等三家美国主要电信公司搜集电话记录 从中分析和查找潜在的恐怖分子网络 著名SNA应用和管理咨询专家ValdisKrebs根据大量公开数据 也绘制出了涉及911的恐怖分子关联网络 小世界现象 六度分隔理论 这个星球上的每个人都不过是被其他六个人分割开来 这就是在我们与这个星球上的另外任何一个人之间的六度分离关系 美利坚合众国的总统 威尼斯的船夫 这不仅仅对这些大人物成立 而且对任何人都成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论