




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
0 书目共现分析系统 Bibliographic Items Co occurrence Matrix Builder BICOMB 2 0 使用说明书使用说明书 中国医科大学医学信息学系开发 沈阳市弘盛计算机技术有限公司协作开发 2014 年 1 月 0 目录 前言 1 安装 2 运行 3 数据收集 4 建立项目 13 提取字段 15 频数统计 21 矩阵生成 23 词篇矩阵 23 共现矩阵 23 附录 26 SPSS 聚类分析 26 1 前言 生物医学文献正在爆炸式的增长 同时随着网络技术和文献电子化的发展 书目文献数据库中收集 了巨大数量的文献信息 单凭人工在浩瀚的文献海洋中发现和获得自己需要的信息变得困难重重 但这 也同时为生物医学文本挖掘提供了广阔的舞台 书目共现分析系统 Bibliographic Items Co occurrence Matrix Builder 以下简称 BICOMB 便是 在此背景下应运而生 该软件系统由中国卫生政策支持项目 HPSP 资助开发 后又受中国医科大学 十二五 医学教育科学研究课题 的资助进一步升级改进为 2 0 版本 采用目前技术成熟 流行的 数据库语言开发 可对医学文献数据库中的书目信息进行快速读取 准确提取字段并归类存储 统计 并生成书目数据的共现矩阵 为进一步研究提供全面 准确 权威的基础数据 作为文本挖掘的基础工具 BICOMB 可对国际上权威的生物医学文献数据库 PubMed 引文数据库 Science Citation Index SCI 中国知网 CNKI 和万方数据等数据库的文献记录进行读取分析 并允 许用户对系统功能进行修改 增加等拓展 本软件系统作为文本挖掘的基础工具 希望在情报分析中得到广泛而充分的应用 为生物医学及其 他学科的研究开展做出贡献 2 安装 一 电脑的准备一 电脑的准备 软件系统在安装了 Windows 98 2000 NT XP Visat 等操作系统的电脑上均可正常运行 不建议使用 Windows ME 2003 等版本 另外 电脑中需要具备 Microsoft Office 办公软件系统 在统计功能中 BICOMB 的结果将利用 MicroSoft Excel 生成报表 软件系统的界面包含 Flash 动画 要求操作系统中 Flash 版本在 8 以上 浏览如新浪网 可以正常 看到网页中的动画 就说明是在 Flash 8 以上 二 软件的安装二 软件的安装 下载的两个文件 BICOMB2 bde install 解压缩后 先运行一遍 bde install 布置好环境 然后 解压缩 BICOMB2 即可 3 运行 在安装的软件系统目录中选择 bicomb2 exe 文件运行 系统主界面 见图 2 1 包括 系统引导区 左侧 以及工作区 右侧 图 2 1 系统引导区 显示系统名称 开发方信息以及动画形式的主功能 项目 提取 统计 矩阵等 4 项 菜单等内容 工作区 以步骤形式分页显示各主功能对应的详细功能内容 在接下来的章节将详细介绍各主功能项的详细功能内容以及操作方法 4 数据收集 数据收集分为检索和下载两个步骤 检索过程即为找到切题的文献 目前按照业务需求 软件系统 可对 两种格式的文件类型进行指定内容的提取工作 格式类型的文件 图 3 2 是标准的 ANSI 编码的纯文本格式文件 软件系统通过遍历文档 查找每行文字的前面的特征字符特征字符 图 3 1 中的 Author 等统一格式的字段名称 来提取其后面的内容信 息 如图 3 1 中的王超 因此下载数据时要选择规定的格式 以便符合软件系统的要求 图 3 1 格式的文献记录 格式类型的文件是一种以 树 状结构形式存储数据的纯文本格式文件 软件系统要提取的 就是 树 上指定 节点 上的 叶子 图 3 2 就是图 3 1 同一篇文章的 xml 格式 图 3 2 格式的文献记录 5 一 一 PubMed 数据库文献记录的下载数据库文献记录的下载 1 进入检索结果显示页面后 点击右侧上方的下拉菜单 可以将检索结果发送到本 地计算机 如图 3 3 图 3 3 PubMed 检索结果显示页面 2 设定下载文件的保存格式 BICOMB2 0 对 PubMed 中记录要求的缺省格式是 XML 格式 在 send to 下拉菜单的选项中 依次在 Choose Destination 中选择 file Format 中选择 XML 其余 选项可任意选择 如图 3 4 图 3 4 PubMed 检索结果下载界面 3 点击图 3 3 中的 Create File 按钮 选定保存路径和文件名称 将文献保存到本地磁盘中 图 6 3 4 图 3 5 为用写字板打开的下载文件 图 3 4 写字板中显示的 PubMed 文献记录的 XML 格式 二 二 SCI 数据库文献记录的下载数据库文献记录的下载 1 进入检索结果显示页面后 寻找在页面上方正中位置的保存文件下拉菜单 缺省保存设置为 保 存至 EndNoteOnline 点击后选择 保存为其他文件格式 图 3 6 BICOMB2 0 对 SCI 数据预设的 格式为格式 图 3 6 SCI 检索结果显示页面 2 弹出浮动窗 选择记录数 SCI 规定最多每次下载 500 条记录 选择 记录内容 为 全纪 录与引用的参考文献 做引文分析时必须要下载参考文献 文件格式 选择 纯文本 点击 发送 图 3 7 7 图 3 7 SCI 检索结果下载选项 3 设定本地保存路径和文件名之后 可以用记事本或者 word 打开浏览结果 图 3 8 图 3 8 用记事本打开 左 和用 word 右 打开的文档 三 三 万方数据库的文献记录下载万方数据库的文献记录下载 1 为了批量下载文献记录 对万方数据库采用高级检索方式 链接位于检索查询框的右侧查询按 钮旁 进入高级检索并检索后 显示结果如图 3 9 选择每页显示最大条目数 50 并在左侧记录序 号上方的核选框中选择 全选 点击 导出 选项卡就可以显示准备导出的记录 图 3 10 图 3 9 万方数据库检索结果界面 8 2 对于导出选项卡里的记录 万方提供了多种导出格式 左侧边栏 BICOMB 对万方数据库的 记录处理的缺省格式是 notefirst 这是一个 XML 格式 如图 3 10 点击导出 设置文件名称和保存路 径即可将有关记录下载到本地计算机 目前 万方数据库最多可以一次下载 500 条记录 3 10 万方数据库检索结果导出界面 四 四 CNKI 数据库的文献记录下载数据库的文献记录下载 1 CNKI 数据库不需要进入高级检索 直接检索后 选择 每页显示 50 条记录 在左侧记录 序号上面的栏目条选中核选框 最后点击 导出 参考文献 后进入导出界面 图 3 11 CNKI 检索结果界面 9 2 在导出页面 点击左侧文献记录序号上方核选框达到全选 点击 导出 参考文献 进入下载页 面 图 3 12 CNKI 导出界面 3 在 CNKI 的下载界面 左侧栏目条列出多种下载格式 BICOMB 系统处理 CNKI 文献数据库的缺 省格式是 notefirst 格式 也是一种 XML 格式 点击 导出 后选择路径并设定文件名后保存至本地计 算机上 CNKI 一次下载文献量最多为 500 条 图 3 13 CNKI 导出格式选择 五 五 自定义下载格式自定义下载格式 notefirst 10 BICOMB 的用户可以根据所下载文献记录的格式 自己创建定义 BICOMB 的格式模板 下面以 CNKI 的 自定义格式 为例 说明用户自定义字段信息抽取模板的过程 1 下载文献记录 在 CNKI 下载页面的自定义格式 如图 3 14 中 我们增加了关键词 发表年 基金等字段下载 保存在本地计算机上 图 3 14 CNKI 下载记录的自定义格式 2 记录字段格式的种类 用写字板等工具打开下载记录文件 图 3 15 可以看到所下载的文献 记录 每一篇文献的第一行都有 SrcDatabase 来源库 注意中文及符号的全角半角 的文字 我们 将其作为分隔文章的标识 在 BICOMB 中称之为 文章节点文章节点 设置文章节点可以把同一文档中的不同 记录分隔开来 对统计关键词 作者等的共现次数十分重要 如果不设定文章节点 BICOMB 会认为 所有的关键词等都来自一篇文章 造成关键词等统计目标的出现频次及其统计的混乱 在 CNKI 自定义格式中 作者 单位和关键词字段内的关键字有取多个值 均位于同一行 如多 个作者都处于一行 各个值之间以 分隔符区分 我们目前将字段字段的这种表现形式成为单行多值单行多值 图 3 15 写字板显示的 CNKI 自定义格式 11 其他几种字段内容的表现格式表 3 1 这些在下面介绍的设定字段格式中会使用到 表 3 1 BICOMB 自定义的几种字段表现格式 字段格式 名称 描述样例实例 单行多值单行多值多个值位于同一 行 各值之间以 分隔符区分开 Author 作者 许婷婷 陈秋珠 郭文斌 CNKI自定义中 的作者字段 多行多值多行多值关键字有多个 值 每个值占一 行 无分隔符 AU Suarez Tangil G Tapiador JE Pens Lopez P SCI 数据库中 的作者 引文字 段 单值单行单值单行指该字段仅有一 个值 这个值也 仅占一行 Title 题名 我国近十年自我概念研究热点知识图谱 Source 文献来源 渭南师范学院学报 SCI 数 据 库 中 发表年字段等 单值多行单值多行该字段只有一个 值 但是其内容 较多 长度超过 一行 TIA text mining approach to analyzing and classifying code structures in Android malware families SCI 数 据 库 的 标题字段 3 自定义设置抽取模板 打开 BICOMB 之后 在系统工作区左下角的选项卡中选择 管理员 管理员页面上端 格式定义 下拉菜单右侧有一排 3 个按钮 为模板模板控制按钮 用户可以自由地新增 删除或者修改来文本记录的抽取模板 图 3 16 BICOMB 中用户自定义抽取模板的界面 如欲新增模板 可点击 增加 按钮 弹出 增加 格式类型 框 图 3 14 填写 格式 名称 和 格式全称 作为你自己设定模板的名字 方便以后调用 对于 CNKI 自定义下载格式 格式类型选择 txt 4 自定义设置字段模板 在图 3 16 中右侧也有一列 增加 删除 和 修改 按钮 为 字段字段控制按钮 可以在已经定义好的模板中添加具体的字段 首先设定好 如前所述 本例中采用了 SrcDatabase 来源库 作为文章节点 注意 作为文章节点字段必须在文本框里输入 文章节点 4 个字 并且用英文半角的 号包 裹 12 图 3 17 文章节点的设置 假设我们要抽取文献记录中的关键词字段 点击右侧 增加 后 弹出对话框 具体设定如 下 关键字 用户自己任意输入名称 如关键词 节点 1 为关键词字段的标识 Keyword 关键词 取值方法描述 多值 分隔符为 成功设定字段抽取模板的关键在于选择合适的节点和正确的 节点格式 图 3 18 CNKI 自定义字段中关键词字段的设置 13 建立项目 在 BICOMB 中建立一个新的项目 图 4 1 的步骤包括 图 4 1 BICOMB 项目管理页面 一 一 增加项目增加项目 在工作区右侧点击 增加 按钮 然后给这个新项目命名一个编号 编号可以包含数字或字母 但不可包含数字或字母以外的其他字符 二 二 选择类型选择类型 根据项目选择特定的格式类型 如分析从 PubMed 下载的 XML 格式文件时应选 PubMed PubMe d 格式类型 三 三 项目说明项目说明 为区分各项目 方便管理 可以在 项目说明 中录入一些关于新项目的说明 图 4 2 BICOMB 文件存储在以项目编号命名的目录内 新项目建成后 软件系统将在其目录下自动创建一个以 项目编号 为名的文件夹 图 4 2 它将 14 在以后的工作中存储所选取的文献文档及提取 统计的结果等 选择 删除 按钮可以删除已建成的项 目 BICOMB 将提示操作的严重性 以避免误操作 15 提取字段 项目建立完成后 即可选择导入数据的文档 实现字段内容的提取和清洗 点击工作区的 提取 功能选项卡 图 5 1 一 一 文献文档文件的选择与移除文献文档文件的选择与移除 1 对于一个项目 可以选择一篇文档或多篇文档 也可以是一个文件夹下的所有文件 如果是一个文档如果是一个文档 选择 选择文档 功能 根据项目的格式类型 或 准确选择相应文 档 见图 5 2 经软件系统提示 见图 5 3 确认后 即完成一篇文档的选择 如果是多篇文档如果是多篇文档 重复 上面的选择工作即可 图 5 1 BICOMB 设定提取文档 也可以将下载的多个文档存放在同一个文件夹内 在提取页面点击 选择目录 按钮 选择该文件 夹 并指定文件扩展名 图 5 4 完成一个文件夹的选择 在接下来的提取工作中 软件系统在指定 的文件夹中自动提取所有符合指定扩展名的文件中的关键字数据 2 点击右侧 移除文档 按钮 可以将当前所选择的文档文件删除 应注意 如果移除所选择的文 档 相应的提取数据也将被一并移除 二 二 提取提取 正确选择文件或文件夹后 工作区上方框内会显示相应的文件或文件夹的名称 点击右侧 提取 按钮 此时系统会显示工作条图 图 5 2 对一篇文 档的选择 对多个文 档的选择 16 图 5 2 BICOMB 提取工作页面 三 三 提取结果提取结果 提取完成后 选择 选关键字段 软件系统将显示从相应文件或目录中提取的相应关键字段的全 部数据内容 图 5 3 图 5 3 BICOMB 提取结果显示 17 四 四 数据清洗数据清洗 对于转换并提取的数据 存在着各种错误 如中文关键词的同义词现象 SCI 引文中作者姓名有 多种写法 BICOMB 提供了简单的规范 修改功能 1 批量修改 删除某些记录 对相同值的数据做批量修改或删除 用于处理匿名作者 错误的引 文著录 或者中文关键词的整理等 1 字段值的修改 例如 对于关键词中的所有 信息查询 用 信息检索 替换 操作方法为 在提取之后 选择欲修改的该关键词的 信息查询 点击右侧 修改 按钮 在弹出 修改关键字段 值 对话框中 在 同值修改 对话框中输入正确的值 信息检索 勾选批量修改的核选框 点击确 定文件中所有关键词字段中的 信息查询 都被 信息检索 替代 图 5 4 BICOMB 批量修改关键词字段中的值 除了整个关键字段的值的替换 BICOMB 还提供了对关键字段局部值的替换功能 包括对指定的 字符 特定位置的字符修改与删除 去掉数字或者字母 以及大小写转换等 图 5 5 图 5 5 BICOMB 字段值修改对话框 18 2 字段值的删除 点击右侧功能栏中的删除 可以将所有作者名为 anonymous 的记录删除 掉 在弹出的对话框用户可以选择删除操作的范围 图 5 6 删除字段值的对话框 2 对提取后各字段进行降序 升序排列 方便检查或删除抽取结果 操作方法 选择某类关键字 后 可通过点击数据列表栏目 值 其前面出现 单击该按钮可以逐次按降序 升序和原始顺 序显示记录 图 5 7 关键字段的排序 3 对数据列表中的数据进行 复制 用于替换错误数据 用鼠标双击某行值 使其显示状态变化 为编辑状态 通过鼠标可进行 选蓝 然后点击鼠标右键 通过弹出菜单选择 复制 项 19 图 5 8 字段值的复制 4 显示部分数据 提取后 缺省选择是显示全部记录 但是也可以显示某个字段中部分数据 如 作者名为 Bakken S 全部记录 具体操作 结果显示栏上方有 全部 仅同值 选择功能 可以通过 仅 同值 功能使数据列表只显示等于某个值的记录 图 5 9 显示部分同值记录 5 文章号定位 可以根据文献记录中的 文章号 图 5 9 中最左侧一列 寻找到特定的一条记录 在引文分析中寻找来源文献可以使用到这个功能 具体做法就是在 文章号定位 后的文字框内输入具 体的文章号 注意要保证文章号的位数 文章号前部的 0 不能舍弃 6 导出功能 在引文统计中 双击某一条记录的值 都可以导出该文献的来源文献 双击值后 相应的来源文献文章号会显示在工作区右侧 点击 导出 按钮 可以生成相应的 txt 或者 excel 文档 保存了该来源文献的标题 第一作者 期刊及年代 图 5 10 如取消导出可以双击右侧的文章号即可 20 图 5 10 BICOMB 导出界面及导出后的记录 21 频数统计 BICOMB 可以将一个项目中提取的所有关键字段数据进行汇总统计 并可将其统计结果全部或部分 通过 频次阈值 控制导出数据的范围 导出至 Microsoft Excel 格式表格文件 图 6 1 统计功能页面 一 一 选择统计字段并统计选择统计字段并统计 在上部 关键字 对应的下拉菜单中选取相应的关键字 点击工作区左下角功能选项卡中的 统计 标签 图 6 1 如对来自 PubMed 数据库的主题词 副主题词 形如 Aspirin Adverse Effects 进行统计 就可以选择 主要主题词 副主题词 点击下拉菜单右侧的 统计 按钮 系统将会对该字段进行 统计并返回统计结果 图 6 2 统计结果及设定阈值 根据需要设定阈 值 将统计结果 导出至 Excel 22 结果中包括统计字段的序号 关键字段的内容 出现频次 出现百分比和累积百分比 图 6 2 在统计结果列表中 用选择相应的统计数据 点击右键 可弹出导出菜单 用于导出含有该字段的文献 记录 如含有某作者名字的全部记录 包括文章号 标题 第一作者 期刊等 详见矩阵生成部分 二 二 设定阈值并导出设定阈值并导出 根据实际需要和数据分布情况 点击 频次阈值 后的数值设定阈值 点击 导出至 Excel 按钮 将高于阈值的条目导出 生成 excel 文档 图 6 3 图 6 3 BICOMB 生成的用于导出和保存统计结果的 excel 文档 23 矩阵生成 根据统计结果 软件系统可以按照需求 对关键字段中出现一定频次以上的条目 通过 频次阀值 设定频次范围 在每篇文献中的出现情况或共现情况进行搜索统计 生成矩阵 供进一步研究使用 一 一 设定阈值并生成矩阵设定阈值并生成矩阵 点击工作区左下角功能选项卡中的 矩阵标签 进入矩阵生成页面 首先要设定出现频次的阈值 本系统不仅可以对高于特定阈值的条目进行共现统计 也可对某一数值范围内的条目进行统计 如被引 次数高于 10 次低于 39 次的被引论文 具体做法是在上部工具栏中 频次阈值 后面的两个框中选择上 下两位阈值 然后点击 生成 按钮 1 词篇矩阵 词篇矩阵词篇矩阵 是针对主题词 文献矩阵而言的一种简便称呼 该矩阵的第一列是主题词 第一行则 是文献记录的号码 如果是 PubMed 记录 则是该文献记录的 PMID 号 图 7 1 如果是引文矩阵 则 第一列是被引文献 第一行则是引用 来源 文献 在此均称作 词篇矩阵 其实质是一种数据矩阵 其中间格子中的数字 0 和 1 分别代表该词在对应的文章中是否出现 或者该论文是否被对应的 来源文献所引用 图 7 1 BICOMB 的矩阵生成界面及词篇矩阵 2 共现矩阵 共现矩阵共现矩阵 则是一种相似矩阵 在词篇矩阵的基础上 只要点击加功能选项卡中的 共现矩阵 标签 然后点击 生成 按钮即可 此时生成的矩阵中行和列是一样的 可以是高被引论文或者高频主 题词 高产或高被引作者等等 矩阵中的数值则是行和列共现的次数 对角线上的数字则是条目出现的 总次数 如高被引论文的同被引矩阵 对角线上的数字就是该论文的被引总次数 其余的数字则是不同 的两篇论文同时被其他论文引用的次数 可以进行共现分析的条目有作者 单位 主题词或关键词 引 文等 多余的话 依据我们的经验 建议在用SPSS进行系统聚类分析时 向其导入词篇矩阵得到的聚 类 共现矩阵可用于在UCINET等软件中做网络分析 24 图 7 2 高被引论文的同被引矩阵 二 二 导出矩阵及显示相关信息导出矩阵及显示相关信息 1 系统生成矩阵后 点击工作区上部工具栏上的 导出矩阵至 txt 按钮 矩阵导出到 txt 文档 图 7 3 生成的共现矩阵文档 2 在 BICOMB 所显示的 共现矩阵 中 点击矩阵中的相应数字 会生成有关信息 如在同被引 共现矩阵中 点击数字可以导出同时引用对应行和列两篇论文的来源文献 如图 7 4 所示 点击矩阵中 的数字 11 会自动生成一个 txt 文档 包含同时引用了行和列两篇论文的来源文献的标题 第一作者 期刊和年代信息 对于主题词 关键词共现矩阵 则显示含有行和列对应主题词 关键词的文献记录 图 7 4 通过共现矩阵查看共现相关信息 25 3 扩展功能 BICOMB 还可以生成在 PubMed 中进行批量检索 Batch Citation Matcher 检索式 BICOMB 为了方便用户继续在 PubMed 中检索到相关的文献记录 可以导出 excel 格式的文档 文档中 除了提供来源文献的 PMID 标题 第一作者 期刊 年代 卷和起始页之外 还提供用于在 PubMed 数据库中进行批量检索的检索式 查询信息组合 即形如 journal title year volume first page author name your key 格式的字符串 用户可直接将该字段的文字复制粘贴到 PubMed 的批量检索查询框中 图 7 6 其中主题词共现矩阵中导出的 excel 文件中的 查询信息组合 中最后一串数字为该文献的 PMID 号 在该字串中的期刊名称 journal title 进行了从 SCI 刊名缩写向 PubMed 刊名缩写的转换 如未查询到该刊名 则保留原值 图 7 5 共引文献信息的 Excel 输出结果 图 7 6 PubMed 数据库中批量检索界面 26 附录 基于 SPSS 的系统聚类分析 聚类分析聚类分析 cluster analysis 是一个将数据集划分为若干组或类的过程 并使得同一个组内的数据 对象具有较高的相似度 而不同组中的数据对象是不相似的 相似或不相似的描述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年文化遗产保护与管理考试题及答案
- spijava面试题及答案
- 公共政策与社会稳定的关系探讨试题及答案
- 城市犯罪防控政策的有效性评估试题及答案
- 软考网络工程师复习计划与试题及答案
- 新考纲适应策略2025年信息系统项目管理师试题及答案
- 西方政治制度对国际关系的影响试题及答案
- 公共政策中的风险管理策略试题及答案
- 公共政策实施中的风险管理试题及答案
- 如何提升信息系统项目管理师考试中的独立思考能力试题及答案
- SHT+3413-2019+石油化工石油气管道阻火器选用检验及验收标准
- 电场电场强度
- 白酒质量要求 第4部分:酱香型白酒
- JT-T-329-2010公路桥梁预应力钢绞线用锚具、夹具和连接器
- 湖北武汉市2024届高三冲刺模拟数学试卷含解析
- 2024年浙江台州椒江区公安局警务辅助人员招聘笔试参考题库附带答案详解
- 土木工程专业毕业答辩常问问题
- 红色大气商务企业启动会企业启动仪式
- 2024年新改版苏教版六年级下册科学全册复习资料
- 手机制造行业未来五至十年行业分析
- 《发酵生物技术》课件
评论
0/150
提交评论