已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2讲 CiteSpace分析数据的采集 CSSCI CNKI WoS Core Collection Derwent 李杰1,陈超美2 1.首都经济贸易大学-安全与环境工程学院 2. Drexel University- College of Computing and Informatics 配套教程: 李杰, 陈超美著.CiteSpace科技文本挖掘及可视化M.首都经济贸易大学出版社.2016. 作者博客: 李杰博客: 本讲主要内容 1. 数据采集总述 2. CNKI-中国知网 3. CSSCI-中国社会科学引文索引 4. Web of Science 核心集-WOS引文索引 5. Derwent Innovations Index-专利数据 6. 与数据有关的其他补充内容 1. 数据采集总述 数据分析与数据结构和数据组成联系密切。对于科技文本数据而 言,索引型数据库通常收录了除了正文以外的所有文献信息,而 且还增加了数据库本身对论文的分类标引。 当然,不同的数据库的格式也有一定的差异性。相比而言Web of Science和Scopus的数据结构是最为完整的,Derwent和CSSCI次之, CNKI的完整性最小。 由于CiteSpace分析的数据是以WoS数据为基础的,即其他数据库 收集的数据都要先经过转换,成为WoS的数据格式才能分析。 CiteSpace可以处理的数据类型 CiteSpace处理数据的步骤 数据转换 WoS数据直接分析 input output Input要求下载正确 的数据格式。 Output的数据格式按照WoS数 据格式重新组织。 转换核心:字段匹配 Refwork数据转换 WoS格式 CiteSpace input input 以CNKI数据的转换为例。 对于CNKI,CSSCI等数据库的除重都是在经过数据转换后在Web of Science的数据除重界面下进行 DataImport/ExportWeb of ScienceDuplicate Removal. 提示 数据转换前后 2. CNKI数据的采集 1 43 2 CNKI数据的采集 使用CiteSpace进行分析的文献输出类型为 “Refworks” 格式。这里建议输出“Refworks” 和 “Endnote”两种格式。前者可以进行文献可视化 分析,而后者可以用于进行论文写作时使用或用 于其他文献计量软件的分析。 5 6 7 CNKI数据格式 提 示 CNKI数据没有参考文献,因此不能进 行文献的共被引分析。 3. CSSCI数据采集 1 4 3 2 CSSCI数据格式 小提 示 将下载的数据文件打开,再重新保存存为UTF-8格式, 然后直接在CSSCI转换器中input输入数据所在文件夹 所在路径,output输入一个空文件夹名(提前新建一 个空文件夹),转换后的数据将保存在这个空文件夹 内。 4. Web of Science数据的采集 中国科学院文献情报中心清华大学 首都经济贸易大学北京大学 Web of Science的检索帮助 在线帮助: 检索技巧-布尔运算符 AND AND 使用 AND 可查找包含被该运算符分开 的所有 检索词的记录。 OR OR 使用 OR 可查找包含被该运算符分开 的任何检索词的记录。 NOT NOT 使用 NOT 可将包含特定检索词的记录 从检索结果中排除。 来源出版物名称中的布尔运算符来源出版物名称中的布尔运算符 “自动建议的出版物名称”打开或关闭时,都可 以检索包含布尔运算符 OR 的期刊标题。 组织名称中的布尔运算符组织名称中的布尔运算符 检索包含布尔运算符(AND、NOT、NEAR 和 SAME)的组织名称时,应始终使用引号 ( ) 将 单词引起。例如: (Japan Science and Technology Agency (JST) (Near East Univ) (OR Hlth Sci Univ) 您还可以将整个检索式用引号引起。例如: Japan Science and Technology Agency (JST)“ Near East Univ“ OR Hlth Sci Univ *资料来源:Web of Science 核心合集 帮助 检索技巧-位置限定运算符 NEAR/xNEAR/x 使用 NEAR/x 可查找由该运算符连接的检索词 之间相隔指定数量的单词的记录。 该规则也 适用于单词处于不同字段的情况。 用数字取代 x 可指定将检索词分开的最大单 词数。 SAMESAME 在“地址”检索中,使用 SAME 将检索限制 为出现在“全记录”同一地址中的检索词。 您需要使用括号来分组地址检索词 如果只使用 NEAR 而不使用 /x,则系统将查找其中 的检索词由 NEAR 连接且彼此相隔不到 15 个单词的 记录。 例如,以下检索式效果相同: salmon NEAR virus salmon NEAR/15 virus AD=(McGill Univ SAME Quebec SAME Canada) 查找在“全记录”的“地址”字段中出现 McGill University 以及 Quebec 和 Canada 的记录。 AD=(Portland SAME Oregon) 查找在记录“地址”字段中存在 Portland、Oregon 或 OR (州缩写)的记录。 *资料来源:Web of Science 核心合集 帮助 检索技巧-检索运算符优先顺序 如果在检索式中使用不同的运算 符,则会根据下面的优先顺序处 理检索式: NEAR/x SAME NOT AND OR 使用括号可以改写运算符优先级。 使用括号可以忽略运算符优先级。 括号内的表达式优先执行。 copper OR lead AND algae 可查找同时存在 lead 和 algae 的所有记 录以及存在单词 copper 的所有记录。 (copper OR lead) AND algae 可查找同时存在单词 algae 与 copper 和 同时存在单词 algae 与 lead 的所有记录。 *资料来源:Web of Science 核心合集 帮助 influenza OR flu AND avian 将找到包含单词 influenza 的记录。它还将 找到同时包含 flu 和 avian 的记录。 (influenza OR flu) AND avian 将找到同时包含 influenza 和 avian 的记录, 或者同时包含 flu 和 avian 的记录。 Web of Science中的基本检索规则 大写字母大写字母 不区分大小写:可以 使用大写、小写或混 合大小写。例如, AIDS、Aids 以及 aids 可查找相同的结果 检索运算符检索运算符 在各个检索字段中,检 索运算符(AND、OR、 NOT、NEAR 和 SAME) 的使用会有所变化。 通配符通配符 在大多数检索式中都可 以使用通配符 (* $ ?); 但是,通配符的使用规 则会随着字段的不同而 不尽相同。 短语检索短语检索 若要精确查找短语,请用引号括 住短语。例如,检索式 energy conservation 将检索包含精确短 语 energy conservation 的记录。 这仅适用于“主题”和“标题” 检索。 括号 括号用于将合成布尔运算符进行分组。 例如:(Antibiotic OR Antiviral) AND (Alga* OR Seaweed) (Pagets OR Pagets) AND (cell* AND tumor*) 撇号 撇号被视为空格,是不可检索字符。请确保检索 不带撇号的不同拼写形式。例如,Pagets OR Pagets 可查找包含 Pagets 和 Pagets 的记录。 连字号 输入带连字号或不带连字号的检索词可以检索用连字号连接的单词和短语。 例如,speech-impairment 可查找包含 speech-impairment 和 speech impairment 的记 录。 *资料来源:Web of Science 核心合集 帮助 Web of Science中的基本检索 通配符 通配符表示未知字符。通配符 仅在英文查询中有效。 星号 (*) 表示任何字符组,包 括空字符。 问号 (?) 表示任意一个字符。 美元符号 ($) 表示零或一个字 符。 使用技巧 美元符号 ($) 对于查找同一单 词的英国拼写和美国拼写非常 有用。例如,flavo$r 可查找 flavor 和 flavour。 问号 (?) 对于检索最后一个字 符不确定的作者姓氏非常有用。 例如,Barthold? 可查找 Bartholdi 和 Bartholdy,但不会 查找 Barthod。 星号 (*) 示例 s*food 可查找: seafood soyfood enzym* 可查找: enzyme enzymes enzymatic enzymic Hof*man* 可查找: Hofman Hofmann Hoffman Hoffmann 问号问号 (?) 示例示例 wom?n 可查找: woman women 美元符号美元符号 ($) 示例示例 colo$r 可查找: color colour grain$ 可查找: grain grains 多通配符示例多通配符示例 organi?ation* 可查 找: organisation organisations organisational organization organizations organizational ? * $ ?* 星号星号多通配符多通配符美元符号美元符号问号问号 *资料来源:Web of Science 核心合集 帮助 检索技巧-检索式举例 (cadmium AND gill*) NOT Pisces 可查找包含 cadmium 和 gill(或 gills)的记录,但排除包含 单词 Pisces 的记录。 (salmon OR pike) NEAR/10 virus 可查找其中的 salmon 或 pike 与 virus 相隔不到 10 个单词的 记录。 *资料来源:Web of Science 核心合集 帮助 1 2 4 3先使用数据库自带的功能 进行数据的描述性分析 Web of Science数据的采集 5 6 Web of Science 核心合集的字段标识 这些两个字母的字段标识可标识您导出、保存或通过电子邮件发送的记录中的字段。它们适用于文献、书籍和会议录。 FN 文件名 IDKeywords PlusPD 出版日期 VR 版本号 AB 摘要 PY 出版年 PT 出版物类型(J=期刊;B=书籍;S=丛书;P=专利)C1 作者地址 VL 卷 AU 作者 RP 通讯作者地址 IS 期 AF 作者全名 EM电子邮件地址SI 特刊 BA 书籍作者 RIResearcherID 号PN 子辑 BF 书籍作者全名 OIORCID 标识符 (Open Researcher and Contributor ID)SU 增刊 CA 团体作者 FU 基金资助机构和授权号 MA 会议摘要 GP 书籍团体作者 FX 基金资助正文 BP 开始页 BE 编者 CR 引用的参考文献 EP 结束页 TI 文献标题NR 引用的参考文献数 AR 文献编号 SO 出版物名称TC Web of Science 核心合集的被引频次计数DI数字对象标识符 (DOI) SE 丛书标题U1 使用次数(最近 180 天)D2书籍的数字对象标识符(DOI) BS 丛书副标题U2 使用次数(2013 年至今)PG 页数 LA 语种PU 出版商 P2章节数 (Book Citation Index) DT 文献类型 PI 出版商所在城市 WC Web of Science 类别 CT 会议标题 PA 出版商地址 SC 研究方向 CY 会议日期 SN 国际标准期刊号 (ISSN)GA 文献传递号 CL 会议地点 EI电子国际标准期刊号(eISSN)UT 入藏号 SP 会议赞助方 BN 国际标准书号 (ISBN)PM PubMed ID HO 会议主办方 J9长度为 29 个字符的来源文献名称缩写ER 记录结束 DE 作者关键词 JIISO 来源文献名称缩写EF 文件结束 5. Derwent Innovations Index数据采集 1 2 3 可以通过登录Web of science后,选择专利数据库Derwent Innovations Index 4 5 6 7 此处仅仅下载前500条记录作为案例数据。 6. 数据内容查看,查看清晰的数据结构 / 6. 关于其他数据库的分析 如本讲最开始提到的,CiteSpace还可以对Scopus、ADS、 arXiv以及NSF数据进行分析。由于这些数据库在CiteSpace 中的实践中并不常见,这里就不详细介绍。 6. 数据采集要注意的问题 1.数据格式。CiteSpace对分析的数据文本命名有特殊要求,文件名需要类似 于“download_XXX”(注意Download有时不能识别,首字母需要小写)。 2.认识所分析的数据集。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年南医科大学第二附属医院招聘考试试卷真题
- 2025年福建福州地铁集团有限公司招聘考试试卷真题
- 海安市实验中学外迁工程施工图设计招标文件
- 2026年小学六年级英语第二学期期末考试卷及答案(八)
- 中间代码生成2
- 梅毒苄星青霉素规范治疗
- 财务报表分析与估值 课件 13估值
- 微创术中磁共振引导手术
- 译林版英语六年级下册Unit8检测卷
- (2026年)护理分级试卷及答案
- 《牙体牙髓病学》课件-根管治疗并发症及处理
- 中介效应检验方法课件
- 1.1时代为我搭舞台(课件)-【中职专用】中职思想政治《心理健康与职业生涯》(高教版2023·基础模块)
- 2024年重庆渝富资本股权投资基金管理有限公司招聘笔试参考题库附带答案详解
- 部编版语文三年级下册写字指导课教案
- GB/T 43449-2023法庭科学毒物分析实验室质量控制规范
- 印刷服务投标方案(技术方案)
- 【地理】2023年高考真题江苏卷(解析版)
- 《上令封德彝举贤》中考文言文阅读试题2篇(含答案与翻译)
- GB/T 12459-2005钢制对焊无缝管件
- 偏光片气泡不良改善课件
评论
0/150
提交评论