




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知网和万方收录学位论文全文数量的对比分析 丁玉东张春峰 燕山大学图书馆 秦皇岛0 6 6 0 0 4 利用X M L H t t p R e q u e s t 对象结合正则表达式收集中国知网和北京万方两家数据库商的全部博 硕士论文全 文的部分字段信息 使用A c c e s s 软件结合S Q L 语句 对数据库收录的 2 1 1 工程 单位 非高校单位和全部单位的 数量随年度变化的情况 对博 硕士论文全文数量及重复数量 对收录同一单位论文数量的差距 学位授予单位的收 录稳定性等进行了比较 认为知网在收录学位论文全文数量上暂据优势 但万方也有自己的特色 为学术机构采 购学位论文数据库提供参考数据 知网 万方 学位论文 全文数量 G 2 5 0 7 4A 1 0 0 2 1 9 6 5 2 0 1 1 0 9 0 0 5 6 0 5 S t u d y o n t h e N u m b e r o f F u l l t e x t D i s s e r t a t i o n I n d e x e d b y C N K I a n d W a n f a n g D a t a D I N G Y u d o n g Z H A N G C h u n f e n g 2 0 1 1 0 3 3 1 2 0 1 1 0 4 2 8 作者简介 丁玉东 1 9 8 2 男 本科 馆员 参考咨询部主任 研究方向 参考咨询与信息资源建设 张春峰 1 9 8 1 女 硕士研究生 馆员 研 究方向 信息检索与信息服务 万方数据 第9 期 丁玉东 等 知网和万方收录学位论文全文数量的对比分析 5 7 后论文31 7 8 条 博士论文1 0 65 3 0 条 硕士论文 9 4 32 6 9 条 登录知网服务平台h t t p d l i b e d u 1 2 0 c n k i n e t 分别进入 中国优秀硕士学位冀1 0 0 论文全文数据库新版 和 中国博士学位鬟e 论文全文数据库新版 可以不输入检索 妇8 0 词默认检索所有记录 得到博士论文1 4 5 1 5 3 条 硕士论文11 1 95 9 2 条 使用正 则表达式提取其中的中文题名 作者姓 名 学位授予单位 学位授予年度等4 个 字段信息 1 3 检索结果的整理利用桌面数据 库软件A c c e s s 对得到的数据进行整理 按年度 学位授予单位分组合并后 手动 去除因著录不规范或必要字段缺失 学 位授予单位为非大陆单位等因素所导致 的无法使用的记录 如作者姓名为周金 2 1 1 收录 2 1 1 工程 院校数量 对该类型院 校的年度收录数量变化情况如图1 2 所示 9 6 9 89 7k 1 0 3 0 0 8 l 7 8 7 R 髻7 4 一 曼z 筲 亭5 8 3 哆 琴吒6 矿 妒蠢 竽 7 5 刍 之 一 3 2 曼茹i 鞋 一r j i 一 一 一i 1 0 3 1 0 3 1 0 3 o o 8 1 8 j j 7 一 急l t s8 5 掰 孑 5 t z 两 6 4 0 鼍 i n 4 0 一 I 麓量 錾 万方数据 5 8 情报杂志 第3 0 卷 表1数据库收录 2 I l 工程 院校学位论文全文数量 单位 篇 博士论文硕士论文博士后论文 年度 知网 万方 重复 知网万方重复万方 篇数篇数篇数篇数篇数篇数篇数 大学的博士论文为1 0 3 篇 而万方则 收录有2 7 1 篇 另一个原因是对同一 篇论文 学位授予年度 字段的著录 内容不同 仍以大连理工大学论文 基于企业价值的财务战略管理研 究 为例 其在知网中的学位授予年度 为2 0 0 5 年 在知网中的全文的封面显 示 论文完成时间 为 2 0 0 4 年1 2 月 在万方中学位年度著录为2 0 0 4 年 全文的封面有一行内容为 2 0 0 4 1 2 0 1 在大连理工大学图书馆 本校研究生学位论文 数据库 中 的答辩日期为 2 0 0 5 0 4 1 9 这种著录不一致的情况普遍存 在 以博士论文为例 知网收录 2 1 1 工程 院校 学位授予年度为2 0 0 5 年 的1 12 3 0 篇博士论文中 与万方博士 论文重复的有72 3 8 条 而在这些重 复的论文中 万方数据库中著录为 因3 9 所 9 8 5 工程 院校均包括在 2 1 1 工程 院 校中 因此数据库的学位论文库在收录的学校和论文 数量上所呈现的规律与收录 2 1 l 工程 院校的情况类 似 本文限于篇幅不再展开论述 2 2 数据库收录非高校单位情况非高校单位是 指中国科学院 中共中央党校 煤炭科学研究总院等具 有研究生学位授予权的企事业单位 这些单位虽然不 参与高考招生 但具有较好的科研环境 每年可培养一 定数量的博 硕士研究生 因研究领域各具特色 研究 成果同样具有很高的学术价值 知网和万方均有一定 数量的收录 文中统计了2 0 0 0 年以来的非高校单位 被收录的数量 如图3 4 所示 2 2 1 收录非高校单位数量 3 0 3 02 8 2 4 踅 芝2 曩2 4 2 5 一一 1 一 o 1 9 1 9 一 1 5 1 0 一j I j 气4 1 i 垂j 1 0 2 t 一一一 8 三i 二 i 皇 2 一三 一乏一 t l 7 1 7 一一 1 勺 芝4 2 0 0 0 2 0 0 12 0 0 22 0 0 3 2 0 0 42 0 0 52 0 0 6 2 0 0 T2 0 0 8 加0 92 0 1 0 年度 图3 博 E 博士后论文中涉及的非高校单位数量随年度变化情况 刖 么 一 彳一 l 一弋 一硝 勺 鼍 押 I 一 彳一 2 8 一 么 磊一弋 2 6 一 屹 i 4 7 1 1 6 p 1 多v j 3 不 宝一百 一j i g 2 0 0 2 年的有3 条 著录为2 0 0 3 年的有1 7 条 著录为 2 0 0 4 年的有4 5 9 条 另有5 条著录为2 0 0 6 年或2 0 0 7 年 严格限定知网和万方中的 学位年度 均为2 0 0 5 年 得到的重复论文仅为67 5 4 篇 因此 为了减少这 种错误带来的影响 表1 中统计重复数量时 除限定论 文题名相同 作者姓名相同作为判断是否重复的必要 条件外 只参照了知网中著录的年份进行宽松比较 也 因而出现了如表1 中2 0 0 0 年万方收录硕士论文全文 只有1 2 篇 但与知网重复收录数量达2 0 篇的现象 另外因著录方式不同 重复的数字会比实际重复数量 稍小 如对水的化学式 H O 的著录 知网中著录为 H 2 0 万方中著录为 H O 这种情况在A c C C S S 中用S Q L 语句做限定比较时系统会认为是不同 的字符串 因而就判定为不是重复论文 图4 硕士论文中涉及的非高校单位数量随年度变化情况 2 2 2 收录非高校单位论文数量 见表2 表2 数据库收录非高校单位学位论文全文数量 单位 篇 博士论文硕士论文 博士后论文 年度知网 万方 重复知网万方 重复万方 簋墼煎墼曼熟簦墼蔓墼 簋墼 簋筮 舢 4 3 000 4 2 4 300 2 l5 8 0447 8 6727 2 2 0 0 27 5 65 03 38 0 3醅5 l1 9 5 2 0 0 39 6 4 2 1 2 1 0 71 1 3 93 2 5 1 5 7 1 l 2 0 0 49 7 64 3 73 1 l 1 2 4 77 9 3 4 9 83 5 2 0 0 51 3 7 57 1 95 6 5 1 7 l O 1 3 0 口9 1 96 9 2 0 0 61 5 8 41 0 6 48 5 42 2 9 21 6 7 31 2 0 27 6 2 0 D 71 3 8 35 7 24 3 52 6 0 31 8 2 01 1 6 93 8 2 0 0 81 1 6 83 7 63 2 42 5 4 51 1 5 27 7 43 8 2 0 0 99 9 72 1 21 7 2 2 2 2 9 7 9 33 4 7 1 0 2 0 1 09 7 28 8 醯l 硝9 5 1 72 0 5 l 总计 l1 1 8 5 3 7 3 12 8 7 31 7 4 6 78 4 5 35 3 2 4 5 4 5 从表2 可以看出 两家数据库商收录论文全文的 巧加坫加0 0 嘲髹趔斗蟋恒等 加 5 i o 棰籁趔辟铎恒特 万方数据 第9 期 丁玉东 等 知网和万方收录学位论文全文数量的对比分析 5 9 数量差距比较大 从1 1 个年度的总和来看 知网收录 的博士全文数量几乎为万方收录博士全文数量的3 倍 硕士数量也超过了2 倍 以具体单位为例 2 0 0 0 2 0 1 0 年间 知网收录中国科学院系统的博 硕士论文 数量分别为45 0 0 41 3 9 篇 同期万方只分别收录有 l3 7 9 和16 9 0 篇 2 3 数据库收录所有单位情况 2 3 1 收录所有单位数星 数据库收录所有单 位情况如图4 5 所示 2 5 0 2 0 0 一i 5 0 蒸 趟 m 1 0 0 5 0 0 棚 妊 魁 珊 他俩矿她弋 M 石s L 玲i 磊嚣 幻 1 4 2 1 掘 j j i 4 1 j 1 2 6 一 蛰瞌o 刍一 z 1 8 的 j 王 一7 一 一 一 i 一 一 一j t 一 示 两家数据库商对同一单位论文全文收录的数量相 差多数在3 0 篇以内 但也有一些单位收录数量相差 1 0 1 3 篇以上 具体情况如表4 所示 每组数据中 逗号 前为博士学位授予单位数量 逗号后为硕士学位授予 单位数量 与收录的博士论文单位不同 万方对共同收录的 硕士论文单位的全文收录数量自2 1 1 1 1 4 年起就高于知 网 以中山大学为例 2 0 0 8 年万方收录其硕士论文 21 0 2 篇 而知网仅收录了5 2 篇 另外 共同收录的硕 2 0 0 I 加 2 0 0 I2 0 2 0 惦2 0 凹2 0 2 0 2 0 1 0 年度 图5 博士 博士后论文中涉及的所有单位数量随年度变化情况 4 挑3 9 9 3 6 y一 3 一 弘 m3 2 5 2 5 0 二二 7 2 1 矗 一 2 2 0 1 8 2 2 1 5 J j 1 二q 1 n 1 1 71 5 4 一 2 1 1 o 1 7 0 1 E1 t 9 一 摹t 8 0 二南一 图6 硬士论文中涉及的所有单位数量随年度变化情况 2 3 2 收录所有单位论文数量 见表3 表3 数据库收录所有单位学位论文全文数量 单位 篇 博士论文硬士论文博士后论文 年度知网万方重复知网万方重复万方 叠熬箍夔 簋熬 煎墼簋熬筮夔 簋塑 2 0 1 7 9 l2 575 9 1 78 32 20 2 l3 1 8 4 7 6 92 0 11 6 5 0 42 2 7 74 2 77 8 2 0 0 25 3 9 52 6 2 l1 1 6 73 3 2 9 81 2 4 0 26 5 3 2 2 0 0 2 0 0 3 8 0 2 36 5 0 7 3 2 1 34 9 1 7 7 3 3 7 0 6 1 5 0 8 33 3 1 1 2 0 0 41 1 3 0 99 9 0 l5 9 3 07 7 4 6 96 6 1 7 43 7 8 6 65 2 8 2 0 0 51 5 3 7 1 4 6 2 2 9 3 9 71 0 8 1 9 11 1 1 5 7 2 26 3 4 3 16 5 8 2 0 61 9 9 6 3l 蹦1 3 1 1 7 91 5 0 6 1 71 5 2 7 4 01 0 1 3 8 75 7 9 2 0 0 7 2 1 9 1 2 1 8 3 6 61 3 5 8 91 9 2 5 8 61 7 7 7 3 3 1 2 6 8 3 I3 3 1 2 B2 1 4 0 31 5 9 2 61 1 7 9 31 凹1 1 8l 印2 3 71 1 3 2 1 l2 7 7 2 0 2 0 2 9 41 3 4 6 9 9 8 2 51 7 9 6 9 6 1 4 4 5 9 39 9 2 0 61 1 7 2 0 1 01 3 7 0 76 2 3 94 3 8 51 1 6 7 1 08 7 4 9 85 1 1 9 1 57 9 总计 1 4 2 3 5 8 1 0 6 5 l l7 2 5 跖1 l1 9 2 8 39 4 3 1 6 56 1 4 9 l l3 1 7 7 2 4 按收录同一单位论文数量的差距分组后的单 位数量在知网和万方每年同时收录的单位中 并非 每个单位收录的论文全文数量都是相同的 按照对同 一个单位收录全文数量的差值进行分组对照 结果显 士论文单位中 差值在1 0 0 篇以上的 单位数量所占比例与同类型博士论文 单位相比明显升高 但因知网和万方存在对同一篇论 文的学位年度著录不同的情况 因此 表4 中数据仅供参考 2 5 2 0 0 1 2 0 1 0 年数据库对学位 授予单位的收录稳定性系统 连续 的对某单位的学位论文进行收录 反 映出数据库商数据来源的稳定性 笔 者分别选取知网 万方数据库中2 0 0 1 2 0 1 0 年l O 年间的 学位授予单位 数 据 以 年 为刻度分析在该时间范围 内数据库商收录某单位的次数 并划 分为3 个层次 超过9 年的属于第一 组 收录6 8 年的为第二组 1 0 年间 对某单位收录不足5 年的为第三组 每组的单位数量以及每组中包含的 2 1 l 工程 院校数量和其他单位数量如表5 所示 表4 按收录论文数量的差值分组后的单位数量比较 博士单位 硕士单位 单位 所 万方比知网收录全文多 知同比万方收录全文多 年度的单位数量的单位数量 1 0 0 篇以上3 1 1 9 9 篇3 0 篇以下1 1 1 0 篇以上3 0 一9 9 篇3 0 篇以下 2 O 0 00 02 0l l2 24 4 2 0 叭 1 2 4 ll 3 2 73 2 2 2 2 0 0 2 4 53 58 93 2 05 l l2 2 6 2 0 0 3 7 1 3 7 81 7 1 95 4 0 l l 82 2 1 4 2 0 D 4 l O 2 57 1 82 7 3 05 3 97 73 3 2 4 2 0 0 5 1 0 3 97 2 54 0 5 4 l1 1 1 25 1 3 8 2 6 6 5 1 1 0 4 24 7 4 96 2 99 1 05 2 5 9 2 1 1 0 7 7 5 3 7 3 5 4 6 5 98 4 1 8 2 36 3 5 7 2 嗍 6 5 25 2 93 4 2 1 1l 3 19 5 5 3 5 2 0 0 9 4 5 3 7 1 94 0 3 37 2 25 53 l 3 0 2 0 1 0 l 2 05 1 31 5 1 33 2 26 71 8 7 从表5 可以看出 1 0 年间知网博士 硕士 万方博 士 硕士共收录的单位分别为3 1 6 5 4 5 2 3 4 4 4 1 家 总 体来看知网对 学位授予单位 收录的稳定性优于万 方 仰伽蜘看 挪瑚瑚瑚5 o 万方数据 1 中华人民共和国中央人民政府 9 8 5 工程 高校名单 E B O L 2 0 1 0 0 1 2 5 h t t p w w w g o v c n f w x x 2 0 0 8 g a o k a o c o n t e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内网安全培训思路课件
- 内经选读病之形能课件
- 内科中西医结合课件
- 单例模式与自适应算法的结合研究-洞察及研究
- 统编版一年级上册语文园地五 公开课一等奖创新教学设计
- 2025年秋部编版语文四上口语交际 讲历史人物故事(公开课一等奖创新教案+)
- 七下第四单元作业设计(表格式)
- 创业青年培训安全协议课件
- 文库发布:化合价课件
- 创业基础理论课件
- 《无人机飞行控制技术》全套教学课件
- 环境反应工程导论课件
- 超声诊断在肱骨外上髁炎(网球肘)中的应用
- 舆论导向培训课件
- 腮腺脓肿护理查房
- 保管员技师考试题及答案
- 消防自动灭火系统课件
- (2025.06.12)领导干部任前应知应会党内法规和法律知识考试题库(2025年度)
- 关于数据安全管理制度
- 2025年安徽省农业职业技能大赛(水生物病害防治员)备赛试题库(含答案)
- 华中师范大学第─附属中学2025届高三下五月高考模拟英语试卷
评论
0/150
提交评论