




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文学术不端行为检测系统学位论文学术不端行为检测系统 研制介绍与使用方法研制介绍与使用方法 第一章 系统简介 1.1 系统概述系统概述 学位论文学术不端行为检测系统(简称“TMLC”)以中国学术文献网络出版总库为全文比对数据 库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测学位论文,并支持用户 自建比对库。其系统示意图如图 1 所示。 图 1 检测系统示意图 1.2 系统技术路线介绍系统技术路线介绍 TMLC 采用 CNKI 自主研发的自适应多阶指纹()特征检测技术,具有检测速度快,准确 率,召回率较高,抗干扰性强等特征。 支持篇章、段落、句子各层级检测; 支持文献改写,多篇文献组合等各种文献变形检测; 支持研究生学位论文、图书专著等超长文献的学术不端检测。 CNKI 自适应多阶指纹技术原理如图 2 所示: 图 2 CNKI 自适应多阶指纹技术原理图 对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指 纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。这样的分层多阶指纹结构,不仅可以满 足我们对超长文献的快速检测,而且,因为我们的最小指纹粒度为句子,因此,也满足了系统对检准率和 检全率的高要求。原则上,只要检测文献与比对文献存在一个相同的句子,就能被检测系统发现。 1.3 系统功能概述系统功能概述 系统主要功能包括:已发表文献检测、论文检测、问题库查询、自建比对库管理等。 已发表文献检测:指检测系统能够自动将属于用户的已正式发表的学位论文检索出来,并对每一篇 已发表文献进行实时检测,快速给出检测结果。 论文检测:主要实现论文实时在线检测功能。 问题库查询:指用户可以将检测结果中确认有问题的文献放入到问题库,便于用户集中管理。 自建比对库:指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库, 该个人比对库即可作为以后学术不端文献检测的比对数据库,该自建个人比对库完全属于用户,其他用户 无权使用。 1.4 系统目的系统目的 TMLC 的目的是辅助各研究生培养单位对学位论文质量进行评估,为审查论 文提供技术服务。检测系统在对论文进行检测之后,生成检测报告,为判断论 文性质提供相关依据。 第二章 检测原理及方法 2.1 支撑技术支撑技术 CNKI 拥有强大的技术研发队伍,目前已经拥有了具有国际或国内领先水准的全面的数字出版的相关 技术,包括资源采集技术,文本数据库加工技术,文本数据库技术, 数字资源版权保护技术, 知识挖掘技 术, 自然语言处理技术、快速比对技术等。在海量的全文数据的基础上实现快速准确的检测,上述技术是 基本的保证。 2.2 支撑资源支撑资源 TMLC 需要一个尽可能完备的全文数据比对资源库,而 CNKI 的中国学术文献网络出版总库则正好 满足这一要求。到目前为止,CNKI 拥有学术期刊 7000 余种,期刊全文文献 2480 万篇,期刊期数和文献 收录完整率都大于 99.9%,文献量居国际国内同类产品之首;出版 503 家硕士学位点的 72 万篇优秀硕士 学位论文,368 家博士学位点的 9.6 万篇博士学位论文;1286 家重要会议论文 106 万篇;515 家重要报纸 500 多万篇;1376 种重要年鉴 787 万篇;600 多种工具书 220 多万条;学术引文索引数据 600 多万条;这 些出版物做到平均日更新 20000 条记录;国家标准、专利、SPRINGER 数据库也集成到 CNKI 网络出版平台 中;另外,出版平台还集成整合出版了各类第三方数据库资源 1020 种。 在收录资源种类上,CNKI 在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、 工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI 明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI 产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标 准化运作的结果。 2.3 系统架构模式系统架构模式 2.3.1 系统架构图系统架构图 图 3 系统架构图 2.3.2 系统示意图系统示意图 检测系统提供整套的文献学术不端行为检测,系统服务器位于 CNKI 中心网站,用户将待检测的学 位论文通过网络在线提交到中心网站服务器,服务器在检测完成后,自动将检测结果返回给用户。整套系 统架构为 B/S 结构,客户端不需要安装任何软件。其系统示意如图 4 所示: 图 4 系统示意图 2.3.3 系统流程图系统流程图 图 5 系统核心流程图 2.4 用户提供的资源用户提供的资源 实现学位论文的学术不端检测,用户需要提供的资源包括: 1论文全文内容 论文全文内容是检测论文是否存在学术不端行为的基础数据。本检测系统是对提交的论文全文内容 进行分析,在内容分析的基础上,生成各项检测指标。因此,全文数据是系统所需要的必要资源。 2元数据信息 元数据指论文相应的作者、作者单位、发表时间、支持基金项目等信息。元数据是检测系统对学术 不端类型进行判断所需的基础数据,为了更准确的便于系统做出预判,用户可以在提交检测文献的同时, 一并提交文献的元数据信息。 特别提到的是:在进行学位论文检测的时候,作者信息是非常必要的。输入作者信息,在后续的检 测过程中,系统能够自动根据作者信息区分比对资源中的文献是属于该作者已发表的文献,还是他人的文 献,为用户快速甄别论文是否存在学术不端行为提供更直观的印象。因为在学位论文中,引用自己以前发 表过的文献是合理的。 注意:元数据不是系统必需的数据,用户在使用检测系统的时候,可以选择不填写元数据。但我们建议最 好输入作者信息。 2.5 检测结果内容检测结果内容 在对用户提交的检测文献检测之后,系统生成的检测结果包括: 1 重合文字来源文献信息。 系统详细列出重合文字来源文献信息,这些文献都是真实存在,而且应是公开发表或得到发表 确认的。 2 比对信息。 检测文献和来源文献的详细比对信息,用户可以快速选择重合文字部分查阅。 3 总检测指标。 该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描述。 4 子检测指标。 因为学位论文一般较长,因此,系统一般按章检索,并且每一章给出子检测指标,该检测指标 从多个角度对该章内容的检测情况进行了详细描述。 5 诊断类型。 系统根据指标参数以及其他元数据相关信息,自动给出一个预判的诊断类型,供审查人员参考。 6 检测报告。 检测系统自动生成一个检测报告单,详细列出检测文献的学术不端行为检测情况,用户可以对 该报告单进行修改,生成终审报告。 注意:系统只对疑似存在学术不端行为的论文生成检测报告。 第三章 检测指标体系 学位论文学术不端行为检测系统采用的指标体系分为两个部分: 3.1 总检测指标总检测指标 学位论文一般文献篇幅较大,字数多,硕士论文一般为 35 万字,博士论文则多达十多万字。因此, 为了让用户对整个学位论文有一个快速的概况了解,特制定了以下指标体系: 总重合字数(CCA) 总文字复制比(TTR) 总文字数(TCA) 疑似章节数(QCA) 总章节数(TCA) 首部重合文字数(HCCA) 尾部重合文字数(ECCA) 上述指标从整体情况描述了论文的检测情况,便于用户快速了解该论文总的检测概况。下面对上述指 标分别进行说明。 3.1.1 总重合字数(总重合字数(CCA) 学位论文一般篇幅大,少则 35 万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合 情况,则不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到 1 万字,文字复制情况已经非 常严重。因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。如 图 6 所示: 图 6 总重合字数示例 3.1.2 总文字复制比(总文字复制比(TTR) 总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比 例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比 例情况。 3.1.3 总文字数(总文字数(TCA) 总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积 即为重合字数。 3.1.4 疑似章节数(疑似章节数(QCA)、总章节数()、总章节数(TCA) 疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。总章节数 则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论 文,每一段落为一章节)。 3.1.5 首部重合文字数(首部重合文字数(HCCA)、尾部重合文字数()、尾部重合文字数(ECCA) 首部重合文字数指学位论文前 1 万字中重合的文字数量。尾部重合文字数是指除去前 1 万字,剩下 的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾 部。 3.2 子检测指标子检测指标 对于学位论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来 说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户 迅速了解每一章节的检测情况。子检测指标包括: 文字复制比(TR) 重合字数(CNW) 最大段长(LPL) 平均段长(APL) 段落数(PN) 段文字比(PR) 首部复制比(HR) 尾部复制比(ER) 引用复制比(RR)* 上述指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。 下面对各项指标分别进行说明。 3.2.1 文字复制比(文字复制比(TR) 因为学位论文一般文字量较多,为了便于用户快速浏览检测结果。系统会自动对学位论文进行切分 处理。有如下两种处理方式: 1若用户提交的论文是 MS Word 格式,且按照 MS Word 格式生成了文档目录,检测系统会自动识别 论文章节,按论文实际章节信息显示论文内容。 2若学位论文不存在明显的章节信息,或者不是 MS Word 格式论文,则系统会自动按照每段 1 万余 字符切分学位论文,按照切分后的结果显示。 文字复制比即指论文切分后每一章节段落的文字复制情况。文字复制比即指学位论文的某一章节与比 对文献比较后,重合文字部分在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发 表文献。文字复制比反映了文章“抄袭”的文字数量比例,一般来说,文字复制比越高,存在学术不端行 为的可能性越大。文字复制比情况如图 7 所示。 图 7 文字复制比示例 3.2.2 重合字数(重合字数(CNW) 重合字数指学位论文该章节与比对文献比较后,重合部分的字数。一般来说,不管文字复制比如何, 重合字数越多,存在学术不端行为的可能性越大。如图 8 所示,在图中,虽然文字复制比只有 16%,比例 不高,但图中左文标红部分实际上是抄袭了右文的标红部分。 图 8 重合字数示例 3.2.3 最大段长(最大段长(LPL)、平均段长()、平均段长(APL)、段落数()、段落数(PN) 在学位论文检测中,当连续文字超过一定比例时,称之为段。在本系统中,一般认为,连续 200 以上 文字称为段。 与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长,抄袭的 可能性越大。 在学位论文中,所有段的长度的平均值即为平均段长。 在学位论文中,所有段的数量为段落数。 平均段长和段落数反映了重合文字在学位论文中的分布情况,一般来说,指标参数越高,存在学术不 端行为的可能性越大。如图 9 所示,标红部分的连续文字构成了段,而且它是算法设计的抄袭,审查人员 比较容易判断;而在图 10 中,标红文字不构成段,连续文字较少,对它的性质判断则可能需要更多的信 息。 图 9 段落复制示例 图 10 句子复制示例 3.2.4 段文字比(段文字比(PR) 在学位论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段 文字比反映了抄袭连续特征。一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不 端行为。 3.2.5 首部复制比(首部复制比(HR) 学位论文某一章节的前 20称之为章节首部,首部的文字复制比为首部复制比。就中文文献来说, 一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低。如图 11 所示,左文和右文开头大段 相同,但文字内容基本都是综述性的介绍。 图 11 首部复制比示例 3.2.6 尾部复制比(尾部复制比(ER) 每一章节的后 80称之为章节尾部,尾部的文字复制比为尾部复制比。 通常情况下,尾部文字内容就重要性来说,比前部文字内容要高。如图 12 所示,我们仔细查阅比较 图 11 和图 12 的内容发现,图 11 中首部文献是综述他人工作,而图 12 中尾部文献则是阐述自己的研究工 作的目的和意义,应该是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多。 图 12 尾部复制比示例 3.2.7 引用复制比(引用复制比(RR) 引用复制比指与存在引证关系的文献的文字重合部分的比例。对于学位论文来说,存在引证关系与不 存在引证关系的复制部分应区别对待。复制了他文内容,而不注明引用,性质要更加严重。同时我们也认 为,不是所有的注明了引用的,就不存在抄袭,引用也应有一个度和范围的限制。 第四章 类型及实例介绍 按照上面的检测方法和指标体系,TMLC 能够处理多种的学术不端类型。在学位论文检测中,一般不 存在不当署名、一稿多投等学术不端行为。对于学位论文检测中的各类学术不端行为,按照性质的严重性 由低到高排序,主要包括:抄袭、篡改、伪造等。下面分别进行介绍。 4.1 抄袭抄袭 针对各种类型,下面分别举例说明: 图 16 段落抄袭示例 4.2 篡改篡改 篡改是指按照期望值随意篡改或取舍数据,以符合自己的研究结论,一般有主观取舍数据和篡改原始 数据等形式。 对于篡改,系统也具有一定的手段进行检测,首先来看一个例子,在一篇文献中提到:分词的准确率 为 99.66%,词性标注的准确率为 99.07%,利用 CNKI 已有的相关技术,系统可以快速检测与分词准确率和 词性标注准确率有关的数值信息,供审查人员参考,对文献中数据值远高于当前公布的数据值的情况,提 醒审查人员仔细核查,如图 19 所示。 图 19 篡改检测示例 在图中,上面黄色标示的是检测文献中描述的分词准确率和词性标注准确率,下面部分则是在 CNKI 特色搜索功能数值搜索中检索到的当前关于分词准确率和词性标注准确率的描述。我们可以观察到, 当前检测到的所有关于分词准确率和词性标注准确率的描述文字中,其数值均低于检测文献中所描述的数 值,因此,我们有理由对检测文献中的分词准确率产生怀疑,提示审查人员进一步核查。 4.3 伪造伪造 伪造的特点:新研究成果中提供的材料、方法、数据、推理等方面不符合实际,无法通过重复试验再 次取得,有些甚至连原始数据都被删除或丢弃,无法查证。 伪造包括的方面很多,可以伪造数据、伪造基金、伪造项目、伪造数值、表格、图形等。 伪造基金/伪造项目:有些论文中虚设基金、项目支持,这种情况可通过查询政府相关基金项目库可 以快速验证; 伪造数值、图表等知识元,则可以通过 CNKI 已有的成熟的数值搜索技术、图表搜索技术进行查证, 起到警示作用。 注意:伪造是检测难度最高的不端行为,还需要做进一步、更深的研究。 4.4 其他类型其他类型 学术不端类型肯定不止上面列出的几种,其他目前能够有所处理的类型还包 括: 1引用杜撰 别人根本没有说过的话,自己编造,却作为他人的话引用。尤其是杜撰引用 国外学者。 2引文杜撰 根本就不存在的文献,杜撰一篇引文。 第五章 系统功能及实例分析 TMLC 主要功能包括:已发表文献检测、论文检测、问题库查询、自建比对 库管理等,下面分别结合例子进行介绍。 5.1 已发表文献检测已发表文献检测 各注册用户可在权限范围内查看本单位已被 CNKI 正式收录论文的检测结果。 对于确定有问题的文献,还可以将其直接放入问题记录库。其流程图如图 20 所 示: 图 20 已发表文献检测流程图 用户可以选择具体某一年的论文进行查阅检测,也可以通过页面提供的检索 功能,检索某一个作者的论文或者按照论文篇名检索具体的某一篇文献,如图 21 所示。 图 21 已发表文献检测列表 注意:因为相关原因,所有示例中涉及具体单位和个人的信息基本都隐去。 选择某一篇论文,点击论文标题,进入下一个页面,对于学位论文来讲,一 般会被切分成几个到十几个段落,用户可以依次点击查阅,如图 22 所示。 图 22 已发表文献切分段落 点击每一段落查看详细的检测结果,包括:检测指标,重合文字来源文献的信息以及与其文字复制比, 在页面下部还标红了所有重合的文字。让用户快速了解到选择文献大约有多少文字与其他文献重合以及重 合文字所处的位置等,如图 23 所示。 图 23 检测结果页面(1) 再选择点击某篇重合文字来源文献篇名,进入下一页面,该页面显示了检测文献与重合文字来源文献 具体的比对信息,两篇文献所有重合文字部分均有蓝色字体标示,用户可以选择左文的任意蓝色文字点击, 其字体颜色变为红色,同时,右文中与之相同的文字段将自动 标红,并自动定位到页面的上部,便于用 户查阅,如图 24 所示。 图 24 已发表文献检测页面(2) 点击图 24 页面中的“查看原版比对”按钮,还可以查看论文的原版比对,原版是指文献发表时的排 版样式,这使得用户可以快速的确定网页所指文献是否与原版文献文字一致,如图 25 所示。 图 25 原版比对页面 5.2 论文检测论文检测 该项功能提供对论文的实时在线检测。将待检测文献通过互联网提交到检测系统服务器,系统根据 论文长度大小将在数秒内返回检测结果给用户。包括以下特点: 1)多手段论文提交方式。在线提交论文的方式包括三种:一是单篇论文在线提交,可以选择需要检 测的某一论文直接上传提交;二是批量论文在线提交,可以将需要检测的多篇论文压缩为一个 zip 格式或 rar 格式的压缩文件,然后提交压缩文件至检测服务器,系统将自动处理压缩文件,完成压缩文件内所有 论文的检测;三是手工录入方式,可以在线录入一段文字进行检测,如图 26 所示。 2)多格式论文处理能力。系统能够自动处理 MS Word、PDF、CAJ、HTML、TXT 等多种格式文档,如图 26 所示。 图 26 提交文献页面 3)文件夹式管理方式。为便于用户管理,系统采取了用户完全自主的文件夹式管理方法。用户可以 创建文件夹,设定文件夹的各项系数,包括:比对专业范围选择、检测时间选择、比对数据库类型选择等。 在创建文件夹之后,当用户将文献提交到选择的文件夹之后,系统将自动根据该文件夹设定的各项系数进 行检测,而用户无需每次都进行系数设置操作。而且用户可以随时对文件夹系数进行修改,重新设定文件 夹系数,如图 27 所示。 图 27 文件夹式管理页面 4)便捷的文件夹系数设置。用户可以设置比对专业,例如只选择医学领域文献作为比对数据库;可 以设置检测时间,例如只选择 2000 年到 2007 年的文献作为比对数据库;可以设置比对库类型,CNKI 收 录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、 学习相关的主要资源,这些资源构成了检测系统丰富的比对库类型,用户可以选择一种或多种比对库进行 检测,在检测系统中,用户在提交论文页面下,选择创建文件夹链接,将出现如图 28 所示页面,供用户 设置文件夹各项系数。 图 28 文件夹系数设置 5)用户完全自主的控制模式。对于用户提交的所有文献,用户拥有完全的处置能力,可以随时进行 删除。不仅可以删除某一篇文献,还可以删除整个文件夹,如图 27 所示。 注意:对于学位论文,因篇幅较大,系统只允许用户重新检测每一章节,不能对整个论文进行重新检测。 6)快速的检测结果浏览方式。当系统检测完成后,用户可以快速的比对检测文献与抄袭来源文献, 系统自动将两篇文献文字重合的部分标示出来,便于用户进行快速查阅检查。同样,系统实现了在文献原 始格式(即发表时格式)上的标示比对,更便于用户准确把握检测结果,如图 29,30,31 所示。 图 29 论文章节列表 图 30 检测结果详细信息页面 图 31 检测结果比对页面 7)用户可以选择将上传论文放入个人比对库,以作为以后检测的比对数据库,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公路施工方案软件(3篇)
- 翻土车施工方案图片(3篇)
- 排球周年庆活动方案策划(3篇)
- 景区寻宝游戏活动方案策划(3篇)
- 北京市门头沟区2023-2024学年八年级下学期第二次月考数学试卷及答案
- 安徽省芜湖市南陵县2022-2023学年高三下学期高考二模地理考试题目及答案
- 心理护理问答题目及答案
- 校园录像面试题目及答案
- 河北2025中考作文题守常范文(7篇)
- 保护牙齿从我做起15篇
- 盐酸运输安全管理制度
- 仓库管理5管理制度
- 2025至2030中国建筑劳务行业发展分析及产业运行态势及投资规划深度研究报告
- 新解读《DL-T 5100 - 1999水工混凝土外加剂技术规程》新解读
- 光伏电站入股分红协议书
- 【行星齿轮的强度校核计算过程案例】1800字
- 政采云合同协议书
- 轻度认知障碍 - 教学课件
- 十大国企面试题目及答案
- 二手医疗器械市场的现状与发展趋势
- 氧气安全培训
评论
0/150
提交评论