面向论文相似性检测的数据预处理研究.doc_第1页
面向论文相似性检测的数据预处理研究.doc_第2页
面向论文相似性检测的数据预处理研究.doc_第3页
面向论文相似性检测的数据预处理研究.doc_第4页
面向论文相似性检测的数据预处理研究.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向论文相似性检测的数据预处理研究刘伙玉1,3 王东波2 1(南京大学信息管理学院 江苏南京 210023)2(南京农业大学信息科学技术学院 江苏南京 210095) 3(江苏省数据工程与知识服务重点实验室 江苏南京 210023)摘要:【目的】探究论文相似性检测中数据预处理的数据问题及相关方法。【方法】对数据预处理中的数据清洗、数据集成、数据变换和数据归约进行概述;对数据进行了细致的分析,采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。【结果】揭示了论文相似性检测中原始数据存在的数据质量问题,并在此基础上给出了数据预处理模型。【结论】数据预处理有助于提高论文相似性检测结果的准确性;有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。关键词:相似性检测;抄袭检测;数据预处理;数据质量;数据清洗分类号:TP311.13Research and Implementation of Data Preprocessing Oriented to Paper Similarity DetectionLIU Huoyu1,3 WANG Dongbo21(School of Information Management, Nanjing University, Nanjing 210023, China)2(College of Information and Technology, Nanjing Agricultural University, Nanjing 210095, China)3(Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China)ABSTRACT:Objective Explore the data issues and methods of data preprocessing on paper similarity detection. Methods This article firstly summarizes data cleaning、data integration、data transformation and data reduction; It makes a deep analysis to original data, and briefly introduces three data preprocessing methods: The rule-based method, the statistics-based method and semantic-based method. Results There are many data problems in the original data, based on which it describes the model of data preprocessing. Conclusions Data preprocessing can help to improve the accuracy of paper similarity detection; use the three methods together can improve the effect of data preprocessing.KEY WORDS: Similarity Detection; Plagiarism Detection; Data Preprocessing; Data Quality; Data Cleaning1 引言1.1 研究背景与意义随着云计算、物联网等技术的兴起,以博客(微博)、社交网络为代表的新型信息发布方式的不断涌现,计算机信息系统在各行各业的普及,数据种类和规模正以前所未有的速度在增长和累积1。大数据时代的到来,使得各行各业的决策也从“业务驱动”开始向“数据驱动”转变,从海量的数据中获取潜在的有价值的信息也成为学术、商业、军事等领域关注的重中之重。然而纷繁复杂的数据往往都存在着大量质量问题,这将直接影响数据的信息服务质量;因此大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,都是保证分析结果的真实和有价值的必要手段。由此需要对海量数据中存在的粗糙的、不合时宜的数据进行预处理,将非清洁数据转化为高质量的符合要求的数据,这对于保证数据分析结果的准确性和有价值性具有重要意义。1.2 研究内容相似性检测(Similarity detection)就是判断一个文件(包括文档、图像、音频、视频等文件)的内容与其他某个或多个文件是否相似并根据检测结果给出一个相似度的数值表示。按照其检测的对象,可以分为文档、图像、音频、视频相似性检测等。文档相似性检测又可分程序或代码相似性检测和自然语言文本相似性检测2。论文相似性检测属于自然语言相似性检测中的一种,就是判断一篇论文的内容是否与其他某篇或多篇论文相似,给出相似度结果,进而判断该论文是否抄袭、剽窃或复制于其他论文。由于学术论文中可能会出现程序代码、图片等内容,因此论文相似性检测过程中也需运用到程序和图像相似性检测技术。国内外对于论文相似性检测的研究主要分为以下几类:论文抄袭的理论分析研究、论文相似性检测系统设计、论文相似性检测算法研究等。自然语言文本相似性检测的研究始于20世纪90年代,自1991年Richard采用关键词匹配算法开发Word Check3后研究取得了较大的进展后,出现多个抄袭检测系统。目前针对文本相似度问题学者提出的检测方法主要有基于统计学和基于语义理解的相似度计算方法。然而由于论文相似性检测对象的特殊性,其算法也有相应的特殊性;国内学者提出了相应的算法,包括金博等4提出的基于篇章结构相似度算法,王森等5提出的基于文本结构树的检测算法,秦玉平6、赵俊杰7提出的基于局部词频、段落词频的检测算法,赵俊杰等8提出的基于自动文摘的论文抄袭检测算法等。目前关于数据预处理的研究已经很成熟,这方面的研究成果也较多。数据预处理一般包括数据清洗、数据集成、数据变换、数据归约四个方面,每个方面都有不同的技术手段,本文在第二部分数据预处理简述中有较为详细的阐述。数据预处理技术应用在广泛的领域,如生物、物理、化学、地质科学等,同时在大数据时代其重要性更加突显,如在数据挖掘9、web日志挖掘10、数据仓库11等方面的应用。然而目前论文相似性检测的研究主要集中于相似性检测核心阶段,着眼于相似性检测算法的研究与探讨以及系统的开发,而忽视了对数据预处理的研究。面向论文相似性检测的数据预处理方面的研究相对较少,在文献12中采用XML技术对数字报刊中的数据进行存储,并对数据进行标准化、消除重复项、补全缺失数据等处理,但未涉及到对具体的学术论文进行结构化处理以及其他针对性的处理。在学术论文构成要素识别与抽取方面较多采用机器学习的方法13,14,未涉及到其他数据质量问题的预处理。本文正是基于以上内容,重点针对论文相似性检测中的数据预处理进行了分析与研究。数据预处理是论文相似性检测前的数据准备工作,它以领域知识作为指导,用新的数据模型来组织原始数据,摈弃与相似性检测无关的要素,调整数据格式和内容,一方面使得数据更符合检测算法的需要,也减少了检测内核的数据处理量,提高了检测效率;另一方面也提高了相似性检测结果的准确度和可信度。2数据预处理简述现实中的数据不可避免的存在冗余数据、缺失数据、不确定数据、不一致数据等诸多情况,这样的数据我们称之为“脏数据”,它们成为数据挖掘、信息分析等领域的一大障碍。“脏数据”的存在,将会影响数据分析结果的准确性, 误导决策,影响信息服务的质量。因此,在这些“脏数据”被使用之前必须对它进行预处理,消除冗余数据,弥补缺失数据,纠正错误数据等等,使得数据达到进行知识获取研究所要求的标准。数据预处理主要包括四个方面的内容:数据清洗、数据集成、数据变换、数据归约。数据清洗的范畴在微观层面分为单数据源、多数据源,分别体现在模式层和实例层上15。单数据源的问题集中体现在拼写错误的数据、相似重复数据及非关联数据(孤立数据)等;多数据源的问题则反映在时间的不一致、粒度的不一致,如图2-1所示。数据清洗的范畴模式层模式层实例层实例层单数据源问题多数据源问题参照完整性性拼写错误唯一值约束重复数据命名冲突结构冲突粒度不一致时间不一致图2-1 数据清洗的范畴数据集成主要有两种方式,一种是物理集成,就是把不同数据源中的数据合并到一个统一的数据源中;另一种是逻辑集成,这种方式不改变数据的物理位置,只在有需要时进行数据抽取,提供虚拟的全局视图。无论使用何种数据集成方式,都需要考虑到很多问题,如实体识别问题、冗余问题、数据值冲突的检测与处理等。总之,数据集成的目的就是将分布在不同数据源中的数据进行整合,最终以一个统一的视图提供给用户使用16。数据源中的数据不一定符合我们最终数据分析算法的要求,在数据类型和数据格式上都可能存在不一致性,因此需要数据变换。数据变换的目的就是将数据转换或统一成符合算法分析要求的数据。数据变换主要涉及的内容包括16-18:光滑、数据规范化、数据泛化、数据聚集、属性构造、离散化。当把不同数据源的数据集成到一起时会发现数据量相当大,处理起来将会耗费较长时间,甚至会使得分析变得不现实或不可行,此时可以利用数据归约技术在保证原数据完整性的前提下对数据进行约简。常用的数据归约方法有18,19:维归约,也称为属性归约,减少所考虑的随机变量或属性的个数,主要方法有小波变换、主成分分析、属性子集选择等;数量归约:也称为数据块归约,实例约简等,是指用替代的、较小的数据表示形式替换原数据。此外,在数据变换中使用的数据聚集、离散化、数据泛化方法也可以用于数据归约。3论文相似性检测中数据预处理的研究3.1 问题的提出随着互联网和数字媒体技术的快速发展,人们获取文献资源的途径也在发生巨大的变化,相比传统购买纸质期刊的方式,人们更倾向于直接从互联网文献全文数据库中获取资源。如今,数字化文献服务领域发展迅猛,众多组织机构也在投入巨大资源开发形式多样的服务;其中,论文相似性检测服务是目前三大文献资源提供商重点关注的服务之一。而需要对海量数据进行相似性检测,首先涉及到的就是数字化文献资源的加工,需要通过OCR或其他转换软件将PDF等格式的文献资源进行格式转换,这可能会造成字符转换错误等一系列问题。本文将重点针对由OCR软件对学术论文转换之后的TXT文档所存在的数据问题进行分析并提出数据预处理方案。笔者通过对大量原始TXT文档进行分析,初步确定了针对论文相似性检测数据预处理的范畴(见图3-1)。需要特别说明的是,本文主要针对中文学术论文相似性检测的数据。论文相似性检测中数据预处理的范畴常见数据问题特有数据问题噪声数据唯一性冲突结构冲突命名冲突拼写错误数据退化关键词清洗段落合并问题要素划分问题编码问题乱码问题参考文献问题格式统一问题图3-1 论文相似性检测中数据预处理的范畴3.2 数据预处理模型的构建本文根据论文相似性检测中的数据预处理的范畴,给出了数据预处理模型(见图3-2),详细描述了原始文档准备-数据预处理-结果文档输出,最后将结果文档交予相似性检测阶段的整个过程。接下来重点针对论文相似性检测中特有的编码问题、要素划分、乱码问题、段落合并的分析与处理进行详细阐述。数据库待清洗的原始TXT文档OCR等软件转换格式学位论文期刊论文PDF/WORD等格式是否参与检测参与检测文档集否不参与检测文档集论文相似性检测进入论文相似性检测阶段结果输出阶段原始数据准备阶段数据预处理阶段文档调整格式统一划分要素合并段落关键词清洗参考文献基于语义的方法基于统计的方法基于规则的方法编码转换缺失值的清洗方法噪声数据的清洗方法不一致数据的清洗方法文档清洗命名冲突结构冲突数据退化噪声数据乱码处理是乱码的清洗方法.图3-2 论文相似性检测中数据预处理模型3.2.1 编码问题编码问题是信息处理的基本问题,但是由于历史、政治、文化等多方面的原因,现实中存在着大量不统一的编码方式,造成在信息处理过程中出现信息丢失,转换错误、大段乱码等问题,只有充分了解与字符编码标准相关的概念,进行编码的统一,才能便于信息的表示、传输、交换、处理、存储、输入及显现。常见的编码方式主要有:ASCII码、ISO8859-1、GB2312、GBK、GB18030、Unicode、UTF。笔者处理的原始TXT文档主要的编码方式有GB2312、GBK、Unicode、UTF-8、UTF-16等。在实际操作中,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解析,就会出现乱码。编码的转换也必须建立在以正确的编码方式解析一个文本文件的基础上,否则也会出现乱码现象。在论文相似性检测中,一旦出现编码问题导致的乱码,将会产生极其严重的后果,因为这种情况下,一般整个文件都会是乱码,这就基本意味着已经失去进行相似性检测的必要性。因此在进行相似性检测之前必须对文件的编码方式进行转换,这种转换主要涉及两个方面:从数据库中导出文件时统一编码方式,这是最有效的方式;在相似性检测前的数据预处理阶段对文件编码方式进行转换。但在读入文件阶段必须事先获取文件编码方式,获取的方法主要有两种:由于文件最开头的三个字节中一般存储着编码信息,因此可编写程序自动读取文件头信息来判断编码方式;或者依次使用不同的编码方式解析文件,如果内容正常显示即可判断其编码。3.2.2 要素划分 学术论文一般都有其相对固定的组成要素,规范的学术论文包括两个部分:前置部分和主体部分。前置部分是论文的一些重要属性信息,例如标题、分类号、摘要、关键词等要素;论文的主体部分一般是以绪论引言开始以结论结束,最后是参考文献。每一要素都有其存在的特殊意义,如摘要是以提供文献内容梗概为目的,简明确切地介绍文章要点;参考文献是撰写或编辑论文和著作过程中所引用的有关文献信息资源的说明等。意义不同,其作用必然会有所区别,如正文是文章主体部分,文献编号、作者简介、基金项目等属于文章次要属性,与文章核心思想观点没有太多联系。因而,论文相似性检测过程中首先需要判别论文哪些部分需要参与检测,哪些部分的相似所占的比重应该更大等等。一般来说,我们会认为标题、摘要、关键词、正文、参考文献等是需要参与相似性检测的,而像发表时间、所在期刊、分类号、文献编号、作者简介等应属于不参与检测的内容。但参与检测内容中不同要素也有不同的作用,不能一概而论。如关键词和摘要是整篇论文的核心,如果它们属于不同学科领域或相差较大的话,则两篇论文存在抄袭的可能性就比较小20;因此关键词和摘要可以用来进行可疑文献快速排查,首先比较两篇论文的关键词和摘要,看是否属于同一领域或相关领域,若是则归入可疑文献集中,若不是则归入非可疑文献集,之后不参与检测。而像标题、参考文献是否抄袭的认定比较困难,假如两篇论文的参考文献存在很高的相似度,不能直接认定为是抄袭,因为可能是两者研究主题接近所导致的,因此这些要素的相似需要作另外的认定和处理。不参与检测的内容并非没有意义,如分类号可以用来判断文章所属学科,作者简介可以用来排除同一作者合理重复使用自己学术成果的情况,发表时间对于检测已发表文章的相似性也非常重要,可用来排除发表在需要检测文章之后的文章。因此这一部分内容也需要加以区分并保存下来。金博、史彦军、滕弘飞等学者提出了一种基于篇章结构相似度的中文学术论文相似性检测算法,将论文的篇章结构表示为八元组:发表时间、标题、作者与单位、摘要、关键词集合、中图分类号、段落集合、参考文献集合,综合考虑多方面因素。研究结果表明该模型与基于全文数字指纹和基于全文词频统计的检测方法相比更适合用于论文的拼抄、部分抄袭和全抄等现象的初步检测4,王建国21等也在此基础上进行了探讨分析。因此,将一个文档中属于该论文的各个要素的内容标记出来具有重要意义,一方面有助于提高论文相似性检测结果的准确性、有效性和合理性,若不进行要素区分,直接将整个文档的内容进行相似性检测,将会存在大量干扰信息,影响最终结果的可信度;另一方面,为相似性检测算法提供了改进思路与空间,提高了检测算法的性能与效率,同时为论文相似性检测产品与服务的开发提供了思路,在此基础上可以为用户提供更多的个性化服务。 要素划分问题的处理具体流程详见图3-3。图中所指的异常情况主要是指类似扫描到了摘要的标识,却未扫描到关键词或扫描到了KEYWORDS却未扫描到ABSTRACT的情况,此时需要对文档重新扫描,根据某些规则添加相应要素的标识。待处理文档第一次扫描记录论文要素构成情况(要素及要素出现的位置)N第二次扫描Y重新扫描要素构成是否存在异常情况异常情况处理结果文档根据扫描结果标记各要素起始根据需求输出图3-3 要素划分问题处理流程图由于参考文献和关键词自身的特殊性以及两者对于论文相似性检测的重要影响,笔者在前文预处理模型中也将这两个要素单独列了出来。对于参考文献,如果作者在撰写论文时未按照著录规则进行书写,同一条参考文献可能就会出现不同形式,或在文件转换过程中出现信息丢失或乱码,这都会导致最后检测结果的不准确,因此不仅应该在检测算法编写阶段考虑这些因素,在数据预处理阶段也应该进行针对性处理。目前的处理方法是尽可能通过正则表达式匹配参考文献的各个要素,然后尽可能修改由于转换导致的错误。如果能够较准确获取某文章的标题、作者等信息,可以通过已有的数据库(如万方文献资源数据库)或学术搜索引擎(如谷歌学术搜索引擎)获取该文章准确的且符合著录规则的参考文献形式。关键词清洗主要指两个方面:(1)在要素划分阶段将关键词内容块识别出来;(2)若在关键词识别阶段出现较大问题,如关键词丢失、将非关键词内容识别为关键词、出现较多乱码现象等,则需进行关键词自动抽取。这就将涉及到关键词自动抽取技术,也称为关键词自动标引,是指利用计算机从文本中自动提取出能够代表该文本主题的词汇或短语集合以实现文本表示的过程22。该技术在文本分类、文本聚类、知识挖掘、自动摘要、信息检索等领域有着广泛应用,因而该技术也相对较成熟。目前,关键词自动抽取方法可以分为三类:基于统计学的方法、基于语言学的方法和人工智能方法23。3.2.4 乱码问题一般来说,乱码的分布位置以开篇的独创性声明及使用授权书部分(学位论文)、正文中的图表、每页开头与结尾处较多。具体来说,独创性声明部分的乱码原因主要是手写字迹(签字和日期);正文中的乱码三大来源:图、表和公式,图的乱码多是成行出现,并且每行字符数较少,表格的乱码是各种数字错位,公式的乱码是由于一些特定符号的识别问题以及一些表达式的组合形式问题;论文中的英文部分亦经常出现乱码,出现较多的是英文摘要和英文参考文献,形式多为英文中夹杂个别中文汉字。需要特别说明的是,“乱码问题”中的乱码指的是编码方式正确的文档中,由于转换、格式等原因出现的失去实际意义的词、短语或句子。乱码按其字符类型可分为符号乱码、汉字乱码、混合型乱码。符号乱码又分为特殊符号乱码和一般标点符号乱码。特殊符号即不常用的符号,多不具有实际意义,以单个出现为多,亦常间杂在其他乱码中;标点符号成为乱码一般是以连续一串为表现形式,其间常夹杂空格、运算符、数字或英文字符;汉字乱码的特征较难概括,可能是非常用汉字序列,但也经常夹杂一些常用汉字,普遍特征为单字词较多,字与字之间共现概率低或是以单行出现,如单字词过多或者低频单字词过多。混合型乱码最为复杂,以汉字和符号的交替序列为表现形式,有以下类型:整句中符号比重较大;英文字符中夹杂有少量汉字或数字等。乱码是造成文本处理效果不佳以及检测结果不理想的重要因素之一,必须采取有效的办法将文本中的乱码自动识别出来并剔除。由于乱码类型较多,情况复杂,对于乱码的识别与处理比较困难。本文主要采用针对不同类型的乱码建立不同处理规则的方法。首先,将疑似乱码段切分成8字及以上字符串(必须以标点符号或空格结尾,连续符号需在同一个字符串中);然后分别计算出每个字符串或子句中低频单字词、单字词、乱码汉字、标点符号、英文字母、英文单词等的个数;最后根据制定的规则来判断该字符串或子句是否为乱码或部分为乱码。由于要保证规则对于大数据集的普遍适应性,规则的制定是一个非常繁琐、费时费力,且需要不断完善的过程。3.2.3 段落合并问题进行段落合并的根源,主要是由于期刊排版时的分栏、跨页,页眉页脚,图表内容等可能会将正常一段话的内容或正文分割成多个部分,最终目标就是还原文本,使其尽可能与原始文章段落结构保持一致。论文相似性检测粒度的选择是所有相似性检测算法都需要重点考虑的问题之一;不同的粒度划分是选择相似性检测算法和影响检测效果的重要因素。论文相似性检测的粒度可以分为整篇文章、段落、句子、定长字符串、词或短语、单个字符或字24。通常一个段落都是围绕一个主题或中心论点进行阐述,段落内句子的关联性较大,以段落作为检测粒度是相对较好的选择,不但检测效率较高,检测效果较好,检测结果的可信度也较高。赵俊杰7,25等讨论了基于段落相似度的论文抄袭判定算法,可在一定程度上防止抄袭者将论文的段落顺序打乱,或将段落语句次序打乱重新组合或更改部分词语的情况。图3-4为论文相似性检测计算过程的一个简单模型图,可以看出划分段落是论文相似性检测中的一个重要过程。句子的划分一般是以句末标点如!、。、;、?等作为划分标识的;词语的划分即分词一般使用相应的分词算法或分词系统,如北京理工大学张华平团队所开发的汉语词法分析系统NLPIR/ICTCLAS。但是在粗糙的原始文档中,排版分栏、跨页、页眉页脚等都可能将一个完整的词语、句子、段落分割开来,因此句子划分和分词需要建立在段落准确合并的基础上,否则句子划分和分词都会出现错误,划分之后的结果与原文存在较大的不一致性,最终导致相似性检测结果出现较大偏差,检测效果不佳。输入待检测论文文本对完整文章划分段落对句子进行分词分割段落文本中的句子计算句子相似度计算句子中词语的相似度计算整篇文章相似度计算段落相似度输出输出图3-4 论文相似性检测计算过程对于段落合并问题的解决方案,详见下图处理流程图(图3-5),其中最大的难点在于准确识别段落结束的位置,页眉页脚、跨页、图表的起始位置。其中需要说明的是,目前的论文相似性检测方法大部分是针对文档中的文本而言,对于结构化的表格、图片还不能进行有效的处理,因而处理过程中将图表内容暂且输出到指定的文档中,若需对图表进行相似性检测,可调用指定文档的内容。待处理文档扫描文档(以行为单位)Y指定文档输出Y删除合并到上一行Y扫描下一行是否为图表内容N是否为跨页、页眉页脚内容NN与上一行是否为同一段落另起一段图3-5 段落合并问题处理流程图3.3 数据预处理方法介绍 上文针对论文相似性检测中原始TXT文档存在的数据质量问题进行了具体阐述,据此给出了数据预处理模型,然后对主要的处理模块进行了详细介绍并给出了处理的一般流程图。在处理的过程中,还需运用到相关的数据预处理技术,本文将对笔者实际处理过程中使用到的方法进行总结,主要有:基于规则的方法、基于统计的方法、基于语义的方法。3.3.1 基于规则的方法绝大多数相关领域的研究人员认为,要想很好地完成数据预处理过程,一定要结合特定应用领域的知识;因此,人们通常将领域知识用规则的形式表示出来26。论文相似性检测中针对的检测对象是学术论文,在前面中已有阐述,学术论文有其自身的特殊性,因此可以结合其自身特点在预处理阶段定义相关处理规则。在进行数据预处理的过程中,较多地采用了基于规则的方法进行处理。以要素划分为例,笔者根据学术论文的书写规范等,制定了相应的规则,如:a、如果该文档有中文摘要,那么也应该有中文关键词;b、如果该文档有英文摘要,那么也应该有英文关键词;c、在中文关键词和英文关键词之间的大段英文有可能是未识别出来的英文摘要;d、目录出现在正文之前;e、参考文献、责任编辑必须出现在正文内容之后;f、无法使用正则表达式匹配要素的起始位置时,可利用形式特征进行判断,如参考文献有其特有的著录规范;目录中一般每行含有多个.,或者连续多行结尾为数字;但也应考虑到特殊情况的存在,如部分学位论文中可能每个章节后面都会出现参考文献,连续多行结尾为数字可能是表格内容等,因此也需要对各条规则制定更多相应的规则加以限制,提高判断的准确度。由于原始论文在写作、编辑出版时可能出现的不规范以及在转换成TXT文档之后出现的脏乱情况,想要制定完善的规则非常困难。笔者采用的方法是先用随机抽样的方法从巨大的数据集中取出小量样本,在此基础上通过人工的参与产生初步规则,在得到初步规则之后,把它们应用到样本数据上,通过观察处理结果,进而修改已有规则或者添加新的领域知识,如此反复,直到获得相对满意的结果为止;这时,就可以将这些规则应用到整个数据集中了。本文中涉及到的规则都是人工总结,然后使用java将规则转换为程序代码,通过计算机实现自动化处理。3.3.2 基于统计的方法基于统计的方法,首先需要准备大量的训练语料,然后通过统计方法得到某类事物出现的概率。以乱码处理为例,在前期分析乱码的过程中总结了乱码的主要类型,如低频单字词过多、标点符号比例过高、英文段落中夹杂汉字等,通过统计的方法得到相应的处理规则和方法:a、概率小于10-6的单汉字的比例大于35%时,认为该子句为乱码。b、当英文字母比例大于75%且汉字比例小于20%时,若子句中出现汉字,则该汉字必为乱码;当英文字母比例小于40%,若子句中出现汉字,且该汉字左右两边都是英文字母时判定该汉字是乱码;继而通过大量语料对以上处理方法进行训练,不断调整相关的比例指标,并产生新的处理方法。基于统计的方法侧重于语料的定量描写,通过不断记录和统计真实的语言现象来不断生成新的规则和方法,该方法适应性强,且受非语言因素影响小,可信度较高。但该方法对语料的依赖性较强,且仅仅是基于数据的统计,因此总结出来的规则和方法稳定性较弱,是浮动、似然的,也很容易出现片面性,因此在实际应用中需要人的参与,对最终的规则方法进行把关。3.3.3 基于语义的方法 汉语自然语言是语义型语言,重意合而轻形式,且汉语复杂灵活,语言知识难以规则化,因此中文文本较英文文本在结构、词序、处理等方面都存在着特殊性。文本的语义是基于概念的,词是构成这些概念的基本单位27。因此一般进行语义分析的第一步就是将文本进行分词,并在分词基础上进行词性标注。本文采用张华平博士团队研发的NLPIR汉语分词系统(又名ICTCLAS)对文本进行分词及词性标注。本文利用基于语义的方法进行数据预处理主要是在段落合并阶段和乱码处理阶段。以段落合并为例,一般来说根据句末标点及字符串长度等规则进行处理即可,但对于章节标题或跨页问题中的段落合并则需要结合基于语义的方法。如以下示例1,2,3都是原始语料中出现的实际情况。例1:1.1材料与方法例2:3.2 流域污染综合整治评价指标体系的构建例3:果、应急防治能力和整体控防水平,确保农(下转190页)夜1013。随着天气转暖要加大通风量,超过30要(上接118页)业生产安全、农产品质量安全、生态环境安全。(上接130页)仔细分析、研究,探索出高效、环保的控防新方法表3-1 分词结果及词性标注序号分词结果及词性标注1材料/n 与/cc 方法/n2流域/n 污染/vn 综合/vn 整治/vn 评价/vn 指标/n 体系/n 的/ude1 构建/vn3确保/v 农业/n 生产/vn 安全/an4确保/v 农/ng 仔细/ad 分析/v表3-2 NLPIR汉语文本词性标注集(部分)代码名称代码名称n名词ad副形词vn动名词an形容词中的名形词ng名词性语素cc并列连词d副词ude1助词: 的 底 例1和例2是同一段的内容被分成了两行且无法用一般的规则判断下一行是否与上一行属于同一段的内容。例3中根据一般规则无法判断“下转”之后应该接哪个“上接”的内容,第一种情况为“下转”之后接第一个“上接”,第二种情况为“下转”之后接第二个“上接”。因此对当前行与下一行的内容合并后进行分词,并进行词性标注。根据表3-1的分词及词性标注结果,例1、例2中根据一般中文语法规则,可以判断下一行极有可能与上一行内容属于同一段内容。例3中,第一种情况上一行的“农”与“业”恰好组成了一个名词,且整个短句是“动词+名词”结构,而第二种情况“农”作为一个名词性语素,整个短句结构为“动词+名词性语素+副形容词+动词”,综合考虑第一种情况的可能性极大。该方法同时需要结合中文语法规则,建立现代汉语句型规则来判断。基于规则、统计、语义的三种方法,是本文进行数据预处理中使用的主要方法,三种方法之间相互区别,但也密切联系;在实际运用中,通常会将三者结合起来使用。基于统计和基于语义的方法都需要建立相应的规则来完成预期目标,而利用基于统计和基于语义的方法又能生成新的有价值的规则,只有将三种方法相互结合,才能取得更好的预处理效果,保证处理结果的合理性、准确性、有效性。4 总结由于学术论文原作者书写不规范或者出版社最终的编辑排版等,以及文件格式转换软件在转换过程中出现的各种问题,导致论文相似性检测的原始数据存在大量的数据质量问题,这些数据质量问题很大程度上影响着相似性检测结果的准确性和有效性。因此,在进行论文相似性检测之前,使用数据预处理技术对数据进行处理,改善数据的质量显得尤为重要。本文通过对面向论文相似性检测的原始学术论文数据进行分析,总结了数据中存在的数据质量问题,并在此基础上给出了数据预处理模型,并分别对编码方式问题、要素划分问题、乱码问题和段落合并问题进行了详细阐述,包括进行相关处理的缘由与意义、处理的方式等的介绍。不同的数据质量问题需要使用到不同的数据预处理方法,本文最后总结了在数据预处理过程中使用到的三种方法,分别是基于规则的方法,基于统计的方法,基于语义的方法。三种方法有其各自应用的场合,既又相互区别,相互联系,只有将三者结合起来,才能取得更好的预处理效果。本文研究的意义在于重点针对面向论文相似性检测的数据进行了数据预处理研究,对数据中存在的质量问题进行了分析总结,给出了数据预处理模型,并采用数据预处理技术对数据质量问题进行了处理,这对于提高论文相似性检测的准确性、合理性,以及为论文相似性检测提供新的思路等方面具有重要意义。但也存在一定的局限性,如本研究基于的原始语料规模有限;对于图表内容未能提出有效的处理方式;对于某些数据质量问题的处理仍存在缺陷。本文在后续的研究中将重点针对这些问题进行分析,并更多地应用数据挖掘技术、机器学习方法进行数据预处理,以期获得更好的处理效果。参考文献1 孟小峰,慈祥.大数据管理:概念,技术与挑战J.计算机研究与发展,2013,50(1): 146-169.( Meng Xiaofeng, Ci Xiang. Big Data Management: Concepts, Techniques and ChallengesJ. Journal of Computer Research and Development, 2013, 50(1): 146-169. )2 鲍军鹏,沈钧毅,刘晓东,等.自然语言文档复制检测研究综述J.软件学报,2003,14(10).(Bao Junpeng, Shen Junyi, Liu Xiaodong, Song Qinbao. A Survey on Natural Language Text Copy DetectionJ. Journal of Software,2003,14(10).)3 Clough P. Plagiarism in natural and programming languages: an overview of current tools and technologies. Research Memoranda: CS-00-05, Department of Computer Science, University of Sheffield, 2000.4 金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法J.大连理工大学学报,2007, 47(1):125-130. (Jin Bo, Shi Yanjun, Teng Hongfei. Document-structure-based copy detection algorithmJ. Journal of Dalian University of Technology,2007, 47(1):125-130.)5 王森,王宇.基于文本结构树的论文复制检测算法J.现代图书情报技术,2009,10:010. (Wang Sen, Wang Yu. Algorithm of the TextCopy Detection Based on Text Structure TreeJ. New Technology of Library and Information Service, 2009,10:010.)6 秦玉平,冷强奎,等.基于局部词频指纹的论文抄袭检测算法J.计算机工程,2011(6):193-197. (Qin Yuping, Leng Qiangkui, Wang Xiukun, Wang Chunli. Plagiarism-detection Algorithm for Scientific Papers Based on Local Word-frequency FingerprintJ.Computer Engineering,2011(6):193-197.)7 赵俊杰,胡学钢.一种基于段落词频统计的论文抄袭判定算法J.计算机技术与发展,2009,19(4):231-233. (Zhao Junjie, Hu Xuegang. A Way to Judge Plagiarism in Academic Papers Based on Word- Frequency Statistics of ParagraphsJ. COM PUT ER TECHNOLOGY AND DEVELOPMENT,2009,19(4):231-233. ) 8 赵俊杰,汪丽,王平水.基于自动文摘的论文抄袭检测研究J.电脑与电信,2010(2):31-33. (Zhao Junjie, Wang Li, Wang Pingshui. The Research on How to Detect Plagiarism in the Theses Based on Automatic AbstractionJ. Computer & Telecommunication,2010(2):31-33.)9 刘明吉,王秀峰,黄亚楼.数据挖掘中的数据预处理J.计算机科学, 2000, 27(4):54-57. (Liu Mingji, WangXiufeng, Huang Yalou. Data Preprocessing in Data MiningJ. Computer Science, 2000, 27(4):54-57.)10 陆丽娜,杨怡玲. Web日志挖掘中的数据预处理的研究J.计算机工程,2000,26(4): 66-67. (Lu Lina, Yang Yiling. Data Preparation in Web Log MiningJ. Computer Engineering,2000,26(4): 66-67.)11 李瑞欣,张水平.数据仓库建设中的数据预处理J.计算机系统应用, 2002 (5): 18-21. (Li Ruixin, Zhang Shuiping. Data-processinginthebuildingofdatawarehouse J.ComputerSystems&Applications, 2002 (5): 18-21.)12 吕景耀.数据清洗及XML技术在数字报刊中的研究与应用D.北京邮电大学,2009. (Lv Jingyao. Research and application of data cleaning and XML technologies based on digital newspaper D. Beijing University of Posts and Telecommunications, 2009)13 Peng F, McCallum A. Information extraction from research papers using conditional random fieldsJ. Information processing & management, 2006, 42(4): 963-979.14 Han H, Giles C L, Manavoglu E, et al. Automatic document metadata extraction using support vector machinesC.Digital Libraries, 2003. Proceedings. 2003 Joint Conference on. IEEE, 2003:37-48.15 王曰芬,章成志,张蓓蓓,等.数据清洗研究综述J.现代图书情报技术,2007,12: 50-56.( Wang Yuefen, Zhang Chengzhi, Zhang Beibei, Wu TingtingJ. New Technology of Library and Information Service,2007,12: 50-56.)16 赵飞国.面向数据挖掘的数据预处理系统设计与实现D.北京交通大学,2011.(Zhao Feiguo. Desin and Implementation of Data Preprocessing System Oriented to Data MiningD. Beijing Jiaotong University,2011.)17 方洪鹰. 数据挖掘中数据预处理的方法研究D. 硕士, 西南大学, 2009.(Fang Hongying. Data Processing Method of DimensionlessD.Southwest University,2009.)18 韩家炜,坎伯.数据挖掘:概念与技术M.北京:机械工业出版社,2001:232-233.(Han Jiawei, Kamber. Data Mining: Data Mining: Concepts and TechniquesJ.Beijin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论