版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于类别数据分布特性的文本分类噪声处理方法
1语言模型算法文本分类是指根据指定的分类系统自动评估文本内容对应的预先确定的类别的过程。这是人工智能领域的中心研究内容之一。在采用机器学习的方法进行文本分类时,需要分类器通过事先类别标注完毕的训练样本学习分类的知识并形成特征空间,从中自动挖掘出能够有效分类的规则,然后将此规则用于对测试样本的分类。因此,训练样本和分类算法一样,是形成文本自动分类系统的基础和关键,其质量的好坏直接影响分类器的训练结果和识别性能。为验证算法的有效性,通常也需要使用一定的类目构成、准备相应的文本作为分类材料,并在由此所组成的试验环境中进行分类试验。而在对分类材料进行标注或获取的过程中,难免会引入噪声,如样本内容与所标记的类别不符、样本属性缺失等。这些噪声样本会使训练样本中类别概念模糊,其提供的分类先验知识不足,导致分类器构建的分类决策不明确,从而对测试样本所属类别进行误判,影响最终的分类性能。因此,本文从语料库中训练样本的类别数据分布特性出发,通过计算样本的类别聚类密度这一属性特征,获取不同类别下的文档对间相似度分布;采用对数正态化变换进行归一化处理,以获取噪声样本所服从的正态概率分布;采用近似置信区间估计和噪声样本度量方法,实现对噪声文本的有效挖掘和裁剪,从而提高文本分类器的分类性能。2特征选择算法目前,研究训练样本集合中噪声样本对分类性能的影响已有相当数量的成果。文献通过实验验证了含有噪声样本的数据会对分类结果产生不良影响,并提出一种通过降低召回率来保证分类结果准确率的方法。但该方法只得到待分类数据中部分数据的分类结果,并未提出针对剩余待分类数据进行处理的方法。文献提出一种针对粗分类文档中噪声数据的修正算法NNRA,该算法通过构建文档关联网络模型,把类别标记错误的文档重新归到正确的类别中,以获得精分类的训练数据,从而提高分类器的分类性能。但该算法计算复杂度较高,算法效率较低。文献提出一种基于特征类别属性分析的文本分类噪声裁剪算法ECN,该算法通过分析文本关键特征蕴含的类别指示信息,主动预测待测分类文本可能归属的类别。然而采用该类别裁剪算法仍会造成一定的误判,导致分类不准确。文献提出一种基于概率主题模型的噪声处理方法,通过计算每个样本的类别熵,对噪声样本进行过滤,并采用主题模型进行数据平滑,减少噪声样本对分类性能的影响。但该方法分类结果受模型迭代次数的影响,且迭代次数无法较准确地确定。另外,该方法由于需要进行主题模型的抽取,计算量较大,效率较低。文献通过采用特征选择算法OCFS去除在文本中不能表达类别信息或表示信息较弱的特征,以达到减少噪声样本或属性对分类算法的影响。但该方法无法彻底删除数据集中所有噪声,而且会把一些正常样本当作噪声误删。在信息检索领域,另一部分研究者从对训练样本噪声敏感度出发,探究不同分类算法针对不同数据集的抗噪性。如文献通过实验验证对不同数据集上的噪声敏感度与训练数据的某些特性有关,得出训练集文档对的分布是影响噪声敏感度的根本原因。文献描述RankSVM、SVMMVP等算法在部分数据集上有较好的抗噪性,且随着噪声水平的增加性能变化不大,而在其他数据集上即使噪声水平很小性能也有很大程度下降。文献采用两阶段优化策略对任何线性排序模型进行非凸优化,从而使得学习到的模型对噪音不敏感。采用恰当的文档选择策略可以提高训练集的质量。综上所述,本文提出通过计算训练样本类别聚类密度获取文档对属性的概率分布这一特征,并通过研究该特征获取训练样本中的噪声样本,以提高分类器的分类性能。3样本类别意识不明确。据年龄限制,主要有两种由于噪声样本的内容与所标记的类别概念信息不符以及噪声属性缺失等特点,使得这类样本代表其所在类别的程度较弱,与其他样本之间的相似度较低。这些样本的存在模糊了类别的概念,使得其类别概念信息不明确。基于以上两点,本文首先计算训练样本的类别聚类密度揭示样本中类别概念信息,然后通过类别概念信息反映该类别下文档之间的相似程度,同时用该指标来评测噪声样本对类别信息以及分类性能的影响。3.1类别对比相似度训练集样本由不同类别构成,而类别的信息则由其所标注的文本完全决定,即文本的内容完全决定类别的概念。因此,可以采用类别的聚类密度来衡量类别下文档特征在表示该类别时的适用程度。其基本思想是:如果文档集合能够更好地表达类别的信息,那么该类别概念应该更加清晰,在该类别下对应的文档之间应该更加相似,类别对应文档集合的平均相似度应该更高。因此,对于某一类别的聚类密度,本文采用该类别的文档对间的平均相似度表示,计算公式如下:其中表示语料H下类别z的聚类密度,N表示该类别下的文档数,??表示类别z中第i个文档向量,表示文档向量和文档向量的余弦相似度,具体计算方法如下所示:其中,对于每个语料库H,用类别集合表示,l表示语料库H中类别数。类别z1中的文档用向量表示,wit表示特征词t在文档di的权重,其通过标准的TF-IDF公式获得:其中,tf(t,di)表示特征词t在文档di中的词频,df(t)表示特征词t的逆向文档频率,V为总特征项数,N为总文档数。本文用类别的聚类密度反映语料中预先设定的分类类别概念的明确程度。如果一个语料中各类别的聚类密度越高,说明该语料各类别概念越明确,类别中的文档集合越能代表该类别的信息,其分类效果越好。另外,一个类别下噪声样本数量越少,其所有文档对间的平均相似度越高,类别概念越清晰明确。3.2归一化过程设计在获取样本类别聚类密度的同时,可获得该类别下文档对间的相似度分布。通过公式(1)可以看出,聚类密度实质是文档对间的平均相似度。由于不同类别下样本内容特征不同,聚类密度值分布的参数也不同,在比较不同类别的聚类密度以及噪声样本处理前后的聚类密度变化情况时,无法直接采用聚类密度值进行比较,因此需要对文档对平均相似度的分布进行归一化处理。根据研究发现,通过估计分布的均值和方差,不同类别下文档对相似度的分布可以统一归一化为对数正态分布,如图1所示(训练样本200篇)。只有在正态归一化处理后,不同类别的聚类密度才具有可比性。另外,本文通过正态分布的偏度和峰度检验法来检验文档对相似度分布是否属于正态分布。偏度系数是表征分布形态与平均值偏离的程度,作为分布不对称的测度;峰度系数是表征分布形态图形顶峰的凸平度,当两者都为零时,变量变为理想正态分布。其中,偏度系数g1和峰度系数g2计算公式如下:其中,Xi表示文档对相似度值,X表示所有文档对平均相似度值,S为均方差,n为文档对数。在获得两个系数后给定显著性水平?值(本文取&=0.05),进一步确定对应的U&值。若|g1|<U1?且&g2&<U2&,则表示接受正态性假设,可认定在&=0.05的显著水平下,该类别下文档对的相似度分布近似服从正态分布。3.3异常置信区间的确定在通过正态化变换确定文档对相似度服从正态分布后,需要获取包含噪声样本的文档对,并对噪声样本进行裁剪,以减少其对分类性能的影响。本文先计算所服从概率分布的置信区间,根据正态分布的特性,对给定的置信水平1–?,有:可得μ的置信水平为1–&的置信区间为:通过查表求得的值,进而确定置信区间。另外,&取值越大,噪声样本数据的错误检测概率越小,把正确数据混入异常数据的概率也同样增大,因此取0.95为宜。通过计算所服从概率分布的置信区间获得单侧置信下限左侧的文档对,这些文档对之间的相似度值出现频数较小且相似度值也较小。根据噪声样本的特性,其代表所在类别的程度较弱,与其他文档之间的相似度较小,因此噪声样本主要分布在区间中。在获得该区间的文档对后,用每个文档出现的文档对数对占总文档对数的比例来确定噪声样本,如公式(10)所示。设定阈值ε,当该比例大于ε值时,则认定该文档为噪声样本。其中,pi表示第i个文档占总文档对数的比例,mi表示第i文档出现的文档对数。3.4基于相对熵指标的差异通过上述方法获得噪声样本后,需要对噪声样本的识别进行正确性检验,进一步验证挖掘的有效性。本文提出通过采用Kullback-Leibler散度即相对熵指标来度量原始的含有噪声样本的文档对分布(记为f(x))与不含噪声样本的文档对分布(记为f?(x))间的差异,如公式(11)所示。利用Kullback-Leibler的定义,可以对这种差异从数量上进行比较。其中,n?表示不含噪声样本的文档对数(n?<n),为保证两个分布能够进行差异度量,从f(x)选择n?个文档对使两个分布文档对数相同。相对熵指标是用来度量相同事件空间下两个概率分布的差异情况,当两个概率分布完全相同时,即f(x)=f?(x),其相对熵值为0。若计算得到的相对熵值越大,说明噪声样本裁剪前后两个概率分布差异越大,噪声样本对相似度分布的影响越大,基于该方法对噪声识别的有效性越高。另外,同时采用噪声样本裁剪前后类别的聚类密度变化情况,来反映噪声样本识别的有效性。一个类别下噪声样本数量越少,其对应的该类别的聚类密度应该越高,类别概念越清晰,分类效果越好。若在噪声样本识别时,将正确标注的样本错误地识别为噪声样本时,会使得该类别的聚类密度降低。4结果与分析4.1文献筛选和分类性能评价为验证本文方法在不同领域、不同类型数据上的有效性,实验数据采用搜狗实验室语料库(SogouLabs)、复旦大学自然语言处理实验室基准语料库以及自建语料库进行分类实验。其中自建语料库主要包括自建图书类型的文献以及自建期刊类型的文献,由笔者取自某大学图书馆的馆藏目录OPAC和选自中国知网的电子期刊数据库,分别选取分类在《中图法》体系下体育、计算机技术和军事三个类别中的部分图书的书目信息和部分期刊文献作为实验材料。由于本研究需确保分类过程中各环节透明化,以减少中间过程的不可控因素,因而选取支持向量机(SupportVectorMachine,SVM)算法构造分类器,选取信息增益方法进行特征选择。自动分类研究中对分类性能的评价通常采用分准率、分全率以及综合指标F1值来描述,在对分类性能进行评价时,存在微平均(Micro-average)和宏平均(Macro-average)两个不同的测度方法。本文选择通用的宏平均F1(Macro-averageF1)评价分类性能。4.2噪声样本的删除及分类性能分析针对搜狗、复旦大学两种公开语料库,选取其中6个类别进行实验,主要包括计算机、体育、经济、军事等类别信息。针对自建图书、期刊语料库,选取计算机、体育、军事三个类别进行实验。每个类别都随机选取400篇文档作为训练样本,200篇作为测试样本,以排除类别不均衡因素对分类性能的影响,且保证训练样本与测试样本之间没有重复文本。首先计算搜狗、复旦大学两种语料库各类别的聚类密度,然后对各类别聚类密度进行归一化处理获取样本所服从的正态分布,最后按样本所占比例获取噪声样本。如对于搜狗语料库中的“计算机”类别,通过公式(4)、公式(5)计算出分布的偏度、峰度的值分别为–0.26、0.45,根据SPSS描述统计分析结果,该分布通过正态性检验。计算得到均值为–3.44,均方差为1.16,并根据公式(8)计算均值的95%置信区间为[–3.49,–3.32]。设定阈值ε=0.50,则在区间[–8,–3.49]上,计算得到噪声样本数为17,针对搜狗、复旦大学两种公开语料,计算各类别的噪声样本数以及各类别的聚类密度如表1所示:通过表1可以看出,这两种公开语料库各类别中均含有一定的噪声样本,且通过计算看出复旦大学语料库的聚类密度要高于搜狗语料库的聚类密度。在获得噪声样本后进行裁剪,然后计算裁剪后文档对所服从分布的相对熵以及类别的聚类密度,以检验噪声识别的有效性,如图2所示:通过计算噪声样本裁剪前后相对熵以及类别聚类密度变化发现,噪声样本的删除对每个类别的文档相似度分布都有较大的影响,其中类别“计算机”、“体育”、“经济”相对熵值较高,说明噪声样本处理使得两个概率分布差异较大。另外,噪声样本的裁剪也使得各个类别的聚类密度都有所增大。限于篇幅,本文只列出搜狗语料库噪声样本处理前后聚类密度的变化情况。图2说明该方法能够有效挖掘噪声样本,使语料中各个类别的概念信息更加清晰、明确,从而更有利于文本分类器的分类。为进一步验证该方法的有效性,计算搜狗、复旦语料噪声处理前后各类别上的分类准确率,如图3所示:从图3可以看出,通过删除噪声样本,使得搜狗、复旦语料库各类别的分类准确率都得到提高,搜狗语料库各类别分类准确率平均提高3.37%,复旦语料库各类别分类准确率平均提高4.83%。噪声样本的裁剪使得类别的概念信息变得清晰明确,从而使得分类器的分类性能得到提高,验证了该方法的有效性。另外,为验证本文方法在不同领域、不同类型数据上的有效性,针对图书、期刊自建语料采用该方法进行噪声样本识别,分类效果如图4所示:通过图4可以看出,搜狗
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届河北省唐县第一中学高三下学期考前学情自测历史试题(含答案)
- 江苏导游证考试通关题库含答案
- 静脉输液输液并发症的案例分析
- 2025年新高考全国一卷语文试题(含答案和详细解析)
- 机械顶管施工工艺流程
- 血液灌流与血液透析的对比分析
- 静脉输液港常见并发症及处理
- 2026年舞蹈培训工作室教学理念与考级体系介绍
- 颈髓损伤患者疼痛管理
- 2026年心理健康教育先进集体申报
- 2025年作业学生宿舍楼综合布线设计方案解析
- 医院手术委托书模版
- T-GDNAS 059-2024 应用翻身床翻身技术
- 2024-2025成都各区初二年级下册期末数学试卷
- 17α-羟化酶缺乏症病因介绍
- 画法几何及工程制图教案
- 五卅运动课件
- 常用材料成份及热处理温度-回火温度硬度
- 《危险废物物联网智能监控设备技术要求》
- NB-T+31010-2019陆上风电场工程概算定额
- CTD申报资料撰写模板:模块三之3.2.S.3特性鉴定
评论
0/150
提交评论