


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文网页自动分类综述_网页分类论文摘要:本文介绍中文网页自动分类的研究状况;分析常用的特征提取方法并比较其在中文网页分类应用中的优劣,总结经典分类方法;简述分类评价指标;讨论目前分类系统。论文关键词:网页分类,特征提取,分类算法,评价指标1、引言随着网络应用的迅速普及和发展,互联网用户量急剧增长,网络上的信息资源呈爆炸式增长,面对这样海量的网络信息量,似乎能够满足人们对于信息的需求。但是实际的情况是对99%的用户来说,互联网上99%以上的信息是毫无用处的。可见对中文网页自动分类具有现实意义。2、中文网页分类的研究中文网页自动分类是从文本自动分类的基础上发展起来的,由于文本自动分类拥有比较成熟的技术,不少研究工作试图使用纯文本分类技术实现网页分类。孙建涛指出:用纯文本方式表示网页是困难的,也是不合理的,因为网页包含的信息比纯文本包含的信息要丰富得多;用不同方式表示网页然后再组合分类器的方法能够综合利用网页的特征,但各个分类器的性能难以估计,使用什么组合策略也难以确定。董静等人提出了基于网页风格、形态和内容对网页分类的网页形式分类方法,从另外的方面对网页分类进行研究;范焱等人提出一种用朴素贝叶斯协调分类器综合网页纯文本和其它结构信息的分类方法;试验结果证明组合后的分类器性能都有一定程度的提高;都云琪等人采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试,结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。鲁明羽等提出一种网页摘要方法,以过滤网页中对分类有负面影响的干扰信息;刘卫红等提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类;张义忠提出了一种SOFM(自组织特征映射)与LVQ(学习矢量量化)相结合的分类算法,利用一种新的网页表示方法,形成特征向量并应用于网页分类中。该方法充分利用了SOFM自组织的特点,同时又利用LVQ解决聚类中测试样本的交迭问题。实验表明它不仅具有较高的训练效率,同时有比较好的查全率和查准率;李滔等将粗糙集理论应用于网页分类,约简一个已知类别属性的训练集并得出判断规则,然后利用这些规则判别待分网页的类别。3、中文网页分类关键技术3.1网页特征提取特征提取在整个中文网页分类的过程中非常重要,是能够体现网页分类核心思想的地方,特征提取的效果直接影响分类的质量。特征提取就是对词条选择之后的词再次进行提取,提取那些能代表网页类别的词来构成用于分类的向量。特征提取的方法主要根据评估函数计算每个词条的值,再根据每个词条的值进行降序排序,选择那些值较高的词条作为最后的特征。征提取的常用的评估函数有文档频率(DF)、信息增益(IG)、互信息(MI)、开方拟和检验(CHI)、期望交叉熵(ECE)和术语强度(TS)等。通过对上述5种经典特征选取方法的实验,结果表明:CHI和IG方法的效果最佳;DF、IG和CHI的性能大体相当,都能够过滤掉85%以上的特征项;DF具有算法简单、质量高的优点,可以用来代替CHI和IG;;TS方法性能一般;MI方法的性能最差。进而的实验结果表明组合提取方法不但提高分类精度,还显著缩短分类器训练时间。3.2分类算法分类算法是分类技术的核心部分,目前存在多种中文网页分类算法,朴素贝叶斯(NB)、K-近邻(KNN)、支持向量机(SVM)、决策树(DecisionTree)和神经网络(NN)等。朴素贝叶斯(NB)算法首先计算特征词属于每个类别的先验概率,在分类新文本时,根据该先验概率计算该文本属于每个类别的后验概率,最后取后验概率最大的类别作为该文本所属的类别。很多学者对贝叶斯分类算法进行了改进,如结合潜在语义索引的贝叶斯方法,结合模糊聚类的朴素贝叶斯方法,贝叶斯层次分类法等。K-近邻(KNN)是传统的模式识别算法,在文本分类方面得到了广泛的研究与应用。它通过计算文本间的相似度,找出训练集合中与测试文本最相近的k个文本,即新文本的k个近邻,然后根据这k个文本的类别判定新文本的类别。支持向量机(SVM)以结构风险最小化原则为理论基础.通过适当选择函数子集及其该子集中的判别函数使学习机的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器对独立测试集的测试误差相对也小,从而得到一个具有最优分类能力和推广能力的学习机。SVM算法具有较强的理论依据,在应用到文本分类时取得了很好的实验结果。李蓉等提出了KNN与SVM相结合的分类算法,取得了更好的分类效果。目前,比较有效的SVM实现方法包括Joachims的SVMlight
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年秋新北师大版数学一年级上册教学课件 第一单元 生活中的数 第7课时 快乐的午餐
- 水质实验室基础知识培训课件
- 新型储能项目安全生产方案
- 聚酰亚胺薄膜生产线项目运营管理手册
- 施工现场卫生管理方案
- 化工产业园危险化学品应急响应方案
- 一、机械能(第2课时) -苏科版九年级《物理》上册考点练习
- 影视艺术特性74课件
- 水电消防知识培训课件
- 2025版建筑工程设计与施工一体化论文集合同
- 锂离子电池正极材料研究进展
- 二手房屋买卖物品交接清单
- 技师论文 变频器的维修与保养
- 非标自动化设备项目进度表
- 诊断学教学胸部查体
- 桥梁安全事故案例警示
- YY/T 1095-2015肌电生物反馈仪
- SB/T 10460-2008商用电开水器
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
- GA 1800.2-2021电力系统治安反恐防范要求第2部分:火力发电企业
- 欣旺集团种禽养殖管理制度手册
评论
0/150
提交评论