




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)中文网页自动分类技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
桂林工学院硕士学位论文 摘要 随着科学技术的飞速发展 人们进入了数字信息化时代 同时 电子信息急 剧膨胀 在这个时代 信息就是财富 信息决定成败 只有及时获取准确 有效 的信息 才能跟上时代的步伐 因此 对于浩如烟海的信息 帮助人们从中获取 准确 有效的信息成为信息处理领域的一个重要研究课题 网页是电子信息的载 体 其自动分类由此成为这个领域的一个重要研究方向 相对于人工分类 它能 够大大节省时间 物力和财力 还能提高自动分类的准确率和召回率 简言之 研究实现中文网页自动分类不仅对于帮助人们快速 准确获取所需信息具有积极 的意义 而且对于推动和发展中文信息检索技术也有重要意义 本文首先介绍了论文的课题背景 意义和国内外的研究现状 概述了文本自 动分类相关理论 主要技术和重要算法 在此基础上 简述中文网页自动分类 再重点分析中文网页自动分类的关键技术 包括网页格式的转换 中文分词技术 特征项选择方法 遗传算法降维和自动分类方法等 对于网页格式的转换 本文 通过分析网页的结构信息 针对其特点利用开源软件提取对分类有一定贡献的文 本信息 对于中文分词技术 采用分词性能良好的海量中文智能分词功能基础件 研究版进行分词 分词结束后 先组合文本频数和z 2 统计法进行初步的特征项选 择 再根据分词结果结合网页结构信息特点改进t f i d f 权重公式 使用改进后 的公式对特征项权重调整之后进行特征项的二次选择 然后 用文本表示模型表 示网页 这样 网页就转化成了文本 网页自动分类也就转化为了文本自动分类 在综合比较了当前几个典型的网页自动分类算法之后 本文选取了分类方面表现 出色的支持向量机方法 在特征项选择过程中降低特征向量维数方面 本文采用 了目前已应用于许多领域的具有全局优化能力的遗传算法 特征t 旬量降维后 将 其用支持向量机方法训练构造s v m 多类分类器 实验结果表明 与用不降维的 特征向量训练构造的s v m 多类分类器相比 用降维后的特征向量训练构造的 s v m 多类分类器 其对网页进行自动分类的准确率和召回率都有 定程度的提 古 同 关键词 中文主题网页自动分类 文本自动分类 特征项选择 遗传算法 网页 自动分类算法 桂林工学院硕士学位 论文 a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y t h eh u m a nh a v e a c c e s s e dt ot h ed i g i t a li n f o r m a t i o ne r a a tt h es a m et i m e t h ee l e c t r o n i ci n f o r m a t i o n i n f l a t e sd r a m a t i c a l l y i nt h i st i m e i n f o r m a t i o ni st h ew e a l t h a n d i n f o r m a t i o nw o u l d d e t e r m i n es u c c e s so r f a i l u r e o n l yt i m e l ya c c e s st o t h ee f f e c t i v ea n da c c u r a t e i n f o r m a t i o n c a nw ek e e pu pw i t ht h ep a c eo ft h et i m e s t h e r e f o r e h o wt oh e l pt h e p e o p l e t o g a i n t h ea c c u r a t ea n de f f e c t i v ei n f o r m a t i o nf r o mt h ev o l u m i n o u s i n f o r m a t i o nb e c o m e sa n i m p o r t a n tr e s e a r c hs u b j e c ti n t h ef i e l do fi n f o r m a t i o n p r o c e s s i n g w e b s i t ei st h ec a r r i e ro fe l e c t r o n i ci n f o r m a t i o n s ot h ea u t o m a t i cw e b s i t e c a t e g o r i z a t i o nb e c o m e sa l li m p o r t a n tr e s e a r c hd i r e c t i o no ft h i sd o m a i n c o m p a r e dt o m a n u a lc l a s s i f i c a t i o n i tc a ns a v et h et i m e h u m a n m a t e r i a la n df i n a n c i a lr e s o u r c e s g r e a t l y a n di m p r o v et h ea c c u r a c yr a t ea n dr e c a l lr a t eo ft h ec a t e g o r i z a t i o n t o o i n s h o r t t h er e s e a r c ho nt h ec h i n e s ew e b s i t ea u t o m a t i cc a t e g o r i z a t i o nn o to n l yh a s p o s i t i v es i g n i f i c a n c ef o rh e l p i n gp e o p l et oa c c e s st ot h e i rr e q u i r e di n f o r m a t i o nf a s t a n da c c u r a t e l y b u ta l s oi si m p o r t a n tt ot h ep r o m o t i o na n dd e v e l o p m e n to fc h i n e s e i n f o r m a t i o nr e t r i e v a lt e c h n o l o g y t h i sp a p e rf i r s t l yi n t r o d u c e dt h eb a c k g r o u n da n ds i g n i f i c a n c eo fi t st o p i c a n d d o m e s t i c a n di n t e r n a t i o n a lr e s e a r c hs t a t u sa b o u ti t o u t l i n e dt h et e x tc a t e g o r i z a t i o n t h e o r y t h em a i nt e c h n i c a la n di m p o r t a n ta l g o r i t h m b a s e do nt h i s d e s c r i p t e dt h e c h i n e s ew e b s i t ea u t o m a t i cc a t e g o r i z a t i o n b r i e f l y a n dt h e n f o c u so nt h ek e y t e c h n o l o g i e so ft h ec h i n e s ew e b s i t ea u t o m a t i cc a t e g o r i z a t i o n w h i c hc o n c l u d e dt h e c o n v e r s i o no fw e b s i t ef o r m a t t h ec h i n e s ew o r ds e g m e n t a t i o nt e c h n o l o g y t h em e t h o d o fc h a r a c t e r i s t i c s s e l e c t i o n d i m e n s i o nr e d u c t i o n w i t h g e n e t i ca l g o r i t h m a n d a u t o m a t i cc a t e g o r i z a t i o nm e t h o d s f o rt h ec o n v e r s i o no fw e b s i t ef o r m a t t h ep a p e r u s e da no p e ns o u r c es o f t w a r et oe x t r a c tt h et e x t i n f o r m a t i o n c o n t r i b u t i n gt o t h e c a t e g o r i z a t i o nt oa ne x t e n t i nv i e wo ft h ea c q u i r e dw e b s i t ef e a t u r e sa f t e ra n a l y z i n g t h es t r u c t u r a li n f o r m a t i o no f w e b s i t e f o rt h ec h i n e s ew o r ds e g m e n t a t i o n t h ep a p e r a d o p t e d h a i l i a n gc h i n e s ei n t e l l i g e n t w o r ds e g m e n t a t i o nf u n c t i o n a lb a s i c a l c o m p o n e n t sr e s e a r c hv e r s i o nt oc o m p l e t ew o r ds e g m e n t a t i o n a f t e rt h a t t h ep a p e r n 桂林工学院硕士学位论文 f i r s t l y c o m b i n e do fd o c u m e n t f r e q u e n c ya n dx 2 s t a s t i c a lm e t h o d st os e l e c t c h a r a c t e r i s t i cp r e l i m i n a r y l y t h e na c c o r d i n gt ot h er e s u l t so ft h et e r m i ni m p r o v e dt h e t f i d fw e i g h tf o r m u l a u s e dt h em o d i f i e df o r m u l at o a d j u s tt h ec h a r a c t e r i s t i c s w e i g h tt oc o m p l e t et h es e c o n ds e l e c t i o no fc h a r a c t e r i s t i c t h e n i te x p r e s s e dt h e w e b s i t ew i t ht h et e x te x p r e s s i o nm o d e l t h e r e f o r e t h ew e b s i t ei st r a n s f o r m e dt ot h e t e x t a n dt h ea u t o m a t i cw e b s i t ec a t e g o r i z a t i o ni st r a n s f o r m e dt ot h ea u t o m a t i ct e x t c a t e g o r i z a t i o n i nc o m p a r i s o no f s e v e r a lc u r r e n t t y p i c a lw e b s i t e a u t o m a t i c c a t e g o r i z a t i o na l g o r i t h m s w es e l e c t e ds v mm e t h o d s w h i c hh a st h eo u t s t a n d i n g p e r f o r m a n c eo ft h ec a t e g o r i z a t i o n i nt h ea s p e c to fr e d u c i n gt h ed i m e n s i o no f e i g e n v e c t o r sd u r i n gt h ec h a r a c t e r i s t i cs e l e c t i o n t h i sp a p e ra d o p t e dg e n e t i ca l g o r i t h m w h i c hh a st h ea b i l i t yo fg l o b a lo p t i m i z a t i o na n dh a sa p p l i e di nm a n yf i e l d s a n dt h e n t h e ya r et r a i n e dt oc o n s t r u c ts v mm u l t i c l a s s i f i c a t i o nc l a s s i f i e rw i t ht h es u p p o r t v e c t o rm a c h i n e sm e t h o d t h er e s u l t so ft h ee x p e r i m e n ts h o wt h a ti nc o m p a r ew i t ht h e s v mm u l t i c l a s s i f i c a t i o nc l a s s i f i e rw h i c hi sc o n s t r u c t e d b yt r a i n i n g t h e u n r e d u c e d d i m e n s i o n a l e i g e n v e c t o r s t h e s v mm u l t i c l a s s i f i c a t i o nc l a s s i f i e r c o n s t r u c t e db yt r a i n i n gt h er e d u c e d d i m e n s i o n a le i g e n v e c t o r sh a sac e r t a i ne x t e n t e n h a n c e m e n ti nt h ea c c u r a c yr a t ea n dr e c a l lr a t eo ft h ea u t o m a t i cw e b s i t e c a t e g o r i z a t i o n k e y w o r d s a u t o m a t i cc h i n e s es u b j e c tw e b s i t ec a t e g o r i z a t i o n a u t o m a t i ct e x t c a t e g o r i z a t i o n c h a r a c t e r i s t i cs e l e c t i o n g e n e t i ca l g o r i t h m a u t o m a t i c w e b s i t e c a t e g o r i z a t i o na l g o r i t h m i i i 桂林工学院硕士 学位论文 研究生学位论文独创性声明和版权使用授权说明 独创性声明 本人声明 所呈交的论文是我个人在陈基漓副教授指导下进行的研究工作及 取得的研究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不 包含他人已经发表或撰写过的研究成果 也不包含为获得桂林工学院或其它教育 机构的学位或证书而使用过的材料 对论文的完成提供过帮助的有关人员已在论 文中作了明确的说明并致以了谢意 学位论文作者 签字 l 蟊磁 签字e t 期 迎g 臣 f 旦 版权使用授权说明 本人完全了解桂林工学院关于收集 保存 使用学位论文的规定 即 按照 学校要求提交学位论文的印刷本和电子版本 学校有权保存学位论文的印刷本和 电子版 并提供目录检索与阅览服务 学校可以采用影印 缩印 数字化或其它 复制手段保存论文 在不以赢利为目的前提下 学校可以公布论文的部分或全部 内容 保密论文在解密后遵守此规定 学位论文作者 签字 指导教师签字 签字日期 j 一 桂林工学院硕士学位论文 1 1 课题背景及意义 第1 章引言 随着互联网的普及和网络技术的快速发展 我们进入了信息化时代 信息技 术渗透了社会生活的方方面面 人们的生活 工作和学习方式都发生了巨大改变 给人们带来了便利 电子商务使在家购物成为可能 个人b l o g 使交友更开放 在 线游戏使娱乐更丰富 企业主页使宣传新产品更及时 远程教育使接受著名学府 教育和培训变为现实等 与此同时 网页信息随之迅速膨胀 为网页自动分类研 究提供了丰富的实验平台 同时 由于网页信息是杂乱无序的 于是人们身陷信 息海洋 无法从其中迅速 准确地搜索到自己感兴趣的有用信息 因此 对网页 实现自动分类使人们快速 准确获取所需信息是必要也是必需的 对于海量的网页信息 传统的做法是对其人工分类后进行组织和管理 但是 网页信息每时每刻都在发生变化 依靠人工方法组织和管理它不仅不现实 还将 耗费大量的人力 物力和财力 而且由于不同的分类人员掌握的尺度不一样 对 材料的理解不一样 或者对分类的某个领域不熟悉 都会出现错分 漏分的情况 影响分类的准确性 还可能出现分类结果一致性不高的问题 网页自动分类技术能提供网页集的良好组织结构 简化网页存取操作 提高 信息检索效率 并且 它逐步应用于面向主题的搜索引擎 个性化搜索引擎 电 子邮件分类 w e b 信息过滤 w e b 信息主动推送服务和数字图书馆等 因此 网页 自动分类日益成为机器学习领域里一个具有重要理论意义和广阔应用前景的研究 热点 1 2 国内外的研究现状 网页格式灵活 多种格式并存 但一般由h t m l 语言书写而成 所包含的信息大 多是文本信息 因此 网页自动分类以文本自动分类为基础 国外的文本自动分类研究开始于2 0 世纪5 0 年末 h p l u h n 在这一领域进行 了丌创性的研究 提出了词频统计思想并用于自动分类n 3 其后 m a r o n 和h b o r k o 等许多学者在这一领域进行了卓有成效的研究 现在 国外的文本自动分类研究 桂林工学院硕士学位论文 已经从最初的可行性基础研究经历的实验性研究进入到了实用阶段 比较成功的 例子如麻省理工学院为白宫开发的邮件分类系统等 当前 国外主流的分类方法 有l i o c c h i o 法及其变异方法 k 近邻法 k n n 决策树 相似性度量 神经网络法 支持向量机 s v m 等乜1 这些方法在对于英文文本自动分类上的研究表明k n n 和 s v m 是英文文本分类的最好方法 国内在2 0 世纪8 0 年代初期才开始文本自动分类研究 所做的研究基本上是 在英文文本自动分类的基础上结合中文文本和汉语语言的特性采取相应策略 再 应用于中文文本自动分类上 1 9 8 1 年 侯汉清教授对于计算机在文本分类工作中 的应用作了探讨 早期的系统的主要特点是结合主题词表进行分析分类 人工干 预的成分很大 如香港大学的w a il a m 等人将k n n 方法和线性分类器相结合 取 得了较好效果 在召回率接近9 0 时准确率大于8 0 c k p w o n g 等人研究了用 混合关键词进行文本分类的方法 召回率和准确率分别为7 2 和6 2 复旦大学和 富士通研究开发中心的黄首著等研究了独立语种的文本分类 以词汇和类别的互 信息量为评分函数 最好的实验结果召回率为8 8 8 7 上海交通大学的刁倩 王 永成等结合词权重和分类算法进行分类 再用v s m 方法测试分类正确率达到 9 7 n 1 此后 统计学的理论 分词技术和语料库技术等被逐步应用到文本分类中 中文文本自动分类技术研究由此得到了飞速发展 短短二十多年就完成了从可行 性探索到实用化阶段的转变 文本自动分类技术的日渐成熟促使网页自动分类技术不断发展并成为当前的 研究热点 网页自动分类相对文本自动分类更难处理 要考虑很多因素 这主要 是由网页结构特点决定的 因为网页中除纯文本外 还包含大量h t m l 标记 开始 不少研究者试图使用纯文本自动分类技术实现网页自动分类 f u r n k r a n z 用指向 该网页所有链接周围的文本以及标题信息表示网页 再用r i p p e r 算法对该文本进 行分类 其准确率比单纯使用局部文本提高了2 0 h 3 o h 等人也结合网页局部文 本和部分接近原网页的链接网页的文本表示网页 实验结果f 指标比使用所有链 接网页提高了7 啼1 y a n g 等人通过在h o o v e r s 和w e b k b 数据集上的研究给出了比 较客观的解释 网页是否集中地存在某种规律以及能否利用这些规律对网页分类 算法的性能起关键的影响作用呻1 c h o o n 用组合网页分类器的方法进行网页分类 其中一个分类器用网页的纯文本和标题信息表示网页 另一个分类器用指向该网 页所有链接周围的文本表示网页n 3 国内的范焱等人提出了用朴素贝叶斯协调分 2 桂林工学院硕 士学位论文 类器综合网页纯文本和其他结构信息进行网页分类 实验结果证明组合文本分类 器后分类性能有一定程度提高 但各个分类器性能难估计 且使用什么组合策略 难确定州 1 3 本文的主要工作 文本对中文主题网页的自动分类进行了研究探讨 针对该类网页的特点 对中 文主题网页自动分类的一些关键技术做了深入研究 并实现了一个中文主题网页 预处理和自动分类处理模型 具体包括 1 使用j a v a 的开源软件包h t m l p a r s e r 对训练网页集的每个网页进行h t m l 解析 提取该网页的t i t l e p a r a g r a p h 和d i v 等文本信息 并保存为文本文件 2 采用j n i j a v an a t i v ei n t e r f a c e j a v a 本地化方法 技术调用海量中 文智能分词功能基础件研究版的源码对训练网页集的文本文件进行分词 同时过 滤停用词 3 将o f d o c u m e n tf r e q u e n c y 文本频率 和c h i 彳2 统计法 方法组合起 l 来进行特征项选择 再用遗传算法对特征向量进一步降维 4 结合网页的结构特点对t f i d f 公式进行改进后计算特征项权重 5 利用l i b s v m 软件包 根据网页文本的v s m v e c t o rs p a c em o d e l 向量空 间模型 训练构造分类器 3 桂林工学院硕士学位论文 第2 章文本自动分类概述 2 1 文本自动分类概述 文本分类是文本挖掘的一个重要组成部分 它在提高信息检索的召回率和准 确率方面意义重大 其目的是在给定的分类体系下 将未知类别的文本归为其中 的一类或若干个类 从纯数学角度来看 文本分类是一个映射的过程 即将未知类别的文本映射 到已有的类别中 该映射可以是一一映射 也可以是一对多映射 用数学公式表 示为如下形式 f a 8 公式 2 1 其中 a 为待分类的文本集合 b 为给定分类体系的类别集合 f 为a 到b 的 映射 文本分类的映射规则是系统根据已掌握的每个类别的若干样本的数据信息 总结出分类的规律性而建立的判别公式或判别规则 根据总结出的判别规则 就 能确定待分类文本的类别 文本自动分类 a u t o m a t i ct e x tc a t e g o r i z a t i o n 简称a t c 是在给定的分 类体系下 根据文本的内容用计算机程序确定该文本所属类别的过程 即用计算 机程序来确定未知类别文本和预先定义类别之间的隶属关系 1 从数据挖掘的角度来说 根据分类过程中是否进行学习 文本的自动分类技 术可以分为两类 有指导 s u p e r v i s e d 的分类和无指导 u n s u p e r v i s e d 的分类n 引 有指导的分类又称为领域分类 简称分类 指根据一个已被人工处理过的训练文 本集去挖掘出文本属性和文本类别之间的关系模型 然后根据学习得到的这种关 系模型对文本测试集进行自动的类别判断 简而言之 文本自动分类就是先训练 学习得到一个分类模型 再根据该模型对未知类别的文本进行分类 无指导的分 类或者称为文本聚类 c l u s t e r i n g 指文本的类别及数量可以是不确定的 要经 过文本的组织 聚类后才能得到 文本聚类通常采用层次聚类 系统聚类 方法 通常分为两类 一种称为凝聚法 或自底向上的方法 将每篇文本都看作一个文本 类 然后根据文本之间的相似情况 不断地把相似文本合并为一类 另一种称为 分解法 或自顶向下的方法 对所有文本给定一个较粗的分类 然后再不断细化 4 桂林工学院硕士 学位论文 2 2 文本表示模型 在对文本进行自动分类之前 必须把文本表示成为计算机可以处理的形 式 也就是建立计算机能识别的文本表示模型 文本表示模型的建立 1 涉及两个问题 一是确定表示文本的基本单位 用于表示文本的基本单位通常称为文本的特 征或特征项 文本表示就是用一定的特征项构成特征向量来代表文本文件 不同 的特征项组合可以区分不同内容的文本文件 二是采用什么方法建立模型 文本是非结构数据 要让计算机能识别出文本 的类别 就要将文本进行结构化处理 目前 文本表示模型主要有三种 布尔模型 概率模型和向量空间模型 1 布尔模型 布尔模型是基于集合论和布尔代数的文本表示模型 首先 建立一个二值变 量的集合 这些变量对应为文本的特征项 文本用这些特征项表示 如果出现某 个特征项 则相应的特征变量取 t r u e 否则 特征变量取 f a l s e 文本与 查询的匹配规则遵循布尔运算的法则 布尔模型易实现 速度快 但在文本分类 领域 它的准确率和召回率较差 2 概率模型 布尔模型将文本表示为相互独立的特征项 忽视了特征项之间的关联性 概 率模型考虑特征项之间的相关性 把集中的文本分为相关文本和无关文本 该模 型是一种基于贝叶斯决策理论的自适应模型 以数学理论中的概率论为原理 通 过赋予特征项概率值来表示它在相关文本和无关文本之间出现的概率 然后计算 文本间相关的概率 最后系统根据此概率做出决策 一种常见的概率模型形式是贝叶斯概率模型 其基本思想是 将训练文本分 解为特征向量和决策类别向量 并假定特征向量的各分量独立地作用于决策变量 这个假定在实际应用中以指数级降低了贝叶斯网络构建的复杂性 在很多领域 即使违背了这个假定 贝叶斯概率模型也表现出相当的健壮性和高效性 目前 它已被成功应用到文本分类中 3 向量空间模型 向量空间模型由6 s a l t o n 等在2 0 世纪6 0 年代提出n 引 并在著名的s m a r t 5 桂林工学院硕士学位论文 系统中实现 效果好 在信息检索中得到广泛应用 其基本思想是 将每个特征 项作为n 维特征空间坐标系的一维 将每个文本文件看作特征空间的一个向量 用两个向量之间的夹角来衡量两个文本之间的相似度 在该模型中 每个文本文 件都被表示为由一组规范化正交特征项向量所张成的向量空间的一个点 即形式 化为n 维空间中的向量 由此 一个文本文件可抽象为 v d f 一 t i m f 2 w 2 乙 f 1 2 以 其中 t i 为特征项 w i j 为t i 在文本d i 中的权重 通常 选择词为特征项 用 词频来表示特征项对应的向量分量即权重 权重的计算 1 3 l 主要运用t f i d f 公式 其指导思想是 在一个文本文件中出现次数越多的特征项 在另一个同类文本文 件中出现的次数也会很多 反之亦然 它的构造原理是 特征项的重要性与特征 项在文本中的频数成正比 与训练文本中不出现该特征项的文本频数成反比 一 种比较普遍的t f i d f 公式为 t f i d f t i d f 一砸f 宰i o f 一r f t d f 掌l o g 二 o o r 公式 2 2 n 式中 t i 表示特征项 d i 表示该特征项所在的文本 t f t i d i 表示t i 在文 本d j 中出现的频数 是t f i i 的值 n 表示训练文本集中所有文本数 n j 表示包含 特征项t i 的文本数 对数部分为i d f i j 的值 i d r 的主要思想是 如果包含特征项 t i 的文本数越少 也就是n i 越小 i d f 越大 则说明特征项t i 具有很好的类别区分 能力 如果某一类c 中包含特征项t i 的文本数为m 而其它类包含特征项t i 的文 本总数为k 显然 所有包含t 的文本数n m k 当m 大的时候 n 也大 按照 d f 公式得到的i d f i i 的值会小 就说明特征项t i 类别区分能力不强 t f i d f t i d i 则为t i 在文本d j 中的权重 对于二个训练文本集 我们可得到一个向量空间 该向量空间常是一个稀疏 矩阵 待分类文本在向量空间模型中也能采用与表示训练文本相同的方法表示出 来 待分类文本的向量与训练文本向量越接近 待分类文本与训练文本就越相似 越有可能属于同一类别 文本之间的相似性可以通过文本向量间距离的大小来衡 量 两个文本所对应的向量之间的距离最小就说明这两个文本最相似 衡量两个 向量的距离 即计算它们的相似度 一般采用如下两种方法 欧氏距离 两个标准化的文本向量a b 间的欧氏距离为 6 桂林工学院硕士学位论文 讹加孵 余弦距离 即计算两个向量a b 的余弦夹角 c o s 口 b 两a 丽 b 2 3 文本分类算法简介 公式 2 3 公式 2 4 文本分类算法是文本自动分类的核心技术 根据文本特征的表示方式和利用 的文本信息不同 文本分类算法大致分为以下3 类 1 向量空间模型 v s m 表示n 引 文本表示为特征项 词或字或短语 向量 向量中元素对应词频 不考虑特 征项在文本中的顺序信息 使用v s m 的算法大多属于基于词频统计的学习方法 如朴素贝叶斯 n b 支持向量机方法 s v m k n n 神经元网络 n n 等 特 征项通常要进行选择实现降维 文本向量根据特征项权重对词频权值进行调整 2 s o w 表示n 引 s o w 忽略词频信息 只关心特征项是否出现 使用s o w 算法的有c 4 5 r i p p e r f o i l 等符号规则归纳算法 3 基于语义的表示n 邮 v s m 和s o w 表示都没有考虑特征项的语义信息 w o r d n e t 和知网分别是描述英 文 中文概念的语义知识库 研究表明 采用基于词频统计的学习方法取得不错的分类性能 而采用基于 语义的学习方法分类 分类结果没有显著提高 如何将两者结合分类值得研究 2 4 分类性能评价指标 因为文本分类从根本上说是一个映射过程 所以评估文本自动分类系统的标 准是映射的准确程度和映射的速度 映射的速度取决于映射规则的复杂程度 而 评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果 这里假设 人工分类完全正确并且排除个人思维差异的因素 文本自动分类系统的分类结果 7 桂林工学院硕 士学位论文 与人工分类结果越相近 分类的准确程度就越高 这里隐含了评估文本自动分类 系统的两个测评指标 准确率p r e c i s i o n 和召回率r e c a l l 另外 还有宏平均准 确率 宏平均召回率 f 1 值 宏平均凡值和降维度 7 1 1 第i 类的准确率 p f 只是指对于第i 个类别 所有待分类文本的分类结果正确比率 数学公式为 t a 二l m i 公式 2 5 其中 是经分类系统输出分类结果为第i 类的文本数 是在 中分类正确 的文本数 p j 值越高 分类器在该类上出错的概率越小 2 第i 类的召回率 指对于第i 个类别 分类结果的完整性 数学公式为 见 土 公式 2 6 n i 其中吩为所有测试文本集中 属于第i 类的文本数 是经分类系统输出分类 结果为第i 类且结果正确的文本数 召回率越高 分类器在该类上可能漏掉的分 类越少 3 第i 类的f 1 值 f 1 也称之为综合分类率 公舶r 一器 删2 其中只为第i 类的准确率 r 为第i 类的召回率 4 宏平均准确率 其公式为胁c d p i 三套 公式 2 8 其中 为第j 类的准确率 n 为所有类别的总数 5 宏平均召回率 其公式为胁删一昙砉尺 公式 2 9 8 桂林工学院硕士学位论文 其中尺 为第j 类的召回率 n 为所有类别的总数 6 宏平均凡值 用于评价分类器的整体表现 其公式为 m a c r o f l 2 m a c r o p m a c r o r公式 2 1 0 m a c r o p m a c r o r 其中m a c r o p 为宏平均精度 m a c r o r 为宏平均召回率 7 降维度 降维度是去除停用词后特征选择对文本向量的降维性能评价指标 计算公 式为 d 型l 二羔公式 2 11 l 其中 f 表示特征项集的总数目 s 表示选择的特征项数目 9 桂林工学院硕士学位论文 i i i l l l l l i l l i 一 m m i l 1 l i 第3 章中文网页自动分类简述 3 1 中文网页的信息分析 虽然互联网上的信息载体呈多样化趋势 但仍以文本为主 文字仍是互联网 上信息的主要来源 这使得文本分类具有广泛的应用 网页不同于文本文件 是用h t m l h y p e r t e x tm a r k u pl a n g u a g e 语言写成 以 h t m 或h t m l 后缀结尾 俗称h t b t l 文件n 刖 要对其进行自动分类 首先就必须分 析它的结构并提取所需的文本信息 网页由文本和h t m l 标记组成 h t m l 标记包括t i t l e h b i u d i v m e t a 等 其中t i t l e 和心标示网页的标题和段落子标题 b i u 标记起强调文本作 用 m e t a 标记中的k e y w o r d 字段是对网页主题的描述 d i v 实现c s s p 的使用 h t b l l 标记经常是嵌套关系 如h t m l 标记的元素体部分包含h e a d 标记 而h e a d 标记的元素体部分又包含t i t l e 标记和m e t a 标记 这些标记规划了网页的内容 布局 对于网页自动分类具有一定的贡献 文本是浏览网页时我们真正看到的文 字信息 这些文字信息才是网页的真正内容 以下介绍几个比较重要的h t m l 标记 标题 网页源代码中用 t i t l e 和 t i t l e 标记的文本 标题中的内容与网页 主题的关系非常密切 起着概括全篇的重要作用 根据相关资料显示 对2 0 0 0 多个网页的实际统计得出统计结果 如果标题中出现了与某个主题相关的特征词 则其主要内容与该主题也相关的网页达到了全部网页的9 7 8 关键字 网页头部使用形女h 形式说明该网页的关键字 根据它的内容可以直接确定网页的类别 关键字一般是专业词汇 对网页类别的 决定程度远高于其他特征项 链接 链接元素a 描述两个文本文件或所在文本文件与u r l 之间的关系 其 周围的文本通常是对链接指向的网页的描述 通常 一个网页中的链接所指向的 网页都是和该网页内容有一定关系的 因此通过分析链接所指向的网页类别可以 基本推断该网页的类别 网页的正文 一般是介于 b o d y 和 b o d y 之间的文字信息 根据网页的形式网页可以分为 主题网页 目录网页和图片网页 图片网页 1 0 桂林工学院硕士学位论文 指图片量大并且文字数与图片数的比值偏小的网页 目录网页 也称h u b 网页 其特征是超链接多并且文字数与超链数的比值偏小 如门户网站的首页 主题网 页则是文字量大 而图片数和超链数很小的网页 一般来说 网页的重要信息放 在网页的中央区域 若一个网页此区域的内容是某类型 则该网页很可能就属于 该类型 本文只研究探讨中文主题网页 3 2 中文网页自动分类的一般过程及难点 中文主题网页自动分类的过程一般分为网页采集 网页预处理 网页文本模 型表示 训练构造分类器 分类器分类新网页n 町 主要分为两部分 训练过程和 测试过程 如图3 1 所示 训练过程得到的结果供测试过程应用 测试过程的结 果反馈给训练过程 以便改进训练过程的方法 网页采集是收集大量中文主题网页 网页预处理包括去掉网页中的h t m l 标 记 过滤广告信息和版权信息等 噪音 分词 去除停用词 特征项选择 特 征向量降维等 网页文本模型表示是将网页文本用计算机能识别处理的一定模型 表示出来 训练构造分类器指在已知网页类别的情况下 统计不同类别内的特征 项的分布 即在给定类别系统c 和特征项集合t 的幂集之间建立一种加权的映射 关系 形成一种向量空问模型 构造生成分类器 分类器分类可以看作在已知待 分类网页的向量空间模型的情况下 将该模型输入训练中形成的各个类别的分类 器 与其中的向量空间模型进行对比 来确定该网页所属类别 图3 1 中文网页自动分类一般处理过程 桂林工学院硕士学位论文 3 3 中文网页自动分类的关键技术 考虑中文网页的信息特点 相比文本自动分类 中文网页自动分类的关键技 术是网页格式的转换 中文分词技术 特征项选择方法和分类训练算法 在下一 章里将作详细解释 3 4 中文网页的文本表示模型 在将中文网页由网页格式成功转换为文本格式之后 就可以采用文本自动分 类中的文本表示模型来表示网页的文本 因为从目前的文本分类研究来看 s v m 和k n n 的分类效果比较好啪1 所以本文选用s v m 来对网页文本进行分类 s v m 是 采用向量空间模型为训练数据的 因此 本文选用向量空间模型作为中文网页的 文本表示模型 这样 一个网页就可以量化表示为一个特征向量 1 2 桂林工学院硕 士学位论文 4 1 网页预处理概述 第4 章网页预处理 大多数自动分类技术都是基于普通文本文件的 中文网页是特殊的文本文件 其自动分类以文本自动分类为基础 因此 可以将中文网页转化为普通文本文件 后 再利用文本自动分类技术对其进行自动分类 网页预处理实际上就是实现网页格式向文本格式转换的过程 它包括去除无 用的h t m l 标记等 噪音 信息 并提取对网页自动分类有一定贡献的h t m l 标记 所标记的文本信息 对提取出的文本信息进行中文分词 同时过滤停用词 选择 特征项以降低特征向量维数等 对网页进行预处理是十分必要的 网页预处理的结果如何将直接影响网页自 动分类的准确程度和分类速度阳 首先 训练网页集中的噪音信息对于确定网页 的类别毫无贡献 反而会模糊各个网页类别的特征 预处理后噪音信息被剔除 可以提高网页分类结果的准确程度 其次 经过预处理后的网页复杂性降低 大 小缩减 能提高后续处理的效率 这样也就提高了分类速度 当前去除网页噪音的方法主要有3 类 基于网页结构的方法 基于模板的方 法和基于可视化信息的方法 所谓基于网页结构的方法 是将一个网页表示为一颗d o m d o c u m e n to b j e c t m o d e l 树或d o m 树的变体 然后依据一些启发式规则 将网页中和主题相关的信 息提取出来 它提出了内容块的概念 利用页面中的 标签将网页划分成块 基于模板的方法是从一组网页中提取出相同的模板 而后利用这些模板从网 页中抽取有用的信息 基于可视化信息的方法则是利用页面中各元素的布局信息 从而能够利用布 局信息对页面进行划分 保留页面中间区域 而其它区域则认为是噪音 4 2 网页格式的转换 要实现网页自动分类 首先要将网页格式转换为文本格式 然后利用文本自 1 3 桂林工学院硕士学位论文 动分类技术 本文采用基于网页结构的方法去除网页噪音后利用h t m l p a r s e r 进行 网页格式的转换 h t m l p a r s e r 是j a v a 的一个开源项目口2 1 是一个对现有的h t m l 文件进行分析的快速实时的解析器 可以完成文本信息的抽取 链接提取等 其 下载地址在h t t p s o u r c e f o r g e n e t p r o j e c t s h t m l p a r s e r h t m l p a r s e r 的词法分析器对 h t m l 文件进行了4 级封装 从低级到高级的顺序为 p a r s e r s t r e a m s o u r c e p a g e l e x e r p a r s e r s t r e a m 负责从文件中获取二进制数据 但不做任何处理 s o u r c e 把二进制文件转换成相应的字符序列 存储一组未加工的字符序列 p a g e 可以看 成是一个s t r i n g 数组 按行存储一个s o u r c e 文本的每一行第一个字符开始的位 置索引 l e x e r 包含了词法分析的代码 从p a g e 里读取字符串 用c u r s o r 记录 当前字符所在位置 通过状态机来生成n o d e s 节点 本文分析训练网页集中网页结构 考虑网页的各h t m l 标记对分类的贡献 用 h t m l p a r s e r 抽取了网页h t m l 文件中的t i t l e m e t a d i v 和p a r a g r a p h 等h t m l 标记所标记的文本信息 同时 利用正
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谱细胞抗体鉴定技术体系
- 秦汉时期名医成就与医学发展
- 先进特钢制造技术
- 我的秘密课文讲解
- 汽车设计核心要点解析
- 牙周病检查与诊断技术
- 软件销售年度汇报
- 人体器官大脑讲解
- 人工智能算法核心功能使用方法详解
- 胸心外科诊疗指南解读
- 2025年机关事业单位技能资格考试-文秘资料技师历年参考题库含答案解析(5套)
- 大学生法律普及知识讲座
- 2025年专科药剂学试题及答案
- 2025南方航空“梦起航”航务联合培养招聘笔试历年参考题库附带答案详解
- 苏州离婚协议书模板(2025版)
- 《电工》国家职业技能鉴定教学计划及大纲
- 零星维修工程(技术标)
- 篮球投篮教学的课件
- 园林绿化施工现场组织协调方案与措施
- 中专生招生管理办法细则
- HG-T 2006-2022 热固性和热塑性粉末涂料
评论
0/150
提交评论