已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)面向web个性化服务的网页分类技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
重庆大学硕士学位论文 中文摘要 摘要 作为一个广泛分布的全球信息服务中心,万维网集中了海量的信息,其中大 多数是以网页文本的形式存放的。这些文本信息种类繁杂,缺乏组织,现有的以 搜索引擎为代表的网络信息系统难以为每个用户都提供满意的服务。个性化技术 就是在这种情况下应运而生的。它根据用户兴趣关注点,提供为用户定制的服务, 提高其对信息服务的满意度。在万维网环境下,基于网页内容的w e b 个性化系统 有着广阔的应用前景。 网页自动分类是数据挖掘的重要研究内容,是自然语言处理技术的重要应用 领域。网页分类按照网页主题来自动划分其所属类别,是组织和管理网页信息的 有力手段,是w e b 信息检索和w e b 个性化服务的重要基础。本文研究在w e b 个 性化服务系统环境中的网页分类相关技术,主要研究内容及取得成果如下: 首先,提出了一种综合性网页特征词加权方法。该方法在网页标签分析的基 础上,针对中文网络环境,在网页描述时结合了中文词长特征,提高了网页描述 的准确性,为获得好的分类结果奠定了基础。 其次,针对大规模训练网页集,提出了聚类树支持向量机( c t - s v m ) 分类方法。 该方法通过层次聚类对训练集进行了有效的缩减,可以在保证分类效果的同时大 幅度减小支持向量机在大规模训练集上的时间开销。 此外,s h m 是一种新近提出的文本相似度计算方法,它使用知网词汇语义计 算特征词条间相似性,并采用二部图最大权匹配方法计算文本间相似度。本文巧 妙地采用了s h m 来设计支持向量机核函数,可以较好的改善支持向量机分类器的 分类性能。 最后,论文在实际网页集上做了必要的验证实验,得到了较为满意的分类效 果,验证了上述方法的有效性。 论文研究提出的上述方法,在w 曲个性化服务、知识抽取、新闻分发、以及 邮件过滤和信息监管等技术研究领域有一定的学术和应用参考价值。 关键词:网页自动分类,w e b 个性化,支持向量机( s v m ) ,知网语义分析,层次聚 类树 重庆大学硕士学位论文英文摘要 a b s t r a c t a sag l o b a l w i d ed i s t r i b u t i n gi n f o r m a t i o n 鲫 v i c ec e n t e r , w o r l dw i d ew e bc o l l e c t m 蝴i n f o r m a t i o n , m o s to fw h i e l ai ss a v e db yt e x t - b a s e dp a g e so fv a s t , m i s c e l l a n e o u s a n du n o r g a n i z e d b a s e d0 1 1t h e s ep a g e s , t r a d i t i o n a lw e bs e f v i c es y s t e m , s u c ha ss e a r c h e n g i n e , h a r d l yc 觚p r o v i d es a t i s f a c t o r ys e r v i c et oe v e r yu s g l w e bp e r s o n a l i z a f i o n t e c h n i q u ei sd e v e l o p e dt os o l v et h i sp r o b l e m i tc a ni m p r o v eu s g i ss a t i s f a c t i o nb y p r o v i d i n gc u s t o m - b u i l ts e r v i c ca e c x r d a n tw i t hu s e r si n t e r e s t i nw w w p e r s o n a l i z a t i o n s y s t e mb a s e do np a g ec o n t e n tw i l lh a v eg r e a ta p p l i c a t i o nc a p a c i t y w e b p a g ea u t o m a t i cc l a s s i f i c a t i o ni sa l li m p o r t a n tr e s e a r c ha f o ai nd a t am i n i n ga n d as i g n i f i c a n t a p p l i c a t i o no fn a t u r a ll a n g u a g ep r o c e s s i n gt e c i m o l o g y a sak e y t e c h n o l o g y o f h i g hp r a c t i c a l i t y , w e b p a g ec l a s s i f i c a t i o nt e c h n o l o g y , w h i c h a u t o m a t i c a l l yl a b e l sw e bp a g e sb yt h e i rt o p i c , i so n eo fi m p o r t a n tb a s e so fw e b i n f o r m a t i o nr e t r i e v a la n dw e bp e r s o t m l i z a t i o ns e r v i c e t h i sd i s s e r t a t i o nd o e sr e s e a r c h e s o nt e c h n o l o g i e sr e l a t e dt ow e b p a g ea u t o m a t i cc l a s s i f i c a t i o ni nw e bp e r s o n a l i z a t i o n s e r “s y s t e m s m a i nc o n t e n to f t h er e s e a r c ha n dp r o d u c t i o n sa c h i e v e di sl i s t e db e l o w : f i r s t , a r c ra n a l y z e dt h et r a d i t i o n a lf e a t u r ee x t r a c t i o nm e t h o d s t h e s i sp r e s e n t sa c o m p o s i t ew e b p a g ef e a t u r ew e i g h t i n gm e t h o d t h i sm e t h o dw h i c hg r o u n do nh t m l t a g 趾a :l 弘血舀i n t e g r a t e sc h i n 雠w o r dl e n g t hf e a t u r e sf o rc h i n 雠w e be n v i r o n m e n t s 。 i m p r o v e da c c u r a c yo f p a g ed e s c r i p t i o n t h i si sb a s i sf o rag o o dc l a s s i f i c a t i o nr e s u l t s e c o n d , f o rl a r g et r a i n i n gc o r p u s ,d i s s e r t a t i o np r o p o s e sa ni m p r o v e dc l a s s i f y a r i t h m e t i cn a m e dc l u s t e r - t r e es u p p o r tv e c t o rm a c h i n e ( c r - s v m ) d u r i n gt h ep r o c e s s , t h i sa r i t h m e t i ce f f e o t i v d yr e d u c e st h ec o r p u sb yh i e r a r c h i c a lc l u s t e r i n g , a n dt h u ss a v c i s v m i r a i n i n gt i m ei nl a r g ec o r p u sw h i l ep r o v i d ea c e r t a i nc l a s s i f i c a t i o nr e s u l l t h i r d , d i s s e r t a t i o na p p l i e st e x ts e m a n t i cs i m i l a r i t ya r i t h m e t i ct oc o n s t r u c t i o no f s v mk e r n e lf u n c t i o nt h i sa r i t h m e t i c , w h i c hc a l l e ds h m , u s oh o w - n e tw o r ds e m a n t i c c a l c u l a t i o ni nc o m p u t i n gs i m i l a r i t yo ff e a t u r ew o r d s 嘲m a x i m u m - w e i g h t - m a t c h i n go f d o c u m e n t sb i p a r t i t eg r a p hi nc o m p u t i n gs i m i l a r i t yo fp a g e s t h es v mc l a s s i f i e r sw i t h s h mk e r n e la p p e a rm o r ep r e f e r a b l ep e r f o r m a n c et ot h o s ew i t hc o m m o l lk e r n e l f u n c t i o n sf o ri n t e g r a t i o no f t e x ts e m a n t i ci n f o r m a t i o n a tl a s t , d i s s e r t a t i o ng i v e sr e s u l t so fv a l i d a t i o ne x p e r i m e n t sa b o u tt h em e t h o d s a b o v e t h ec l a s s i f i c a t i o nr e s u l ts h o w st h a ti na c t u a lw e b p a g ep m ) i p u sd o w n l o a d e df i o m i n t e r a c t , t h em e t h o d sa r ee f f e c t i v e 重庆大学硕士学位论文英文摘要 i nm a n ya s p e c t ss u c ha sw e b p e r s o n a l i z a t i o ns e r v i c e , k n o w l e d g ee x t r a c t i o n , i l e w $ d i s t r i b u t i o n , m a i lf i l t r a t i o na n di n f o r m a t i o ns u p e r v i s a l ,e t c ,t h em e t h o d sp r o p o s e di n t h i sd i s s e r t a t i o nh a v ec e r t a i nv a l u ei nt h e o r ya n da p p l i c a t i o n k e y w o r d s :w e b p a g ea u t o m a t i c a l l yc l a s s i f i c a t i o n , w e bp e r s o n a l i z a t i o n , s u p p o r t v e c t o rm a c h i n e ( s v m ) ,h o w - n e ts e m a n t i ca n a l y s i s ,h i e r a r c h i c a l c l u s t e rt r e e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重鏖太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:苑昆本签字日期:7 年f 月,日 学位论文版权使用授权书 本学位论文作者完全了解重庆太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重庆太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密( ) 。 ( 请只在上述一个括号内打“”) 学位论文作者签名:蓖昆本 签字日期:2 7 年彳月ie t 导师签名: 牛专 , 签字日期:及万严嘭月 重庆大学硕士学位论文1 绪论 1 绪论 1 1w 曲个性化服务技术 1 1 1 背景与意义 互联网已发展成为现今信息时代人类社会生活中不可或缺的重要组成部分, 成为了全球范围内传播信息的主要渠道,对人们生活影响日益加深。信息资源的 丰富使得人们在网上寻找到想要的信息变得越发困难,人们对网络信息服务系统 依赖性越来越强。据调查,网络用户对以搜索引擎为代表的网络信息服务系统的 依赖性很高,每次上网都要用到多次搜索的用户比例达4 4 2 e 1 1 。 但是该调查指出,用户对现在的主要搜索引擎的满意度并不高,得分为3 6 9 分( 满分5 分) 。这说明目前以搜索引擎为代表的信息服务系统存在着一定不足。 目前搜索引擎一般采用全文检索的模式,即对整个网页进行扫描,只要在网 页上有匹配的词语就把网页作为查询结果返回。检索完全依赖于用户给出的关键 字,系统与用户问并无进一步的交互。用户不知道如何贴切表达真正的需求,不 同用户采用同一个关键词提出的搜索请求,返回的结果是相同的,不一定能够切 合用户的需求,需要用户不断采用新的词“尝试”,造成“信息迷向”问题;同 时,系统返回给用户的信息没有考虑用户的需求,需要用户一一查看大量的返回 结果寻找想要的结果,造成所谓的“信息过载”问题,服务质量难以保证。 w e b 个性化服务技术就是为了弥补这些不足而提出的。在相同或是相近的信 息资源中,对两个不同用户的相似要求,通过采集用户的个人兴趣等个性化信息, 学习用户个性特征,并使用这个个性特征去收集、整理、排列、推荐w e b 上的资 源,节约用户获得信息的时间,为用户提供满意的服务。 1 1 2 技术基础 要真正实现个性化的信息服务,一方面,应该获取用户的兴趣类型,得到用 户需求的特征。为了跟踪用户的兴趣与行为,有必要为用户建立一个用户兴趣描 述文件( u s e r v r o r a e ) 。用户兴趣描述文件以一定的用户特征模型为基础,刻画用户 的特征。 用户模型描述的对象主要有两大类:用户的行为模式和偏好、用户行为背后 的认知过程【2 】。用户的行为归根结底是由其认知过程决定的。但是,由于用户认知 过程的机理比较复杂,其中的不确定性因素太多,目前还不能用一个精确的模型 来描述。因此近年来,用户模型的研究主要针对用户的行为模式,在基于网页内 重庆大学硕士学位论文1 绪论 容的w e b 个性化系统中主要就是通过用户在具体网页上的浏览行为和浏览时间德 到用户对该网页内容的兴趣度。之后通过对用户浏览历史网页的分类,得到用户 的兴趣分布,建立用户兴趣描述文件。图1 1 描述了在针对网页的w e b 个性化服 务系统中用户兴趣描述文件的产生过程。 另一方面,个性化的目的是为用户进行信息服务,例如新闻推荐、信息过滤 等。这就要求必须恰当的选取资源的特征,对资源进行有效的组织并且采用合适 的推荐方式。这里就涉及到资源的分类、资源与用户兴趣的匹配等问题。对网页 进行有效的分类,是w e b 信息服务中重要的基础问题。 图1 1 用户兴趣描述文件的产生过程 f i g 1 1g e a e r a t i o no f u s e ri n t e r e s tp r o f i l e 1 2 中文网页自动分类技术 1 2 1 背景与意义 随着互联网的迅速扩展,网络上以网页为载体的各种文本信息大量涌现,网 上信息量呈爆炸性增长。据c n n i c 调查,截至2 0 0 6 年1 2 月3 1 日,仅中国国内 网站网页数即达到4 4 7 亿个,网页字节数为1 2 23 0 5 7 3 70 0 0k b ,其中7 0 2 为文 本【”。这些网页的内容包罗万象,但特定的用户往往只是对某几方面的信息内容感 兴趣。由于没有对网页内容进行强制性规范和组织的机构,因此,若想快速准确 对用户进行个性化的服务,为用户推荐符合他个人兴趣的信息,预先对网页进行 分类就成为关键技术之一。 网页分类是文本分类技术在网络环境下的发展。文本分类的目的是把文档按 照他们的内容和主题来划分类别。传统的文本分类任务是由专家按照对文本内容 的理解进行人工分类,或者由作者给出文档在标准分类体系中所属的类别,例如 图书分类和论文的分类。手工分类虽然结构清晰,但是速度慢,而且依赖于专家 个人的理解,分类质量得不到保证。远远不能满足网络环境下的需要。网页自动 分类就是试图用计算机来代替专家进行网页的自动分类。网页自动分类技术在 w e b 个性化服务、信息检索、信息过滤、机器翻译等领域都起着重要的作用m 。 2 重庆大学硕士学位论文1 绪论 1 2 2 问题描述 文本分类的任务可以简单定义为:给定分类体系后,根据文本的内容自动确 定文本关联的类别。在数学上看,就是一个从文本到类别的映射过程。该映射可 以是一一映射,也可以是一对多映射。因为某些文本不但可以与一个类别关联, 也可以与多个类别相关联。分类系统按照己知类别的若干样本信息建立判别公式 和判别规则,这个过程称为训练。当遇到新样本时,按照训练得到的判别规则判 定文本的所属类别。目前,文本分类主要采用基于统计的方法。 文本分类和网页分类可以形式化表述如下【4 】:训练文档集中的每个文档用二元 组c ) 来表示,善r ”,r “是文档空间。c 是类别标记。训练过程实际上是选择 分类器算法和其参数的过程。例如,二值分类器问题的决策面实际上是如下形式 的线性分类器族: g o d = w 石+ ( 1 1 ) 当g ( 功 0 时样本属于类别q ,当g ( 力0 时样本属于类别c 2 ,其中参数w 和 阈值w 0 决定了分类器的具体形式。 1 2 3 国内外研究现状 国外对于文本自动分类的研究开展较早,5 0 年代末,h pl u h n 在这一领域进 行了开创性的研究,提出了基于词频统计思想的自动分类。1 9 6 0 年, a z o n 发表 了关于自动分类算法的第一篇论文,随后,以ks p a r k ,g s a l t o n 以及i c s j o n e s 等人为代表的众多学者在这一领域进行了卓有成效的研究工作【4 ,s 】。 国内对于文本自动分类的研究起步较晚,1 9 8 1 年,侯汉清教授对于计算机在 文本分类工作中的应用做了探讨,并对国外相关技术做了概述。此后,我国陆续 研究产生一批计算机辅助分类系统和自动分类系统。其中具有代表性的有东北大 学图书馆的图书馆分类专家系统,上海交大研制的基于神经网络优化算法的中文 自动分类系统,清华大学的自动分类系统【9 】。与西方语言相比,以东方语言如汉语、 朝鲜语、日语等为载体的文本( 统称为c j k 语言) 由于缺少天然的词间标志,词性 不存在明显标记,因此首先要运用专门的方法或技术进行分词和词性确定。随着 中文自然语言理解技术特别是中文自动分词和词性标注技术的发展,中文文本分 类技术的研究发展很快,国内近年来有一些文献根据中文的特点,对中文文本分 类技术进行了研究,将主要的机器学习方法初步应用到中文文本分类中,提出了 一些算法睁1 2 1 ,逐步从可行性探索向实用化开始转变。 1 2 4 技术基础和面临的问题 技术上,根据分类知识获取方法的不同,文本自动分类系统可以划分为两种 类型:基于知识工程的分类系统和基于统计的分类系统。 知识工程的方法主要依赖语言学知识,通过人工编制大量的推理规则作为分 重庆大学硕士学位论文1 绪论 类知识,实现相当复杂,单纯使用这种方法来进行分类对于较复杂的系统而言, 规则的数目将随系统的复杂度呈指数递增,而且对于不同的分类系统,可能需要 大量修改已有的推理规则,因此这种分类系统需要花费大量的人力物力,非常难 以实现,但是知识工程在逻辑和知识方面具有较好的感知能力。 相比之下,统计方法的实现机制比较简单,但是在对逻辑依赖性较强的复杂 文档进行分类,或者对于分类范畴比较模糊的类别进行分类时,效果并不理想。 综合比较这两种方法,由于统计方法实现文档分类实现简单,对大多数实际文档 分类速度较快,准确度在一定的条件约束下较高,系统成本比较低,因此为大多 数文档分类系统所采用。几乎所有重要的统计机器学习算法在自动文本分类领域 都得到了广泛应用。例如,最近邻分类( k n n ) 、贝叶斯分类、决策树方法、决策委 员会( b o o s t i n g 或b a g g i n g 算法) 【”】、支持向量机( s v m ) t 体1 6 1 、神经网络、最大熵和 隐马尔可夫模型等方法。而且很多的研究表明k n n 和s v m 是英文文本分类中较 好的方法 9 1 。 9 0 年代以后,基于机器学习的统计方法逐渐取代了基于知识工程的方法,成 为文本分类的主流技术,并已经取得了很好的效果。 在采用基于统计的文本分类技术对网页分类时,需要解决的一个问题是特征 词对网页的表示能力需要客观的量化,即需要合适的特征词加权算法。目前的加 权算法主要是基于纯文本的,而且很少考虑语言特征。在中文网页处理系统的环 境下不能充分利用文章信息。 另外一个问题是一些优秀的基于统计的文本分类技术时间复杂度过高,难以 满足真实环境中大型语料库分类训练的时间要求。文本分类技术在大型系统中的 应用受到了限制。 1 3 本文的主要内容和研究意义 从图1 1 中我们可以看到,在w e b 个性化系统中,网页分类在得到用户兴趣 分布的过程中起到了非常重要的作用。采集到用户浏览的样本后,遥过网页分类 技术,系统才能知道用户关心的是哪类网页,对每类网页关心的程度是多少。同 时,为了改善推荐系统响应时间和推荐质量,新资源推荐给用户之前要做整理。 在整理过程中,分类技术也起到重要的基础作用。 本文研究了在w e b 个性化系统中,网页分类所涉及到的一些关键技术。 第二章针对网页处理这一特定环境,提出了基于网页标签匹配的正文提取算 法,同时提出了一个结合中文词长度特征和网页标签语义的综合网页特征词加权 方法。 在1 2 4 节中提到,现在的文本分类系统面临的一个问题就是分类算法的时间 4 重庆大学硕士学位论文1 绪论 复杂度问题。一些优秀的分类算法,比如支持向量机,虽然在小样本集上分类效 果突出,但是由于时间复杂性问题,难以走出实验室,在大型系统中得到应用。 在w e b 个性化系统中,这个矛盾仍然存在,而且随着w e b 个性化系统的大型化, 这个矛盾会越来越突出。第三章通过结合聚类技术和分类技术,提出了聚类树支 持向量机c t - s v m 。实验和理论分析表明,在大样本集的环境下可以有效的改善 支持向量机的时间效率。 核函数的选择是支持向量机分类器的核心之一。但是现有常用核函数没有考 虑领域知识。第四章针对网页分类这一具体任务,采用基于知网的文本语义核函 数,提高了分类的效果。结合聚类树支持向量机和文本语义核函数,可以解决大 样本库条件下的网页分类问题。 5 重庆大学硕士学位论文 2 网页正文提取与特征词加权 2 网页正文提取与特征词加权 传统网页处理过程一般可分为三个步骤:首先是选择一种表示的模型,不同 的模型下网页有不同的表示形式和处理算法。其次进行网页的内容提取,在提出 的网页正文中有针对性的进行特征选择,最后就可以对网页使用相应的算法进行 分类、过滤、检索等等。可以说网页处理过程的每一步都是非常关键的技术,每 一步的性能都会影响系统的最终性能。前两步本文称为网页的预处理。本章针对 网页的预处理,根据网页不同于一般文本的特点,介绍了基于网页标签语义的正 文提取方法,结合网页逻辑结构和中文词长特点对已有的特征加权方法提出了改 进。 2 1 网页表示 当前应用的最主要的三个文本表示模型是布尔模型、概率模型和向量空间模 型闭。 2 1 1 布尔模型 布尔模型基于特征词集合来表示文档,是集合论模型。通过词条在文档中的 出现与否,定义一个二值变量的集合来表示这个文档。该模型表示简单,不能很 好的利用网页文档的信息,现在在文本分类和信息检索领域已不常见。 布尔模型的扩展包括模糊集合论模型和扩展布尔模型等。 2 1 2 概率模型 概率模型基于概率论。对于给定的文档和其中的特征词,概率模型通过两者 的相关概率来表示这篇文档。文档的项记为t ,其对特定文档d 的相关概率为 p ( r i ,d ) ,其中r 为已知的训练文档集。如果文档中特征词的集合为 r = 辑,f 2 , ,则文档可以表示为d = f 以r i t t , d ) ,p ( r i f 2 ,d ) ,只r l f - ,f ) , 概率模型中应用较多的是n 元统计模型。 2 1 3 向量空间模型 对文本表达最常用的方法是向量空间模型( v e c t o rs p a c em o d e l ,v s m ) t 1 7 1 。该 模型是一种代数模型,每个文档表示为文档空间中的一个特征向量。这个特征向 量由一系列的实数组成,每个实数表示一个特征词条在文档中的重要程度,称为 权重。 如果文档中特征词的集合为r = f 1 ,f 2 ,) ,词的权重是m ,则文档可以表 示为d = ( m ,w 2 ,) 。假设词两两之间是互相独立的,那么我们可以把词看成坐 标轴,权重看成坐标值,那么文档就是n 维词空间中的向量。 6 重庆大学硕士学位论文2 网页正文提取与特征词加权 本文中的网页表示模型采用向量空间模型。 2 2 网页正文提取 要对网页进行分类,首先要将网页转化为相应模型下的表示。例如,本文采 用向量空间模型,需要将网页通过特征提取表示为向量形式。 网页文本的文本表达虽然可以使用传统普通文本的表达方法,但是它并不完 全等同于传统文本。在网页文本中往往不仅存在正文,还有广告导航条、其他相 关链接等内容。正文以外的内容我们称之为文本噪声。由于网页的正文内容表示 了网页要表达的主要内容,因此网页预处理的第一步就是需要通过网页正文提取 得到网页内容作为特征抽取的语料源。 由于h t m l 文件中正文数据和格式标签是混合在一起的,这使得h t m l 文 件的处理变得较为复杂。如何充分利用有用的信息,抛弃无用的噪声,是对h t m l 文件进行文件预处理中最需要解决的问题。 2 2 1 网页标签分析 h t m l 语言( i - i y p e rt e x tm a r k u pl a n g u a g e ,超文本标记语言1 是一种标准的网 络文档表示形式,网络上的文档资源绝大多数由h t m l 语言写成。与纯文本( p l a i n t e x t ) 不同,网页是一种半结构化( s e m i s t r u c t u r e d ) 文件。h t m l 网页由网页内容和 h t m l 标签( r a g s ) 组成。所谓网页正文文本是指h t m l 文件需要显示的最主要的 内容。例如在一个显示新闻的网页中它的正文文本就是指新闻的标题和新闻正文 等。网页正文显示给用户,传达的是网页的内容信息,是网页分类的主要依据。 h t m l 标签是传递给浏览器的文本格式信息,隐含的是网页制作者对网页各部分 重要性的说明。 h t m l 是s g m l 标准的一个应用。s g m l ( s t a a d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ) 是一种定义描述语言的方法,它的基本思想是用描述标记( t a g ) 来提供描 述文档结构的附加信息。h t m l 标准就是利用s g m l 定义了一些标记,主要用于 描述文本的显示方式。h t m l 的语法中主要包括四部分的内容:实体( e n t i t y ) 、元 素( e l e m e n t ) 、属性( a t t r i b u t e ) 以及注释( c o m m e n t ) 。 程序2 1 是从大型网站中下载的一段新闻,是一个典型的网页文档。从该段网 页中,我们可以看到,网页所有h t m l 语句都具有比较规范的形式,即 结构, 表示描述开始, 表示描述结束。 文字n a l l l e 的大小写不敏感。 标签之间有比较严格的嵌套关系,该段h t m l 文档中用缩进表示不同的层次 嵌套。 h t m l 标签按照意义和作用不同,可以分为三类。 7 重庆大学硕士学位论文 2 网页正文提取与特征词加权 第一类表示了网页文本的组织结构。此类标签有 、 、 等。此类标签主要是供浏览器解析网页使用,对网页正 文提取来说作用不大。 第二类表示了网页正文的格式,如 、妯1 、 、 i 等。此类标签表示了网页作者对网页格式的说明,直接影响 浏览器显示在用户面前的文本样式。我们知道,重要程度不同的文字,其格式往 往也是不同的。人们往往习惯与将更重要的文字用更醒目的样式表示出来。因此, 这类标签,在表示了文档格式的同时,也传达出了文本正文的内容重要程度信息。 在文档的正文提取和文档特征加权中都是重点考查的部分。后文2 4 将对特征加权 部分加以说明。 第三类表示了网页中的其他资源,如 、 、 铂 等,其中超链接标签 叫a 是h t m l 语言的一大特色,表示了网页间 的联系,在网页关系的处理中比较重要,但是在网页正文提取上,用处不大。 图2 1 网页页面正文( 片段) 与噪音类型示倒 f i g 2 1e x a m p l eo f t e x t a n dn o i s ei nw e b p a g e ( s e g m e a t ) 8 重庆大学硕士学位论文 2 网页正文提取与特征词加权 m e s ah t l p - e q u i w ”c o n t e n t - t y p e c o n t e n t = - ”t e x t h t m l ;c h a r s e t = - g b 2 3 1 2 ”厶 m e t ah t t p - e q u i v = ”c o n t e n t - l a n g u a g e ”c d n t e n t = ”z h - c n 虏 十届人大五次会议表决通过关于物权法草案的决议一网易新闻中- i = i , 十届人大五次会议表决通过关于物权法草案的决议m l 新华网北京3 月1 6 日电 t - 届全国人大五次会议1 6 日上午高 票通过物权法。 的新闻 司i 物权法今获通过中国民法典向诞生迈出关键一步( 图) 嘲 毗国人大高票通过物权法公产私产获得平等保护 程序2 1 h t m l 实例 p r o g r a m2 1e x a m p l eo f h t m l 2 2 2 基于网页标签分析的内容提取算法 目前在网页分类研究中,描述w e b 网页的特征,主要有以下三种方式【2 0 】: 将网页仍作为普通文本;用w e b 网页头( h e a d ) 部中的文字;用链入( 1 i n k - i n ) 网 页的超链接中的文字。对于第一种方式,舍弃了网页标签,虽然避开了正文提取 的问题,但是同时也丢弃了网页格式带给我们的对网页各部分不同重要性的说明 信息。对第二种方式,虽然h t m l 标准规定网页的头部标明的是网页的内容参数 9 重庆大学硕士学位论文 2 网页正文提取与特征词加权 和摘要,但是通过对实际网页的观察,目前大多数网页的头部内容都比较杂乱, 对网页内容提取来说,已经基本上失去了原有的作用。第三种采用超链接分析的 方式描述网页要求链接的文字描述比较符合目的网页的内容。该假设在在大型新 闻网站和较规范的专题网站上比较符合现实,但是在许多实际网页上采用图片或 者不规范的广告词作为链接的起点,该方法就无法采用。因此,这三种描述网页 的特征的方法都不能很好的利用网页提供的信息。 如前所述,网页的正文是网页的主要内容,而h t m l 标签则说明了内容不同 部分的重要程度。因此,我们结合网页标签的语义,首先提取出网页的正文,然 后再通过正文进行特征提取,得到网页的向量表示。 从程序2 1 中,我们可以看到,网页标签有较为严格的嵌套关系。因此,我们 可以采用标签匹配的方法,按照标签的不同语义,确定网页的不同部分在网页内 容中的作用。从而得到网页的正文。 算法表示如下: 输入:h t m l 网页 输出:网页正文 算法: 1 读入网页,查找 标签,进行头部处理。解析 标签的属 性,并记录。查找 ,输出网页标题。 2 顺序扫描网页,按照标签语义,进行相应的操作。 2 1 当遇到文件中有 砒 出现时,记录其中的文字。 2 2 当遇到文件中有 出现时,将这段删除,因为它表示 的是脚本程序; 2 4 当遇到文件中有 $ 现时,将这段删除,因为它表示的内 容是自定义格式; 2 5 除上述情况之外,其他标签的内容作为正文记录。 3 按照记录的 标签内容,判断链接是否是正文内容,若是,插入到正文相应 的位置。 4 整理正文,输出。 算法2 1 基于网页标签语义的内容提取算法 a r i t h m e t i c 2 1t e x t d i s t i l l i n g b a s e s h t m l t a g sa n a l y s i s 1 0 重庆大学硕士学位论文 2 网页正文提取与特征词加权 2 3 网页特征词综合加权方法 在文本分类中,特征空间的维数通常很高。例如目前最常见的用词作文本特 征的情况下,维数取决于所处理的语料中包含词的数目,这个数目一般都有几万、 甚至几十万。在高维特征空间进行运算,对算法的速度效率提出了严峻的考科1 8 】。 因此,在分类器处理前,需要进行网页的特征选择,也叫特征降维,通过找到某 些最具有代表性的特征词,删去表征能力差的部分词,用尽量少的特征词描述文 档,使得特征空间变小。网页特征词加权算法是进行特征选择的基础。 2 3 1 常见的网页特征词加权方法 在向量空间模型中,文档特征向量中的每一个特征词被赋予一定的权重,表 示它在文档表示中的重要程度。即:这个特征词在多大程度上能够代表这个文档。 一个特征词在文档中的重要程度越高,它的权重的值也越大。传统计算权重时多 采取基于统计的加权方法来计算特征词的权重。主要的基于词频统计的加权有以 下几种,式中心是特征项的权值,c a d ) 是特征项在文本d 中出现的频度: 布尔加权 这是最简单的加权方法。当特征词在文本中出现时加权为l ,否则为0 。 嵋:f 1 圻( d ) m 1 2 0 c a d ) :0 u 1 j 词条频度t f 加权 直接用文档中的词条频度为加权值。 = 斫( d ) ( 2 2 ) 平方根加权 m = 4 9 ( d ) ( 2 3 ) 对数加权 m = l o g ( 矿:“) + 1 ) ( 2 4 ) m f 加权 s a l t o n 和b u c k l e y 在文献0 0 1 中使用逆文档频度( i n v e r s ed o c t u n e n t f r e q u e n c y - 一i d f ) 进行加权取得了改进的效果。的逆文档频率d r , 可以从文档频率 娥计算得到。文档频度d 指在语料库中出现特征t t 的文档数。 w f = 磁= l o g ( n 识) 其中n 为所有文档数目。 w f i d f 加权 ( 2 5 ) 著名的加权方法t f i d f 3 1 】是目前采用较多的加权方法,同时,从这种方法也 衍生出来许多改进的权重计算方法。词条频度t f 表示词条在给定文档中的重要程 重庆大学硕士学位论文 2 网页正文提取与特征词加权 度,逆文档频度i d f 则表示词在给定语料库中的分布集中性,i d f 越大,说明特 征词条的分布越集中,对文档的代表能力越强。 r m = 织l o g ( 二 ( 2 6 ) 田f 其中n 为所有文档的数目。 r f c 加权 2 斫l o g ( 刁n 够 ( 2 7 ) t f i d f 加权方法没有考虑文本长度不同的情况。t f c 加权方案p 1 1 同t f i d f 相 似,但是对特征项权值进行了归一化处理,排除了文档长度对权值的影响。 l 1 陀加权 对t f c 加权又做了一定的改动,将原始的特征项频度做了对数平滑。这样减 少了特征项频率区别很大带来的影响,更能符合文档的实际情况。 嵋= 熵加权 熵加权基于信息论对 i f i d f 公式做了改进【3 2 1 。 忡删q ( 1 + 去北b g 删佗外 这垦高蔷l 等1 0 8 印j 是特征词的信息航 此外,还有许多其他的加权方法,例如基于信噪比的加权算法【3 2 1 等。但是, 目前最常用的还是基于t f i d f 的加权算法。 2 3 2 综合网页加权方法 对网页而言,一般的对文本的加权算法都是适用的。但是,网页不但提供了 文本正文,同时通过h t m l 标签提供了附加信息。从2 3 节对h t m l 标签的分析 可以知道,超文本标签表达了网页的逻辑结构,暗示出了不同文本在网页内容中 不同重要程度。在这些标签中出现的词,其表达文档内容的能力是有差别的。例 如 刀觋d ,标签表示其包括起来的文字是网页的标题, 标签包括起来的文字 是一级标题,显示在用户面前是大号加粗的字体重点强调,显而易见,这样的文 字对概括和强调网页的整体和局部内容起关键作用。 重庆大学硕士学位论文2 网页正文提取与特征词加权 又如表格标签 ,由于有边界限制,表格里的内容相对正文是比较简 短的。因此人们总是倾向于使用更加精炼,更直接表达主题的词。这种现象在新 闻网页的。相关新闻”栏中表现的尤为明显。对表格内容进行权重加强也是合理 的。 根据h t m l 标签的意义不同,我们把标签分为4 级,对用相应级别的标签标 记的词在计算权重的时候赋予不同的权重g 。 2 3 节中提到,网页一大特点是网页可以通过超链接进行互相访问。通过对大 量实际网页的分析,目前网页的互相链接情况比较复杂,广告信息和无关链接的 情况十分普遍。一般的网页中的超链接可能是和正文主题相关的,但是也可能是 完全无关的。如果对超链接中词单纯采取完全去除或者全部加入计算都可能给网 页特征描述带来噪音,因此对超链接的词采取有区别的加权方法,即分析网页中 的超链接词是否在网页的其它部分也出现。如果出现,说明它可能是网页的正相 关信息,相应的词的权重增加,否则,该词不计入文档向量中。考虑到链接的文 本一般都很短,一般都会采取表示能力比较强的非常用词,因此,这种采取单纯 统计词条是否出现的方法,虽然没有区分找到的链接词的表示能力,但是,从实 际效果来看,该方法简单有效。同时,采用i d f 和停用词表的方法也保证了如果 链接词是常用词,不会对加权结果产生大的不利影响。 网页的h t m l 头部可以通过 标签指定网页的关键词和摘要,本来是 为了便于检索和管理,但是,目前在实际网页中也往往不能准确的表达网页内容, 大量的网页提供的该类内容是广告和垃圾信息。因此我们采用了和超链接类似的 区别处理方法。 综上,具体h t m l 标签和权重的关系如表2 1 所示。 表2 i 不同等级的h t m l 标签权重 k h t m l 标签 g 1 t i t l e 8 2 h 1 - h 6 、d l 、o l 、u l 、u 、i 、b 、s t r o n g 、e m 、t a b l e 3 3 a 、m e t a 3 0 4 其它) 1 除了网页标签代表的网页的逻辑结构信息,网页中还有另外一种信息,就是 网页正文的语言信息。中文语言信息中比较容易计算的是词语长度。中文词语长 度和其表达能力之间存在联系,常用的助词、代词等对体现文档特征没有太大帮 助的词语长度一般都短于具有较强表达区分能力的名词、术语等。越长的词出现 1 3 重庆大学硕士学位论文2 网页正文提取与特征词加权 在文档中的概率越小,而且在语义上往往具有较强的表达区分能力,因此在计算 权重时应该考虑词串的长度因素。 权重计算公式用权重的词长修正因子( 1 一p - 工) 体现词语长度对权
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026-2031年中国三维数字化行业市场动态分析及发展趋势研判报告
- 木材制作合同协议书
- 广告设计创意培训学员试题及答案
- 2026-2031年中国农产品物流行业发展前景及投资战略预测咨询报告
- 铺面卖买定金合同范本
- 木地板装修合同协议
- 防护栏生产合同协议书
- 2026-2031全球及中国固体器官移植免疫抑制剂行业发展现状调研及投资前景分析报告
- 基于杠杆原理的翼型气动补偿高速受电弓关键技术研究
- 模板租赁专卖合同范本
- 2024年中国矫正器行业调查报告
- 污水处理厂的安全生产管理制度
- 铁道职业生涯规划书课件
- 医美培训课件分享
- 扫黄打非七进活动方案
- 职业教育产教融合政策-洞察及研究
- 2025安全考试题及答案
- 美容纹绣培训课件
- 2025至2030中国LCD偏光片行业产业运行态势及投资规划深度研究报告
- 关于医院“十五五”发展规划(2026-2030)
- 国家职业技术技能标准 6-24-03-01 电线电缆制造工 人社厅发2018145号
评论
0/150
提交评论