(计算机软件与理论专业论文)面向个性化服务的网页特征描述方法研究.pdf_第1页
(计算机软件与理论专业论文)面向个性化服务的网页特征描述方法研究.pdf_第2页
(计算机软件与理论专业论文)面向个性化服务的网页特征描述方法研究.pdf_第3页
(计算机软件与理论专业论文)面向个性化服务的网页特征描述方法研究.pdf_第4页
(计算机软件与理论专业论文)面向个性化服务的网页特征描述方法研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机软件与理论专业论文)面向个性化服务的网页特征描述方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文 英文摘要 摘要 i n t e m e t 技术的发展为人们提供了方便快捷的信息获取手段。面对网络上的海 量信息,人们有时往往会感到无所适从。如何为每个用户提供快捷准确,满足个人 实际需要的信息已成为众多业内人士越来越关注的问题,个性化服务的概念应运 而生。所谓个性化服务指的是通过收集和分析用户信息来学习用户的兴趣和行为, 从而实现主动推荐的目的。 为了准确地表示用户兴趣,应该对用户访问过并且感兴趣的网页特征进行准 确地描述。即希望能用简洁而有代表性的特征描述网页内容。因此,对于网页信 息描述的准确与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心 问题。然而,对于网页信息的描述方法却很少有人系统地研究,本文针对网页特 征的描述方法作了研究,主要侧重于以下三个方面: ( 一) 网页特征词的抽取范围。通过选定特定计算机领域的网页,分析其网 页的组织结构,针对这类网页的特征,运用特征片技术,确定将网页的标题、黑 体字、首段和末段作为能表征网页内容的特征片进行抽取。不再象传统抽取特征 方法那样,只考虑标题、摘要等因素。利用抽取出的特征片经过分词处理后,形 成了本地字典,其中包含了该领域词汇以及一些常用词。该字典的形成为该领域 网页特征词的获取提供了参考。减少了分词等工作量。 ( 二) 网页特征词的精化。主要指特征词的规范化和消歧。在实现规范化处 理时,运用了本体论思想建立模型,摈弃了传统的将词语所有可能的表达方式都 写入关键词特征向量中的做法,建立了本体论字典,其中收录了计算机领域行业 标准词及其等价的同义词,并用链表体现了它们之间的关系,其中还收录了一些 通用词语及其同义词。对词语消歧处理时,则利用扩展本体论思想建立模型,包 含了词语的全信息,为消歧工作的开展提供了可靠结构存储。并针对该领域建立 了搭配知识库,作为消歧的依据。 ( 三) 网页特征词的权重计算。通过分析现有的权重计算方法,指出其不足, 并结合信息论的知识,针对网页这种特殊文本,对原方法作了改进,提出了对加 强标题词权重的改进计算方法。, 通过实验验证,本文研究的方法运用于个性化服务系统后,取得了较好的信 息推荐效果。 关键词:特征抽取,规范化,消歧,权重计算,个性化 重庆火学硕士学位论文 英文摘要 a b s t r a c t t h ed e v e l o p m e n to fi n t e r n e tt e c h n i q u ec a r lg i v ep e o p l ec o n v e n i e n ta n df a s tw a y s o fo b t a i n i n gi n f o r m a t i o n b u tp e o p l ea l w a y sd o n tk n o wh o wt h e yc a nd o ,i nf a c eo f l a r g eq u a n t i t yi n f o r m a t i o n l o t so fe x p e r sh a v ec o m e t op a ya r e n t i o nt oo n eq u e s t i o n , w h i c hi sh o wt oa f f o r dp e o p l ef a s ta n de x a c ti n f o r m a t i o nt h a tc a nf u l f i l lu s e r s d e m a n d t o d a y , an e wc o n c e p tc o m e s i n t ob e i n g ,w h i c hn a m e dp e r s o n a l i z a t i o ns e r v i c e ,t h a ti s s t u d y i n gu s e r s i n t e r e s ta n db e h a v i o rb yc o l l e c t i n ga n da n a l y z i n gu s e r s i n f o r m a t i o ni n o r d e rt oc o m m e n di n f o r m a t i o nt ou s e ri n i t i a t i v e l y p e r s o n a l i z a t i o ns e r v i c es y s t e ms h o u l dd e s c r i b ea c c u r a t e l yt h ew e bp a g e st h a t u s e r sh a dv i s i t e da n dh a di n t e r e s t e di nt od e s c r i b et h ei n t e r e s to ft h eu s e r sa c c u r a t e l y t h a ti s ,d e s c r i b i n gt h ec o n t e n to fw e bp a g e sb yu s i n gs u c c i n c ta n dr e p r e s e n t a t i o n a l c h a r a c t e r s o ,w h e t h e rc a nd e s c r i b ea c c u r a t e l yt h ew e bp a g e sw i l l a f f e c tv e r a c i t yo f u s e r s i n t e r e s tw h e t h e ro rn o t t h i si st h ek e ya s p e c to fp e r s o n a l i z a t i o ns e r v i c e t h e r e h a s n ts y s t e m i cs t u d i e so nd e s c r i b i n gc h a r a c t e r so fw e bp a g e sn o w a d a y s t h i sp a p e r p a y sa t t e n t i o nt ot h em e t h o d so f h o wt od e s c r i b et h ec h a r a c t e ro fw e b p a g e s ,i n c l u d i n g t h r e ea s p e c t s : f i r s t ,e x t r a c t a r e a so f s i g n a t u r e i n f o r m a t i o n t h i sp a p e rs e l e c t st h ef i e l d so f c o m p u t e r , a n da n a l y z e st h ep a g e s o r g a n i z a t i o na n ds t r u c t u r e t h e r e e x t r a c tt i t l e 、 b o l d f a c e 、f i r s tp a r a g r a p ha n de n d p a r a g r a p h a ss e m a n t i c a l l ys i g n i f i c a n tp h r a s e so f w e b p a g e sa c c o r d i n gi n t o t h ec h a r a c t e r i s t i cc o n t e n to ft h i s f i e l do fw e bp a g eb yu s i n g t e c h n i q u eo fs e m a n t i c a l l ys i g n i f i c a n tp h r a s e s t h i sm e t h o di s d i f f e r e n tf r o mo l do n e t h a te x t r a c t st i t l ea n da b s t r a c to n l y a f t e rp a r t i c i p l et h es e m a n t i c a l l ys i g n i f i c a n tp h r a s e s , t h e r ef o r m sad i c t i o n a r yt h a ti n c l u d i n gw o r d so fc o m p u t e rf i e l d sa n ds o m ec o m m o n w o r d s t h ed i c t i o n a r yc a na f f o r dr e f e r e n c et oo b t a i nk e y w o r d so fw e bp a g e so ft h e s a m ef i e l d s i tc a l ld e c r e a s et h ew o r k l o a d o f p a r t i c i p l e s e c o n d ,k e y w o r d ss t a n d a r d i z e a n dl e x i c a ld i s a m b i g u a t i o n t h e r ei sao n t o l o g y m o d e lt os t a n d a r d i z et h ew o r d s ,a n dd o n tp u ta l lt h ee x p r e s s i o nf o r mi n t ok e y w o r d s c h a r a c t e rv e c t o rt h a tu s e dt od ob e f o r e t h e r ei sa l s oao n t o l o g yd i c t i o n a r yt h a t i n c l u d i n gt e r m so f t h ef i e l do f c o m p u t e ra n d i t st h e s a u r u s ,w h i c hc o n n e c tt h e mb yl i n k , a n di n c l u d i n gs o m ec o m m o nw o r d sa n di t st h e s a u r u s i no r d e rt od i s a m b i g u a t e ,t h e r e f o r m se x p a n d e do n t o l o g ym o d e l ,w h i c hc o n t a i n sc o m p r e h e n s i v ei n f o r m a t i o no fw o r d s , a n di tc a np r o v i d ee f f e c t i v es t r u c t u r ea n ds t o r a g e i ti sa r r a n g ei np a i r sd a t a b a s eo ft h e l i 重庆大学硕士学位论文英文摘要 f i e l dt h a tm a k e d i s a m b i g u a t i o n d o t h i r d ,w e i g h t t e r m s t h i sp a p e r p r o v i d e sa n e wm e t h o dt h a ti sa d a p tt ow e b p a g e s , w h i c he m p h a s i z e st h ei n f o r m a t i o no ft h ep l a c eo ft i t l e ,b ya n a l y z i n gs o m el a c ko ft h e o l dm e t h o d n o w a d a y s t h ee x p e r i m e n tr e s u l t ss h o wt h en e wm e t h o dh a sb e t t e re f f e c to nr e c o m m e n d i n g w e b p a g e s t ou s e r s k e y w o r d s :d e s c r i b ec h a r a c t e r , s t a n d a r d i z a t i o n ,w o r dd i s a m b i g u a t i o n ,t e r m w e i g h i n g , p e r s o n a l i z a t i o n i l l 重庆大学硕士学位论文 1 绪沦 1 绪论 1 1 引言 i n t e m e t 技术的发展为人们提供了方便快捷的信息获取手段。但由于i n t e r n e t 上数据结构的多样性、数据分布的广泛性、数据组织的无序性、以及具有数据量 巨大和数据变化快等特点,用户在进行基于w e b 的信息检索时时常会碰到资源迷 向和信息过载的情况。面对网络上的海量信息,人们有时往往会感到无所适从。 为了帮助用户能够在i n t e m e t 上更好的漫游、更方便和更高效地进行信息浏览与检 索,研究者们提出了各具特色和适用于不同场合的w e b 信息浏览与检索技术,基 于w e b 的信息浏览与检索方法的研究已成为计算机科学与技术领域中的重要研究 内容之一。 用户在w e b 上浏览和检索信息,最为关心的是如何能够准确、快速和方便地 寻找出所需信息。如何为每个用户提供快捷准确,满足个人实际需要的信息已成 为众多业内人士越来越关注的问题,个性化服务的概念应运而生。所谓个性化服 务1 1 1 指的是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐 的目的。在个性化服务技术的研究中,影响服务质量的关键因素是用户个人兴趣 的描述模型、获取手段和兴趣准确性。用户兴趣的获取常规地可分为:用户直接 描述和输入、通过人机结合的交互方式获得和通过机器自动学习的方式获取。后 面两者被称为智能化个性服务,一般是采用人工智能和数据挖掘等方法,进行有 教师指导学习或无教师自动学习,智能性个性化服务技术是目前w 曲个性化服务 技术研究发展的主要趋势。 为了准确地表示用户兴趣,应该对用户所访问过并且感兴趣的网页的特征进 行准确地描述,力求获得该网页的较精确信息。即希望能用简洁而有代表性的特 征词描述网页内容。现今个性化服务方面的研究主要侧重于通过研究出合理准确 的挖掘方法来达到捕获用户兴趣的目的,而这些挖掘方法无疑是通过用户的浏览 日志中的网页内容信息来实现内容聚类等操作。因此,对于网页信息描述的准确 与否将直接影响用户兴趣描述的准确与否,这是个性化服务的核心问题。然而, 对于网页信息的描述方法却很少有人系统地研究,本文针对网页特征的描述方法 作了研究,主要侧重于三个方面:网页特征词的抽取范围,抽取出的特征词的规 范化方法以及特征词权重的定量计算。 1 2 论文研究的意义 w e b 已成为人们获取信息的一个重要途径,我们通过网络可以获取新闻、天 重庆大学硕士学位论文 气预报和金融等服务,还能购买到各种商品和服务。网络的用途看起来是无穷无 尽的,但从这些信息中获取对自己有用的信息并不是件容易的事。而如今许多网 站尤其是象y a h o o ! 这样的综合性网站,已经成为一些人生活中不可缺少的部分 了。每天上网看看财经消息、读读新闻、逛逛电子商城,已经成为很多人的生活 方式。互联网上蕴藏着的海量信息,对于用户来说已经大大超过了可能的阅读量。 通常用户在吸取有用信息的同时,也无奈的接收了许多无用的信息,浪费了大量 的时间。人们不得不花费大量的时间去搜索,浏览自己需要的信息。搜索引擎是 最普遍的辅助人们检索信息的工具。信息检索技术满足了人们一定的需要,但由 于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求。个性 化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足 不同的需求。 在个性化服务中很重要的一点就是要对用户兴趣进行准确描述,而用户兴趣 在很大程度上体现在其访问过的并且感兴趣的网页上。如何提取网页内容并且准 确描述出来是准确描述用户兴趣的关键所在。同时,对网页内容进行准确而又规 范地描述是深入开展个性化服务的前提条件。因为有了准确的网页描述,才能实 现将网页准确分类,并且利用分类来达到向用户进行个性化服务的目的。 本文针对网页特征描述方法的实现,将通过特征词抽取范围、特征词的规范 化和消歧处理以及特征词的权重定量计算三方面问题进行深入细致的研究。本方 法的研究对网页特征描述做了有用的探索,因此有一定的研究意义。 1 3 本章小结 在本章中,主要介绍了网站个性化服务产生的必然性和意义,并且介绍了论 文研究的主要意义。 在以后的章节中,将详细介绍三方面研究的方法和技术。其中第二章介绍了 特征词的抽取范围,第三章介绍了对特征词进行精化的方法,如何规范化和语义 消歧,在第四章中则通过对特征词权重的研究,提出了实现权重定量计算的方法, 第五章将对研究成果进行实验验证,并进行总结。 2 重庆大学硕士学位论文2 网页特征词的抽取 2 网页特征词的抽取 2 1 研究的重要性 在中文文献的自动处理工作中,诸如中文文本的自动标引、自动分类、自动 文摘等处理技术的出发点都是寻找能表征文本主题的特征信息。如何抽取这些特 征信息成为人们研究的重点。经观察发现啦i ,人在抽取特征信息时是以对原文的 全面理解为基础的。而人在理解原文时,能综合利用各种信息:如阅读者自身丰 富的背景知识、专业知识、语言知识、经验知识等,人可以对原文有一定程度的 理解,进而便能确定材料的相对重要性。而在文本的自动处理中,要实现上述功 能至少在目前还是不可能的。这也成为自然语言处理的一个难点问题。 在对网页进行特征描述时,首先需要关注的是网页的特征抽取问题。这项工 作类似于中文文本的特征抽取,当然更要考虑网页文本自身的特点。通常特征抽 取要达到两个目标:一是选取最好的词;二是选取的词最少。显然,如果对整个 网页的词语都进行统计分析,势必会有大量冗余的词语,而多数词语对分析该网 页的内容信息贡献不大,并且大量的词语提取也会造成系统的开销增大。因此, 为了实现选取最少最好的词,对网页这类特殊文本进行分析,考查从文本的哪些 地方( 即区域) 抽取特征信息,及如何确定这些区域,这是本文对网页特征词抽 取研究的焦点。 2 2 相关技术分析 2 2 1 普通文本抽取技术 现今对文本的的特征抽取也有了一些研究成果,文 3 】通过对不同文体的考查 和实验数据的验证,得出了相应的抽取范围方法。如对于新闻语料来说,文章的 开头部分对特征信息的抽取而言是一个值得重视的区域;对于科技论文来说,由 于文章作者部给出了摘要和关键词,所给出的关键词表征文章主题的能力是很强 的。通过大量的实验,得出结论,对于科技文献,特征的抽取范围应同时考虑标 题和摘要两部分区域;而对于公文类文本的主题词则可通过从标题、附件、副标 题等地方抽取。最后指出,不同类型的文章可以采取不同的处理方法。如:科技 论文一般由标题、摘要、关键词、正文组成,而各种公文类文本一般没有摘要和 关键词,但会有一些附件。新闻类文章只有标题和正文。无论哪种类型的文本, 其标题部分特征信息的含量都比文章其余部分大,但单纯从标题中抽取特征信息 是不够的,对有摘要的文章,如科技论文至少还应加上摘要部分;对没有摘要的 文章,如各种公文文本,从正文标题和附件标题中抽取特征信息的效果要比单纯 3 重庆大学硕士学位论文2 网页特征词的抽取 从正文标题中抽取要好得多。 文献 4 】则通过语义特征片s s p ( s e m a n t i c a l l ys i g n i f i c a n tp h r a s e s ) 来获取文档主 要特征从而达到学习用户兴趣的目的。它基于这样的原则:一篇文档的主要特征 可以通过极少部分特殊字符串( 特征片) 来表达。如章节标题、所列关键词表、 专用名词、缩略词、表格中的标题、行列表头、以及加黑、斜体或放大的字符串 等。通过将整个文档内容用一些特征片来表示使得系统学习的开销降低。 特征片技术的实现则比较普遍化,它不仅考虑了传统特征抽取时关注的标题、 摘要等因素( 如文献【3 提出的方法) ,并且将文档中有特殊标记的词语、语句片断 等一并作为特征信息进行考查。这样的处理使得对整个文档的特征抽取更加全面, 不再象以往的处理那样,单纯取关键词,而是得到一些片断后再从中提取单个的 关键词,保证了从这些片断中提出的关键词的重要性。本文也将在后面的处理中 借鉴该特征片提取方法,实现网页文本的特征词抽取。 2 2 2w e b 页面抽取技术 随着i n t e m e t 的发展,w w w 上的数据一直呈几何级数的增长。能够处理这样 个庞大的信息资源的信息系统成为了信息检索和信息挖掘研究的热点。w e b 网 页识别是互联网信息智能检索中的一个重要步骤。众多业内人士也投入到w e b 页 面的抽取技术研究中,提出了各自不同的方法。 由于w e b 网页内容表示与普通文本有所不同,因此如何选择合适的特征对 w 曲网页进行描述,成为w e b 网页识别中一个首先需要解决的问题 5 1 。w e b 网页 是采用超文本表示语言( h y p e r t e x tm a r k u pl a n g u a g e ,简称h t m l ) 编写的、半结 构化的文本文件。目前描述w e b 网页的特征,主要有以下三种方式 6 1 :( 1 ) 将w e b 网页仍作为普通文本;( 2 ) 用w 曲网页头( h e a d ) 部中的文字:( 3 ) 用w e b 网页 中的超链( h y p e r l i n k ) 部分中的文字。文献【5 】认为,这三种方法都没有充分利用 w e b 网页的描述特点,因此,提出了一种新的特征选择方法,即将w e b 网页头部 中的文字、超链中的文字以及w e b 网页中的其他文字综合起来,共同构成w e b 网 页的描述特征。 认为网页头部中的文字内容是对整个w e b 网页内容的最简要说明,将w e b 网 页h e a d 部分中所有文字内容中的单词作为w e b 网页的描述特征,比将w e b 网页 所有部分中的文字内容均作为w e b 网页的描述特征,即将w e b 网页看作普通文本 文件来处理更直接、简单而特征空间小。 超链中的文字内容简要描述了本w e b 网页所要说明或所要包含的内容,将 w e b 网页所有超链中文字内容的单词作为w e b 网页的描述特征。 虽然w e b 网页的原始描述特征很多( 常数以万计) ,但这些特征中的大多数, 实际上对w e b 网页的最终识别效果并无贡献。文献【5 】选择了5 种具有代表性的识 4 重庆大学硕士学位论文2 网页特征词的抽取 别特征选择方法,希望通过它们,能够有效地滤掉那些对最终识别结果无太大贡 献,甚至构成干扰噪声的原始描述特征,以保证识别正确率不受影响的情况下, 提高识别算法的运行效率。以及最终识别结果的直观性和可理解性。 这5 种识别特征选择方法分别是:文档频率( d o c u m e n tf r e q u e n c y ) 、信息增 益( i n f o r m a t i o n g a i n ) 、相互信息( m u t u a li n f o r m a t i o n ) 、x2 统计( c h i s q u a r es t a t i s t i c ) 和相对信息( c o m p a r a t i v ei n f o r m a t i o n ) 。通过实验,针对这5 种识别特征选择方法 的实际识别效果进行了比较评估,其中,信息增益( i g ) 和x2 统计( c h i ) 方法 具有明显的优势,而相互信息( m i ) 方法效果最差。 在对4 种描述特征选择方法的验证实验中,作者提出的新方法,( 即考虑头部 文字、超链中文字以及w e b 网页中其他文字) 识别效果具有最高预测正确率。其 次就是头部文字方法,其中新方法在采用信息熵或x2 统计方法选择特征时,其分 类识别的正确率达到9 0 以上,效果十分明显。 文献【7 】则对多信息块的w e b 页面的特征抽取进行研究。认为,由于w e b 页面 提供信息的密集程度不断增强,同一个页面中可能提供具有不同含义的数据块, 称这种w e b 页面为含有多个信息块的w e b 页面,简称m i bw e b 页面。在信息系 统和w w w 资源之间通常用一个中间层来进行转换。包装器通常用来提供这样的 中间信息转换机制。以往的包装器主要针对仅含有一个数据块的w e b 页面,而对 含有多种数据块的页丽无法处理。该文提出了一种新的抽取规则,结合了基于文 档结构的抽取规则和基于特征p a t t e m 匹配的抽取规则的优点,使得采用该抽取规 则的包装器可以适用于m i bw e b 页面。 该文使用包装器来进行信息抽取,在w w w 的信息应用中,包装器是一个软 件过程,这个过程应用已经定义好的信息抽取规则,将展现在输入w e b 页面中的 信息数据抽取处理,转换成用特定的格式描述的信息,提供给其它信息系统做进 步的处理。抽取规则是包装器进行信息抽取的基础。而抽取规则的描述又是建 立在被抽取w e b 页面的描述之上的。文中采用扩展d o m 树来描述w e b 页面,抽 取规则的定义和信息抽取的过程都是建立在w e b 页面的扩展d o m 树上。h t m l d o m 树是w e b 页面的一种描述方式,是根据w e b 页面中h t m l 标签的含义而建 立的有层次关系的树状结构,其上的每个节点都是一个单独的h t m l 元素,如图 2 1 ( a ) 所示,由于考查盼是其中的信息块( 区域中所包括的数据块称之为信息块) , 所以在通常的d o m 树上作了一些修改,添加了一个新的节点类型一信息块节点。 信息块节点实际上是一棵或者多棵d o m 树子树的集合,这些子树上的h t m l 元 素节点都被包含在一个信息块以内。称为扩展d o m 树,如图2 1 ( b ) 所示。从图 中可看出,b 图和a 图是等价的扩展d o m 树,图a 中的h t m l 元素节点n ,n , n 3 同属于一个信息块,在图b 中被合并为一个信息块节点i b 。 5 重庆大学硕士学位论文2 网页特征词的抽取 d o m 树 n 1 1 32 信息块 n 3 n 。 信息块 i n 5 j n 6 n ,冷息块 n 。j ( a ) 图2 1m i b w e b 页面描述 扩展d o m 树 ( b ) i b 2 i b 3 在扩展d o m 树中,根节点到每一个节点的最短路径都是唯一的。由于在 h t m l d o m 树中,同一个信息块的信息条有一个共同的父节点,而且这些信息条 都位于d o m 树的同一层次上。于是,可以用信息块在扩展d o m 树中的父节点的 位置来限定信息抽取的范围。信息抽取范围就由抽取路径和信息块索引( 在扩展 d o m 树中,信息块在父节点的子女中的位置) 。通过这样的分析研究,实现了对 多信息块w e b 页面的信息糖取。 文献【8 】提出了一种基于机器学习的网页主题词自动抽取。设计的抽取算法包 含两个阶段:训练阶段用于建立一个用于识别主题词的模型,使用已经有主题词 的网页作为训练文本集:抽取阶段使用上面训练好的模型来从一个新网页中抽取 主题词。每个阶段都从输入的网页中选择一系列的候选词,然后计算这些候选词 的特征值,根据特征值来决定主题词的取舍。在候选词的选择时,首先对文本进 行分词,去掉停用词,按照标点符号和数字等作为边界划分成子集。在文本预处 理的基础上考察每个子集来决定哪些适合作为候选词。并规定最大长度为3 的候 选词列表。得到候选词后,通过计算他们的特征值来决定主题词的取舍。为每个 6 、,j 重庆大学硕士学位论文2 网页特缸e 词的抽取 候选词计算三个特征值用于训练和抽取。 为了从一个新网页中产生主题词,首先用前面的方法确定候选词及其特征值, 并且使用训练中建立好的模型进行处理,该模型确定一个候选词是主题词的总概 率。然后将所有的候选词按照计算所得的概率排序,取排在最前面的n 个词作为 该网页的主题词( n 可以任意选择,一般文档选取5 1 5 个) 。 文献【9 】提出了一种基于内容的网页特征抽取方法。研究认为实现中文网页的 特征抽取主要的关键技术有三个方面:如何从正文中切分出反映信息核心内容、 概念的网页关键词;标记信息的特征抽取;超链信息的特征抽取。文章以现行的 真实旅游类网页文档为例并结合国外的相关研究,通过从大量中文网页中抽取出 反映网页内容概念特征的关键词。研究网页的正文信息、标记信息和超链信息的 抽取,以此来达至对中文网页的理解。 由于网页与普通文档不同,其所含信息体现在三个部分:网页正文( 为统一 研究起见,将标题中的文字也算作正文中的内容 、网页所含的超文本标记、网页 间的超链接。通过对中文大量网页进行分析,在有关语言专家进行测试的基础上, 该文认为:网页的特征抽取主要只考虑网页正文、标记信息、超链信息的特征抽 取可以反映整个网页的内容。 为了进行比较好的网页特征抽取,首先建立一个比较好的旅游类分词词典。 对该词典更新的过程即是定期将最新的网页文本加入到提取关键词词典的训练网 页库中,并进行处理。在对网页正文进行特征抽取时采用的是基于词频统计的方 法,因而分词就显得很重要。而现有的分词系统一般都较为复杂和庞大、分词速 度慢,且在处理专业技术文档时分词准确率较低,不适合在实时性要求高、文档 内容专业的环境下使用。该系统的目的是进行旅游类网页的特征抽取,因此仅采 用了基于旅游类分词词典的机械分词法。该系统的分类对象是特定领域的技术文 档,网页的特征项一般都是专业词汇,所以在进行特征抽取时无需对普通词汇进 行切分和词频统计。因此为了提高系统运行效率和技术词条切分的准确率,舍弃 了大型的通用切分词表,仅建立了较为详尽的分词词典,用于网页的词条切分和 词频统计。 针对网页中的标记信息,系统用标记树来精确描述了h t m l 文档的各标记关 系。标记树和h t m l 文档存在一一对应的关系,即由一棵标记树可以生成唯一 个超文本文件,反之亦然。这些标记中有些对超文本语义贡献很小甚至没有,如 格式中的h r 、b r 、p 标记、表格标记中的t d 、t r 标记等,因此需要对最初建立的 标记树进行修剪,以去掉不相关的因素。该系统根据网页文档和标记信息,提取 网页中含有各种标记的关键词。在研究工作中,选定了以下几种标记:( 1 ) 标题 ( 代码:( t i t l e ) ) ;( 2 ) 一级标题( 代码:( h 1 ) ) ;( 3 ) 二级标题( 代码:( h 2 ) ) : 7 重庆大学硕士学位论文 2 网页特征词的抽取 ( 4 ) 三级标题( 代码:( h 3 ) ) ;( 5 ) 强壮( 代码:( s t r o n g ) ) ;( 6 ) 强调( 4 4 码: ( e m ) ) :( 7 ) 黑体( 代码:( b ) ) ;( 8 ) 红色( 4 4 码:( # f f 0 0 0 0 ) ) 。统计所选择 的几种标记所标记的关键词和次数。选择这几种标记是因为它们标记的文字往往 对揭示网页的主题内容具有更加重要的作用。如果对网页内容进行分类,可以对 标记信息进行加权或将全部标记信息作为网页的一个特征向量。 网页中存在着复杂的超链接,超链接包括同一网页内部的相互链接( 用l i n k 标记) 和网页间的相互链接( 用a h r e f 标记) 。超链接虽然引入了网页内容问的 相关性,但这种相关性是不确定的。即相链接的网页间内容上可能相关,也可能 无关。对超链接中所含信息的特征抽取,由于超链接引入了网页内容之间的相关 性,但由于网页编写的随意性,这种相关性是不确定的。系统提出“压缩超链接 树”的方法来解决这个问题。思想大致是:提取网页中超链接的u r l 地址,将超 链接中与图象、视频、声频文件、c g i 程序、电子邮箱地址等有关的链接去掉, 只保留与网页文本的链接。将超链接的u r l 地址与源网页的u r l 地址进行字符 串比较。如果两字符只是在最后一个“”间隔号后的字符有所不同,同此链接关 系为“亲族”关系。如“父子”、“兄弟”关系。如果某节点在图中找不到父节点, 则将其作为单独的根节点加入森林。森林中每棵树上各节点代表的网页间存在着 很强的内容上的相关性。子节点所代表网页的内容包含在父节点所代表网页内容 的范畴内。 2 3 网页文本的特征词抽取 在上两节中分别对普通文本和w e b 页面的特征抽取方法进行了探讨和综述, 从分析中可以看出,对于不同形式的文本,特征抽取的方法是不同的。 在研究普通文本特征抽取时,文章作者分领域进行了分析,对于科技文献, 由于文献中本身已给出关键词、摘要等信息,所以在特征抽取时可直接提取这种 信息。如果处理的是公文类文档,由于一般不存在摘要和关键词,但有附件,因 此特征抽取可考查附件中的内容。特征片技术的提出,为特征抽取提供了新思路。 它将整个文本信息通过一些有特殊标记或有特殊含义的语义片断来表征,通过语 义片断来归纳全文信息,比仅考虑摘要和关键词等因素更全面和准确。 在对w e b 页面的特征抽取时,主要是从页面的结构出发进行特征抽取,并结 合了领域特点。文献【5 将w e b 页面从三部分来考虑,头部文字、超链中的文字以 及网页中的其他文字,通过大量的实验,发现将前述三部分综合起来抽取特征比 单纯只考虑单一的方面准确率要高些。这种方法应该是比较通用的方法了,没有 领域要求,网页结构也不复杂。而文献【7 将整个w e b 页面按多信息块来考虑,并 结合了基于文档结构的抽取规则和基于特征p a t t e r n 匹配的抽取规则的优点,实现 8 重庆大学硕士学位论文 2 网页特征词的抽取 了多信息块w e b 页面的信息抽取。该文按页面显示的结构( 即信息块) 来划分分 析的对象,文献 5 i n 是按h t m l 语言编写的格式来划分的。文献【8 在选择网页主 题词时,是通过计算所有候选特征词的特征值,将所有的候选词按照计算所得的 概率排序,取排在最前面的n 个词作为该网页的主题词。 本文所作研究是面向个性化服务系统的,在实现这个系统时选定了特定的领 域进行研究,选取的是h t t p :w w w 6 1 6 3 。c o m 网址下的电脑知识专题作为系统测试 的数据来源。因此,在实现网页特征描述时,也是针对此特定的电脑知识领域。 通过对该网站中电脑知识专题下大量网页的结构和内容进行分析,发现所有 网页页面组织结构相同。在整个页面中部位置是发表的文章,包括题目、作者、 发表时间和文章主体内容,在页面的头部和右部均是些相关链接,并且每张网 页所含的这些链接的内容都是一样的,页面底部是公司简介、版权认证等内容。 可见,对于每一张网页,由于头部、底部和右部的内容信息完全相同,只是网站 对网页结构安排设计的一个框架,对该网页内容信息的表达并无贡献,所以没有 必要对其中的信息进行关注。唯有中部信息是最能反映该网页内容的,它是对某 个应用或者方法等的具体阐述,表达了行文作者的观点,因此将网页特征信息的 抽取范围锁定在中都。 抽取范围虽然已大致锁定,但如果对这个范围全面抽取内容信息仍需相当大 的工作量,会造成系统开销大,资源浪费等不利因素。是否可以考虑从小部分内 容中获取可以反映整个网页的内容信息呢? 如何定位这小部分区域? 这是本文研 究的焦点。 从选定的网站下的网页内容信息看,主要是涉及电脑知识方面的内容。文章 结构也比较单一,很显眼的便是文章标题,表明了该文的主题,因此首先我们应 将标题信息抽取出作为表征该文特征信息的部分之一。显然,光有标题部分信息 是不够的。考查该网站下的大量网页,从中发现这些文章虽然可归类为科技文献, 但并没有象其他科技文献那样标注出该文的关键词和摘要等可直接抽取出来表征 文章信息的部分,因此,对特征抽取工作的进行增加了难度。 进一步的分析定位于文章中的特殊标记等信息。发现在多数文章中都会用简 短的几个字对相关部分内容作个归纳,相当于段落小标题形式,这简短的几个字 往往就是对接下来几个段落内容的概括, 的词汇对描述文章主体思想是有贡献的。 因此认为抽取出这些带有归纳总结性质 这项技术的应用参考了特征片技术( 文 献【4 】) ,认为这些简短文字在一定程度上能反映文章的中心思想,于是将其作为语 义特征片进行抽取。在具体抽取实现时,由于文章作者对这些字体作了加粗处理, 使得在自动抽取时利于编程实现。 光有以上两种抽取特征的方法来表征网页内容还是不够的,还需要考虑从文 9 重庆大学硕士学位论文 2 网页特征词的抽取 章内容着手。即希望能从文章中找出能反映其主题思想的段落内容来。在特征片 技术中,把有特殊含义的语义片断抽取出来作为主体内容的表征,此所谓特征片。 也就是说,虽然特征片只是整个文档的部分信息片断,但几乎能反映整个文档的 内容。本文在研究此项技术后,觉得文章中某些有特殊含义的段落也可作为语义 特征片抽取出来。 按照自然语言行文的习惯,人们往往喜欢采用这样的结构组织一篇文章:即 在文章首段对即将描述的内容作个简要介绍,起到一个开门见山的作用,让读者 能一目了然地了解文章大致内容。在文章末段则对已经描述的内容作个总结,让 读者在读完文章之后能理清思路,迸一步明确作者行文的目的,这样,对整篇文 章起到了一个画龙点睛的作用。除开首段和末段之外的其余自然段,则是对内容 的详细阐述了。 我们在处理网页中文章的特征抽取时,充分利用了自然语言行文的特点,分 析文章首段和末段内容,发现大部分文章仍有这个规律,即先概述后总结。也有 部分文章在开始前两段中引入文章主题。因此,文章开始前两段和末段都作为我 们待考查的对象,是否将这三部分都作为特征片进行提取,是需要仔细考虑的问 题。因为如果段落选得太多,而信息又有重复的话,会使得系统开销大,造成不 必要的资源浪费:如果段落选得太少,虽然节省了时间开销,但唯恐不能抽取出 主要信息,所以应该对选取的范围作分析比较,看究竟该如何界定。 为了确定抽取范围。本文选取了该网站下电脑知识专题中的8 0 张网页作为测 试网页,并由同组的四位研究人员参与实验,平均每人测试2 0 张网页,分析首段, 第二段和末段对整篇文章内容的影响,找出能较大程度反映文章中心的段落。 实验对选取的网页进行主题思想分析,先人工对整篇网页标引出关键词,再 分别从第一段、第二段和末段标引出关键词,比较从这三个位置所能抽取出的关 键词对文章主题分析的贡献情况。比较结果见表2 ,1 所示。下面用一个具体例子说 明特征抽取范围的选择情况。 比如分析一篇题名为“a s p 组件中的安全问题”的文章, 它的第一段文字内容如下:“m i c r o s o f t 推出的a s p ( a c t i v e s e r v e r p a g e ) 以简单、 易用、功能多、可扩充性等强大功能得到了网友和大多数网管的喜爱,大有完全 代替c g i 的趋势。但是我要对你说,如果使用a s p 的话,你网络的安全同时也大 大降低了! ” 第二段中的文字如下:“在我继续说下去之前,请你完成以下步骤:” 末段文字内容为:“上面所说的是a s p 组件的安全问题! 另外如果有些作者在 写a s p 组件时不小心留下系统b u g ! 那就更加不易被人发觉了! ” l o 重庆大学硕士学位论文2 网页特征词的抽取 在上例中,首先从题目可知该文主要是讲a s p 组件的安全问题,作者在首段 引出他的观点,即如果用a s p 的话,网络安全值得注意。从第二段的文字可看出, 接下来的段落就该分析有关这些安全问题的情况了。末段则对前面所述内容作了 总结。对文章经过实际分析后发现,确实在第二段之后便是对安全问题的具体描 述,而单纯抽取首段和末段,也能大致明了此文的目的所在。 按照这种方法,实验小组成员各自进行了分析,实验结果如下: 表2 18 0 篇网页的测试结果 t a b l e2 ie x a m i n a t i o nr e s u l t a b o u t8 0 w e b p a g e s 人员代号人工标引网首段包含的关末段包含的关首末两段包含首两段、末段 页关键词总键词数目和百键词数目和百关键词数目和包含关键词数 数分比分比 百分比目和百分比 田 1 1 07 87 0 9 1 5 l4 6 3 6 8 37 5 4 5 8 37 5 4 5 乙1 0 8 7 6 7 0 3 7 4 54 1 6 7 7 97 3 1 5 8 07 4 0 7 丙 1 2 08 l6 7 5 5 44 5 8 57 0 8 3 8 67 1 6 7 丁 1 1 57 26 2 6 1 5 04 3 4 8 7 86 7 8 3 7 86 7 8 3 总计4 5 3 3 0 76 7 7 7 2 0 04 4 1 5 3 2 57 1 7 4 3 2 77 2 1 9 从上表的实验数据看来,如果只单纯抽取首段或者末段,对标引整个网页主 题贡献不大,但如果将两者综合起来考查,效果则明显好于前两者:而在加入第 二段内容后进行抽取,效果和不考虑其差异不大,也就是说,第二段内容考查与 否对整个网页的特征抽取的准确性影响很小,为了减少系统开销,本文便不将其 作为特征抽取的范围考虑了,而只抽取首末两段。 通过对网页的结构和内容的分析,本文针对网易网站下电脑知识专题系列网 页的特征抽取将定位于四个因素,即文章标题,文章首段、文章末段以及文章中 的黑体字。由这四个特征片共同决定网页的主题内容。 网页特征片的确立有两个重要的用途: ( 一) 对提取出的特征片进行分词处理后,把领域特征词以及一些领域相关 的通用词汇放入系统定义的“领域字典”,该字典主要用于存放该行业的关键词。 在放入词语时首先判断是否已包含在领

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论