(计算机科学与技术专业论文)文本分类语料库自动构建系统的研究与改进.pdf_第1页
(计算机科学与技术专业论文)文本分类语料库自动构建系统的研究与改进.pdf_第2页
(计算机科学与技术专业论文)文本分类语料库自动构建系统的研究与改进.pdf_第3页
(计算机科学与技术专业论文)文本分类语料库自动构建系统的研究与改进.pdf_第4页
(计算机科学与技术专业论文)文本分类语料库自动构建系统的研究与改进.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机科学与技术专业论文)文本分类语料库自动构建系统的研究与改进.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:豸j 驻立斗日期:一型型丛 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :李渺渺导师( 签名) :乡移 日期:砂r2 多 摘要 语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模 型方法处理自然语言的基础资源,它的建设和应用一直是语言处理领域的重要 论题之一。目前我国在中文语料库的建设和应用上取得了不少的成果,其中一 些也可以利用在文本分类领域。但随着信息处理技术的快速发展,语言信息处 理领域内的各类应用需要大量的专业性强的文本分类语料库,而传统的语料库 构建方法在时效性、专业性等方面并不能完全满足这些需求,因此文本分类语 料库的构建已经成为一个十分重要的研究课题。 本文主要研究并优化了一种自动构建中文文本分类语料库的方法,具体工 作主要包括以下几个方面: 1 、分析研究了一个计算机语料库自动构建原型系统,熟悉理解了计算机语 料库的相关理论以及该自动构建系统的设计思想与具体实现方法,在研究分析 的基础上总结出了针对该原型系统的一些优化思路。 2 、研究并实现了种基于网页密度特征的正文抽取方法。该方法通过将网 页解析成文本块集,并计算所有文本块的密度特征后,使用决策树算法构建文 本块的分类预测模型,然后根据这个分类模型识别分类网页的文本块,从而过 滤出识别为正文块的文本块,构建成网页的正文信息。 3 、分析了网页消重的相关技术及现有的网页消重算法并简单比较了它们的 优缺点,最后研究了一个基于s h i n g l i n g 的网页消重改进方法。该改进方法通过 抽取网页的正文信息并转换成相应的文本文档,再利用词性属性提取出有实际 语义的实词来表示文档,最后根据表示文档的特征项集合的元素个数之间的比 值将待计算相似度的文本文档进行粗分,避免不可能相似的文档之间的相似度 计算,从而提升文档集中的相似度计算性能。 4 、根据原型系统的优化思路将本文研究实现的网页正文抽取方法与改进的 消重算法应用于该计算机语料库自动构建原型系统,并对优化后的系统进行了 一定的分析与实验。 从分析与实验结果可知,通过优化后的计算机语料库自动构建系统得到的 文本分类语料库具有较高的准确度,在文本分类应用中有着良好的效果。 关键词:正文抽取;网页消重;语料库;w e b 数据挖掘 a b s t r a c t 砀et w oo fc o r p u sa n dn a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) a r ec o m p l e m e n t a r y t oe a c ho t h e r , t h ec o r p u si st h eb a s eo fm a n yn l pa p p l i c a t i o n su s i n gs t a t i s t i c l a n g u a g em o d e l ,a n di t sc o n s t r u c t i o na n da p p l i c a t i o ni so n e o ft h ei m p o r t a n tt o p i c si n n l p a t p r e s e n t ,o u rc o u n t r yh a sm a d eq u i t ea n u m b e ro fi m p o r t a n ta c h i e v e m e n t si n c o n s t r u c t i o na n da p p l i c a t i o no fc h i n e s ec o r p u s ,a n ds o m er e s e a r c hr e s u l t sa r ea p p l i e d t ot h ec h i n e s et e x tc a t e g o r i z a t i o n h o w e v e r , w i t ht h ed e v e l o p m e n to fi n f o r m a t i o n p r o c e s s i n gt e c h n o l o g y , m o r ea n dm o r en l pa p p l i c a t i o n sr e q u i r ea l o to fc h i n e s et e x t c l a s s i f i c a t i o nc o r p u sw i t hh i 曲s p e c i a l i z a t i o n , b u tt h et r a d i t i o n a lm e t h o do fc r e a t i n g c o m p u t e rc o r p u sc a nn o tc o m p l e t e l ym e e tt h er e q u i r e m e n ti nt i m e l i n e s sa n ds p e c i a l t y , t h u st h ec o n s t r u c t i o no fc h i n e s et e x tc l a s s i f i c a t i o nc o r p u sh a sb e e no n eo fi m p o r t a n t r e s e a r c hi s s u e s i nt h i st h e s i s ,a na u t o m a t i cc o n s t r u c t i o ns y s t e mo fc h i n e s ct e x tc l a s s i f i c a t i o n c o r p u sh a sb e e ni n v e s t i g a t e dt h e o r e t i c a l l ya n di m p r o v e de f f e c t i v e l y , a n dt h em a i n r e s e a r c hw o r ka sf o l l o w s : 1 s m d i e dt h et h e o r ya n dt e c h n o l o g yo f c o m p u t e rc o r p u s ,a n a l y z e da na u t o m a t i c c o n s t r u c t i o ns y s t e mo fc h i n e s et e x tc l a s s i f i c a t i o nc o r p u s ,i n c l u d i n gi t sd e s i g nt h o u g h t , i m p l e m e n t a t i o np r o c e d u r ea n dm e t h o d o l o g y , a n dt h e np r e s e n t e ds o m eo p t i m i z a t i o n i d e a sb a s e0 nt h ed e t a i l e da n a l y s i st ot h ep r o t o t y p es y s t e m 2 p r o p o s e da n di m p l e m e n t e da l la p p r o a c hf o rc o n t e n ti n f o r m a t i o ne x t r a c t i o no f w e b p a g eu s i n gi t sd e n s i t yf e a t u r e s 1 1 1 em e t h o df i r s t l yp a r s e sa n dp a r t i t i o n st h ew e b p a g e si n t ot e x t u a lb l o c k s ,t h e nc a l c u l a t e st h ev a l u eo ft h e i rs p e c i f i cd e n s i t yf e a t u r e s , a n df i n a l l yu s e sc 4 5d e c i s i o nt r e ea l g o r i t h mt oc o n s t r u c tac l a s s i f i c a t i o nm o d e lo f t e x t u a lb l o c k s 、聃mt h ec l a s s i f i e r , t h ec o n t e n ti n f o r m a t i o no fw e bp a g e sc a l lb ee a s i l y a n dp r o p e r l ye x t r a c t e db yi d e n t i f y i n gt h e i rc o n t e n tt e x t u a lb l o c k s 3 i n t r o d u c e dt h er e l a t e dt e c h n o l o g yo fw e b p a g ed e - d u p l i c a t i o n , d e s c r i b e dt h e r e p r e s e n t a t i v ew e b p a g ed e - d u p l i c a t i o na p p r o a c h e sb r i e f l yw i t hf o c u so nt h e i ru n i q u e c h a r a c t e r i s t i c s ,a n dt h e nd e a l sw i ma l li m p m v e dw e b p a g ed e - d u p l i c a t i o na p p r o a c h b a s eo nt h es h i n g l i n ga l g o r i t h m t h ei m p r o v e dm e t h o df i r s t l ye x t r a c t st h ew e b p a g e s c o n t e n ti n f o r m a t i o n 嬲t e x td o c m n e n t , a n dt h e nr e p r e s e n t st h et e x td o c u m e n t 勰as e t h o fu n i q u ec o n t i g u o u ss u b s e q u e n c e so fn o t i o n a lw o r d s ,f i n a l l yr o u g h l yc l a s s i f i e st h e t e x td o c u m e n t su s i n gt h er a d i oo ft h es e t se l e m e n tn u m b e rs oa st oa v o i dt h en e e d l e s s s i m i l a r i t yc o m p u t a t i o na n di m p r o v et h ep e r f o r m a n c e 4 i m p l e m e n t e dt h eo p t i m i z a t i o ni d e a sb ya p p l y i n gt h ec o n t e n t i n f o r m a t i o n e x t r a c t i o nm e t h o da n dt h ei m p r o v e dw e b p a g ed e - d u p l i c a t i o na p p r o a c h t ot h e a u t o m a t i cc o n s t r u c t i o ns y s t e mo fc h i n e s et e x tc l a s s i f i c a t i o nc o r p u s e x p e r i m e n t ss h o wt h a tt h ec h i n 雠t e x t c l a s s i f i c a t i o nc o r p u sw h i c hc o n s t r u c t e d b yt h ei m p r o v e da u t o m a t i cc o n s t r u c t i o ns y s t e mi sm o r ea c c u r a c ya n d c a l ls h o wg o o d p e r f o r m a n c ei nt h ea p p l i c a t i o no f t e x tc a t e g o r i z a t i o n k e y w o r d s :c o n t e n te x t r a c t i o n ;w e b p a g ed e - d u p l i c a t i o n ;c o r p u s ;w e bd a t am i n i n g i i i 目录 摘要i a b s t r a c t i i 第1 章绪论l 1 1 论文选题背景及意义1 1 2 国内外研究与发展现状2 1 2 1 语料库的研究发展现状。2 1 2 2 中文文本分类技术研究现状3 1 2 3 网页消重技术研究现状4 1 3 论文的主要研究工作与结构5 1 3 1 主要研究工作。5 1 3 2 论文结构:6 第2 章文本分类语料库自动构建系统原型研究。7 2 1 文本分类语料库自动构建系统简介7 2 1 1 语料库自动构建系统整体思路7 2 1 2 语料库自动构建系统实现流程及功能8 2 2 原型系统实现的相关技术。9 2 2 1 网页预处理方法9 2 2 2 网页解析与主题信息提取。l l 2 2 3 中文分词技术1 2 2 3 原型系统分析及优化思路1 3 2 4 本章小结1 4 第3 章网页正文抽取方法研究。1 5 3 1 网页正文抽取相关技术1 5 3 1 1 正文抽取相关研究1 5 3 1 2 主流抽取方法归纳分析1 6 3 2 基于密度特征的抽取方法研究1 8 3 2 1 文本块及其密度特征l9 3 2 2 抽取方法整体实现思路1 9 3 3 基于密度特征的正文抽取方法技术实现2 0 3 3 1 网页预处理2 0 3 3 2 网页解析分块2 1 3 3 3 构建文本块分类预测模型2 3 3 3 4 模型检验与分析2 6 3 4 本章小结2 7 第4 章网页消重技术研究2 8 4 1 网页消重相关技术2 8 4 1 1 文本表示模型2 8 4 1 2 文本特征抽取方法3 0 4 1 3 相似距离( r e s e m b l a n c ed i s t a n c e ) 3 2 4 2 现有网页消重算法分析3 4 4 3 基于s h i n g l i n g 的网页消重改进方法研究3 6 4 3 1 基于词性的网页文本表示方法3 6 4 3 2 相似度计算性能优化3 8 4 3 3 实验与分析评价4 0 4 4 本章小结4 2 第5 章语料库构建系统改进的有效性验证:4 3 5 1 系统优化技术实现4 3 5 2 系统优化结果验证。4 5 5 3 本章小结4 6 第6 章总结与展望4 7 致谢4 9 参考文献5 0 附蜀匙5 3 武汉理工大学硕士学位论文 第1 章绪论 1 1 论文选题背景及意义 随着w e b 2 0 的迅速普及,网络信息资源的膨胀速度成指数级增长。w e b 信 息的疯狂膨胀使得人们对信息的把握能力有所下降,庞大的信息量已经超过了 人们预期的设想。要从海量的网页文件中获取到想要的信息已经变得十分困难。 相比于互联网上网页文件的增长速度,人们处理海量信息的速度远远不够。不 仅对于互联网上的网页需要检索,人们日常生活中也需要加入检索功能,在企 业级应用的市场上,全文信息检索的需求也在增加,各种文档管理软件也需要 加入全文检索功能。在上述背景下,传统的信息检索系统已经不能满足人们的 需求,一种新的信息检索系统应运而生,这种新的信息检索系统就是搜索引擎, 而文本分类技术作为其核心的基础技术,成为了信息时代的必然选择【1 1 。 在经过数十年的研究发展后,中文文本自动分类技术已经越来越成熟,其 中基于统计学习的分类技术得到了广泛的应用,该分类技术的核心在于分类器 的设计,而分类器的实质就是一些有效准确的分类规则,这些规则是通过计算 机相关技术从一些已经被人工准确分类的文档中挖掘出来的,而这些已经被正 确分类的文档材料,在一定角度上来说就是语料库。 语料库还与自然语言信息处理相关技术紧密联系。利用计算机语料库,人 们可以对自然语言信息进行统计分析,建立相应的统计模型,从而利用统计信 息研究和应用相应的自然语言处理技术。另一方面,自然语言信息处理技术的 发展也能推动促进语料库建设与应用的相关技术发展。如从文本的净化整理到 语料的分词、标注、统计和检索等语料加工过程,都涉及到了自然语义信息处 理相关关键技术的应用。 目前我国在中文语料库的建设和应用上取得了一定的成果,其中一些研究 成果在文本分类领域也得到了相应的应用。但随着信息处理技术的快速发展, 各类研究与应用需要大量的各种专业性强的文本分类语料库,而传统的语料库 构建方法过程复杂,耗费较大,且在建设过程中容易受到干扰,因此在时效性、 专业性等方面并不能完全满足对语料库的极大需求,因此文本分类语料库的构 建已经成为语言信息处理领域的一个十分重要的研究课题。而通过利用计算机 武汉理工大学硕士学位论文 相关技术有效且准确地自动构建中文文本分类语料库,可以减少语料库构建中 依赖领域专家的知识及耗费大量人力物力等资源,能在一定程度上能够解决文 本语料库缺乏的问题,具有一定的研究和实用价值。 1 2 国内外研究与发展现状 1 2 1 语料库的研究发展现状 语料库是指按照语言学中相关的规则,使用随机抽样的处理方法收集自然 出现的书面语片段或口语片段的语言样本,并进行科学标注后汇集整理成的一 种电子文本库【2 】。它可以记载和反映自然语言的实际使用状况,便于人们观察和 把握语言事实,并能在宏观的角度上分析和研究语言的规律,为语言学的理论 研究和实践应用提供不可或缺的基础资源。 随着计算机技术的不断发展,国内外在语料库的建设与应用研究上都取得 了很大的进步,并在机器翻译,模式识别与人工智能等多个领域内得到了广泛 的实际应用。 现阶段国外应用较为成熟的现代英语语料库有c o b u i l d 语料库和朗文语 料库网( t h el o n g m a nc o r p u sn e t w o r k ) 等。其中c o b u i l d 语料库的规模是一直 在不断扩大的,已经从最初的6 0 0 万词逐步扩充到了目前的3 亿左右。朗文语 料库网则是由朗文兰开斯特英语语料库( l o n g - m a n l a n c a s t e re n g l i s hl a n g u a g e c o r p u s ) 、朗文口语语料库( l o n g m 越s p o k e nc o r p u s ) 和朗文学习者英语语料库 ( l o n g m a nc o r p u so f l e a r n e r s e n g l i s h ) 等三个较大的语料库合起来构成的一个语 料库网。 近年来投入建设或使用的中文语料库也有不少,其中已经开始使用的且具 有代表性的语料库有现代汉语通用语料库、人民日报标注语料库和t h 通用 语料库等。 ( 1 ) 现代汉语通用语料库【3 】:这个语料库是由国家语言文字工作委员会主 导建设的面向全社会各类应用需求的大型语料库,从9 0 年代初开始建设,初始 规模为7 0 0 0 万字,应用的主要目标是汉语文字的信息处理、汉语文字的规范和 标准的制订、汉语文字的学术研究和社会应用等。 ( 2 ) 人民日报标注语料库【4 】:这个语料库建设是由北京大学计算语言研 究所与日本富士通公司共同完成的。它的原始语料来源于1 9 9 8 年一整年的:人 2 武汉理工大学硕士学位论文 民日报,规模从最初的约2 7 0 0 万字不断扩充直至3 5 0 0 万字。这个语料库是我 国第一个汉语标注语料库,它加工的内容有汉语词语切分和词性标注,包括专 有名词标注,短语型标注和词的特殊用法标注等。 ( 3 ) t h 通用语料库【5 】:这个语料库是清华大学研发的,主要用于汉语自动 分词技术的中文语料库。该语料库根据对语料不同的加工处理层次进行了等级 管理,不同的处理层次对应了不同的应用目标服务。利用这个语料库,可以进 行汉语自动分词相关理论、算法和技术的研究。目前的体现了中文自动分词技 术成果有包含了9 万多个词语的信息处理用现代汉语分词词表,该词表已经 成为了许多中文自动分词系统使用的基础资源。 虽然语料库的研究及各类应用都取得了很大的进展,但随着各类应用需求 的不断深化,关于语料库的建设和应用问题依然是计算机语言学和自然语言信 息处理领域内的一个重要论题之一,研究的重点主要集中在基于语料库的自然 语言分析方法和语料的自动标注和规范等方面。语料库已经成为了一门涉及自 然语言学、智能信息科学和计算机信息学的综合性学科,在各个应用领域对语 料库进行深入的研究与应用有着广阔的前景。 1 2 2 中文文本分类技术研究现状 近些年来,随着互联网信息资源的急剧膨胀,人们对文本自动分类问题做 了很多的研究工作,产生了很多文档自动分类成果。 在对文本分类技术的研究上,国外的相关工作相比于国内有着一定的先行 性。在2 0 世纪5 0 年代末时,m m 公司的h e l u h a n 在这一领域作了深入的研究, 提出了一种利用词频统计信息进行文本自动分类的方法。1 9 6 0 年,m a r o n 率先 发表了关于自动分类算法的论文,随后k s p a r k , g s a l t o n 以及k s j o n e s 等学者 也在这一领域开展了很有成效的研究工作。目前国外的文本自动分类研究工作 已经开展到了实用化的阶段,在不少方面取得了广泛的应用,其中比较成功的 有白宫使用的邮件分类系统和路透社使用的c o n s t r u e 系统等【6 】。 在应用常用分类算法如贝叶斯方法、决策树方法、k 邻近方法等进行文本分 类时,中文与英文的处理方法有一定的差别,即在于文本预处理:英文文本是 通过空格来区分并获取文本单词,而中文中没有一个特定的分隔符,因此需要 进行中文分词处理。中文文本在经过预先的分词处理后,随后的分类过程和英 文文本分类无异。在通过分词处理文档后,需要抽取相应的文本特征来表示文 档,目前中文文本分类研究的难点主要在于解决怎么样抽取恰当的文本特征来 3 武汉理工大学硕士学位论文 表示相应的中文文本文档的问题。针对这一问题,近年来有不少相应的研究成 果如支持向量机【刀、概率模型、最大熵模型8 】和空间向量模型【9 1 等。 近年来关于中文文本自动分类的相关技术研究也得到了稳步的发展。侯汉 清教授在1 9 8 1 年时对在文本分类工作中利用计算机技术的相关作用进行了相应 的研究,同时也介绍了国外的一些在文本分类中应用计算机技术的相关研究概 况【l o 】。此后的相关研究继续不断深入,相继产生了一些具有代表性的文本自动 分类系统,如中科院的李晓黎史忠植等人应用概念推理网络进行文本分类【i l 】, 该方法的召回率达到了9 4 2 ,准确率同样也很好,达到了9 9 4 ;中科大的范 焱等人在贝叶斯和文档相似性等相关研究的工作上提出了一个超文本协调分类 器【1 2 1 ,也取得了较高的正确率。 近几年来,随着信息技术的不断发展和研究的不断深入,文本分类领域得 到了很多新的研究成果: 基于群的分类方法【l3 1 ,该技术在一定意义上可以说是进化计算研究领域的 一个分支,与进化计算类似,它通过模拟自然界中的一些生物种群的生态行为 对文本进行分类处理。目前此类方法中具有代表性有蚁群优化算法( a c o ) 与 p s o ( p a r t i c l es w a r mo p t i m i s e r s ) 1 4 】两种算法。 基于模糊粗糙集的文本分类模型。由于分类结果产生偏差的原因在于中文 中有同义词,近义词等,导致许多类之间边界模糊,因而不可以完全准确的区 分开来,因此可以加入模糊理论,通过结合模糊理论与粗糙集理论等处理这些 模糊边界,从而达到恰当分类,正是此类分类方法的应用的技术基础【1 5 】。 融合多分类器的分类方法。由于在实际分类时,数据复杂且多样性导致单 一的分类器常常有效性不够,因此融合多种分类器进行分类成为文本分类的一 个研究热点,一些融合的多分类器新方法有【1 6 】:投票机$ 1 j ( v o t i n g ) 、行为知识空 间方法( b k s ) 和证据理论( d e m p a t e rs h a f e rt h e o r y ) 等。 。 还有些研究成果如基于r b f 网络的文本分类模型切、潜在语义分类模型嗍 等也是文本分类领域的新趋势。 1 2 3 网页消重技术研究现状 网页消重技术的思想来源于复制检测方法,即判断一个文本文档中的内容 是否从其他文件中复制得到的技术。复制检测技术的研究由来已久且发展的较 为成熟,在1 9 9 3 年时a r i z o n a 大学的m a n b e r 就开发了一个在文件系统中查 找内容相似文档的工具s i i t l 9 1 ,该工具的主要思想是将字符串编码成指纹,利用 4 武汉理工大学硕士学位论文 近似指纹( a p p r o x i m a t ef i n g e r p r i n t s ) 来度量两个文档中内容的相似度。1 9 9 5 年时, 斯坦福大学的b r i n 和g a r e i a - m o l i n a 等研究人员研发出了一个文本复制检测机制 c o p s ( c o p y p r o t e c t i o ns y s t e m ) 系统框架与相应的算法【2 0 1 ,并将其应用于“数字图 书馆 工程中取得了很好的应用效果,该系统框架在后续的关于自然语言文本 重复检测系统中得到广泛的应用,因此后来的文本重复检测系统框架都与c o p s 有一定的类似性。在后来的研究中,g a r e i a - m o l i n a 和s h i v a k u m a r 等又提出了 s c a m ( s t a n f o r dc o p ya n a l y s i sm e t h o d ) 原型改进c o p s 系统【2 l 】,该系统使用了向 量空间模型( v e c t o rs p a c em o d d ) ,利用相关的统计方法计算一些统计值来比较文 本之间的相似度。贝尔实验室的h e i n i z e 研发了k o a l a 2 2 】系统用于检测剽窃信 息,该系统的相似检测原理与s i f 基本相同,近似的方法还b r o d e r 等人提出的 s l l i n g l i n 9 2 3 】方法。香港理工大学的s i 和l e o n g 等研究人员研发了c h e c k 原型 系统【2 4 】,该系统采用统计关键词的方法来计算文本之间的相似性,同时在相似 性计算时也考虑了文本文档结构信息。 2 0 0 2 年,伊利若伊理工提出了i - m a t c h 2 5 】方法,该方法从减少s h i n g l e s 个数 这个角度对s h i n e 丑i n g 算法进行了改进,通过过滤掉很多重复的s h i n g l e s 从而减 少计算改进算法性能。2 0 0 5 年,卡内基梅隆大学提出了的e r u l e m a k i n g 2 6 】算法, 该算法先将数据集合按照长度分成一些小的数据集合,在找出每个子集合中较 多重复的文档,将该子集中其他文本文档与该文档优先比较,从而减少不必要 的相似度计算,可以得到一定的性能提升。 随着信息处理技术的不断发展,产生了很多新的文本处理技术,将这些技 术如文本分类、聚类技术,特征码检索技术和特征旬抽取技术等应用于网页消 重技术中也能有很好的效果,因此将这些新技术与网页消重技术相结合也是目 前网页消重技术的研究热点。 1 3 论文的主要研究工作与结构 1 3 1 主要研究工作 本文主要的研究工作如下: l 、分析了一个计算机语料库自动构建原型系统,熟悉理解了计算机语料库 的相关理论以及自动构建系统的设计思想与具体实现方法,同时研究了针对该 原型系统的一些优化思路。 5 武汉理工大学硕士学位论文 2 、提出并实现了一种基于网页密度特征的正文抽取方法。该方法通过将网 页解析成文本块集,并计算所有文本块的密度特征后,使用决策树算法构建文 本块的分类预测模型,然后根据这个分类模型识别分类网页的文本块,从而过 滤出识别为正文块的文本块,构建成网页的正文信息。 3 、分析研究了多种网页消重算法,比较了它们的优缺点,并研究了一个基 于s h i n g l i n g 的网页消重改进方法。该方法通过抽取网页的正文信息并转换成相 应的文本文档,再利用词性属性提取出有实际语义的实词来表示文档,最后根 据表示文档的特征项集合的元素个数之间的比值将待计算相似度的文本文档进 行粗分,避免不可能相似的文档之间的相似度计算,从而提升文档集中的相似 度计算性能。 4 、将本文实现的网页正文抽取方法及消重算法应用于该计算机语料库自动 构建原型系统并分析了系统优化的实验结果。 1 3 2 论文结构 本文研究了网页正文抽取及消重的相关方法,并结合一个计算机语料库自 动构建原型系统的具体实现与应用,进行了一定的优化研究工作。论文共分为 六章,每章的主要内容如下: 第一章简述了语料库的研究与应用现状,中文文本分类及网页消重目前的 研究现状,最后介绍了本文主要的研究工作及整个论文的文章结构。 第二章介绍了一个计算机语料库自动构建系统原型,包括该原型的相关技 术理论,设计思想及实现步骤等,并针对该原型系统提出了一些优化思路。 第三章介绍了当前网页正文抽取的相关方法,并提出了一个基于网页密度 特征的正文抽取方法及其相应的实现思路与流程等。 第四章分析了现有的网页消重技术,比较了它们的优缺点,并研究了一个 基于s h i n g l i n g 的网页消重改进方法。 第五章讨论了计算机语料库自动构建系统原型的优化方法,并将本文实现 的网页正文抽取方法及网页消重方法应用于该系统,并进行了简单的模拟实验。 第六章对本文的研究工作进行总结,分析了还存在的不足之处。 6 武汉理工大学硕士学位论文 第2 章文本分类语料库自动构建系统原型研究 本章主要介绍了一个文本分类语料库自动构建系统原型,包括该原型系统 的设计思想,主要的相关技术理论及实现步骤等,通过分析提出了针对该原型 系统的一些优化思路。 2 1 文本分类语料库自动构建系统简介 文献 2 7 提出的一种自动创建中文文本分类语料库的方法,该方法将互联 网的信息资源作为语料库的语料来源,通过对采集的相关主题网页信息并进行 相关预处理后,抽取网页中的主题文本信息,再通过中文分词、获取类别核心 词从而实现自动构建中文文本分类库的。 2 1 1 语料库自动构建系统整体思路 该原型系统利用搜索引擎系统,在互联网上采集与各个的类别相关的主题 网页,并将这些采集到的网页中的正文内容抽取出来,作为初始语料来源,再 利用相关的统计方法计算出各个类别的关键核心词。然后利用各个类别的关键 词进一步采集与各类相关的网页,重复上述过程,通过反复迭代后可以得到设 定规模的语料库。该构建系统的主要过程如下: ( 1 ) 数据采集阶段:从网上采集主题相关的网页数据,保存到系统的初始 网页数据集中。 ( 2 ) 页面清洗阶段:对网页数据集中的网页进行净化等处理。由于网页的 编码各不相同,需要预先统一所有网页的编码格式,再将所有的网页转化成结 构规范符合且相关标准的x h t m l 页面。 ( 3 ) 页面解析过程:利用x m l 的相关知识解析这些标准的网页,滤除与 主题不相关的信息后抽取网页的主题正文信息,并将这些抽取的正文文本信息 保存到语料库中。 ( 4 ) 分词阶段:利用相关的分词软件,对抽取的网页主题文本信息进行分 词,并统计相应的词频和文档频度。 ( 5 ) 类别核心词获取阶段:提取出每个类别的类别核心词,再分别计算各 7 武汉理工大学硕士学位论文 个类别核心词的重要性并进行排序。 ( 6 ) 规模控制阶段:利用( 5 ) 中获取的类别核心词及对应类别信息,继 续采集网页,迭代以上步骤,直到语料库的规模满足设定要求。 ( 7 ) 语料库有效性验证:使用多种分类算法及测试语料库来验证系统构建 的语料库的有效性。 2 1 2 语料库自动构建系统实现流程及功能 系统的工作流程图如图2 - 1 所示。 图2 1 系统流程图 系统具备的功能模块如图2 2 所示。 8 武汉理工大学硕士学位论文 图2 - 2 系统功能图 2 2 原型系统实现的相关技术 语料库自动构建系统实现涉及到了许多信息处理的相关技术,本节将主要 研究原型系统实现过程中应用的几个主要技术。 2 2 1 网页预处理方法 原型系统使用g o o g l ew e ba p i ,采集互联网上相关的主题网页,而由于网 页的多样性,需要进行一些预处理才能用来作为构建语料库的“原材料 ,因此 该系统使用的网页预处理相关技术如下: l 、页面编码识别与转换 由于网页制作的人员不同、制作工具多样、遵循的技术标准也不尽相同, 从而会导致这些网页的编码形式也不相同,因此在w e b 数据应用服务中,需要 先对网页数据进行正确匹配的编码和解码工作。因为一旦出现编码解码不匹配 的状况时,系统就会出现乱码,并最终会在解析网页过程中出现相应的错误, 因此通过以上分析可知需要对页面的编码进行识别并转换成统一编码,让应用 程序可以统一处理解析所有网页。 针对网页编码的识别问题,胡燕、吴韦等提出了一种网页编码识别和统一 的算法【2 3 1 ,该方法通过理论分析认为,中文网页编码的识别主要是判断网页是 g b 2 3 1 2 编码方式或是u t f 8 编码方式。该算法先直接判断字符流是不是常用的 9 武汉理工大学硕士学位论文 g b 2 3 1 2 编码,不是的话再利用u t f 8 编码中的汉字规律去判断输入的字符流是 不是u t f 8 编码,算法实现比较简单,在一定程度上可以解决由于页面编码不 尽相同而导致中文网页解析时出现错误的问题。 2 、页面标准化 由于h t m l 标准并不严格要求网页编写要按规范书写,且不同浏览器厂商 之间的竞争致使各类浏览器具有较强的容错功能,从而符合不同h t m l 标准的 网页都可以被浏览器支持,且就算语法错误的一些h t m l 代码也能被正确的显 示出来。这样容错机制虽然使网页的设计制作更加方便,但却使网页的解析变 得相当困难。目前网络上有着大量的这种类似的糟糕网页,因此,只有先对网 页进行标准化处理,才能构建统一的网页解析程序。 目前w 3 c 制定了具有严格格式规范的相关标准,如x h t m l 、x m l 等。为 了更为正确且简便地解析h t m l 网页,我们应该忽略不同页面标准之间的差异, 因此可以将网上下载下来的所有网页转换成符合x h t m l 标准的网页,从而可 以简单的被h t m l 或者x m l 解析器进行解析。x h t m l 标准中对代码的主要约 束如下: 打开的标签必须被关闭。例如“ h e l l ow o r l d ! 一,该语句中的标签没有关 闭,在语法上是错误的,必须关闭标签,因此正确的语句可以写成如“ h e l l o w o r l d ! 所示。 标签应该被正确的嵌套。如。 h e u ow o r l d ,需要改成如 “ h e l l ow o r l d ! i 枷一所示。 网页文档要有根标签 。网页中的所有的标签元素必须被嵌套在 中。其他的所有标签都可有子标签,并且子标签应该是成对的且被嵌套在 其父标签中。 除去上面介绍的约束外,还有其他的一些较为常见的约束,如属性值必须 要加上双引号、所有的属性值应该被正确赋值,属性名称只能小写且不能简写 等。 目前已经有一些开源程序可以有效的检查网页中不合规范的语法错误,并 能页面进行规范化转换及修复,如t i d y ,h t m l p a r s e r 和n e k o h t m l 等。该原型 系统采用了t i d y 这个开源工具对采集到的页面进行了标准化处理。 l o 武汉理工大学硕士学位论文 2 2 2 网页解析与主题信息提取 通过对采集的网页进行预处理后,该系统接着对网页进行解析。目前解析 技术主要有两种模型:d o m ( d o c u m e n to b j e c tm o d a l ) 和s a x ( s i m p l ea p if o r x m l ) 。该原型系统的实现采用了d o m 模型,并利用t i d y 这个工具对网页进行 了解析。t i d y 在解析过程中,是将网页的内容在内存中映射成一颗d o m 树,并 对d o m 树中的相应节点进行读写等操作。d o m 树结构如图2 3 所示。 图2 3d o m 树结构 t i d y 对d o m 树的节点操作函数如表2 - 1 。 表2 - 1t i d y 主要操作函数 函数名称函数功能 t i d y g e t r o o t取得d o m 树的根节点 t i d y g e t p a r e n t取得当前节点的父节点 t i d y g e t c h i l d取得当前节点的第一个孩子结点 t i d y g e t , _ n e x t取得当前节点的一下个兄弟结点 t i d y g e 国r e 丫取得当前节点的上一个兄弟结点 t i d y a t t r n a m e l i s t取得当前节点的的属性集合 t i d y i n se r t n o d e插入一个节点 t i d y u p d a t e更改当前节点的值 武汉理工大学硕士学位论文 利用t i d y 的操作函数对d o m 树进行遍历,就可以得到包含正文的节点信 息。通过对大量的网页进行分析可知,在h t m l 中包含正文信息的标签主要有 标签、 标签和 标签。因此,该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论